Vous êtes sur la page 1sur 54

Pratique de l’économétrie linéaire

Multi-colinéarité, hétéroscédasticité et
autocorrélation
Plan du cours
› Rappel modèle de régression multiple
› Violation des hypothèses :
› La multi-colinéarité : qu’advient-il si les régresseurs sont corrélés?
› L’hétéroscédasticité : qu’advient-il si la variance de l’erreur n’est pas
constante?
› L’autocorrélation : qu’advient-il si les termes d’erreur sont corrélés?
Rappel
Le modèle de régression multiple
Modèle de régression multiple
› Nous avons considéré le cas où une variable endogène est expliquée par une
seule variable exogène.

› C’est extrêmement rare qu’un phénomène économique puisse être expliqué par
une seule variable.

› Le modèle linéaire général est une généralisation du modèle de régression


simple dans lequel figurent plusieurs variables explicatives.

› Afin d’alléger l’écriture et de faciliter l’expression de certains résultats, on a


habituellement recours aux notation matricielles
Modèle de régression multiple
Présentation

Terme constant

Mesure la ∆ de Y pour toute ∆ de X1i lorsque X2i …Xki restent constant. Ce


paramètre est un coefficient de régression partielle= dérivée part de Y par
rapport à X1i,
Modèle de régression multiple
Hypothèses
Les cinq premières hypothèses de ce modèle sont exactement les mêmes formulée pour le
modèle de régression simple.

Les trois premières peuvent être résumé sous la forme :


La quatrième et la cinquième sont respectivement et
L’hypothèse supplémentaire: absence de colinéarité entre les Xj.
Modèle de régression multiple
Exemple
Modèle de régression multiple
Exemple
Modèle de régression Multiple
le coefficient de détermination multiple R² et le R² ajusté
Applications informatiques

la régression avec Excel La fonction DROITEREG

En appuyant simultanément sur les touches CTRL + SHIFT + ENTER, on obtient :


Applications informatiques

la régression avec Excel La fonction DROITEREG


Applications informatiques

la régression avec Excel La fonction UTILITAIRE D’ANALYSE


Applications informatiques

la régression avec Excel


La fonction UTILITAIRE D’ANALYSE
Après validation
Applications informatiques

la régression avec Eviews

En validant, on a les résultats suivants :


Violation des hypothèses
Introduction générale
Rappel des Hypothèses du Modèle Classiques (MC)
› Le modèle gaussien, standard, classique de la régression linéaire constitue la pierre
angulaire de l’essentiel de la théorie économétrique pose 10 Hypothèses:

Hypothèse 1: Modèle de régression linéaire


Le modèle est linéaire dans les paramètres :
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖

Hypothèse 2:
Les valeurs de 𝑋 sont fixées dans un échantillonnage répété. Les valeurs prises par
le régresseur 𝑋 sont considérées comme fixes dans les échantillons renouvelés. En
termes plus technique, 𝑋 est supposé non stochastique.

Hypothèse 3: L’espérance mathématique du terme d’erreur est nulle


La valeur moyenne du terme d’erreur ui est nulle. La valeur de 𝑋 étant donnée, la
moyenne ou la valeur espérée du terme d’erreur aléatoire, ui , est nulle. CAD, la
moyenne conditionnelle de ui est nulle E(ui \Xi ) = 0 ⇔ E(Yi \Xi ) = 𝛽1 + 𝛽2 𝑋𝑖
Rappel des Hypothèses du Modèle Classiques (MC)

Hypothèse 4: Homoscédasticité ou égalité des variances de 𝑢𝑖


L’homoscédasticité ou la constance de la variance 𝑢𝑖 . La valeur de 𝑋 étant donnée,
la variance de 𝑢𝑖 est identique pour toutes les observations. Ceci signifie que les
variances conditionnelles de 𝑢𝑖 sont identiques. On peut écrire :
𝑣𝑎𝑟(𝑢𝑖 \𝑋𝑖 ) = 𝐸[𝑢𝑖 − 𝐸 𝑢𝑖 \𝑋𝑖 ]²
𝑣𝑎𝑟(𝑢𝑖 \𝑋𝑖 ) = 𝐸 𝑢𝑖 ²\𝑋𝑖 ]
𝑣𝑎𝑟(𝑢𝑖 \𝑋𝑖 ) = 𝜎 2

Hypothèse 5: Absence d’autocorrélation entre les erreurs


Compte tenu des deux valeurs 𝑋,𝑋𝑖 et 𝑋𝑗 (𝑖 ≠ 𝐽), la corrélation entre deux 𝑢𝑖 et 𝑢𝑗
(𝑖 ≠ 𝐽), est égal à zéro.
𝑐𝑜𝑣(𝑢𝑖 , 𝑢𝑗 \𝑋𝑖 , 𝑋𝑗 ) = 𝐸{ 𝑢𝑖 − 𝐸 𝑢𝑖 \𝑋𝑖 }{ 𝑢𝑗 − 𝐸 𝑢𝑗 \𝑋𝑗 }
𝑐𝑜𝑣(𝑢𝑖 , 𝑢𝑗 \𝑋𝑖 , 𝑋𝑗 ) = 𝐸(𝑢𝑖 \𝑋𝑖 )(𝑢𝑗 \𝑋𝑗 )
𝑐𝑜𝑣(𝑢𝑖 , 𝑢𝑗 \𝑋𝑖 , 𝑋𝑗 ) = 0
Rappel des Hypothèses du Modèle Classiques (MC)

Hypothèse 6: covariance nulle entre 𝑢𝑖 et 𝑋𝑖


𝑐𝑜𝑣(𝑢𝑖 , 𝑋𝑖 ) = 𝐸 𝑢𝑖 − 𝐸 𝑢𝑖 𝑋𝑖 − 𝐸 𝑋𝑖
𝑐𝑜𝑣(𝑢𝑖 , 𝑋𝑖 ) = 𝐸 𝑢𝑖 𝑋𝑖 − 𝐸 𝑋𝑖 car 𝐸 𝑢𝑖 = 0
𝑐𝑜𝑣(𝑢𝑖 , 𝑋𝑖 ) = 𝐸 𝑢𝑖 𝑋𝑖 − 𝐸 𝑋𝑖 𝐸(𝑢𝑖 ) 𝐸 𝑋𝑖 n’est pas stochastique
𝑐𝑜𝑣(𝑢𝑖 , 𝑋𝑖 ) = 0

Le terme d’erreur et la variable explicative sont non corrélés. Dans notre


modèle nous avons supposé que X et 𝑢𝑖 ont une influence séparée (et additive)
sur 𝑌. Mais si 𝑋 et 𝑢𝑖 sont corrélées, il n’est pas possible d’apprécier l’effet
individuel de chaque variable sur 𝑌.
Cette hypothèse se vérifie parce que 𝑋 est non aléatoire mais aussi parce
qu’elle avait des valeurs fixées pour des échantillons répétés. Même si 𝑋 était
aléatoire mais indépendante de 𝑢𝑖 c'est-à-dire non corrélées, les propriétés des
estimateurs MCO se vérifieraient toujours si la taille de l’échantillon est très
large.
Rappel des Hypothèses du Modèle Classiques (MC)
Hypothèse 7:
Le nombre d’observations n doit être plus élevé que le nombre de paramètres à
estimer.

Hypothèse 8 : La variabilité des valeurs de 𝑿.


Les valeurs de 𝑋 dans un échantillon donné ne sont pas obligatoirement les même.
Autrement dit, 𝑣𝑎𝑟(𝑥) doit être un nombre fini positif.

Hypothèse 9: Le modèle de régression est correctement spécifié.


Ceci veut dire qu’il n’existe pas de biais de spécification ou d’erreurs dans le
modèle utilisé pour l’analyse empirique.

Hypothèse 10: Il n'y a aucune multicolinéarité parfaite.


Il n'y a pas de relation linéaire parfaite entre les variables explicatives.
Synthèse des Hypothèses du Modèle Classiques (MC)
› H1: la régression est linéaire dans les paramètres
› H2: les valeurs des régresseurs sont fixées si on dispose d’échantillons répétés
› H3 : L’espérance mathématique du terme d’erreur est nulle
› H4 : Homoscédasticité ou égalité des variances de 𝐮𝐢
› H5: Absence d’autocorrélation entre les erreurs
› H6: Covariance nulle entre 𝐮𝐢 et 𝐗 𝐢
› H7 : Le nombre d’observations 𝐧 est supérieur au nombre de paramètres
› H8 : Variabilité des valeurs de 𝐗.
› H9 : Le modèle de régression est correctement spécifié
› H10 : Il n'y a aucune multicolinéarité parfaite
Principaux problèmes liés à l’application du MC
› Ceux qui sont dus aux hypothèses sur la spécification du modèle et aux erreurs
(Hypothèses: 1, 2, 3, 4, 5, 9 et 11) Ça nous ramène a poser trois questions
principales:

› Quel est le degré d’écart par rapport à une hypothèse du MC


› Comment découvrir si une hypothèse est violée?

› Ceux relatifs aux hypothèses concernant les données ; (hypothèses 6, 7, 8 et 10).


Éléments de réponses
› Violation des hypothèses cause :

› La multicolinéarité : qu’advient-il si les régresseurs sont corrélés?


› L’hétéroscédasticité : qu’advient-il si la variance de l’erreur n’est pas
constante?
› L’autocorrélation : qu’advient-il si les termes d’erreur sont corrélés?
Violation des hypothèses
La multicolinéarité : Qu’advient-il si les régresseurs
sont corrélés?
La multicolinéarité
› 𝐻10 du MC stipule qu’il n’y a pas de multicolinéarité entre les régresseurs figurant
dans le modèle.

› Quelle est la nature de la multicolinéarité


› Quelles sont les conséquences pratiques?
› Comment la détecter?
› Quelles mesures peut-on prendre pour alléger ce problème?
Nature de la multicolinéarité
Définition
› C’est l’existence d’une « parfaite », ou exacte, relation linéaire entre quelques
variables explicatives (ou la totalité d’entre elles) d’un modèle de régression.
› Pour la régression de 𝑘 variables explicative 𝑋𝑘 , une exacte relation linéaire est
présentée si la condition suivante est satisfaite:

𝜆1 𝑋1 + 𝜆2 𝑋2 + ··· +𝜆𝑘 𝑋𝑘 = 0

› Une relation non parfaite


𝜆1 𝑋1 + 𝜆2 𝑋2 + ··· +𝜆𝑘 𝑋𝑘 + 𝑣𝑖 = 0
Nature de la multicolinéarité
Considérons l’exemple numérique suivant : 𝑋2 𝑋3 𝑋3∗
10 50 52
Il est évident que : 𝑋3𝑖 = 5 𝑋2𝑖 . 15 75 75
18 90 97
Donc: il y a colinéarité parfaite entre 𝑋2 et 𝑋3
24 120 129
puisque 𝑟23 = 1.
30 150 152

La variable 𝑋3∗ a été créé à partir 𝑋3 en ajoutant les numéros suivants, pris à partir
d'un tableau de nombres aléatoires: 2, 0, 7, 9, 2.

Maintenant il n'y a plus colinéarité parfaite entre 𝑋2 et 𝑋3∗


Mais, elles sont fortement corrélées parce que 𝑟23∗ = 0,9959.
Nature de la multicolinéarité

Y (la variable dépendante) et 𝑋2 et 𝑋3


(les variables explicatives).

Le degré de colinéarité peut être


mesurée par la (zone ombrée) des
cercles de 𝑋2 et 𝑋3 .
Nature de la multicolinéarité

› Question : pourquoi le modèle classique suppose une absence de colinéarité entre


les régresseurs ?

› Si la multicolinéarité est parfaite (𝑟𝑖𝑗 = 1), les coefficients de régression des


variables 𝑋 sont indéterminées et leurs erreurs standard sont infinies.
› Si multicolinéarité est moins que parfaite, les coefficients de régression,
possèderont de grandes erreurs standard, ce qui signifie qu’ils ne peuvent pas être
estimée avec une grande précision.
Source de la multicolinéarité

1. Méthode de collecte de données utilisée.

2. Contraintes sur le modèle ou sur la population. Exemple: dans la régression de la


consommation d'électricité (𝑌) sur le revenu (𝑋2 ) et la taille de la maison (𝑋3 ) ; il
y a une contrainte (les familles à revenus élevés ont les plus grandes maisons que
les familles à faible revenu).

3. Spécification du modèle. Exemple: en ajoutant des termes polynômiaux à un


modèle de régression, (lorsque la gamme de la variable de 𝑋 est faible).

4. Modèle surdéterminé. Dans le cas où le nombre des variables explicatives est


supérieur à celui des observations. (recherche médicale, où il peut y avoir un petit
nombre de patients sur lesquels l'information est collectée sur un grand nombre
de variables.
Conséquence théorique de la multicolinéarité

› Rappelons que si les hypothèses du MC sont satisfaites, les estimateurs MCO sont
des « BLUE ».
› Même si la multicolinéarité est très élevé, les estimateurs MCO conservent la
propriété « BLUE ».
› Théoriquement : la multicolinéarité viole partialement les hypothèses de régression,
Le seul mal est d’avoir des estimations de coefficients avec petite erreur standard.
› L’importance se réside dans la taille de l’échantillon et sa composition.
Exemple: Il sera difficile d’expliquer le comportement de la dépense de
consommation en fonction du revenu et la richesse du consommateur.

› Solution : l’échantillon doit comporter des riches à faible revenu, et des pauvres à
revenu élevé.
Conséquence pratique de la multicolinéarité

En cas de faible ou forte multicolinéarité :

1. Les estimateurs MCO « BLUE » ont de grandes variances et covariances, ce qui


rend difficile une estimation précise.
2. Par conséquent, les intervalles de confiance sont plus large, menant à
l'acceptation de la "hypothèse nulle zéro" plus facilement.
3. Et le rapport de T d'un ou plusieurs coefficients a tendance à être statistiquement
non significatif.
4. Le R², la mesure globale de qualité de l'ajustement, peut être très élevé.
5. Les estimateurs MCO et leurs erreurs standard peuvent être sensibles à de petits
changements dans les données.
Exemple les dépenses de consommation, fonction du revenu et de
la richesse

Le tableau suivant reproduit les données relatives à 𝑌𝑡 𝑋2 𝑋3


la liaison entre consommation et revenu, en ajoutant
70 80 810
des données sur la richesse du consommateur.
65 100 1009
90 120 1273
95 140 1425
110 160 1633
Avec : 115 180 1876
𝑌𝑡 représente la dépense de consommation 120 200 2052
𝑋2 représente le revenu du consommateur 140 220 2201
155 240 2435
𝑋3 représente la richesse du consommateur
150 260 2686
Exemple : les dépenses de consommation, fonction du revenu et de la
richesse
Si on suppose que la dépense de consommation est reliée linéairement au revenu et à
la richesse, on obtient à partir du tableau la régression suivante :
𝑌𝑖 = 24.7747 + 0.9415𝑋2𝑖 − 0.0424𝑋3𝑖
(6.7525) (0.8229) (0.0807)
𝑡 = (3.6690) (1.1442) (−0.5261)
𝑅2 = 0.9635 𝑅2 = 0.9531 𝑑𝑓 = 7
RAPPORT DÉTAILLÉ

Statistiques de la régression
Coefficient de détermination multiple 0,9815826
Coefficient de détermination R^2 0,9635044 Coefficients Erreur-type Statistique t Probabilité
Coefficient de détermination R^2 0,95307708 Constante 24,7747333 6,7524996 3,66897219 0,00797508
Erreur-type 6,80804069 X2 0,94153734 0,82289826 1,14417223 0,29016475
Observations 10 X3 -0,04243453 0,08066448 -0,52606213 0,61509454
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 2 8565,554074 4282,777037 92,4019592 9,28628E-06
Résidus 7 324,4459263 46,34941804
Total 9 8890
Dependent Variable: YT
Method: Least Squares
Date: 11/20/15 Time: 17:26
Sample: 1 10
Included observations: 10

Variable Coefficient Std. Error t-Statistic Prob.

C 24.77473 6.752500 3.668972 0.0080


X2 0.941537 0.822898 1.144172 0.2902
X3 -0.042435 0.080664 -0.526062 0.6151

R-squared 0.963504 Mean dependent var 111.0000


Adjusted R-squared 0.953077 S.D. dependent var 31.42893
S.E. of regression6.808041 Akaike info criterion 6.917411
Sum squared resid 324.4459 Schwarz criterion 7.008186
Log likelihood -31.58705 Hannan-Quinn criter. 6.817830
F-statistic 92.40196 Durbin-Watson stat 2.890614
Prob(F-statistic) 0.000009
Exemple les dépenses de consommation, fonction du revenu et de la
richesse

› Interprétation statistique :
La régression montre que, ensemble, le revenu et la richesse expliquent environ 96%
de la variation de la dépense de la consommation, et cependant aucun des coefficients
de pente n’est, individuellement, statistiquement significative,
De plus, non seulement la richesse n’est pas statistiquement significative, mais elle a
le mauvais signe. On s’attendrait plutôt à une relation positive entre la consommation
et la richesse.
Bien que𝛽2 et 𝛽3 soient individuellement, statistiquement non significatifs: si on test
l’hypothèse: 𝛽2 = 𝛽3 = 0 simultanément : c-à-d (d’après la tableau des résultats)

𝐹 = 92,4 cette valeur est très significative


Exemple les dépenses de consommation, fonction du revenu et de la
richesse

› Interprétation géométrique :

Limite inférieure
pour seuil de Limite supérieure pour
confiance = 95% seuil de confiance = 95%
8,807608957 40,74185758
-1,004307846 2,887382531
-0,233175723 0,148306664
Exemple les dépenses de consommation, fonction du revenu et de la
richesse

› Interprétation géométrique :
› Nous avons construit les intervalles de confiance individuels à 95% pour 𝛽2 et 𝛽3 ,
on peut accepter l’hypothèse que les deux pentes partielles prises individuellement,
sont nulles.

› Mais lorsqu’on établit l’intervalle de confiance conjoint pour tester 𝛽2 = 𝛽3 = 0,


cette dernière peut être accepté (car l’ellipse n’inclut pas l’origine).

› Le fait que F soit significatif mais le t de Student des paramètres soient


individuellement non significatives: signifie que les deux variables sont fortement
corrélées (impossible d’isoler l’effet individuel du revenu et de la richesse sur la
consommation)
Exemple les dépenses de consommation, fonction du revenu et de la
richesse

Plus loin 𝑋3𝑖 = 7,5454 + 10,1909𝑋2𝑖


1. Si on régresse 𝑿𝟑 sur 𝑿𝟐 on a : (29,4758) (0,1643)
› Cela indique l’existence d’une colinéarité parfaite 𝑡 = (0,25) (62.04)
𝑅2 = 0.9979
𝑌𝑖 = 24,4545 + 0,5091𝑋2𝑖
2. Si on régresse Y sur 𝑿𝟐 , on a : (6,4138) (0,0357)
› Le revenu était non significatif, alors maintenant 𝑡 = (3,81) (14,24)
est fortement significatif
𝑅2 = 0.9621
𝑌𝑖 = 24,411 + 0,0498𝑋3𝑖
3. Si on régresse Y sur 𝑿𝟑 , on a : (6,874) (0,0037)
› Un effet significatif sur la consommation 𝑡 = (3,55) (13,29)
𝑅2 = 0.9567
Exemple les dépenses de consommation, fonction du revenu et de la
richesse

› Première Conclusion

› Les régressions montrent clairement que :


Dans la situation de multicolinéarité extrême, abandonner la variable fortement
colinéaire rend l’autre variable statistiquement significative
Détection de la multicolinéarité

Pour détecter la multicolinéarité nous proposer quelques règles :

› C’est lorsque on a un R² très fort et les T de Student non significatifs


› Fortes corrélations par paires entre les variables explicatives.
› L’examen des corrélations partielles (critère de Klein)
› Effectuer des régressions auxiliaires
› Tolérance et facteur d’inflation de la variance
Les remèdes

Que faire lorsque la multicolinéarité est un sérieux problème?

Deux choix se présentent :


› Ne rien faire
› Adopter des méthodes empiriques :
1. L’information à priori
2. La combinaison de coupes instantanées et de séries temporelles
3. L’abandon de variables et le bais de spécification
4. La transformation de variables
Les remèdes (information à priori)

› Considérons l’exemple précèdent, nous supposons à priori que le taux de variation


1
de la consommation par rapport à la richesse présente é𝑚𝑒 du taux de variation
10
par rapport au revenu ce qui signifie que :
𝛽3 = 0.10 × 𝛽2
› On peut écrire la régression suivante : 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 0,1𝛽2 𝑋3𝑖 + 𝑢𝑖
= 𝛽1 +𝛽2 𝑋𝑖 + 𝑢𝑖
› Où : 𝑋𝑖 = 𝑋2𝑖 + 0,1𝑋3𝑖
› Une fois 𝛽2 obtenu, on peut estimer 𝛽3
Les remèdes (combinaison de coupes instantanées)

Connue sous le nom de groupement de données ou données groupées


› On suppose le modèle suivant : ln𝑌𝑡 = 𝛽1 + 𝛽2 ln 𝑃𝑡 + 𝛽3 ln 𝐼𝑡 + 𝑢𝑡
Où 𝑌 : le nombre d’automobiles vendues;
𝑃: le prix moyen;
𝑅: revenu et
𝑡: le temps
Notre objectif est d’estimer l’élasticité-prix 𝛽2 et l’élasticité revenu 𝛽3 .
› Les variables prix et revenu sont colinéaires.
Solution : 𝑌𝑡∗ = 𝛽1 + 𝛽2 ln 𝑃𝑡 + 𝑢𝑡 avec 𝑌𝑡∗ = ln𝑌𝑡 − 𝛽3 ln 𝐼𝑡
› 𝑌𝑡∗ représente cette valeur de 𝑌 après avoir enlevé l’effet de revenu.
› Dés lors on peut obtenir une estimation de l’élasticité prix
Les remèdes (abandon de variables et le biais de spécification)

› C’est une des manœuvres les plus simples est d’abandonner une variable ou les
variables colinéaires.

› Mais en abandonnant une variable de modèle, on peut commettre un biais de


spécification ou une erreur de spécification.

› Dés lors, ce remède, dans certains cas, est pire que la maladie: l’omission d’une
variable peut nous conduire à des valeurs non vraies des paramètres. Rappelons le
que les estimateurs MCO sont BLUE en dépit d’une colinéarité.
Les remèdes (La transformation de variables)

› Reprenons notre exemple, l’une des raison de la multicolinéarité entre le revenu et


la richesse dans les données, dans le temps, est que les deux variables ont tendance
à évoluer dans le même sens.

Soit la relation suivante : 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 + 𝑢𝑡


› En considérons les variables retardées :
𝑌𝑡−1 = 𝛽1 +𝛽2 𝑋2,𝑡−1 + 𝛽3 𝑋3,𝑡−1 + 𝑢𝑡−1
› Après soustraction (différences premières):
𝑌𝑡 − 𝑌𝑡−1 = 𝛽2 𝑋2𝑡 − 𝑋2,𝑡−1 + 𝛽3 𝑋3𝑡 − 𝑋3,𝑡−1 + 𝑣𝑡
Un modèle différencié réduit la gravité de la multicolinéarité
𝑌𝑡
› On peut encore utilisé le ratio de transformation 𝑋3𝑡
Exemple (sur Eviews)
Pour résumer : conséquences de la multicolinéarité

› Les 𝛽𝑖 ont des 𝜎𝛽2 et des covariances élevées rendant l’estimation des paramètres
imprécise. En cas de multicolinéarité parfaite, (𝑋’𝑋)−1 ∄ et on ne peut pas
déterminer 𝛽𝑖 parce que (𝑋’𝑋) est singulière.

› L’intervalle de confiance tend à s’élargir, conduisant au non rejet de l’hypothèse


nulle (erreur de type I) ;

› Le 𝑡 de Student tend à être très faible;

› Bien que t est statistiquement non significatif, 𝑅² est très élevé ; cas que l’on
rencontre lorsque la taille de l’échantillon est faible;

› Les 𝛽𝑖 ont des 𝜎𝛽2 sont très sensibles à des petites variations dans les données (par
exemple, ajouter ou retrancher quelques observations ou variables les faits varier
sensiblement).
Pour résumer : détection de la multicolinéarité

› La multicolinéarité est une question de degré et non de genre. Il ne s’agit pas de


tester l’absence de multicolinéarité, mais ses différents degrés.

› Un 𝑅² élevé mais avec des coefficients non significatifs (t non significatifs). C’est
le symptôme classique de la multicolinéarité :

si 𝑅² est grand (généralement > 0,80) alors que le test de 𝐹 de Fischer, est rejetée.
Pour résumer : remède à la multicolinéarité

› Abandonner les variables responsables.


› Augmenter la taille de l’échantillon (pas toujours)
› Transformation des variables (Ridge Regression)
Exercice:

› Un économiste cherche à expliquer la variable 𝑌 à


Y X1 X2 X3 X4
l’aide de quatre séries explicatives 𝑋1 , 𝑋2 , 𝑋3 et 𝑋4 .
Il désire auparavant tester une éventuelle 8,4 82,9 17,1 92 94
multicolinéarité entre ces quatre séries pour ce faire,
il dispose des données du tableau. 9,6 88 21,3 93 96
10,4 99,9 25,1 96 97
11,4 105,3 29 94 97
12,2 117,7 34 100 100
› Ces séries statistiques sont-elles colinéaires ? On
demande donc d’appliquer les tests de Klein 14,2 131 40 101 101
15,8 148,2 44 105 104
17,9 161,8 49 112 109
19,3 174,2 51 122 111
20,8 184,7 53 122 111
Exercice:

› Test de Klein: (1) étape 1 : la régression


RAPPORT DÉTAILLÉ

Statistiques de la régression
Coefficient de détermination multiple 0,99803737
Coefficient de détermination R^2 0,99607859
Coefficient de détermination R^2 0,99294146
Erreur-type 0,36136256
Observations 10

ANALYSE DE VARIANCE
Degré de
liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 4 165,8470855 41,46177137 317,513019 3,3609E-06
Résidus 5 0,652914509 0,130582902
Total 9 166,5

Limite Limite Limite


supérieure inférieure supérieure
Limite inférieure pour pour seuil de pour seuil de pour seuil de
seuil de confiance = confiance = confiance = confiance =
Coefficients Erreur-type Statistique t Probabilité 95% 95% 95,0% 95,0%

Constante -8,00230763 10,86936041 -0,736226174 0,49466135 -35,94288806 19,9382728 -35,9428881 19,9382728

X1 0,11915242 0,04859403 2,451997028 0,0577943 -0,005762514 0,24406735 -0,00576251 0,24406735

X2 -0,03839725 0,101199346 -0,379421897 0,7199547 -0,298538448 0,22174395 -0,29853845 0,22174395

X3 -0,01139777 0,089182881 -0,127802204 0,90328658 -0,240649664 0,21785413 -0,24064966 0,21785413

X4 0,08985537 0,175058198 0,513288578 0,629617 -0,36014605 0,5398568 -0,36014605 0,5398568


Exercice:

› Test de Klein:
(2) Étape 2 : calculs des coefficients de corrélation

Y X1 X2 X3 X4
Y 1
X1 0,99773334 1
X2 0,98335871 0,98831453 1
X3 0,97088047 0,96823575 0,92845721 1
X4 0,98870465 0,98766558 0,96947733 0,98195357 1

(3) Comparaison des coefficients de corrélation et le coefficient de détermination


(4) Conclusion

Vous aimerez peut-être aussi