Vous êtes sur la page 1sur 20

Econométrie de la régression linéaire multiple par S.P.S.S.

Par Abdeljabar RAFIKI1

Résumé :

Cet article met en lumière, l’exploration complète de la procédure d’utilisation du logiciel


SPSS version 10.Fr dans le traitement du modèle de régression linéaire multiple. Il tend à
mettre au service des chercheurs un outil puissant de traitement de l’information relevant du
domaine de l’économétrie de la régression à l’aide d’un exemple concret. Le lecteur trouvera
dans cette présentation, une exploitation complète des potentialités de SPSS selon les étapes
du modèle linéaire multiple théorique.

1
Professeur à la Faculté des Sciences Juridiques Economiques et Sociales de Meknès- Maroc

1
Introduction

Dans cette exploration, nous nous sommes appuyés sur un exemple concret de
modélisation du levier d’endettement des entreprises par un modèle linéaire multiple spécifié
par six variables exogènes supposées déterminant l’endettement dans la théorie financière. La
spécification du modèle théorique de l’endettement contient les variables rentabilité, la taille
de l’entreprise, la composition d’actif, la croissance de l’entreprise, les garanties fournies, et
le risque de faillite. Mais, après examen des données, on est abouti à un modèle final de levier
d’endettement des entreprises constitué de quatre variables seulement. De nombreuses raisons
tant théoriques qu’empirique expliquent pourquoi certaines variables sont retenues alors que
d’autres ne le sont pas. La réponse à ces questions constitue le principal objectif de cet article.

A des fins méthodologiques et pédagogiques, les conditions d’application du modèle et


ses hypothèses sont présentées en premier lieu, suivis de la validation enchainée de ces
différentes étapes et leurs mises en œuvre par SPSS Version 10.Fr. La méthode de sélection
des variables explicatives de l’endettement utilisée dans ce traitement est la régression linéaire
multiple pas à pas en raison de sa capacité à classer les variables par leur ordre d’importance
dans la construction du modèle final explicatif de l’endettement. Ainsi, l’analyse d’un aspect
souvent marginalisé lors des études de la régression à savoir l’influence des observations
individuelle sur les coefficients et la qualité du modèle sera également abordée. Toutefois, les
développements théoriques du modèle ne font pas l’objet de cet article.

I- Les conditions d’application du modèle de régression multiple


Le modèle de régression linéaire multiple à un pouvoir explicatif, il consiste à valider
l’existence ou l’inexistence d’une relation entre une combinaison linéaire des variables
quantitatives2 exogènes et un phénomène endogène quantifié. Les données sur les variables
sont observées sur un échantillon de taille n à un instant « t » donné. On représente
généralement le phénomène à expliquer par Y et les variables explicatives par X i (avec i =
1………k). La relation supposée linéaire entre l’endogène est l’exogène est fréquemment
observée en sciences sociales c’est le cas par exemple de l’effet du revenu sur la
consommation dans la théorie keynésienne.

II- La spécification mathématique du modèle


L’écriture mathématique de la spécification du modèle linéaire multiple prend la forme :
Y i =β 0 + β 1 X 1 + β 2 X 2i + .. .. . .. .. . .. .. . .. ..+ β k X ki +ui
i

2
Il est toutefois possible d’ajouter les variables muettes dans le modèle.

2
Où¿{Yi:l'endogène¿{Xik:les xogènes¿{βi:mesur l'ef tduchangemntd'une itédeXisurYienmoyen ¿{β0:l'intercpt,el mesur l'ef tsurlamoyen Yilorsquetosle Xisont uls¿{ui:Letrmeésiduel,irasembl tousle autresfacteursafectanlephénomène ¿
III- Les hypothèses théoriques du modèle
Les hypothèses théoriques suivantes doivent être vérifiées empiriquement, ce qui constitue
une contrainte à la validation d’un modèle de régression multiple dans son approche globale 3.
Les principales hypothèses sont :
Hypothèse N°1 : La moyenne des résidus est nulle : E(u i )=0
Hypothèse N°2 : L’homoscédasticité, c'est-à-dire la variance des résidus est constante, pour
toutes valeurs de Xi fixe, elle est égale à u²
Hypothèse N°3 : absence d’aucorrélation des résidus, c’est-à-dire La covariance
Cov (ui ;u j )=0 , pour tout i ≠ j.
Hypothèse N°4 : La distribution des probabilités des résidus suit une loi normale de moyenne
zéro et de variance u².
Hypothèses N°5 : Absence de corrélation entre les exogènes Xi et le terme résiduel (
ui )
Hypothèse N°6 : Absence de multicolinéarité entre les Xi c'est-à-dire les variables exogènes
sont indépendantes

IV- Construction des données et la modélisation


Les variables supposées déterminants l’endettement ( Υ ) , d’après la théorie financière,
sont la rentabilité( 1 ) , la taille de l’entreprise( 2 ) , la composition d’actif( 3 ) , la
Χ Χ Χ

croissance de l’entreprise( 4 ) , les garanties fournies( 5 ) , et le risque( 6 ) Les données


Χ Χ Χ .

sur les variables (Tableau I, ci-après) sont calculées à partir des bilans et des comptes des
produits et charges de 29 sociétés à caractère non financier cotées en bourse en 2004. Ces
données seront examinées, dans ce qui suit, dans la perspective de déterminer les quels des
facteurs sont considérés comme les vrais déterminants du levier d’endettement des sociétés
cotées en bourse de Casablanca.4
Le modèle linéaire exprimant la relation entre les variable Xi et le levier s’écrit :
Y i = β 0 + β 1 X 1 + β 2 X 2 + β3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 +ui
i i i i i i (Avec i =1,2,…29) Equation (1)

3
Si au moine l’une de ces hypothèses n’est pas vérifiée le modèle doit être révisé et réexaminer
4
Nous vous renvoyons à l’article de RAFIKI (2007) publiée dans la revue REMALD, N° 80, pour toutes
informations complémentaire sur la démarche de l’élaboration des données et de l’échantillon.

3
Tableau I : Données sur les variables
Sociétés Y X1 X2 X3 X4 X5 X6
1 0,43 0,03 0,05 0,48 0,38 0,02 1,01
2 0,07 0,10 0,04 0,28 0,21 0,00 0,39
3 0,11 0,11 0,16 0,33 0,18 0,00 0,37
4 0,24 0,10 0,14 0,42 0,25 0,02 0,29
5 0,16 0,09 0,05 0,23 0,83 0,07 1,06
6 0,31 0,05 4,89 0,21 0,06 0,02 0,08
7 0,12 0,17 0,05 0,19 0,74 0,02 0,27
8 0,18 0,08 0,03 0,21 0,38 0,02 0,56
9 0,00 0,14 0,09 0,33 0,00 0,21 0,59
10 0,06 0,14 - 0,05 - 0,76 0,28 0,00 0,05
11 0,28 0,07 - 0,02 0,16 0,31 0,00 0,47
12 0,29 0,04 - 0,01 - 0,02 0,57 0,04 0,78
13 0,48 0,04 0,12 0,94 0,70 0,07 0,89
14 0,21 0,07 0,01 0,15 0,12 0,04 0,27
15 0,04 0,14 0,14 0,55 0,50 0,00 0,83
16 0,53 - 0,01 4,82 0,51 0,57 0,09 1,56
17 0,19 0,09 - 0,03 0,30 0,20 0,00 0,43
18 0,20 0,05 0,05 0,31 0,19 0,00 0,26
19 0,01 0,06 0,09 0,19 0,01 1,81 1,34
20 0,17 0,05 - 0,04 0,03 0,16 0,03 1,12
21 0,28 0,02 - 0,00 0,15 0,47 0,07 1,71
22 0,01 0,06 0,97 - 0,08 0,15 0,31 0,49
23 0,03 0,13 0,02 - 0,27 0,27 0,01 0,45
24 0,15 0,06 0,04 0,09 0,28 0,01 0,62
25 0,03 0,09 - 0,17 - 0,45 0,23 0,25 0,82
26 0,28 0,09 8,51 1,19 0,26 0,00 0,37
27 0,18 0,11 0,03 0,07 0,16 0,01 0,38
28 0,00 0,14 - 0,06 - 0,12 0,00 0,06 0,21
29 0,31 0,03 0,10 0,42 0,02 0,04 0,03

V- Les étapes de traitement du modèle de régression multiple par S.P.S.S.


Généralement, les étapes de la régression linéaire sont au nombre de 5, auxquelles les étapes
de vérification des hypothèses théoriques par des données empiriques et le diagnostic des
observations atypiques
Etape N°1 : Estimation du modèle par la méthode des moindres carrés ordinaires
L’estimation du modèle consiste à calculer les coefficients i (Equation 1) par la méthode
des moindres carrés ordinaires pour en déterminer l’équation de la régression. La procédure
SPSS consiste d’abord, à déclarer les variables et saisir les données correspondantes à partir
de l’éditeur des données de SPSS telles qu’elles figurent dans le Tableau I ci-dessus. Ensuite,
dans le menu analyse de S.P.S.S. on choisit régression linéaire puis on fait glisser la variable
endogène dans la zone variable indépendante (Y) et les variables exogènes(Xi) dans la zone
variables explicatives. Enfin, on choisit à partir de la zone « méthode » l’une des options

4
suivantes « Entrée, pas à pas, Eliminer Bloc, ascendante ou descendante »5 pour obtenir
l’équation de régression de l’échantillon.
* Si l’option de régression « Entrée » de S.P.S.S. est sélectionnée
La méthode de sélection des variables « Entrée » fournie les résultats d’estimation du
modèle dans sa globalité, ainsi que les statistiques d’aide à l’étude de la significativité des
coefficients du modèle. Cette méthode est normalement déconseillée pour un utilisateur initié,
on lui attribue à cet effet peu d’importance.
Tableau II : Coefficients et leur test dans le cas où l’option « Entrée » est sélectionnée
Coefficients
Coefficients non standardisés
standardisés
t de student Signification
Modèle βi Erreur standard Bêta (B)

(constante) ,335 ,047 ---- 7,083 ,000


X1 -2,397 ,378 -,707 -6,339 ,000
X2 5,593E-03 ,008 ,076 ,717 ,481
X3 ,105 ,042 ,271 2,497 ,020
X4 ,198 ,077 ,308 2,571 ,017
X5 -8,395E-02 ,049 -,195 -1,727 ,098
X6 -5,473E-02 ,046 -,166 -1,198 ,244

Les valeurs prédites par la régression sont obtenues par le remplacement des i du modèle
initial, par leurs valeurs dans l’équation (1) ce qui aboutit au modèle estimé :
Y^ =0,335−2,397 X 1 +0,00559 X 2 +0,105 X 3 +0,198 X 4 −0,00839 X 5 −0,00547 X 6 Equation (2)
** Lecture et Interprétation des premiers résultats du modèle
 Coefficients non standardisés i
β
Les coefficients i de la régression correspondent aux constances qui pondèrent chaque
prédicteur dans l’équation de régression de l’échantillon (Equation 2). Les coefficients de la
régression (colonne i du Tableau II) doivent avoir un signe identique à celui prévu par la
théorie que l’on cherche à valider. Un signe positif montre que la variable exogène varie dans
le même sens que l’endogène alors qu’un signe négatif indique une variation dans le sens
opposé. Dans notre modèle, X2, X3 et X4 évoluent dans le même sens que Y alors que les

5
Cette zone définit la méthode de sélection des variables exogène. La méthode Entrée signifie que le modèle fait
apparaître après estimation l’ensemble des variables dans l’équation de la régression sans indication sur la
qualité des variables. La méthode pas à pas descendante commence par introduire dans le modèle les variables
les plus significatives. La méthode ascendante est l’inverse de celle descendante. La méthode d’élimination par
bloc supprime de l’analyse un bloc de variable, il est déconseillé d’utiliser cette méthode lors de la construction
de l’équation de la régression comme première méthode d’estimation. La méthode pas à pas est la plus
satisfaisante, elle consiste à introduire les variables selon leurs ordres d’importance.

5
autres variables évoluent en sens inverse (Tableau II). Autrement dit, un accroissement d’une
unité de la variable indépendante ( i ) se traduit par un accroissement de  unités de la
Χ

variable dépendante.
 Erreur standard
L’erreur standard de chaque coefficient est faible (colonne 3, Tableau II) ce qui signifie
que l’écart entre β^ i calculé et la vraie valeur de i (inconnue au niveau de la population) est
faible, ceci est la preuve d’un bon signe l’inférence statistique sur le modèle.
 Coefficients standardisés
Dans le cas où les variables sont mesurées par des unités de mesures différentes, le
recours aux coefficients standardisés permet d’éliminer l’effet de l’unité de mesure des
variables. L’interprétation se ramène à l’unité d’écart type. Le coefficient standardisé exprime
le coefficient qu’il faut appliquer aux scores standardisés de la variable indépendante. Un
coefficient de -0,707 signifie qu’un accroissement d’un écart type de la variable indépendante
se traduit par une diminution de -0,707 unité d’écart type de la variable dépendante. Dans le
présent exemple l’interprétation de ces coefficients est inutile puisque les variables sont
exprimées sous forme des ratios en pourcentage.
* Si l’option de régression « Pas à pas » de S.P.S.S. est sélectionnée
L’option pas à pas est la méthode la plus satisfaisante, elle consiste à construire le
meilleur modèle final, le plus significatif, par l’introduction dans le modèle les variables
exogènes « une par une » en se basant sur le critère de significativité globale6 de ces dernières.
Le processus s’arrête lorsqu’une variable ne peut être introduite ou éliminée. En sélectionnant
cette option, le logiciel a construit quatre bons modèles selon l’importance des variables
dans l’explication du levier (Tableau III, première colonne « modèle »). Le premier
modèle est constitué de la constante et d’une seule variable explicative X 1 ; le deuxième
contient en plus de la constante, deux variables (X1 et X3); le troisième est formé par la
constante et trois variables (X1, X3 et X5); et le quatrième modèle est composé de la
constante et quatre variables explicatives (X1, X3, X5, et X4). L’ajout de la variable X2 ou
X4 ou les deux à la fois ne pourront améliorer ni modèle ni le pourcentage de la variance
expliquée. Au contraire, l’introduction de ces variables risque de créer au moins l’un de ces
6
La significativité d’une variable désigne son éventuel influence sur l’endogène au moyen du test de Student,
l’absence d’autocorrélation et l’absence de multicolinéarité. Le SPSS retient le critère suivant : Une variable est
introduite dans un modèle si la valeur F de Fisher est plus grande que la valeur d'Introduction, et elle est éliminée
si la valeur F est plus petite que la valeur d'élimination. La valeur d'introduction doit être plus grande que la
valeur d'élimination et les deux valeurs doivent être positives. Pour introduire plus de variables dans le modèle, il
faut diminuer la valeur d'introduction. Pour éliminer plus de variables dans le modèle, il faut augmente la valeur
d'élimination

6
problèmes fréquemment rencontrés au niveau empirique : multicolinéarité, autocorrélation
des résidus, hétéroscédasticité et la non- normalité des résidus. L’utilisateur peut choisir l’un
de ces quatre modèles selon le besoin ou l’objectif de l’étude en question. Nous nous limitons
dans ce qui suit à l’interprétation du modèle le plus riche en termes de variable à savoir le
quatrième.
Tableau III- Calcul des Coefficients dans le cas où la régression pas à pas est
sélectionnée
Coefficients non Coefficients t. de
Signification
standardisés standardisés student
Modèle β Erreur
Bêta
standard
1 (constante) ,380 ,041 9,304 ,000
-,720
X1 -2,439 ,452 -5,391 ,000
(constante) ,320 ,040 8,085 ,000
-,616
2 X1 -2,087 ,404
,386
-5,164 ,000
X3 ,150 ,046 3,238 ,003
(constante) ,350 ,035 10,111 ,000
-,657
X1 -2,226 ,344 -6,472 ,000
3 X3 ,138 ,039
,355
3,503 ,002
-,331
X5 -,142 ,042 -3,379 ,002
(constante) ,308 ,037 8,250 ,000
-,647
X1 -2,193 ,320 -6,843 ,000
,316
4 X3 ,123 ,037
-,277
3,301 ,003
X5 -,119 ,041 -2,936 ,007
,211
X4 ,135 ,061 2,204 ,037

Les variables, X2 et X6, ne sont pas significatives et le S.P.S.S. les a exclues de l’analyse.
Les variables sont retenues en fonction de leur ordre d’importance. La variable qui apporte
plus d’explication à Y est X1 (modèle 1) suivie de X3 (modèle 2) puis X5 (modèle 3) et
enfin X4 (modèle 4). Le modèle numéro 4 qui est formé, en plus de la constante, par X 1 ; X3 ;
X5 et X4 est le plus significatif d’après un certain nombre de critères.
Le signe des coefficients (Tableau III, colonne β ) n’a pas changé d’une méthode à
l’autre, car la méthode de régression n’affecte que les variables et non leurs signes. La valeur
des coefficients ; de l’erreur standard, de t de student et de la signification a changé sans qu’il
ait modification de leur interprétation.
L’objectif de l’étape 1 est de fournir l’estimation du modèle final du levier financier, dont
la meilleure équation de la régression est :
Y^ =0,308−2,193 X 1 +0,123 X 3 +0,198 X 4 −0,119 X 5 +0,135 X 6 (Equation 3)

Etape N°2 : Test d’hypothèse sur les coefficients


βi
 Interprétation de t de Student et de la signification
Une variable intervient dans l’explication du phénomène étudié si son coefficient est
statistiquement non nul. En ce sens, si le prédicteur considéré est véritablement capable de
prédire les variations de la variable dépendante Une telle conclusion est fondée sur le test

7
statistique de Student fourni par SPSS dans la colonne test de Student, Tableau III. Il y a
deux façons de procéder. Soit de comparer la valeur de t-Student calculé avec le t-Student lu
sur la table statistique à un seuil de signification de 5% et (n-p-2) degrés de libertés; soit de
comparer la probabilité critique (sig) fourni par SPSS dans la dernière colonne du tableau III
avec 5%. Pour toute probabilité critique associée au coefficient sous examen est supérieur à
5% alors ce coefficient est statistiquement non nul. Inversement, s’elle est inférieure à 5%.
La signification sert à confirmer ou infirmer si la valeur est déterminante dans l’explication du
phénomène en question.
La dernière colonne du tableau III, indique que tous les coefficients du modèle 4 sont
statiquement non nul au seuil de signification de 5%. Ce résultat signifie que, parmi les six
variables introduites dans le modèle initial (Equation 1), seules les variables X1 ; X3, X5 et
X4 ont une éventuelle influence sur le levier d’endettement.
Etape N°3 : Evaluation de la qualité du modèle par R² et R² ajusté lorsque l’option pas à
pas est sélectionnée
L’évaluation du modèle consiste à calculer les coefficients de détermination R-Deux et le
R-Deux ajusté pour pouvoir dégager la partie expliquée par la régression (variables retenues)
et la partie non expliquée par la régression (résidus). Les méthodes de sélection des variables
de la régression (Entrée, pas à pas …) ne doivent pas poser de problème aux lecteurs parce
qu’elles aboutissent sensiblement aux mêmes résultats. Le S.P.S.S. a fourni les résultats
relatifs à la qualité du modèle au moyen de la procédure : Menu Analyse
régressionlinéaireméthode pas à pasStatistiquesvariation de R-deux Ok.
Tableau N° IV : Récapitulatif du modèle
Modèle R R-deux R-deux ajusté Erreur standard de l'estimation
1 ,720(a) ,518 ,501 ,10
2 ,810(b) ,657 ,630 8,75E-02
3 ,874(c) ,764 ,736 7,39E-02
4 ,897(d) ,804 ,771 6,88E-02
a Valeurs prédites : (constantes), X1
b Valeurs prédites : (constantes), X1, X3
c Valeurs prédites : (constantes), X1, X3, X5
d Valeurs prédites : (constantes), X1, X3, X5, X4. Variable indépendante est Y
 Interprétation du coefficient de corrélation R
Pour chaque modèle (colonne 1), les valeurs de la colonne R (Tableau IV) désigne le
coefficient de corrélation linéaire ou l’intensité de liaison linéaire entre l’endogène Y et ses
^
valeurs préditesY c'est-à-dire le rapprochement entre l’empirique et l’absolu qui est inconnu.
Si R proche de (+1) ou (-1) alors il y a une forte corrélation. Pour les quatre modèles la valeur
de R est élevée, Ceci est un signe de la bonne qualité des modèles en question.

8
 Interprétation du coefficient de détermination R-Deux 7

Le R-Deux exprime le pouvoir explicatif du modèle dans son ensemble ou la contribution


des variables du modèle à l’explication du phénomène Y. L’introduction des variables
progressivement par le logiciel dans le modèle, améliore les coefficients de détermination de
R-Deux (colonne R-deux du tableau N° IV) en passant de 51,8% (modèle 1) à 80,4%
(modèle 4). Le R-Deux du modèle 1 signifie que la variable X1 à elle-seule explique 51,8%
de la variabilité total de Y et la partie non expliquée par le modèle représente 48,2%. Le
pouvoir explicatif du modèle 1 est faible, il ne peut être considéré comme un modèle pertinent
du levier d’endettement. L’ajout progressif des variables pas à pas, améliore R-Deux, cette
amélioration nette d’un modèle à l’autre constitue la contribution ou le pouvoir explicatif
marginale relatif à la dernière variable introduite. La contribution individuelle à R-Deux des
variables X1, X3, X5 et X4 pour l’explication du levier d’endettement sont respectivement
51,8%, 13,9% ; 10,7% et 4%. La lecture de R-Deux du modèle 4 indique que les variables X 1,
X3, X5 et X4 explique ensemble une bonne partie de la variabilité total de Y (80,4%). Le reste
(19,6%) est expliqué par le facteur résiduel. Ceci est un signe de bonne qualité du modèle. On
conclue que le levier d’endettement (Y) est expliqué essentiellement par rentabilité( 1 ) , la
Χ

composition d’actif( 3 ) , les garanties fournies( 5 ) et la croissance de l’entreprise( 4 ) .


Χ Χ Χ

Par contre la taille de l’entreprise( 2 ) et le risque( 6 ) ne peut être considérés comme


Χ Χ

déterminants de l’endettement.

 Interprétation du coefficient R-Deux ajusté


Le R-Deux ajusté prend de l’importance lorsqu’on veut comparer la qualité de deux
modèles de régression contenant chacun le même nombre de variable mais estimés sur des
échantillons de tailles différentes. Pour éliminer l’effet de la taille on corrige le R-Deux par le
R-Deux ajusté. Dans la présente situation, le R-Deux ajusté n’a pas d’interprétation.

 Interprétation de l’erreur standard de l'estimation


L’erreur standard d’estimation de chaque modèle telle qu’elle figure dans la dernière
colonne du Tableau IV est très faible. Elle indique l’erreur échantillonnale c'est-à-dire
l’importance de l’écart entre de R-Deux calculé sur l’échantillon de 29 Société et le vrai R-
Deux (inconnu) au niveau de la population. (Ceci est un bon signe du modèle).

7
La valeur de R² varie de 0% à 100%, plus sa valeur est élevée plus le modèle est généralement bon, mais elle
doit être confirmée par le test de Fisher (voir étape N°4)

9
Etape N°4 : Evaluation du pouvoir explicatif du modèle : ANOVA
L’évaluation du pouvoir explicatif du modèle consiste à tester si le pouvoir explicatif du
modèle R-Deux est statistiquement nul ou non nul. La statistique de ce test est F-Fisher, elle
est fournie dans le tableau d’ANOVA ci-après :
Tableau N°V : Analyse de la variance (ANOVA)
Somme des
Modèle ddl Carré moyen F Signification
carrés
Régression ,300 1 ,300
1 Résidu ,279 27 1,034E-02 29,062 ,000(a)
Total ,579 28
Régression ,381 2 ,190
2 Résidu ,199 26 7,649E-03 24,880 ,000(b)
Total ,579 28
Régression ,443 3 ,148
3 Résidu ,137 25 5,461E-03 27,040 ,000(c)
Total ,579 28
Régression ,466 4 ,116
4 Résidu ,114 24 4,730E-03 24,625 ,000(d)
Total ,579 28
1- Valeurs prédites : (constantes), X1
2-Valeurs prédites : (constantes), X1, X3
3- Valeurs prédites : (constantes), X1, X3, X5
4- Valeurs prédites : (constantes), X1, X3, X5, X4

Le tableau de l’analyse de la variance (Tableau N°V) conçoit deux informations


intéressantes qui méritent des explications. La première, indique pour chaque modèle la part
de variabilité expliquée par les résidus et la part expliquée par la régression. Si on prend le

4ème modèle par exemple, le rapport


( 00 ,, 114
579
=0 , 1968)
exprime la variabilité de Y qui n’est pas

expliquée par le modèle et le rapport


( 0 , 579 =0 ,804 %)
0 , 466
désigne la variabilité de Y expliquée
par les variables X1, X3, X5 et X4. Le dernier rapport n’est rien d’autre que le R² explicité plus
haut.

La deuxième information concerne la preuve de la qualité du modèle au moyen du test de


Fisher8. La caractéristique de la qualité est approuvée par le test de l’hypothèse sur R-Deux.
Le S.P.S.S. teste la nullité de cette hypothèse (H 0 : R-Deux=0 contre H1 : R-Deux#0).
L’hypothèse nulle pour chaque modèle (Tableau N° V) est rejetée à un seuil de signification
de 5%, car la p-critique = P(rejeterH 0 / H 0 est vraie )=0 , 00 % < à 5% (dernière colonne
Tableau N°V). Donc, il n’y a aucun risque de rejeter l’hypothèse nulle. On conclut des
résultats du test de Fisher pour chaque modèle que le pouvoir explicatif est statistiquement
significatif et par conséquent les modèles sont tous bons.

8
Statistiquement, Le modèle de régression est considéré comme bon si la valeur de F de Fisher est trop élevée
ou la valeur de la signification ‘ p-critique) tend vers zéro à un seuil de signification de 5%

10
Etape N°5 : Analyse de la corrélation simple, partielle et partie
Les valeurs d'un coefficient de corrélation varient de -1 à 1. Le signe du coefficient
indique le sens de la direction de la relation et sa valeur absolue indique sa robustesse, les
valeurs absolues les plus élevées indiquent les relations les plus fortes.
La procédure S.P.S.S. :
Menu analyse régressionlinéairestatistiquemesure et corrélations partielles.
Tableau VI : Corrélations
Modèl Corrélation simple Partielle Partie
e
Constante
1
X1 -,720 -,720 -,720
Constante
2 X1 -,720 -,712 -,593
X3 ,552 ,536 ,372
Constante
X1 -,720 -,791 -,628
3
X3 ,552 ,574 ,340
X5 -,289 -,560 -,328
Constante
X1 -,720 -,813 -,618
4 X3 ,552 ,559 ,298
X5 -,289 -,514 -,265
X4 ,395 ,410 ,199
 Interprétation de la corrélation simple
Elle exprime l’intensité de liaison linéaire entre chaque variable exogène prise
individuellement et la variable dépendante.
On constate au niveau du modèle 4 que les corrélations sont relativement faibles mais
restent statistiquement significatives au seuil de signification de 5%. Ceci signifie que les
observations ne présentent pas une allure parfaitement linaire avec la variable qu’on cherche à
expliquer.
 Interprétation de la corrélation partielle
Une mesure de la corrélation partielle ente Y et X 1 en gardant constant l’effet des autres
variables est une mesure de la relation directe entre Y et X 1 qui ne tient par compte des
conséquences de la relation de ces deux variables avec les autres. La variable la plus
importante de point de vue relation avec Y (Tableau VI, Modèle 4) est X1 suivie par X3 puis
X5 et X4. en terme du carré, le carré du coefficient de corrélation partielle par exemple de
r²Y,X1/X2,X3 = 0,660969 mesure la proportion de la variation de y expliquée par X1 par rapport à
la variation non expliquée par X2, X3, etc.
 Interprétation de la partie

11
La partie est la corrélation semi-partielle d’une variable indépendante. Le carré de cette
corrélation indique la réduction de R² induite par la suppression de cette Variable
indépendante de l’analyse. C’est donc la contribution propre de la Variable indépendante à R².
Dans le cas encours, la variable X1 contribue majoritairement avec 0,3819 alors X4 ne
participe que faiblement (0,039) au R². (Modèle 4, Tableau VI)
VI- Vérification des hypothèses fondamentales du modèle
1ère Hypothèse : Normalité des résidus
La normalité des résidus signifie que leur variabilité résulte de nombreuses causes
additives, indépendantes et chacune d’elle n’a pas d’effet prépondérant par rapport aux autres.
La normalité des résidus semble donc une condition nécessaire à la validation du modèle de
régression multiple dans son ensemble. Si le modèle est idéalement bon, les résidus sont
entièrement imputables à des erreurs de mesure. De ce fait, les résidus doivent posséder une
forme de distribution « en cloche », symétrique autour de la valeur prédite, avec un
aplatissement régulier des extrémités. En cas de violation de cette assomption, les tests de
signification risquent d’être biaisés.
Il existe plusieurs moyens de vérification de la normalité des résidus9, on se limite à :
Test visuel : Histogramme
Sous S.P.S.S. on part du menu analyse régressionlinéairediagrammeHistogramme.
Cette instruction donne :

9
Les tests de normalité des résidus sont nombreux, on rencontre le test de Kurtosis et de Skwenes, le test de
Kolmogorov-Sirnov, le test par comparaisons de l’histogramme avec la courbe de la-place Gausse et le test par
la droite d’Henry.

12
Puisque la courbe de l’histogramme est centrée sur zéro et elle a le même aplatissement que
celui de Laplace gausse alors les résidus sont distribués normalement (graphique 1).
Test par la droite d’Henry
Lorsque la variable est normalement distribuée, les points dessinés forment une droite
diagonale, ce qui est vérifié dans le présent exemple (graphique 2). Sous S.P.S.S, le menu
AnalyserégressionlinéairediagrammeDiagramme P-P Gaussien, aboutit à ce
résultat :
Diagramme gaussien P-P de régression de Résidu standardisé

Un très léger biais apparaît au niveau des valeurs extrêmes, mais il n’est suffisant pour
influencer la normalité. .
Test graphique : nuage de point
Selon Tabachnick et Fidell (1996), « Si toutes les assomptions sont remplies, les résidus
seront distribués presque rectangulairement avec une concentration de scores le long du
centre »

13
Les conditions de Tabachnick et Fidell sont satisfaites et par conséquent les résidus sont
normalement distribués.
2ème hypothèse : Absence d’autocorrélation des erreurs
En présence d’autocorrélation des erreurs, les estimateurs des moindres carrés ordinaires
sont sans biais mais ils ne sont pas efficaces. Dans ce cas, la méthode des moindres carrés
généralisés permet d’obtenir des estimateurs sans biais et efficaces. Le diagnostic de
l’autocorrélation des erreurs s’effectue par le test de Durbin-Watson10.
La procédure S.P.S.S. d’autocorrélation est de partir du menu analyse
régressionlinéairestatistiquestest de Durbin-Watson. La statistique du Durbin-
Watson (2,053) est fournie dans le tableau des coefficients.
Tableau VIII : Test de Durbin-Watson
Modèle Durbin-Watson
4 2,053

A un risque % fixé à priori, on compare la valeur de DW calculée ci-dessus avec celle de


la table statistique de Durbin- Watson11. La lecture de la table statistique à un risque de 5%
fixé d’avance, une taille de l’échantillon de 29 individus et 4 variables exogène donne d U
=1,12 et dL = 1,74. On constate que la statistique D.W (Tableau VIII) est supérieure à dL, il
en résulte qu’il n’y ait pas autocorrélation des erreurs.
3ème hypothèse : L’homoscédasticité
Dans le modèle de régression multiple, lorsque la dispersion des résidus restent constante
avec l’évolution des variables exogènes alors il y homoscédasticité. Puisque les résidus
correspondent idéalement à des aléas de mesure, il n’y a pas de raison que la dispersion de ces
résidus change en fonction des valeurs de la prédiction Les tests de cette dernière sont
nombreux.12On cite par exemple le test graphique qui reste le moyen le plus sûr, il consiste à
représenter graphiquement l’évolution de chaque variable exogène en fonction des résidus. Si
la variance des résidus n’évolue pas avec les valeurs des exogènes alors on est en présence
d’homoscédasticité, sinon il y hétéroscédasticité et par conséquent le modèle n’est pas fondé.
Dans le présent cas de figure il y a présence d’hétéroscédasticité causée par X1 comme
l’indique les graphiques suivants.

10
Il existe d’autres tests plus puissants d’autocorrélation, le Durbin-Watson est restrictif, il ne s’applique que
lorsqu’il y a un terme constant dans le modèle.
11
Si DW <dU alors on rejette H0 et par conséquent il y a autocorrélation des erreurs.
Si DW >dL alors on accepte H0 et par conséquent il n’ y a pas autocorrélation des erreurs.
Si du<DW<dl alors le test ne permet pas de conclure.
12
Le test de goldfelt and quandt (suppose la normalité des résidus), le test de Breusch-Pagan et le test de White.

14
4ème hypothèse : La multicolinéarité
Sous SPSS, elle est obtenue par menu analyse régressionlinéairestatistiques
Test de colinéarité.
La multicolinéarité est le fait qu’une variable indépendante est prédictible par (ou partage
sa variance) une combinaison linéaire des autres variable indépendante. Du point de vue
diagnostic, la multicolinéarité est détecté par l’un des tests suivants : la tolérance13, le facteur
d’inflation de la variance (VIF), l’indice de conditionnement, les valeurs propres et la
proportion de la décomposition de la variance.
 Interprétation de la tolérance
La tolérance est le complémentaire à 1 de R² 14(il est égale à 1-R²). C’est donc la part de
variance qui n’est pas expliquée par les autres variables indépendantes (Règle de KLEIN).
Idéalement, il doit être le plus haut possible. Si la tolérance est plus petite que 0,10, cela
mérite une investigation.

13
En régressant une variable indépendante sur les autres. Le carré du R multiple obtenu dans la régression où la
variable exogène étudiée est la variable dépendante, les autres variables sont indépendantes, représente la part
de la variance de la variable dépendante expliquée par les autres variables indépendantes. Idéalement, ce R² doit
donc être minimal.
14
Ici le R² désigne la régression d’une variable indépendante sur les autres variables indépendantes, il doit être
faible

15
Tableau IX : Coefficients et statistiques de multicolinéarité
Coefficients non Coefficients Significatio Statistiques de
t
standardisés standardisés n colinéarité
Modèl Erreur
B Bêta Tolérance VIF
e standard
(constante) ,308 ,037 8,250 ,000
1,096
X1 -2,193 ,320 -,647 -6,843 ,000 ,912
1,125
4 X3 ,123 ,037 ,316 3,301 ,003 ,889
1,092
X5 -,119 ,041 -,277 -2,936 ,007 ,916
1,122
X4 ,135 ,061 ,211 2,204 ,037 ,891

La tolérance des variables individuelles telle qu’elle figure dans le tableau IV ci-dessus
est proche de 1 ce qui montre l’absence de multicolinéarité.
 Interprétation du VIF
Le Facteur d’Inflation de la Variance des variables individuelles (VIF) est l’inverse de la
tolérance. S’il est proche de 1 ceci indique l’absence de multicolinéarité. La valeur élevée du
VIF (généralement 3,3 et plus) est un indice de présence de multicolinéarité. Dans ce cas il est
vivement conseiller de supprimer la variable exogène induisant la multicolinéarité.
Le diagnostic de multicolinéarité est décelé par une autre procédure sous S.P.S.S. cette
dernière consiste à sélectionner partir de menu Analyse : régressionlinéairestatistiques
test de colinéarité. Ceci donne ce résultat :

Tableau X: Diagnostics de colinéarité


Index de
Valeur
conditionn Proportions de la variance
propre
ement
Modèle Dimension (constante) X1 X3 X5 X4
4 1 2,979 1,000 ,01 ,02 ,03 ,01 ,03
2 ,963 1,758 ,00 ,00 ,06 ,74 ,02
3 ,708 2,052 ,00 ,05 ,68 ,08 ,00
4 ,273 3,303 ,01 ,19 ,14 ,07 ,74
5 7,681E-02 6,228 ,97 ,74 ,09 ,10 ,21

 Interprétation des valeurs propres


Les valeurs propres de la matrice des produits croisés dimensionnés et non centrés sont des
indicateurs de détection de multicolinéarité.
- S’ils sont environ égaux, alors il y a peu de multicolinéarité ;
- la valeur zéro des valeurs propres est un signe de multicolinéarité
Dans le tableau ci-dessus les valeurs sont non nuls et ne sont pas égaux, donc l’absence de
multicolinéarité est acceptée.

16
 Interprétation de l’indice de conditionnement

L’indice de conditionnement doit être inférieur à 10 sinon les variables du modèle sont
multi- colinéaires. Dans notre cas de figure ci-dessus (Tableau X) l’indice de
conditionnement ne dépasse par largement la valeur 6, 22. Donc il n’a y pas de risque
d’introduction de l’ensemble des variables dans le modèle (absence de multicolinéarité).
On peut raisonner autrement, l’indice de conditionnement global est donnée par le rapport
entre la plus grande et la plus petite valeur propre, il atteint dans le cas de figure encours la
valeur de 38,78. Si cet indice dépasse la valeur 100 alors il y aura multicolinéarité, sinon, le
problème ne se pose pas.
 Interprétation de Proportion de la variance
Proportion de la variance des variables indépendantes expliquée par toutes les autres. Si
cette variance est proche de 1, ceci indique la présence de colinéarité.
L’ensemble des tests de diagnostic de multicolinéarité converge vers un résultat identique,
qui est l’acceptation de l’absence de multicolinéarité entre les variables exogène du modèle.

VII- Examen des résidus et influence individuelle sur les paramètres du modèle
Le SPSS permet d’enregistrer les valeurs prédites et les résidus pour chaque observation,
ainsi que d’autres informations pouvant être utiles mais non détaillée dans cet article. Les
résultats obtenus par la commande ci-après permettent de juger de la validité du modèle, de
détecter les valeurs aberrantes et d’identifier les améliorations possibles.
Procédure sous SPSS : Analyse régression linéaireenregistrer cochez les cases
souhaitéespoursuivreOk.

17
 Interprétation des résidus :
** Résidus non standardisés, ils expriment la différence entre une valeur observée et la
valeur prévue par le modèle. Leur valeur doit être faible. Cette condition est satisfaite pour
notre cas puisque la différence minimale observée est de -0,24 et la différence maximale est
de 0,24.
** Résidus supprimés : Résidu d'une observation lorsque celle-ci n'est pas incluse dans le
calcul de régression. C'est la différence entre la valeur de la variable dépendante et la
prévision ajustée. Cette différence doit être faible, ce qui est le cas de notre modèle sauf pour
l’observation numéro 19.
|es|<t α
, n− p
** Résidus studentisés : les valeurs de ces résidus doivent être bornées par : 2
Dans notre cas de figures les résidus supprimés en valeur absolue ne doivent pas dépasser
2,06, donc il y a une seule valeur aberrantes c’est celle qui correspond à l’observation N° 22.
 Interprétation de la distance :
** Cook
Si la distance Cook est supérieure à 1, alors il y a une forte influence de l’observation. Dans le
cas encours, il y une seule valeur aberrante, c’est celle de l’observation N°19.
** Bras de levier
Mesure de l'influence d'une observation sur le calcul des estimateurs. Le bras de levier
centré varie de 0 (aucune influence sur la qualité de l'ajustement) à (N-1)/N. Dans la pratique,
une observation est considérée comme point levier ou bras de levier s’elle dépasse 2P/n. Dans
le cas encours, les points levier sont des observations dont la valeur dépasse 0,2758. Il s’agit
ici des observations : N° 7 ; N°19 ; et N°26.
** Mahalanobis : Mesure de la distance entre une unité statistique et la moyenne de toutes
les unités statistiques sur les variables explicatives. Une importante distance identifie une
observation qui a des valeurs extrêmes pour une ou plusieurs variables explicatives.
 Interprétation de l'intervalle de prédiction
L’intervalle de prédiction d'une "prédiction" (estimation) définit les limites dans lesquelles
situera vraisemblablement une nouvelle observation de Y si elle fait partie de la même
population statistique que l'échantillon.

Conclusion
Une application empirique du modèle de régression linéaire multiple doit normalement
valider nécessairement l’ensemble des étapes qui viennent d’être décrites dans ce papier.
L’invalidation de l’un ou de ses résultas est une situation fréquente dans les études
empiriques. L’adéquation entre l’ajustement et la réalité exige des conditions très restrictives

18
dont l’impact influe fortement sur le modèle à cause de sa sensibilité à la structure des
données. En présence de cette situation, la révision des données par la détection des
observations aberrantes ou par l’annulation de certaines variables peut constituer le remède à
ce problème, sinon, il est recommandé d’utiliser des transformations ou des méthodes
alternatives d’estimation telles que la régression ridge introduite en 1962 par A.E Hoerl, la
régression par les moindres carrés généralisés et la régression par les moindres carrés
pondérés.
La régression linéaire multiple présente quelques limites d’ordre méthodologiques qui
doivent être pris en considération lors de sa construction. D’une part, les modèles linéaires ne
sont pas toujours les plus représentatifs de la réalité parce que certains phénomènes ne
présentent pas d’aspect linéaire et ne peuvent être linéarisables. D’autre part, le risque de
multicolinéarité, ne permet pas d’intégrer un grand nombre de variables dans le modèle et par
conséquent ce dernier aura peu de justification théorique.

19
Bibliographie :
- André Lemelin., «L’induction statistique appliquée à la régression multiple”Edition 2004.
- Arcadius Yves Justin Akossou, Rodolphe Palm., «Conséquence de la sélection de variables
sur l’interprétation des résultats en régression linéaire multiple»,Biotechnol. Agron. Soc.
Environ. 2005 9 (1), 11-18.
-Brigitte Dormont., « Introduction à l’économétrie », Edition Montchrestien, 1999.
- D.N Gujarati., «Basic Econometrics», Third Ed., Mc Graw Hill, 1995.
Hanène Ben wada-Jamoussi., «Initiation à l’économétrie », Centre de publication
universitaire, 2000.
-Hocking, R.R., « The analysis and selection of variables in linear régression », Biometrics
32,1976.
-Logiciel S.P.S.S pour Windows et son Guide, Version 10.0.5, 27 Nov. 1999.
- Abdeljabar Rafiki., «Les déterminants de la structure financière des entreprises : Analyse
empirique de la situation marocaine »Revue REMALD N°80.
- Régis Bourbonnais., « Econométrie », Edition Dunod, 2004.
-René Giraud et Nicole Chaix., « Econométrie », Edition PUF, 1989.
- Thierry Foucart., « Colinéarité et régression linéaire »Revue de Mathématics and social
sciences (44 année, N°173, 2006 (1).
-Vincent Giard., « Statistique appliquée à la gestion »Edition Economica, 1985.
-Yadolah Dodge., « Analyse de régression appliquée », Edition Dunod, 1999.

20

Vous aimerez peut-être aussi