Vous êtes sur la page 1sur 15

RÉGRESSION MULTIPLE

Sur SPSS
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE
PRÉSENTATION DE LA TECHNIQUE

▪ La régression linéaire multiple (RLM) est une extension de la régression


simple où la variable dépendante est régressée sur un ensemble de variables.

▪ La RLM sert à analyser la relation entre une variable dépendante quantitative


et plusieurs variables indépendantes (catégorielles ou quantitatives).

▪ La RLM est la technique la plus utilisée pour prédire et expliquer. Dans le cas
de l’explication, la régression sert à déterminer l’importance relative de chaque
variable indépendante par sa magnitude et sa direction.

▪ Par exemple: la fréquence d’acheter sur un site de e-commerce peut dépendre


de l’âge du consommateur, de son revenu, de son sexe, etc.
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE

PRÉSENTATION DU MODÈLE MULTIVARIÉ

L’équation de la RLM est en fait la généralisation du modèle de régression


simple :

Yi : (b1X1 + b2X2 + … + bnXn+b0) + εi

▪ Chaque variable indépendante (X) est multipliée par son propre coefficient
bêta (b) qui sous sa forme standardisée correspond à sa contribution
relative dans le modèle.

▪ b0 est l’ordonnée à l’origine (Constante)


ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE

FORMULATION DES HYPOTHÈSES

▪ L’hypothèse nulle est qu’il n’y a pas de relation linéaire entre la


combinaison des variables indépendantes (X1, X2, X3… Xn) et la
variable dépendante (Y).
▪ L’hypothèse inverse stipule que la combinaison des variables
indépendantes est associée significativement à la variable
dépendante
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE

PROCÉDURE DE RLM SOUS SPSS (FICHIER TREE_CAR.SAV)


Nous cherchons à savoir si « l’âge », « les années d’éducation » et « Revenu » influencent « le prix de la
première voiture » du ménage. Nous souhaitons déterminer, parmi ces variables explicatives, celles qui
expliquent le mieux la variable dépendante.

Pour obtenir une RLM, allez dans le


menu Analyse/ Régression / Linéaire /
placer la variable à expliquer « prix de
la première voiture » dans Variable
dépendante / placez les 3 variables
explicatives dans « variables
indépendantes »
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE

PROCÉDURE DE RLM SOUS SPSS (FICHIER TREE_CAR.SAV)

Cliquez ensuite sur « statistiques » et


demandez les Tests de colinéarité /
cochez les cases « Qualité
d’ajusement" et « descriptives et
estimations » / Cliquez ensuite sur
Poursuivre et OK
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE
Analyse de l’output SPSS (fichier Tree_car.sav)
0- Descriptives
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE

Analyse de l’output SPSS (fichier Tree_car.sav


1- Corrélations
Existence de corrélations entre le prix du
véhicule et les autres variables
explicatives. Ces corrélations sont
significatives au seuil de 5% (P<0,05)

NB : Des corrélations entre variables


indépendantes proches de 0,9 en valeurs
absolues ===risque de multicolinéarité
Nous aurions introduit deux variables qui
mesurent sensiblement la même chose pour
prédire le salaire actuel. Nous voulons éviter
cette situation
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE
Analyse de l’output SPSS (fichier Tree_car.sav
2- Absence de multicolinéarité : tolérance et VIF

• La majorité des études mettent en jeu des variables explicatives qui sont corrélées
• la régression multiple est complexifiée par la présence de multicolinéarité = Quand nous aurions
introduit deux variables qui mesurent sensiblement la même chose pour prédire le salaire actuel :
On doit donc porter attention aux relations entre les variables indépendantes
• Demander des tests de colinéarité : tolérance et facteur d’inflation de la variance (VIF).
• La tolérance est définie comme « la part de variabilité de la variable indépendante qui n’est pas
expliquée par une ou d’autres variables indépendantes ». Une tolérance élevée correspond à un faible
degré de colinéarité.
• Le seuil de 0,3 est recommandé. (tolérance >0,3 signifie absence de colinéarité)
• À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit être faible (VIF< 3 signifie
absence de colinéarité).
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE
Analyse de l’output SPSS (fichier Tree_car.sav
2- Absence de multicolinéarité : tolérance et VIF
• Dans cet exemple, la colinéarité ne
pose pas de problème pour
l’analyse car Tolérances et facteurs
d’inflation de la variance (VIF) sont
largement dans les limites
recommandées (tolérance > 0,3 et
VIF < 3). Les variables
• Les variables explicatives sont donc
peu corrélées entre elles, ce qui est
un indice de qualité du modèle
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE
Analyse de l’output SPSS (fichier Tree_car.sav
3 - Évaluation de la qualité du modèle de régression : Analyse de variance – ANOVA

▪ Comme dans le cas de la régression simple, et moyennant une transformation


adéquate, R2 permet de tester l’hypothèse H0

▪ La F(calc) est confrontée à la table de Fisher F (table) selon k degrés de liberté au


numérateur et n – k – 1 degrés de liberté au dénominateur.
▪ Si Fcalc > Ftable : on rejette l’hypothèse H0 que b1 = b2 = ... = bk = 0 et on retient
l’hypothèse H1 (qu’au moins une variable explicative a une incidence sur la variable
dépendante).
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE
Analyse de l’output SPSS (fichier Tree_car.sav
4- Évaluation de la qualité du modèle de régression : Analyse de variance – ANOVA

Analyse de variance – ANOVA

F On constate à la lecture du tableau


que selon la valeur F obtenue, on peut
rejeter l’hypothèse nulle. En effet, la
valeur de 3604,275 est significative à
p < 0,005, ce qui indique que nous
pouvons accepter, sans grand risque
(Sig. = 0,000) de se tromper, qu’au
moins une variable explicative a une
incidence sur la variable Prix du
premier véhicule.
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE

ANALYSE DE L’OUTPUT SPSS (FICHIER TREE_CAR.SAV

5- ÉVALUATION DE L’AJUSTEMENT DU MODÈLE DE


RÉGRESSION AUX DONNÉES

Coefficients de détermination : R2
Maintenant que l’on sait que le modèle est R2 prend ses valeurs entre 1 et 0.
significatif, le tableau récapitulatif des modèles
permet de déterminer la contribution des Interprétation de R2 : Les 3 variables prises en
variables indépendantes (prises ensemble) à compte, ensemble, expliquent 77 % des variations
l’explication des variations de la variable du prix du premier véhicule(R2).
dépendante
R2ajusté, plus faible que R2, tient compte de la perte
d’information liée aux degrés de liberté
ANALYSE MULTIVARIÉE Yi = (b1X1 + b2X2 + … + bnXn+b0) + εi
RÉGRESSION LINÉAIRE MULTIPLE
Prix du premier véhicule = 16,996*catégorie de revenu +

Analyse de l’output SPSS (fichier Tree_car.sav 0,384*Nombre d’années d’éducation + 0,141*Âge -19,905.
6- Évaluation des paramètres du modèle

Maintenant que nous savons que notre


modèle est significatif et qu’il explique
77% de variance, il est donc possible de
construire l’équation de régression pour
prédire une valeur de Y. L’équation de
base était la suivante :

NB : Le signe du coefficient nous indique le sens de la relation. Dans notre cas, plus le nombre d’années de
scolarité augmente, plus le prix du premier véhicule augmente. Idem pour l’âge et la tranche de revenu
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE

Conclusion
Nous pouvons conclure que le modèle est satisfaisant, car il explique 77,7 % du
prix du premier véhicule (R2). Il est significatif (voir tableau ANOVA.
Sig.,000), les coefficients de la pente de régression sont significatifs et il n’y a
pas de problème de colinéarité (tolérances > 0,3)

Vous aimerez peut-être aussi