Vous êtes sur la page 1sur 7

Etude de la relation entire plusieurs variables

Cas de la régression linéaire multiple (RLM)

La régression linéaire multiple (RLM) est une extension de la régression simple où la


variable dépendante est régressée sur un ensemble de variables. La RLM sert à analyser la
relation entre une variable dépendante quantitative et plusieurs variables indépendantes
(catégorielles ou quantitatives continues). Cette technique multivariée est la plus utilisée
pour prédire et expliquer.

- Dans le cas de la prédiction, l’objectif est de maximiser le pouvoir prédictif des variables
indépendantes.

- Dans le cas de l’explication, la régression sert à déterminer l’importance relative de


chaque variable indépendante par sa magnitude et sa direction. Par exemple, la fréquence
d’achet sur un site de e-commerce peut dépendre de l’âge du consommateur, de son
revenu, de son sexe, etc.

1. Formulation des hypothèses

• L’hypothèse nulle est qu’il n’y a pas de relation linéaire entre la combinaison des variables
indépendantes (X1, X2, X3… Xn) et la variable dépendante (Y).
• L’hypothèse inverse stipule que la combinaison des variables indépendantes est associée
significativement à la variable dépendante.

2. Présentation du modèle multivarié

L’équation de la RLM est en fait la généralisation du modèle de régression simple :


Yi : (b1X1 + b2X2 + … + bnXn+b0) + εi
Où :
• Chaque variable indépendante (X) est multipliée par son propre coefficient bêta (b) qui
sous sa forme standardisée correspond à sa contribution relative dans le modèle.
• b0 est l’ordonnée à l’origine

3. Choix de la méthode de sélection des variables de régression

La sélection d’une méthode permet de spécifier la manière dont les variables


indépendantes sont entrées dans l’analyse. SPSS offre le choix entre les méthodes
suivantes:

- Introduire (par défaut) : toutes les variables (d’un bloc) sont introduites en une seule
opération ;

- Éliminer bloc : Toutes les variables dans un bloc sont supprimées en une seule étape ;
- Hiérarchique Descendante (backward) : toutes les variables sont entrées initialement
dans l’équation et sont ensuite éliminées une à une. La variable ayant la plus petite
corrélation avec la variable dépendante est d’abord étudiée pour l’élimination. Si
elle est éliminée par le modèle, la prochaine variable avec le plus petit coefficient
de corrélation est étudiée, jusqu’à ce qu’aucune variable ne satisfasse plus au
critère d’élimination ;

- Hiérarchique Ascendante (forward) : les variables sont introduites séquentiellement


une par une. Si la première variable est introduite dans l’équation, la variable
explicative ne figurant pas dans l’équation et présentant la plus forte corrélation
partielle est considérée ensuite. La procédure s’arrête lorsqu’il ne reste plus de
variables satisfaisant le critère d’introduction.

- Pas à pas (stepwise): C’est une combinaison des méthodes descendantes et


ascendantes, elle est généralement recommandée comme étant la meilleure
méthode. Les variables indépendantes sont ajoutées à l’équation une par une et
peuvent être enlevées subséquemment si elles ne contribuent plus
significativement à la régression. Le processus s’arrête lorsqu’aucune variable ne
peut plus être introduite ou éliminée ;

4. Procédure SPSS (Tree_car.sav)

Étude de la relation entre « prix de la première voiture », « l’âge », « années


d’éducation » et « Revenu »

Nous cherchons à savoir si « l’âge », « les années d’éducation » et « Le Revenu »


influencent « le prix de la première voiture » du ménage. Nous souhaitons déterminer,
parmi ces variables explicatives, celles qui expliquent le mieux la variable dépendante.

Pour obtenir une RLM, allez dans le menu Analyse/ Régression / Linéaire / placer la
variable à expliquer « prix de la première voiture » dans Variable dépendante / placez
les 3 variables explicatives dans « variables indépendantes »

Cette boite de dialogue vous


permet aussi de déterminer
les paramètres de sélection
des méthodes d'entrée des
variables indépendantes
(Entrée, ascendante,
descendante, stepwise ou
pas à pas). Dans cet
exemple, nous allons
choisir la méthode de
sélection des variables
« Introduire ».
Cliquez ensuite sur Statistiques et
demandez les Tests de colinéarité /
cochez les cases « Qualité
d’ajusement" et « descriptives et
estimations » / Cliquez ensuite sur
Poursuivre et OK

5. OUTPUT DE SPSS

a. Statistiques descriptives

Examinons d’abord les statistiques


descriptives. Nous voyons que l’étude a
été menée auprès de 3110 individus
âgés en moyenne de 41,96 ans.

Bien entendu, la moyenne des du


nombre d’années d’éducation (2,57) et
la moyenne des catégories de revenu ne
sont pas des données pertinentes, mais
elles indiquent que ces deux variables
ont fait l’objet d’une codification (les
catégories de revenu ont été codées de
1 à 5) .

b. Corrélations

Le deuxième tableau fourni


par SPSS concerne les
corrélations entre les
variables étudiées. Les
coefficients de corrélations
de Pearson (r) indiquent qu’il
y a une corrélation entre « le
prix du premier véhicule » et
les 3 variables indépendantes. La deuxième ligne du tableau montre que ces
corrélations sont significatives au seuil de 5% (Sig. ,000 < 0,05)

c. Colinéarité

La régression multiple est complexifiée par la présence de multicolinéarité (quand nous


aurions introduit deux variables qui mesurent sensiblement la même chose pour
prédire le salaire actuel), Nous voulons éviter cette situation. En effet, la majorité
des études mettent en jeu des variables explicatives qui sont corrélées. On doit
donc porter attention aux relations entre les variables indépendantes.

Évaluation de la colinéarité:

Une méthode simple pour détecter une trop grande corrélation entre variables
indépendantes consiste à demander des tests de colinéarité : tolérance et facteur
d’inflation de la variance (VIF). La tolérance est définie comme « la part de
variabilité de la variable indépendante qui n’est pas expliquée par une ou d’autres
variables indépendantes ». Une tolérance élevée correspond à un faible degré de
colinéarité. Le seuil de 0,3 est recommandé. À l’inverse, le seuil du facteur
d’inflation de la variance (VIF) doit être faible (< 3). Dans cet exemple, la
colinéarité ne pose pas de problème pour l’analyse car Tolérances et facteurs
d’inflation de la variance (VIF) sont largement dans les limites recommandées
(tolérance > 0,3 et VIF < 3). Les variables explicatives sont donc peu corrélées entre
elles, ce qui est un indice de qualité du modèle.

d. Variables introduites / éliminées

Toutes les variables introduites ont été retenues car


on a utilisé la méthode « Introduire »
e. Analyse de variance - ANOVA

2
Moyennant une transformation adéquate, R permet
de tester l’hypothèse H0 : b1 = b2 = ... = bk = 0, c’est-
à-dire l’hypothèse qu’aucune variable explicative
n’exerce une incidence sur la variable dépendante.

Fcalculé est confronté à la table F selon k degrés de


liberté au numérateur et n – k – 1 degrés de liberté au dénominateur.

Si, au seuil de signification retenu (a), F calculé> Ftable, on rejette l’hypothèse que b1 = b2 = ... =
bk = 0 pour lui préférer l’hypothèse qu’au moins un bi = 0, c’est-à-dire qu’au moins une variable
explicative a une incidence sur la variable dépendante. C’est dire que le test F effectué à partir de
2
R envisage une hypothèse très minimale.

Sur SPSS, il est inutile de faire appel à une table de décision. On doit considérer seulement la
signification du test (valeur p). Ces données (Fcalculé et le résultat de sa confrontation avec la
table F) figurent dans le tableau d’analyse de variance (ANOVA).

Significatif au
niveau de …

On constate à la lecture du tableau que selon la valeur F obtenue, on peut rejeter l’hypothèse nulle.
En effet, la valeur de 3604,275 est significative au seuil de signification 5% (p=0.000 < 0,05), ce
qui indique que nous pouvons accepter, sans grand risque (Sig. = 0,000) de se tromper, qu’au moins
une variable explicative a une incidence sur la variable Prix du premier véhicule.
f. Coefficients de détérminantion : R2

R2 prend ses valeurs entre 1 et 0. Les 3 variables prises en compte, ensemble, expliquent 77
% du prix du premier véhicule(R2). R2ajusté, plus faible que R2, tient compte de la perte
d’information liée aux degrés de liberté.

g. Coefficients Beta (b)

Les coefficients de la pente de régression sont donnés dans la 2ème colonne du tableau
« coefficients ». À partir de ces coefficients on peut écrire :

Yi = (b1X1 + b2X2 + … + bnXn+b0) + εi

Prix du premier véhicule = 16,996*catégorie de revenu + 0,384*Nombre d’années


d’éducation + 0,141*Âge -19,905.
Chaque coefficient estimé (16,996, 0,384; 0,141) répond aux attentes positives
a priori et est statistiquement significatif au niveau de 5% laissant entendre que
le revenu, nombre d’années d’éducation et l’âge ont chacune une incidence
spécifique sur la variable prix du premier véhicule.
Conclusion

Nous pouvons conclure que le modèle est satisfaisant, car il explique 77,7 % du prix
2
du premier véhicule (R ). Il est significatif (voir tableau ANOVA. Sig.,000), les
coefficients de la pente de régression sont significatifs et il n’y a pas de problème de
colinéarité (tolérances > 0,3)

Vous aimerez peut-être aussi