Académique Documents
Professionnel Documents
Culture Documents
La régression Linéaire
Il est fréquent d’observer des phénomènes où l’on peut penser qu’il existe une liaison entre
deux variables. Par exemple, l’âge d’une voiture et son kilométrage varient généralement dans
le même sens. Ce lien n’est cependant pas absolu : comment mesurer l’intensité de la relation
entre ces deux variables ? Le modèle de régression linéaire a pour objectif d’expliquer la
variation d’un phénomène mesurable (variable dépendante quantitative) par celle d’un ou de
plusieurs autres (variables quantitatives). La régression linéaire simple ou multiple estime les
coefficients de l’équation linéaire impliquant cette ou ces variables indépendantes, qui
évaluent le mieux la valeur de la variable dépendante.
A titre d’exemple, on peut utiliser cette méthode pour expliquer les variations des ventes,
préférences de marques, produits ou services.
1- La corrélation Linéaire
Le coefficient de corrélation constitue la base conceptuelle de la régression.
La corrélation linéaire est une statistique largement utilisée car elle synthétise l’importance de
la relation entre deux variables métriques. Le tableau 6.1 montre bien que le coefficient de
corrélation est le test statistique pour mesurer le lien entre deux variables quantitatives.
Une corrélation proche de 1 ou de –1 en valeur absolue signifie que deux variables sont liées
entre elles et peuvent s’expliquer mutuellement. Lorsque r est proche de 0, il y a une faible
corrélation. Si r est proche de +1, cela veut dire que les deux variables varient dans le même
sens. Si r est proche de –1, cela signifie que les deux variables varient en sens inverse l’une de
l’autre.
1.2 Exemple : Étude des liens entre diverses caractéristiques des vendeurs et leur attitude à
l’égard des challenges.
Nous cherchons à savoir s’il existe une relation entre des caractéristiques du vendeur telles
que l’âge, l’ancienneté dans l’entreprise et dans le poste, l’ambition et l’attitude à l’égard des
challenges de vente. Nous réalisons donc une corrélation linéaire sur toutes ces variables
quantitatives.
Les résultats indiquent le coefficient de corrélation et la signification (Sig.). Si Sig. < 0,05, on
peut dire qu’il existe une corrélation entre les deux variables au seuil de 0,05. Le signe **
indique que la corrélation est significative au seuil de 0,01.
Dans cet exemple, nous observons que l’esprit de compétition et l’attitude à l’égard des
challenges de vente sont fortement liés (0,71 ; p < 0,01).
À ce stade, nous ne pouvons cependant pas dire si c’est l’esprit de compétition qui a un
impact sur l’attitude à l’égard du challenge ou bien l’inverse. C’est grâce à la régression
linéaire que nous pouvons expliquer le sens de la relation entre ces deux variables.
2- La régression linéaire
La régression linéaire vise à expliquer une variable dépendante par une ou un ensemble de
variables indépendantes quantitatives. Lorsque le problème implique une seule variable
indépendante, la technique statistique est appelée régression simple. Lorsque le problème
implique plusieurs variables indépendantes, il s’agit d’une régression multiple. La régression
est utilisée pour l’explication et la prédiction.
Les principes et conditions d’application de la régression simple sont exposés avant d’aborder
ceux de la régression multiple. Ces deux techniques sont chacune illustrées par des exemples
d’applications.
�
= � , avec � : moment d’ordre 3
�
= , avec � : moment d’ordre 4
�
�
� = ∑ � − �̅ ,∀ = ,
=
3- Résumé
La corrélation sert à mesurer la force de l’association de deux variables quantitatives. Le
coefficient de corrélation linéaire mesure la relation linéaire entre les deux variables
quantitatives.
La régression utilise la présence de cette relation pour prédire les valeurs de la variable
dépendante à partir d’une variable indépendante. L’objectif est donc d’estimer ou de prédire
une variable à partir d’une autre grâce à une équation de régression.
La régression simple sert à tester l’effet d’une seule variable indépendante sur une variable
dépendante. La force de la relation est mesurée par le coefficient de détermination . La
régression multiple implique au moins deux variables indépendantes et une variable
dépendante. La signification de l’équation de régression globale est testée grâce au test t.
Les tests sur les résidus (normalité, hétéroscédasticité et autocorrélation) servent à vérifier la
qualité et la pertinence du modèle de régression.