Vous êtes sur la page 1sur 4

Chapitre I : la régression linéaire simple

Pr. BOULAHOUAL Adil


Les modèles de régression ont pour objectif d'expliquer la variation d'un phénomène mesurable par celle d'une ou de plusieurs autres
variables, et dans la vie de l'entreprise, nous essayons fréquemment de détecter et d'analyser les causes de certains phénomènes,
comme la variation des ventes par exemple. Différents modèles de régression sont possibles.
La régression linéaire (simple ou multiple) estime les paramètres de l'équation théorique permettant de calculer le niveau de la variable
dépendante en fonction des niveaux des variables indépendantes.
LA CORRELATION
Le coefficient de corrélation de Pearson est une mesure d'association qui permet d'établir si deux variables mesurées sur le même
ensemble d'observations varient de façon analogue ou non. C’est une mesure de la force et du sens du lien entre deux variables
métriques.
Une corrélation proche de 1 en valeur absolue signifie que deux variables sont linéairement liées entre elles et peuvent s'expliquer
mutuellement. Lorsque r est proche de + 1, cela veut dire que les deux variables varient dans le même sens. Lorsque r est proche de
-1, cela signifie que les deux variables varient en sens inverse l'une de l'autre. Et quand r est proche de 0, il y a une faible corrélation.
1. LA REGRESSION LINEAIRE SIMPLE : RAPPEL THEORIQUE.
La régression linéaire vise à expliquer et à prédire une variable dépendante par une ou un

Chapitre I : La régression linéaire simple


ensemble de variables indépendantes quantitatives.
La régression vise à expliquer, à estimer ou à prédire la valeur d'une variable à partir des valeurs
d’une autre variable explicative. Par exemple, on peut expliquer le nombre d’SMS envoyé par l'âge
du client.
Les différentes étapes d’une régression linéaire sont au nombre de quatre :

1. SPÉCIFICATION DU MODÈLE
L'approche linéaire est inadéquate lorsque la variable dépendante est de nature qualitative. Nous
préférerons alors un modèle de régression logistique binaire ou multinomiale lorsque la variable dépendante en comprend plus de
deux modalités. A noter aussi que deux variables peuvent être parfaitement liées mais, si leur rapport n'est pas linéaire, le
coefficient de corrélation n'est pas une statistique adaptée pour mesurer leur association. Alors il est recommandé de tracer le
diagramme de dispersion pour soupçonner le type de relation existante entre nos deux variables.
1
Dans notre cas de régression simple, normalement les valeurs de la variable dépendante
(Y) sont calculées à partir des valeurs de la variable indépendante (X) par l’équation

Pr. BOULAHOUAL Adil


linéaire théorique y = β0 + β 1x + ε, et si jamais nous n’avons pas accès à l’information nous
estimons cette dernière par une droite dite empirique, ou b0 et b1 sont respectivement des
estimations ponctuelles de β0 et β1.

2. VALIDATION DU MODÈLE
La deuxième étape consiste à vérifier le modèle dans sa globalité.
Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y:
– Le coefficient de détermination de Y en fonction de X
– Le coefficient de corrélation entre X et Y
– La covariance entre X et Y
Le coefficient de détermination théorique de Y en fonction de X, noté ρ2 mesure la proportion de la variance de Y qui est expliquée
par la variable X au niveau de toute la population. A noter que 0≤ ρ2 ≤1.
En pratique ρ2 est inconnu, car nous ne possédons pas d’information sur toute la population mais seulement sur un échantillon de
taille n, alors nous l’estimerons par la statistique r2.
Nous appelons résidu ou erreur empirique ou écart de prévision (ei ) la différence (l’écart vertical) entre la valeur

Chapitre I : La régression linéaire simple


observée yi de y et la valeur estimée de y obtenue à partir de la droite de régression, lorsque x= xi.

3. ESTIMATION DES PARAMÈTRES


Plusieurs méthodes permettent d’estimer notre droite théorique, nous citons à titre d’exemple : La méthode des moindres carrés et la
méthode de la vraisemblance. L’idée de base de la première méthode, qui est la plus précise, est de trouver la fonction de la droite
qui minimise la somme des carrés des résidus.
4. TEST DES HYPOTHÈSES
Pour vérifier si l’influence de la variable indépendante est significative, on procède à un test d’hypothèses sur β 1. Parce que si
la β1 = 0 x n’aura pas d’impact sur y. ( Y= β0 + β1 X).
Autrement nous allons opter pour une estimation par intervalle de confiance, au seuil de signification choisit lors de la
détermination de la taille de l’échantillon, et si la valeur 0 appartient à l’intervalle de confiance, nous acceptons l’hypothèse
nulle: β1=0 au niveau de signification α et on conclut qu’il n’existe pas de relation linéaire significative entre x et y.
Deux tests sont couramment utilisés :
2
◦ Test t ou z (selon la taille de l'échantillon)

Pr. BOULAHOUAL Adil


◦ Test F
Notons que les deux tests nécessitent une estimation de se2 (la variance des erreurs e du
modèle de régression.).

 Les étapes d’un test z ou t d’hypothèses sur β1


1. Énoncer les hypothèses H0 et H1.
2. Préciser les conditions du test
a. La population des erreurs est normale
b. La variance résiduelle est inconnue
c. Le niveau de signification
d. Loi de distribution : normale si le degré de liberté est supérieur à 30 , et une loi de
Student si le degré de liberté est inférieur à 30 .
3. Calculer la statistique du test.
4. Trouver la région critique au niveau de signification α.

 Les conditions d'application de la régression

Chapitre I : La régression linéaire simple


Le modèle de la régression pose un certain nombre d'hypothèses lors de l'estimation des
paramètres et des tests d'hypothèses. Ces conditions d'application de la régression sont :

1. La linéarité du phénomène mesuré;


2. La variance constante du terme d'erreur ou homoscédasticité,
3. L'indépendance des termes d'erreur,
4. La normalité de la distribution du terme d'erreur.

La linéarité est importante car le concept de corrélation est fondé sur une relation linéaire. La linéarité d'une relation bivariée
est vérifiée par l'examen des résidus.
L'homoscédasticité est vérifiée par l'examen des résidus ou par des tests statistiques. Son utilisation est souvent recommandée.
L'indépendance des termes d'erreur est une autre condition de l'analyse de régression multiple. Outre l'examen du graphique
des résidus peut aussi être validée par le test de Durbin-Watson, notamment dans le cas de données temporelles.
3
2. REGRESSION LINEAIRE SIMPLE : APPLICATION SUR LOGICIEL

Pr. BOULAHOUAL Adil


RAPPEL :
R : Le coefficient de corrélation mesure la force de la relation entre deux variables. R  0,70 Relation très forte
R2 ou R-Deux : Mesure la part expliquée de la variable dépendante par la variance de la 0,50  R  0,69 Relation forte
0,30  R  0,49 Relation modérée
variable indépendante. 0,10  R  0,29 Relation faible
Exemple : Variable dépendante : Rendement 0,01  R  0,09 Relation très faible
Variable indépendante : Motivation. R = 0,00 Relation nulle

Si R2 est égale à 0,76 veut dire que 76% de la variance du rendement est expliquée par la variance de la motivation.

ETAPE DE LA REGRESSION LINEAIRE SIMPLE

1- La spécification du modèle consistant à tracer le nuage de point - dit encore diagramme de dispersion - et à soupçonner
l’existence et le type de la relation entre les deux variables.
Procédure sous SPSS : Analyse – Régression – Ajustement de fonction.
2- La validation du modèle se fait à travers plusieurs indicateurs et nous retenons l’analyse de la variance(ANOVA)
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle, autrement nous
confirmons l’existence de relation entre la variable à expliquer et la variable explicative.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement.

Chapitre I : La régression linéaire simple


N.B : Dans le cas de la régression linéaire simple, la signification de la variable explicative et la signification de l’ANOVA sont
égales.
3- L’estimation des paramètres β0 et β1 : Autrement calculer la b0 et la b1 .
Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire simple, lorsqu’il est validé par l’analyse de la variance nous n’avons pas à tester les hypothèses
car d’office la signification de la variable indépendante serait inférieure au seuil choisi. De plus, si l’intervalle de confiance de
la β0 contient la valeur zéro(0) ceci n’influence en aucun cas l’existence de relation entre la variable explicative et expliquée,
autrement la fonction y= β0+ β1x deviendrait y= β1x .
Par contre si l’intervalle de la β1 contient la valeur zéro, la fonction s’écrirait y= β0 ce qui veut dire qu’il n’existe pas de lien
entre la variable x et la y.
4- Prémices de la régression linéaire (voir chapitre de la régression linéaire multiple).
4

Vous aimerez peut-être aussi