Vous êtes sur la page 1sur 9

Régression linéaire simple

Étiquettes Chap 1

Fichiers et médias

URL

Les modèles de régression ont pour objectif d'expliquer la variation d'un phénomène
mesurable par celle d'une ou de plusieurs autres variables, et dans la vie de
l'entreprise, nous essayons fréquemment de détecter et d'analyser les causes de
certains phénomènes, comme la variation des ventes par exemple.

La régression linéaire simple


Elle vise à expliquer et à prédire une variable dépendante Y (expliqué) par une
variable indépendante X (explicative) quantitative.

Par exemple, on peut expliquer le nombre d’SMS envoyé par l'âge du client.

L’objectif de la régression linéaire simple et de trouver la droite qui s’ajuste mieux au


nuage de point et avec le minimum d’écart ( Ei )

➜ Droite approximative car on ne peut pas tracer une droite passant par tous les
points

Régression linéaire simple 1


Les étapes de régression linéaire
1. Spécification du modèle : ( nuage de points )

Tracer le nuages de points et à soupçonner l’existence et le type de relation entre X


et Y

On cherche à estimer β0 et β1 à partir de b0 et b1

ŷ= b0 + b1x (échantillon)
y= β0 + β1x (population)

Nous appelons résidu ou erreur empirique ou écart de prévision (ei ) la différence


(l’écart vertical) entre la valeur observée yi de y et la valeur estimée de y obtenue à
partir de la droite de régression, lorsque x= xi.

2. Validation du modèle : ( vérifier l’existence de relation )

Coefficient de corrélation R :

A travers le coefficient de corrélation qui mesure la force et l’intensité de relation


entre X et
Y

R=0 : il n y a pas de lien entre X et Y

R=1 : la relation est parfaite (augmentation proportionnelle dans la courbe ) les


deux variables varient dans le même sens ,

R=-1 : la relation est parfaite négative ( Diminution proportionnelle dans la


courbe ) les deux variables varient dans deux sens inverses

Régression linéaire simple 2


💡 Le coefficient de corrélation doit être compris entre -1 et 1 -1≤R≤1

R ≥ 0,7 ➜ Relation très forte

0,5 ≤ R ≤ 0,69 ➜ Relation forte

0,3 ≤ R ≤ 0,49 ➜ Relation modérée

0,1 ≤ R ≤0,29 ➜ Relation faible

0,01 ≤ R ≤0,09 ➜ Relation très faible

R =0 ➜Relation nulle

Coefficient de détermination R² :

Il mesure la part expliquée de la variance de la variable dépendante y à partir de la


variance de la variable indépendante x au niveau de l’échantillon

ρ²: Il mesure la part expliquée de la variable dépendante à partir de la variance


indépendante au niveau de la population

R²=1 ➜ Parfaite

0 ≤ R² ≤ 1

R²= SCrégression / ScTotal (SC: somme des carrées )

Exemple : Variable dépendante ( expliquée ) : Rendement ;

Variable indépendante ( explicative ): Motivation.


Si R² = 0,76 on peut dire que 76% de la variance de rendement (variable
dépendante) est expliquée de la variance de motivation (variable indépendante)

La covariance :

La covariance est une mesure de l’association ou du lien qui existe entre deux
variables, elle sert à quantifier l’écart entre les variances .

Régression linéaire simple 3


Anova :
Analyse de la variance de Y en fonction de la variance de X ,c’est la probabilité de
se tromper en confirmant qu’il y’a un lien
On a H0 : β1 = 0 ➞ rejeter la relation ( pas de lien entre X et Y )
H1 : β1 ≠ 0 ➞ Existence de lien

On doit comparer anova avec nos convictions (Seuil de signification α )

Confirmer la relation si Sig Anova ≤ α et on rejete H0 en confirmant le lien

Rejeter la relation si Sig Anova ≥ α, accepter H0, il n y a pas de lien

Les deux bornes doivent avoir le même signe pour que 0 ne soit pas dans
l’intervalle

💡 Plus le seuil de signification augmente ,l’intervalle de confiance diminue


donc la marge d’erreur diminue aussi, alors les bornes vont diminuer

💡 Pour la RLS, la signification de l’ANOVA est la même que celle de la


variable indépendante

3. Estimation des paramètres β0 et β1 : ( écrire la relation )

Lorsque β0 et β1 sont inaccessible ,il faut calculer la b0 et la b1


Méthode de vraisemblance ou la méthode des moindres carrées
On va utiliser la méthode des moindres carré qui est précise qui consiste de trouver
la fonction de
la droite qui minimise la somme des carrés des écarts .

b1 - marge d’erreur ≤ β1 ≤ b1 + marge d’erreur


Si l’intervalle de confiance de la β0 contient la valeur zéro (0) ceci n’influence en
aucun cas l’existence de relation entre la variable explicative et expliquée, autrement
la fonction y= β0+ β1x deviendrait y= β1x .
Par contre si l’intervalle de la β1 contient la valeur zéro, la fonction s’écrirait y= β0 ce
qui veut dire qu’il n’existe pas de lien entre la variable x et la y.

Régression linéaire simple 4



Le modèle de régression Simple : y = β0 + β1x + ε ( y=ax+b)
ε : Erreur théorique Aléatoire
β0 Et β1 : Coefficient théorique de la régression (Qui vont être estimer à l’aide de b1
et b0)
Equation estimée de la régression linéaire simple : Ŷ = b0 + b1x
Ecart de prévision : Ecart entre ce qui est prévu et observé ( points réels et points
estimés )

On constate que l’écart est la différence entre les valeurs observés et les valeurs
estimés qui vont être ajuster à la droite de RLS :

Problème ? : on trouve que les sommes des écarts positifs vont compenser la
somme des écarts négatifs min Σeᵢ = 0

Donc on fera appelle à la méthode des moindres carrées pour résoudre ce


problème
En Bref : min Σeᵢ ²= min Σ(Yᵢ - Ŷᵢ)² d’une manière on peut remplacer Ŷ par b0 + b1x
ce qui donne : min Σeᵢ ²= min Σ(Yᵢ - b0-b1x)²

Cette mesure donne l’ordre de grandeur de la dispersion des observations Yi


autour de la
droite de régression

Il s’agit de trouver b0 et b1 de sorte que la somme des carrés des écarts soit la plus
petite possible (minimale). On fera recours à la dérivé partiel pour trouver b0 et b1
δ Σ(Yᵢ - b0-b1x)²/δb1 = 0 ⇒ b0 = ȳ - b1x̄ .
δ Σ(Yᵢ - b0-b1x)²/δb0 = 0 ⇒ b1 = Σ ( xᵢ - x̄ ) ( yᵢ - ȳ ) / Σ ( xᵢ - x̄ )² .

Régression linéaire simple 5


4. Test des hypothèses : ( vérification des prémisses )

Régression linéaire simple 6


Pour vérifier si l’influence de la variable indépendante est significatif on doit voir si la
β1 est différente de 0 .

Pour vérifier si l’influence de la variable indépendante est significative, on procède à


un test d’hypothèses sur β1. Parce que si la β1 = 0, x n’aura pas d’impact sur y. ( Y=
β0 + β1 X). Autrement nous allons opter pour une estimation par intervalle de
confiance, au seuil de signification choisit lors de la détermination de la taille de
l’échantillon, et si la valeur 0 appartient à l’intervalle de confiance, nous acceptons
l’hypothèse nulle: β1=0 au niveau de signification α et on conclut qu’il n’existe pas
de relation linéaire significative entre x et y.

Deux tests sont couramment utilisés :


Test t ou z (selon la taille de l'échantillon)

Test F

Estimation de la variance des erreurs théoriques :

💡 Plus Se² est petite, plus b0 et b1 sont précis

Estimation de la variance de S²b0 et S²b1 :

Estimation de β1 par intervalle de confiance :

Régression linéaire simple 7


si la valeur 0 appartient à l’intervalle de confiance, nous devons accepter l’hypothèse
nulle : β1=0 au niveau de signification choisi et nous concluons qu’il n’existe pas de
relation linéaire entre x et y
Les étapes d’un test z ou t d’hypothèses sur β1

1. Énoncer les hypothèses H0 et H1. (H0 : B1=0 et H1 : B1≠ 0)

2. Préciser les conditions du test

La population des erreurs est normale

La variance résiduelle est inconnue

Le niveau de signification

Loi de distribution : normale si le degré de liberté est supérieur à 30 , et une loi


de Student si le degré de liberté est inférieur à 30 .( si n-2 ≥ 30 loi normal Z ; n-2
≤ 30 loi student )

3. Calculer la statistique du test.

4. Trouver la région critique au niveau de signification α.

Les prémisses de la régression linéaire :

1. Linéarité du phénomène mesuré

2. Homoscédasticité ( la variance constante de terme d’erreur )

Régression linéaire simple 8


3. Indépendance des termes d’erreurs ( RLM )

4. Normalité de la distribution du terme d’erreur (Test Kolgomorov-Smirnov sig<


Alpha) .

⇒ L’examen des graphique de résidu peut être validé par le test de durbin-watson ,
notamment
dans le cas des données temporels .
⇒ le test de Durbin-Watson est utilisé pour détecter l’autocorrélation entre les
résidus d’une régression linéaire.

Régression linéaire simple 9

Vous aimerez peut-être aussi