Régression Linéaire Simple

Régression linéaire simple
Étiquettes Chap 1
Fichiers et médias
URL
Les modèles de régression ont pour objectif d'expliquer la variation d'un phénomène
mesurable par celle d'une ou de plusieurs autres variables, et dans la vie de
l'entreprise, nous essayons fréquemment de détecter et d'analyser les causes de
certains phénomènes, comme la variation des ventes par exemple.
La régression linéaire simple

Elle vise à expliquer et à prédire une variable dépendante Y (expliqué) par une
variable indépendante X (explicative) quantitative.
Par exemple, on peut expliquer le nombre d’SMS envoyé par l'âge du client.
L’objectif de la régression linéaire simple et de trouver la droite qui s’ajuste mieux au

nuage de point et avec le minimum d’écart ( Ei )
➜ Droite approximative car on ne peut pas tracer une droite passant par tous les
points
Régression linéaire simple 1

Les étapes de régression linéaire
1. Spécification du modèle : ( nuage de points )
Tracer le nuages de points et à soupçonner l’existence et le type de relation entre X

et Y
On cherche à estimer β0 et β1 à partir de b0 et b1
ŷ= b0 + b1x (échantillon)
y= β0 + β1x (population)
Nous appelons résidu ou erreur empirique ou écart de prévision (ei ) la différence

(l’écart vertical) entre la valeur observée yi de y et la valeur estimée de y obtenue à
partir de la droite de régression, lorsque x= xi.
2. Validation du modèle : ( vérifier l’existence de relation )
Coefficient de corrélation R :
A travers le coefficient de corrélation qui mesure la force et l’intensité de relation

entre X et
Y
R=0 : il n y a pas de lien entre X et Y
R=1 : la relation est parfaite (augmentation proportionnelle dans la courbe ) les

deux variables varient dans le même sens ,
R=-1 : la relation est parfaite négative ( Diminution proportionnelle dans la

courbe ) les deux variables varient dans deux sens inverses

💡 Le coefficient de corrélation doit être compris entre -1 et 1 -1≤R≤1
R ≥ 0,7 ➜ Relation très forte
0,5 ≤ R ≤ 0,69 ➜ Relation forte
0,3 ≤ R ≤ 0,49 ➜ Relation modérée
0,1 ≤ R ≤0,29 ➜ Relation faible
0,01 ≤ R ≤0,09 ➜ Relation très faible
R =0 ➜Relation nulle
Coefficient de détermination R² :
Il mesure la part expliquée de la variance de la variable dépendante y à partir de la

variance de la variable indépendante x au niveau de l’échantillon
ρ²: Il mesure la part expliquée de la variable dépendante à partir de la variance

indépendante au niveau de la population
R²=1 ➜ Parfaite
0 ≤ R² ≤ 1
R²= SCrégression / ScTotal (SC: somme des carrées )
Exemple : Variable dépendante ( expliquée ) : Rendement ;
Variable indépendante ( explicative ): Motivation.

Si R² = 0,76 on peut dire que 76% de la variance de rendement (variable
dépendante) est expliquée de la variance de motivation (variable indépendante)
La covariance :
La covariance est une mesure de l’association ou du lien qui existe entre deux
variables, elle sert à quantifier l’écart entre les variances .

Anova :
Analyse de la variance de Y en fonction de la variance de X ,c’est la probabilité de
se tromper en confirmant qu’il y’a un lien
On a H0 : β1 = 0 ➞ rejeter la relation ( pas de lien entre X et Y )
H1 : β1 ≠ 0 ➞ Existence de lien
On doit comparer anova avec nos convictions (Seuil de signification α )
Confirmer la relation si Sig Anova ≤ α et on rejete H0 en confirmant le lien
Rejeter la relation si Sig Anova ≥ α, accepter H0, il n y a pas de lien
Les deux bornes doivent avoir le même signe pour que 0 ne soit pas dans
l’intervalle
💡 Plus le seuil de signification augmente ,l’intervalle de confiance diminue

donc la marge d’erreur diminue aussi, alors les bornes vont diminuer
💡 Pour la RLS, la signification de l’ANOVA est la même que celle de la

variable indépendante
3. Estimation des paramètres β0 et β1 : ( écrire la relation )
Lorsque β0 et β1 sont inaccessible ,il faut calculer la b0 et la b1

Méthode de vraisemblance ou la méthode des moindres carrées
On va utiliser la méthode des moindres carré qui est précise qui consiste de trouver
la fonction de
la droite qui minimise la somme des carrés des écarts .
b1 - marge d’erreur ≤ β1 ≤ b1 + marge d’erreur

Si l’intervalle de confiance de la β0 contient la valeur zéro (0) ceci n’influence en
aucun cas l’existence de relation entre la variable explicative et expliquée, autrement
la fonction y= β0+ β1x deviendrait y= β1x .
Par contre si l’intervalle de la β1 contient la valeur zéro, la fonction s’écrirait y= β0 ce
qui veut dire qu’il n’existe pas de lien entre la variable x et la y.

⇒
Le modèle de régression Simple : y = β0 + β1x + ε ( y=ax+b)
ε : Erreur théorique Aléatoire
β0 Et β1 : Coefficient théorique de la régression (Qui vont être estimer à l’aide de b1
et b0)
Equation estimée de la régression linéaire simple : Ŷ = b0 + b1x
Ecart de prévision : Ecart entre ce qui est prévu et observé ( points réels et points
estimés )
On constate que l’écart est la différence entre les valeurs observés et les valeurs
estimés qui vont être ajuster à la droite de RLS :
Problème ? : on trouve que les sommes des écarts positifs vont compenser la
somme des écarts négatifs min Σeᵢ = 0
Donc on fera appelle à la méthode des moindres carrées pour résoudre ce

problème
En Bref : min Σeᵢ ²= min Σ(Yᵢ - Ŷᵢ)² d’une manière on peut remplacer Ŷ par b0 + b1x
ce qui donne : min Σeᵢ ²= min Σ(Yᵢ - b0-b1x)²
Cette mesure donne l’ordre de grandeur de la dispersion des observations Yi

autour de la
droite de régression
Il s’agit de trouver b0 et b1 de sorte que la somme des carrés des écarts soit la plus
petite possible (minimale). On fera recours à la dérivé partiel pour trouver b0 et b1
δ Σ(Yᵢ - b0-b1x)²/δb1 = 0 ⇒ b0 = ȳ - b1x̄ .
δ Σ(Yᵢ - b0-b1x)²/δb0 = 0 ⇒ b1 = Σ ( xᵢ - x̄ ) ( yᵢ - ȳ ) / Σ ( xᵢ - x̄ )² .

4. Test des hypothèses : ( vérification des prémisses )

Pour vérifier si l’influence de la variable indépendante est significatif on doit voir si la
β1 est différente de 0 .
Pour vérifier si l’influence de la variable indépendante est significative, on procède à

un test d’hypothèses sur β1. Parce que si la β1 = 0, x n’aura pas d’impact sur y. ( Y=
β0 + β1 X). Autrement nous allons opter pour une estimation par intervalle de
confiance, au seuil de signification choisit lors de la détermination de la taille de
l’échantillon, et si la valeur 0 appartient à l’intervalle de confiance, nous acceptons
l’hypothèse nulle: β1=0 au niveau de signification α et on conclut qu’il n’existe pas
de relation linéaire significative entre x et y.
Deux tests sont couramment utilisés :

Test t ou z (selon la taille de l'échantillon)
Test F
Estimation de la variance des erreurs théoriques :
💡 Plus Se² est petite, plus b0 et b1 sont précis
Estimation de la variance de S²b0 et S²b1 :
Estimation de β1 par intervalle de confiance :

si la valeur 0 appartient à l’intervalle de confiance, nous devons accepter l’hypothèse
nulle : β1=0 au niveau de signification choisi et nous concluons qu’il n’existe pas de
relation linéaire entre x et y
Les étapes d’un test z ou t d’hypothèses sur β1
1. Énoncer les hypothèses H0 et H1. (H0 : B1=0 et H1 : B1≠ 0)
2. Préciser les conditions du test
La population des erreurs est normale
La variance résiduelle est inconnue
Le niveau de signification
Loi de distribution : normale si le degré de liberté est supérieur à 30 , et une loi

de Student si le degré de liberté est inférieur à 30 .( si n-2 ≥ 30 loi normal Z ; n-2
≤ 30 loi student )
3. Calculer la statistique du test.
4. Trouver la région critique au niveau de signification α.
Les prémisses de la régression linéaire :
1. Linéarité du phénomène mesuré
2. Homoscédasticité ( la variance constante de terme d’erreur )

3. Indépendance des termes d’erreurs ( RLM )
4. Normalité de la distribution du terme d’erreur (Test Kolgomorov-Smirnov sig<

Alpha) .
⇒ L’examen des graphique de résidu peut être validé par le test de durbin-watson ,
notamment
dans le cas des données temporels .
⇒ le test de Durbin-Watson est utilisé pour détecter l’autocorrélation entre les
résidus d’une régression linéaire.

Régression Linéaire Simple

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Régression Linéaire Simple

Transféré par

Droits d'auteur :

Formats disponibles

Régression linéaire simple

La régression linéaire simple

L’objectif de la régression linéaire simple et de trouver la droite qui s’ajuste mieux au

Régression linéaire simple 1

Tracer le nuages de points et à soupçonner l’existence et le type de relation entre X

On cherche à estimer β0 et β1 à partir de b0 et b1

Nous appelons résidu ou erreur empirique ou écart de prévision (ei ) la différence

2. Validation du modèle : ( vérifier l’existence de relation )

A travers le coefficient de corrélation qui mesure la force et l’intensité de relation

R=0 : il n y a pas de lien entre X et Y

R=1 : la relation est parfaite (augmentation proportionnelle dans la courbe ) les

R=-1 : la relation est parfaite négative ( Diminution proportionnelle dans la

Régression linéaire simple 2

R ≥ 0,7 ➜ Relation très forte

0,5 ≤ R ≤ 0,69 ➜ Relation forte

0,3 ≤ R ≤ 0,49 ➜ Relation modérée

0,1 ≤ R ≤0,29 ➜ Relation faible

0,01 ≤ R ≤0,09 ➜ Relation très faible

Il mesure la part expliquée de la variance de la variable dépendante y à partir de la

ρ²: Il mesure la part expliquée de la variable dépendante à partir de la variance

R²= SCrégression / ScTotal (SC: somme des carrées )

Exemple : Variable dépendante ( expliquée ) : Rendement ;

Variable indépendante ( explicative ): Motivation.

Régression linéaire simple 3

On doit comparer anova avec nos convictions (Seuil de signification α )

Confirmer la relation si Sig Anova ≤ α et on rejete H0 en confirmant le lien

Rejeter la relation si Sig Anova ≥ α, accepter H0, il n y a pas de lien

💡 Plus le seuil de signification augmente ,l’intervalle de confiance diminue

💡 Pour la RLS, la signification de l’ANOVA est la même que celle de la

3. Estimation des paramètres β0 et β1 : ( écrire la relation )

Lorsque β0 et β1 sont inaccessible ,il faut calculer la b0 et la b1

b1 - marge d’erreur ≤ β1 ≤ b1 + marge d’erreur

Régression linéaire simple 4

Donc on fera appelle à la méthode des moindres carrées pour résoudre ce

Cette mesure donne l’ordre de grandeur de la dispersion des observations Yi

Régression linéaire simple 5

Régression linéaire simple 6

Pour vérifier si l’influence de la variable indépendante est significative, on procède à

Deux tests sont couramment utilisés :

Estimation de la variance des erreurs théoriques :

💡 Plus Se² est petite, plus b0 et b1 sont précis

Estimation de la variance de S²b0 et S²b1 :

Estimation de β1 par intervalle de confiance :

Régression linéaire simple 7

1. Énoncer les hypothèses H0 et H1. (H0 : B1=0 et H1 : B1≠ 0)

2. Préciser les conditions du test

La population des erreurs est normale

La variance résiduelle est inconnue

Loi de distribution : normale si le degré de liberté est supérieur à 30 , et une loi

3. Calculer la statistique du test.

4. Trouver la région critique au niveau de signification α.

Les prémisses de la régression linéaire :

1. Linéarité du phénomène mesuré

2. Homoscédasticité ( la variance constante de terme d’erreur )

Régression linéaire simple 8

4. Normalité de la distribution du terme d’erreur (Test Kolgomorov-Smirnov sig<

Régression linéaire simple 9

Vous aimerez peut-être aussi