Vous êtes sur la page 1sur 22

MOOC Statistique pour ingénieur

Thème 4 : Régression linéaire


Vidéo 1 : Mettre en œuvre la régression linéaire simple

Anca Badea Lomig Hamon François Seyte Audrey Villot

Institut Mines-Télécom
Mines Saint-Étienne, Mines Nantes, Mines Alès, Mines Nantes

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Sommaire
1 Introduction

2 Notations et vocabulaire

3 Estimation des paramètres

4 Analyse de la variance

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Origine

Regression towards mediocrity in hereditary


stature
Journal of the Anthropological Institute 15 :
246-63 (1886)

Francis Galton
(1822-1911)
MOOC Statistique pour ingénieur Thème 4 : Régression linéaire
Origine

la taille des enfants nés des parents


très grands (ou petits) se rapproche
de la taille moyenne de la population
→ elle régresse

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Objet

analyser la relation entre dans un but


• une variable expliquée • explicatif
• variable dépendante • de prévision
• réponse
• ...
• variable endogène

et sous l’hypothèse que la


• une ou plusieurs variables relation est
explicatives linéaire en ses paramètres
• variables indépendantes
• prédicteurs et
• variables exogènes
à partir de données

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Exemples
• industrie

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Exemples
• économie

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Exemples
• médecine

• contrôle qualité
• sociologie
• métrologie
• marketing
• …

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Sommaire
1 Introduction

2 Notations et vocabulaire

3 Estimation des paramètres

4 Analyse de la variance

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Vocabulaire

• régression linéaire simple :


une seule variable expliquée
une seule variable explicative

• régression linéaire multiple :


une seule variable expliquée
plusieurs variables explicatives

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Notations

• y : la variable expliquée
• x : la variable explicative
• y ≈ β0 + β1 x : la relation approximative entre y et x
• β0 , β1 : les paramètres (coefficients) du modèle
• β̂0 , β̂1 : les estimations des paramètres
• y = β0 + β1 x + ε avec ε : l’erreur
• ŷ = β̂0 + β̂1 x : la prédiction de la variable expliquée

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Sommaire
1 Introduction

2 Notations et vocabulaire

3 Estimation des paramètres

4 Analyse de la variance

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Les paramètres du modèle sont à estimer à partir des données
(xi , yi )i=1,...,n

interprétation : β0 : l’ordonnée à l’origine, β1 : la pente


MOOC Statistique pour ingénieur Thème 4 : Régression linéaire
Méthode des moindres carrés ordinaires

∑n
(β̂0 , β̂1 ) = argmin (yi − β0 − β1 xi )2
 i=1


 ∂ ∑ n

 (yi − β0 − β1 xi )2 = 0  β̂0 = ȳ − β̂1 x̄
 ∂β0 Cov(x, y)
i=1  β̂1 =

 ∂ ∑ n
s2x

 (yi − β0 − β1 xi )2 = 0
 ∂β1 les estimations des paramètres
i=1

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Méthode des moindres carrés ordinaires

notations usuelles
1∑ 1∑
n n
• moyennes : x̄ = xi ȳ = yi
n n
i=1 i=1

1 ∑ n
1∑
n
• variances : s2x = (xi − x̄) 2
s2y = (yi − ȳ)2
n n
i=1 i=1

1 ∑
n
• covariance : Cov(x, y) = (xi − x̄)(yi − ȳ)
n
i=1

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Exemple

(xi , yi )i=1,...,n

(1; 3, 36), (2; 0, 71), (3; 5, 27), (4; 7, 55), (5; 9, 01)

β̂0 = −0, 27 ; β̂1 = 1, 82

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Sommaire
1 Introduction

2 Notations et vocabulaire

3 Estimation des paramètres

4 Analyse de la variance

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Somme des carrés
yi = ŷi + εi
avec

ŷi la part expliquée par le modèle et

εi la part inexpliquée : l’erreur

Et les sommes des carrés correspondantes ?

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Somme des carrés


n
• somme des carrés totaux : SCT = (yi − ȳ)2
i=1

n
• somme des carrés expliqués : SCE = (ŷi − ȳ)2
i=1

n
• somme des carrés résiduels : SCR = (yi − ŷi )2
i=1

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Equation d’analyse de la variance

SCT = SCE + SCR

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Indicateur de qualité d’une régression

SCE SCR
coefficient de détermination : R2 = =1−
SCT SCT

R2 doit être proche de 1

rôle du statisticien dans l’interprétation

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire