Vous êtes sur la page 1sur 20

MOOC Statistique pour ingénieur

Thème 4 : Régression linéaire


Vidéo 2 : Le modèle linéaire et ses hypothèses

Anca Badea
Institut Mines-Télécom
Mines Saint-Étienne

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Sommaire

1 Formalisation

2 Estimation / estimateurs

3 Exemple

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Et si on avait plusieurs jeux de données ?

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Et si on avait plusieurs jeux de données ?

βb0 = −0, 27; βb1 = 1, 82


βb0 = 0, 84; βb1 = 1, 33
MOOC Statistique pour ingénieur Thème 4 : Régression linéaire
Et si on avait plusieurs jeux de données ?

βb0 = −0, 27; βb1 = 1, 82 βb0 = 0, 84; βb1 = 1, 33 β0 = −0, 5; β1 = 2

La modélisation précédente ne prenait pas en compte cette variabilité...

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Hypothèses
• la variable expliquée Y est une v.a.r.
• la variable explicative X est une v.a.r.
• l’hypothèse :
• en moyenne
• et conditionnellement aux observations de la variable explicative,
• la variable expliquée est une fonction affine de celle-ci

E(Y|X = x) = β0 + β1 x simplification : X déterministe

ou bien E(Y) = β0 + β1 x
Y = β0 + β1 X + ε Y = β0 + β1 x + ε

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Hypothèses
• l’erreur ε est une v.a.r. E(ε) = 0, V(ε) = σ 2

σ paramètre à estimer
en plus de β0 , β1

• hypothèse supplémentaire ε ∼ N (0, σ 2 )

• questions :
• comment se propage cette hypothèse ?

• quels estimateurs pour les paramètres à estimer ?

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Sommaire

1 Formalisation

2 Estimation / estimateurs

3 Exemple

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Méthodes
• moindres carrés
• maximum de vraisemblance
pour Yi = β0 + β1 xi + εi ,  i = 1, . . . , n
εi ∼ N (0, σ 2 ) v. a. i. i. d.

conduisent aux mêmes estimations / estimateurs pour β0 , β1

de plus
E(Yi ) = β0 + β1 xi

V(Yi ) = V(εi ) = σ 2
Yi ∼ N (β0 + β1 xi , σ 2 )

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Estimateur / estimation de σ 2
pour σ 2 = E(ε2i ) l’estimateur obtenu par la méthode du maximum de
vraisemblance est l’estimateur classique de l’espérance
(i.e. la moyenne empirique)
1∑
n
b =
σ 2
(Yi − b Yi )2
n
i=1
n−2 2
dont l’espérance est égale à E(b
σ2) = σ
n

et alors on peut définir un estimateur non-biaisé de σ 2 comme


1 ∑
n
∗2
b =
σ (Yi − b
Yi )2
n−2
i=1

on utilisera la même notation pour l’estimation correspondante

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Estimateurs

/ estimations de β0, β1
1 ∑ ∑
n n


 βb1 =
 (xi − x)Yi = ci Yi
ns2x
i=1 i=1



 b
β0 = Y − βb1 x

calculons leurs espérances


n ∑
n ∑
n
E(βb1 ) = ci E(Yi ) = β0 ci + β1 ci xi = β1
i=1 i=1 i=1

n ∑
n
en utilisant ci = 0 et ci xi = 1
i=1 i=1
E(βb0 ) = β0

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Estimateurs / estimations de β0, β1
leurs variances
( )
σ2 2 1 x2
V(βb1 ) = 2 b
V(β0 ) =σ +
nsx n ns2x
x
Cov(βb0 , βb1 ) = −σ 2 2
nsx

Théorème (Gauss-Markov)
Pour le modèle de régression Y = β0 + β1 x + ε et sous les hypothèses
précédentes pour ε, les estimateurs MC βb0 , βb1 sont
• des combinaisons linéaires des Yi ,
• sans biais,
• de variance minimale (comparés à tous les autres estimateurs sans biais).

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Distributions
des estimateurs βb0 , βb1

βbi ∼ N (βi , V(βbi ))


σ2 → σ b∗2
de l’estimateur de σ 2
V(βbi ) → s2 βbi
( ) n − 2 ∗2
s2b = b ∗2
σ b ∗2
; s2b = σ 1 2
+ x2 b ∼ χ2n−2
σ
β1 ns2x β0 n ns
x σ2

βbi − βi loi du χ2 à n − 2 degrés de libertés


∼ T (n − 2)
sβbi

loi de Student à n − 2 degrés de


libertés
MOOC Statistique pour ingénieur Thème 4 : Régression linéaire
Estimations par intervalle de confiance
( )
βbi − βi
P −tα/2 ≤ ≤ tα/2 =1−α
sβbi
( )
avec tα/2 la valeur telle que P T ≤ tα/2 = 1 − α/2 et T de loi de Student T (n − 2)

[ ]
Ic1−α (βi ) = βbi − tα/2 × sβbi , βbi + tα/2 × sβbi

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Estimations par intervalle de confiance
( )
σ ∗2
(n − 2)b
P χ21 ≤ ≤ χ22 = 1 − α avec χ21 et χ22 les valeurs telles que
σ2

P(Z ≤ χ21 ) = α/2 et P(Z ≤ χ22 ) = 1 − α/2 et Z de loi χ2n−2

[ ]
(n − 2)b
2 σ ∗2 (n − 2)bσ ∗2
Ic1−α (σ ) = ,
χ22 χ21

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Sommaire

1 Formalisation

2 Estimation / estimateurs

3 Exemple

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire


Exemple
mesures sur 15 alligators 1
x y
ln (long) ln(poids)
1 3,87 4,87
2 3,61 3,93
3 4,33 6,46
• le poids (en livres) 4 3,43 3,33
5 3,81 4,38
• la distance entre l’arrière 6 3,83 4,70
7 3,46 3,50
de la tête à l’extrémité du 8 3,76 4,50
nez (en pouces) 9 3,50 3,58
10 3,58 3,64
11 4,19 5,90
• échelle logarithmique 12 3,78 4,43
13 3,71 4,38
14 3,73 4,42
15 3,78 4,25

1. Mendenhall, Wackerly, Scheaffer Mathematical Statistics with Applications (1990)


MOOC Statistique pour ingénieur Thème 4 : Régression linéaire
Exemple
n = 15 ; x ≈ 3, 76 ; y ≈ 4, 42 ; s2x ≈ 0, 06 ; s2y ≈ 0, 68 ; Covxy ≈ 0, 2
Covxy
βb1 = ≈ 3, 43 ; βb0 = y − βb1 x ≈ −8, 48
s2x
1 ∑
15
∗2
b =
σ (yi − βb0 − βb1 xi )2 ≈ 0, 02 ; sβb1 ≈ 0, 13 ; sβb0 ≈ 0, 5
13
i=1

t0,025 = 2, 16 ; χ21 = 5, 01 ; χ22 = 24, 74

Ic0,95 (β0 ) ≈ [−8, 48 − 2, 16 × 0, 5; −8, 48 + 2, 16 × 0, 5] ≈ [−9, 56; −7, 4]

Ic0,95 (β1 ) ≈ [3, 43 − 2, 16 × 0, 13; 3, 43 + 2, 16 × 0, 13] ≈ [3, 15; 3, 72]


[ ]
13 × 0, 02 13 × 0, 02
Ic0,95 (σ ) ≈
2
, ≈ [0, 01; 0, 05]
24, 74 5, 01
MOOC Statistique pour ingénieur Thème 4 : Régression linéaire
Exemple

Variable Coefficient Ecart-type


Intercept −8, 48 0, 5
lnLength 3, 43 0, 13

b∗
σ ddl R2 R2adj
0, 12 13 0, 9808 0, 9794

MOOC Statistique pour ingénieur Thème 4 : Régression linéaire