Académique Documents
Professionnel Documents
Culture Documents
Marie Chavent
1. Le modèle
y = β0 + β1 x + ε (1)
où :
- y est la variable à expliquer (à valeurs dans R) ;
- x est la variable explicative (à valeurs dans R) ;
- ε est le terme d’erreur aléatoire du modèle ;
- β0 et β1 sont deux paramètres à estimer.
Commentaires :
- La désignation “simple” fait référence au fait qu’il n’y a qu’une seule
variable explicative x pour expliquer y .
- La désignation “linéaire” correspond au fait que le modèle (1) est linéaire
en β0 et β1 .
Commentaire sur l’hypothèse (A1) : elle indique que les erreurs sont centrées
ce qui implique que yi dépend seulement de xi et que les autres sources de
variations de yi sont aléatoires.
(A2) V(εi ) = σ 2 , ∀i = 1, . . . , n,
ou de manière équivalente :
V(yi ) = σ 2 , ∀i = 1, . . . , n.
(A3) Cov(εi , εj ) = 0, ∀i 6= j
ou de manière équivalente :
Cov(yi , yj ) = 0, ∀i 6= j.
Y = Xβ + ε (3)
où
y1 1 x1 ε1
y 1 x2 β0
ε
2 2
Y =
. ,
X =
.
, β=
,
et . .
ε=
. . .. .
. . . β1 .
yn 1 xn εn
4
2
2
Yn
Yn
0
0
−2
−2
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4
Xn Xn
500
400
300
prix
200
100
30 60 90
surface
{(xi , yi ), i = 1, . . . , n},
β0 , β1 et σ 2 .
On cherche βb0 et βb1 qui minimisent la somme des carrés des résidus
εbi = yi − ŷi
Interprétation graphique
Graphiquement, βb0 et βb1 sont construits pour minimiser les distances verticales
entre les observations (yn ) et la droite de régression théorique y = β0 + β1 x.
Nous avons représenté ces distances sur les figures ci-dessous.
4
4
2
2
Yn
Yn
0
0
−2
−2
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4
Xn Xn
min F (β0 , β1 ),
(β0 ,β1 )
Pn
avec F (β0 , β1 ) = i =1 {yi − (β0 + β1 xi )}2 .
βb = ȳ − βb x̄ .
0 n 1 n
où cx,y est la covariance empirique entre les xi et les yi et sX2 est la variance
empirique des xi .
Commentaires
Pn
- Le minimum de F est égal à i =1 ε̂2i . Ce minimum est appelé la somme
des carrés des résidus (SCR).
- La valeur prédite ybi estime E[yi ] = β0 + β1 xi et non pas yi . Une meilleure
notation serait E[y
di ].
- Aucune des hypothèses (A1), (A2) et (A3) n’a été utilisée ici pour obtenir
les estimateurs βb0 et βb1 .
- E[βb0 ] = β0 ,
- E[βb1 ] = β1 ,
(x̄n )2
2 1
- V(βb0 ) = σ + Pn 2
,
n i =1 (xi − x̄n )
σ2
- V(βb1 ) = Pn 2
.
i =1 (xi − x̄n )
Commentaires
- Les estimateurs βb0 et βb1 sont sans biais.
- Ils sont aussi de variance minimale parmi tous les estimateurs linéaires
(par rapport à y1 , . . . , yn ) sans biais (propriété dite de Gauss-Markov).
Estimation de σ 2
Le paramètre σ 2 est défini par
Commentaires
- s 2 est un estimateur sans biais de σ 2
- La perte de deux degrés de liberté dans l’expression de s 2 est le “coût” de
l’estimation de β0 et de β1 nécessaire pour obtenir les ŷi .
## prix surface
## 1 130 28
## 2 280 50
## 3 268 55
## 4 500 110
## 5 320 60
## 6 250 48
500
400
300
prix
200
100
20 40 60 80 100
surface
Sorties R
mod <- lm(y ~ x) #fonction linear model
names(mod)
summary(mod)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -71.47 -27.63 4.75 24.96 81.68
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.644 24.445 1.38 0.19
## x 3.848 0.392 9.81 1.2e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 45 on 18 degrees of freedom
## Multiple R-squared: 0.842, Adjusted R-squared: 0.834
## F-statistic: 96.3 on 1 and 18 DF, p-value: 1.2e-08
200
100
20 40 60 80 100
x=surface
## y val.predites residus
## 1 130 141 -11
## 2 280 226 54
## 3 268 245 23
## 4 500 457 43
## 5 320 265 55
Graphique croisant les valeurs prédites ŷi et les Graphique croisant les valeurs prédites ŷi et les
résidus ε̂i = yi − ŷi valeurs observées yi
500
50
400
residus
300
prix
0
200
−50
100
100 150 200 250 300 350 400 450 100 150 200 250 300 350 400 450
val.predites val.predites
Typiquement, les hypothèses portant sur β1 ont plus d’intérêt que celles
portant sur β0 . On va donc se limiter à tester la nullité de la pente β1 (absence
de liaison linéaire entre x et y ) :
(n − 2)s 2
(b) 2
∼ χ2 (n − 2) ;
σ
(c) βb1 et s 2 sont indépendants.
Commentaires. La propriété (a) est facile à établir. Les propriétés (b) et (c)
seront démontrées ultérieurement.
Un rappel de probabilité
U
Si U ∼ N (0, 1), V ∼ χ2 (ν) et U est indépendant de V , alors q ∼ T (ν).
V
ν
βb1 − β1
q
Pn σ2
(x
i =1 i
−x̄n )2 βb1 − β1
s = pPn ∼ T (n − 2).
(n−2)s 2 s/ i =1 (xi − x̄n )
2
σ2
n−2
pPn
Commentaire. On peut remarquer que le dénominateur s/ i =1 (xi − x̄n )2 est
q
un estimateur de V(βb1 ), l’écart-type de βb1 .
βb1 − β1
Tn = pPn ,
2
s/ i =1 (xi − x̄n )
Test de H0 contre H1
βb1
Tn = qP ∼ T (n − 2). (5)
n
s/ i =1 (xi − X̄n )2
On rejette H0 si p-valeur ≤ α
summary(mod)$coefficients
confint(mod)
## 2.5 % 97.5 %
## (Intercept) -18 85.0
## x 3 4.7
anova(mod)
4. Coefficient de détermination
## [1] 0.84
[
yb0 = E[y 0 ] = β0 + β1 x0 .
b b
L’erreur de prédiction est définie par yb0 − y0 et on peut montrer que sous les
hypothèses du modèle (incluant l’hypothèse de normalité), on a :
(x0 − x̄n )2
2 1
yb0 − y0 ∼ N 0, σ 1 + + Pn 2
. (7)
n i =1 (xi − x̄n )
On en déduit que :
y0 − ŷ0
q 2
∼ N (0, 1).
σ 1+ 1
+ Pn(x0 −x̄n ) 2
n (x −x̄n )
i =1 i
P(A ≤ y0 ≤ B) = 1 − α.
E[y0 ] = β0 + β1 x0 ,
qui est cette fois un paramètre. On va donc chercher l’intervalle aléatoire [A, B]
tel que
P(A ≤ E[y0 ] ≤ B) = 1 − α.
(x0 − x̄n )2
2 1
ŷ0 ∼ N β0 + β1 x0 , σ + Pn 2
, (8)
n i =1 (xi − x̄n )
ŷ0 − β0 + β1 x0
∼ T (n − 2). (9)
(x0 −x̄n )2
q
1
s n + n (x −x̄n )2
P
i =1 i
predict(mod,data.frame(x=x0),interval="confidence")
500
400
300
prix
200
100
confiance
prediction
20 40 60 80 100
surface
Chapitre 1 Régression linéaire simple 31/38
- Graphique croisant les valeurs prédites ŷi et les résidus ε̂i = yi − ŷi :
4
2
residus
0
-2
-4
2 4 6 8 10 12 14
val.predites
-4 -2 0 2 4
val.predites
On observe un “structure évidente" dans les résidus (qui ne sont plus vraiment
aléatoires).
,→ Il faut “changer” de modèle pour essayer de prendre en compte cette
structure.
(Par exemple rajouter un terme quadratique x 2 dans la partie explicative du
modèle).
val.predites
On observe que “la variance des résidus n’est pas constante", elle augmente
clairement en fonction de ŷi (elle dépend donc des xi ). Il n’y a donc pas
homoscédasticité.
,→ Il faut “changer” de modèle pour prendre en compte cette hétéroscédasticité.
15
10
y
5
0
0 5 10 15
val.predites
0 5 10 15 20
val.predites
##
## Shapiro-Wilk normality test
##
## data: residus
## W = 0.97, p-value = 0.669
Parfois appelé résidus studentisés (interne) car comme ε̂i suit une loi normale,
on peut montrer que ε̂∗i ∼ T (n − 2) et pour n assez grand on pourra considérer
que ε̂∗i ∼ N (0, 1).
4
3
3
Frequency
Frequency
2
2
1
1
0
−50 0 50 100 −2 −1 0 1 2
residus res.student