Académique Documents
Professionnel Documents
Culture Documents
Régression Linéaire
Olivier Martin
prédire Y à partir de X .
cov (X , Y )
r = ρ(X , Y ) = ∈ [−1; 1]
σX σY
ρ est une mesure symétrique qui mesure le lien linéaire entre X et Y :
ρ = −1 : X et Y sont proportionnels et varient en sens opposé
ρ = 1 : X et Y sont proportionnels et varient dans le même sens
ρ = 0 : X et Y ne sont pas corrélés
La corrélation n’indique aucune causalité.
Propriétés :
1 Si X et Y sont indépendants, alors ρ(X , Y ) = 0.
2 Si X et Y sont gaussiens, il y a équivalence entre indépendance et
corrélation nulle.
(La régression linéaire) 4 / 49
Cadre et objectifs
cor (x , y ) = 0.87 cor (x , y ) = 0.8
100
20
● ●
●
●
80
●
15
●
●
60
●
y
y
●
10
40
●
●
●
●
20
5
● ●
●
● ●
● ●
● ● ● ●
0
2 4 6 8 10 −4 −2 0 2 4 6 8 10
x x
8
30
7
25
6
20
●
5
y
●
15
●
4
●
● ● ●
● ●
● ●
● ●
●
3
10
●
●
● ●
●
● ●
●
●
2
● ●
5
2 3 4 5 6 7 8 2 3 4 5 6 7 8
x x
1 Pn
cov (X , Y ) = n i=1 (xi − x̄ )(yi − ȳ )
1 Pn
SX2 = n i=1 (xi − x̄ )2
cov (X , Y )
r = ρ(X , Y ) = ∈ [−1; 1]
SX SY
Définition :
Y = variable à expliquer ou réponse, supposée alétaoire
x = variable explicative ou covariable ou régresseur, supposée fixe
Modèle :
Y = f (x ) + E
où E est un terme résiduel alétoire ou erreur.
Paramètres à estimer : a, b, σ 2
Propriété :
Les critères du max. de vraisemblance et des moindres carrés donnent les
même estimateurs pour a et b. Le critère des moindres carrés n’utilise pas
l’hypothèse de distribution gaussienne des erreurs.
Les estimateurs A et B de a et b P
(Yi −Ȳ )(xi −x̄ )
A = Ȳ − Bx̄ et B = i P (x −x̄ )2
i i
Les estimations â et b̂ de a et b P
(y −ȳ )(xi −x̄ )
i i cov (x ,y )
â = ȳ − b̂x̄ et b̂ = P (x −x̄ )2
= σx2
i i
2 1 X
Sn−2 = (Yi − A − Bxi )2
n−2 i
Temp. 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
O3 115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8
●
130
●
cor(x,y)=0.839
120
●●
● ●
● les données (xi , yi )
●
110
â et b̂ les estimations
y=O3
●
100
●
●
●
Prédiction : â + b̂xi
90
●
●
10 15 20 25 30
● x=Temp
2
Les estimateurs A, B et Sn−2 sont des variables aléatoires.
On peut alors réaliser des tests sur les paramètres, définir des
intervalles de confiance, des intervalles de prédiction, comparer des
modèles de régression,...
Temp. 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
O3 115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8
●
130
●
120
q
●●
● ●
● â = 45 et V̂(A) = 13.805
●
110
q
y=O3
●
b̂ = 2.63 et V̂(B) = 0.602
100
●
●
80
●
●
10 15 20 25 30
● x=Temp
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
B
T =q ∼ Tn−2
V̂(B) H0
Calcul de la p-valeur
p − value = 2 ∗ P(Tn−2 > | √ b̂ |) = 2 ∗ P(Tn−2 < −| √ b̂ |)
V̂(B) V̂(B)
Test H0 : aq
= 0 contre H1 : a 6= 0
45
â = 45.00, V̂(A) = 13.805 donc t = 13.805 = 3.260
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
Ŷ0 = A + Bx0 .
2 Prédiction
On peut prédire la réponse Y0 pour une valeur x0 de la covariable :
T0 = A + Bx0 + E0
●
130
●
Ajustement : ŷ0 = â + b̂x0
120
● ●
●
Intervalle de confiance :
110
y=O3
q
● [ŷ0 ± tn−2,1−α/2 V(Ŷ0 )]
100
Intervalle de prédiction :
90
p
●
● [t0 ± tn−2,1−α/2 V(T0 )]
80
●
●
5 10 15 20 25 30 35
x=Temp
Le coefficient d’ajustement ou
P de détermination R2
2
Somme des carrés totale SCT =
Pi (Yi − Ȳ¯) 2 P 2
variabilité totale à expliquer
Somme des carrés due au modèle SCM =
P i (Ŷi − Ŷ )2 = i (Ŷi − Ȳ ) variabilité expliquée par le modèle
Somme des carrés résiduelle SCR = (Yi − Ŷi ) variabilité non expliquée par le modèle
i
2
En fait, SCM R
SCR = 1−R 2 . On retrouve donc le test sur le coeff. de corrélation
définie au début et le fait que (Tn−2 )2 = F(1, n − 2). Tester ρ = 0 ou
b = 0 est en effet équivalent : pas de lien de linéarité.
R2 0.704
1−R 2
(n − 2) = 1−0.704 (10 − 8) = 19.027
et
P(F(1, 8) > 19.027) = 0.0024
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
130
●
120
● ●
●
110
y=O3
●
100
90
●
●
80
●
●
5 10 15 20 25 30 35
x=Temp
Régression quadratique
Le lien entre Y et la covariable est peut-être une fonction plus complexe.
Exemples :
M1 : Yi = a + bxi + cxi2 + Ei avec {Ei } i.i.d. N (0, σ 2 )
M2 : Yi = a + bxi2 + Ei avec {Ei } i.i.d. N (0, σ 2 )
M3 : Yi = a + bxi + Ei avec {Ei } i.i.d. N (0, σ 2 )
Remarque :
Ces modèles sont tous des modèles linéaires. Le modèle M1 est un modèle
de régression multiple (plus de une covariable dans le modèle).
Les modèles M2 et M3 sont deux modèles emboités (cas particuliers) de
M1 .
●
130
M1 : Yi = a + bxi + cxi2 + Ei
120
● ●
●
110
M2 : Yi = a + bxi2 + Ei
y=O3
●
100
M3 : Yi = a + bxi + Ei
90
●
●
80
●
●
5 10 15 20 25 30 35
x=Temp
R2 n − p − 1
∼ F(p, n − p − 1)
1 − R2 p H0
Il existe également des critères numériques tel que AIC (An information
criteria ou critère de Akaike) pour sélectionner des modèles. Ce critère est
adapté pour un nombre pas trop important de covariables (< 20)
Modèle 1 : 03 ∼ Tp
Modèle 2 : 03 ∼ Tp + Tp 2
> anova(lm(O3~Tp),lm(O3~Tp+I(Tp^2)))
Analysis of Variance Table
Model 1: O3 ~ Tp
Model 2: O3 ~ Tp + I(Tp^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 8 1285.14
2 7 711.18 1 573.96 5.6494 0.04911 *
> anova(lm(O3[-4]~Tp[-4]),lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Analysis of Variance Table
● ●
10
●
●
10
●
●
5
●
●
●
●
●
0
Residus
Residus
0
●
−5
● ●
−10
●
●
●
−10
−20
−15
● ●
10 15 20 25 30 10 15 20 25 30
Temp. Temp
1
● ●
● ● ● ●
● ●
● ●
● ●
1
●●
0
●●
● ● ● ●
● ●
●● ●●
● ●
● ● ● ● ● ● ● ●
● ●
● ●
● ● ● ●
● ●
Residus
Residus
● ●
●● ● ● ● ●● ● ● ●
● ●
● ●
● ● ● ● ● ● ● ●
−1
0
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●
● ● ● ●
● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●
●● ●●
● ● ● ●
−1
−2
● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
−2
−3
0 20 40 60 80 0 20 40 60 80
Index Index
● ●
●
3
6
●
● ●
●
● ● ●
● ●
2
● ●●● ●
●●
4
● ● ●
●
● ● ● ●
●● ●
●
● ●
● ● ●
1
● ●
● ● ● ● ● ●
2
● ●
● ● ●
Residus
Residus
● ● ● ● ●
● ●
● ● ● ●●
● ● ●● ●
● ● ● ● ●
0
● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
0
● ● ● ●
● ●
● ●● ● ● ● ● ●● ●
● ● ● ●
● ●
● ●
● ●
−1
● ●
●
● ● ●
●
−2
● ● ● ●
● ● ● ●
● ● ●
● ●
●●
−2
●
● ● ●
● ● ●
● ● ●
−4
● ● ●
●
−3
●
−6
● ● ●
0 20 40 60 80 0 20 40 60 80
● ●
10
●
●
10
●
●
5
● ●
●
●
●
Sample Quantiles
Sample Quantiles
0
0
● ●
−5
●
−10
●
●
−10
●
−15
−20
● ●
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
● ●
130
10
●
120
●
●
● ● ●
● ●
Residus
110
y=O3
0
●
●
100
−10
●
90
●
●
80
−20
●
● ●
10 15 20 25 30 10 15 20 25 30
x=Temp Temp
10
● ● ●
130
5
● ●
120
●
● ●
●
0
110
y=O3
Residus
● ●
●
100
−5
●
90
−10
●
80
●
● ●
−15
5 10 15 20 25 30 35 20 25 30
x=Temp Tp
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
> summary(lm(O3[-4]~Tp[-4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.9669 14.2699 0.558 0.594039
Tp[-4] 4.1184 0.5941 6.932 0.000225 ***
---
Residual standard error: 8.364 on 7 degrees of freedom
Multiple R-squared: 0.8728,Adjusted R-squared: 0.8547
F-statistic: 48.05 on 1 and 7 DF, p-value: 0.0002248
> summary(lm(O3~Tp+I(Tp^2)))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.96445 21.50810 4.136 0.00437 **
Tp -2.50001 2.21118 -1.131 0.29546
I(Tp^2) 0.13057 0.05493 2.377 0.04911 *
---
Residual standard error: 10.08 on 7 degrees of freedom
Multiple R-squared: 0.8362, Adjusted R-squared: 0.7895
F-statistic: 17.87 on 2 and 7 DF, p-value: 0.001777
> summary(lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -39.94750 72.59881 -0.550 0.602
Tp[-4] 8.24747 6.15501 1.340 0.229
I(Tp[-4]^2) -0.08554 0.12687 -0.674 0.525
---
Residual standard error: 8.71 on 6 degrees of freedom
Multiple R-squared: 0.8818, Adjusted R-squared: 0.8424
F-statistic: 22.38 on 2 and 6 DF, p-value: 0.001651
La corrélation partielle
Le coefficient de corrélation partielle mesure la liaison entre 2 variables
lorsque l’influence d’une troisième (ou de plusieurs autres) est gardée
constante sur les 2 variables comparées. Il a le même sens que le
coefficient de corrélation classique.
ρy ,x1 − ρy ,x1 ρy ,x2
ρy ,x1 |x2 = q q
1 − ρ2y ,x1 1 − ρ2y ,x2
Lien entre corrélation partielle et corrélation multiple
2
Rp+1 − Rp2
ρy ,xp+1 |x1 ,...,xp =
1 − Rp2
Le carré de la corrélation partielle, donne donc l’augmentation de R 2
relative á la portion de la variation de y inexpliquée par les variables
x1 , ..., xp déjà dans l’équation.
(La régression linéaire) 45 / 49
Difficulté en régression multiple
La corrélation partielle
Pour le jeu de données, on obtient :
cor (O3, Tp|Tp 2 ) = 0.09 et cor (O3, Tp 2 |Tp) = 0.12
Les tests sur les paramètres dans le cadre de la régression multiple doivent
être utilisés avec précaution en raison des possibles coorélations entre les
variables.
On pourrait éliminer des variables du modèle sur la base de ces tests (les
variables aux coefficients significativement nuls). Mais cette procédure est
incorrecte. Il ne faut pas oublier que le test d’un coefficient est effectué
alors que les autres variables sont fixées. Donc si deux variables sont trés
corrélées, le test d’un des deux coefficients peut être non significatif
puisque l’information apportée par la variable testée existe dans l’autre. On
ne peut donc rien conclure sur l’estimation de ces coefficients et de leurs
significativité.
La question de la sélèction des variables doit faire l’objet d’une analyse
approfondie basée par exemple sur l’analyse des coeff. de corrélation
partielle.
(La régression linéaire) 47 / 49
La régression multiple
Avec ces critères, on choisit le modèle dont le critère est le plus petit. Ces
critères ne sont pas basés sur des tets, mais sur la pénalisation de la
vraisemblance en fonction du nombre de paramètres dans le modèle.