Vous êtes sur la page 1sur 9

Université Laval STT-2902

Faculté des sciences et de génie Automne 2012


Département de mathématiques et de statistique Emmanuelle Reny-Nolin

Corrigé - Série 3
Régression linéaire simple

Exercice 1 - Densité européenne


a)
Population en fonction de la superficie
90
y = 0,0001x + 1,9583
80
Population (millions d'habitants)

70

60

50

40

30

20

10

0
0 100000 200000 300000 400000 500000 600000
Superficie (km2)

On voit qu’il y a probablement une relation linéaire croissante entre la population et


la superficie. Par contre, il est clair que la variance n’est pas constante autour de la
droite (les résidus afficheraient un entonnoir ouvert à droite). On peut donc ajuster un
modèle linéaire avec n’importe quelle méthode d’estimation (calculer l’équation d’une
droite), mais on ne peut pas associer de marge d’erreur aux estimations des moindres
carrés comme on le ferait si tous les postulats étaient respectés.
b) Estimation de la densité moyenne de la population en Europe :

i) en calculant la moyenne des 27 densités :


P27
yi /xi
i=1
= 166, 28 hab/km2
27
Ce calcul donne un poids égal à chaque pays. C’est la moyenne des densités des
pays d’Europe, donc c’est la densité moyenne par pays. Les petits pays, ayant
souvent une grande densité, ont plus de poids dans ce calcul.

ii) en calculant la population totale des 27 pays, et en la divisant par la superficie


totale des 27 pays :
X27 .X27
yi xi = 112, 95 hab/km2
i=1 i=1
Ce calcul donne un poids égal à chaque km2 de territoire. Les grands pays ont
plus de poids dans ce calcul. Cette formule ne tient pas compte des divisions

1
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

politiques. Si l’Europe était un pays, ce serait sa densité de population. Bien sûr,


cette densité n’est pas homogène.

iii) en estimant la pente de la droite de régression aux moindres carrés :


P27
xi yi − 27x y
i=1
27
= 100, 74 hab/km2
x2i − 27x2
P
i=1
Ce calcul donne une estimation de l’augmentation moyenne de la population
lorsque le territoire augmente d’un km2 . Cette estimation ne correspond pas exac-
tement à la valeur en a), car elle est calculée en minimisant l’erreur de prédiction
de la population à partir d’une superficie connue (les distances verticales par rap-
port à la droite).

Si la droite passait par 0 exactement, ce serait une façon d’envisager la densité


”moyenne” (et on n’en est pas loin, puisque β̂0 = 1, 96). À titre informatif, on
peut forcer la droite de régression à passer par 0 (en minimisant la somme du
carré des erreurs du modèle Yi = β1 xi + εi ), on obtient alors l’estimation suivante
pour la pente :
P27
xi y i
i=1
27
= 106, 84
2
P
xi
i=1

Exercice 2 - Drill, baby, drill ! (Comme disait Sarah Palin)

a)
n
P
SXY = (Xi − X)(Yi − Y )
i=1
Pn
= (Xi Yi − Xi Y − Yi X + XY )
i=1
Pn n
P n
P
= Xi Yi − Y Xi − X Yi + nXY
i=1 i=1 i=1
Pn
= Xi Yi − Y (nX) − X(nY ) + nXY
i=1
Pn
= Xi Yi − nX Y
i=1

2
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

b)
n
P
SXY = (Xi − X)(Yi − Y )
i=1
Pn n
P
= (Xi − X)Yi − (Xi − X)Y
i=1 i=1
Pn n
P
= (Xi − X)Yi − Y (Xi − X)
i=1 i=1
Pn
= (Xi − X)Yi − Y (0)
i=1
Pn
= (Xi − X)Yi
i=1

∂S n
P n
P
c) =0 si Yi = n β̂0 + β̂1 Xi
∂β0 i=1 i=1

On isole β̂0 et on obtient β̂0 = Y − β̂1 X .

∂S n n n
Xi2
P P P
=0 si Xi Yi = β̂0 Xi + β̂1
∂β1 i=1 i=1 i=1

En remplaçant β̂0 par β̂0 = Y − β̂1 X, on obtient :

n n n n
Xi2 − X
P P P P
Xi Yi − Y Xi = β̂1 ( Xi )
i=1 i=1 i=1 i=1
n n 2
Xi2 − nX )
P P
Xi Yi − nX Y = β̂1 (
i=1 i=1

SXY
On isole β̂1 et on obtient β̂1 =
SXX
n
P
(Xi − X)Yi
SXY i=1
d) En effet, β̂1 = = P n
SXX
(Xi − X)2
i=1
La principale conséquence de cet état de fait est que β̂1 suit une loi normale lorsqu’on
suppose que les Yi suivent une loi normale (autour de la droite).

3
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

Exercice 3 - Dans le ventre de sa maman...

Modèle 1 : Longévité en fonction de Gestation


Modèle 2 : Longévité en fonction de ln(Gestation)
Modèle 3 : ln(Longévité) en fonction de Gestation
Modèle 4 : ln(Longévité) en fonction de ln(Gestation)

a) Selon les quatre graphiques de dispersion, le modèle 4 est clairement celui qui présente
la relation la plus linéaire, avec une variance à peu près constante pour toutes les
valeurs de x.
Modèle 1: Y vs x Modèle 2: Y vs ln(x)
45
45
40
40
Y=Longévité moyenne (années)

35
35
30
30
25
25
20
Y

20
15
15
10
10
5
5
0
0 100 200 300 400 500 600 700 0
ln(x)
x = Durée de gestation (jours)

Modèle 3: ln(Y) vs x Modèle 4: ln(Y) vs ln(x)
4,00 4,00

3,50 3,50

3,00 3,00

2,50 2,50
ln(Y)
ln(Y)

2,00 2,00

1,50 1,50

1,00 1,00

0,50 0,50

0,00 0,00
0 100 200 300 400 500 600 700 2,00 2,50 3,00 3,50 4,00 4,50 5,00 5,50 6,00 6,50 7,00
x ln(x)

b)
Appellation dans Excel Symbole Formule
Coeff. de détermination multiple r coeff. de corrélation échantillonnal
Cov(X, Y ) SXY
=√
SX · SY SXX · SY Y
SSE SSR
Coeff. de détermination R^ 2 R2 1− = = r2
SST SST

2 SSE/(n − 2) M SE
Coeff. de détermination R^ 2 Rajuste 1− =1−
SST /(n − 1) Sy2

4
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

c)
Modèle 1 : Y en fonction de X R2 = 0.3275
Modèle 2 : Y en fonction de ln(X) R2 = 0.3925
Modèle 3 : ln(Y) en fonction de X R2 = 0.3535
Modèle 4 : ln(Y) en fonction de ln(X) R2 = 0.5883

Le modèle 4 est encore privilégié, car c’est celui pour lequel la proportion de variabilité
expliquée par le modèle est la plus grande.
d) σ 2 = M SE = 0.2000
e) moyenne des résidus =−3.47 × 10−16 ≈ 0 et écart-type des résidus = 0.4413.

On aurait pu trouver ces valeurs sans utiliser la liste des résidus, car la moyenne des
écarts est toujours 0, et la variance échantillonnale des résidus correspond à une petite
transformation du M SE, soit

n n
(ε̂i − ε)2 ([yi − ŷi ] − 0)2
P P
i=1 i=1 (n − 2)M SE
s2ε = = =
(n − 1) (n − 1) (n − 1)
Exercice 4 - Jouons avec les Y
a) i) Méthode de Mayer :
Deux points moyens : P1 = (19, 5, 3, 0) et P2 = (44, 17, 8, 3)
Équation de la droite : Ŷ1 = 0, 2162 x − 1, 2329

ii) Méthode médiane-médiane :


Trois points médians : P1 = (14, 5, 2, 1), P2 = (32, 5, 1) et P3 = (50, 5, 9, 4)
Moyenne des points médians : (32, 33, 5, 50)
Équation de la droite : Ŷ1 = 0, 2028 x − 1, 0565

b) La pente changera de signe, mais aura la même valeur absolue. Pour l’ordonnée s̀
l’origine, les calculs sont nécessaires :
i) Équation de la droite de Mayer : Ŷ2 = −0, 2162 x + 12, 5329

ii) Équation de la droite médiane-médiane : Ŷ2 = −0, 2028 x + 12, 0565

c) Non, les valeurs de Y sont liées aux valeurs de X. On ne peut pas séparer les valeurs
d’un même individu. On ordonne selon X et les Y suivent.

5
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

Exercice 5 - Un air de déjà vu...


a) On sait que la droite de régression passe par (x, y) = (0, 6, 4, 15). On donne un autre
point dans la question, soit (0, β̂0 ) = (0, 2, 335). On peut donc évaluer la pente de la
droite :
∆y 4, 15 − 2, 335
β̂1 = = = 3, 025
∆x 0, 6 − 0
L’équation de la droite de régression : Ŷ = β̂0 + β̂1 x = 2, 335 + 3, 025x

b) SXX = (n − 1)s2X = 9 × 0, 0889 = 0, 8001

SY Y = (n − 1)s2Y = 9 × 0, 8206 = 7, 388

M SE = SSE/(n − 2) = 0, 0645/8 = 0, 00806


s  s
x2
  
1 1 0, 62
Erreur-type(β̂0 ) : M SE + = 0, 00806 + = 0, 0666
n SXX 10 0, 8001
r r
M SE 0, 00806
Erreur-type(β̂1 ) : = = 0, 1004
SXX 0, 8001

c) Il y a deux façons de répondre à cette question. Il s’agit d’un test unilatéral sur β1 :

H0 : β1 = 3
H1 : β1 > 3

1) Test d’hypothèse sur la pente :


σ2
 
On construit une statistique de Student en se basant sur le fait que β̂1 ∼ N β1 , .
SXX
β̂1 − 3 β̂1 − 3
Si H0 est vraie, alors T0 = =p ∼ tn−2 .
err. − type(β̂1 ) M SE/SXX
3.025 − 3
Puisque tobs = = 0.249 n’est pas supérieure à la valeur critique tα;n−2 =
0, 1004
t0.05;8 = 1, 86, on ne rejette pas H0 .

2) Intervalle de confiance sur la pente :


Un intervalle de confiance de niveau 1−α est équivalent à un test bilatéral de seuil α sur
un paramètre, car il a deux bornes. La zone de rejet du test unilatéral (H1 : β1 > 3)

6
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

exclut les 5% des valeurs les plus improbables de la distribution de β̂1 sous H0 à
l’extrémité droite du spectre. L’intervalle de confiance correspondant devra ”exclure”
5% des valeurs à chaque extrémité du spectre. Il aura donc un niveau de 90%.

β̂1 ± t8;0,05 × err. − type(β̂1 ) = 3, 025 ± 1, 86 × 0, 1004 = [2, 838, 3, 212]


On rejetterait H0 si toutes les valeurs de l’intervalle de confiance étaient supérieures
à 3. C’est donc la borne inférieure qui détermine notre décision. On ne peut donc pas
conclure que la pente de la droite est supérieure à 3 au seuil α = 5%.
SSR SSE SSE 0, 0645
d) R2 = =1− =1− =1− = 0, 9913.
SST SST SY Y 7, 388
e) Intervalle de prédiction pour une observation future :
r  
−x)2
ŷ0 ± t8;0,025 M SE 1 + n1 + (xS0XX
r  
2
2, 335 + 3, 025(0, 9) ± 2.306 0.00806 1 + 10 1
+ (0,9−0,6)
0,8001

5, 058 ± 0, 228
[4, 830 , 5, 286]
f) i) Si on avait choisi une quantité d’antibiotique égale à 0,7, l’intervalle aurait été
plus court car x0 aurait été plus proche de la moyenne.
ii) Si on avait choisi α = 0.01, l’intervalle aurait été plus long, car le quantile t8;0,005
aurait été plus grand.
iii) Si on avait utilisé une taille d’échantillon de 20 unités, l’intervalle aurait été plus
court, car n et SXX seraient plus grands et tn−2;0,025 serait plus petit.
iv) Si on avait construit l’intervalle pour estimer la densité optique moyenne de tous
les tubes ayant reçu une quantité d’antibiotique égale à 0,9, l’intervalle aurait
été plus court, car on aurait choisi la formule de l’intervalle de confiance pour
E(Y |x0 ), qui tient seulement compte de l’erreur d’estimation du point sur la
droite.

g) i) Ce tube a reçu x − 1, 5sX = 0, 6 − 1, 5(0, 298) = 0, 153 unité d’antibiotique.


ii) densité optique prédite = 2,797
iii) Cette valeur se situe à 1,493 écart-type de la densité optique moyenne
iv) 1, 5 × r = 1, 493 → r = 0, 995. On peut vérifier qu’il s’agit de la racine carrée
positive de R2 .

7
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

h)

i) La moyenne des xi et des yi restera exactement la même dans les deux cas.
ii) L’équation de la droite de régression restera inchangée.

On peut voir facilement que Sxx sera deux fois plus petit, car chaque écart est
présent une seule fois dans la somme au lieu de deux.

Sxy sera aussi deux fois plus petit. Pour s’en convaincre, prenons les deux premiers
termes de la somme avant réduction des données :

(0.2 − x)(2.9 − y) + (0.2 − x)(3.0 − y) = (0.2 − x)(2.9 + 3.0 − 2y)

Ils sont maintenant remplacés par (0.2 − x)(2.95 − y) dans la somme après
réduction des données. Idem pour les huit autres termes de Sxy .
iii) L’estimation de la variance autour de la droite sera considérablement réduite et
par conséquent la marge d’erreur sur les prédictions sera faussement diminuée.
Une bonne partie de la variabilité naturelle dans les observations est occultée par
la mise en commun des Y ayant la même valeur de X.

Exercice 6 - Ma cabane au Canada

Cov(X, Y ) = 374 225


r(X, Y ) = 0, 77

a) On décide d’exprimer le prix des maisons en milliers de dollars plutôt qu’en dollars.
Posons W = Y /1 000.
 
Y 1
Cov(X, W ) = Cov X, = Cov(X, Y ) = 374, 225
1 000 1 000

Cov(X, W ) Cov(X, Y /1 000) 1/1 000 Cov(X, Y )


r(X, W ) = p =p =p
V ar(X) V ar(W ) V ar(X) V ar(Y /1 000) V ar(X) (1/1 000)2 V ar(Y )

Cov(X, Y )
=p = r(X, Y ) = 0, 77
V ar(X) V ar(Y )

b) On veut maintenant exprimer le temps en nombre d’années écoulées depuis 1980.


Posons T = X − 1980.

8
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin

Cov(T, Y ) = Cov (X − 1980, Y ) = Cov(X, Y ) = 374 225

Cov(X − 1980, Y ) Cov(X, Y )


r(T, Y ) = p =p = r(X, Y ) = 0, 77
V ar(X − 1980) V ar(Y ) V ar(X) V ar(Y )