Vous êtes sur la page 1sur 5

M2 Pro Ingnierie Mathmatique

Universit d'Angers, Universit de Nantes

Anne 2011-2012

TD de rgression linaire multiple

Exercice 1 : Notation matricielle

On considre le modle de rgression linaire simple du Chapitre 1 o l'on dispose de n observations (xi , yi ) vriant

yi = 0 + 1 xi + i ,
o l'on suppose que les variables i , i = 1 . . . n sont centres, de variance 2 et non-correles. On
veut retrouver les proprits du Chapitre 1 l'aide des notations matricielles du Chapitre 2.
1. Ecrire le modle sous la forme matricielle d'un modle de rgression linaire multiple.
2. Calculer l'estimateur des moindres carrs dans le modle matriciel et retrouver les estimateurs 0 et 1 du modle de rgression simple.
, retrouver les variances de 0 et 1 , et la covariance
3. A l'aide de la formule matricielle de var()

entre 0 et 1 . De mme pour les rsidus  et les valeurs estimes Y .


4. On suppose prsent que les i sont i.i.d. de loi normale N (0, 2 ), o 2 est inconnue. A
partir des lois des estimateurs du modle matriciel, retrouver les intervalles de conance de
0 et 1 .
5. A partir de la rgion de conance simultane de du modle matriciel, retrouver l'ellipse de
conance de (0 , 1 ) de la rgression simple.
6. On observe un nouveau point x R. A partir des proprits de Y (x) du modle matriciel,
retrouver l'intervalle de conance de cet estimateur.

Exercice 2 : Tableau ANOVA

On considre le modle de rgression linaire multiple Y = 0 + 1 X1 + 2 X2 + .


1. Complter le tableau d'analyse de variance correspondant :
Variance
Regression
Residus
Totale

ddl
n-3
n-1

SC
1504.4
1680.8

MCE

19.6

2. Tester l'hypothse nulle H0 : 1 = 2 = 0 au niveau 95%.


3. Quel est le R2 du modle. Proposer une interprtation gomtrique du rsultat.
4. Donner une estimation de 2 , la variance de .

Exercice 3 : Production industrielle

On tudie l'inuence des heures de travail et du capital utilis sur la production industrielle.
Pour cela, on dispose des observations de 9 entreprises rsumes dans le tableau ci-dessous :
Obs
1
2
3
4
5
6
7
8
9

Travail (heures)
1100
1200
1430
1500
1520
1620
1800
1820
1800

Capital (machines/heures)
300
400
420
400
510
590
600
630
610

Production (100 tonnes)


60
120
190
250
300
360
380
430
440

On suppose que la production est explique par un modle de rgression linaire multiple avec
deux variables explicatives, le capital et le travail.
1. Ecrire le modle sous forme matricielle.
2. Estimer le vecteur puis donner l'quation de l'hyperplan des moindres carrs. Pour cela,
on donne

6.304777 0.007800 0.011620


(X 0 X)1 = 0.007800 0.000015 0.000031
0.011620 0.000031 0.000072

.
3. Calculer les estimations de 2 et V ()
4. Calculer les intervalles de conance 95% pour j , j = 0, 1, 2.
5. Calculer les intervalles de conance simultans pour j , j = 0, 1, 2 au niveau de conance au
moins 95%, par la mthode de Bonferroni et la mthode de Sche.
6. Donner l'expression de la rgion de conance de et calculer les rgions de conances des
couples (i , j ), i 6= j .
7. Tester l'hypothse nulle H0 : j = 0 contre l'alternative H1 : j 6= 0 pour j = 0, 1, 2.
8. Construire le tableau d'analyse de variance et raliser le test de Fisher global d'hypothse
nulle H0 : 1 = 2 = 0 au risque = 5%. Conclure.

Exercice 4 : Attaques cardiaques

Les donnes que nous tudions prsentent le taux de dcs par attaque cardiaque chez les hommes
de 55 59 ans dans dirents pays industrialiss. Les variables sont Y = 100 log(nbre de dcs
par crise cardiaque pour 100000 hommes)2), X1 = 1000tlphones par habitants, X2 =calories
grasses en pourcentage du total des calories et X3 =calories provenant de protines animales en
pourcentage du total des calories.
Pays
Australie
Autriche
Canada
Ceylan
Chili
Danemark
Finlande
France
Allemagne
Irlande
Isral
Italie
Japon
Mexique
Pays-Bas
Nouvelle-Zlande
Norvge
Portugal
Sude
Suisse
Grande-Bretagne
Etats-Unis

X1
124
49
181
4
22
152
75
54
43
41
17
22
16
10
63
170
15
15
221
171
97
254

X2
33
31
38
17
20
39
30
29
35
31
23
21
8
23
37
40
38
25
39
33
38
39

X3
8
6
8
2
4
6
7
7
6
5
4
3
3
3
6
8
6
4
7
7
6
8

Y
81
55
80
24
78
52
88
45
50
69
66
45
24
43
38
72
41
38
52
52
66
89

1. Rgresser Y sur X1 et tester la signication de cette rgression.


2. Trouver l'quation de la rgression multiple de Y sur X1 et X2 .
3. Eectuer un test de Fisher global d'hypothse nulle H0 : 1 = 2 = 0.
4. Eectuer un test de Fisher partiel pour tester le modle 1. contre le modle Y = 0 + 1 X1 +
2 X2 .
5. Construire la rgression multiple de Y sur X1 , X2 et X3 .
6. Tester le modle de rgression simple 1. contre le modle complet 5. l'aide d'un test de
Fisher partiel puis d'un test d'hypothse linaire H0 : K 0 = 0 pour K 0 M24 .
7. Construire un intervalle de conance 95% pour y(x1 , x2 , x3 ) lorsque (x1 , x2 , x3 ) = (221, 39, 7).
8. Rgresser X1 sur X2 et X3 .
9. Donner l'intervalle de conance 95% pour les coecients de cette rgression.

M2 Pro Ingnierie Mathmatique


Universit d'Angers, Universit de Nantes

Anne 2011-2012

TP de rgression linaire multiple

Exercice 1 : Hauteur des eucalyptus

On considre les donnes du chier "eucalyptus.txt" qui exprime la hauteur de 1429 eucalyptus
en fonction de leur circonfrence. Nous avons mentionn dans le TP prcdent qu'un modle du
type

ht = 1 + 2 circ + 3 circ + 
amliorait la rgression linaire simple.
1. Aprs avoir rcupr les donnes, eectuer la phase d'estimation de cette rgression via la
formule :

>regmult<-lm(ht~circ+I(sqrt(circ)),data=eucalyptus)
L'oprateur I() permet de protger la racine carre et sera utilis chaque opration sur les
variables. Commenter les rsultats obtenus.
2. Retrouver " la main" les rsultats de la phase d'estimation, savoir le vecteur et l'cart
de variance covariance
type de chacune des composantes. Calculer pour cela la matrice var()
du vecteur .
3. Calculer les intervalles de conances des paramtres j , j = 1, 2, 3 l'aide des commandes
suivantes :

>t<-qt(0.975,df=regmult$df.res)
>resume<-summary(regmult)
>IC<-rbind(coef(resume)[,1]-t*coef(resume)[,2],coef(resume)[,1]+t*coef(resume)[,2])
4. Tracer l'estimation de la droite de rgression, ainsi qu'un intervalle de conance 95% de
celle-ci grce aux commandes suivantes :

>circ<-seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)
>circ<-data.frame(circ)
>ICdte<-predict(reg2,new=circ,interval="confidence",level=0.95)
>matlines(circ$circ,cbind(ICdte),lty=c(1,2,2),col=1)
Qu'en dduisez-vous quant la qualit d'ajustement des donnes au modle et la qualit
de l'estimation ?
5. On s'intresse prsent la qualit de prvision du modle. Pour cela, on va tracer un
intervalle de conance des prvisions de la manire suivante :

>plot(ht~circ,data=eucalyptus)
>circ=seq(min(eucalyptus[,"circ"]),max(eucalyptus[,"circ"]),length=100)
>grille<-data.frame(circ)
>ICprev<-predict(regmult,new=grille,interval="pred",level=0.95)
>matlines(grille$circ,cbind(ICprev),lty=c(1,2,2),col=1)
6. Tester la signicativit du modle l'aide du test de Fisher global H0 : = 0 = 1 = 2 = 0
en utilisant la formule faisant intervenir le R2 . Retrouver le rsultat de summary.
7. Tester l'apport de ce modle de rgression multiple par rapport au modle de rgression
simple
l'aide d'un test embot H0 : ht = 0 +1 circ contre H1 : ht = 0 +1 circ+2 circ :

>regsimple<-lm(ht~circ,data=eucalyptus)
>anova(regmult,regsimple)
Retrouver le rsultat dans la matrice coecients.

Exercice 2 : Consommation de glace

On tudie la consommation de glace aux Etats-Unis sur une priode de 30 semaines du 18


Mars 1950 to 11 Juillet 1953. Les variables sont la priode (de la semaine 1 la semaine 30), la
consommation (Consumption en pintes par habitant), le prix des glaces (Price en dollars), le salaire
hebdomadaire (Income en dollars), et la temprature (Temp en degr fahrenheit). Les donnes sont
disponibles dans le chier "icecream-R.dat".
1. Extraire les donnes et reprsenter la consommation en fonction des direntes variables.
Reprsenter l'volution du salaire (Income) en fonction de la priode. Interprter.
2. On propose de rgresser la consommation sur les trois variables Price, Income et Temp.
Raliser la phase d'estimation de cette rgression et commenter les rsultats obtenus.
3. Dterminer les intervalles de conance simultans au niveau au moins 95% pour les j ,
j = 0, . . . 3 par la mthode de Bonferroni.
4. Construire les rgions de conance des couples (i , j ) de paramtres et les comparer graphiquement aux intervalles de conance grce aux commandes suivantes :

>library(ellipse)
>plot(ellipse(regmult,c(i+1,j+1),level=0.95,type="l",xlab=paste("beta",i,sep=""),
ylab=paste("beta",j,sep=""))
>points(coef(resume)[i],coef(resume)[j],pch=3)
>IC<-rbind(coef(resume)[,1]-coef(resume)[,2]*qt(0.975,regmult$df.res),coef(resume)
[,1]+qt(0.975,regmult$df.res))
>lines(c(IC[1,i],IC[1,i],IC[2,i],IC[2,i],IC[1,i]),c(IC[1,j],IC[2,j],IC[2,j],
IC[1,j],IC[1,j]),lty=2)
Qu'apporte comme information supplmentaire ces ellipses de conance ?
5. Tester la signicativit du modle propos l'aide du test de Fisher global : H0 : 2 = 3 =
4 = 0.
6. Tester H0 : Intercept = 0 puis H0 : P rice = 0. Tester l'aide de la fonction anova le
modle (sans constante) rduit aux variables "Income" et "Temp". Commenter.
7. Retrouver ces rsultats l'aide de la fonction linear.hypothesis, qui permet de faire des
tests d'hypothses linaires (documentation disponible l'adresse suivante : www.math.univangers.fr/ loustau).
8. Tester l'aide de la fonction linear.hypothesis H0 : Income = T emp.
9. On s'intresse la prdiction de consommation de nouvelles donnes. Dterminer l'estimation
ponctuelle y et l'intervalle de conance associ chacune des donnes suivantes :
 x1 =(Price=0.3, Income=85, Temp=65) ;
 x2 =(Price=0.26, Income=76, Temp=71) ;
 x3 =(Price=0.26, Income=85, Temp=90).
10. Dterminer par la mthode de Sche les intervalles de conances simultans de y(xi ), i =
1, 2, 3.
11. Rgresser la consommation sur le salaire et la temprature dans un modle sans constante.
Estimer les paramtres de la rgression et rpter les questions 9. et 10. Commenter.