Vous êtes sur la page 1sur 5

M2 Pro Ingénierie Mathématique Année 2011-2012

Université d'Angers, Université de Nantes

TD de régression linéaire multiple

Exercice 1 : Notation matricielle


On considère le modèle de régression linéaire simple du Chapitre 1 où l'on dispose de n obser-
vations (xi , yi ) vériant

yi = β0 + β1 xi + i ,

où l'on suppose que les variables i , i = 1 . . . n sont centrées, de variance σ 2 et non-correlées. On


veut retrouver les propriétés du Chapitre 1 à l'aide des notations matricielles du Chapitre 2.
1. Ecrire le modèle sous la forme matricielle d'un modèle de régression linéaire multiple.
2. Calculer l'estimateur des moindres carrés β̂ dans le modèle matriciel et retrouver les estima-
teurs βˆ0 et βˆ1 du modèle de régression simple.
3. A l'aide de la formule matricielle de var(β̂), retrouver les variances de βˆ0 et βˆ1 , et la covariance
entre βˆ0 et βˆ1 . De même pour les résidus ˆ et les valeurs estimées Ŷ .
4. On suppose à présent que les i sont i.i.d. de loi normale N (0, σ 2 ), où σ 2 est inconnue. A
partir des lois des estimateurs du modèle matriciel, retrouver les intervalles de conance de
β0 et β1 .
5. A partir de la région de conance simultanée de β du modèle matriciel, retrouver l'ellipse de
conance de (β0 , β1 ) de la régression simple.
6. On observe un nouveau point x ∈ R. A partir des propriétés de Ŷ (x) du modèle matriciel,
retrouver l'intervalle de conance de cet estimateur.

Exercice 2 : Tableau ANOVA


On considère le modèle de régression linéaire multiple Y = β0 + β1 X1 + β2 X2 + .
1. Compléter le tableau d'analyse de variance correspondant :

Variance ddl SC MCE F


Regression 1504.4
Residus n-3 19.6
Totale n-1 1680.8

2. Tester l'hypothèse nulle H0 : ”β1 = β2 = 0” au niveau 95%.


3. Quel est le R2 du modèle. Proposer une interprétation géométrique du résultat.
4. Donner une estimation de σ 2 , la variance de .

1
Exercice 3 : Production industrielle
On étudie l'inuence des heures de travail et du capital utilisé sur la production industrielle.
Pour cela, on dispose des observations de 9 entreprises résumées dans le tableau ci-dessous :

Obs Travail (heures) Capital (machines/heures) Production (100 tonnes)


1 1100 300 60
2 1200 400 120
3 1430 420 190
4 1500 400 250
5 1520 510 300
6 1620 590 360
7 1800 600 380
8 1820 630 430
9 1800 610 440

On suppose que la production est expliquée par un modèle de régression linéaire multiple avec
deux variables explicatives, le capital et le travail.
1. Ecrire le modèle sous forme matricielle.
2. Estimer le vecteur β puis donner l'équation de l'hyperplan des moindres carrés. Pour cela,
on donne
 
6.304777 −0.007800 0.011620
(X 0 X)−1 = −0.007800 0.000015 −0.000031
0.011620 −0.000031 0.000072

3. Calculer les estimations de σ 2 et V (β̂).


4. Calculer les intervalles de conance à 95% pour βj , j = 0, 1, 2.
5. Calculer les intervalles de conance simultanés pour βj , j = 0, 1, 2 au niveau de conance au
moins 95%, par la méthode de Bonferroni et la méthode de Scheé.
6. Donner l'expression de la région de conance de β et calculer les régions de conances des
couples (βi , βj ), i 6= j .
7. Tester l'hypothèse nulle H0 : ”βj = 0” contre l'alternative H1 : ”βj 6= 0” pour j = 0, 1, 2.
8. Construire le tableau d'analyse de variance et réaliser le test de Fisher global d'hypothèse
nulle H0 : ”β1 = β2 = 0” au risque α = 5%. Conclure.

2
Exercice 4 : Attaques cardiaques
Les données que nous étudions présentent le taux de décès par attaque cardiaque chez les hommes
de 55 à 59 ans dans diérents pays industrialisés. Les variables sont Y = 100 × log(nbre de décès
par crise cardiaque pour 100000 hommes)−2), X1 = 1000×téléphones par habitants, X2 =calories
grasses en pourcentage du total des calories et X3 =calories provenant de protéines animales en
pourcentage du total des calories.

Pays X1 X2 X3 Y
Australie 124 33 8 81
Autriche 49 31 6 55
Canada 181 38 8 80
Ceylan 4 17 2 24
Chili 22 20 4 78
Danemark 152 39 6 52
Finlande 75 30 7 88
France 54 29 7 45
Allemagne 43 35 6 50
Irlande 41 31 5 69
Israël 17 23 4 66
Italie 22 21 3 45
Japon 16 8 3 24
Mexique 10 23 3 43
Pays-Bas 63 37 6 38
Nouvelle-Zélande 170 40 8 72
Norvège 15 38 6 41
Portugal 15 25 4 38
Suède 221 39 7 52
Suisse 171 33 7 52
Grande-Bretagne 97 38 6 66
Etats-Unis 254 39 8 89

1. Régresser Y sur X1 et tester la signication de cette régression.


2. Trouver l'équation de la régression multiple de Y sur X1 et X2 .
3. Eectuer un test de Fisher global d'hypothèse nulle H0 : ”β1 = β2 = 0”.
4. Eectuer un test de Fisher partiel pour tester le modèle 1. contre le modèle Y = β0 + β1 X1 +
β2 X2 .
5. Construire la régression multiple de Y sur X1 , X2 et X3 .
6. Tester le modèle de régression simple 1. contre le modèle complet 5. à l'aide d'un test de
Fisher partiel puis d'un test d'hypothèse linéaire H0 : ”K 0 β = 0” pour K 0 ∈ M2×4 .
7. Construire un intervalle de conance à 95% pour y(x1 , x2 , x3 ) lorsque (x1 , x2 , x3 ) = (221, 39, 7).
8. Régresser X1 sur X2 et X3 .
9. Donner l'intervalle de conance à 95% pour les coecients de cette régression.

3
M2 Pro Ingénierie Mathématique Année 2011-2012
Université d'Angers, Université de Nantes

TP de régression linéaire multiple

Exercice 1 : Hauteur des eucalyptus


On considère les données du chier "eucalyptus.txt" qui exprime la hauteur de 1429 eucalyptus
en fonction de leur circonférence. Nous avons mentionné dans le TP précédent qu'un modèle du
type

ht = β1 + β2 ∗ circ + β3 circ + 
améliorait la régression linéaire simple.
1. Après avoir récupéré les données, eectuer la phase d'estimation de cette régression via la
formule :
>regmult<-lm(ht~circ+I(sqrt(circ)),data=eucalyptus)
L'opérateur I() permet de protéger la racine carrée et sera utilisé à chaque opération sur les
variables. Commenter les résultats obtenus.
2. Retrouver "à la main" les résultats de la phase d'estimation, à savoir le vecteur β̂ et l'écart
type de chacune des composantes. Calculer pour cela la matrice var(β̂) de variance covariance
du vecteur β̂ .
3. Calculer les intervalles de conances des paramètres βj , j = 1, 2, 3 à l'aide des commandes
suivantes :
>t<-qt(0.975,df=regmult$df.res)
>resume<-summary(regmult)
>IC<-rbind(coef(resume)[,1]-t*coef(resume)[,2],coef(resume)[,1]+t*coef(resume)[,2])
4. Tracer l'estimation de la droite de régression, ainsi qu'un intervalle de conance à 95% de
celle-ci grâce aux commandes suivantes :
>circ<-seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)
>circ<-data.frame(circ)
>ICdte<-predict(reg2,new=circ,interval="confidence",level=0.95)
>matlines(circ$circ,cbind(ICdte),lty=c(1,2,2),col=1)
Qu'en déduisez-vous quant à la qualité d'ajustement des données au modèle et à la qualité
de l'estimation ?
5. On s'intéresse à présent à la qualité de prévision du modèle. Pour cela, on va tracer un
intervalle de conance des prévisions de la manière suivante :
>plot(ht~circ,data=eucalyptus)
>circ=seq(min(eucalyptus[,"circ"]),max(eucalyptus[,"circ"]),length=100)
>grille<-data.frame(circ)
>ICprev<-predict(regmult,new=grille,interval="pred",level=0.95)
>matlines(grille$circ,cbind(ICprev),lty=c(1,2,2),col=1)
6. Tester la signicativité du modèle à l'aide du test de Fisher global H0 : ”β = 0 = β1 = β2 = 0”
en utilisant la formule faisant intervenir le R2 . Retrouver le résultat de summary.
7. Tester l'apport de ce modèle de régression multiple par rapport au modèle de régression√simple
à l'aide d'un test emboîté H0 : ”ht = β0 +β1 ∗circ” contre H1 : ”ht = β0 +β1 ∗circ+β2 circ” :
>regsimple<-lm(ht~circ,data=eucalyptus)
>anova(regmult,regsimple)
Retrouver le résultat dans la matrice coecients.

4
Exercice 2 : Consommation de glace
On étudie la consommation de glace aux Etats-Unis sur une période de 30 semaines du 18
Mars 1950 to 11 Juillet 1953. Les variables sont la période (de la semaine 1 à la semaine 30), la
consommation (Consumption en pintes par habitant), le prix des glaces (Price en dollars), le salaire
hebdomadaire (Income en dollars), et la température (Temp en degré fahrenheit). Les données sont
disponibles dans le chier "icecream-R.dat".
1. Extraire les données et représenter la consommation en fonction des diérentes variables.
Représenter l'évolution du salaire (Income) en fonction de la période. Interpréter.
2. On propose de régresser la consommation sur les trois variables Price, Income et Temp.
Réaliser la phase d'estimation de cette régression et commenter les résultats obtenus.
3. Déterminer les intervalles de conance simultanés au niveau au moins 95% pour les βj ,
j = 0, . . . 3 par la méthode de Bonferroni.
4. Construire les régions de conance des couples (βi , βj ) de paramètres et les comparer gra-
phiquement aux intervalles de conance grâce aux commandes suivantes :
>library(ellipse)
>plot(ellipse(regmult,c(i+1,j+1),level=0.95,type="l",xlab=paste("beta",i,sep=""),
ylab=paste("beta",j,sep=""))
>points(coef(resume)[i],coef(resume)[j],pch=3)
>IC<-rbind(coef(resume)[,1]-coef(resume)[,2]*qt(0.975,regmult$df.res),coef(resume)
[,1]+qt(0.975,regmult$df.res))
>lines(c(IC[1,i],IC[1,i],IC[2,i],IC[2,i],IC[1,i]),c(IC[1,j],IC[2,j],IC[2,j],
IC[1,j],IC[1,j]),lty=2)
Qu'apporte comme information supplémentaire ces ellipses de conance ?
5. Tester la signicativité du modèle proposé à l'aide du test de Fisher global : H0 : ”β2 = β3 =
β4 = 0”.
6. Tester H0 : ”Intercept = 0” puis H0 : ”P rice = 0”. Tester à l'aide de la fonction anova le
modèle (sans constante) réduit aux variables "Income" et "Temp". Commenter.
7. Retrouver ces résultats à l'aide de la fonction linear.hypothesis, qui permet de faire des
tests d'hypothèses linéaires (documentation disponible à l'adresse suivante : www.math.univ-
angers.fr/ loustau).
8. Tester à l'aide de la fonction linear.hypothesis H0 : ”Income = T emp”.
9. On s'intéresse à la prédiction de consommation de nouvelles données. Déterminer l'estimation
ponctuelle ŷ et l'intervalle de conance associé à chacune des données suivantes :
 x1 =(Price=0.3, Income=85, Temp=65) ;
 x2 =(Price=0.26, Income=76, Temp=71) ;
 x3 =(Price=0.26, Income=85, Temp=90).
10. Déterminer par la méthode de Scheé les intervalles de conances simultanés de y(xi ), i =
1, 2, 3.
11. Régresser la consommation sur le salaire et la température dans un modèle sans constante.
Estimer les paramètres de la régression et répéter les questions 9. et 10. Commenter.

Vous aimerez peut-être aussi