Vous êtes sur la page 1sur 7

Université Paris Dauphine M1.

Mathématiques Appliquées
Novembre 2017 Cours de Modèle linéaire

Enoncé de Partiel
Durée : 2h. Calculatrice et documents interdits

Notation : Dans tout l’énoncé, k · k désigne la norme euclidienne.

Exercice 1. QCM
Répondre sans justifier en donnant la liste des assertions vraies

On considère un modèle général de régression linéaire multiple s’écrivant sous la forme matricielle
Y = Xβ + ε
avec
xp1
 
1 x11 · · ·
Y1 β0 ε1
     
 .. 

 1 x12 · · · xp2 
  ..   .. 
Y =  . , X= .. .. .. , β =  . , ε= . 
. . .
 
Yn βp εn
 
1 x1n · · · xpn
On suppose que les conditions standards des modèles de régression linéaire et l’hy-
pothèse gaussienne sont vérifiées. X est supposée de rang plein. On note P[X] la matrice de
projection orthogonale sur le sous-espace vectoriel [X] de Rn engendré par les vecteurs colonnes
composant la matrice X, et 1 le vecteur de Rn égal à (1, · · · , 1)0 . On appelle σ̂ 2 l’estimateur
sans biais de la variance présenté dans le cours et β̂ l’estimateur des moindres carrés.

1. Quelle(s) propriété(s) l’estimateur des moindres carrés ordinaires β̂ vérifie-t-il ?


(1.A) Il est linéaire en Y , sans biais.
(1.B) Il est optimal (au sens défini dans le cours) parmi les estimateurs s’écrivant comme
combinaison linéaire des observations.
(1.C) Il est égal à l’estimateur du maximum de vraisemblance
(1.D) C’est un vecteur gaussien dont la matrice de variance-covariance est diagonale.
2. Donner les vraies assertions :
(2.A) Les Yi (i = 1 . . . n) sont indépendants 2 à 2.
(2.B) Les εi (i = 1 . . . n) sont indépendants 2 à 2.
(2.C) Pour un i donné, Yi et εi sont indépendants.
(2.D) Les β̂k (k = 1 . . . p + 1) sont indépendants 2 à 2.
(2.E) β̂ et Ŷ sont indépendants.
(2.F) β̂ et Y − Ŷ sont indépendants.
(2.G) Y et Ŷ sont indépendants.
(2.H) σ̂ 2 et β̂ sont indépendants.
(2.I) σ̂ 2 et Y sont indépendants.
3. L’espace vectoriel [X] est de dimension :

1
(3.A) n (3.C) p (3.E) n − p
(3.B) p − 1 (3.D) p + 1

4. Donner les vraies assertions :

(4.A) Y et P[X] Y sont orthogonaux. (4.D) Y et 1 sont orthogonaux.


(4.B) Y et Y − Ŷ sont orthogonaux. (4.E) Y − Ŷ et 1 sont orthogonaux.
(4.C) Ŷ et Y − Ŷ sont orthogonaux. (4.F) Ŷ et Xβ sont orthogonaux.

Exercice 2 (Interprétation de sorties R)


Nous nous intéressons aux performances de 206 processeurs (Central Processor Unity, CPU en
anglais), en fonction de diverses covariables listées ci-dessous :
• syct : cycle time in nanoseconds.
• mmin : minimum main memory in kilobytes.
• mmax : maximum main memory in kilobytes.
• cach : cache size in kilobytes.
• chmin : minimum number of channels.
• chmax : maximum number of channels.
• perf : published performance on a benchmark mix relative to an IBM 370/158-3.
• estperf : estimated performance (by Ein-Dor et Feldmesser).
Nous donnons ci-dessous les trois premières lignes du tableau de données :
## syct mmin mmax cach chmin chmax perf estperf
## ADVISOR 32/60 125 256 6000 256 16 128 198 199
## AMDAHL 470V/7 29 8000 32000 32 8 32 269 253
## AMDAHL 470/7A 29 8000 32000 32 8 32 220 253
On cherche à modéliser la performance perf comme une combinaison linéaire des covariables
syct, mmin, mmax, cach, chmin et chmax. Le modèle est implémenté sous R par le code suivant :
res_lm = lm(perf ~ syct + mmin + mmax + cach + chmin + chmax, data=data.cpu)

Les sorties R sont données à la page 5 et suivantes

1. Ecrire le modèle correspondant à l’instruction R précédente (on donnera la taille des


objets).
2. Pourquoi pensez-vous que la variable estperf n’a pas été incluse dans le modèle. On
pourra utiliser les corrélations entre les variables, représentées à la page 5 de l’énoncé
([Graphe 1]).
3. Les hypothèses sur les résidus sont-elles respectées ? Indiquer le graphique utilisé et jutifier
les réponses.
4. Donner les hypothèses du test du modèle global. Rappeler l’expression de la statistique de
test, sa loi sous H0 . Donner la valeur de sa réalisation ici. Conclure
5. Quel est le test fait sur la ligne mmin du summary (page 6, [Instruction 1]).
6. Quel est le modèle estimé par l’instruction R suivante ?
res_lm_0 = lm(perf ~ 1, data=data.cpu)

2
7. On cherche à faire de la sélection de variables. Commentez les sorties R correspondantes.
Quel critère a été utilisé ? Quel algorithme a été utilisé pour parcourir les modèles (rappeler
brièvement son principe). Quelles sont les variables sélectionnées ?

Exercice 3 (Test d’un sous-modèle)


Plaçons nous dans le cadre du modèle linéaire gaussien Y = Xβ + ε où X est une matrice de
taille (n, r) de rang r avec r < n. On note [X] l’espace vectoriel engendré par les colonnes de X.
X (0) est une matrice à n lignes telle que [X (0) ] l’espace engendré par les colonnes de X (0) est
inclus dans [X] :
[X (0) ] ⊂ [X]
On note dim([X (0) ]) = k0 . On a k0 < r. Considérons maintenant le sous-modèle défini par la
matrice X (0) : Y = X (0) β (0) + ε0 avec ε0 ∼ N (0n , σ 2 In ).
On souhaite tester l’hypothèse suivante :
H0 : Y = X (0) β (0) + ε0 versus H1 : Y = Xβ + ε

Notons SCR la somme des carrés résiduels sous le modèle général (H1 ) (SCR = kY − Ŷ k2 =
kY − X β̂k2 ) où β̂ est l’estimateur des moindres carrés. On note SCR0 la somme des carrés
résiduels du modèle défini par [X (0) ].
On se place sous l’hypothèse H0 .
1. Montrer que SCR = kP[X]⊥ ε0 k2 et que SCR0 = kP[X (0) ]⊥ ε0 k2 où P[X] (respectivement
P[X (0) ]⊥ ) est la matrice de projection orthogonale de Rn sur [X]⊥ (respectivement [X (0) ]⊥ ).

2. Soit A le supplémentaire orthogonal de [X]⊥ dans [X (0) ]⊥ : [X (0) ]⊥ = [X]⊥ ⊕ A. Montrer
que :
SCR0 = SCR + kPA ε0 k2
3. En déduire que SCR et SCR0 − SCR sont indépendantes. Donner leurs lois de probabilité
sous H0 .
4. En déduire que
(SCR0 − SCR )/(r − k0 )
F =
SCR /(n − r)
suit une loi de Fisher à (r − k0 , n − r) dégrés de liberté.
5. En déduire un test pour H0 de niveau α.

Exercice 4
Soient (y1 , ..., yn ) n observations scalaires. Chaque individu i est décrit par r covariables xi =
x1i , · · · , xri ∈ M1,r (R). On suppose que, pour tout i = 1 . . . n, yi est la réalisation de la variable
aléatoire Yi où
Yi = xi β + εi
avec β ∈ Rr . Les εi sont supposés indépendants de loi εi ∼ N (0, σi2 ).
Concernant les valeurs σi2 , nous supposons que la population des observations est divisée en L
sous-populations I1 , . . . , IL de tailles respectives n1 , . . . , nL ( L
P
`=1 n` = n) telles que :

∀i ∈ I` , εi ∼ N (0, σi2 ) avec σi2 = `σ 2


Ainsi définissons :

3
• I1 = {1, . . . n1 }, ∀i ∈ I1 , εi ∼ N (0, σ 2 )
• I2 = {n1 + 1, . . . n1 + n2 }, ∀i ∈ I2 , εi ∼ N (0, 2σ 2 )
..
.
• I` = {n1 + · · · + n`−1 + 1, . . . , n1 + · · · + n` }, ∀i ∈ I` , εi ∼ N (0, `σ 2 )
..
.
• IL = {n1 + · · · + nL−1 + 1, . . . , n}, ∀i ∈ IL , εi ∼ N (0, Lσ 2 )

On cherche à estimer β et σ 2 par maximum de vraisemblance. On note β̂ et σ̂ 2 les estimateurs


du maximum de vraisemblance.

1. Écrire le modèle sous forme matricielle Y = Xβ + ε en précisant la taille des objets et la


loi de probabilité.
2. Montrer que la log-vraisemblance des observations vaut :
L
n 1 X 1X
log L(y; β, σ 2 ) = c − log σ 2 − 2 (yi − x0i β)2
2 2σ `=1 ` i∈I
`

où la constante c devra être explicitée.


3. Montrer que β̂ et σ̂ 2 sont solution du système d’équations suivantes :
( P
L 1P
(Yi − xi β)2 = nσ 2
PL 1 P i∈I`
`=1 `
j
`=1 ` i∈I` (Yi − xi β)xi = 0, ∀j = 1 . . . r,

4. Montrer que ce système équivaut à :


(
kA(Y − Xβ)k2 = nσ 2
X 0 A2 (Y − Xβ) = 0

où A est une matrice carrée de taille n, diagonale, telle que Aii = √1 , ∀i ∈ I` et A2 = AA.
`
5. On suppose X de rang plein. Montrer que X 0 A2 X est inversible.
6. Donner l’expression des estimateurs β̂ et σ̂ 2 en fonction de X, A et Y .
7. Calculer E[σ̂ 2 ]. En déduire un estimateur sans biais de σ 2 .
8. On note X` la matrice (n` × r) formée par les lignes d’indices I` de X, supposée de rang
plein et Y ` = (Yi )i∈I` . En posant β̂` = (X`0 X` )−1 X`0 Y ` , montrer que β̂ ` est un estimateur
sans biais de β.
9. Comparer les estimateurs β̂ ` et β̂ en terme de variance.

4
Commandes et sorties R pour l’exercice 2
• [Graphe 1] Représentation des corrélations : plus l’ellipse ressemble à un cercle et moins
les variables sont corrélées. Plus l’ellipse ressemble à une droite et plus les variables sont
corrélées.

estperf
chmax
mmax

chmin
mmin

cach
syct

perf
1
syct
0.8

mmin 0.6

mmax 0.4

0.2
cach
0
chmin
−0.2

chmax −0.4

perf −0.6

−0.8
estperf
−1

• [Graphe 2]

par(mfrow=c(2,2))
plot(res_lm)

5
Standardized residuals
Residuals vs Fitted Normal Q−Q
CDC CYBER 170/760 CDC CYBER 170/760
Residuals

100

4
CDC CYBER 170/750 CDC CYBER 170/750

−4 0
−200

NCR V8665 NCR V8665

0 100 200 300 400 500 −3 −2 −1 0 1 2 3

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
CDC CYBER 170/760 CDC CYBER 170/760

6
NCR V8665
CDC CYBER 170/750 AMDAHL 580−5860 1
1.5

0.5

2
Cook's distance 0.5

−4
1
0.0

NCR V8665

0 100 200 300 400 500 0.00 0.10 0.20 0.30

Fitted values Leverage

• [Instruction 1]
summary(res_lm)
##
## Call:
## lm(formula = perf ~ syct + mmin + mmax + cach + chmin + chmax,
## data = data.cpu)
##
## Residuals:
## Min 1Q Median 3Q Max
## -165.328 -16.471 -0.174 16.642 228.007
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.697e+01 5.855e+00 -2.898 0.00418 **
## syct 1.608e-02 1.175e-02 1.368 0.17276
## mmin 1.394e-02 1.375e-03 10.138 < 2e-16 ***
## mmax 3.431e-03 4.607e-04 7.448 2.82e-12 ***
## cach 7.285e-01 9.318e-02 7.818 3.06e-13 ***
## chmin 2.828e+00 6.094e-01 4.641 6.27e-06 ***
## chmax -2.561e-03 1.743e-01 -0.015 0.98829
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 39.54 on 199 degrees of freedom
## Multiple R-squared: 0.8764, Adjusted R-squared: 0.8726
## F-statistic: 235.1 on 6 and 199 DF, p-value: < 2.2e-16
• [Instruction 2]

6
select.variables.both = step(res_lm,scope= ~1,direction="both",trace=FALSE)

summary(select.variables.both)
##
## Call:
## lm(formula = perf ~ mmin + mmax + cach + chmin, data = data.cpu)
##
## Residuals:
## Min 1Q Median 3Q Max
## -164.413 -17.579 -0.093 14.931 225.727
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.176e+01 4.134e+00 -2.844 0.00492 **
## mmin 1.383e-02 1.330e-03 10.395 < 2e-16 ***
## mmax 3.328e-03 4.506e-04 7.386 3.94e-12 ***
## cach 7.160e-01 9.050e-02 7.911 1.68e-13 ***
## chmin 2.784e+00 5.440e-01 5.117 7.22e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 39.53 on 201 degrees of freedom
## Multiple R-squared: 0.8752, Adjusted R-squared: 0.8727
## F-statistic: 352.3 on 4 and 201 DF, p-value: < 2.2e-16

Vous aimerez peut-être aussi