Académique Documents
Professionnel Documents
Culture Documents
Mathématiques Appliquées
Novembre 2017 Cours de Modèle linéaire
Enoncé de Partiel
Durée : 2h. Calculatrice et documents interdits
Exercice 1. QCM
Répondre sans justifier en donnant la liste des assertions vraies
On considère un modèle général de régression linéaire multiple s’écrivant sous la forme matricielle
Y = Xβ + ε
avec
xp1
1 x11 · · ·
Y1 β0 ε1
..
1 x12 · · · xp2
.. ..
Y = . , X= .. .. .. , β = . , ε= .
. . .
Yn βp εn
1 x1n · · · xpn
On suppose que les conditions standards des modèles de régression linéaire et l’hy-
pothèse gaussienne sont vérifiées. X est supposée de rang plein. On note P[X] la matrice de
projection orthogonale sur le sous-espace vectoriel [X] de Rn engendré par les vecteurs colonnes
composant la matrice X, et 1 le vecteur de Rn égal à (1, · · · , 1)0 . On appelle σ̂ 2 l’estimateur
sans biais de la variance présenté dans le cours et β̂ l’estimateur des moindres carrés.
1
(3.A) n (3.C) p (3.E) n − p
(3.B) p − 1 (3.D) p + 1
2
7. On cherche à faire de la sélection de variables. Commentez les sorties R correspondantes.
Quel critère a été utilisé ? Quel algorithme a été utilisé pour parcourir les modèles (rappeler
brièvement son principe). Quelles sont les variables sélectionnées ?
Notons SCR la somme des carrés résiduels sous le modèle général (H1 ) (SCR = kY − Ŷ k2 =
kY − X β̂k2 ) où β̂ est l’estimateur des moindres carrés. On note SCR0 la somme des carrés
résiduels du modèle défini par [X (0) ].
On se place sous l’hypothèse H0 .
1. Montrer que SCR = kP[X]⊥ ε0 k2 et que SCR0 = kP[X (0) ]⊥ ε0 k2 où P[X] (respectivement
P[X (0) ]⊥ ) est la matrice de projection orthogonale de Rn sur [X]⊥ (respectivement [X (0) ]⊥ ).
⊥
2. Soit A le supplémentaire orthogonal de [X]⊥ dans [X (0) ]⊥ : [X (0) ]⊥ = [X]⊥ ⊕ A. Montrer
que :
SCR0 = SCR + kPA ε0 k2
3. En déduire que SCR et SCR0 − SCR sont indépendantes. Donner leurs lois de probabilité
sous H0 .
4. En déduire que
(SCR0 − SCR )/(r − k0 )
F =
SCR /(n − r)
suit une loi de Fisher à (r − k0 , n − r) dégrés de liberté.
5. En déduire un test pour H0 de niveau α.
Exercice 4
Soient (y1 , ..., yn ) n observations scalaires. Chaque individu i est décrit par r covariables xi =
x1i , · · · , xri ∈ M1,r (R). On suppose que, pour tout i = 1 . . . n, yi est la réalisation de la variable
aléatoire Yi où
Yi = xi β + εi
avec β ∈ Rr . Les εi sont supposés indépendants de loi εi ∼ N (0, σi2 ).
Concernant les valeurs σi2 , nous supposons que la population des observations est divisée en L
sous-populations I1 , . . . , IL de tailles respectives n1 , . . . , nL ( L
P
`=1 n` = n) telles que :
3
• I1 = {1, . . . n1 }, ∀i ∈ I1 , εi ∼ N (0, σ 2 )
• I2 = {n1 + 1, . . . n1 + n2 }, ∀i ∈ I2 , εi ∼ N (0, 2σ 2 )
..
.
• I` = {n1 + · · · + n`−1 + 1, . . . , n1 + · · · + n` }, ∀i ∈ I` , εi ∼ N (0, `σ 2 )
..
.
• IL = {n1 + · · · + nL−1 + 1, . . . , n}, ∀i ∈ IL , εi ∼ N (0, Lσ 2 )
où A est une matrice carrée de taille n, diagonale, telle que Aii = √1 , ∀i ∈ I` et A2 = AA.
`
5. On suppose X de rang plein. Montrer que X 0 A2 X est inversible.
6. Donner l’expression des estimateurs β̂ et σ̂ 2 en fonction de X, A et Y .
7. Calculer E[σ̂ 2 ]. En déduire un estimateur sans biais de σ 2 .
8. On note X` la matrice (n` × r) formée par les lignes d’indices I` de X, supposée de rang
plein et Y ` = (Yi )i∈I` . En posant β̂` = (X`0 X` )−1 X`0 Y ` , montrer que β̂ ` est un estimateur
sans biais de β.
9. Comparer les estimateurs β̂ ` et β̂ en terme de variance.
4
Commandes et sorties R pour l’exercice 2
• [Graphe 1] Représentation des corrélations : plus l’ellipse ressemble à un cercle et moins
les variables sont corrélées. Plus l’ellipse ressemble à une droite et plus les variables sont
corrélées.
estperf
chmax
mmax
chmin
mmin
cach
syct
perf
1
syct
0.8
mmin 0.6
mmax 0.4
0.2
cach
0
chmin
−0.2
chmax −0.4
perf −0.6
−0.8
estperf
−1
• [Graphe 2]
par(mfrow=c(2,2))
plot(res_lm)
5
Standardized residuals
Residuals vs Fitted Normal Q−Q
CDC CYBER 170/760 CDC CYBER 170/760
Residuals
100
4
CDC CYBER 170/750 CDC CYBER 170/750
−4 0
−200
Standardized residuals
Scale−Location Residuals vs Leverage
CDC CYBER 170/760 CDC CYBER 170/760
6
NCR V8665
CDC CYBER 170/750 AMDAHL 580−5860 1
1.5
0.5
2
Cook's distance 0.5
−4
1
0.0
NCR V8665
• [Instruction 1]
summary(res_lm)
##
## Call:
## lm(formula = perf ~ syct + mmin + mmax + cach + chmin + chmax,
## data = data.cpu)
##
## Residuals:
## Min 1Q Median 3Q Max
## -165.328 -16.471 -0.174 16.642 228.007
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.697e+01 5.855e+00 -2.898 0.00418 **
## syct 1.608e-02 1.175e-02 1.368 0.17276
## mmin 1.394e-02 1.375e-03 10.138 < 2e-16 ***
## mmax 3.431e-03 4.607e-04 7.448 2.82e-12 ***
## cach 7.285e-01 9.318e-02 7.818 3.06e-13 ***
## chmin 2.828e+00 6.094e-01 4.641 6.27e-06 ***
## chmax -2.561e-03 1.743e-01 -0.015 0.98829
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 39.54 on 199 degrees of freedom
## Multiple R-squared: 0.8764, Adjusted R-squared: 0.8726
## F-statistic: 235.1 on 6 and 199 DF, p-value: < 2.2e-16
• [Instruction 2]
6
select.variables.both = step(res_lm,scope= ~1,direction="both",trace=FALSE)
summary(select.variables.both)
##
## Call:
## lm(formula = perf ~ mmin + mmax + cach + chmin, data = data.cpu)
##
## Residuals:
## Min 1Q Median 3Q Max
## -164.413 -17.579 -0.093 14.931 225.727
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.176e+01 4.134e+00 -2.844 0.00492 **
## mmin 1.383e-02 1.330e-03 10.395 < 2e-16 ***
## mmax 3.328e-03 4.506e-04 7.386 3.94e-12 ***
## cach 7.160e-01 9.050e-02 7.911 1.68e-13 ***
## chmin 2.784e+00 5.440e-01 5.117 7.22e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 39.53 on 201 degrees of freedom
## Multiple R-squared: 0.8752, Adjusted R-squared: 0.8727
## F-statistic: 352.3 on 4 and 201 DF, p-value: < 2.2e-16