TP5 Correction

Analyse statistique multivariée (logiciel R)
Modèles linéaires généralisés

Correction des exercices proposés
1 Données biomédicales
Les données doivent être importées à l’aide des commandes suivantes
data <- read.table("Smoking.txt", header=TRUE)
data$Smoke<-as.factor(data$Smoke)
attach(data)
1. La commande glm exploitée en précisant la famille binomiale permet d’obtenir l’output

suivant
A partir de cet output, on obtient le modèle estimé ci-dessous (dans lequel les fonctions
indicatices I(condition) prennent la valeur 1 si la condition est vérifiée, 0 sinon; par
1
ailleurs, la variable Bloodgroup est écrite plus simplement sous la forme BG):
logit(π) = 0.747 + 0.628 wbc − 0.257 bmi + 0.022 Age + 0.317 I(Sex = M)
−0.868 I(BG = AB) + 0.642 I(BG = B) − 0.998 I(BG = 0)
où π est la probabilité d’être fumeur puisque, par défaut, la première modalité par
ordre alphabétique, à savoir N, est associée à la valeur 0 - échec - et la deuxième, Y, à
la valeur 1 - succès.
Lorsque toutes les indicatrices s’annulent, le modèle estime (via le lien logit) la prob-
abilité d’être fumeur pour une femme de groupe sanguin A. Selon ce modèle, toute
autre caractéristique étant égale, il semble que le fait d’être un homme augmente la
probabilité de succès, de même que le fait d’être du groupe B plutôt que A (tandis que
c’est le contraire pour les groupes O et AB).
2. Pour déterminer la probabilité qu’un individu fume sachant que cet individu a les
mêmes caractéristiques que celles du premier individu de la base de données, il suffit
de calculer la valeur attendue pour la 1ère observation sous le modèle estimé (disponible
via l’output glm1$fitted). On obtient π̂ = 0.048, probabilité très faible (et en accord
avec le fait qu’il s’agit d’un individu non fumeur). Remarquons que l’individu n◦ 7 est
également une femme de 43 ans de wbc égal à 5.6. Par contre, son groupe sanguin est
AB (ce qui est favorable à la diminution de la probabilité estimée) et sa valeur de bmi est
moins élevée que celle du premier individu (ce qui correspond à une augmentation du
prédicteur linéaire, puisque le coefficient de bmi est négatif, et donc à une augmentation
de la probabilité). La probabilité estimée est cette fois de l’ordre de 0.29, ce qui est
nettement plus élevé que précédemment (mais toujours inférieur à 0.5 alors qu’il s’agit,
cette fois, d’un individu fumeur).
3. Pour s’assurer que le modèle (1) est globalement intéressant, il faut comparer la
déviance du modèle complet (8 paramètres) avec celle du modèle basé uniquement sur
l’intercept (1 paramètre). Les valeurs utiles au calcul sont disponibles dans l’output
ci-dessous. On a donc (en suivant la démarche détaillée au cours)
Modèle NULL: D0 = 95.607 avec 86 − 1 = n − 1 = 85 degrés de liberté
Modèle complet: D = 73.819 avec 86 − 8 = 78 degrés de liberté
Dans ce cas, D0 − D = 21.788 pour 7 degrés de liberté (= 85 − 78, ou la différence

entre les nombres de paramètres estimés pour chaque modèle). Sous H0 , c’est-à-dire
sous l’hypothèse que tous les paramètres soient égaux à 0, la valeur observée est une
valeur de la loi χ2 à 7 degrés de liberté, ce qui mène à une p-valeur inférieure à 0.05 et
donc au rejet de l’hypothèse nulle (ainsi que confirmé par l’application de la commande
anova aux deux modèles considérés, comme indiqué sur l’output ci-dessous; p-valeur
exacte= 0.0027). Le modèle a donc globablement un sens.
2
4. L’output de la procédure GLM donne les résultats des tests individuels
H0 : βi = 0 ←→ H1 : βi 6= 0
pour chaque variable. Seules deux p-valeurs sont inférieures à 0.05 (celles des tests
correspondant aux variables bmi et wbc) et permettent de rejeter l’hypothèse d’égalité
à 0. Les autres variables ne semblent pas avoir un effet suffisant sur la probabilité de
fumer pour être reprises dans le modèle. Néanmoins, procédons de façon systématique
par sélection descendante basée sur l’AIC (après avoir chargé la librairie MASS). On
obtient les étapes suivantes, qui mènent au final à la suppression des variables Age,
Sex et Bloodgroup du modèle.
3
5. En se focalisant uniquement sur les variables bmi et wbc (modèle suggéré par le critère
AIC), on obtient le modèle estimé suivant (repris à la fin de l’output de la procédure
de sélection automatique):
logit(π) = 0.557 − 0.209 bmi + 0.563 wbc
Ce modèle peut être défini dans R de manière explicite à l’aide de la commande

glm2< −glm(Smoke∼wbc+bmi,family="binomial").
(a) Dans le modèle estimé, le paramètre de bmi est négatif, tandis que celui de wbc est
positif. Cette constatation, ainsi que le fait que la fonction logistique est croissante
et enfin le fait que le succès est ici joué par la modalité Fumeur, permettent de
dire que
4
Pour obtenir une probabilité élevée d’être fumeur, il faut plutôt avoir une
valeur élevée de la variable wbc.
Pour obtenir une probabilité élevée d’être fumeur, il faut plutôt avoir une
valeur faible de la variable bmi.
(b) Pour représenter le graphique de la Figure 1, il suffit d’exploiter les outputs perme-
ttant d’obtenir les prédicteurs linéaires (glm2$linear.predictor) et les valeurs
ajustées (glm2$fitted) du modèle final. A l’aide de la commande identify,
les deux observations correspondant aux points représentés par les cercles pleins
peuvent être identifiées.
0.8
85
0.6
NewProba
0.4
0.2
20
0.0
−4 −3 −2 −1 0 1
Predicteur
Figure 1: Moyennes estimées en fonction des prédicteurs linéaires et

identification de deux observations (graphique obtenu par la commande
plot(glm2$linear.predictor,glm2$fitted))
(c) Sachant que le prédicteur linéaire prend la forme suivante
0.557 − 0.209 × bmi + 0.563 × wbc,
pour trouver la valeur correspondant à un individu de bmi égal à 30 et de wbc

égal à 6, il suffit de calculer la quantité suivante:
0.557 − 0.209 × 30 + 0.563 × 6 = −2.33
A partir de la Figure 1, on peut voir que les valeurs comprises en abscisse entre -3
et -2 correspondent à une ordonnée située aux alentours de 0.1. Plus précisément,
à l’aide de la forme explicite de la fonction logistique, on a
exp(−2.33)
π̂ = = 0.088.
1 + exp(−2.33)
5
(d) En définissant la nouvelle variable Classif à partir de la variable indicatrice
glm2$fitted >= 0.5 (où glm2 représente le modèle ajusté), on peut déterminer
la table de contingence suivante
Classification
Réalité Non Fumeur (= FALSE) Fumeur (=TRUE)
Non Fumeur 63 2
Fumeur 14 7
Parmi les non fumeurs, 2 ont été mal classés, tandis que parmi les fumeurs, le
nombre d’erreurs de classification est important: 14 mal classés sur 21 individus!
(e) Le pourcentage d’erreur de classification obtenu par cette méthode est de 16/86=
18.6%.
2 Données sur les amphibiens écrasés

1. En n’utilisant que la variable D.PARK comme variable explicative pour un GLM de
Poisson, on obtient l’output suivant:
A partir de celui-ci, on peut écrire le modèle suivant pour le logarithme de la moyenne

de la variable TOT.N, notée µ:
ln µ = 4.316 − 0.00011 D.PARK
ou encore, en passant à l’exponentielle
µ = 74.888 exp(−0.00011 D.PARK)
Afin d’ajouter le modèle estimé sur le graphique représentant, en abscisse, les valeurs
de D.PARK, et en ordonnée, celles de TOT.N, il faut d’abord commencer par représenter
6
le diagramme de dispersion des deux variables. Ensuite, on peut ajouter, à l’aide de
la commande lines, les valeurs ajustées du modèle obtenues grâce à la commande
glm1$fitted.values. Plus précisément, le graphique de la Figure 2 correspond aux
deux commandes suivantes:
plot(D.PARK,TOT.N)
lines(D.PARK,glm1$fitted.value,col="red")
100
80
60
TOT.N
40
20
0
0 5000 10000 15000 20000 25000
D.PARK
Figure 2: Diagramme de dispersion de TOT.N en fonction de D.PARK, avec le modèle GLM-

Poisson tel qu’ajusté sur ces données
On constate que le nombre d’amphibiens écrasés sur la route diminue comme la distance
entre le tronçon de route et le parc augmente, ce qui parait logique. Le caractère
décroissant de la relation est bien visible sur les données brutes et est clairement
illustrée par le modèle de Poisson. Grâce à l’exponentielle, la moyenne estimée est
positive pour toute valeur de la variable en abscisse.
2. La transformation proposée par les auteurs se justifie par le fait que ces variables
présentent des variations importantes entre des valeurs très petites observées sur un
grand nombre de tronçons (notamment des valeurs nulles) et quelques valeurs net-
tement plus grandes (observées plus rarement). Afin de limiter cette variation, une
transformation en échelle logarithmique serait une option classique (en appliquant la
transformation ln(variable + 1) puisque ces variables présentent des valeurs nulles)
mais une transformation à l’aide de la racine carrée permet également de réduire les
grandes valeurs.
Les commandes suivantes permettent de transformer chaque variable:
7
POLIC 2<-sqrt(POLIC)
WAT.RES 2<-sqrt(WAT.RES)
URBAN 2<-sqrt(URBAN)
OLIVE 2<-sqrt(OLIVE)
L.P.ROAD 2<-sqrt(L.P.ROAD)
SHRUB 2<-sqrt(SHRUB)
D.WAT.COUR 2<-sqrt(D.WAT.COUR)
3. Rappelons que seules les variables décrites dans le tableau de la feuille d’énoncé sont
considérées dans l’analyse (cela élimine les colonnes 1, 2, 3, 4 et 6 de la base de
données). Plus précisément et afin de faciliter l’encodage des commandes, une matrice
de données, notée x et de dimension 52 ×17, a été définie dans R comme suit:
x< −cbind(OPEN.L,OLIVE 2,MONT.S,MONT,POLIC 2,SHRUB 2,URBAN 2,WAT.RES 2,
L.WAT.C,L.D.ROAD,L.P.ROAD 2,D.WAT.RES,D.WAT.COUR 2,D.PARK,N.PATCH,P.EDGE,L.SDI)
Stratégie 1:
D.WAT.COUR_2
L.P.ROAD_2
WAT.RES_2
D.WAT.RES
L.D.ROAD
SHRUB_2
URBAN_2
N.PATCH
POLIC_2
OLIVE_2
L.WAT.C
MONT.S
P.EDGE
D.PARK
OPEN.L
MONT
L.SDI
1
OPEN.L
OLIVE_2 0.8
MONT.S
MONT 0.6
POLIC_2
0.4
SHRUB_2
URBAN_2
0.2
WAT.RES_2
L.WAT.C 0
L.D.ROAD
-0.2
L.P.ROAD_2
D.WAT.RES
-0.4
D.WAT.COUR_2
D.PARK -0.6
N.PATCH
P.EDGE -0.8
L.SDI
-1
Figure 3: Résultat de la commande corrplot(cor(x)) où x est la matrice construite sur

les 17 variables d’intérêt
Avant d’effectuer une analyse en composantes principales sur les 17 variables explica-
tives d’intérêt (sous la forme transformée pour celles listées à la question 2), il convient
de déterminer s’il est adéquat de travailler avec la matrice de variances-covariances ou
s’il est préférable d’utiliser la matrice de corrélation. Or, il y a plusieurs unités de
mesure exploitées (ha, m...) et les ordres de grandeur des variances sont extrêmement
différents (avec par exemple, une variance égale à 0.0484 pour L.SDI et à 53687725
pour D.PARK). Il est impératif d’effectuer l’ACP sur la matrice de corrélation. Celle-ci
est illustrée à l’aide de l’output de la commande corrplot de la librairie du même nom
à la Figure 3.
On y repère quelques corrélations intéressantes dont l’interprétation n’est pas aisée vu
le peu d’information disponible sur les variables.
L’analyse en composantes principales sur la matrice x donne le screeplot représenté
à la Figure 4 (l’option npcs a été fixée à 17 car par défaut, seules les 10 premières
8
composantes principales sont représentées). On peut apercevoir un coude à la 3ème
composante (la part cumulée de variance expliquée par les trois premières composantes
principales est égale à 56.7%). Les composantes 4, 5 et 6 contiennent cependant encore
de l’information potentiellement non négligeable, avec des parts de variance expliquée
de l’ordre de 7-8% (les valeurs propres correspondantes étant toutes supérieures à 1).
En conservant 6 composantes principales, 79% de la variabilité serait expliquée, ce
qui parait un bon compromis sachant que la dimension du problème passerait tout de
même de 17 à 6. Cela parait être un choix intéressant.
ScreePlot
5
4
Variances
3
2
1
0
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 Comp.9 Comp.11 Comp.13 Comp.15 Comp.17
Figure 4: Scree plot obtenu par la commande plot(princomp(x,cor=TRUE))
Stratégie 2:
Afin de calculer les variance inflation factors entre les variables explicatives, il serait
possible d’ajuster 17 modèles de régression multiple de manière à obtenir, l’un après
l’autre, les coefficients R2 de tous ces ajustements, en vue de calculer les vif. Par
exemple, l’output ci-dessous correspond au modèle de régression multiple consistant à
expliquer la variable OPEN.L en fonction de toutes les autres. Le coefficient R2 étant
égal à 0.9938, le vif de cette variable vaut 1/(1 − R2 ) = 161.29, valeur clairement
problématique.
9
Il est possible de simplifier le calcul des valeurs vif en exploitant la commande vif de
la librairie car, sur un modèle fictif de régression multiple (pour rappel, les vif ne se
calculent qu’à l’aide des variables explicatives). Par exemple, on peut procéder comme
indiqué sur l’output ci-dessous:
NB: La valeur du vif de la variable OPEN.L est légèrement différente de la valeur

obtenue à partir de l’output de la régression multiple. Cette différence s’explique
par l’exploitation d’arrondis différents pour le R2 . Si seules les dix variables dont les
vifs sont les plus petits doivent être conservées, on garde les variables suivantes (classées
dans l’ordre croissant des vif): WAT.RES 2, D.WAT.RES, D.WAT.COUR 2, D.PARK,
SHRUB 2, L.P.ROAD 2, L.WAT.C, POLIC 2, MONT.S et L.D.ROAD. Toutes les variables
conservées ont des vifs raisonnables.
4. La procédure de sélection descendante basée sur l’AIC va être exploitée dans les deux
cas.
Stratégie 1: après avoir défini les composantes principales Y1 , . . . , Y6 comme suit
10
res<-princomp(x,cor=TRUE)
Y1<-res$scores[,1]
Y2<-res$scores[,2]
Y3<-res$scores[,3]
Y4<-res$scores[,4]
Y5<-res$scores[,5]
Y6<-res$scores[,6]
on peut exploiter ces composantes dans un modèle GLM et effectuer la sélection au-
tomatique des variables. On obtient l’output suivant
Le modèle final garde les cinq premières composantes principales et élimine la 6ème.
Il correspond au modèle estimé suivant:
ln µ = 3.106 + 0.074Y1 − 0.316Y2 − 0.054Y3 − 0.091Y4 − 0.122Y5 . (1)
Ce modèle est décrit dans l’output de la sélection AIC mais peut aussi être affiché dans
R à l’aide des commandes
glm2< −glm(TOT.N∼Y1+Y2+Y3+Y4+Y5,family=poisson)
summary(glm2)
Afin de pouvoir interpréter le modèle, il serait cependant intéressant de pouvoir le

ré-exprimer en fonction des variables initiales, ce qui est possible puisque chaque com-
posante principale est une combinaison linéaire de ces variables. Afin de retrouver
11
les variables initiales dans le modèle, il suffit de remplacer dans le modèle (1) chaque
composante principale par la combinaison linéaire la caractérisant (dont les coeffi-
cients se trouvent dans les outputs loadings de l’ACP). Par exemple, sachant que
res$loadings[,1] correspond aux composantes suivantes:
OPEN.L OLIVE 2 MONT.S MONT POLIC 2 SHRUB 2
0.048 0.350 -0.025 -0.266 0.262 0.214
URBAN 2 WAT.RES 2 L.WAT.C L.D.ROAD L.P.ROAD 2 D.WAT.RES
0.329 0.032 0.193 0.202 0.222 -0.065
D.WAT.COUR 2 D.PARK N.PATCH P.EDGE L.SDI
-0.122 -0.072 0.392 0.394 0.347
En multipliant ces composantes par le coefficient de Y1 du modèle estimé (à savoir
0.074), on obtient une première contribution de chaque variable à l’estimation de ln µ.
En répétant l’opération pour chaque CP et en additionnant les résultats, on a la possi-
bilité de déterminer la contribution globale (via chaque CP) de chaque variable initiale
sur l’estimation de la moyenne.
Par exemple, en tapant la ligne de commande suivante (qui multiplie chaque com-
posante principale par son coefficient, tel que disponible dans l’output $coefficient
de la procédure glm, avant d’additionner le tout),
res$loadings[,1]*glm2$coefficient[2]+res$loadings[,2]*glm2$coefficient[3]
+res$loadings[,3]*glm2$coefficient[4]+res$loadings[,4]*glm2$coefficient[5]
+res$loadings[,5]*glm2$coefficient[6]
l’output ci-dessous est obtenu.
On en déduit le modèle suivant:
ln µ = 3.106 − 0.159 OPEN.L + 0.015 OLIVE2 + 0.060 MONT.S − 0.118 MONT − 0.049 POLIC2
+0.113 SHRUB2 − 0.014 URBAN2 + 0.100 WAT.RES2 − 0.051 L.WAT.C + 0.059 L.D.ROAD
−0.040 L.P.ROAD2 − 0.123 D.WAT.RES + 0.061 D.WAT.COUR2 − 0.167 D.PARK
+0.047 N.PATCH + 0.052 P.EDGE + 0.058 L.SDI
Stratégie 2:
La procédure automatique de sélection des variables est décrite dans l’output ci-
dessous. Seule la variable L.D.ROAD est éliminée du modèle.
12
Ce modèle est appelé, dans la suite, le modèle glm3, dont l’output complet est repris
ci-dessous:
13
Comparaison
Il n’est pas trivial de comparer les deux modèles obtenus puisque le premier, estimé
via les composantes principales, contient les 17 variables, alors que le deuxième n’en
compte plus que 9.
5. Afin d’analyser les résidus (standardisés puisque l’hypothèse d’homoscédasticité n’est

pas imposée), des index-plot sont a priori utiles. Les deux graphiques de la Figure 5
ont été obtenus à l’aide des commandes
plot(residuals(glm2,type="pearson"))
plot(residuals(glm3,type="pearson"))
6 12
8
4
5
18
10
19
residuals(glm2, type = "pearson")
residuals(glm3, type = "pearson")
2
5
0
-2
0
-4
1
2
-5
0 10 20 30 40 50 0 10 20 30 40 50
Index Index
Figure 5: Index-plot des résidus standardisés pour le modèle glm2 à gauche et pour le modèle
glm3 à droite
On constate que les résidus du modèle glm3 sont plus petits que ceux calculés à partir
du modèle glm2. Par ailleurs, les résidus les plus importants sous ce modèle restent
raisonnables et s’expliquent pas des combinaisons spécifiques de valeurs prises pour
certaines variables. Les quatre observations repérées sur le premier graphique corre-
spondent aux quatre tronçons les plus meurtriers, avec un nombre d’amphibiens écrasés
assez important que le modèle n’arrive pas, à partir des CP, à estimer de façon fiable.
6. (a) Choisissons le modèle présentant les résidus les plus réduits, le modèle glm3. En
considérant la variable TOT.N plus en détails, on constate qu’effectivement, celle-ci
présente une grande différence entre moyenne et variance (26 amphibiens écrasés
par tronçon en moyenne, pour une variance égale à 589). L’exploitation du modèle
de Poisson de base, pour lequel l’égalité entre moyenne et variance est supposée
vraie, est potentiellement problématique.
14
A partir de l’output complet de glm3, repris ci-dessus,
la mesure proposée dans l’énoncé peut être calculée avec n = 52 et k = 10. On a
Dk 249.38
= = 5.93
n−k 42
Les données présentent une sur-dispersion assez importante, ce qui peut expliquer
le caractère fortement significatif de certains tests individuels repris dans l’output.
(b) En modifiant la famille de distribution dans l’appel à la procédure glm comme
indiqué dans l’énoncé (family=quasipoisson), on obtient l’output suivant:
On voit que les estimations des paramètres restent inchangées, mais les erreurs
standards sont plus grandes. Cela implique une perte de significativité pour
plusieurs variables incorporées dans le modèle.
15

TP5 Correction

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP5 Correction

Transféré par

Droits d'auteur :

Formats disponibles

Analyse statistique multivariée (logiciel R)

Modèles linéaires généralisés

1. La commande glm exploitée en précisant la famille binomiale permet d’obtenir l’output

Dans ce cas, D0 − D = 21.788 pour 7 degrés de liberté (= 85 − 78, ou la différence

logit(π) = 0.557 − 0.209 bmi + 0.563 wbc

Ce modèle peut être défini dans R de manière explicite à l’aide de la commande

Figure 1: Moyennes estimées en fonction des prédicteurs linéaires et

(c) Sachant que le prédicteur linéaire prend la forme suivante

0.557 − 0.209 × bmi + 0.563 × wbc,

pour trouver la valeur correspondant à un individu de bmi égal à 30 et de wbc

0.557 − 0.209 × 30 + 0.563 × 6 = −2.33

2 Données sur les amphibiens écrasés

A partir de celui-ci, on peut écrire le modèle suivant pour le logarithme de la moyenne

0 5000 10000 15000 20000 25000

Figure 2: Diagramme de dispersion de TOT.N en fonction de D.PARK, avec le modèle GLM-

Figure 3: Résultat de la commande corrplot(cor(x)) où x est la matrice construite sur

Figure 4: Scree plot obtenu par la commande plot(princomp(x,cor=TRUE))

NB: La valeur du vif de la variable OPEN.L est légèrement différente de la valeur

ln µ = 3.106 + 0.074Y1 − 0.316Y2 − 0.054Y3 − 0.091Y4 − 0.122Y5 . (1)

Afin de pouvoir interpréter le modèle, il serait cependant intéressant de pouvoir le

On en déduit le modèle suivant:

5. Afin d’analyser les résidus (standardisés puisque l’hypothèse d’homoscédasticité n’est

residuals(glm3, type = "pearson")

Vous aimerez peut-être aussi