Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
⃝2019,
c Thierry Duchesne
Table des matières
0 Révision 4
0.1 Notions d’algèbre linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2 Notions de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.3 Notions d’inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1
Notes de cours, STT-7120, Automne 2019 2
4 Validation de modèle 95
4.1 Méthodes de vérification de modèle . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Données influentes et aberrantes . . . . . . . . . . . . . . . . . . . . . . . . . 113
9 Bibliographie 173
Chapitre 0
Révision
4
Notes de cours, STT-7120, Automne 2019 5
Exemple 0.1 Soit l’expérience consistant à lancer deux pièces de monnaie. Soit Y la va-
riable prenant la valeur 1 si les deux pièces montrent la même face, 3 sinon. Soit X la
variable prenant la valeur 1/3 si on observe au moins une fois “pile", 8/3 sinon. Alors Y et
X sont des exemples de variables aléatoires.
Résultat Y X
FF 1 8/3
FP 3 1/3
PF 3 1/3
PP 1 1/3
Notes de cours, STT-7120, Automne 2019 6
Plus d’une variable peuvent être définies pour une expérience donnée, et des variables
aléatoires peuvent être définies comme fonctions d’autres variables aléatoires, comme par
exemple Z = X + Y . Ainsi, en retournant à l’exemple 0.1, on obtient
Résultat (X, Y , Z)
FF (8/3,1,11/3)
FP (1/3,3,10/3)
PF (1/3,3,10/3)
PP (1/3,1,4/3)
Définition 0.2 Une variable aléatoire est discrète si l’ensemble des valeurs qu’elle peut
prendre est dénombrable. Une variable aléatoire est continue si l’ensemble des valeurs qu’elle
peut prendre est un intervalle, ou une union d’intervalles.
En général, une probabilité peut être assignée à chacun des événements d’une expérience.
Dans ce cas, une probabilité peut également être assignée aux valeurs qu’une variable aléa-
toire peut prendre. Ces probabilités déterminent la distribution de la variable aléatoire. Cette
distribution est en général spécifiée par l’une des fonctions suivantes.
Les propriétés des fonctions de la définition 0.3 sont listées dans tous les livres traitant de
probabilité.
Les fonctions de la définition 0.3 peuvent facilement être généralisées pour spécifier la
distribution de variables aléatoires conjointes. Dans ce cas, de nouvelles fonctions utiles
peuvent également être définies. La définition qui suit donne la généralisation pour la fonction
de répartition ; les autres fonctions peuvent être généralisées de fa¸con analogue.
Notes de cours, STT-7120, Automne 2019 7
Il arrive que les valeurs des variables aléatoires ne s’influencent pas mutuellement, c.-à-d.
que les variables aléatoires soient indépendantes.
Définition 0.6 Des variables aléatoires X1 , . . . , Xn sont indépendantes si, et seulement si,
0.2.2 Moments
∫
Définition 0.7 L’espérance d’une variable aléatoire continue X est E[X] = xf (x) dx.
Définition 0.8 La variance d’une variable aléatoire X est V ar[X] = E[(X − E[X])2 ].
Notes de cours, STT-7120, Automne 2019 8
Définition 0.10 La fonction génératrice des moments d’une variable aléatoire X est MX (t)
= E[etX ].
Les moments peuvent aussi être définis de façon conditionnelle. Ainsi pour un événement
∫
A, E[X|A] = xf (x|A) dx.
C’est la loi la plus importante en régression. Sa fonction de densité est donnée par
{ }
1 1
fX (x) = √ exp − 2 (x − µ)2 , −∞ < x < ∞,
2πσ 2 2σ
où les paramètres −∞ < µ < ∞ et σ 2 > 0 sont la moyenne et la variance de la distribution.
Si X ∼ N (µ, σ 2 ), alors MX (t) = exp{µt + σ 2 t2 /2}.
La densité de la loi du khi-carré (ou du khi-deux) avec k degrés de liberté est donnée par
1
fX (x) = k/2
xk/2−1 e−x/2 , x > 0,
Γ(k/2)2
où k > 0. Si X ∼ χ2k , alors E[X] = k, V ar[X] = 2k et MX (t) = (1 − 2t)−k/2 .
La loi du khi-carré peut être obtenue ainsi. Soit Z1 , . . . , Zk des variables aléatoires indé-
∑k
pendantes et toutes de distribution N (0, 1). Alors si X = i=1 Zi2 , X ∼ χ2k .
La loi t de Student (X ∼ tk )
où k > 0.
La distribution t peut être obtenue ainsi. Soit Z et V deux variables aléatoires indépen-
√
dantes, avec Z ∼ N (0, 1) et V ∼ χ2k . Alors si X = Z/ V /k, X ∼ tk .
La loi F (X ∼ Fm,n )
où m, n > 0.
La distribution F peut être obtenue ainsi. Soit Y et Z des variables aléatoires indépen-
dantes, avec Y ∼ χ2m et Z ∼ χ2n . Alors si X = (Y /m)/(Z/n), X ∼ Fm,n .
Sans biais : E[θ̂] = θ, c.-à-d. qu’en moyenne, l’estimateur prend la bonne valeur, il n’a
pas tendance à sur- ou sous-estimer θ ;
Efficace : V ar[θ̂] est “minimale", c.-à-d. que la valeur de l’estimateur ne fluctue pas
trop ;
Convergent : limn→∞ P [|θ̂ − θ| ≤ ε] = 1, ∀ε ≥ 0, c.-à-d. que lorsque l’échantillon est
de très grande taille, l’estimateur prend une valeur près de θ avec une probabilité
approchant 1.
Une “recette" permettant de trouver des estimateurs ayant au moins les deux dernières
propriétés est la méthode du maximum de vraisemblance. Avec cette méthode, l’estimateur
de θ est la valeur de θ maximisant f (X1 , . . . , Xn ), la probabilité/densité conjointe de l’é-
chantillon observé.
Définition 0.13 L’erreur quadratique moyenne d’un estimateur θ̂ de θ est EQM [θ̂] =
E[(θ̂ − θ)2 ].
Proposition 0.4
EQM [θ̂] = V ar[θ̂] + (biais[θ̂])2 ,
où biais[θ̂] = E[θ̂] − θ.
13
Chapitre 1
14
15
la forme (Y1 , x11 , . . . , x1p′ ), . . . , (Yn , xn1 , . . . , xnp′ )= (Y1 , x′1 ), . . . , (Yn , x′n ). Notre but sera de
construire un modèle de la forme
Parfois la forme de la relation f est connue, mais la valeur des paramètres β ne l’est pas.
Parfois la forme même que doit prendre f est inconnue.
Dans certains contextes, il est raisonnable de penser qu’il existe une fonction f ∗ telle que
(1.1) pourrait s’écrire
Yi = f ∗ (xi1 , . . . , xip′ ; β ∗ ), i = 1, . . . , n, (1.2)
c.-à-d. que la valeur de la variable endogène est entièrement expliquée par la valeur des va-
riables exogènes. Cependant, en général, la fonction f ∗ en (1.2) est beaucoup trop complexe.
Souvent, une telle fonction f ∗ n’existe pas, puisque deux unités expérimentales ayant les
mêmes valeurs pour x1 , . . . , xp′ ont des valeurs différentes pour Y (par exemple si x1 est
l’âge, x2 le sexe, x3 la grandeur et Y le poids). Le but d’une analyse de régression est de
trouver une fonction f qui, bien qu’étant simple, explique une “importante partie” de la
valeur de Y et la fluctuation aléatoire explique une “petite partie” de la valeur de Y .
Le niveau de précision et de complexité que l’on veut atteindre avec f dépend de plu-
sieurs éléments, comme le jeu de données dont nous disposons, la disponibilité de modèles
expliquant déjà une partie de la relation entre les variables ou le but précis de l’analyse de
régression. Ces buts plus précis incluent
La prévision : Étant donné l’âge, le statut fumeur/non-fumeur, le poids, etc., combien
de temps un patient restera-t-il hospitalisé ?
La sélection de variables : Parmi la température, l’ensoleillement, la pluie re¸cue, l’al-
titude, le bruit ambiant, etc., quels facteurs ont une influence significative sur la crois-
sance de l’épinette noire ?
La spécification de modèle : Comment la durée de vie de transformateurs électriques
varie-t-elle en fonction de leur grosseur et de leur voltage ?
L’estimation de paramètres : La luminosité en fonction de la distance d’une certaine
galaxie est de la forme L = K1 +K2 d+σε, où K1 , K2 et σ sont des paramètres inconnus
devant être estimés à partir d’observations.
16
Y i = β ′ x i + εi , i = 1, . . . , n;
ln Yi = β0 + β1 xi + β2 x2i + εi , i = 1, . . . , n;
√
Yi = β0 + β1 xi1 + β2 xi2 + β12 xi1 xi2 + β3 exi1 + εi , i = 1, . . . , n.
Le modèle où Yi = β0 exp{−β1 xβi 2 } + εi est un exemple de modèle non linéaire. Bien que
les méthodes vues dans ces notes de cours peuvent facilement s’étendre aux modèles non
linéaires, ces derniers ne sont pas couverts dans cet ouvrage.
Une autre classe de modèles utiles est celle où la valeur même de Y (ou une transformation
de Y ) n’est pas nécessairement linéaire, mais un des paramètres de la distribution de Y est
une fonction linéaire des paramètres de régression β.
Définition 1.2 Un modèle linéaire généralisé est un modèle de régression où la variable en-
dogène Y suit une distribution de la famille exponentielle dont un des paramètres canoniques
est une fonction linéaire de β.
où f1 , . . . , fp′ sont des fonctions arbitraires estimées à partir des données et où θ peut être
soit connue, soit estimée à partir des données.
Un modèle additif est un bon outil prédictif ou exploratoire qui peut nous aider à trouver
une forme appropriée pour la fonction f . De fa¸con analogue aux modèles linéaires, on peut
aussi définir les modèles additifs généralisés (voir Hastie et Tibshirani, 1990, ou l’aide de
SAS sur la procédure GAM ou l’aide de la fonction gam() du package gam de R).
β
1
Y2
ε2
ε1
Y1
β0
x1 x2
Figure 1.1 – Illustration du modèle de régression linéaire simple. La droite représente l’espérance
de la variable Y , en fonction de la valeur de la variable x, le paramètre β0 représente l’ordonnée à
l’origine de la droite et le paramètre β1 la pente de la droite.
Comme le montre l’exemple 1.1, la valeur de β0 a parfois peu de sens lorsque x = 0 n’est
pas une valeur près de l’ensemble des valeurs de x généralement observées en pratique. La
19
version qui suit du modèle de régression linéaire simple, tout-à-fait équivalente à la version
donnée en (1.3), est parfois préférée :
Exemple 1.1 (suite) Ré-écrivez le modèle donnant la relation entre le poids et la grandeur
sous la forme (1.4) en sachant que la grandeur moyenne des n individus sous étude est
x̄n = 1.80 m.
Réponse : On a que β0∗ = −5 + 50 × 1.80 = 85. Le modèle peut donc se ré-écrire sous
la forme Yi = 85 + 50(xi − 1.80) + εi . La valeur 85 pour β0∗ représente le poids moyen pour
un individu de grandeur moyenne 1.80 m.
Remarque 1.1 Il est important de remarquer que le choix des unités pour Y et x n’est
absolument pas important ; la valeur des paramètres β0 et β1 s’ajuste en conséquence. Il ne
faut donc jamais juger de l’importance d’un paramètre de régression en ne regardant que sa
valeur. Ainsi, dans l’exemple 1.1, si le poids avait été mesuré en livres (1 kg=2.2 lb) et la
grandeur en cm (1 m=100 cm), le modèle de régression devient Yi = −11 + 1.1xi + εi . Même
si -11 est plus grand en valeur absolue que -5 ou que 50 soit plus grand en valeur absolue
que 1.1, la relation entre le poids et la grandeur demeure exactement la même.
Y = (Y1 , . . . , Yn )′ ε = (ε1 , . . . , εn )′
1 = (1, 1, . . . , 1)′ β = (β0 , β1 , . . . , βp′ )′
1 x1,1 · · · x1,p′ x′1
1 x2,1 · · · x2,p′ x′2
X = = (1, x1 , . . . , xp′ ) = .
.. .. .. ..
. . . .
1 xn,1 · · · xn,p′ x′n
Notez que tout dépendant du contexte, xi pourra être utilisé pour représenter la ième rangée
de la matrice de schéma X (données sur la ième observation, xi = (1, xi,1 , . . . , xi,p′ )′ ) ou la
ième colonne de X (données sur la ième variable exogène, xi = (x1,i , . . . , xn,i )′ ).
Le modèle de régression multiple est donné par l’équation suivante :
Grâce à la notation matricielle, (1.5) peut se ré-écrire de fa¸con beaucoup plus concise :
Y = Xβ + ε. (1.6)
En général, la représentation donnée par (1.5) sera plus utile quand viendra le temps d’in-
terpréter les paramètres du modèle, tandis que la représentation (1.6) sera plus utile pour
effectuer des calculs théoriques (estimateurs des paramètres et leur propriétés, tests d’hypo-
thèses) ou pratiques (tests d’hypothèses, analyse de variance, prévisions).
Les hypothèses du modèle sont les mêmes que pour le modèle de régression linéaire simple.
Nous les redonnons ici, sous forme matricielle.
(i) Linéarité : E[Y ; X] = Xβ ⇔ E[ε] = 0 ;
(ii) Homoscédasticité et (iii) non corrélation : V ar[ε] = σ 2 I, où I est la matrice
identité de dimension n × n.
Il est en général plus complexe d’interpréter la valeur des différents paramètres en ré-
gression linéaire multiple. Ce que l’on peut dire c’est que βj représente l’augmentation de la
21
β
1
β
0
( xi1 xi2 Yi )
ε
i x1
x2
Figure 1.2 – Tout comme le modèle de régression linéaire simple disperse la valeur de Y autour
d’une droite, le modèle de régression linéaire multiple disperse la valeur de Y autour d’un hyperplan.
Chaque coefficient β1 , β2 , . . . représente la pente de l’hyperplan dans la direction de la variable
exogène correspondante.
moyenne de Y lorsque la jème variable exogène xj est augmentée d’une unité et que toutes
les autres variables exogènes demeurent inchangées. Plutôt que d’être vus comme la
pente d’une droite, les β en régression linéaire multiple peuvent être vus comme la pente
d’un hyperplan dans la direction de la variable exogène correspondante (voir figure 1.2).
22
β̂ = (X ′ X)−1 X ′ Y . (1.9)
La formule (1.9) est probablement la plus importante en régression linéaire.
Approche géométrique
Si on denote par SP AN (X) l’espace généré par les vecteurs constituant les p = p′ + 1
colonnes de la matrice 1 X, on peut utiliser une approche “géométrique” pour résoudre le
problème (1.7). En effet, la somme des carrés résiduelle SSRes (β̂) = e′ e peut être vue comme
le carré de la longueur du vecteur e. Minimiser SSRes équivaut donc à minimiser la longueur
de e. Comme le montre la figure 1.3, la méthode des moindres carrés cherche donc, dans
l’espace généré par les colonnes de la matrice de schéma (le plan SP AN (X) dans la figure),
le vecteur X β̂ le plus près du vecteur Y , car la distance entre X β̂ et Y est la longueur du
√
vecteur e, e′ e. Ce vecteur, X β̂, est donc la projection orthogonale de Y sur SP AN (X).
Pour trouver la projection orthogonale de Y sur SP AN (X), on doit résoudre
X ′ X β̂ = X ′ Y ⇒ β̂ = (X ′ X)−1 X ′ Y ,
XB
SPAN(X)
Figure 1.3 – La méthode des moindres carrés cherche, dans l’espace de dimension p = p′ + 1
généré par les colonnes de la matrice de schéma (le plan SP AN (X)), le vecteur X β̂ le plus près
du vecteur Y de dimension n.
25
La matrice chapeau jouera un rôle très important plus tard. Pour l’instant, nous nous en
servons pour construire un estimateur de la variance des termes d’erreur σ 2 = V ar[εi ].
La dernière égalité nous donne que l’estimateur suivant sera un estimateur non biaisé de σ 2 :
∑n
2 SSRes (β̂) e′ e − Ŷi )2
i=1 (Yi
s = = = . (1.11)
n−p n−p n−p
x1 x2 x3 x
Figure 1.4 – Modèle de régression linéaire simple sous l’hypothèse de normalité. Les courbes en
forme de cloche représentent la densité de la variable endogène pour quelques valeurs données de
la variable exogène.
Sous les hypothèses (i)-(iv), on a que Y1 , . . . , Yn sont des variables aléatoires indépendantes,
avec Yi |xi ∼ N (β0 + β1 xi , σ 2 ). La figure 1.4 illustre la densité de Y en fonction de valeurs
choisies pour x.
La densité conjointe des observations est donc donnée par
{ }
∏
n
1 1 (Yi − β0 − β1 xi )2
2
f (Y1 , . . . , Yn ; x1 , . . . , xn ) = L(β0 , β1 , σ ) = √ exp −
i=1 2πσ 2 2 σ2
{ }
1 ∑ n
= (2πσ 2 )−n/2 exp − 2 (Yi − β0 − β1 xi )2 . (1.12)
2σ i=1
β̂ = (X ′ X)−1 X ′ Y (1.24)
(Y − X β̂)′ (Y − X β̂) e′ e SSRes (β̂)
σ̂ 2 = = = . (1.25)
n n n
Encore une fois, les estimateurs du maximum de vraisemblance des coefficients de régres-
sion sous l’hypothèse de normalité sont les mêmes que les estimateurs des moindres carrés,
mais l’estimateur du maximum de vraisemblance de la variance des termes d’erreur a un
dénominateur différent (n au lieu de n − p).
Preuve :
1. E[β̂] = E[(X ′ X)−1 X ′ Y ] = (X ′ X)−1 X ′ E[Y ] = (X ′ X)−1 X ′ Xβ = β ;
29
2.
[ ]′
V ar[β̂] = V ar[(X ′ X)−1 X ′ Y ] = (X ′ X)−1 X ′ V ar[Y ]X (X ′ X)−1
= (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 = σ 2 (X ′ X)−1 X ′ X(X ′ X)−1 = σ 2 (X ′ X)−1 ;
Corollaire 1.2.1 Dans le cas de la régression linéaire simple, le théorème 1.2 nous donne
les résultats suivants :
1. E[β̂0 ] = β0 , E[β̂1 ] = β1 ;
2. V ar[β̂0 ] = σ 2 (1/n + x̄2n /Sxx ), V ar[β̂1 ] = σ 2 /Sxx , Cov(β̂0 , β̂1 ) = −σ 2 x̄n /Sxx ;
3. E[s2 ] = σ 2 ;
4. V ar[s2 ] = 2σ 4 /(n − 2).
Preuve : En exercice. ⊓
⊔
On a donc
Lemme 1.4 Supposons les hypothèses (i)-(iv) vraies et que βj est la vraie valeur du coeffi-
cient du modèle de régression devant xj . Alors on a que
β̂j − βj
∼ tn−p , (1.26)
se(β̂j )
où √ √
se(β̂j ) = Vd
ar(β̂j ) = s2 (X ′ X)−1
j,j .
Le lemme 1.4 nous donne donc un outil pour construire un intervalle de confiance pour βj .
On a donc que
[ √ √ ]
1−α = P − s2 (X ′ X)−1 t α/2;n−p ≤ β̂j − βj ≤ s2 (X ′ X)−1 t α/2;n−p
[ √ √ ]
= P −β̂j − tα/2;n−p s2 (X ′ X)−1 ≤ −βj ≤ −β̂j + tα/2;n−p s2 (X ′ X)−1 ,
Sous H0 , le lemme 1.4 nous dit que t suit une distribution tn−p . Cette distribution est centrée
à 0 et donc les données démontrent de l’évidence en faveur de H1 : βj > βj,0 lorsque t prend
de grandes valeurs, en faveur de H1 : βj < βj,0 lorsque t prend de petites valeurs, et en
faveur de H1 : βj ̸= βj,0 lorsque t prend une valeur soit trop faible, soit trop forte. Le tableau
1.1 résume la procédure formelle de test pour chacun des trois choix de contre-hypothèse.
Exemple 1.2 (Consommation d’essence) Weisberg (1985, pp. 35-36) donne un jeu de
données sur la consommation d’essence des 48 états continentaux des États-Unis. Nous uti-
liserons cet exemple à maintes reprises dans ces notes de cours afin d’illustrer les concepts
à l’étude.
Ce jeu de données est disponible dans la section “Jeu de données” de la page web du cours
sous le nom multregex.dat. Pour chaque état, on a un numéro de 1 à 48, l’abréviation du
32
Table 1.1 – Critère de rejet (région critique) de niveau α pour le test de H0 : βj = βj,0 vs une
de trois contre-hypothèses.
nom de l’état, la population de l’état, la valeur de la taxe de vente (x1 ), le nombre de milliers
d’individus ayant un permis de conduire, le revenu annuel per capita en milliers de dollars
(x3 ), la longueur totale des routes fédérales en milliers de miles (x4 ), la consommation totale
d’essence en millions de gallons, le pourcentage de la population ayant un permis de conduire
(x2 ), et la consommation d’essence en gallons par individu (Y ).
Si on considère le modèle Yi = β0 +β1 xi1 +· · ·+β4 xi4 +εi , alors on obtient les informations
suivantes :
7.83019406 −0.426513250 −0.0611076456 −0.149509 −0.0753492
−0.42651325 0.0022158115 −0.005914 0.0057148
0.038263554
(X ′ X)−1
= −0.06110765 0.002215811 0.0008410891 −0.001450 0.0004127
−0.14950904 −0.005913717 −0.0014500434 0.067460 −0.0015445
−0.07534922 0.005714838 0.0004126896 −0.001545 0.0026126
( )′
β̂ = 377.291146 −34.790149 13.364494 −66.588752 −2.425889
s2 = 4396.511.
βˆ1 − 0 −34.790149 − 0
t = √ =√
s2 (X ′ X)−1
1,1
4396.511 × 0.038263554
= −2.6823.
Le seuil observé est donc P [t48−5 ≤ t] = P [t43 ≤ −2.6823] = P [t43 ≥ 2.6823] ≈ 0.005. Donc
nous rejetons H0 en faveur de la contre-hypothèse H1 et concluons que oui, les données
montrent de l’évidence qu’une hausse de la taxe de vente diminue la consommation moyenne
d’essence.
1.6 Prévision
Les résultats d’une analyse de régression sont souvent utilisés pour résoudre des problèmes
dits de prévision. Par “prévision”, on entend l’estimation de la variable endogène Y ou de sa
moyenne E[Y ] à une(des) valeur(s) donnée(s) de chacune des variables exogènes x1 , . . . , xp′ .
En général on calcule une prévision ponctuelle ainsi qu’un intervalle de confiance ou de
prévision.
Théorème 1.6 Un intervalle de confiance à 100(1 − α)% pour E[Y ; x∗ ] est donné par
√
x β̂ ± tα/2 ; n−p s2 x∗ ′ (X ′ X)−1 x∗ .
∗′
(1.30)
On a donc que
x∗ ′ β̂ − (x∗ ′ β + ε)
√ ∼ tn−p . (1.31)
s2 (1 + x∗ ′ (X ′ X)−1 x∗ )
Théorème 1.7 Un intervalle de confiance à 100(1 − α)% pour Y étant donnée la combi-
naison des variables exogènes x∗ est donné par
√
x β̂ ± tα/2 ; n−p s2 (1 + x∗ ′ (X ′ X)−1 x∗ ).
∗′
(1.32)
Il arrive parfois que l’on dénomme les intervalles du théorème 1.7 intervalles de prévision.
Si on avait demandé une prévision pour la consommation moyenne par individu dans le même
état pour une année donnée, alors on aurait la même prévision ponctuelle, mais l’intervalle
de confiance √
622 ± 2.02 4396.511(1 + 0.0407) = (485, 759).
On peut refaire les calculs précédents sous forme matricielle et définir les sommes de carrés
suivantes :
∑
n
SST ot = (Yi − Ȳn )2 = Y ′ Y − nȲn2
i=1
∑
n
′ ′
SSReg = (Ŷi − Ȳn )2 = Ŷ Ŷ − nȲn2 = β̂ X ′ X β̂ − nȲn2
i=1
∑
n
SSRes = (Yi − Ŷi )2 = (Y − Ŷ )′ (Y − Ŷ ) = e′ e.
i=1
37
Table 1.2 – Table ANOVA standard. “Source” est la source de la variabilité, “SC” veut dire
somme de carrés, “CM” veut dire carré moyen et “F ” est la statistique du test que la variabilité
due à la source n’est pas significative.
Source d.l. SC CM F
Régression p′ SSReg SSReg /p′ SSReg /(p′ s2 )
Résiduelle n−p SSRes SSRes /(n − p) = s2
Totale (corrigée) n−1 SST ot
Pour chaque somme de carrés, on associe un nombre de degrés de liberté. Les degrés de
liberté constituent en fait le nombre de termes indépendants dont nous devons connaitre la
valeur afin de pouvoir calculer la somme de carrés. Par exemple SST ot a n − 1 degrés de
liberté, puisque seulement n − 1 des termes (Y1 − Ȳn ), . . . , (Yn − Ȳn ) sont indépendants (on
sait que leur somme est 0, donc si on connait la valeur de n − 1 d’entre eux, on peut calculer
la valeur du nième).
Les sommes de carrés et leurs degrés de liberté sont en général résumés dans une table
d’analyse de la variance (table ANOVA) ; le tableau 1.2 donne la table ANOVA standard.
La colonne F de cette table ANOVA sera expliquée à la prochaine section.
Source d.l. SC CM F
Régression 4 399 316 99 829 22.70
Résiduelle 43 189 050 4397
Totale (corrigée) 47 588 366
39
H0 : β1 = β2 = · · · = βp′ = 0 (1.37)
vs H1 : au moins un des coefficients n’est pas 0.
Sous H0 , le modèle de régression ne devrait pas expliquer la variabilité dans les Yi et donc
le ratio SSReg /SSRes devrait prendre une petite valeur. Par contre sous H1 , le modèle de
régression devrait expliquer une partie de la variabilité des Yi et donc le ratio SSReg /SSRes
devrait prendre une grande valeur. Afin de savoir si la valeur du ratio est “petite” ou “grande”,
on standardise le ratio pour obtenir la statistique F de la table ANOVA :
Sous H0 , cette statistique suit une loi F avec p′ degrés de liberté au numérateur et n − p
degrés de liberté au dénominateur. On rejette donc H0 au niveau α (c.-à-d. que les données
démontrent de l’évidence que le modèle n’est pas complètement inutile, ou de l’évidence
d’une relation entre la variable endogène et au moins une des variables exogènes) lorsque la
statistique F est supérieure ou égale au quantile Fα ; p′ ,n−p .
et que l’on veut tester si un modèle avec seulement k < p′ des variables exogènes suffirait à
expliquer la variabilité dans les Yi , ou autrement dit que p′ − k des variables exogènes sont
superflues. Par simplicité, supposons que les k variables exogènes en question sont x1 , . . . , xk .
Alors on veut tester
en (1.39) est égale à la statistique F de la table ANOVA (exercice). De plus, on voit aussi
facilement que ∆dl = p′ .
Remarque 1.2 Sous l’hypothèse de normalité des termes d’erreur, il est possible de démon-
trer que le test F du principe de la somme de carrés résiduelle additionnelle est un test du
rapport des vraisemblances.
D’une table F , on a que F0.05; 2,43 = 3.21. Comme 27.96 > 3.21, on rejette l’hypothèse faite
par l’économiste.
H0 : Cβ = d (1.40)
vs H1 : Cβ ̸= d.
43
On peut ré-écrire ce test d’hypothèse sous la forme d’un modèle réduit et d’un modèle
complet :
H0 : Y = Zα + ε
vs H1 : Y = Xβ + ε,
Notez que σ 2 [C(X ′ X)−1 C ′ ] est la variance de C β̂ − d. Donc la différence des sommes
de carrés résiduelles peut être vue comme la longueur du vecteur qui sépare C β̂ et d,
standardisée par sa variance (distance de Mahalanobis entre C β̂ et d). Si la distance entre
H0
C β̂ et d est petite, alors H0 est une hypothèse raisonnable, SSRes − SSRes
H1
prend une petite
valeur et on ne rejette donc pas H0 . Si H0 n’est pas raisonnable, alors C β̂ sera loin de
H0
d, SSRes − SSRes
H1
prendra une grande valeur et nous rejetterons H0 . On peut maintenant
terminer la construction de la statistique F en utilisant l’équation (1.39) :
De façon similaire, on trouve que l’effet d’une baisse du revenu de 500$ (x3 diminuée de 0.5)
sur la consommation moyenne est −0.5β3 . On veut donc tester H0 : β1 = −0.5β3 ⇔ β1 +
0.5β3 = 0, c.-à-d. que C = ( 0 1 0 0.5 0 ) et d = 0. On obtient que [C(X ′ X)−1 C ′ ]−1 =
20.32 et C β̂ − d = −68.1, et donc
(−68.1)(20.32)(−68.1)
F = = 21.4.
(1)(4397)
Ceci équivaut à un seuil de P [F1,43 ≥ 21.4] < 0.0001, et donc on rejette l’hypothèse.
Notez que nous aurions aussi pu faire le test de H0 : Yi = β0 + β1 xi1 + β3 xi3 + εi de la
section 1.7.3 avec la méthode du test d’une hypothèse linéaire généralisée, puisque dans ce
cas H0 peut se récrire comme H0 : β2 = 0, β4 = 0, et donc il s’agit d’un test d’hypothèse
linéaire généralisée avec r = 2,
0 0 1 0 0 0
C= et d = .
0 0 0 0 1 0
Dans ces cas, il est toujours plus prudent de coder xi sous la forme d’une variable indi-
catrice, c.-à-d. sous la forme
1, si ...
xi =
0, sinon
Si ce type de codage n’est pas utilisé, alors les β peuvent être difficiles à interpréter. Par
exemple si
−5, si i est un homme
xi =
5, si i est une femme
alors on a que le modèle Yi = β0 + β1 xi + εi nous donne
⇒ β1 représente 0.1 fois la différence entre la valeur moyenne de Y pour les hommes et celle
pour les femmes.
Si on prend
1, si i est un homme
xi =
0, si i est une femme
46
alors on a
E[Yi ; i est un homme] = β0 + β1
E[Yi ; i est une femme] = β0
Plusieurs hypothèses intéressantes peuvent être vues comme des hypothèses linéaires sur
les β, ce qui nous permet d’utiliser nos résultats des sections 1.2 et 1.3. Par exemple, si l’on
veut tester que la valeur moyenne de Yi est la même que i soit rouge ou bleu, ceci revient à
tester
Exemple 1.4 Soit x1i , le numéro de lot du produit i, x2i , la concentration de sel dans le
produit i et Yi , l’indice de qualité du produit i. Les variables Yi et x2i sont des variables
continues, alors que x1i est un variable polytomique prenant une des valeurs {1, 2, 3, 4}. À
l’aide d’un graphique de E[Yi ] en fonction de x2i (voir figure 1.5), interpréter les coefficients
du modèle
Yi = β0 + β11 x11i + β12 x12i + β13 x13i + β2 x2i + εi ,
où
1, x1i = 1 1, x1i = 2
x11i = x12i =
0, x1i ̸= 1 0, x1i ̸= 2
1, x1i = 3
x13i =
̸ 3.
0, x1i =
Pour tester si une variable polytomique a un effet significatif sur la valeur moyenne de la
variable endogène, il faut tester si plusieurs coefficients sont simultanément égaux à zéro à
48
Groupe 3
E[Y]
β2 Groupe 2
β2
Groupe 4
β0+β 13
β2
Groupe 1
β0 + β 12
β2
β0
β0 +β 11
x2
l’aide d’un test F . Ainsi, si nous voulons tester si le groupe d’où provient l’item i a un effet
dans l’exemple 1.4, il faut tester H0 : β11 = β12 = β13 = 0. (Notez que ceci revient à tester
si la ligne de régression est la même pour les 4 groupes, c.-à-d. que sur la Figure 1.5, les 4
lignes sont superposées.)
En général, pour tester si une variable polytomique prenant C valeurs possibles a un effet
significatif, il faut tester si C − 1 coefficients sont simultanément égaux à zéro. Tester si les
coefficients individuels sont tous différents de 0 peut mener à des conclusions erronnées.
1.8.2 Interactions
Une interaction entre deux variables exogènes x1i et x2i est un terme de la forme β12 x1i x2i .
Les interactions sont présentes lorsque l’effet des variables exogènes impliquées dans l’inter-
action sur la valeur moyenne de la variable endogène dépend de la valeur des variables en
question.
Quel est l’effet d’une hausse de x1i d’une unité sur la valeur moyenne de Yi ?
En prenant (1.42)-(1.43), on obtient que l’effet d’une augmentation d’une unité de x1i sur
E[Yi ] est β1 + β2 x2i , c.-à-d. que l’effet d’une augmentation de x1i d’une unité sur E[Yi ]
dépend de la valeur de x2i .
L’interprétation d’une interaction entre une variable continue et une variable polytomique
est intéressante, comme le montre l’exemple qui suit.
Exemple 1.6 Soit x1i une variable polytomique pouvant prendre les valeurs {1, 2, 3} et soit
x11i l’indicatrice que x1i = 1 et x12i l’indicatrice que x1i = 2. Faites un graphique de l’es-
pérance de la variable endogène en fonction de la valeur de la variable continue x2i afin
50
E[Y]
x =1
1i
β 2+β 112
x 1i = 3
β0+β11
β2
β0+ β12
β2+β 122
β0 x 1i = 2
x2
Yi = β0 + β11 x11i + β12 x2i + β2 x2i + β112 x11i x2i + β122 x12i x2i + εi .
Les modèles que nous avons vus jusqu’à présent ne permettent que des variables endo-
gènes continues, étant donné que nous supposons que Y (ou une transformation g(Y )) suit
une distribution normale. Cependant, en pratique, on devra parfois modéliser la dépendance
d’une variable endogène non continue sur un groupe de variables exogènes :
— Y représente le nombre de réclamations pour un assuré dans une année, et les variables
exogènes sont des mesures prises sur l’assuré (âge, adresse, sexe, etc.).
— Y est une indicatrice (variable 0-1) de la survie d’un patient à une certaine opération,
les variables exogènes sont des mesures de caractéristiques du patient et de la méthode
d’opération.
Il est ainsi possible d’imaginer une foule de situations où supposer une distribution normale
pour Y (ou une transformation g(Y )) ne sera pas approprié.
Le modèle linéaire généralisé est une extension du modèle de régression linéaire permet-
tant de modéliser la distribution d’une variable endogène Y en fonction de variables exogènes
x, en autant que cette distribution fasse partie de la famille exponentielle.
51
52
nentielle. Le modèle linéaire sous le postulat de normalité des résidus est un cas particulier
du modèle linéaire généralisé car, comme nous le verrons plus bas, la distribution normale
est un membre de la famille exponentielle.
La proposition 2.1 indique que V ar[Y ] est le produit de deux fonctions : b′′ (θ) qui ne dépend
que de θ (donc que de la moyenne) et qui est appelée fonction de variance, et une fonction
de ϕ. Nous exprimerons en général b′′ (θ) en fonction de la moyenne de Y , µ ≡ E[Y ], sous la
forme V (µ).
La fonction a(ϕ) est généralement de la forme ϕ/w. Le paramètre ϕ, parfois dénoté σ 2 ,
est le paramètre de dispersion. La valeur de ϕ reste constante pour toutes les observations
tandis que w est une valeur connue qui peut varier d’observation en observation.
Les distributions normale, binomiale, Poisson, binomiale négative, gamma, gaussienne
inverse, Tweedie et Pareto sont les exemples les plus populaires de cette famille.
53
Exemple 2.1 Pour la loi normale, on a que f (y; µ, σ 2 ) = (2πσ 2 )−1/2 exp{−(y − µ)2 /(2σ 2 )}.
On peut récrire cette densité sous la forme (2.1) :
{ ( )}
yµ − µ2 /2 1 y2
2
f (y; µ, σ ) = exp − + ln(2πσ 2 ) .
σ2 2 σ2
{ }
y2
On a donc θ = µ, ϕ = σ 2 , b(θ) = θ2 /2 et c(y, ϕ) = − 21 σ2
+ ln(2πσ 2 ) . La moyenne de Y
est donc b′ (θ) = 2θ/2 = θ = µ et puisque b′′ (θ) = 1, la fonction de variance est V (µ) = 1 et
V ar[Y ] = V (µ)a(ϕ) = 1 × σ 2 = σ 2 .
Exemple 2.2 Pour la loi de Poisson, on a f (y; µ) = µy exp(−µ)/y!. C’est une distribution
membre de la famille exponentielle car
{ }
y ln µ − exp(ln µ)
f (y; µ) = exp − ln y! ,
1
ce qui est une famille exponentielle avec paramètre canonique θ = ln µ, a(ϕ) = 1, b(θ) =
exp(θ) et c(y, ϕ) = − ln y!. La moyenne de Y est b′ (θ) = exp(θ) = exp(ln µ) = µ et la fonction
de variance est V (µ) = b′′ (θ) = exp(θ) = µ, ce qui nous donne V ar[Y ] = V (µ)a(ϕ) = µ×1 =
µ.
linéaire pour cet individu est ηi = x′i β, où β ′ = (β0 , . . . , βp′ ) est le vecteur des coefficients
de régression inconnus à être estimés à partir de l’échantillon.
Le troisième élément est la fonction de lien, qui donne la relation entre la moyenne de
la variable endogène et le prédicteur linéaire. Plus précisément, on dit qu’un modèle linéaire
généralisé a une fonction de lien g(·) si g(µi ) = ηi ou, de façon équivalente, si µi = g −1 (x′i β).
Si la fonction g(·) est la même que le lien entre µ et le paramètre θ de la famille exponentielle,
on dit que g(·) est le lien canonique. Puisque le prédicteur linéaire prend des valeurs dans
(−∞, ∞) et que µ doit parfois se trouver dans un espace S plus restreint (par exemple
(0, ∞) pour la distribution de Poisson ou (0, 1) pour la binomiale), on préférera souvent les
fonctions de lien g : S → (−∞, ∞), bien que ce ne soit pas une absolue nécessité.
En combinant ces trois éléments, nous spécifions entièrement la distribution de la va-
riable endogène étant donné les variables exogènes et nous sommes donc en mesure d’utiliser
la théorie de l’estimation par maximum de vraisemblance pour estimer les coefficients de
régression, effectuer des tests d’hypothèses, obtenir des prévisions, etc.
Les coefficients de régression β sont estimés par leur valeur qui maximise la fonction de
log-vraisemblance (2.4). Un estimé de la matrice de variance de β̂ est donnée par l’inverse
de la matrice d’information de Fisher observée :
−1
∂2
Vd
ar(β̂) = − l(β; y) .
∂β∂β ′
β =βˆ
55
Les logiciels statistiques qui ajustent des modèles linéaires généralisés emploient soit cette
technique, soit le “Fisher scoring”, qui est la modification de cet algorithme avec la matrice
d’information espérée qui remplace la matrice d’information observée. Règle générale, le
“Fisher scoring” requiert quelques itérations de plus pour atteindre la convergence, mais
chaque itération nécessite un peu moins de temps de calcul.
Une autre fonction liée à la fonction de log-vraisemblance qui joue un rôle important
est la fonction de déviance standardisée, qui est le double de la différence entre la log-
vraisemblance maximisée pour un modèle saturé (modèle avec n coefficients de régression) et
la log-vraisemblance maximisée du modèle qui nous intéresse. Mathématiquement, le modèle
saturé revient à estimer µi par yi . La statistique de déviance standardisée pour un modèle
où les moyennes sont estimées par µ′ = (µ1 , . . . , µn ) est donnée par
où l(z, ϕ; y) dénote la fonction de log-vraisemblance évaluée avec les moyennes données par
z. On l’appelle déviance standardisée car on retrouve ϕ au dénominateur des fonctions de
log-vraisemblance. La fonction de déviance est D(y; µ) = ϕD∗ (y; µ).
La statistique de déviance sert plutôt à estimer la valeur du paramètre ϕ et à mesurer
le degré d’ajustement du modèle aux données. En effet, la statistique de déviance (non
∑n
standardisée) peut s’écrire comme D(y; µ) ≡ ϕD∗ (y; µ) = i=1 di . Les termes individuels di
sont très utiles pour vérifier l’ajustement global d’un modèle linéaire généralisé. On appelle
ième résidu de déviance la racine carrée (signée) de ce ième terme, soit rDi = signe(yi −
√
µi ) di . Un autre type de résidu qui sera utile est le ième résidu de Pearson, rP i = (yi −
√
µi )/ V (µi ).
56
Exemple 2.3 On peut voir que le modèle de régression linéaire multiple du chapitre 1 est
bel et bien un modèle linéaire généralisé. Tout d’abord, le modèle suppose que les Yi sont de
distribution normale, donc une distribution membre de la famille exponentielle. Le modèle
suppose aussi que µi = E[Yi ; xi ] = x′i β, donc un lien identité entre la moyenne et le pré-
dicteur linéaire. Comme nous l’avions vu à l’exemple 2.1, dans ce cas θ = µ, donc un lien
identité entre θ et µ, c.-à-d. que le lien identité est le lien canonique dans le cas du modèle
linéaire normal. On a donc θi = x′i β et on peut écrire
∑
n
yi x′i β − (x′i β)2 /2 1 ∑ n
yi2 n
l(β, σ 2 ; y) = − − ln(2π),
i=1 σ2 2 i=1 σ 2 2
ce qui est la fonction de log-vraisemblance (1.21). En remplaçant x′i β par yi dans la log-
vraisemblance ci-dessus, on obtient l(y, σ 2 ; y) et ensuite la déviance standardisée
∑
n
(yi − x′i β)2
D∗ (y; β) = ,
i=1 σ2
ce qui, lorsque évaluée à β = β̂, correspond à la somme des carrés résiduels divisée par σ 2 .
2.2.1 Le modèle
Dans ce cas, on a que µi = E[Yi ] = πi . La fonction de lien canonique est le lien logit,
c.-à-d. g(u) = ln{u/(1−u)}, d’où le nom de ce type de régression. Sous le lien logit et mi = 1,
πi = P [Yi = 1; xi ] = g −1 (x′i β)
exp(β0 + β1 xi1 + · · · + βp′ xip′ )
=
1 + exp(β0 + β1 xi1 + · · · + βp′ xip′ )
( )
πi
⇔ ln = β0 + β1 xi1 + · · · + βp′ xip′
1 − πi
πi
= exp (β0 + β1 xi1 + · · · + βp′ xip′ ) .
1 − πi
Une première constatation est que l’interprétation de la valeur des coefficients de régression
pour le modèle de régression logistique est très différente de celle pour le modèle de régression
linéaire multiple.
1. Si βj > 0, alors une hausse de xij , avec la valeur de toutes les autres variables exogènes
restant inchangée, augmentera la probabilité d’observer un succès (Yi = 1). Si βj < 0,
alors une hausse de xij , avec la valeur de toutes les autres variables exogènes restant
inchangée, diminuera la probabilité d’observer un succès. Si βj = 0, alors la valeur de
xij n’a aucun effet sur les chances de succès.
2. Le ratio πi /(1 − πi ) est appelé cote (odds). On a donc que la valeur de βj est la hausse
de la log-cote lorsque l’on augmente d’une unité la valeur de xij , toute autre variable
exogène restant inchangée. Si xij augmente d’une unité et que les autres variables
exogènes demeurent inchangées, alors la cote πi /(1 − πi ) est multipliée par exp(βj ) ;
on appelle communément exp(βj ) un rapport de cotes, puisque cette valeur représente
la cote de l’événement Yi = 1 sous xij = x + 1 divisée par la cote du même événement
sous xij = x. Si la probabilité πi est très faible (moins de 0.1, comme c’est le cas
dans plusieurs applications), on ne se trompe que très peu en disant que les chances
(probabilité) de succès sont multipliées par exp(βj ).
À part le lien logit, il existe quelques autres fonctions de lien populaires en régression
logistique :
58
2.2.2 Inférence
Supposons un échantillon d’observations indépendantes (Ỹi , xi ), i = 1, . . . , n, où Ỹi ∼
binomiale(mi , πi ), avec les valeurs de mi connues. Soit une fonction de lien g(·) (en général
le lien logit) et posons g(πi ) = x′i β ⇔ πi = g −1 (x′i β). La fonction de log-vraisemblance pour
ces données et ce modèle est
{ ( ) ( ) }
∑
n
mi πi
l(β; ỹ) = ln + ỹi ln + mi ln(1 − πi ) . (2.7)
i=1 ỹi 1−π
∑ ( )
mi
Puisque le terme ln ỹi
ne dépend pas de πi , il peut être omis de la fonction de log-
vraisemblance sans conséquence.
Estimation de β
Comme la plupart des logiciels calculent cette statistique de déviance pour tous les modèles,
il est simple d’effectuer des tests du rapport des vraisemblances lorsque le modèle sous
l’hypothèse nulle est un cas particulier du modèle sous la contre-hypothèse. Dans ce cas, la
procédure de test est simple :
1. Ajuster le modèle complet et obtenir sa statistique de déviance, disons D1 .
2. Ajuster le modèle réduit (sous H0 ) et obtenir sa statistique de déviance, disons D0 .
3. Calculer la statistique de test ξ = D0 − D1 .
4. Calculer le seuil observé p = P [χ2r > ξ], où r est le nombre de paramètres du modèle
complet moins le nombre de paramètres du modèle réduit.
Par exemple, supposons un modèle logistique avec lien logit et prédicteur linéaire ηi =
β0 + β1 xi1 + β2 x2i1 . Nous voulons tester si le terme en x2i1 est nécessaire (test de β2 = 0). Ceci
revient à comparer le modèle “complet” au modèle réduit β0 + β1 xi1 . Le nombre de degrés de
liberté de la statistique de test sera r = 1, puisque le modèle complet compte 3 paramètres
(β0 , β1 et β2 ) alors que le modèle réduit n’en compte que 2 (β0 et β1 ), pour une différence
r = 3 − 2 = 1.
Prévisions
Supposons que nous voulons avoir une idée de la probabilité de succès, disons π0 , pour
un individu ayant x0 comme vecteur de variables exogènes. La prévision ponctuelle pour
cette probabilité est tout simplement son estimateur du maximum de vraisemblance, soit
π̂0 = g −1 (x′0 β̂). Pour avoir un intervalle de confiance, on peut utiliser la méthode de Fieller.
61
Soit
′
∑
p
v 2 (x0 ) = Vd
ar(x′0 β̂) = Vd
ar x0j β̂j
j=0
= Vd
ar(β̂0 ) + x201 Vd
ar(β̂1 ) + · · · + x20p′ Vd
ar(βˆp′ )
d β̂ , β̂ ) + · · · + 2x ′ x ′ Cov(
+2x01 Cov( d β̂ ′ , β̂ ′ )
0 1 0,p −1 0p p −1 p
= x′0 Vd
ar(β̂)x0 .
Dans cette analyse, nous allons tenter de voir si certaines des variables sont associées avec
le risque d’être victime d’un crime. Pour ce faire, nous allons ajuster un modèle de régression
logistique avec vict comme variable réponse, lien logit et l’ensemble des autres variables
dans le prédicteur linéaire. Les estimés du maximum de vraisemblance des coefficients de
régression de même que leurs erreurs standards et les seuils associés aux tests de Wald que
ces coefficients sont nuls lorsque les autres variables sont dans le modèle vous sont donnés
dans la sortie ci-dessous.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5969275 0.0992260 -6.016 1.79e-09 ***
sexeHomme -0.0066401 0.0391103 -0.170 0.865185
revenu 0.0026928 0.0005139 5.239 1.61e-07 ***
regionsBC 0.5205899 0.0755065 6.895 5.40e-12 ***
regionsOntario 0.2929760 0.0618573 4.736 2.18e-06 ***
regionsPrairies 0.4661300 0.0614169 7.590 3.21e-14 ***
regionsQuebec 0.2221521 0.0649566 3.420 0.000626 ***
urbainurbain 0.3434683 0.0480949 7.141 9.23e-13 ***
age -0.0311312 0.0011463 -27.158 < 2e-16 ***
naisCan 0.3195960 0.0551936 5.790 7.02e-09 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 18328 on 16205 degrees of freedom
Residual deviance: 17286 on 16196 degrees of freedom
(22 observations deleted due to missingness)
AIC: 17306
Number of Fisher Scoring iterations: 4
On peut voir qu’à part le sexe, toutes les variables ont un effet fort significatif. En outre,
le risque d’être victime d’un crime semble croître d’est en ouest et avec le revenu et décroître
avec l’âge. Être né au Canada et habiter dans un milieu urbain sont associés avec un risque
de victimisation plus élevé. Si on veut interpréter les valeurs numériques des coefficients,
on doit le faire en terme de rapports de cotes. Ainsi la cote de l’événement “être victime
d’un crime au cours des 12 derniers mois” est multipliée par exp(0.0026928) ≈ 1.003 pour
chaque tranche de 1 000$ de revenu annuel additionnelle. La même cote est multipliée par
exp(−0.0311312) ≈ 0.97 pour chaque année d’âge additionnelle.
On peut déduire la valeur de la log-vraisemblance maximale de l’AIC (c.f. chap. 3), soit
-8 643. Si on veut tester que tous les coefficients des régions sont simultanément égaux à 0, on
63
peut ajuster le même modèle, mais sans la région, et on obtient une déviance de 17 363. La
statistique du rapport des vraisemblances pour ce test est donc égale à ξ = 17 363−17 286 =
77. La valeur p est P [χ24 > 77] ≈ 0, donc on rejette l’hypothèse nulle que la région n’a pas
d’effet.
Supposons que nous voulions une estimation de la probabilité qu’un homme de 30 ans,
né au Canada, habitant en milieu rural en Ontario et avec un revenu annuel de 40 000$ ait
été victime d’un crime l’année dernière, avec intervalle de confiance à 95%. On commence
par obtenir ces inférences pour le prédicteur linéaire, soit
pour l’estimation ponctuelle. La variance de cette estimation (exercice) est 0.00576. On ob-
√
tient donc l’intervalle de confiance à 95% égal à −1.236 ± 1.96 0.00576 = (−1.385, −1.087).
En appliquant la fonction de lien inverse, on obtient comme estimation de la probabi-
lité demandée e−1.236 /(1 + e−1.236 ) ≈ 0.225, et comme intervalle de confiance (e−1.385 /(1 +
e−1.385 ), e−1.087 /(1 + e−1.087 )) ≈ (0.200, 0.252).
2.3.1 Le modèle
Supposons n variables aléatoires Yi , i = 1, . . . , n, indépendantes avec Yi ∼ Poisson(µi ).
Dans ce cas, E[Yi ] = µi . On suppose que µi est fonction d’un vecteur de variables exogènes
xi et d’un vecteur de paramètres β : g(µi ) = x′i β ⇔ µi = g −1 (x′i β). Si on choisit le lien log,
alors on a que
L’interprétation des paramètres de ce modèle est un peu plus simple que dans le cas de la
régression logistique : si on augmente xij d’une unité et que les autres variables exogènes
demeurent inchangées, alors la valeur moyenne de Yi est multipliée par exp{βj }.
D’autres fonctions de lien sont parfois utilisées en régression de Poisson.
Lien identité : C’est la fonction g(u) = u, c.-à-d. on pose µi = x′i β.
Lien réciproque : C’est la fonction g(u) = 1/u, c.-à-d. on pose 1/µi = x′i β ⇔ µi =
1/(x′i β).
√ √
Lien racine carrée : C’est la fonction g(u) = u, c.-à-d. on pose µi = x′i β ⇒ µi =
(x′i β)2 .
Encore une fois, l’interprétation du modèle donnée ci-dessus n’est valide que pour le lien log.
Par contre il est intéressant de noter que sous le lien identité, l’interprétation des valeurs des
coefficients βj se fait comme au chapitre 1.
Terme d’offset
En régression en général, un terme d’offset est une variable exogène que l’on ajoute au
prédicteur linéaire, mais pour lequel le coefficient de régression correspondant n’est
pas estimé mais fixé égal à 1. En régression de Poisson avec lien log, un tel terme est par-
ticulièrement utile lorsque nous savons que le dénombrement (valeur de Yi ) est proportionnel
à une certaine variable que nous voulons inclure dans le prédicteur linéaire. Par exemple,
supposons que Yi est le nombre de pépites de chocolat dans un échantillon de pâte à biscuit
et que l’une des variables exogènes, disons zi , est le volume de cet échantillon de pâte. Il est
clair que le nombre moyen de pépites de chocolat devrait être proportionnel au volume de
l’échantillon (si on prend deux fois plus de pâte, on devrait avoir deux fois plus de pépites,
en moyenne). On peut donc faire entrer ln zi dans le modèle en offset, c.-à-d. que l’on pose le
modèle µi = exp{x′i β + ln zi }, où xi contient toutes les variables exogènes sauf zi . On obtient
que si zi est multiplié par une constante k, alors ln(kzi ) = ln k + ln zi et donc la moyenne
devient exp{x′i β + ln k + ln zi } = k exp{x′i β + ln zi }, c.-à-d. que la moyenne est multipliée
par k elle aussi et est donc proportionnelle à zi .
2.3.2 Inférence
Supposons un échantillon de n observations indépendantes (Yi , xi ), i = 1, . . . , n où Yi ∼
Poisson(µi ). Soit une fonction de lien g(·) (en général le lien log) et posons g(µi ) = x′i β ⇔
µi = g −1 (x′i β). La fonction de log-vraisemblance est donnée par
∑
n
l(β; y) = {yi ln µi − µi − ln(yi !)} . (2.9)
i=1
Le dernier terme ln(yi !) ne dépend pas de µi et on peut donc le laisser tomber sans consé-
quence.
Estimation de β
obtenu ci-dessus est estimée de la même façon que pour la régression logistique. La méthode
pour construire des intervalles de confiance est aussi la même que dans le cas de la régression
logistique.
2
∑
n
(yi − µ̂i )2
X = . (2.12)
i=1 µ̂i
Encore une fois, la statistique de déviance peut être utilisée pour effectuer des tests du
rapport des vraisemblances.
variances par ϕ̂P = X 2 /(n − p) ou ϕ̂D = D(y; µ̂)/(n − p) ; (ii) ajuster un modèle binomiale
négative.
Pour les données de dénombrement, la surdispersion est la norme plutôt que l’exception.
Dans ces cas, la surdispersion est fréquemment causée par une variable exogène non observa-
ble qui a un impact important sur la valeur de Yi . De fait, on peut démontrer (voir exercices
à la fin de ce chapitre) que si l’on suppose que Y |Λ = λ suit une distribution de Poisson(λ)
et que Λ suit une distribution gamma, alors Y suit une distribution binomiale négative.
La façon la plus commune de traiter les données de dénombrement avec variabilité extra
poissonienne est de supposer un modèle de type binomiale négative-p (NBp). Pour ce modèle,
on pose V ar[Yi |xi ] = µi + αµpi où la valeur de p est connue et où α ≥ 0 est un paramètre
à être estimé ; on retrouve le modèle de Poisson quand α = 0. Les deux modèles les plus
communs sont le modèle NB1, pour lequel V ar[Yi |xi ] = µi + αµ1i = (1 + α)µi = ϕµi , et le
modèle NB2, pour lequel V ar[Yi |xi ] = µi + αµ2i .
Avec l’approche par le modèle NB1, on ajuste un modèle linéaire généralisé de Poisson
comme s’il n’y avait pas de surdispersion pour estimer les β, puis on estime ϕ par la méthode
du khi-deux de Pearson : ∑
X2 i (yi− µ̂i )2 /µ̂i
ϕ̂ = = .
I −p I −p
On ajuste ensuite nos inférences (intervalles de confiance, tests d’hypothèses) en divisant les
statistiques du khi-deux ou en multipliant les variances et covariances par ϕ̂.
L’approche par le modèle NB2 consiste à ajuster un modèle linéaire généralisé basé sur
la distribution binomiale négative, dont la fonction de probabilité est donnée par
( )1/α ( )y
Γ(y + 1/α) 1/α µi
P [Yi = y|xi ] = , y = 0, 1, 2, . . . , α ≥ 0.
Γ(y + 1)Γ(1/α) µi + 1/α µi + 1/α
Pour cette distribution, E[Yi |xi ] = µi et V ar[Yi |xi ] = µi + αµ2i . On pose g(µi ) = x′i β
et, donc, sous le lien log la valeur des coefficients de régression β conserve exactement la
même interprétation que pour le modèle de régression de Poisson. L’inconvénient principal
de l’approche NB2 est que les paramètres β et α doivent être estimés simultanément par la
méthode du maximum de vraisemblance, ce qui résulte en un algorithme de maximisation
numérique plus complexe dont la convergence est parfois difficile. Un avantage de l’approche
68
NB2 est qu’elle permet un test formel de l’hypothèse qu’il n’y a pas de surdispersion. En
effet, le modèle de régression de Poisson sans surdispersion est le cas particulier du modèle
NB2 avec α = 0. On peut donc effectuer le test du rapport des vraisemblances des hypothèses
H0 : Yi |xi ∼Poisson et H1 : Yi |xi ∼binomiale négative :
Si on ne rejette pas H0 , alors on peut supposer qu’il n’y a pas de variabilité extra poisso-
nienne dans nos données. Un autre avantage est que si l’on veut faire un test d’adéquation du
khi-deux de Pearson basé sur le modèle NB1, alors la statistique du khi-deux standardisée
sera toujours égale à I −p, puisque ϕ̂ = X 2 /(I −p) et donc Xstand.
2
= X 2 /{X 2 /(I −p)} = I −p.
Par contre la statistique du khi-deux de Pearson obtenue à l’aide du modèle NB2 ne sera
pas forcément égale à I − p et peut donc être utilisée pour tester l’adéquation d’un modèle
en présence de surdispersion.
d’une étude où l’on cherchait à prédire les résultats scolaires d’étudiants dans des écoles du
Portugal. Plutôt que de répliquer l’analyse de cet article, nous allons plutôt tenter de voir
si un sous-ensemble des variables explicatives sont associées à la variable absences, soit le
nombre de jours d’école manqués par les étudiants dans une session.
Nous disposons de 649 observations du nombre d’absences de chaque étudiant lors de
la période visée. On va s’intéresser aux variables explicatives age (continue, en années),
address (U ou R), Pstatus (A ou T), guardian (father, mother ou other), higher (yes ou
no), internet (yes ou no), Dalc (continue).
Nous ne considérerons que le lien canonique, soit le lien log. On ajuste un modèle Pois-
son, un modèle Poisson mais avec correction pour la surdispersion et un modèle binomiale
négative.
Pour le modèle Poisson ordinaire :
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.14567 0.32072 -0.454 0.649688
age 0.07280 0.01800 4.045 5.23e-05 ***
addressU 0.20950 0.04777 4.385 1.16e-05 ***
PstatusT -0.34327 0.05609 -6.120 9.35e-10 ***
guardianmother 0.21171 0.05444 3.889 0.000101 ***
guardianother 0.46263 0.08655 5.345 9.04e-08 ***
higheryes -0.27315 0.06126 -4.459 8.25e-06 ***
internetyes 0.18845 0.05282 3.568 0.000360 ***
Dalc 0.16258 0.01883 8.635 < 2e-16 ***
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 3464.7 on 648 degrees of freedom
Residual deviance: 3168.7 on 640 degrees of freedom AIC: 4559.8
On constate donc que peu importe le modèle, les estimations ponctuelles des effets sont
très similaires. Cependant on peut voir que la surdispersion est importante et que les erreurs
standards augmentent de manière substantielle lorsqu’on en tient compte. Par exemple, dans
une analyse naïve on serait porter à tenter d’interpréter l’effet d’avoir internet à la maison
alors que cet effet ne semble pas important une fois les corrections pour la surdispersion
faites.
Si on poursuit avec le modèle binomiale négative, on peut tenter de prédire le nombre de
jours d’absence espérés pour un étudiant de 16 ans, adresse urbaine, Pstatus T, qui habite
avec sa mère, qui espère faire des études supérieures, qui a internet chez lui et qui consomme
10 alcool. On obtient une prévision de 2.74 avec erreur standard de 0.52 pour le prédicteur
linéaire, ce qui se traduit par exp(2.74) ≈ 15.5 pour le nombre espéré avec intervalle de
confiance à 95% exp(2.74 ± 1.96 × 0.52) ≈ (5.6, 43).
Chapitre 3
Multicollinéarité et sélection de
variables
3.1 Multicollinéarité
La multicollinéarité est un problème qui ne dépend que de la matrice de schéma X. Il
est donc en général approprié de vérifier si nous sommes en présence de multicollinéarité dès
le début d’une analyse de régression.
Depuis le début du cours, nous avons supposé que la matrice de schéma X est une matrice
de plein rang, c.-à-d. qu’il existe un unique inverse à la matrice X ′ X ce qui, en retour,
nous assure qu’il n’existe qu’un seul vecteur β̂ qui minimise la somme SSRes /maximise la
vraisemblance. Si certaines colonnes de X sont reliées linéairement entre elles, alors cet
inverse n’est plus unique et on ne peut aller plus loin. Par contre si certaines colonnes ne
sont pas exactement liées de façon linéaire mais sont près de l’être, alors on peut quand-même
trouver un unique estimateur β̂, mais la variance de certaines des composantes de β̂ sera
démesurément grande, ce qui aura pour effet de donner des prévisions très variables (sur-
apprentissage) et qui pourra même rendre non significatives des variables exogènes pourtant
importantes.
71
72
⋆′ ⋆
La matrice des coefficients de corrélation échantillonnaux est donnée par X X . Si deux
variables exogènes sont linéairement reliées, leur coefficient de corrélation devrait être élevé.
Cependant deux problèmes majeurs empêchent les coefficients de corrélation d’être des bons
outils de diagnostic : (i) il est difficile de dire ce qu’est une large valeur de la corrélation et
(ii) dans une grande proportion des cas, la multicollinéarité est induite par une dépendance
linéaire entre plus de deux variables. Pour voir que le point (ii) est un problème, il est possible
de créer des exemples où p variables sont parfaitement linéairement dépendantes, mais où
les coefficients de corrélations de toutes les paires de variables sont inférieurs à 1/(p − 1).
Une approche plus sensible consiste à évaluer le degré de dépendance linéaire de chaque
variable exogène sur les autres variables exogènes. Ainsi pour la jème variable exogène, on
peut mesurer ce niveau de dépendance en effectuant une régression linéaire avec la jème
variable exogène comme variable réponse et les p′ − 1 variables exogènes restantes comme
variables explicatrices. Le coefficient de détermination de cette régression, dénoté Rj2 et défini
précisément à la section 3.2, mesurera la proportion de la variabilité de la jème variable
exogène qui est expliquée de façon linéaire par les autres variables exogènes.
Un outil utilisé pour détecter la présence de multicollinéarité est le facteur d’inflation de
la variance (VIF), défini par
1
V IFj = .
1 − Rj2
La raison pour laquelle ce facteur est dit “d’inflation de la variance” est que la variance de
β̂j est donnée par
σ2
V ar[β̂j ] = ∑ V IFj .
(xji − x̄j )2
La variance dans un modèle de régression multiple est égale à la variance dans un modèle de
régression linéaire simple fois le V IF . On peut donc voir qu’une grande valeur pour V IFj
signifie une valeur près de 1 pour Rj2 , et donc une forte dépendance linéaire des variables
exogènes. De plus, on peut voir l’effet de cette multicollinéarité sur la variance des estimateurs
des coefficients.
73
Plusieurs auteurs suggèrent V IF > 10 comme point où l’on doit commencer à considérer
la présence de multicollinéarité aux conséquences importantes. Cependant, les V IF à eux
seuls ne sont pas un diagnostic complet. Parmi les points faibles des V IF on dénote l’inca-
pacité de détecter des multicollinéarités impliquant la colonne de 1 de la matrice de schéma,
l’incapacité de cerner le nombre de quasi dépendances linéaires présentes dans les données
et finalement on n’a jamais vraiment réussi à cerner une valeur précise pour V IF où l’on
doit vraiment commencer à s’inquieter (10 est une valeur ad hoc).
Une mesure équivalente au facteur d’inflation de la variance est la tolérance,
La tolérance T OLj est donc la partie de la variabilité dans la jème variable exogène qui n’est
pas expliquée par les autres variables exogènes. Ainsi, si on définit un cas problématique
comme un cas où V IF > 10, ceci est équivalent à définir les cas problématiques comme ceux
ayant T OL < 10%, c.-à-d. ceux pour qui au moins 90% de la variabilitée est expliquée par
les autres variables exogènes.
Les approches décrites ci-dessus permettent de mesurer les effets de la multicollinéarité.
L’approche la plus efficace afin de détecter les causes de multicollinéarité est basée sur les
valeurs propres de la matrice X ⋆ ′ X ⋆ . Pour voir ceci, il aide de définir la multicollinéarité de
façon plus mathématique :
∑p′
De la définition de X ⋆ , on a que tr(X ⋆ ′ X ⋆ ) = p′ = j=1 λj , où
V ′ (X ⋆ ′ X ⋆ )V = diag(λ1 , . . . , λp′ ).
∏p ′
S’il y a multicollinéarité, le déterminant de X ⋆ ′ X ⋆ , qui est égal à j=1 λj , aura une valeur
près de 0. Ainsi, la somme des valeurs propres doit être p′ , mais leur produit en présence
74
Remarque 3.1 Si nous sommes en présence de VIF élevés mais que l’analyse des valeurs
propres de X ⋆ ′ X ⋆ ne révèle aucun problème, alors il est fort probable que la colonne de 1
de la matrice X soit impliquée dans la(les) dépendance(s) linéaire(s). Dans ce cas, on peut
′
utiliser l’algorithme ci-dessus, mais en utilisant la matrice X̃ X̃ au lieu de X ⋆ ′ X ⋆ , où X̃ est
la matrice X originale, mais dont les colonnes sont standardisées, mais non centrées.
75
Exemple 3.1 (Vols vers Boston) Le package R nycflights13 contient des données sur
les vols de grandes compagnies partant des aéroports de la région de New York. On peut
se créer un jeu de données avec 1 163 vols vers Boston du mois de juillet et tenter de
voir si l’on peut expliquer le nombre de minutes de retard à l’arrivée à Boston à partir des
variables dep_delay (nombre de minutes de retard au départ), origin (aéroport de départ, 3
modalités), wknd (vol de weekend, 2 modalités), evening_rush_hour (vol à l’heure de pointe
de début de soirée, 2 modalités), seats (nombre de sièges dans l’avion), temp (température
extérieure), dewp (point de rosée), humid (humidité relative), wind_sin (vitesse du vent ×
sinus de sa direction), wind_cos (vitesse du vent × cosinus de sa direction), precip_indic
(présence de précipitations) et visib (visibilité).
Intuitivement, on s’attend à ce que le retard au départ explique la majeure partie du
retard à l’arrivée, mais est-ce que les autres variables peuvent aussi expliquer une partie du
retard ? Avant de commencer à ajuster des modèles et tenter de répondre à la question, on
peut se demander si toutes les variables sont bien utiles. Par exemple plusieurs variables
76
associées à la météo sont probablement fort corrélées, peut-être même au point de contenir
de l’information redondante. Voyons tout d’abord si certaines dépendances dans le jeu de
données mènent à une inflation de la variance. À noter que le package olsrr effectue les
′
diagnostics ci-dessous à partir de la matrice X̃ X̃.
Variables Tolerance VIF
dep_delay 0.912 1.10
originJFK 0.686 1.46
originLGA 0.570 1.75
wkndTRUE 0.912 1.10
evening_rush_hourTRUE 0.870 1.15
seats 0.758 1.32
temp 0.0229 43.7
dewp 0.0283 35.3
humid 0.0176 56.7
wind_sin 0.742 1.35
wind_cos 0.617 1.62
precip_indicTRUE 0.712 1.40
visib 0.608 1.64
Il y a clairement un problème ici, avec trois VIF clairement supérieurs à 10. Maintenant
qu’un problème est identifié, l’étape suivante est d’en trouver la source. Pour ce faire, on
doit calculer les indices de conditionnement et voir quelles variables ont des proportions de
variabilité élevées pour le plus grand indice de conditionnement, si ce dernier est supérieur
à 30. La sortie ci-dessous donne cette information pour la ligne correspondant au plus grand
indice de conditionnement.
Eigenvalue and Condition Index
------------------------------
Eigenvalue Condition Index intercept dep_delay originJFK originLGA wkndTRUE
14 8.555731e-05 281.502273 8.497028e-01 0.0013575880 0.000119774 1.559966e-03 0.0002417418
evening_rush_hourTRUE seats temp dewp
0.001680512 5.402956e-06 9.956450e-01 9.592541e-01
humid wind_sin wind_cos precip_indicTRUE visib
9.812759e-01 0.009078833 0.0006563675 0.0022619336 7.323268e-02
L’indice de valeur 281.502 est de beaucoup supérieur à 30, et les proportions de variabilité
supérieures à 50% sont celles de la colonne de 1 (intercept), de la température, du point de
rosée et de l’humidité relative. Au moins une de ces colonnes est redondante et on doit passer
de 4 variables à 3. Commençons par enlever la température et refaisons le diagnostic.
77
Tous les VIF sont maintenant clairement inférieurs à 10 (en fait à peine plus élevés que
1), et donc il n’y a plus d’inflation de la variance. On a donc réglé le problème de multicol-
linéarité et nous poursuivrons nos analyses avec toutes les variables du jeu de données, sauf
la température.
sur un modèle de régression. Le sens à donner au mot “approprié” ici dépend grandement
des objectifs de l’analyse (inférence vs prévision).
Puisque les calculs se font de manière explicite pour le modèle de régression linéaire, nous
illlustrons les concepts à partir de ce dernier, mais les principes s’appliquent également aux
GLM. Supposons que le vrai modèle est le modèle E[Y ] = X 1 β 1 + X 2 β 2 , où β 1 compte
p paramètres et β 2 compte m − p paramètres. Maintenant supposons que nous ajustons
le modèle E[Y ] = X 1 β 1 aux données. Nous aurons donc β̂ 1 = (X ′1 X 1 )−1 X ′1 Y comme
estimateur de β 1 . Est-ce un bon estimateur ?
Le résultat (3.1) est-il problématique ? En fait il nous dit que l’on aura un estimateur de β 1
biaisé si, et seulement si les deux conditions suivantes sont remplies : (i) β 2 ̸= 0 et
(ii) (X ′1 X 1 )−1 X ′1 X 2 ̸= 0. Pour remplir la condition (i), il faut que la valeur de Y dépende
de X 2 . Pour la condition (ii), on remarque qu’il s’agit des estimateurs des moindres carrés
des régressions de chaque variable dans X 2 sur les variables exogènes dans X 1 . On aura
donc que les estimateurs des effets des variables dans X 1 sur la loi de Y sont
biaisés lorsque l’on omet d’inclure dans le modèle de régression les variables qui
sont à la fois corrélées avec la variable endogène et avec les variables dans X 1 .
L’effet d’une telle omission se fera aussi sentir sur les prévisions. En effet, si nous utilisons
x∗1 ′ β̂ 1 pour estimer E[Y ; x∗ ], le biais ne sera pas 0 mais bien
Pour plus tard, il est utile de noter que (Biais)2 = β ′2 (x∗1 ′ A − x∗2 ′ )′ (x∗1 ′ A − x∗2 ′ )β 2 . Si s2p
79
À première vue, on pourrait être tenté d’utiliser un modèle qui contient une longue liste
de variables exogènes puisque pour les variables inutiles, le coefficient β sera estimé sans
biais, donc près de zéro. Cependant on peut montrer que si l’on ajuste aux données un
modèle comptant trop de paramètres, alors la variance des estimateurs des coefficients et la
variance des prévisions seront supérieures à celles que l’on obtient à partir du vrai modèle, et
parfois de beaucoup. Qui plus est, d’autres problèmes peuvent survenir, comme l’incapacité
de prédire de nouvelles observations (surapprentissage) et la multicollinéarité. Et bien sûr,
dans le cas extrême où p > n, alors X ne sera pas de plein rang et on ne pourra donc même
pas inverser X ′ X pour obtenir β̂.
Supposons que le “vrai” modèle ayant généré les données soit un sous-modèle du modèle
de régression complet
Y = β0 + β1 x1 + · · · + βp′ xp′ + ε.
Soit β ∗1 , le vecteur des βj non-nuls et β ∗2 le vecteur des βj = 0. On recherche habituellement
deux qualités quand on applique des méthodes de sélection de variables :
1. Une sélection convergente, c’est-à-dire que l’on veut que lorsque notre taille d’échan-
tillon devient très grande (n → ∞), la probabilité que notre méthode identifie correc-
tement les βj qui font partie de chacun de β ∗1 et β ∗2 tendent vers 100%.
2. Une estimation post-sélection sans biais, c’est-à-dire qu’une fois β ∗1 identifié, on
veut que son estimation soit sans biais.
80
Une propriété qui est légèrement plus forte que les deux qualités ci-dessus combinées est la
propriété dite d’oracle. Une méthode de sélection qui a la propriété d’oracle est une méthode
qui offre une sélection convergente et dont l’estimation de β 1 quand n → ∞ devient aussi
bonne que si l’on estimait directement β 1 par la méthode du maximum de vraisemblance.
Autrement dit c’est une méthode qui, lorsque la taille d’échantillon est grande, est aussi
bonne qui si l’on connaissait le vrai modèle et que l’on en estimait ses paramètres par la
méthode du maximum de vraisemblance.
Approches possibles
2
modèles sur la base de leur Rajus est équivalent à comparer deux modèles sur la base de leur
estimé de la variance des termes d’erreur s2 , puisque SST ot et n ne dépendent pas du modèle
choisi.
Il est bon de noter que peu importe si on utilise R2 ou Rajus
2
, on ne peut pas vraiment se
fier sur ces statistiques pour comparer des modèles employant des transformations différentes
de la variable endogène Y , ou un modèle avec et un modèle sans ordonnée à l’origine, puisque
dans ces cas, SST ot varie d’un modèle à l’autre.
Exemple 3.2 (Vols vers Boston) Lorsqu’on ajuste le modèle complet aux données sur les
vols vers Boston, on obtient la table d’analyse de la variance ci-dessous.
Sum of
Squares DF Mean Square F Sig.
--------------------------------------------------------------------------
Regression 2794196.798 12 232849.733 991.429 0.0000
Residual 270092.264 1150 234.863
Total 3064289.063 1162
Comme les prévisions sont très sensibles au choix de modèle, il serait souhaitable de définir
les critères de qualité d’un modèle selon son habileté à prédire de nouvelles observations de
façon adéquate. Malheureusement, nous voulons en général utiliser toutes nos données afin
d’estimer les paramètres de la façon la plus précise possible, donc nous ne pouvons pas tester
notre modèle sur de nouvelles observations, à moins d’user d’un peu d’ingéniosité !
La validation croisée sert à mesurer la capacité d’un modèle donné à bien prédire de
nouvelles observations. Un algorithme classique de validation croisée consiste à
1. Enlever la ième observation du jeu de données.
2. Estimer les paramètres du modèle à partir des n − 1 données restantes.
3. Prédire Yi à partir de xi et du modèle obtenu en 2. Dénoter cette valeur prédite Ŷi,−i .
4. Répéter les étapes 1 à 3 pour chaque i, i = 1, . . . , n.
∑n
5. Calculer la somme des carrés des erreurs de prévision P RESS = i=1 (Yi − Ŷi,−i )2 .
Le critère P RESS permet de comparer entre eux tous les modèles utilisant la même trans-
formation pour la variable endogène. Évidemment, plus le critère P RESS est faible, plus le
modèle prédit bien. Le critère P RESS peut aussi servir à définir un coefficient de détermi-
nation de prévision :
∑
i=1 (Yi − Ŷi,−i )
n 2
P RESS
2
Rprev =1− = 1 − ∑n . (3.4)
SST ot i=1 (Yi − Ȳ )
2
2
Encore une fois, une valeur de Rprev approchant 1 est signe d’un modèle qui prédit bien,
tandis qu’une valeur approchant 0 signifie un modèle qui prédit mal.
Le ième résidu P RESS est le radical du ième terme de la somme des carrés des erreurs
de prévision, c.-à-d. ei,−i = Yi − Ŷi,−i . Lorsque nous comparons des modèles, nous regardons
84
la somme P RESS, mais il est aussi bon de regarder chaque résidu P RESS de façon indi-
viduelle. En effet, un modèle faisant des prévisions précises partout sauf en un point peut
quand-même avoir une grande valeur pour la somme P RESS.
La pertinence théorique des résidus P RESS devrait maintenant être claire. Mais la tâche
de les calculer semble interminable ! Heureusement, les propriétés de la matrice chapeau
rendent ce calcul invraisemblablement simple.
Théorème 3.1 Le ième résidu P RESS peut être obtenu à l’aide du ième résidu ordinaire
et de l’élément en position i, i de la matrice chapeau grâce à la relation
ei
ei,−i = .
1 − hii
La conséquence surprenante, grandiose et très pratique du théorème “miracle” 3.1 est que
les résidus P RESS et la statistique P RESS peuvent être obtenus sans avoir à effectuer les
n régressions de l’algorithme de validation croisée !
Corollaire 3.1.1 n ( )2
∑ ei
P RESS = .
i=1 1 − hii
Exemple 3.2 (Vols vers Boston) Pour le jeu de données sur les vols vers Boston, on
obtient une statistique P RESS = 276873.4, et donc RP2 RESS = 1 − 276873.4/3064289.063 =
91.0%.
Malheureusement, le théorème 3.1 ne fonctionne que pour la régression linéaire. Avec les
GLM, on doit faire au long toutes les n régressions. Par contre on suggère fortement d’y
aller avec une validation croisée à k-plis (k-fold cross-validation), qui consiste à enlever n/k
observations à la fois plutôt qu’une seule, particulièrement pour la régression logistique où
85
comparer des 1 ou des 0 à des probabilités de succès a peu de sens, alors que comparer un
nombre de succès en n/k tentatives à un nombre de succès espéré pour ces tentatives est
plus sensé.
Méthodes algorithmiques
2
Ces méthodes sont moins recommandées que l’utilisation des critères comme Rajus ou
P RESS, mais comme 2k+1 croit rapidement en fonction de k, il peut parfois être impossible
de calculer les critères pour tous les modèles possibles. C’est pour ces raisons, et aussi dû à
un manque de puissance informatique à l’époque, que des méthodes algorithmiques ont été
inventées. De plus, nous verrons dans les chapitres suivants que des critères équivalents aux
P RESS, etc. ne seront pas toujours aussi facilement disponibles lorsque nous travaillerons
avec d’autres types de régression, alors que les méthodes algorithmiques demeureront tou-
jours applicables. Les méthodes algorithmiques sont décrites dans le cadre d’un test F en
régression linéaire, mais elles s’appliquent exactement de la même façcon pour les GLM, en
remplaçant simplement le test F par un test du rapport des vraisemblances.
86
On fixe tout d’abord ce que l’on appelle un seuil d’entrée, αIN . Pour chaque variable
exogène xj , on effectue le test d’hypothèse suivant
H0 : Yi = β0 + εi
H1 : Yi = β0 + β1 xij + εi
H0 : Yi = β0 + β1 xi(1) + εi
H1 : Yi = β0 + β1 xi(1) + β2 xij + εi
Encore une fois, la variable exogène pour laquelle la statistique F est la plus élevée est
ajoutée au modèle, en autant que le seuil du test soit inférieur à αIN .
La procédure continue ainsi jusqu’à ce qu’il n’y ait plus de variable exogène pour laquelle
le seuil du test est inférieur à αIN , ou lorsque que toutes les variables exogènes sont incluses
dans le modèle.
On fixe d’abord un seuil de sortie, αOU T . Nous commençons avec le modèle comprenant
toutes les variables exogènes. On enlève ensuite la variable qui a l’impact le plus faible sur
le R2 . Ceci est fait en éliminant la variable dont la statistique F du test
a la plus faible valeur, en autant que le test ait un seuil supérieur à αOU T .
Cette procédure est répétée jusqu’à ce que toutes les variables exogènes restant dans le
modèle aient un seuil inférieur à αOU T .
NOTE IMPORTANTE : Une erreur commune commise en pratique est d’ajuster le
modèle complet, et ensuite d’éliminer toutes les variables pour lesquelles le seuil est trop élevé
d’un seul coup. Ceci n’est pas approprié si les données ne proviennent pas d’une expérience
planifiée, car après l’élimination d’une ou deux variables, certaines variables qui ne semblaient
pas du tout importantes peuvent le devenir !
D’autres critères qui sont parfois utilisés en pratique sont basés sur la théorie de l’infor-
mation. Encore une fois, si on veut utiliser ces critères, il faut habituellement ajuster tous les
sous-modèles possibles (ou du moins plausibles, ou qui sont susceptibles de nous intéresser).
Ensuite pour chacun de ces sous-modèles, on calcule le critère en question.
88
Exemple 3.2 (Vols vers Boston) Comparons les modèles obtenus avec les méthodes lis-
tées ci-dessus. Tout d’abord pour les approches algorithmiques, avec un seuil d’entrée αIN =
0.30 et un seuil de sortie αOU T = 0.05, la méthode pas-à-pas conserve les variables dep_delay,
seats, evening_rush_hour, wknd, win_sin, tout comme les méthodes d’inclusion et d’ex-
clusion avec seuil de 0.05. La statistique P RESS = 278306.2, ce qui est malheureusement
2
supérieur à ce que nous obtenons avec le modèle complet. Le Rajus diminue à 91.0%.
Si on ajuste tous les sous-modèles possibles et que l’on conserve celui avec la meilleure
statistique PRESS ou le meilleur AIC, on obtient le même modèle qu’avec les méthodes
algorithmiques, sauf que l’on y ajoute la variable origin. Cet ajout fait passer le Rajus à
91.1% et la statistique PRESS à 275187.5.
89
où q(||β̂||) est un terme de pénalité qui varie selon la méthode choisie et λ ≥ 0 est un
paramètre spécifié par l’utilisateur (on y reviendra plus bas).
Régression ridge
Cette pénalité est très efficace lorsque la corrélation entre certaines des variables x1 , . . . , xp′
est forte, situation dans laquelle elle fera énormément diminuer la variance des β̂j au faible
prix d’un biais très léger. Minimiser (3.5) dans ce cas revient à minimiser −l(β̂) sous la
∑p′
contrainte que β̂j2 ≤ λ′ , c’est-à-dire que l’on cherche la valeur de β qui minimise −l(β̂)
j=1
√ ′
dans une sphère de rayon λ′ au lieu de chercher dans l’espace Rp au complet.
90
LASSO
∑p′
pour laquelle on se trouve à minimiser −l(β̂) sous la contrainte que j=1 |β̂j | ≤ λ′ , c’est-
à-dire que l’on cherche la valeur de β qui minimise −l(β̂) dans un losange. La figure 3.1
illustre bien pourquoi certain des β̂j seront égaux à 0 avec ce type de contrainte.
En pratique, parfois les gens vont utiliser le LASSO pour effectuer la sélection de va-
riables et ensuite utiliser la méthode des moindres carrés/du maximum de vraisemblance
pour ajuster le modèle sélectionné et faire les inférences désirées.
Choix du paramètre λ
ߚଶ
ߚመଶ
ߚ෨ଶ
ߚመଵ ߚଵ
ߚ෨ଵ
Figure 3.1 – Les courbes de niveau représentent la valeur de la fonction objectif, minimale
au point (β̂1 , β̂2 ). Le losange représente la frontière de la région q(||β̂||) ≤ λ pour une valeur
donnée de λ et (β̃1 , β̃2 ) minimise −l(β̂) sous la contrainte que (β1 , β2 ) est dans le losange.
On voit qu’ici, β̃1 = 0.
92
D’autres formes de pénalités ont été proposées en plus des trois mentionnées dans cette
section (par exemple la pénalité SCAD). Les méthodes de régularisation sont d’ailleurs tou-
jours l’objet de recherche active : on cherche à les adapter pour la sélection d’éléments de
modèles plus complexes comme ceux des chapitres 6 et 7 de ce cours, on cherche à produire
des algorithmes pour qu’elles soient plus facile à mettre en oeuvre sur des machines multi-
coeurs, on cherche à mieux comprendre les propriétés des inférences qui sont faites suite à
leur application, etc.
Exemple 3.2 (Vols vers Boston) Si on applique la méthode du LASSO aux données sur
les vols, la validation croisée à 10 plis suggère de prendre λ = 0.266, ce qui donne le même
modèle que celui avec le meilleur AIC, sauf qu’on y ajoute aussi les deux variables de vent
wind_sin et wind_cos.
Supposons qu’après discussion avec les collègues on opte pour ce modèle comme modèle
final. Lorsqu’on l’ajuste avec la méthode des moindres carrés ordinaires on obtient la sortie
qui suit.
On voit que les variables qui semblent associées à une arrivée en retard (bêta positif) sont
de décoller en retard, partir de l’aéroport LGA, partir à l’heure de pointe du souper et lorsque
les vents viennent du nord (sinus positif) ou (dans une moindre mesure) de l’est 1 .
En contrepartie, partir le weekend, partir de l’aéroport JFK ou voler dans un avion avec
plus de sièges sont associés avec des retards à l’arrivée plus courts. À noter que pour l’aéroport
d’origine, la modalité de référence est de partir de l’aéroport de Newark.
de différentes façons, voire même des modifications de techniques propres au champ d’appli-
cation.
Ainsi en écologie, comme on s’intéresse souvent à la prévision ou à identifier quelles
variables parmi une liste de variables sont associées à Y et que p ne prend pas de valeurs
extrêmes, les méthodes où l’on calcule l’AIC, le BIC ou la statistique PRESS pour chaque
sous-modèle possible sont favorisées.
Dans les cas où n est très grand, puisque les variables ont souvent tendance à être signifi-
catives aux seuils usuels même si leur coefficients respectifs sont près de zéro, on recommande
de séparer le jeu de données en un jeu d’entrainement et un jeu de validation, d’ajuster les
modèles candidats au jeu d’entrainement et de calculer l’erreur de prévision ou l’AIC ou le
BIC pour le jeu de validation. Ainsi en actuariat, en finance, en marketing et dans plusieurs
domaines où l’on veut surtout construire un modèle prédictif à partir de grandes bases de
données, optimiser le PRESS (ou l’erreur de prévision sur un jeu de données de validation)
est habituellement la stratégie la plus appropriée. Dans ces cas, il est primordial que les
jeux d’entrainement et de validation soient tous deux représentatifs de la population pour
laquelle les prévisions seront effectuées. Par exemple construire un modèle à partir des don-
nées enregistrées par le site web du service des plaintes afin de prédire le comportement de
l’ensemble des clients de la compagnie risque de donner de mauvais résultats !
En médecine, comme on s’intéresse souvent plus à l’estimation sans biais d’effets
de variables d’intérêt qu’à la prévision, dans les études observationnelles il est fréquent
d’utiliser une méthode de type exclusion, mais de conserver les variables exogènes non signi-
ficatives dont l’inclusion fait varier le coefficient des variables exogènes d’intérêt de 10% ou
plus.
Finalement dans les cas où p est grand, on recommande souvent d’utiliser l’approche
pas-à-pas avec des seuils qui permettent à l’algorithme de rouler pendant plusieurs étapes,
de calculer l’erreur de validation croisée à chaque étape et à la fin de choisir le modèle qui a
la plus petite erreur de validation croisée. Bien sûr les approches par régularisation sont tout
particulièrement intéressantes dans cette situation. D’ailleurs si l’objectif principal d’une
analyse de régression est la prévision, la régularisation donnera généralement un modèle
raisonnable.
Chapitre 4
Validation de modèle
95
96
Les hypothèses (i)-(iv) du modèle linéaire sont toutes des hypothèses faites sur la distri-
bution des termes d’erreur ε1 , . . . , εn . Il est donc clair que la vérification de ces postulats doit
en grande partie se baser sur des estimés de ces termes d’erreur. Ces estimés sont appelés
résidus, et il en existe plusieurs versions.
Résidus ordinaires, ei : Le ième résidu (ordinaire) est défini comme étant ei = Yi −
Ŷi = Yi − x′i β̂. Sous forme matricielle, e = (I − H)Y = (I − H)ε.
Si l’hypothèse (i) est vraie, E[e] = 0. Si les hypothèses (ii) et (iii) sont vraies, alors
V ar[e] = σ 2 (I −H) et donc V ar[ei ] = (1−hii )σ 2 et Cov(ei , ej ) = −hij σ 2 . Finalement,
si l’hypothèse (iv) est vraie, e ∼ Nn (0, σ 2 (I − H)).
Résidus studentisés, si : Le ième résidu studentisé est défini comme étant
ei
si = √ .
s 1 − hii
On appelle ième résidu de déviance la racine carrée (signée) de ce ième terme, soit
√
rDi = signe(yi − µi ) di .
Un autre type de résidu qui sera utile est le ième résidu de Pearson,
/√
rP i = (yi − µi ) V (µi ).
97
Ce graphique permet surtout de cerner des problèmes avec l’hypothèse (i) de linéarité.
Si l’hypothèse est raisonnable, ce graphique devrait montrer un nuage de points centré ver-
ticalement à 0. Le graphique devrait avoir une allure complètement aléatoire, c.-à-d. qu’il ne
devrait y avoir aucune tendance discernable (ei croissant ou décroissant avec Ŷi , graphique
à l’allure quadratique, etc.).
Ce graphique peut également cerner des problèmes avec les autres hypothèses, mais les
graphiques basés sur les résidus studentisés sont plus appropriés dans ces cas.
Bien qu’ils puissent également servir à détecter les mêmes problèmes que les graphiques
(Ŷi , ei ), les graphiques basés sur les résidus studentisés peuvent aussi servir à détecter des pro-
blèmes avec l’hypothèse d’homoscédasticité. Un graphique ayant une apparence d’entonnoir
indique que la variance ne semble pas constante (problème d’hétéroscédasticité).
De plus, ces résidus devraient en général se situer entre -3 et 3. Si certains résidus ont
des valeurs plus grandes que 3 en valeur absolue, ceci peut indiquer un manque de normalité
ou la présence de données aberrantes.
Ce graphique sert à vérifier l’hypothèse de non corrélation des résidus. Si les résidus de
grande (faible) valeur ont tendance à suivre des résidus de grande (faible) valeur, alors il y
a problème d’autocorrélation positive. Si les résidus de grande (faible) valeur ont tendance à
98
suivre des résidus de faible (grande) valeur, alors il y a problème d’autocorrélation négative ;
ce dernier phénomène est plutôt rare dans les applications pratiques de la régression.
Ce graphique permet de détecter les problèmes avec le postulat de normalité. Il est parfois
appelé QQ-plot normal ou droite de Henry, tout dépendant de la forme utilisée pour les ui .
Dans le QQ-plot, il s’agit des quantiles de la loi normale standard. Dans le cas de la droite
de Henry, il s’agit de l’espérance des statistiques d’ordre de la loi normale standard. Dans
les deux cas, si l’hypothèse de normalité est raisonnable, le graphique devrait avoir la forme
d’une ligne droite de pente positive.
Des graphiques à l’allure de courbe concave ou convexe indiquent une distribution non
symétrique des résidus, alors qu’un graphique en forme “d’intégrale inversée couchée” indique
que les résidus proviennent d’une distribution ayant des queues plus épaisses que celles de la
loi normale.
Régression logistique
Graphique informel
La courbe ROC
Régression de Poisson
√
Le graphique le plus commun est celui des résidus de déviance en fonction de 2 µ̂i . Le fait
que Yi soit discrète rend ce graphique plus difficile à interpréter que celui des ei en fonction
des Ŷi de la régression linéaire, puisque ces valeurs discrètes induisent des orbites dans le
nuage de points. Mais on espère toujours un nuage centré autour de la droite horizontale de
hauteur 0 et sans tendance discernable.
Ce test permet de détecter un manque de normalité dans les résidus. Le test est en fait
un test que la droite de Henry est raisonnablement droite. Le modèle utilisé sous l’hypo-
thèse nulle (normalité des résidus) est E[ei ] = µ + σu(i) , où u(i) dénote l’espérance de la
ième statistique d’ordre d’un échantillon aléatoire de taille n provenant d’une distribution
N (0, 1). Soit V la matrice n × n de covariance de ces statistiques d’ordre, avec éléments
∑n
vij = Cov(u(i) , u(j) ). Soient S 2 = i=1 (Ri − R̄)2 , ℜ2 = uT V −1 u, C 2 = uT V −1 V −1 u et
σ̂ = (uT V −1 R)/(uT V −1 u), où uT = (u(1) , . . . , u(n) ). Shapiro et Wilk définissent
(ℜ2 )2 σ̂ 2
W =
C 2S 2
et H0 : les résidus proviennent d’une distribution normale est rejetée pour de petites valeurs
de W .
Il vaut la peine de noter que ce test est très puissant et que pour de gros échantillons, il
rejettera très souvent la normalité. Comme les seuils des tests t et F ne sont pas sérieusement
affectés si la distribution des résidus est près de la normalité sans l’atteindre exactement,
alors il est toujours bon d’accompagner le test de normalité d’une droite de Henry ou d’un
QQ-plot normal pour s’assurer que la non normalité est vraiment sérieuse.
Test de Hosmer-Lemeshow
Ce test confronte l’hypothèse nulle que le modèle est adéquat à la contre-hypothèse que le
modèle n’est pas adéquat en régression logistique. L’idée derrière ce test est de partitionner
l’échantillon en quelques sous-échantillons sur la base des valeurs prédites π̂i , ensuite de
comparer la moyenne des mi π̂i et la moyenne des yi dans chaque sous-échantillon. Si la
différence est faible, le modèle est approprié. Si la différence est forte, le modèle doit être
amélioré. Le test est facilement effectué avec SAS ou R et le lecteur intéressé par les détails
du test peut les trouver à la section 5.2.2 du livre de Hosmer et Lemeshow (1989).
102
En régression de Poisson, on utilise souvent la règle du pouce que le modèle est bon si
la valeur des statistiques du khi-deux de Pearson et de déviance est à peu près égale à leurs
degrés de liberté. On ne peut procéder à un test formel que dans le cas où les données sont
groupées.
Surdispersion ou hétéroscédasticité
Dans le cas du modèle linéaire, la transformation de Box-Cox que nous verrons plus
tard pourra souvent prescrire une transformation de la variable endogène (transformation
stabilisatrice de la variance) qui règlera ce problème. Si la transformation de Box-Cox ne
fonctionne pas, alors la régression pondérée peut aider. Les modèles mixtes du chapitre 6
représentent également une avenue de solution. Quant aux problèmes de sur/sous-dispersion
avec les GLM, on peut utiliser les méthodes de la section 2.3.3.
103
Ce problème est plus difficile à régler. Il est parfois possible de le régler en ajoutant
une variable explicatrice qui explique pourquoi il y a autocorrélation (par exemple, si les
premières mesures sont prises par l’individu A, les mesures suivantes par l’individu B, etc.,
alors peut-être qu’ajouter une variable explicatrice dénotant l’individu ayant pris les mesures
pourra régler le problème). Mais en général, il faut avoir recours à un modèle mixte (chapitre
6) ou a un modèle de série temporelle.
Discussion
Même si les hypothèses ne sont pas parfaitement satisfaites, les estimateurs de β sont,
en général, convergents et mesurent l’impact des variables explicatives sur la variable dé-
pendante. Les estimateurs de variance comme ceux donnés au Lemme 1.4 sont convergents
même si l’hypothèse de normalité est violée. Par contre en présence d’hétéroscédasticité ces
estimateurs sont biaisés et il faut utiliser des estimateurs de variance robustes dus à White
(1980). Si les résidus sont autocorrélés, il faut modéliser leur corrélation pour bien estimer
la variance de β̂. En conclusion, même si certaines hypothèses ne sont pas vérifiées un mo-
dèle de régression ajusté par maximum de vraisemblance donne souvent des informations
pertinentes sur le phénomène ayant produit les données.
Exemple 4.0 (Consommation d’essence) Les figures 4.1-4.4 donnent différents graphes
de résidus obtenus en ajustant le modèle Yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi au
jeu de données sur la consommation d’essence. Comme on peut le voir sur les graphiques
impliquant les résidus studentisés, il semble y avoir un problème d’hétéroscédasticité et/ou
de non normalité.
105
Figure 4.1 – Résidus (ei ) vs valeurs ajustées (Ŷi ), modèle Yi = β0 +β1 xi1 +β2 xi2 +β3 xi3 +β4 xi4 +εi ,
données sur la consommation d’essence.
Les graphiques 4.5-4.6 montrent ce qui arrive lorsqu’on utilise la réponse Y ∗ = Y −1/2 =
√
1/ Y . On peut voir que les problèmes semblent résolus.
La méthode de Box-Cox donne des résultats cohérents avec les graphiques précédents. La
figure 4.7 montre la valeur de la fonction de log-vraisemblance pour plusieurs valeurs fixées
du paramètre λ de la transformation de Box-Cox. Comme on peut le constater, on semble
√
suggérer d’utiliser ln Y (λ = 0) ou 1/Y (λ = −1) ou 1/ Y (λ = −0.5) plutôt que Y comme
variable endogène.
Si nous effectuons le test de Shapiro-Wilk sur les résidus studentisés avec le modèle sans
transformation (résidus de la figure 4.2), nous obtenons un seuil de 0.0165, et donc on
rejette l’hypothèse nulle de normalité. Si on répète cette procédure avec les résidus studentisés
obtenus avec la réponse transformée (résidus de la figure 4.5), alors on obtient un seuil
observé de 0.99 et on ne rejette donc pas l’hypothèse de normalité des résidus.
Exemple 4.1 (Enquête sur la victimisation) Nous avions ajusté un modèle de régres-
sion logistique à un sous-ensemble des données de l’enquête sur la victimisation de Statistique
106
Figure 4.2 – Résidus studentisés (si ) vs valeurs ajustées (Ŷi ), modèle Yi = β0 + β1 xi1 + β2 xi2 +
β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.
Figure 4.3 – Résidus (ei ) vs numéro d’observation (i), modèle Yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 +
β4 xi4 + εi , données sur la consommation d’essence.
107
Figure 4.4 – Résidus studentisés (si ) vs quantiles de la loi normale standard (ui ), modèle Yi =
β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.
√
Figure 4.5 – Résidus studentisés (si ) vs valeurs ajustées (Ŷi ), modèle 1/ Yi = β0 + β1 xi1 +
β2 xi2 + β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.
108
√
Figure 4.6 – Résidus studentisés (si ) vs quantiles de la loi normale standard (ui ), modèle 1/ Yi =
β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.
Canada au chapitre 2. La figure 4.8 montre bien que dans le cas de la régression logistique,
regarder un graphique des résidus en fonction des valeurs prédites n’est pas très utile.
On a que le test d’Hosmer-Lemeshow appliqué à l’ensemble de l’échantillon rejette le
modèle, avec une valeur de p inférieure à 0.0001 1 . La figure 4.9 montre la courbe ROC, dont
l’aire sous la courbe est 0.6634. Peut-être pourrions-nous améliorer ces résultats en faisant
une meilleure sélection des variables ou en faisant entrer les variables continues revenu et
age de manière non linéaire dans le modèle ? Pour cette dernière option, nous verrons un
outil susceptible de nous aider au chapitre 5.
Exemple 4.2 (Absences à l’école) Dans cet exemple, nous avions ajusté un modèle basé
sur la loi binomiale négative. La figure 4.10 montre un graphique des résidus de déviane
√
en fonction de 2 µ̂i . Bien que plus difficile à interpréter que le graphique des (Ŷi , ei ) en
régression linéaire, il s’en rapproche quand-même un peu.
1. Il est à noter qu’avec une taille d’échantillon aussi élevée, le test sera extrêmement puissant et rejettera
le modèle à la moindre évidence qu’il n’est pas parfait.
109
2
Resid. deviance
1
0
−1
val. predites
Figure 4.8 – Résidus de déviance en fonction des probabilités prédites pour l’exemple sur la
victimisation.
111
1.0
0.8
Sensibilite
0.6
0.4
0.2
0.0
Figure 4.9 – Résidus de déviance en fonction des probabilités prédites pour l’exemple sur la
victimisation.
112
2
Resid. deviance
1
0
−1
3 4 5 6 7
2*racine(val. predites)
Figure 4.10 – Résidus de déviance en fonction des probabilités prédites pour l’exemple sur la
victimisation.
113
Les graphiques des derniers exemples montrent qu’il est difficile de valider les hypothèses
sous-jacentes au modèle linéaire généralisé quand la loi de la variable réponse n’est pas la loi
normale. Certains auteurs, p.ex. Dunn & Smyth (1996), ont développé des méthodes pour
perturber par simulation les résidus de déviance ou de Pearson de sorte que les graphiques
de ces résidus perturbés soient similaires aux graphiques obtenus dans le cas de la régression
linéaire ordinaire. Une telle famille de méthodes a été mise en oeuvre dans le package R
DHARMa.
Les données dites influentes et aberrantes peuvent avoir un impact important sur la valeur
des estimés des coefficients de régression et sur leur variance. Cet impact peut parfois même
être néfaste. Il est donc important d’apprendre à détecter ces types d’observations.
4.2.1 Levier
La notion de levier est capitale dans la détection des observations qui ont un grand impact
sur les inférences en régression. En effet, une donnée aberrante peut n’avoir aucun impact
sur les estimés des coefficients si elle n’a aucun levier. Le levier d’une observation i n’est
en fait que la distance entre ses variables exogènes, xi , et le centre (valeur moyenne) des
∑n
variables exogènes de toutes les observations, x̄ = i=1 xi /n.
Encore une fois, les éléments sur la diagonale de la matrice chapeau entrent en jeu de façon
étonnante. En effet, on peut démontrer que la distance entre xi et x̄ varie de façon parallèle
à hii (voir Sen & Srivastava, section 8.2.1 pour la démonstration). Notez que comme 1/n ≤
hii ≤ 1, on ne peut pas dire que hii est une distance au sens propre du terme. Néanmoins,
plus hii (parfois appelé ième levier) prend une valeur élevée, plus la ième observation est
loin du centre des observations dans l’espace des variables exogènes.
114
Exemple 4.3 (Consommation d’essence) Nous pouvons calculer les mesures d’influence
pour l’exemple de la consommation d’essence (variable endogène non transformée dans cet
exemple). Nous obtenons les résultats ci-dessous.
116
45 68.2005 1.2069 0.2660 1.2923 0.7265 0.1065 -0.4732 0.1018 0.3570 -0.4235
46 -9.6783 -0.1498 0.0723 1.2093 -0.0418 0.0258 -0.0322 -0.0107 -0.0062 -0.0092
47 -60.3979 -0.9363 0.0563 1.0750 -0.2288 -0.0302 0.1118 -0.0751 -0.0084 0.1057
48 -45.4385 -0.7134 0.0879 1.1612 -0.2215 0.0707 0.0034 -0.0275 -0.1306 -0.1022
L’observation i = 40, l’état du Wyoming, est la donnée qui est nettement la plus influente.
On y consomme beaucoup plus d’essence que le modèle ne le prédit (résidu de 235, résidu
RSTUDENT de 4.49). En ce qui a trait aux COVRATIO, en utilisant la règle du pouce “tout
ce qui est hors de 1±3p/n est influent”, on doit chercher les observations au COV RAT IO ∈
/
(0.6875, 1.3125). Le Connecticut (i = 6), New York (i = 7), l’Illinois (i = 12) et le Texas
(i = 37) rejoignent le Wyoming dans la classe des données potentiellement influentes. Bien
qu’une certaine influence soit exercée au niveau de la variance des estimés, il ne semble
pas y avoir d’influence marquante au niveau de la prévision ou de la valeur des estimés des
coefficients, puisque les DFFITS et les DFBETAS sont tous de valeur modérée. D’ailleurs
si on refait l’analyse sans le Wyoming, on réalise que son influence n’est pas dramatique,
puisque les résultats changent peu.
Bien que les modèles linéaire et linéaire généralisé soient très versatiles et interprétables,
ils peuvent manquer de flexibilité si le but principal est d’effectuer une analyse prédictive
ou si l’on cherche à modéliser un effet non linéaire d’une variable explicative continue. La
classe des modèles additifs généralisés (GAM) est particulièrement utile et simple dans les
situations où l’on a un nombre faible ou modéré de variables explicatives dont certaines
sont continues et que l’on ne s’attend pas à des interactions importantes. Ces modèles se
veulent un compromis entre un modèle complètement paramétrique (GLM) et une approche
complètement non paramétrique (forêt aléatoire, boosting, réseau de neurones, etc.). Si on
suspecte des interactions importantes entre les variables explicatives, alors il est peu probable
que les GAM puissent sérieusement mieux performer qu’un GLM au niveau de la puissance
prédictive.
5.1 Le modèle
Le modèle additif généralisé est très simple à définir à partir du modèle linéaire généralisé.
En fait on n’a qu’à généraliser le prédicteur linéaire du modèle ainsi :
118
119
où les fj (xij ) peuvent être soit βj xij , soit des fonctions “arbitraires” qui seront estimées
à partir des données. Plusieurs approches 1 existent pour définir ces fonctions arbitraires,
comme par exemple des splines de lissage, des splines cubiques, des polynômes locaux, etc.
Règle générale, si suffisamment de données sont disponibles, ces différentes nuances de la
méthode donnent des résultats similaires.
Tout comme c’était le cas auparavant, fj (xij ) s’interprète comme l’effet de xij sur g(E[Yi ])
quand toutes les autres variables exogènes sont fixées. La seule différence maintenant est que
cet effet n’est plus obligatoirement linéaire. Si fj (xij ) est de la forme βj xij , on peut tester
si xij est requise dans le modèle (si elle a un effet) en testant si βj = 0. Si fj (·) est de
forme arbitraire, il est possible d’obtenir des bandes de confiance pour fj (·) et voir si la ligne
horizontale fj (u) = 0, ∀u, est incluse dans ces bandes 2 ; si c’est le cas, la variable xij n’est
pas utile dans le modèle.
Il existe plusieurs variantes de la méthode pour estimer β0 et les fj (·) de l’équation (5.1),
tout dépendant de l’approche employée pour définir les fonctions. Nous ne les couvrirons pas
dans cette brève introduction ; le lecteur intéressé peut trouver plus de détails au chapitre
7 du livre de James et coll. (2013). Nous concluons ce chapitre en montrant ce à quoi un
GAM peut ressembler et servir en ajustant un tel modèle aux données sur la victimisation
introduites au chapitre 2.
1.0
0.3
0.5
0.2
0.0
0.1
s(revenu)
s(age)
0 50 100 150 20 40 60 80
revenu age
Figure 5.1 – GAM logistique pour l’exemple sur la victimisation. À gauche : estimation de la
fonction f1 (revenu). À droite : estimation de la fonction f2 (age).
Deuxième partie
122
Chapitre 6
6.1 Introduction
Bien que le modèle linéaire soit extrêmement flexible et apte à modéliser plusieurs types
de relations entre une variable endogène et des variables exogènes, il souffre d’une certaine
lacune qui le rend inadéquat dans plusieurs situations : les variables endogènes Y1 , . . . , Yn
doivent être non corrélées et de même variance. Or, dans plusieurs études pratiques, il existe
des groupes d’observations où les variables endogènes sont corrélées entre elles.
Un autre aspect important de ce type de situation est que la hiérarchie définissant les
groupes d’observations corrélées contient implicitement de l’information sur la distribution
de la variable endogène. Comme on n’observe habituellement pas cette information implicite,
elle n’est pas quantifiée dans les variables exogènes disponibles et elle ne peut donc pas être
incluse dans les modèles de régression standards. Par exemple, si on observe les résultats de
360 étudiants à un examen, mais que ces étudiants proviennent en fait d’une trentaine de
classes d’une douzaine d’étudiants, alors il y a fort à parier que les résultats des étudiants
d’une même classe auront tendance à être plus semblables. Cependant les facteurs propres
aux classes qui rendent ces résultats semblables (qualité du matériel pédagogique, efficacité
de l’enseignant, horaire, etc.) ne sont pas quantifiées en tant que variables explicatives dans
un jeu de données. Les modèles de régression à effets mixtes (parfois appelés “modèles multi-
niveaux” ou “modèles hiérarchiques”) sont une façon de tenir compte de cette information
123
124
implicite cachée dans la hiérarchie des données. En plus de modéliser explicitement la cor-
rélation entre les observations d’un même groupe, les modèles mixtes peuvent donc aussi
potentiellement éliminer certains biais causés par des variables confondantes non mesurées
dont la valeur change selon la hiérarchie.
Exemple 6.1 Un vieux jeu de données Kaggle portait sur le prix de vente de maisons dans le
nord-ouest des États-Unis, que l’on tentait de prédire en fonction de certaines caractéristiques
de la maison et du terrain sur laquelle la maison est construite. La figure 6.1 montre la
relation entre le log du prix de vente (Y ) et le log de la superficie du terrain en pieds carrés
(x). À première vue, l’association entre le prix de la maison et la superficie est contre-
intuitive : on s’attendrait à ce que le prix soit une fonction croissante de la superficie ! Par
contre il y a une structure hiérarchique dans ces données : on a plusieurs maisons de la
même région (plus précisément, du même code postal zip code) et ce pour un peu moins
d’une centaine de codes postaux. La figure 6.2 montre les mêmes données qu’à la figure 6.1,
sauf que ce coup-ci les maisons d’un même code postal sont indiquées par un point de la
même couleur et les codes postaux différents sont indiqués par des couleurs différentes. On
peut voir qu’à l’intérieur des codes postaux, on a la même relation croissante entre le prix
de vente et la superficie du terrain.
Cet exemple illustre comment une variable confondante peut être implicite dans la hié-
rarchie. Dans cet exemple, la “variable confondante” est la densité de population. Dans les
codes postaux très peuplés, les maisons se vendent à fort prix même si les terrains sont de
petite taille, et vice-versa. Puisque la densité est associée à la fois au prix de vente et à la
superficie du terrain, si on n’en tient pas compte on aura une estimation biaisée de l’asso-
ciation prix vs superficie (dans cet exemple, le biais est si fort qu’on obtient une estimation
négative d’une association qui est en fait positive).
Exemple 6.2 Verbeke et Molenberghs (2003) présentent une étude de l’effet du dosage d’un
médicament qui réduit la production de testostérone (le Decapeptyl) sur la croissance du crâne
chez les rats Wistar mâles. Un groupe de 50 rats sont randomisés à l’un de trois traitements :
contrôle (pas de médicament), dose forte et dose faible. La variable endogène est la taille du
crâne selon un certain axe sur une radiographie, mesurée en pixels. Les rats commencent à
125
Figure 6.1 – Exemple 6.1 : log du prix de vente des maisons en fonction du log de la
superficie du terrain en pieds carrés. La ligne pointillée représente la droite de régression.
x0 x
Figure 6.2 – Exemple 6.1 : log du prix de vente des maisons en fonction du log de la super-
ficie du terrain en pieds carrés, avec les différents codes postaux indiqués par des couleurs
différentes. Les lignes pointillées représentent les droites de régression propres à chaque code
postal.
126
Figure 6.3 – Données sur la croissance du crâne des rats Wistar présentées par Verbeke et
Molenberghs (2003).
recevoir leur traitement à leur 45ème jour d’âge et la variable endogène est mesurée à tous
les 10 jours à partir du 50ème jour pour chaque rat. L’âge en jours est ensuite transformé
dans une échelle logarithmique : tij = ln{1+(Ageij −45)/10}, ce qui donne une valeur tij = 0
au temps du début du traitement. Nous allons utiliser l’approche de la section 6.5 afin de
construire un modèle mixte pour ces données.
Les graphiques de la mesure de la taille du crâne, Yij , en fonction de l’âge pour les
3 groupes de rats sont présentés à la figure 6.3. Des études précédentes ont recommandé
de prendre la transformation logarithmique de l’âge afin de rendre la relation plus linéaire
entre la taille du crâne et le temps. Nous allons donc commencer par ajuster un modèle
linéaire ordinaire avec une ordonnée à l’origine et une pente différente pour chacun des trois
traitements :
où xHi vaut 1 si le rat i reçoit la dose forte, 0 sinon et où xCi vaut 1 si le rat i ne reçoit pas
127
Figure 6.4 – Résidus d’une régression linéaire ordinaire en fonction du temps obtenus avec le
modèle (6.1). Les résidus d’un même animal sont liés par un segment.
termes d’erreur, tels que vus au chapitre 1. Le modèle de régression linéaire supposait que
Y = Xβ + ε, avec ε ∼ Nn (0, σ 2 I). Le modèle de régression linéaire mixte (général) est
une généralisation du modèle de régression linéaire permettant d’obtenir des coefficients de
régression aléatoires et de tenir compte de la corrélation entre les variables endogènes.
Considérons la situation où nous avons une structure “hiérarchique” dans les données :
i = 1, . . . , K représente la grappe et j = 1, . . . , ni représente l’osbervation individuelle dans
la grappe. On suppose un jeu de données constitué de K grappes indépendantes avec N =
∑K
i=1 ni observations au total dans le jeu de données. Dans cette situation, on le jeu de
données typique aura la forme suivante :
un vecteur de variables aléatoires, nommées effets aléatoires, qui ne sont pas observées. Le
modèle linéaire mixte est défini ainsi :
Y = Xβ + Zγ + ε, (6.2)
où Z est une matrice de schéma connue dont la spécification sera plus simple à comprendre
à partir d’exemples et donc la ligne correspondant à l’observation j de la grappe i est
z ′ij . La matrice Z sera spécifiée de sorte que l’élément du système d’équations (6.2) pour
l’observation j de la grappe i soit
Les hypothèses du modèle sont les suivantes : les vecteurs γ 1 , . . . , γ K sont i.i.d. et
(i) E[γ] = 0 ;
(ii) E[ε] = 0 ;
(iii) V ar[ε] = V ;
(iv) V ar[γ] = D ;
( )
ε = V
(v) V ar γ
0
.
0 D
En combinant le modèle (6.2) aux hypothèses (i)-(v), on obtient que E[Y ] = Xβ et que
L’ajout d’effets aléatoires dans le modèle linéaire mixte n’a donc pas d’impact sur la moyenne
de Y . De plus, on peut immédiatement voir de (6.3) que le modèle mixte nous permet de
modéliser la corrélation entre les variables endogènes de deux façons : directement dans la
matrice V ou en spécifiant une structure d’effets aléatoires (Z et D). En général, la structure
de la base de données et les besoins en interprétabilité devraient guider notre choix. Plus de
détails sur la construction d’un modèle mixte sont donnés à la section 6.5. La meilleure façon
de bien comprendre tous les éléments du modèle mixte est de regarder quelques exemples.
Exemple 6.3 Supposons une expérience à partir de laquelle on aimerait construire un mo-
dèle de régression pour la masse Y gagnée par une souris en fonction de la quantité x d’un
supplément alimentaire donné à cette souris. Nous avons 6 souris provenant de 3 familles et
nous supposons une corrélation entre les observations d’une même famille. Dénotons par Yij
le gain de masse de la jème souris de la ième famille et par xij la quantité de supplément
prise par cette souris.
Comme premier modèle, supposons que l’effet de la quantité de supplément est le même
pour toutes les souris, c.-à-d. que E[Yij ] = β0 +β1 xij et que V ar(εij ) = σ 2 +σ12 , Cov(εij , εij ′ ) =
σ12 , j ̸= j ′ , et Cov(εij , εi′ j ′ ) = 0, i ̸= i′ . Il existe plusieurs spécifications des éléments de (6.2)
permettant d’arriver à ce modèle. Ainsi si on pose
Y ′ = (Y11 , Y12 , Y21 , Y22 , Y31 , Y32 ) β ′ = (β0 , β1 ) ε′ = (ε11 , ε12 , ε21 , ε22 , ε31 , ε32 )
1 x11
σ 2 + σ12 σ12 0 0 0 0
1 x12 σ12 σ 2 + σ12 0 0 0 0
1 x21 0 0 σ 2 + σ12 σ12 0 0
X = V1= ,
1 x22 0 0 σ12 2
σ + σ12 0 0
1 x31 0 0 0 0 σ 2 + σ12 σ12
1 x32 0 0 0 0 σ12 σ 2 + σ12
nous obtenons un modèle qui remplit les conditions données plus haut. Une autre façon
tout-à-fait équivalente d’y arriver est de supposer qu’il n’y a pas de corrélation entre les
εij , mais plutôt un effet aléatoire dû aux familles que l’on ne peut observer, c.-à-d. que
pour la ième famille on ajoute un effet aléatoire γi0 . En termes du modèle, ceci nous donne
131
Exemple 6.4 Retournons à l’exemple sur les rats Wistar. Pour simplifier les choses, sup-
posons que les rats i = 1, . . . , 4 reçoivent la dose forte (xHi = 1, xCi = 0), que les rats
i = 5, . . . , 8 reçoivent la dose faible (xHi = 0, xCi = 0) et que les mesures du crâne sont
prises à trois reprises pour chaque rat. Un premier modèle pourrait faire les suppositions sui-
vantes : tous les rats ont un crâne de diamètre différent au temps 0 et les taux de croissance
des crânes de chaque rat diffèrent. Ceci suggère donc la formulation
Yij = (β0 + γi0 ) + β1 xHi + (β2 + γi1 )tij + β3 xHi tij + εij . (6.4)
De (6.4), on note que le diamètre de chaque crâne au temps 0 est une variable aléatoire de
moyenne β0 pour les rats qui reçoivent la dose faible et de β0 +β1 pour les rats qui reçoivent la
dose forte et que le taux de croissance de chaque crâne est une variable aléatoire de moyenne
β2 pour les rats qui reçoivent la dose faible et β2 + β3 pour les rats qui reçoivent la dose forte.
132
Pour reformuler (6.4) sous la forme du modèle mixte général (6.2), on pose
Y11 1 xH1 t11 xH1 t11 ε11
Y12 1 xH1 t12 xH1 t12 ε12
Y13
1 xH1 t13 xH1 t13
ε13
Y21
1 xH2 t21 xH2 t21
β
ε21
0
Y22
1 xH2 t22 xH2 t22
β1
ε22
Y = X= β= ε=
Y23 1 xH2 t23 xH2 t23 β2 ε23
.. .. .. .. .. ..
. . . . . β3 .
Y81 1 xH8 t81 xH8 t81 ε81
Y82 1 xH8 t82 xH8 t82 ε82
Y83 1 xH8 t83 xH8 t83 ε83
1 t11 0 0 0 ··· 0 0
0 ··· 0
1 t12 0 0 0
γ10
1 t13 0 0 0 ··· 0 0
γ11
0 0 1 t21 0 · · · 0 0
γ20
0 0 1 t22 0 · · · 0 0
Z = γ= γ21 .
0 0 1 t23 0 ··· 0 0
..
.. .. .. .. .. .. .. .. .
. . . . . . . .
γ80
0 0 ··· 0 0 0 1 t81
γ81
0 0 ··· 0 0 0 1 t82
0 0 ··· 0 0 0 1 t83
Pour le choix des matrices V et D, la structure d’effets aléatoires induira déjà suffisamment
de corrélation, donc on peut poser V = σ 2 I. Pour D, le choix est plus complexe. On peut
supposer que γi0 et γi1 ont des variances différentes ou la même variance et on peut aussi
supposer que Cov(γi0 , γi1 ) est nulle ou non nulle. Prenons le cas plus général où l’on pose
V ar[γi0 ] = σ02 , V ar[γi1 ] = σ12 et Cov(γi0 , γi1 ) = σ01 . On obtient donc une matrice D de
133
Σ = V ar[Y ] = ZDZ ′ + V
a1,11 a1,12 a1,13 0 0 0 0 ··· 0 0 0
···
a1,12 a1,22 a1,23 0 0 0 0 0 0 0
a1,13 a1,23 a1,33 0 0 0 0 ··· 0 0 0
0 0 0 a2,11 a2,12 a2,13 0 ··· 0 0 0
0 0 0 a2,12 a2,22 a2,23 0 ··· 0 0 0
= + σ 2 I,
0 0 0 a2,13 a2,23 a2,33 0 ··· 0 0 0
.. .. .. .. ... ... .. .. ..
. . . . . . .
0 0 0 0 0 0 ··· 0 a8,11 a8,12 a8,13
0 0 0 0 0 0 ··· 0 a8,12 a8,22 a8,23
0 0 0 0 0 0 ··· 0 a8,13 a8,23 a8,33
où ai,kl = σ02 + σ01 (tik + til ) + σ12 tik til . Ce modèle est donc équivalent au modèle Yij =
β0 + β1 xHi + β2 tij + β3 xHi tij + εij où V ar[Yij ] = σ 2 + ai,jj et Cov(Yij , Yik ) = ai,jk . En d’autres
termes, la variance du diamètre du crâne change avec le temps et les diamètres mesurés sur
un même rat sont corrélées.
blocs. Plus précisément, elle sera constitué de K blocs qui formeront sa diagonale. Le i-ème
bloc correspond à la matrice de variance de (εi1 , . . . , εini )′ et sera donc un bloc de dimension
ni × ni . Les éléments à l’extérieur des blocs correspondent à des covariances de la forme
Cov(εij , εi′ j ′ ) pour i ̸= i′ , qui sont toutes égales à zéro. Si on a un modèle avec q effets
aléatoires (par exemple dans l’exemple sur les rats Wistar, nous avions une ordonnée à
l’origine et une pente aléatoires, donc q = 2), alors la matrice D sera de dimension Kq × Kq
et sera elle aussi diagonale par blocs. Elle sera constituée de K blocs identiques de dimension
q × q, puisque le i-ème bloc représente la matrice de variance du vecteur γ i et on suppose
ces γ i i.i.d. (et cette indépendance explique les covariances nulles à l’extérieur des blocs).
Afin que les paramètres des matrices de variance soient estimables, il faut généralement
que les blocs correspondant aux différentes grappes (valeurs de i) soient de la même forme afin
de partager les mêmes paramètres. Plusieurs types de spécifications sont disponibles (voir
la documentation de la fonction lmer du package lme4 de R ou de la procédure MIXED
en SAS ou les livres cités dans la bibliographie). Voici une liste des spécifications les plus
utilisées comme structure pour les blocs des matrices V et D.
Cette forme est plus applicable aux blocs de la matrice de variance des résidus V qu’à
ceux de la matrice des effets aléatoires D. En effet, comme les coefficients β0 , β1 , . . . sont
rarement de la même échelle, il est peu raisonnable de croire que la variance d’une ordonnée
à l’origine aléatoire serait égale à la variance d’une pente aléatoire, par exemple.
135
Cette forme suppose que toutes les observations ont la même variance (σ 2 ) et que toutes
les covariances sont égales (σ1 ) :
σ2 σ1 σ1 · · ·
σ1 σ2 σ1 · · ·
.. .. .. .. .
. . . .
σ1 · · · σ1 σ2
Encore une fois, puisque toutes les variances y sont égales et que toutes les covariances y
sont égales, cette structure est appropriée pour les blocs de V et non pas pour les blocs de
D.
où |ρ| < 1.
Cette spécification n’est pas appropriée pour les blocs de la matrice D, mais elle est
particulièrement utile pour les blocs de V lorsque les observations corrélées entre elles sont
des mesures prises sur un même sujet à intervalles réguliers dans le temps (par exemple,
mesures de la hauteur d’un arbre prises à toutes les 3 semaines) ou dans l’espace (usure de
l’asphalte d’une route au km 1, au km 2, au km 3, ...)
136
C’est le modèle le plus général, où toutes les variances et les covariances prennent des
valeurs différentes :
σ12 σ21 σ31 · · ·
σ21 σ22 σ32 · · ·
.
σ31 σ32 σ32 ···
.. .. ..
. . .
On peut utiliser cette structure pour les blocs de la matrice D, puisque règle générale,
les blocs de D sont de faible dimension (on a rarement plus de 3 effets aléatoires dans un
modèle en pratique, donc les blocs de D sont rarement de dimension supérieure à 3 × 3),
tous de même taille et que la valeur de j a la même signification pour tout i (par exemple
j = 1 est l’ordonnée à l’origine aléatoire et j = 2 est la pente aléatoire pour tous les γ i ). Par
contre puisque le nombre de paramètres distincts ne serait pas le même pour tous les blocs
de la matrice V , on ne peut pas vraiment l’utiliser comme structure pour cette dernière, sauf
dans les cas où tous les ni sont égaux, de faible valeur et que la valeur de j a exactement la
même signification pour tout i (par exemple i =famille et j = 1 pour le père, j = 2 pour la
mère, etc.).
Cette structure est appropriée pour les blocs de D, mais il n’est pas hors de question
qu’elle puisse servir pour les blocs de V dans les cas où tous les ni sont égaux, de faible
valeur et que la valeur de j a exactement la même signification pour tout i.
137
En substituant cette valeur à la place de β dans (6.5), on obtient une expression qui ne
dépend plus que des paramètres inconnus dans les matrices V et D. Si l’on dénote l’ensemble
de ces paramètres inconnus θ, alors on prend le log de L(β, V , D), on crée le vecteur des
dérivées de cette fonction par rapport à chaque élément de θ, on pose égal à 0 et on résout
pour trouver θ̂, les estimateurs du maximum de vraisemblance des composantes de variance.
On les substitue dans D et V pour obtenir D̂ et V̂ , respectivement et ensuite on obtient
Σ̂ = Z D̂Z ′ + V̂ qu’il ne nous reste qu’à mettre à la place de Σ dans (6.6) pour obtenir β̂.
Pour faire des tests d’hypothèses, des intervalles de confiance, etc., on peut utiliser le fait
138
que lorsque K → ∞, on a
{ }
′ −1
β̂ β X Σ̂ X 0
≈N
,
, (6.7)
θ̂ θ 0 Vd
ar(θ̂)
où Vd
ar(θ̂) est l’inverse de la matrice d’information pour le paramètre θ.
Son utilité vient du fait qu’on peut ensuite obtenir des prévisions plus précises pour la valeur
de Y dans chacune des grappes i. En fait il existe en général deux types de prévisions pour
les modèles mixtes : une prévision pour la moyenne de la population à une valeur donnée
des variables exogènes et une prévision pour la moyenne d’une grappe i pour une valeur
donnée des variables exogènes.
Pour la moyenne de la population, on cherche une prévision pour une valeur donnée des
variables exogènes et avec la valeur moyenne des effets aléatoires, soit 0 pour chaque effet
aléatoire. Mathématiquement, on cherche à prédire
Le meilleur estimateur linéaire non biaisé empirique de cette quantité est x′0 β̂, qui sera
notre prévision ponctuelle. Il est également possible de construire un intervalle de confiance ;
nous ne verrons pas comment le faire de façon théorique dans ce cours, mais nous pourrons
facilement obtenir de tels intervalles avec R et SAS.
Quand on parle d’une prévision pour la valeur moyenne dans une grappe i, on parle en
fait d’une prévision de Y pour une valeur donnée de x0 et z 0 étant donné les valeurs des
Yij observées pour cette grappe. Nous cherchons donc une meilleure prévision linéaire non
139
biaisée empirique de x′0 β + z ′0 γ, ce qui est donné par x′0 β̂ + z ′0 γ̂. Encore une fois, on peut
également obtenir un intervalle de confiance correspondant à cette prévision très facilement à
l’aide de R ou SAS. Une propriété très intéressante de ces estimateurs qui est exploitée dans
plusieurs domaines (e.g., échantillonnage, actuariat) est que l’on peut montrer que (Verbeke
& Molenbergs, 1997, p. 80)
′
Ŷ i = V i Σ−1 −1
i X i β̂ + (I ni ×ni − V i Σi )Y i .
En d’autres termes, le vecteur des valeurs prédites pour la grappe i est une moyenne pondérée
de la moyenne globale dans la population X ′i β̂ et des données observées dans la grappe i,
Y i . On note que le poids donné à la moyenne globale est proportionnel à V i et inversement
proportionnel à Σi , ce qui implique que si la variabilité résiduelle pour la grappe i est élevée
par rapport à la variabilité totale, la moyenne globale aura un grand poids dans la prévision
pour la grappe i, et vice-versa.
Par exemple, pour un modèle de régression linéaire simple avec coefficients aléatoires,
une prévision pour la valeur moyenne de Y dans la population lorsque la variable exogène
prend la valeur x0 est donnée par β̂0 + β̂1 x0 tandis qu’une prévision pour la valeur moyenne
de Y pour l’individu i sous x0 est (β̂0 + γ̂i0 ) + (β̂1 + γ̂i1 )x0 .
Cette méthode consiste à maximiser la vraisemblance non pas de Y , mais plutôt de com-
binaisons linéaires des Yij construites de telle sorte que les effets fixes (Xβ) sont “éliminés”.
Ceci a pour effet de corriger les estimés des composantes de variance pour les degrés de
liberté des effets fixes, de façon analogue à la division de la somme des carrés résiduels par
n − p au lieu de n au chapitre 1.
140
On utilise ensuite l’estimation par maximum de vraisemblance basée sur (6.10) pour estimer
les paramètres de Σ à partir des données U . Plus de détails sur cette procédure (ainsi que sur
la façon d’obtenir la matrice K) sont donnés au chapitre 6 de McCulloch & Searle (2001).
Un coup Σ ainsi estimée, on peut la substituer dans les équations appropriées pour inférer
sur les valeurs de β et/ou γ.
Il semblerait que la méthode REML soit la méthode de choix en pratique (elle est
d’ailleurs la méthode par défaut de la fonction lmer de R et la procédure MIXED de SAS).
En plus d’être plus stable numériquement, ses estimateurs des composantes de variance ont
moins tendance à sous-estimer les vraies valeurs. En contre-partie, si on utilise la méthode
REML, certains chercheurs conseillent de ne pas se fier sur des critères basés sur la fonction
de log-vraisemblance comme les tests du rapport des vraisemblances ou les critères AIC ou
BIC, surtout lorsque les modèles comparés n’ont pas les mêmes effets fixes, puisque dans ce
dernier cas des modèles différents auront un vecteur U différent et on se retrouvera donc à
comparer ces critères alors qu’on a une variable réponse différente pour chaque modèle com-
paré. Voir la section 6.10 de McCulloch & Searle (2001) pour une discussion plus élaborée.
Il est possible de faire des tests d’hypothèses et de construire des intervalles de confiance
en passant par des statistiques t et F modifiées qui performent mieux que les tests z basés
141
sur la loi normale (6.7). Considérons le test d’une hypothèse linéaire générale de la forme
β
H0 : L =0
γ
β
H1 : L ̸ 0,
=
γ
où L est une matrice de constantes de rang égal à r (la plupart du temps son nombre de
lignes). Soit
−1 −1
X ′ V̂ X X ′ V̂ Z
Ĉ = ′ −1 −1 −1
.
Z V̂ X Z ′ V̂ Z + D̂
Si L ne compte qu’une seule ligne, alors
β̂
L
γ̂
t= √
−1
LĈ L′
suit approximativement une distribution tv̂ , où v̂ est un nombre de degrés de liberté qui
ne dépend pas uniquement du modèle mais qui doit être estimé à partir des données 1 ;
pour les modèles de régression linéaire mixtes, on recommande l’utilisation de la méthode
d’estimation des degrés de liberté de Satterthwaite. On rejette H0 en faveur de H1 lorsque
|t| ≥ tα/2;v̂ . On peut aussi utiliser cette statistique comme pivot pour obtenir un intervalle
( )
de confiance pour L β γ : √
β̂ −1
± tα/2;v̂ LĈ L′ .
L (6.11)
γ̂
Dans le cas général où L compte plus d’une ligne, on peut définir la statistique de test
′
( )−1
β̂ ′ −1 β̂
L LĈ L′ L
γ̂ γ̂
F = . (6.12)
r
1. L’estimation des degrés de liberté pour cette statistique t est une tâche non triviale qui ne peut être
couverte dans cette introduction aux modèles mixtes. Le lecteur intéressé est invité à consulter la p. 84 et
l’annexe A.3 du livre de Verbeke et Molenberghs (1997).
142
Sous H0 , cette statistique de test a une distribution qui s’approxime par une distribution
Fr,v̂ .
Supposons que l’on désire tester si un modèle à q + 1 effets aléatoires peut se réduire à un
modèle à q effets aléatoires. Il est important de noter que les tests présentés ici ne sont valides
que si D donne aux effets aléatoires des variances différentes et aux paires d’effets aléatoires
des covariances différentes ou nulles (donc des structures telles non-structurée ou diagonale
principale). Soit m0 , le nombre de paramètres différents de la matrice D à estimer dans le
modèle réduit (modèle sous H0 à q effets aléatoires) et soit m1 , le nombre de paramètres
différents de la matrice D à estimer dans le modèle complet (modèle sous H1 à q + 1 effets
aléatoires). Posons ξ = 2(l1 − l0 ), la statistique du rapport des vraisemblances (restreintes
ou pas). Alors en temps normal, le seuil du test serait P [χ2m1 −m0 > ξ]. Malheureusement,
nous ne pouvons utiliser ce seuil ici car sous H0 , le paramètre correspondant à la variance
du (q + 1)ème effet aléatoire est remplacé par 0, une valeur à la frontière de son espace
paramétrique. Mais comme il s’agit là du seul paramètre du test pour lequel la valeur à
tester est à la frontière de l’espace (les autres paramètres impliqués, s’il y en a, sont des
covariances pour lesquelles la valeur 0 est à l’intérieur de l’espace), alors on peut calculer le
seuil ainsi
p-value = 0.5P [χ2m1 −m0 −1 > ξ] + 0.5P [χ2m1 −m0 > ξ].
143
Si m1 −m0 −1 = 0, alors se souvenir qu’une χ20 est une v.a. dégénérée à 0 et donc P [χ20 > ξ] = 0
pour toute valeur de ξ > 0. On note que sous une structure de corrélation de type non
structurée, alors m1 − m0 = q + 1 (le test implique la variance de l’effet aléatoire testé et
les q covariances entre cet effet aléatoires et les autres effets aléatoires), alors que pour une
structure diagonale principale, m1 − m0 = 1 (une variance, aucune covariance).
Exemple 6.5 Verbeke & Molenberghs (2000) analysent un jeu de données où des mesures
d’un indicateur sont prises sur des invidus atteints d’un cancer de la prostate à plusieurs
moments dans le temps. Ils ajustent un moèle linéaire mixte de la forme
Yij = (β0 + γi0 ) + (β1 + γi1 )tij + (β2 + γi2 )t2ij + εij ,
0.5P [χ26−3−1 > 94.270] + 0.5P [χ26−3 > 94.270] = 0.5P [χ22 > 94.270] + 0.5P [χ23 > 94.270] ≈ 0.
On a donc qu’il est très clair que nous ne pouvons pas simplifier la structure des effets
aléatoires.
144
Si nous avions obtenu ces résultats avec une structure de corrélation de forme diagonale
principale, alors sous H0 nous aurions eu m0 = 2 paramètres (2 variances) tandis que sous
H1 , on aurait m1 = 3 paramètres (3 variances), et donc m1 − m0 − 1 = 0 et m1 − m0 = 1.
Si nous avions choisi une structure de type symétrie composée, alors nous ne pourrions
pas calculer le seuil avec un mélange de khi-deux car les matrices de variance ont les mêmes
paramètres à estimer sous H0 et H1 , même si les matrices sont différentes. Raison de plus
pour choisir des structures de corrélation avec des variances différentes (non structurée,
diagonale principale) pour les blocs de la matrice D ! !
l’autre, la pente varie d’un individu à l’autre, etc. Si un terme aléatoire d’ordre supé-
rieur est inclus dans le modèle, alors les termes aléatoires d’ordres inférieurs doivent
également être inclus (par exemple si on inclut un terme aléatoire devant x2 , alors
un terme aléatoire en x doit également être inclus). Important : Habituellement, on
n’inclut pas de coefficient aléatoire devant une variable exogène xijk dont la valeur
ne varie pas avec j ; ceci équivaudrait à tenter d’estimer une pente quand toutes les
observations ont la même valeur de x ! Habituellement, les variables exogènes dont
la valeur est fixe en j servent à expliquer pourquoi la moyenne est différente d’une
grappe à une autre ; si on les omet, la variance des ordonnées à l’origine aléatoire
augmente.
À ce stade-ci, une première vérification et correction de la linéarité peut être effectuée.
3. Choisir la forme appropriée pour les matrices D et V . En général, on garde V le
plus simple possible puisque la présence d’effets aléatoires est souvent suffisante pour
modéliser la covariance entre les résidus εij . Les critères d’information d’Akaike (AIC)
et d’information Bayesienne de Schwarz (BIC) donnés par SAS peuvent aider dans
cette sélection (plus les critères sont faibles, meilleur est le modèle). La quantité de
données dont on dispose peut également jouer un rôle ici : on ne peut pas avoir plus
de paramètres que de données !
4. Une fois D et V choisies, on peut effectuer une sélection plus formelle des effets
aléatoires en utilisant le test de la section 6.4. On commence par le modèle ayant le
plus d’effets aléatoires et on simplifie le modèle une étape à la fois, en commençant
par les effets aléatoires d’ordres supérieurs (par exemple, on teste si un effet aléatoire
devant x2 est nécessaire. Si oui, on arrête, sinon, on l’enlève et on teste si un effet
aléatoire devant x est nécessaire, et ainsi de suite).
5. On réduit ensuite la partie “effets fixes”, Xβ, du modèle en choisissant les variables
exogènes importantes en utilisant une des méthodes algorithmiques de sélection de
modèle du chapitre 3. Attention : On peut utiliser la méthode REML si on choisit une
méthode algorithmique à cette étape, mais si on veut utiliser l’AIC ou le BIC, comme
X diffère d’un modèle à l’autre, ces critères doivent se baser sur la log-vraisemblance
(méthode ML) pour être comparables.
146
Yij = (β0 + γi0 ) + (β1 + γi1 )tij + βH0 xHi + βH1 xHi tij
+βC0 xCi + βC1 xCi tij + εij , (6.13)
où γi0 et γi1 sont, respectivement, l’ordonnée à l’origine et la pente aléatoire pour l’individu
i. En essayant ce modèle sur les données avec plusieurs combinaisons de spécifications des
matrices V et D, les critères AIC et BIC nous suggèrent le choix de σ 2 I pour V et non
structurée pour D (étant donné que nous n’avons que deux effets aléatoires, cette structure
147
Table 6.1 – Valeurs des critères de sélection AIC et BIC pour le modèle mixte (6.13). Les
abréviations pour les formes des matrices de variance correspondent à leur syntaxe SAS.
(V , D) AIC BIC
(AR(1), UN) 946 965.1
(CS, UN) 946 965.1
(VC, UN) 944 961.2
n’est pas beaucoup plus complexe que la structure diagonale principale) ; les valeurs des
critères de sélection obtenues pour les combinaisons testées sont données au tableau 6.1.
Nous pouvons maintenant passer à l’étape suivante, c.-à-d. tester si les effets aléatoires
sont nécessaires. En ajustant les modèles avec et sans pentes aléatoires et en prenant deux
fois la différence entre les log-vraisemblance maximisées, on obtient la statistique du rapport
des vraisemblances ξ = (926.0 − 926.0) = 0, donc une différence qui n’est pas significative.
On peut maintenant réduire le modèle avec la méthode d’exclusion. En partant du modèle
On élimine donc en deux étapes les termes en βH1 xHi tij et ensuite βC1 xCi tij du modèle
pour obtenir
Num Den
Effect DF DF F Value Pr > F
t 1 201 2222.21 <.0001
treat 2 201 3.27 0.0401
Si quelqu’un désire savoir si la taille moyenne des crânes dans la population ayant reçu
une dose faible après t0 unités de temps (transformé) est en général la même que la taille
dans la population n’ayant reçu aucune dose après (t0 + 0.1) unités de temps (transformé),
on cherche à tester
Il s’agit donc d’un test d’une hypothèse linéaire générale pour lequel on obtient
Contrasts
Num Den
Label DF DF F Value Pr > F
control @ t+0.1=low @ t 1 201 2.46 0.1187
On n’a donc aucune évidence contre H0 et on ne rejette pas cette hypothèse.
Finalement, pour le rat numéro 3 qui ne reçoit aucun médicament, on a estimé son
ordonnée à l’origine aléatoire à γ̂0,3 = 2.06. Une prévision de ce que sera la mesure de son
crâne à l’âge 90 jours (ce qui correspond à t = ln{1 + (90 − 45)/10} = 1.704) est donc
(69.25 + 2.06) + 7.22(1.70) − 0.33 = 83.3 pixels. Un intervalle de confiance à 95% pour
l’espérance de la mesure du crâne pour ce rat à cet âge est obtenue avec SAS : (82.2, 84.4).
Dans les deux cas, on obtient maintenant un important effet positif de la superficie du
terrain, ce qui est plus conforme à notre intuition. Au niveau de la prévision sur le jeu de
validation, l’erreur de prévision carrée moyenne est de 0.04891 pour le modèle (a) et 0.04979
pour le modèle (b), soit deux performances très similaires clairement meilleures que celle du
modèle linéaire. À noter que si on inclut le “zip code” comme une variable catégorielle à 70
modalités dans le modèle linéaire ordinaire, l’estimé de l’effet du terrain devient similaire à
celui obtenu par les modèles mixtes, tout comme l’erreur de prévision. Par contre effectuer
ceci n’est pas recommandé si l’on a un jeu de données très débalancé (des “zip codes”
qui auraient des nombres très différents d’observations), si la pente aléatoire a une forte
variance ou si l’on désire des prévisions pour des “zip codes” différents de ceux dans le jeu
d’entrainement.
Finalement si on n’a pas de jeu de validation et que l’on aimerait trancher entre le
modèle (a) et (b), on peut faire le test de la section 6.4. Ici on a que la log-vraisemblance
maximale sous les modèles (a) et (b) est respectivement égale à 1962.598 et 1761.318, pour
une statistique du rapport des vraisemblances égale à ξ = 2(1962.598 − 1761.318) = 402.56.
Puisqu’on a utilisé la structure par défaut pour D qui est non structurée dans lmer, on a
que m1 = 3 (2 variances et une covariance) et que m0 = 1 (une variance) et donc m1 − m0 =
151
On rejette donc très fortement le modèle sans pente aléatoire et on opte pour le modèle (a).
Chapitre 7
Tout au long du chapitre 2, nous avons supposé que sachant les valeurs des variables
exogènes x1 , . . . , xn , les variables endogènes Y1 , . . . , Yn étaient indépendantes. Il arrive ce-
pendant fréquemment en pratique que cette hypothèse ne soit pas raisonnable. Par exemple
dans les études sur les traitements contre l’épilepsie, pour chaque individu i, on mesure
Yi,1 , . . . , Yi,ni , le nombre de crises dans plusieurs périodes de temps consécutives. Bien que
l’hypothèse d’indépendance soit raisonnable entre Yi,j et Yi′ ,j ′ si i ̸= i′ (individus différents),
les nombres de crises dans deux périodes différentes pour un même individu, Yi,j et Yi,j ′ ,
sont fort probablement corrélés. De façon similaire, si Yi,j est une variable binaire dénotant
la présence ou l’absence d’une tumeur chez le jème rat de la ième portée (famille) après in-
jection d’un cancérogène, il est probable que les rats d’une même famille réagiront de façon
similaire au cancérogène et, donc, que les variables Yi,j et Yi,j ′ soient corrélées.
Dans ce chapitre, nous verrons comment il est possible de tenir compte de ce type de corré-
lation dans nos inférences sur les coefficients de régression β d’un modèle linéaire généralisé.
L’approche que nous adopterons utilisera le concept d’équations d’estimation généralisées
(GEE) et d’estimation robuste de la variance de l’estimateur β̂. Contrairement à l’approche
152
153
par modèles mixtes du chapitre 6, ici nous ne cherchons pas à modéliser de façon précise
la corrélation, mais plutôt à corriger nos estimateurs et leurs estimateurs de variances et
covariances pour tenir compte de la corrélation. (Il s’agit en fait d’une généralisation de
la correction du type “quasi-Poisson” du chapitre 2.) De plus, les coefficients de régression
représentent l’effet d’un changement dans les valeurs exogènes sur la valeur moyenne de la
variable endogène dans l’ensemble de la population, donc on parle ici d’une approche margi-
nale, ou “moyennée sur la population” (population-averaged). Ce chapitre ne se veut en fait
qu’une introduction à ce type d’analyse et nous ne verrons que la procédure pour ajuster un
modèle choisi, sélectionner les variables exogènes et tester des hypothèses sur les coefficients
de régression β.
où µi (β) = (µi1 (β), . . . , µini (β))′ et ∆i est une matrice diagonale de dimensions ni × ni
dont l’élément en position (j, j) est dθij /dηij où θij est le paramètre canonique de la famille
exponentielle.
Si on définit la matrice Ai comme étant la matrice diagonale dont l’élément en position
(j, j) est b′′ (θij ), alors on a que β̂ qui résoud (7.1) sera, sous l’hypothèse d’indépendance,
approximativement de distribution normale multivariée de moyenne β et de variance
( n )−1
∑
V = X ′i ∆i Ai ∆i X i . (7.2)
i=1
1. Une petite introduction à la théorie des équations d’estimation est incluse dans les supports visuels
utilisés en classe pour ce chapitre.
155
où D i = ∂µi /∂β = ϕAi ∆i X i . Si on pose Ri (α) = I ni ×ni , alors (7.3) se simplifie à (7.1).
On définit ensuite
Yij − µij
eij = √ ,
b′′ (θij )
que l’on évaluera à β = β̂ et dont on se servira pour estimer le paramètre de dispersion ϕ
par
1 ∑ n ∑ ni
ϕ̂ = e2 ,
N − p i=1 j=1 ij
∑n
où N = i=1 ni est le nombre total d’observations dans l’échantillon et p = dim(β).
On estime ensuite β en utilisant l’algorithme suivant :
1. Estimer β sous l’hypothèse d’indépendance (méthodes du chapitre 3) et dénoter l’es-
(0)
timateur obtenu β̂ .
Ensuite pour m = 0, 1, 2, . . .
(m)
2. Estimer α et ϕ à partir de β̂ et des eij .
1/2 1/2
3. Poser V i = ϕ̂Ai Ri (α̂)Ai .
4. Mettre la valeur de β̂ à jour :
( n )−1 ( n )
(m+1) (m) ∑ ∑ (m)
β̂ = β̂ + D ′i V −1
i Di D ′i V −1
i {Y i − µi (β̂ )} .
i=1 i=1
(m+1) (m)
5. Itérer les étapes 2 à 4 jusqu’à convergence (différence entre β̂ et β̂ négligeable).
On peut ensuite estimer la matrice de variance de β̂ ainsi obtenu. Si Ri (α) était la vraie
structure de corrélation de Y i , alors cette variance serait estimée par
( n )−1
∑
VT = D ′i V −1
i Di
.
i=1 ˆ
β =β ,α=α̂,ϕ=ϕ̂
Mais comme Ri (α) n’est qu’une matrice de corrélation de travail et est possiblement mal
spécifiée, alors on estime la variance de β̂ par un estimateur de matrice de variance sandwich
robuste :
( n )
∑
VS = VT D ′i V −1
i {Y i − µi (β)}{Y i − µi (β)} V ′ −1
i Di V T.
i=1 β =βˆ ,α=α̂,ϕ=ϕ̂
156
Le terme “sandwich" vient du fait que dans l’expression de plusieurs estimateurs de variance
robustes, une correction empirique est “prise en sandwich" entre deux estimateurs de variance
basés sur le modèle de travail.
7.2.1 Indépendance
Ici on suppose que la corrélation entre Yij et Yij ′ est nulle pour j ̸= j ′ , donc que Ri =
I ni ×ni .
7.2.2 Échangeable
Ce type de structure suppose que la corrélation entre Yij et Yij ′ est α pour j ̸= j ′ . On a
donc que
1 α ··· α
.. .
α 1 . ..
Ri (α) = . . .
. .. ... α
.
α ··· α 1
Lorsque nous n’avons pas de raison de croire a priori que les différentes paires d’observations
(Yij , Yij ′ ) ont des corrélations différentes les unes des autres, cette structure est très appro-
priée. De plus, elle est pratique lorsque le nombre d’observations n’est pas le même pour
chaque valeur de i.
157
fonction de vraisemblance et les inférences ne peuvent être basées sur aucun élément dé-
pendant de la vraisemblance maximisée, ce qui inclut la fonction de déviance, les tests du
rapport des vraisemblances et les critères AIC et BIC. Heureusement, des inférences sur β
peuvent quand-même être faites ; elles se baseront sur une approximation normale multiva-
riée de la distribution de β̂. En effet, comme nous le disions plus haut, le paramètre β̂ suit
approximativement une distribution normale multivariée de moyenne β et de variance V S .
Mathématiquement,
β̂ ≈ N (β, V S ). (7.4)
Ceci nous permet donc de considérer plusieurs problèmes inférentiels.
où r est le nombre de rangées dans la matrice L. Le seuil du test est donc donné par
P [χ2r > χ].
Un cas particulier est un intervalle de confiance pour la valeur moyenne de Y dans une
√
population où x = x0 . On a l’intervalle x′0 β̂ ± zα/2 x′0 V S x0 pour x′0 β, auquel on applique
le lien inverse pour obtenir l’intervalle désiré :
( √ √ )
−1
g (x′0 β̂ − zα/2 x′0 V S x0 ), g −1
(x′0 β̂ + zα/2 x′0 V S x0 ) .
Si on ajuste ce dernier modèle en tenant compte du fait que les observations provenant
d’un même individu puissent être corrélées, en utilisant une structure de corrélation de travail
d’indépendance, on obtient
Comme on peut le voir, peu importe la structure de corrélation de travail, les estimateurs
ainsi que les erreurs standards, intervalles de confiance et seuils de tests sont très similaires.
Cependant, on peut constater que la procédure d’exclusion ne terminerait pas avec ce modèle
ici, car l’effet de l’âge ne semble pas significatif. Le fait de ne pas corriger les erreurs standards
pour la corrélation intra-individu aurait donc mené à une sous-estimation de ces erreurs
standards et aurait, probablement à tort, conservé age dans le modèle.
Les tests et intervalles de confiance pour un paramètre donné dans les sorties SAS sont en
fait les tests (avec βj0 = 0) et intervalles de la section 7.3.1. Par exemple si on avait voulu
√
tester H0 : βage = 0 contre H1 : βage ̸= 0, on aurait calculé z = (β̂age − 0)/ Vage,age =
√
(−0.0319 − 0)/ 0.0003653 = −1.67, pour un seuil de 2P [N (0, 1) > | − 1.67|] = 0.095 et donc
on ne peut rejeter H0 au seuil de 5%. Si on avait plutôt voulu tester H0 : βage = −1 contre
√ √
H1 : βage > −1, on aurait calculé z = {β̂age −(−1)}/ Vage,age = (−0.0319+1)/ 0.0003653 =
50.7, pour un seuil de P [N (0, 1) > 50.7] < 0.0001, et on rejette donc fortement H0 .
Si on veut construire un intervalle de confiance pour la moyenne de Y pour les individus
d’âge 40, avec 0 comme statut respiratoire de base et qui subissent le traitement, nous utili-
sons la méthode de la section 7.3.3. On doit d’abord calculer l’intervalle de confiance pour le
prédicteur linéaire : η̂ = β̂0 +1β̂1 +40β̂1 +0β̂3 = −0.54+(1)(0.81)+(40)(−0.03)+(0)(2.77) =
−0.93 et V ar[η̂] = 0.36+0.20+(40)2 (0.00036)+2(−0.07)+2(40)(−0.0090)+2(40)(−0.0017) =
163
√
0.14, donc un intervalle de confiance à 95% −0.93 ± 1.96 0.14 = (−1.66, −0.19). En appli-
quant l’inverse du lien logit on obtient l’intervalle (0.16, 0.45).
Chapitre 8
Note importante
Étant donné notre temps très limité et la complexité relative des modèles linéaires généra-
lisés mixtes (GLMM), ce chapitre ne se veut qu’une très brève introduction aux GLMM. Les
objectifs visés par ce chapitre sont de vous introduire à cette classe de modèles, de vous mon-
trer à quoi ils servent et comment ils peuvent être interprétés et de vous parler brièvement
de l’aspect “implantation du modèle” : inférences, exemples, etc. À la fin de ce chapitre, vous
devriez être en mesure de savoir ce que font ces modèles et d’avoir une compréhension de la
méthode basée sur l’approximation de Laplace pour calculer la vraisemblance du modèle.
164
165
8.1 Introduction
Au chapitre 7, nous avons vu comment faire des inférences sur le vecteur β d’un modèle
linéaire généralisé lorsque les données sont groupées et qu’il existe une corrélation intra-
groupe. Cependant, contrairement aux méthodes du chapitre 2, les méthodes du chapitre 4
ne permettent que de faire des inférences sur les coefficients de régression, ou sur des fonctions
de ceux-ci. De plus, comme ces coefficients sont supposés égaux dans chaque groupe, nous
ne pouvons donc faire que des inférences sur les effets moyens des variables exogènes dans la
population, et non pas sur les effets sur les groupes. Qui plus est, les prévisions ne peuvent
se faire que pour la valeur moyenne dans la population, et non pour la valeur moyenne dans
un groupe. En fait, au chapitre 2, l’approche qui était utilisée pour faire des inférences au
niveau des groupes était de définir des effets aléatoires (les γ0i , γ1i , etc.) et “d’estimer” ces
effets aléatoires. Le but de ce chapitre est de généraliser le modèle linéaire généralisé afin
d’y introduire des effets aléatoires ; ce chapitre (modèle linéaire généralisé mixte) est donc
au chapitre 2 (modèle linéaire généralisé) ce que le chapitre 6 (modèle linéaire mixte) était
au chapitre 1 (modèle linéaire).
Afin de faire des inférences pour les groupes, nous ne pourrons faire comme au chapitre 7
et éviter de modéliser la corrélation intra-groupe. Heureusement, nous sommes déjà familiers
avec la façon utilisée afin de modéliser cette corrélation. En effet, cette dernière sera induite
par la présence d’effets aléatoires, exactement comme nous le faisions dans le cadre du modèle
linéaire mixte au chapitre 6.
8.2 Le modèle
Soit les vecteurs Y , γ, ε et les matrices X et Z tels que définis au chapitre 6. Le modèle
linéaire généralisé mixte suppose que sachant X, les Yij sont indépendants des Yi′ j ′ pour tout
i ̸= i′ . De plus, on suppose que (Yi1 |xi1 , γ i ), (Yi2 |xi2 , γ i ),. . .,(Yini |xini , γ i ) sont indépendants
pour tout i. (Notez que ceci signifie, en général, que (Yi1 |xi1 ), . . . , (Yini |xini ) sont corrélés.)
Comme son nom l’indique, le modèle linéraire généralisé mixte est un hybride des modèles
166
linéaire mixte et linéaire généralisé. On supposera donc que (Yij |xij , γ i ) ∼ f (y|xij , γ i ), où
{ }
yθij − b(θij )
f (y|xij , γ i ) = exp − c(y, ϕ) .
a(ϕ)
Du chapitre 2, nous savons que µij ≡ E[Yij |xij , γ i ] = b′ (θij ) et que V ar[Yij |xij , γ i ] =
a(ϕ)b′′ (θ)ij = a(ϕ)V (µij ). Le modèle postule que l’effet des variables exogènes et des ef-
fets aléatoires sur la distribution de Yij consiste à modifier la valeur de µij ainsi :
où g(·) est une fonction de lien et où z ′ij est la rangée de la matrice Z qui correspond à la jème
observation du groupe i. Afin de compléter la spécification du modèle, nous devons supposer
une distribution pour les effets aléatoires, comme c’était le cas au chapitre 2, puisque ces
derniers ne sont pas observés. Pour l’instant, nous nous contenterons de supposer que les γ i
sont i.i.d. selon une distribution avec densité connue fγ ; nous verrons qu’en fait les logiciels
font exactement la même supposition qu’au chapitre 2 quant à la distribution des effets
aléatoires et assument que γ i suit une loi normale multivariée de moyenne 0 et avec matrice
de covariance de structure connue (par exemple non-structurée, diagonale principale, etc.).
À moins que la fonction de lien ne soit spécifiée, cette expression ne peut se simplifier.
Au chapitre 6, cette espérance était facile à calculer car nous avions le lien identité, ce qui
donnait E[Yij |xij ] = Eγ i [x′ij β + z ′ij γ i ] = x′ij β + z ′ij Eγ i [γ i ], où la dernière espérance était
nulle si on supposait une loi normale de moyenne zéro pour les effets aléatoires. Malheureu-
sement, si la fonction de lien n’est pas linéaire (ce qui est le cas pour toutes les fonctions de
lien populaires qui ne sont pas le lien identité), le calcul devient plus difficile.
Exemple 8.1 Considérons le modèle où g(u) = ln u et où γ i suit une loi normale multiva-
riée de moyenne 0 et de variance-covariance D. On a
Au chapitre 6, nous avions le lien identité g(µij ) = µij , V (µij ) = 1 et a(ϕ) = V ar(εij ),
ce qui donnait V ar[Yij |xij ] = z ′ij V ar(γ i )z ij + V ar(εij ). Encore une fois ici, pour d’autres
distributions et autres fonctions de lien, les calculs deviennent plus complexes.
Un fait intéressant de l’exemple 8.2 : le terme entre crochets à la droite de E[Yij |xij ] est
supérieur à 1, ce qui indique que la variance marginale est supérieure à la moyenne marginale,
même dans le cas de la distribution de Poisson. Comme nous en avions discuté au chapitre 2,
la surdispersion peut survenir lorsque la valeur moyenne de notre variable endogène dépend
d’une variable aléatoire latente (non observée), dans ce cas-ci γ i , que nous n’incluons pas
dans le modèle de régression.
Cov(Yij , Yij ′ |xij , xij ′ ) = Cov(E[Yij |xij , γ i ], E[Yij ′ |xij ′ , γ i ]) + E[Cov(Yij , Yij ′ |xij , xij ′ , γ i )].
Comme nous avons supposé que sachant γ i et les variables exogènes, les Yij sont indépen-
dantes, on a que la covariance à l’intérieur de l’espérance est nulle et que
Cov(Yij , Yij ′ |xij , xij ′ ) = Cov{g −1 (x′ij β + z ′ij γ i ), g −1 (x′ij ′ β + z ′ij ′ γ i )}.
169
Encore une fois, cette expression ne se simplifie guerre, sauf dans le cas du lien identité, où
l’on obtient
Cov(Yij , Yij ′ |xij , xij ′ ) = z ′ij V ar(γ)z ij ′ .
8.3.4 Interprétation
Comment interpréter les β dans un modèle linéaire généralisé mixte ? Tout d’abord,
l’interprétation est plus simple dans le cas d’inférences conditionnelles. Ainsi si le coefficient
devant xijk est (βk + γki ), alors une hausse d’une unité de xijk , toute autre variable exogène
demeurant inchangée, augmentera g(µij ) de (βk + γki ) unités. On peut également interpréter
βk comme l’effet de la kème variable sur l’individu moyen (pour lequel γki = 0), et non pas
comme l’effet de la kème variable sur la moyenne des individus. Bien sûr, s’il n’y
a pas de pente aléatoire devant xijk , alors l’effet devient une hausse de βk unités, ce qui est
la même interprétation que dans le cadre des modèles linéaires généralisés du chapitre 3, à
la différence que l’effet en est un sur le prédicteur linéaire de chaque groupe, et non sur le
prédicteur linéaire de la population entière.
Peut-on quand-même avoir une idée de l’effet d’une hausse de la k e variable exogène sur la
distribution de Y dans la population globale, pas seulement sur la distribution conditionnelle
de Y sachant les groupes ? La réponse est oui, dans certains cas particuliers. Par exemple,
retournons à l’exemple 5.1 de la régression de Poisson avec lien log. Alors si nous n’avons
pas de terme aléatoire devant la k e variable exogène, E[Yij |xijk = x + 1]/E[Yij |xijk = x] =
exp(βk ). On a donc exactement le même effet qu’au chapitre 3. Malheureusement, si nous
avions eu un terme aléatoire devant xijk , alors nous n’aurions pas le même résultat car z ij
avec xijk = x + 1, disons z ∗ , ne serait pas le même que z ij avec xijk = x, disons z ∗∗ . En
effet, dans ce cas on obtient E[Yij |xijk = x + 1]/E[Yij |xijk = x] = exp(βk )Mγi (z ∗ )/Mγi (z ∗∗ ).
(Exercice : Calculez le changement dans la moyenne marginale de Yij quand xij1 passe de
x à x + 1 dans le cas de l’exemple 8.1 avec une ordonnée à l’origine aléatoire et une pente
aléatoire devant la seule variable exogène xij1 .)
En fait ceci nous mène à une question intéressante : doit-on s’attendre à une estimation
différente de la valeur de β entre une approche marginale basée sur les équations d’estima-
tion généralisée et une approche basée sur un modèle linéaire généralisé mixte ? La réponse
170
est “oui”, ce qui ne devrait pas être surprenant puisque, tel que vu ci-dessus, l’effet des va-
riables exogènes sur les moyennes conditionnelles de chaque groupe et l’effet sur la moyenne
marginale de la population sont généralement deux quantités différentes. L’exemple qui suit
l’illustre très bien.
Exemple 8.3 Supposons Yij |xij , γ i ∼binomiale(1, πij ), où Φ−1 (πij ) = x′ij β + z ′ij γ i et γ i ∼
N (0, D). Alors (exercice) on a que
x′ij β
E[Yij |xij ] = Φ √ = Φ(x′ij β ∗ ),
z ′ij Dz ij + 1
√
où β ∗ = β/ z ′ij Dz ij + 1. Comme ce qui est à l’intérieur de la racine carrée est supérieur
à 1, β ∗ sera toujours inférieur (en valeur absolue) à β, ce qui signifie que l’effet moyen des
variables exogènes sur une population est une atténuation des effets moyens à l’intérieur des
groupes.
Notez que le phénomène d’atténuation observé dans l’exemple 8.3 n’est pas spécifique à
cet exemple et se produit en général. De plus, on pourrait montrer que plus les groupes sont
hétérogènes (c’est-à-dire plus les γ i de chaque groupe sont différents), plus l’atténuation sera
importante.
individuel peut être désiré, ce qui requiert une approche conditionnelle. Souvent, on doit
avoir recours aux deux approches, puisque l’on désire inférer sur l’effet de certains éléments
de x sur la population et sur l’effet d’autres éléments de x au niveau individuel. Une règle
du pouce qui peut aider à savoir si l’on peut estimer un effet conditionnel pour une variable
xijk est que si la valeur de xijk ne peut pas changer pour un i, k fixé (par exemple, le sexe du
patient i devrait demeurer constant pour toute valeur de j), alors un effet conditionnel du
sexe n’a pas vraiment de sens et il vaut mieux considérer l’effet marginal (population d’un
sexe vs population de l’autre sexe).
8.4 Inférences
Comme les observations sont supposées indépendantes étant donné les effets aléatoires,
il est possible d’écrire la fonction de vraisemblance basée sur les données observées grâce à
la loi des probabilités totales :
∫
L(β) = f (y|γ)fγ (γ) dγ
∫ ∏
n ∏
ni
= f (yij |xij , γ)fγ (γ) dγ. (8.1)
i=1 j=1
McCullagh & Searle (2001, section 8.4) montrent comment cette fonction peut être maximisée
en pratique et comment obtenir la matrice d’information observée qui permet d’estimer la
variance de β̂. Cependant, cette tâche est numériquement difficile et ne permet pas (en
principe ... voir solution ci-dessous) la prévision des effets aléatoires.
La maximisation numérique implique l’évaluation numérique des intégrales. La majorité
des logiciels vont utiliser la quadrature de Gauss-Hermite pour effectuer cette tâche. Si on
utilise un nombre suffisant de points d’intégration (disons une dizaine), l’approximation sera
suffisamment précise pour que les critères tels l’AIC ou le BIC soient utilisables. (Attention :
Par défaut, plusieurs logiciels utilisent l’approximation de Laplace, qui équivaut à la méthode
de Gauss-Hermite avec un seul point d’intégration. On recommande de ne se servir de cette
méthode que pour obtenir des points de départ pour les itérations avec la méthode de Gauss-
Hermite avec plus de points d’intégration.)
172
Bibliographie
Cameron, A.C. & Trivedi, P.K. (1998). Regression Analysis of Count Data. Cambridge :
Cambridge University Press.
Casella, G. & Berger, R.L. (1990). Statistical Inference, Belmont CA : Wadsworth.
Christensen, R. (2002). Plane Answers to Complex Questions, 2nd Edition. New York :
Springer-Verlag.
Cortez, P. & Silva, A. (2008). Using Data Mining to Predict Secondary School Student
Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TECh-
nology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS,
ISBN 978-9077381-39-7.
Draper, N.R. & Smith, H. (1998). Applied Regression Analysis, 3rd Edition. New York :
Wiley.
Dunn, K.P. & Smyth, G.K. (1996). Randomized quantile residuals. Journal of Computatio-
nal and Graphical Statistics, 5, 1-10.
Hogg, R.V., McKean, J.W. & Craig, A.T. (2005). Introduction to Mathematical Statis-
tics, 6th Edition. Upper Saddle River, N.J. : Pearson Education.
Hosmer, D.W. & Lemeshow, S. (1989). Applied Logistic Regression. New York : Wiley.
James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013). An introduction to statisti-
cal learning. New York : Springer.
Kuhn, M., Johnson, K. (2013). Applied predictive modeling. New York : Springer.
Littell, R.C., Miliken, G.A., Stroup, W.W. & Wolfinger, R.D. (1996). SAS System
for Mixed Models. Cary : SAS Institute.
McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models, 2nd Edition. Cambridge :
Chapman and Hall.
McCulloch, C.E. & Searle, R.S. (2001). Generalized, Linear and Mixed Models, New York :
Wiley.
Myers, R.H. (1990). Classical and Modern Regression With Applications, 2nd Edition. Bel-
mont, CA : Duxbury Press.
173
174
Rabe-Hesketh, S. & Skrondal, A. (2008). Multilevel And Longitudinal Data Analysis Using
Stata, 2nd Edition. College Station (TX) : Stata Press.
Sen, A. & Srivastava, M. (1990). Regression Analysis : Theory, Methods, and Applications.
New York : Springer-Verlag.
Verbeke, G. & Molenberghs, G. (eds) (1997). Linear Mixed Models in Practice : A SAS-
Oriented Approach. New York : Springer.
Verbeke, G. & Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. New
York : Springer.
Verbeke, G. & Molenberghs, G. (2003). The use of score tests for inference on variance
components. Biometrics, vol. 59, pp. 254–262.
Weisberg, S. (1985). Applied Linear Regression, 2nd edition. New York : Wiley.
White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and a direct
test for heteroskedasticity. Econometrica, 48, 817-838.