Vous êtes sur la page 1sur 175

STT-7120

Théorie et applications des méthodes de régression

Notes de cours produites par


Thierry Duchesne, Ph.D., P.Stat.

Département de mathématiques et de statistique


Université Laval
thierry.duchesne@mat.ulaval.ca

Session d’automne 2019

⃝2019,
c Thierry Duchesne
Table des matières

0 Révision 4
0.1 Notions d’algèbre linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2 Notions de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.3 Notions d’inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 10

I Modèles et méthodes pour données indépendantes 13

1 Le modèle de régression linéaire 14


1.1 Introduction : Qu’est-ce que la régression ? . . . . . . . . . . . . . . . . . . . 14
1.2 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . 22
1.5 Intervalles et tests pour la valeur d’un paramètre . . . . . . . . . . . . . . . 30
1.6 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.7 Analyse de la variance et tests d’hypothèses . . . . . . . . . . . . . . . . . . 35
1.8 Variables exogènes catégorielles . . . . . . . . . . . . . . . . . . . . . . . . . 44

2 Modèles linéaires généralisés (GLM) 51


2.1 Introduction aux modèles linéaires généralisés . . . . . . . . . . . . . . . . . 51
2.2 Variable Y binomiale : régression logistique . . . . . . . . . . . . . . . . . . . 56
2.3 Variable Y de dénombrement : régression de Poisson (log-linéaire) . . . . . . 63

1
Notes de cours, STT-7120, Automne 2019 2

3 Multicollinéarité et sélection de variables 71


3.1 Multicollinéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Méthodes de sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . 77

4 Validation de modèle 95
4.1 Méthodes de vérification de modèle . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Données influentes et aberrantes . . . . . . . . . . . . . . . . . . . . . . . . . 113

5 Modèles additifs généralisés (GAM) 118


5.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

II Modèles et méthodes pour données corrélées 122

6 Le modèle linéaire mixte 123


6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.2 Le modèle linéaire mixte général . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.3 Estimation des paramètres et des effets aléatoires . . . . . . . . . . . . . . . 137
6.4 Test de la nécessité d’effets aléatoires . . . . . . . . . . . . . . . . . . . . . . 142
6.5 Procédure typique de construction du modèle . . . . . . . . . . . . . . . . . 144
6.6 Exemple sur les rats Wistar . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.7 Exemple sur le prix de vente des maisons . . . . . . . . . . . . . . . . . . . . 148

7 Modèles linéaires généralisés pour données corrélées : approche marginale152


7.1 Équations d’estimation généralisées (GEE) . . . . . . . . . . . . . . . . . . . 153
7.2 Structures de corrélation les plus communes . . . . . . . . . . . . . . . . . . 156
7.3 Procédures d’inférence sur β . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.4 Méthode d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.5 Exemple détaillé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

8 Modèles linéaires généralisés mixtes 164


8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Notes de cours, STT-7120, Automne 2019 3

8.2 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165


8.3 Propriétés du modèle et interprétation . . . . . . . . . . . . . . . . . . . . . 166
8.4 Inférences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

9 Bibliographie 173
Chapitre 0

Révision

Ce chapitre sert à réviser brièvement les notions de base indispensables à un traitement


statistique rigoureux des méthodes de régression.

0.1 Notions d’algèbre linéaire


Le calcul matriciel et vectoriel joue un grand rôle en régression linéaire. Voici un rappel
de quelques résultats utiles.

Proposition 0.1 Soit M , N et P des matrices, A et B des matrices carrées, et v un


vecteur colonne.
1. (M ′ )′ = M , (M N )′ = N ′ M ′ ,N ’+M ’=(N +M )’ ;
2. A est symétrique⇔ A′ = A ;
3. AA′ et A′ A sont symétriques ;
4. P (M + N ) = P M + P N ;
5. A−1 A = I = AA−1 ;
6. A est symétrique ⇔ A−1 est symétrique ;
7. (AB)−1 = B −1 A−1 ;
8. |A′ | = |A|, |A−1 | = 1/|A| ;

4
Notes de cours, STT-7120, Automne 2019 5

9. tr(A + B) = tr(A) + tr(B), tr(AB) = tr(BA) ;


−1 ′ A−1
10. (A − vv ′ )−1 = A−1 + A vv ′ −1 ;
1−v A v
11. v ̸= 0 est un vecteur propre de A s’il existe un scalaire λ tel que Av = λv. On dit
que λ est une valeur propre de A et v est le vecteur propre correspondant à λ ;
12. Pour trouver les valeurs propres de A, on résout l’équation caractéristique |A − λI| =
0;
13. Si A est symétrique, toutes ses valeurs propres sont réelles ;
14. Soit A une matrice n×n symétrique. Soit λ1 , . . . , λn ses n valeurs propres et v 1 , . . . , v n
les n vecteurs propres correspondants. Soit V la matrice dont la ième colonne est v i .
Alors V ′ AV = diag(λ1 , . . . , λn ), V ′ V = V V ′ = I (V est orthogonale) ;
15. Une matrice A est définie positive si pour tout vecteur v ̸= 0, v ′ Av > 0, et A est
définie non-négative (semi-définie positive) si pour tout vecteur v ̸= 0, v ′ Av ≥ 0.

0.2 Notions de probabilité


0.2.1 Variables aléatoires et distributions
Définition 0.1 Une variable aléatoire est une fonction d’un espace échantillonnal vers les
nombres réels. En d’autres termes, une variable aléatoire assigne un nombre réel au résultat
d’une expérience aléatoire.

Exemple 0.1 Soit l’expérience consistant à lancer deux pièces de monnaie. Soit Y la va-
riable prenant la valeur 1 si les deux pièces montrent la même face, 3 sinon. Soit X la
variable prenant la valeur 1/3 si on observe au moins une fois “pile", 8/3 sinon. Alors Y et
X sont des exemples de variables aléatoires.
Résultat Y X
FF 1 8/3
FP 3 1/3
PF 3 1/3
PP 1 1/3
Notes de cours, STT-7120, Automne 2019 6

Plus d’une variable peuvent être définies pour une expérience donnée, et des variables
aléatoires peuvent être définies comme fonctions d’autres variables aléatoires, comme par
exemple Z = X + Y . Ainsi, en retournant à l’exemple 0.1, on obtient

Résultat (X, Y , Z)
FF (8/3,1,11/3)
FP (1/3,3,10/3)
PF (1/3,3,10/3)
PP (1/3,1,4/3)

Définition 0.2 Une variable aléatoire est discrète si l’ensemble des valeurs qu’elle peut
prendre est dénombrable. Une variable aléatoire est continue si l’ensemble des valeurs qu’elle
peut prendre est un intervalle, ou une union d’intervalles.

En général, une probabilité peut être assignée à chacun des événements d’une expérience.
Dans ce cas, une probabilité peut également être assignée aux valeurs qu’une variable aléa-
toire peut prendre. Ces probabilités déterminent la distribution de la variable aléatoire. Cette
distribution est en général spécifiée par l’une des fonctions suivantes.

Définition 0.3 Fonction de répartition : La fonction de répartition d’une variable


aléatoire X est la fonction FX (x) = P [X ≤ x].
Fonction de probabilité : La fonction de probabilité d’une variable aléatoire discrète
X est la fonction fX (x) = P [X = x].
Fonction de densité : La fonction de densité d’une variable aléatoire continue X est
∫b
la fonction fX (x) telle que P [a ≤ X ≤ b] = a fX (x) dx pour toutes constantes a < b.

Les propriétés des fonctions de la définition 0.3 sont listées dans tous les livres traitant de
probabilité.
Les fonctions de la définition 0.3 peuvent facilement être généralisées pour spécifier la
distribution de variables aléatoires conjointes. Dans ce cas, de nouvelles fonctions utiles
peuvent également être définies. La définition qui suit donne la généralisation pour la fonction
de répartition ; les autres fonctions peuvent être généralisées de fa¸con analogue.
Notes de cours, STT-7120, Automne 2019 7

Définition 0.4 La fonction de répartition conjointe de n variables aléatoires X1 , . . . , Xn


est la fonction F (x1 , . . . , xn ) = P [X1 ≤ x1 , . . . , Xn ≤ xn ].

Dans le cas de variables conjointes, le fait d’avoir de l’information à propos de la valeur


de certaines des variables peut avoir un impact sur la probabilité des valeurs des autres
variables. Il est donc utile de définir des fonctions spécifiant la distribution conditionnelle de
variables.

Définition 0.5 La fonction de répartition conditionnelle de variables aléatoires X1 , . . . , Xk


étant donné l’événement Xk+1 ∈ Ak+1 , . . . , Xn ∈ An est la fonction

P [X1 ≤ x1 , . . . , Xk ≤ xk , Xk+1 ∈ Ak+1 , . . . , Xn ∈ An ]


F (x1 , . . . , xk |Xk+1 ∈ Ak+1 , . . . , Xn ∈ An ) = .
P [Xk+1 ∈ Ak+1 , . . . , Xn ∈ An ]

Il arrive que les valeurs des variables aléatoires ne s’influencent pas mutuellement, c.-à-d.
que les variables aléatoires soient indépendantes.

Définition 0.6 Des variables aléatoires X1 , . . . , Xn sont indépendantes si, et seulement si,

F (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn )

pour toutes valeurs possibles de x1 , . . . , xn .

Proposition 0.2 Voici quelques résultats utiles :


∫ ∫∫
— fX (x) = f (x, y) dy ; fU,W (a, b) = fU,V,W,X (a, v, b, x) dv dx.
— FX (x) = FX,Y (x, ∞).

— fX|Y (x|y) = f (x, y)/fY (y) = f (x, y)/ f (x, y) dx.
— Si X et Y sont indépendantes, alors f (x, y) = fX (x)fY (y).

0.2.2 Moments

Définition 0.7 L’espérance d’une variable aléatoire continue X est E[X] = xf (x) dx.

Définition 0.8 La variance d’une variable aléatoire X est V ar[X] = E[(X − E[X])2 ].
Notes de cours, STT-7120, Automne 2019 8

Définition 0.9 La covariance entre deux variables aléatoires X et Y est Cov(X, Y ) =


E[(X − E[X])(Y − E[Y ])].

Définition 0.10 La fonction génératrice des moments d’une variable aléatoire X est MX (t)
= E[etX ].

Définition 0.11 Soit X = (X1 , . . . , Xn )′ . Alors on utilise la notation suivante :


 
E[X1 ]
 
 
 E[X2 ] 
E[X] =  
 .. 
 . 
 
E[Xn ]
 
V ar[X1 ] Cov(X1 , X2 ) · · · Cov(X1 , Xn )
 
 
 Cov(X1 , X2 ) V ar[X2 ] · · · Cov(X2 , Xn ) 
V ar[X] =  
 .. .. ... .. 
 . . . 
 
Cov(X1 , Xn ) Cov(X2 , Xn ) · · · V ar[Xn ]

Définition 0.12 La fonction génératrice des moments conjoints de variables aléatoires


X1 , . . . , Xn est M (t1 , . . . , tn ) = E[exp{t1 X1 + · · · + tn Xn }].

Les moments peuvent aussi être définis de façon conditionnelle. Ainsi pour un événement

A, E[X|A] = xf (x|A) dx.

Proposition 0.3 Plusieurs résultats importants découlent des définitions 0.7-0.12 :



1. E[g(X)] = g(x)f (x) dx ;
2. V ar[X] = E[X 2 ] − (E[X])2 ;
3. Cov(X,Y)=E[XY]-E[X]E[Y] ;
4. Si X et Y sont indépendantes, alors E[XY ] = E[X]E[Y ], et donc Cov(X, Y ) = 0 ;
dk
5. E[X k ] = dtk
MX (t)|t=0 pour tout entier k ≥ 1 ;
6. V ar[aX + bY ] = a2 V ar[X] + b2 V ar[Y ] + 2ab Cov(X, Y ) pour toutes constantes a, b ;
Notes de cours, STT-7120, Automne 2019 9

7. Soit S = a1 X1 + · · · + an Xn où a1 , . . . , an sont des constantes. Alors MS (t) =


M (a1 t, . . . , an t) ;
8. E[g(X)] = EY [E[g(X)|Y ]] ;
9. V ar[g(X)] = EY [V ar[g(X)|Y ]] + V arY [E[g(X)|Y ]].
10. Soit Σ = V ar[X]. Alors Σ est une matrice symétrique et définie non-négative.
11. Soient µ = E[X], Σ = V ar[X] et M , une matrice de constantes. Alors E[M X] =
M µ, V ar[M X] = M ΣM ′ .

0.2.3 Quelques lois importantes


La loi normale (X ∼ N (µ, σ 2 ))

C’est la loi la plus importante en régression. Sa fonction de densité est donnée par
{ }
1 1
fX (x) = √ exp − 2 (x − µ)2 , −∞ < x < ∞,
2πσ 2 2σ
où les paramètres −∞ < µ < ∞ et σ 2 > 0 sont la moyenne et la variance de la distribution.
Si X ∼ N (µ, σ 2 ), alors MX (t) = exp{µt + σ 2 t2 /2}.

La loi du khi-carré (X ∼ χ2k )

La densité de la loi du khi-carré (ou du khi-deux) avec k degrés de liberté est donnée par
1
fX (x) = k/2
xk/2−1 e−x/2 , x > 0,
Γ(k/2)2
où k > 0. Si X ∼ χ2k , alors E[X] = k, V ar[X] = 2k et MX (t) = (1 − 2t)−k/2 .
La loi du khi-carré peut être obtenue ainsi. Soit Z1 , . . . , Zk des variables aléatoires indé-
∑k
pendantes et toutes de distribution N (0, 1). Alors si X = i=1 Zi2 , X ∼ χ2k .

La loi t de Student (X ∼ tk )

La densité de la loi t avec k degrés de liberté est donnée par


( ) ( )−(k+1)/2
k+1
Γ t2
2
fX (x) = ( ) 1+ , −∞ < x < ∞,
(kπ)1/2 Γ k k
2
Notes de cours, STT-7120, Automne 2019 10

où k > 0.
La distribution t peut être obtenue ainsi. Soit Z et V deux variables aléatoires indépen-

dantes, avec Z ∼ N (0, 1) et V ∼ χ2k . Alors si X = Z/ V /k, X ∼ tk .

La loi F (X ∼ Fm,n )

La densité de la loi F avec m et n degrés de liberté est donnée par


( ) ( )
m+n
Γ 2
Γ mn xm/2−1
fX (x) = ( ) ( ) , x > 0,
m n
Γ 2 Γ 2 (1 + mx/n)(m+n)/2

où m, n > 0.
La distribution F peut être obtenue ainsi. Soit Y et Z des variables aléatoires indépen-
dantes, avec Y ∼ χ2m et Z ∼ χ2n . Alors si X = (Y /m)/(Z/n), X ∼ Fm,n .

La loi normale multivariée de dimension n (X ∼ Nn (µ, Σ))

La densité de la loi normale multivariée de dimension n est donnée par


{ }
1 1
fX (x) = √ exp − (x − µ)′ Σ−1 (x − µ) ,
(2π) ||Σ||
n 2

où ||Σ|| dénote la valeur absolue du déterminant de Σ. On a que E[X] = µ, V ar[X] = Σ


{ ′
}
et E[ev X ] = MX (v) = exp µ′ v + v Σv

2
.

0.3 Notions d’inférence statistique


0.3.1 Estimation ponctuelle
Lorsque la valeur d’un ou plusieurs paramètres d’une distribution n’est pas connue, on
cherche à l’estimer à partir de données observées. Soit θ, le paramètre inconnu à estimer à
partir d’un échantillon X1 , . . . , Xn . Soit θ̂ = θ̂(X1 , . . . , Xn ), un estimateur de θ. Les propriétés
que l’on recherche chez θ en général sont
Notes de cours, STT-7120, Automne 2019 11

Sans biais : E[θ̂] = θ, c.-à-d. qu’en moyenne, l’estimateur prend la bonne valeur, il n’a
pas tendance à sur- ou sous-estimer θ ;
Efficace : V ar[θ̂] est “minimale", c.-à-d. que la valeur de l’estimateur ne fluctue pas
trop ;
Convergent : limn→∞ P [|θ̂ − θ| ≤ ε] = 1, ∀ε ≥ 0, c.-à-d. que lorsque l’échantillon est
de très grande taille, l’estimateur prend une valeur près de θ avec une probabilité
approchant 1.
Une “recette" permettant de trouver des estimateurs ayant au moins les deux dernières
propriétés est la méthode du maximum de vraisemblance. Avec cette méthode, l’estimateur
de θ est la valeur de θ maximisant f (X1 , . . . , Xn ), la probabilité/densité conjointe de l’é-
chantillon observé.

Définition 0.13 L’erreur quadratique moyenne d’un estimateur θ̂ de θ est EQM [θ̂] =
E[(θ̂ − θ)2 ].

Proposition 0.4
EQM [θ̂] = V ar[θ̂] + (biais[θ̂])2 ,

où biais[θ̂] = E[θ̂] − θ.

En général, on cherche un estimateur qui minimise l’erreur quadratique moyenne. Malheu-


reusement, il n’existe pas en général un estimateur pouvant minimiser cette erreur uniformé-
ment en θ. Il vaut la peine de noter, par la proposition 0.4, que l’erreur quadratique moyenne
pénalise le biais et la variabilité dans un estimateur.

Propriétés distributionnelles de certains estimateurs fréquemment rencontrés

Proposition 0.5 Soit X1 , . . . , Xn , des variables aléatoires indépendantes et identiquement


∑n ∑n
distribuées (iid) de moyenne µ et de variance σ 2 . Soit X̄n = i=1 Xi /n et Sn2 = i=1 (Xi −
X̄n )2 /(n − 1). Alors
1. E[X̄n ] = µ, V ar[X̄n ] = σ 2 /n ;
2. E[Sn2 ] = σ 2 , V ar[Sn2 ] = 2σ 4 /(n − 1) ;
Notes de cours, STT-7120, Automne 2019 12

3. Si X1 , . . . , Xn proviennent d’une distribution normale, alors X̄n et Sn2 sont indépen-



dantes. De plus, X̄n ∼ N (µ, σ 2 /n), (n − 1)Sn2 /σ 2 ∼ χ2n−1 , (X̄n − µ)/ Sn2 /n ∼ tn−1 .

0.3.2 Estimation par intervalle de confiance


Définition 0.14 On dit qu’un intervalle (θ̂1 (X1 , . . . , Xn ), θ̂2 (X1 , . . . , Xn )) est un intervalle
de confiance à 100(1 − α)% si

P [θ̂1 (X1 , . . . , Xn ) ≤ θ ≤ θ̂2 (X1 , . . . , Xn )] = 1 − α.

En d’autres termes, un intervalle de confiance à 100(1 − α)% est un intervalle construit à


partir d’un échantillon observé et qui couvre la vraie valeur du paramètre θ avec probabilité
100(1 − α)%.

0.3.3 Tests d’hypothèses


Un test d’hypothèse sert à vérifier de fa¸con “formelle" si les données démontrent de l’évi-
dence contre une certaine hypothèse sur le(s) paramètre(s) du modèle, dite hypothèse nulle
(H0 ), par rapport à une contre-hypothèse (H1 ). L’approche utilisée généralement consiste
à (i) observer la valeur d’une statistique, (ii) calculer une probabilité qui nous dit combien
la valeur de la statistique en question est probable sous l’hypothèse nulle et (iii) rejeter
l’hypothèse nulle en faveur de la contre-hypothèse si la probabilité est petite ou dire que
nous n’avons pas d’évidence contre l’hypothèse nulle si la probabilité est grande. Le tableau
qui suit donne une “règle du pouce" afin de déterminer si la probabilité en question (seuil
observé, p-value) est petite ou grande :

seuil (p) décision


p ≥ 0.10 pas d’évidence contre H0
0.05 ≤ p < 0.10 évidence faible contre H0
0.01 ≤ p < 0.05 évidence contre H0
p < 0.01 évidence forte contre H0
Première partie

Modèles et méthodes pour données


indépendantes

13
Chapitre 1

Le modèle de régression linéaire

1.1 Introduction : Qu’est-ce que la régression ?


Un des buts de plusieurs expériences scientifiques, collectes de données, périodes d’ob-
servations, études de marché, etc. est l’analyse de l’effet que certains facteurs/variables ont
les uns sur les autres.
— Quel est l’effet d’une certaine diète sur l’efficacité d’un médicament ?
— Quel type de campagne publicitaire fait plus dépenser les consommateurs ?
— Quel est l’effet du nombre d’heures d’étude, de sport et de sommeil sur les résultats
scolaires des étudiants ?
Il arrive à l’occasion qu’une théorie (parfois simple, parfois complexe) déjà établie puisse
expliquer la relation entre plusieurs variables de fa¸con fonctionnelle. Par exemple, en physique
des lois décrivent les relations fonctionnelles entre plusieurs facteurs (U = RI, F = ma,
E = mc2 , etc.) Cependant, dans plusieurs situations, certains paramètres de la relation
fonctionnelle sont manquants, ou l’existence et/ou la forme même de la relation entre les
variables est inconnue. Le but d’une analyse de régression est d’étudier les relations existant
entre certaines variables mesurables à l’aide d’observations (données).
Nous ferons en général face à la situation suivante. Nous avons n observations d’une
variable réponse (variable endogène, variable dépendante) et de p′ variables explicatives (va-
riables exogènes, prédicteurs, facteurs, covariables, variables indépendantes, features) sous

14
15

la forme (Y1 , x11 , . . . , x1p′ ), . . . , (Yn , xn1 , . . . , xnp′ )= (Y1 , x′1 ), . . . , (Yn , x′n ). Notre but sera de
construire un modèle de la forme

Yi = f (xi1 , . . . , xip′ ; β) + fluctuation aléatoire, i = 1, . . . , n. (1.1)

Parfois la forme de la relation f est connue, mais la valeur des paramètres β ne l’est pas.
Parfois la forme même que doit prendre f est inconnue.
Dans certains contextes, il est raisonnable de penser qu’il existe une fonction f ∗ telle que
(1.1) pourrait s’écrire
Yi = f ∗ (xi1 , . . . , xip′ ; β ∗ ), i = 1, . . . , n, (1.2)
c.-à-d. que la valeur de la variable endogène est entièrement expliquée par la valeur des va-
riables exogènes. Cependant, en général, la fonction f ∗ en (1.2) est beaucoup trop complexe.
Souvent, une telle fonction f ∗ n’existe pas, puisque deux unités expérimentales ayant les
mêmes valeurs pour x1 , . . . , xp′ ont des valeurs différentes pour Y (par exemple si x1 est
l’âge, x2 le sexe, x3 la grandeur et Y le poids). Le but d’une analyse de régression est de
trouver une fonction f qui, bien qu’étant simple, explique une “importante partie” de la
valeur de Y et la fluctuation aléatoire explique une “petite partie” de la valeur de Y .
Le niveau de précision et de complexité que l’on veut atteindre avec f dépend de plu-
sieurs éléments, comme le jeu de données dont nous disposons, la disponibilité de modèles
expliquant déjà une partie de la relation entre les variables ou le but précis de l’analyse de
régression. Ces buts plus précis incluent
La prévision : Étant donné l’âge, le statut fumeur/non-fumeur, le poids, etc., combien
de temps un patient restera-t-il hospitalisé ?
La sélection de variables : Parmi la température, l’ensoleillement, la pluie re¸cue, l’al-
titude, le bruit ambiant, etc., quels facteurs ont une influence significative sur la crois-
sance de l’épinette noire ?
La spécification de modèle : Comment la durée de vie de transformateurs électriques
varie-t-elle en fonction de leur grosseur et de leur voltage ?
L’estimation de paramètres : La luminosité en fonction de la distance d’une certaine
galaxie est de la forme L = K1 +K2 d+σε, où K1 , K2 et σ sont des paramètres inconnus
devant être estimés à partir d’observations.
16

1.1.1 Types de modèles de régression


Plusieurs types de modèles de la forme (1.1) ont été étudiés dans la littérature statistique.
La classe de modèles que nous étudierons en premier est la classe des modèles linéaires.

Définition 1.1 Un modèle de régression linéaire est un modèle de la forme

g(Yi ) = f (xi1 , . . . , xip′ ; β) + fluctuation aléatoire, i = 1, . . . , n,

où f est une fonction connue et linéaire en β et où g est une fonction connue.

Les modèles suivants sont des exemples de modèles linéaires :

Y i = β ′ x i + εi , i = 1, . . . , n;
ln Yi = β0 + β1 xi + β2 x2i + εi , i = 1, . . . , n;

Yi = β0 + β1 xi1 + β2 xi2 + β12 xi1 xi2 + β3 exi1 + εi , i = 1, . . . , n.

Le modèle où Yi = β0 exp{−β1 xβi 2 } + εi est un exemple de modèle non linéaire. Bien que
les méthodes vues dans ces notes de cours peuvent facilement s’étendre aux modèles non
linéaires, ces derniers ne sont pas couverts dans cet ouvrage.
Une autre classe de modèles utiles est celle où la valeur même de Y (ou une transformation
de Y ) n’est pas nécessairement linéaire, mais un des paramètres de la distribution de Y est
une fonction linéaire des paramètres de régression β.

Définition 1.2 Un modèle linéaire généralisé est un modèle de régression où la variable en-
dogène Y suit une distribution de la famille exponentielle dont un des paramètres canoniques
est une fonction linéaire de β.

Par exemple, on peut supposer que Yi ∼ binomiale(1, θi ), où ηi = ln{θi /(1 − θi )} = β ′ xi .


Nous étudierons ces modèles en détails plus tard. Ils sont particulièrement utiles lorsque la
variable Y n’est pas une variable continue (binaire, catégorielle, fréquence/dénombrement).
Parfois on ne veut pas faire d’hypothèse trop précise sur la forme de la fonction f dans
l’équation (1.1). On peut alors la laisser complètement indéfinie (régression non paramé-
trique, apprentissage machine) ou bien utiliser une classe de modèles plus flexibles.
17

Définition 1.3 Un modèle additif est un modèle de la forme

θ(Yi ) = β0 + f1 (xi1 ) + · · · + fp′ (xip′ ) + εi , i = 1, . . . , n,

où f1 , . . . , fp′ sont des fonctions arbitraires estimées à partir des données et où θ peut être
soit connue, soit estimée à partir des données.

Un modèle additif est un bon outil prédictif ou exploratoire qui peut nous aider à trouver
une forme appropriée pour la fonction f . De fa¸con analogue aux modèles linéaires, on peut
aussi définir les modèles additifs généralisés (voir Hastie et Tibshirani, 1990, ou l’aide de
SAS sur la procédure GAM ou l’aide de la fonction gam() du package gam de R).

1.2 Régression linéaire simple


Supposons que nous observons n paires (Y1 , x1 ), . . . , (Yn , xn ) et que nous postulons le
modèle
Yi = β0 + β1 xi + εi , i = 1, . . . , n, (1.3)

où Y1 , . . . , Yn sont n observations de la variable réponse, x1 , . . . , xn sont n observations de


la variable explicative, ε1 , . . . , εn sont n termes d’erreur (fluctuation aléatoire), β0 est un
paramètre d’ordonnée à l’origine et β1 est le paramètre de pente. Le modèle de régression
linéaire simple est illustré à la figure 1.1.
Il est nécessaire de faires des hypothèses sur les termes d’erreur εi ; ces hypothèses servent
à modéliser la façon dont les points (Yi , xi ) ne s’alignent pas tous parfaitement sur une ligne
droite. Ces hypothèses sont essentielles pour quantifier l’incertitude dans les inférences ou si
l’on veut simuler des échantillons semblables au jeu de données observé. Les trois hypothèses
qui suivent sont les plus importantes.
(i) Linéarité : E[Yi ; xi ] = β0 + β1 xi ⇔ E[εi ] = 0, i = 1, . . . , n ;
(ii) Homoscédasticité : V ar[εi ] = σ 2 , i = 1, . . . , n ;
(iii) Non corrélation : ε1 , . . . , εn sont non correlés, Cov(εi , εj ) = 0, i ̸= j.
L’interprétation des paramètres β0 et β1 est très importante en pratique.
18

β
1
Y2
ε2

ε1
Y1

β0

x1 x2

Figure 1.1 – Illustration du modèle de régression linéaire simple. La droite représente l’espérance
de la variable Y , en fonction de la valeur de la variable x, le paramètre β0 représente l’ordonnée à
l’origine de la droite et le paramètre β1 la pente de la droite.

β0 : C’est la valeur moyenne de la variable endogène Y lorsque la variable exogène x


prend la valeur 0. (E[Y ; x = 0] = β0 + β1 × 0 + E[ε] = β0 .)
β1 : C’est l’augmentation de la valeur moyenne de la valeur endogène Y lorsque la valeur
de la variable exogène x augmente d’une unité. (E[Y ; x = x∗ + 1] − E[Y ; x = x∗ ] =
β0 + β1 (x∗ + 1) + E[ε] − (β0 + β1 x∗ ) + E[ε] = β1 .)

Exemple 1.1 La relation entre le poids en kg, Y , et la grandeur en m, x, des hommes


dans la vingtaine est raisonnablement approximée par le modèle de régression linéaire simple
Y = −5 + 50x + ε. Quel est l’effet d’une hausse de taille de 1cm sur le poids moyen ? Quel
est le poids moyen des individus mesurant 0 cm ?
Réponse : Si la grandeur augmente de 1cm (hausse de 0.01m), alors le poids moyen
augmente de 0.01 m × 50 kg/m = 0.5 kg. Le poids moyen des individus de 0 cm est de ...
-5 kg !

Comme le montre l’exemple 1.1, la valeur de β0 a parfois peu de sens lorsque x = 0 n’est
pas une valeur près de l’ensemble des valeurs de x généralement observées en pratique. La
19

version qui suit du modèle de régression linéaire simple, tout-à-fait équivalente à la version
donnée en (1.3), est parfois préférée :

Yi = β0∗ + β1 (xi − x̄n ) + εi , i = 1, . . . , n, (1.4)


∑n
où x̄n = i=1 xi /n et β0∗ = β0 + β1 x̄n . L’interprétation de β1 reste inchangée. Le paramètre
β0∗ représente la valeur moyenne de la variable endogène Y lorsque la variable exogène x
prend la valeur moyenne dans la population échantillonnée, x̄n (E[Y ; x = x̄n ] = β0∗ + β1 (x̄n −
x̄n ) + E[ε] = β0∗ ).

Exemple 1.1 (suite) Ré-écrivez le modèle donnant la relation entre le poids et la grandeur
sous la forme (1.4) en sachant que la grandeur moyenne des n individus sous étude est
x̄n = 1.80 m.
Réponse : On a que β0∗ = −5 + 50 × 1.80 = 85. Le modèle peut donc se ré-écrire sous
la forme Yi = 85 + 50(xi − 1.80) + εi . La valeur 85 pour β0∗ représente le poids moyen pour
un individu de grandeur moyenne 1.80 m.

Remarque 1.1 Il est important de remarquer que le choix des unités pour Y et x n’est
absolument pas important ; la valeur des paramètres β0 et β1 s’ajuste en conséquence. Il ne
faut donc jamais juger de l’importance d’un paramètre de régression en ne regardant que sa
valeur. Ainsi, dans l’exemple 1.1, si le poids avait été mesuré en livres (1 kg=2.2 lb) et la
grandeur en cm (1 m=100 cm), le modèle de régression devient Yi = −11 + 1.1xi + εi . Même
si -11 est plus grand en valeur absolue que -5 ou que 50 soit plus grand en valeur absolue
que 1.1, la relation entre le poids et la grandeur demeure exactement la même.

1.3 Régression linéaire multiple


Dans la plupart des situations en pratique, la valeur de plusieurs variables exogènes sera
mesurée pour chaque observation. Il faut donc généraliser le modèle de régression linéaire
simple afin de pouvoir modéliser l’effet de plusieurs variables exogènes à la fois sur la valeur
de la variable endogène. C’est ce qu’accomplit le modèle de régression linéaire multiple.
20

La régression linéaire multiple est beaucoup plus simple mathématiquement en utilisant


une notation matricielle. Soit les vecteurs (colonnes) et matrice suivants :

Y = (Y1 , . . . , Yn )′ ε = (ε1 , . . . , εn )′
1 = (1, 1, . . . , 1)′ β = (β0 , β1 , . . . , βp′ )′
   
1 x1,1 · · · x1,p′ x′1
   
   
 1 x2,1 · · · x2,p′   x′2 
X =   = (1, x1 , . . . , xp′ ) =  .
 .. .. ..   .. 
 . . .   . 
   
1 xn,1 · · · xn,p′ x′n

Notez que tout dépendant du contexte, xi pourra être utilisé pour représenter la ième rangée
de la matrice de schéma X (données sur la ième observation, xi = (1, xi,1 , . . . , xi,p′ )′ ) ou la
ième colonne de X (données sur la ième variable exogène, xi = (x1,i , . . . , xn,i )′ ).
Le modèle de régression multiple est donné par l’équation suivante :

Yi = β0 + β1 xi,1 + · · · + βp′ xi,p′ + εi , i = 1, . . . , n. (1.5)

Grâce à la notation matricielle, (1.5) peut se ré-écrire de fa¸con beaucoup plus concise :

Y = Xβ + ε. (1.6)

En général, la représentation donnée par (1.5) sera plus utile quand viendra le temps d’in-
terpréter les paramètres du modèle, tandis que la représentation (1.6) sera plus utile pour
effectuer des calculs théoriques (estimateurs des paramètres et leur propriétés, tests d’hypo-
thèses) ou pratiques (tests d’hypothèses, analyse de variance, prévisions).
Les hypothèses du modèle sont les mêmes que pour le modèle de régression linéaire simple.
Nous les redonnons ici, sous forme matricielle.
(i) Linéarité : E[Y ; X] = Xβ ⇔ E[ε] = 0 ;
(ii) Homoscédasticité et (iii) non corrélation : V ar[ε] = σ 2 I, où I est la matrice
identité de dimension n × n.
Il est en général plus complexe d’interpréter la valeur des différents paramètres en ré-
gression linéaire multiple. Ce que l’on peut dire c’est que βj représente l’augmentation de la
21

β
1

β
0

( xi1 xi2 Yi )

ε
i x1

x2

Figure 1.2 – Tout comme le modèle de régression linéaire simple disperse la valeur de Y autour
d’une droite, le modèle de régression linéaire multiple disperse la valeur de Y autour d’un hyperplan.
Chaque coefficient β1 , β2 , . . . représente la pente de l’hyperplan dans la direction de la variable
exogène correspondante.

moyenne de Y lorsque la jème variable exogène xj est augmentée d’une unité et que toutes
les autres variables exogènes demeurent inchangées. Plutôt que d’être vus comme la
pente d’une droite, les β en régression linéaire multiple peuvent être vus comme la pente
d’un hyperplan dans la direction de la variable exogène correspondante (voir figure 1.2).
22

1.4 Estimation des paramètres du modèle


1.4.1 La méthode des moindres carrés
En général, les paramètres β0 , . . . , βp′ et σ 2 sont inconnus et doivent être estimés à partir
des données. L’idée derrière la méthode des moindres carrés est de trouver la droite (ou le
plan, ou l’hyperplan) qui passe “le plus près possible” de tous les points. On utilise ensuite
l’ordonnée à l’origine de cette droite comme estimateur de β0 et les pentes comme estima-
teurs de β1 , . . . , βp′ . En utilisant l’hyperplan passant le plus près possible (verticalement)
des points, on maximise la partie de la valeur de Y expliquée par le modèle de régression
(l’hyperplab) et on minimise la partie de la valeur de Y qui reste inexpliquée par le modèle
(partie résiduelle).
Comme son nom l’indique, la méthode des moindres carrés trouve l’hyperplan pour lequel
le carré de la distance entre les points et l’hyperplan est minimale. On doit donc résoudre

n
min SSRes (β̂) = min {Yi − (β̂0 + β̂1 xi,1 + · · · + β̂p′ xi,p′ )}2 = min(Y − X β̂)′ (Y − X β̂)
βˆ βˆ i=1 βˆ
= min(Y − Ŷ )′ (Y − Ŷ ) = min e′ e, (1.7)
βˆ βˆ

où Ŷ est le vecteur des valeurs ajustées et e est le vecteur des résidus.


La somme des carrés des résidus SSRes (β) est une fonction continue, lisse et convexe et
est facile à minimiser, en autant que la matrice X soit de plein rang, et donc qu’il existe un
unique inverse à la matrice X ′ X ; nous ferons cette supposition pour le reste du cours. Dans
ces conditions, il suffit de résoudre le système d’équations
 

SSRes (β̂)
 ∂ β̂0 
∂  .. 
SSRes (β̂) =  .  = 0. (1.8)
 
∂ β̂  ∂

∂ β̂p′
SSRes (β̂)
23

Ce système n’est pas si difficile à résoudre ...


∂ ∂ { }
SSRes (β̂) = (Y − X β̂)′ (Y − X β̂)
∂ β̂ ∂ β̂
∂ { ′ ′ ′ }
= Y Y − 2β̂ X ′ Y + β̂ X ′ X β̂
∂ β̂
= 0 − 2X ′ Y + 2X ′ X β̂ = 0
⇒ 2X ′ X β̂ = 2X ′ Y ⇒

β̂ = (X ′ X)−1 X ′ Y . (1.9)
La formule (1.9) est probablement la plus importante en régression linéaire.

Approche géométrique

Si on denote par SP AN (X) l’espace généré par les vecteurs constituant les p = p′ + 1
colonnes de la matrice 1 X, on peut utiliser une approche “géométrique” pour résoudre le
problème (1.7). En effet, la somme des carrés résiduelle SSRes (β̂) = e′ e peut être vue comme
le carré de la longueur du vecteur e. Minimiser SSRes équivaut donc à minimiser la longueur
de e. Comme le montre la figure 1.3, la méthode des moindres carrés cherche donc, dans
l’espace généré par les colonnes de la matrice de schéma (le plan SP AN (X) dans la figure),
le vecteur X β̂ le plus près du vecteur Y , car la distance entre X β̂ et Y est la longueur du

vecteur e, e′ e. Ce vecteur, X β̂, est donc la projection orthogonale de Y sur SP AN (X).
Pour trouver la projection orthogonale de Y sur SP AN (X), on doit résoudre

(X β̂)′ e = (X β̂)′ (Y − X β̂) = 0. (1.10)



Puisque (X β̂)′ (Y − X β̂) = β̂ (X ′ Y − X ′ X β̂), l’équation (1.10) ne peut être résolue que
si β̂ = 0 ou X ′ Y − X ′ X β̂ = 0. En éliminant le première option, on doit résoudre

X ′ X β̂ = X ′ Y ⇒ β̂ = (X ′ X)−1 X ′ Y ,

le même résultat qu’en (1.9).


1. Autrement dit, c’est l’ensemble de tous les vecteurs Ŷ que l’on peut obtenir en faisant varier la valeur
de β̂ dans X β̂.
24

XB

SPAN(X)

Figure 1.3 – La méthode des moindres carrés cherche, dans l’espace de dimension p = p′ + 1
généré par les colonnes de la matrice de schéma (le plan SP AN (X)), le vecteur X β̂ le plus près
du vecteur Y de dimension n.
25

Estimation de σ 2 , la variance des termes d’erreur

Il est utile ici de définir la “matrice chapeau”.

Définition 1.4 La matrice H = X(X ′ X)−1 X ′ est appelée matrice chapeau.

Proposition 1.1 La matrice chapeau est symétrique (H ′ = H), idempotente (HH = H)


et de trace tr(H) = p = p′ + 1. On l’appelle “matrice chapeau” car Ŷ = HY . On a aussi
que e = (I − H)Y = (I − H)ε.

La matrice chapeau jouera un rôle très important plus tard. Pour l’instant, nous nous en
servons pour construire un estimateur de la variance des termes d’erreur σ 2 = V ar[εi ].

E[e′ e] = E[ε′ (I − H)′ (I − H)ε] = E[ε′ (I − H)ε]



n ∑ ∑
n
= (1 − hii )E[ε2i ] + (−hij )E[εi εj ] = (1 − hii )σ 2
i=1 i̸=j i=1

= σ (n − tr(H)) = σ (n − p) = σ (n − p − 1).
2 2 2

La dernière égalité nous donne que l’estimateur suivant sera un estimateur non biaisé de σ 2 :
∑n
2 SSRes (β̂) e′ e − Ŷi )2
i=1 (Yi
s = = = . (1.11)
n−p n−p n−p

1.4.2 Méthode du maximum de vraisemblance


Les paramètres du modèle de régression peuvent également être estimés par la méthode du
maximum de vraisemblance. Cette méthode trouve la valeur des paramètres qui maximise la
probabilité (ou densité dans le cas continu) conjointe de l’échantillon observé. Pour appliquer
cette méthode dans le cas de la régression, il faut donc supposer une distribution pour les
termes d’erreur ε.

Régression linéaire simple

On ajoute une quatrième hypothèse :


(iv) Normalité : ε1 , . . . , εn sont tous de distribution normale.
26

x1 x2 x3 x

Figure 1.4 – Modèle de régression linéaire simple sous l’hypothèse de normalité. Les courbes en
forme de cloche représentent la densité de la variable endogène pour quelques valeurs données de
la variable exogène.

Sous les hypothèses (i)-(iv), on a que Y1 , . . . , Yn sont des variables aléatoires indépendantes,
avec Yi |xi ∼ N (β0 + β1 xi , σ 2 ). La figure 1.4 illustre la densité de Y en fonction de valeurs
choisies pour x.
La densité conjointe des observations est donc donnée par
{ }

n
1 1 (Yi − β0 − β1 xi )2
2
f (Y1 , . . . , Yn ; x1 , . . . , xn ) = L(β0 , β1 , σ ) = √ exp −
i=1 2πσ 2 2 σ2
{ }
1 ∑ n
= (2πσ 2 )−n/2 exp − 2 (Yi − β0 − β1 xi )2 . (1.12)
2σ i=1

La fonction L(β0 , β1 , σ 2 ) est la fonction de vraisemblance, et les estimateurs du maximum


de vraisemblance sont les valeurs de β0 , β1 et σ 2 qui maximisent cette fonction. Comme la
fonction de log-vraisemblance l(β0 , β1 , σ 2 ) = ln L(β0 , β1 , σ 2 ) est maximale aux mêmes valeurs
des paramètres que L(β0 , β1 , σ 2 ), il est plus simple de trouver les valeurs des paramètres
maximisant
n n 1 ∑n
l(β0 , β1 , σ 2 ) = − ln(2π) − ln σ 2 − 2 (Yi − β0 − β1 xi )2 . (1.13)
2 2 2σ i=1
27

Ces valeurs sont trouvées en résolvant le système d’équations



l(β̂0 , β̂1 , σ̂ 2 ) = 0 (1.14)
∂ β̂0

l(β̂0 , β̂1 , σ̂ 2 ) = 0 (1.15)
∂ β̂1

2
l(β̂0 , β̂1 , σ̂ 2 ) = 0. (1.16)
∂ σ̂
En exercice vous devrez vérifier que les valeurs suivantes satisfont le système (1.14)-(1.16) :
∑n
i=1Yi (xi − x̄n ) Sxy
β̂1 = ∑n = (1.17)
i=1 (xi − x̄n )
2 Sxx
β̂0 = Ȳn − β̂1 x̄n (1.18)
∑n
i=1 (Yi − β̂0 − β̂1 xi ) 2
SSRes (β̂0 , β̂1 )
σ̂ 2 = = . (1.19)
n n
On voit donc que les estimateurs du maximum de vraisemblance des coefficients de régression
β0 et β1 sous l’hypothèse de normalité sont les mêmes que les estimateurs des moindres carrés.
Cependant l’estimateur du maximum de vraisemblance de la variance des termes d’erreur
est différent. L’estimateur du maximum de vraisemblance accepte un biais non nul (on sous-
estime légèrement σ 2 en moyenne) en retour d’une variance moindre.

Régression linéaire multiple

On doit ajouter une quatrième hypothèse :


(iv) Normalité : ε suit une distribution normale multivariée de dimension n.
Sous les hypothèses (i)-(iv), on a que Y ∼ Nn (Xβ, σ 2 I). La densité de Y est donc
{ }
1 1
2
f (Y ; X) = L(β, σ ) = √ exp − (Y − Xβ)′ (σ 2 I)−1 (Y − Xβ)
(2π)n ||σ 2 I|| 2
{ }
2 −n/2 1 (Y − Xβ)′ (Y − Xβ)
= (2πσ ) exp − . (1.20)
2 σ2
Encore une fois, il est plus simple de maximiser la log-vraisemblance
n n 1
l(β, σ 2 ) = − ln(2π) − ln σ 2 − 2 (Y − Xβ)′ (Y − Xβ). (1.21)
2 2 2σ
28

Il ne reste plus qu’à résoudre les équations



l(β̂, σ̂ 2 ) = 0 (1.22)
∂ β̂

l(β̂, σ̂ 2 ) = 0. (1.23)
∂σ 2
La solution au système (1.22)-(1.23) est donnée par

β̂ = (X ′ X)−1 X ′ Y (1.24)
(Y − X β̂)′ (Y − X β̂) e′ e SSRes (β̂)
σ̂ 2 = = = . (1.25)
n n n
Encore une fois, les estimateurs du maximum de vraisemblance des coefficients de régres-
sion sous l’hypothèse de normalité sont les mêmes que les estimateurs des moindres carrés,
mais l’estimateur du maximum de vraisemblance de la variance des termes d’erreur a un
dénominateur différent (n au lieu de n − p).

1.4.3 Propriétés des estimateurs


Théorème 1.2 Supposons le modèle de régression linéaire Y = Xβ + ε. Alors sous les
hypothèses (i) E[ε] = 0 et (ii)-(iii) V ar[ε] = σ 2 I,
1. β̂ est sans biais ;
2. V ar[β̂] = σ 2 (X ′ X)−1 ;
3. De tous les estimateurs linéaires en Y , v ′ β̂ est l’estimateur sans biais de v ′ β de
variance minimale pour tout vecteur de constantes v ;
4. s2 est sans biais ;
5. V ar[s2 ] = 2σ 4 /(n − p) si on ajoute l’hypothèse (iv) ;
6. Si on ajoute l’hypothèse (iv) ε ∼ Nn , alors β̂ ∼ Np (β, σ 2 (X ′ X)−1 ) .

Preuve :
1. E[β̂] = E[(X ′ X)−1 X ′ Y ] = (X ′ X)−1 X ′ E[Y ] = (X ′ X)−1 X ′ Xβ = β ;
29

2.
[ ]′
V ar[β̂] = V ar[(X ′ X)−1 X ′ Y ] = (X ′ X)−1 X ′ V ar[Y ]X (X ′ X)−1
= (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 = σ 2 (X ′ X)−1 X ′ X(X ′ X)−1 = σ 2 (X ′ X)−1 ;

3. Il s’agit du théorème de Gauss-Markov que nous verrons sous peu ;


4. Exercice ;
5. À prendre pour acquis ;
6. En exercice.

Corollaire 1.2.1 Dans le cas de la régression linéaire simple, le théorème 1.2 nous donne
les résultats suivants :
1. E[β̂0 ] = β0 , E[β̂1 ] = β1 ;
2. V ar[β̂0 ] = σ 2 (1/n + x̄2n /Sxx ), V ar[β̂1 ] = σ 2 /Sxx , Cov(β̂0 , β̂1 ) = −σ 2 x̄n /Sxx ;
3. E[s2 ] = σ 2 ;
4. V ar[s2 ] = 2σ 4 /(n − 2).

Preuve : En exercice. ⊓

Théorème 1.3 (Gauss-Markov) Soit β̂ = (X ′ X)−1 X ′ Y et Y = Xβ + ε. Alors sous les


hypothèses (i)-(iii) du modèle de régression linéaire multiple, l’estimateur v ′ β̂ de la fonction
v ′ β est le meilleur estimateur linéaire non biaisé.

Preuve : Soit c′ Y , un autre estimateur linéaire non biaisé de v ′ β. Puisque c′ Y est


sans biais, v ′ β = E[c′ Y ] = c′ Xβ pour toute valeur de β. Donc on doit avoir v ′ = c′ X.
Maintenant, V ar[c′ Y ] = c′ σ 2 Ic = σ 2 c′ c et

V ar[v ′ β̂] = v ′ V ar[β̂]v = σ 2 v ′ (X ′ X)−1 v


= σ 2 c′ X(X ′ X)−1 X ′ c.
30

On a donc

V ar[c′ Y ] − V ar[v ′ β̂] = σ 2 [c′ c − c′ X(X ′ X)−1 X ′ c]


= σ 2 c′ [I − X(X ′ X)−1 X ′ ]c = σ 2 c′ [I − H]c.

Comme σ 2 [I − H] est la matrice de variance de ε, c’est une matrice semi-définie positive et


donc c′ σ 2 [I − H]c ≥ 0. ⊓

1.5 Intervalles et tests pour la valeur d’un paramètre


Sous les hypothèses (i)-(iv), nous avons une distribution pour les estimateurs des para-
mètres. Nous pouvons donc nous en servir pour construire des intervalles de confiance et
tests pour ces paramètres.

Lemme 1.4 Supposons les hypothèses (i)-(iv) vraies et que βj est la vraie valeur du coeffi-
cient du modèle de régression devant xj . Alors on a que

β̂j − βj
∼ tn−p , (1.26)
se(β̂j )

où √ √
se(β̂j ) = Vd
ar(β̂j ) = s2 (X ′ X)−1
j,j .

Ici la notation (X ′ X)−1 ′


j,j signifie l’élément de la matrice (X X)
−1
qui correspond à la va-
riance de β̂j .

Le lemme 1.4 nous donne donc un outil pour construire un intervalle de confiance pour βj .

Théorème 1.5 L’intervalle



β̂j ± tα/2 ; n−p s2 (X ′ X)−1
j,j (1.27)

est un intervalle de confiance à 100(1 − α)% pour βj .


31

Preuve : On doit démontrer que


[ √ √ ]
P β̂j − tα/2 ; n−p s2 (X ′ X)−1
j,j ≤ βj ≤ β̂j + tα/2 ; n−p s2 (X ′ X)−1
j,j = 1 − α.

Le lemme 1.4 nous dit que


 
β̂j − βj
P −tα/2;n−p ≤ √ ≤ tα/2;n−p  = 1 − α.
s2 (X ′ X)−1

On a donc que
[ √ √ ]
1−α = P − s2 (X ′ X)−1 t α/2;n−p ≤ β̂j − βj ≤ s2 (X ′ X)−1 t α/2;n−p
[ √ √ ]
= P −β̂j − tα/2;n−p s2 (X ′ X)−1 ≤ −βj ≤ −β̂j + tα/2;n−p s2 (X ′ X)−1 ,

et le résultat désiré suit en multipliant à l’intérieur de P [ ] par -1. ⊓



Le lemme 1.4 nous permet aussi de construire un test de l’hypothèse nulle H0 : βj = βj,0
contre l’une des contre-hypothèses suivantes H1 : βj ̸= βj,0 , H1 : βj > βj,0 ou H1 : βj < βj,0 ,
où βj,0 est une valeur choisie (en pratique très souvent βj,0 = 0). La statistique de test utilisée
est
β̂j − βj,0
t= √ . (1.28)
s2 (X ′ X)−1
j,j

Sous H0 , le lemme 1.4 nous dit que t suit une distribution tn−p . Cette distribution est centrée
à 0 et donc les données démontrent de l’évidence en faveur de H1 : βj > βj,0 lorsque t prend
de grandes valeurs, en faveur de H1 : βj < βj,0 lorsque t prend de petites valeurs, et en
faveur de H1 : βj ̸= βj,0 lorsque t prend une valeur soit trop faible, soit trop forte. Le tableau
1.1 résume la procédure formelle de test pour chacun des trois choix de contre-hypothèse.

Exemple 1.2 (Consommation d’essence) Weisberg (1985, pp. 35-36) donne un jeu de
données sur la consommation d’essence des 48 états continentaux des États-Unis. Nous uti-
liserons cet exemple à maintes reprises dans ces notes de cours afin d’illustrer les concepts
à l’étude.
Ce jeu de données est disponible dans la section “Jeu de données” de la page web du cours
sous le nom multregex.dat. Pour chaque état, on a un numéro de 1 à 48, l’abréviation du
32

Table 1.1 – Critère de rejet (région critique) de niveau α pour le test de H0 : βj = βj,0 vs une
de trois contre-hypothèses.

Contre-hypothèse Critère de rejet de niveau α


H1 : βj ̸= βj,0 |t| ≥ tα/2 ; n−p
H1 : βj > βj,0 t > tα ; n−p
H1 : βj < βj,0 t < −tα ; n−p

nom de l’état, la population de l’état, la valeur de la taxe de vente (x1 ), le nombre de milliers
d’individus ayant un permis de conduire, le revenu annuel per capita en milliers de dollars
(x3 ), la longueur totale des routes fédérales en milliers de miles (x4 ), la consommation totale
d’essence en millions de gallons, le pourcentage de la population ayant un permis de conduire
(x2 ), et la consommation d’essence en gallons par individu (Y ).
Si on considère le modèle Yi = β0 +β1 xi1 +· · ·+β4 xi4 +εi , alors on obtient les informations
suivantes :
 
7.83019406 −0.426513250 −0.0611076456 −0.149509 −0.0753492
 
 −0.42651325 0.0022158115 −0.005914 0.0057148 
 0.038263554 
 
(X ′ X)−1 
=  −0.06110765 0.002215811 0.0008410891 −0.001450 0.0004127 

 
 −0.14950904 −0.005913717 −0.0014500434 0.067460 −0.0015445 
 
−0.07534922 0.005714838 0.0004126896 −0.001545 0.0026126
( )′
β̂ = 377.291146 −34.790149 13.364494 −66.588752 −2.425889
s2 = 4396.511.

Par exemple, l’effet d’une hausse du pourcentage de la population avec un permis de


conduire de 1%, tout autre facteur demerant inchangé, a pour effet d’augmenter la consom-
mation d’essence moyenne de 13.36 gallons par individu.
33

Un intervalle de confiance à 95% pour β3 est donné par



(β̂3,L , β̂3,U ) = β̂3 ± t0.025; 48−5 s2 (X ′ X)−1
3,3

= −66.588752 ± 2.02 4396.511 × 0.067459995
= (−101.4, −31.80)

Les données démontrent-elles de l’évidence qu’augmenter la taxe de vente réduit la consom-


mation moyenne d’essence ? Pour ce faire on veut tester H0 : β1 = 0 contre H1 : β1 < 0.
La statistique t pour ce test est

βˆ1 − 0 −34.790149 − 0
t = √ =√
s2 (X ′ X)−1
1,1
4396.511 × 0.038263554
= −2.6823.

Le seuil observé est donc P [t48−5 ≤ t] = P [t43 ≤ −2.6823] = P [t43 ≥ 2.6823] ≈ 0.005. Donc
nous rejetons H0 en faveur de la contre-hypothèse H1 et concluons que oui, les données
montrent de l’évidence qu’une hausse de la taxe de vente diminue la consommation moyenne
d’essence.

1.6 Prévision
Les résultats d’une analyse de régression sont souvent utilisés pour résoudre des problèmes
dits de prévision. Par “prévision”, on entend l’estimation de la variable endogène Y ou de sa
moyenne E[Y ] à une(des) valeur(s) donnée(s) de chacune des variables exogènes x1 , . . . , xp′ .
En général on calcule une prévision ponctuelle ainsi qu’un intervalle de confiance ou de
prévision.

1.6.1 Inférence sur E[Y ; x]


Supposons que nous voulons estimer la valeur moyenne de la variable endogène pour une
combinaison de valeurs x∗ ′ = (1, x∗1 , . . . , x∗p′ ) spécifiées des variables exogènes. On veut donc
estimer E[Y ; x∗ ] = E[x∗ ′ β + ε] = x∗ ′ β. Le théorème de Gauss-Markov suggère d’utiliser
34

x∗ ′ β̂. On a que V ar[x∗ ′ β̂] = x∗ ′ V ar[β̂]x∗ = σ 2 x∗ ′ (X ′ X)−1 x∗ . Un résultat similaire au


lemme 1.4 donne
x∗ ′ β̂ − x∗ ′ β
√ ∼ tn−p . (1.29)
s2 x∗ ′ (X ′ X)−1 x∗

On obtient donc le résultat suivant.

Théorème 1.6 Un intervalle de confiance à 100(1 − α)% pour E[Y ; x∗ ] est donné par

x β̂ ± tα/2 ; n−p s2 x∗ ′ (X ′ X)−1 x∗ .
∗′
(1.30)

Preuve : En exercice, mais virtuellement identique à la preuve du théorème 1.5. ⊓


1.6.2 Inférence sur une valeur de Y étant donné x


Nous cherchons maintenant à prédire la valeur même d’une réalisation de la variable
endogène pour une combinaison de valeurs x∗ fixées des variables exogènes. Au point de vue
de l’estimation ponctuelle, rien ne change. Cependant il y a une grande différence au niveau
de la variance, et donc au niveau de l’intervalle de confiance.
En fait on cherche à estimer Y = x∗ ′ β + ε. Le théorème de Gauss-Markov recommande
d’estimer x∗ ′ β avec x∗ ′ β̂. Comme E[ε] = 0, notre meilleur estimé d’une réalisation de ε est
0. Notre estimateur ponctuel de Y à une valeur x∗ donnée sera donc x∗ ′ β̂ + 0 = x∗ ′ β̂. Afin
de pouvoir utiliser un résultat similaire à (1.26), nous devons calculer

V ar[x∗ ′ β̂ − (x∗ ′ β + ε)] = V ar[x∗ ′ β̂] + V ar[ε]


( )
= σ 2 x∗ ′ (X ′ X)−1 x∗ + σ 2 = σ 2 1 + x∗ ′ (X ′ X)−1 x∗ .

On a donc que
x∗ ′ β̂ − (x∗ ′ β + ε)
√ ∼ tn−p . (1.31)
s2 (1 + x∗ ′ (X ′ X)−1 x∗ )

Ceci nous mène à l’intervalle de confiance qui suit.


35

Théorème 1.7 Un intervalle de confiance à 100(1 − α)% pour Y étant donnée la combi-
naison des variables exogènes x∗ est donné par

x β̂ ± tα/2 ; n−p s2 (1 + x∗ ′ (X ′ X)−1 x∗ ).
∗′
(1.32)

Preuve : En exercice, mais virtuellement identique à la preuve du théorème 1.5. ⊓


Il arrive parfois que l’on dénomme les intervalles du théorème 1.7 intervalles de prévision.

Exemple 1.2 (Consommation d’essence) Retournons au modèle Yi = β0 + β1 xi1 + · · · +


β4 xi4 + εi . Une prévision pour la consommation d’essence par individu en moyenne au cours
des années dans un état où la taxe de vente est 8%, le taux de permis de conduire est de
60%, le revenu moyen est 4 000$ et où l’on compte 5 000 miles de routes fédérales est
( )′
de ( 1 8 60 4 5 ) 377.291146 −34.790149 13.364494 −66.588752 −2.425889 =
622. L’intervalle de confiance à 95% pour cette prévision est donc

622 ± 2.02 4396.511( 1 8 60 4 5 )(X ′ X)−1 ( 1 8 60 4 5 )′

= 622 ± 2.02 4396.511 × 0.0407
= (595, 649).

Si on avait demandé une prévision pour la consommation moyenne par individu dans le même
état pour une année donnée, alors on aurait la même prévision ponctuelle, mais l’intervalle
de confiance √
622 ± 2.02 4396.511(1 + 0.0407) = (485, 759).

1.7 Analyse de la variance et tests d’hypothèses


Plusieurs questions d’ordre pratique en régression concernent la partie de la variabilité
dans la variable endogène qui est expliquée par une(des) variable(s) exogène(s) donnée(s).
Dans ce chapitre nous étudions diverses méthodes basées sur l’analyse de variance et les tests
d’hypothèses afin de répondre à ces questions.
36

1.7.1 L’analyse de la variance


En général, les n valeurs observées, Y1 , . . . , Yn , de la variable endogène ne sont pas toutes
égales, c.-à-d. que nous observons de la variabilité dans la valeur de la variable endogène. Un
des buts d’une analyse de régression est d’expliquer la plus grande partie possible de cette
variabilité à partir des valeurs des variables exogènes. Ainsi, si on pouvait décomposer la
variabilité dans la valeur de la variable endogène comme suit,
     

Variabilité de   Variabilité expliquée par   Variabilité inexpliquée 
= + ,
Y1 , . . . , Y n la variabilité de x1 , . . . , xn (fluctuation aléatoire)
(1.33)
on voudrait un modèle pour lequel une grande portion de la variabilité est expliquée par la
variabilité dans les variables exogènes. Nous pouvons effectivement faire la décomposition
proposée en (1.33) :

n ∑
n
(Yi − Ȳn ) 2
= (Yi − Ŷi + Ŷi − Ȳn )2
i=1 i=1

n ∑
n ∑
n
= (Yi − Ŷi )2 + 2 (Yi − Ŷi )(Ŷi − Ȳn ) + (Ŷi − Ȳn )2
i=1 i=1 i=1

n ∑
n
= (Ŷi − Ȳn )2 + (Yi − Ŷi )2 .
i=1 i=1

On peut refaire les calculs précédents sous forme matricielle et définir les sommes de carrés
suivantes :

n
SST ot = (Yi − Ȳn )2 = Y ′ Y − nȲn2
i=1

n
′ ′
SSReg = (Ŷi − Ȳn )2 = Ŷ Ŷ − nȲn2 = β̂ X ′ X β̂ − nȲn2
i=1

n
SSRes = (Yi − Ŷi )2 = (Y − Ŷ )′ (Y − Ŷ ) = e′ e.
i=1
37

On peut donc ré-écrire (1.33) sous les formes suivantes :



n ∑
n ∑
n
(Yi − Ȳn )2 = (Ŷi − Ȳn )2 + (Yi − Ŷi )2 (1.34)
i=1 i=1 i=1
( ′ )
Y ′ Y − nȲn2 = β̂ X ′ X β̂ − nȲn2 + e′ e (1.35)
SST ot = SSReg + SSRes . (1.36)

Les équations (1.34)-(1.36) montrent de fa¸con formelle comment la variabilité dans la


valeur des Yi peut être décomposée en la somme de la variabilité expliquée par la variabilité
dans les variables exogènes et de la variabilité due à la fluctuation aléatoire.
SST ot : S’il n’y a aucune variabilité dans la valeur des Yi , alors ces valeurs sont toutes
égales à Ȳn et SST ot = 0. Plus il y aura de variabilité dans les Yi , plus leurs valeurs
seront éloignées de la moyenne et, donc, plus SST ot sera grande.
SSReg : Si les valeurs des variables exogènes sont les mêmes pour les n observations, alors
toutes les valeurs ajustées Ŷi prennent la valeur Ȳn (en exercice) et donc SSReg = 0.
SSRes : Comme la moyenne des ei est toujours 0 (exercice), alors s’il n’y a aucune va-
riabilité dans les ei ces derniers prennent tous la valeur 0 et SSRes = 0. Ceci voudrait
dire que le modèle de régression explique entièrement la valeur des Yi et qu’il n’y a
pas de fluctuation aléatoire.
En jetant un coup d’oeil à la figure 1.3, on peut voir que l’équation (1.35) peut également
être obtenue à partir du théorème de Pythagore. En effet, selon la figure, on a que

||Y ||2 = ||X β̂||2 + ||Y − X β̂||2 ,

où || · || représente la norme (longueur) du vecteur. Donc on a que

Y ′Y = (X β̂)′ X β̂ + (Y − X β̂)′ (Y − X β̂)



⇒ Y ′ Y − nȲn2 = β̂ X ′ X β̂ + (Y − X β̂)′ (Y − X β̂) − nȲn2

= β̂ X ′ X β̂ − nȲn2 + e′ e,

ce qui est le résultat désiré.


38

Table 1.2 – Table ANOVA standard. “Source” est la source de la variabilité, “SC” veut dire
somme de carrés, “CM” veut dire carré moyen et “F ” est la statistique du test que la variabilité
due à la source n’est pas significative.

Source d.l. SC CM F
Régression p′ SSReg SSReg /p′ SSReg /(p′ s2 )
Résiduelle n−p SSRes SSRes /(n − p) = s2
Totale (corrigée) n−1 SST ot

Pour chaque somme de carrés, on associe un nombre de degrés de liberté. Les degrés de
liberté constituent en fait le nombre de termes indépendants dont nous devons connaitre la
valeur afin de pouvoir calculer la somme de carrés. Par exemple SST ot a n − 1 degrés de
liberté, puisque seulement n − 1 des termes (Y1 − Ȳn ), . . . , (Yn − Ȳn ) sont indépendants (on
sait que leur somme est 0, donc si on connait la valeur de n − 1 d’entre eux, on peut calculer
la valeur du nième).
Les sommes de carrés et leurs degrés de liberté sont en général résumés dans une table
d’analyse de la variance (table ANOVA) ; le tableau 1.2 donne la table ANOVA standard.
La colonne F de cette table ANOVA sera expliquée à la prochaine section.

Exemple 1.3 (Consommation d’essence) Si nous retournons dans le cas de l’exemple


sur la consommation d’essence, alors on a que SST ot = 588366, SSRes = (n − p)s2 =
(48 − 5)(4396.511) = 189050 et donc SSReg = 588366 − 189050 = 399316. On obtient donc
la table d’analyse de variance standard suivante :

Source d.l. SC CM F
Régression 4 399 316 99 829 22.70
Résiduelle 43 189 050 4397
Totale (corrigée) 47 588 366
39

1.7.2 Test F de l’importance globale de la régression


Un test d’hypothèse important en régression consiste à tester si au moins une des variables
exogènes explique une partie signigicative de la variabilité dans les Yi . Ceci revient donc à
tester si les données démontrent de l’évidence contre l’hypothèse nulle H0 : les variables
exogènes n’expliquent rien. Mathématiquement, une variable exogène n’explique en rien la
valeur de Yi si le coefficient de régression correspondant prend la valeur 0. On veut donc
tester

H0 : β1 = β2 = · · · = βp′ = 0 (1.37)
vs H1 : au moins un des coefficients n’est pas 0.

Sous H0 , le modèle de régression ne devrait pas expliquer la variabilité dans les Yi et donc
le ratio SSReg /SSRes devrait prendre une petite valeur. Par contre sous H1 , le modèle de
régression devrait expliquer une partie de la variabilité des Yi et donc le ratio SSReg /SSRes
devrait prendre une grande valeur. Afin de savoir si la valeur du ratio est “petite” ou “grande”,
on standardise le ratio pour obtenir la statistique F de la table ANOVA :

SSReg /p′ SSReg /p′


F = = .
SSRes /(n − p) s2

Sous H0 , cette statistique suit une loi F avec p′ degrés de liberté au numérateur et n − p
degrés de liberté au dénominateur. On rejette donc H0 au niveau α (c.-à-d. que les données
démontrent de l’évidence que le modèle n’est pas complètement inutile, ou de l’évidence
d’une relation entre la variable endogène et au moins une des variables exogènes) lorsque la
statistique F est supérieure ou égale au quantile Fα ; p′ ,n−p .

Exemple 1.3 (Consommation d’essence) La statistique F obtenue pour le test d’impor-


tance globale de la régression est de 22.70 sur 4 et 43 degrés de liberté, respectivement. Ceci
équivaut à un seuil observé de P [F4,43 ≥ 22.70] ≈ 0, et donc nous rejetons l’hypothèse nulle
et il est clair qu’au moins un des coefficients de régression n’est pas 0.
40

1.7.3 Le principe de somme de carrés résiduelle additionnelle


Il sera plutôt rare en pratique que le test F global ne rejettera pas l’hypothèse H0 donnée
par (1.37) que le modèle de régression est totalement inutile. Cependant, il se peut qu’on
veuille tester si le modèle peut être réduit, c.-à-d. que l’on veut tester si un sous-modèle plus
simple explique une partie suffisamment grande de la variabilité dans les Yi pour qu’il ne
soit pas nécessaire d’utiliser le modèle plus complexe.
Le principe de la somme de carrés résiduelle additionnelle permet de tester cette hypo-
thèse de fa¸con formelle. L’idée est simple : si les termes qui sont exclus du modèle plus simple
expliquent une partie importante de la variabilité dans les Yi , alors la variabilité due à la
fluctuation aléatoire (SSRes ) apparaîtra beaucoup plus importante dans le modèle simple
que dans le modèle complet. Il s’agit donc de mesurer si la différence entre les sommes de
carrés résiduelles des deux modèles est faible ou large.
Mathématiquement, supposons que l’on a le modèle de régression multiple

Yi = β0 + β1 xi1 + · · · + βp′ xip′ + εi

et que l’on veut tester si un modèle avec seulement k < p′ des variables exogènes suffirait à
expliquer la variabilité dans les Yi , ou autrement dit que p′ − k des variables exogènes sont
superflues. Par simplicité, supposons que les k variables exogènes en question sont x1 , . . . , xk .
Alors on veut tester

H0 : Yi = β0 + β1 xi1 + · · · + βk xik + εi (1.38)


H1 : Yi = β0 + β1 xi1 + · · · + βk xik + βk+1 xi,k+1 + · · · + βp′ xip′ + εi .

Nous appellerons le modèle donné par H0 le modèle réduit et le modèle donné en H1 le


H0
modèle complet. Soit SSRes la somme des carrés résiduelle obtenue avec le modèle réduit et
H1
SSRes la somme des carrés résiduelle obtenue avec le modèle complet. Alors il est toujours
H1
vrai que SSRes ≤ SSRes
H0 H0
. Cependant, sous H0 , la différence entre SSRes H1
et SSRes sera petite,
alors que cette même différence sera grande sous H1 . Encore une fois, on standardise le ratio
H0
(SSRes −SSRes
H1 H1
)/SSRes afin d’obtenir une distribution connue qui nous permettra d’identifier
41

si une valeur est “petite” ou “grande”. On obtient


H0
(SSRes − SSRes
H1
)/∆dl H0
SSRes − SSRes
H1
F = = , (1.39)
H1
SSRes /(n − p) ∆dl s2H1
H0 H1
où ∆dl est la différence entre les degrés de liberté de SSRes et les degrés de liberté de SSRes .
Sous H0 donnée par (1.38), la statistique F en (1.39) suit une distribution F avec ∆dl degrés
de liberté au numérateur et n − p degrés de liberté au dénominateur. On rejette donc H0
au niveau de confiance α lorsque F ≥ Fα ; ∆dl ,n−p . Veuillez prendre note que n − p réfère au
H1
nombre de degrés de liberté de SSRes , et que s2H1 réfère au carré moyen résiduel sous H1 .
Comme il arrivera parfois que notre “modèle complet” sera un modèle qui n’inclut pas toutes
les p′ variables exogènes, il faudra ajuster la formule (1.39) en conséquence. C’est pourquoi
il est probablement mieux de retenir la forme à droite de la seconde églité en (1.39).
Il existe plusieurs trucs pour calculer ∆dl :
H0
1. ∆dl = dl(SSRes ) − dl(SSRes
H1
);
2. ∆dl =(nombre de paramètres modèle H1 )- (nombre de paramètres modèle H0 ) ;
3. ∆dl = nombre de contraintes sur les paramètres du modèle complet pour arriver au
modèle réduit.
Ainsi, dans le cas présenté en (1.38), on aurait
H0 H1
1. dl(SSRes ) = n−(k+1) = n−k−1 et dl(SSRes ) = n−p, et donc ∆dl = n−k−1−n+p =
p − k − 1 = p′ − k.
2. Paramètres sous H1 : p = p′ +1, paramètres sous H0 : k+1, et donc ∆dl = p′ +1−k−1 =
p′ − k.
3. Les contraintes pour réduire le modèle en H1 au modèle en H0 sont βk+1 = 0, . . . , βp′ =
0, c.-à-d. p′ − k égalités (contraintes) sur les paramètres du modèle complet afin
d’obtenir le modèle réduit, donc ∆dl = p′ − k.
La très vaste majorité des tests d’hypothèses que nous aurons à faire dans ce cours
pourrons être exprimés sous une forme H0 : modèle réduit vs H1 : modèle complet. Par
exemple le test F de la table ANOVA est un test de cette forme, où le modèle réduit est tout
simplement Yi = β0 + εi . Dans ce cas on peut facilement voir que la statistique F donnée
42

en (1.39) est égale à la statistique F de la table ANOVA (exercice). De plus, on voit aussi
facilement que ∆dl = p′ .

Remarque 1.2 Sous l’hypothèse de normalité des termes d’erreur, il est possible de démon-
trer que le test F du principe de la somme de carrés résiduelle additionnelle est un test du
rapport des vraisemblances.

Exemple 1.3 (Consommation d’essence) Un économiste bien connu postule que ni la


longueur des routes fédérales, ni le taux de possession de permis de conduire n’ont un impact
sur la consommation d’essence. Testez cette hypothèse au niveau de confiance 5%.
Le modèle sous H0 dans ce cas est donné par Yi = β0 +β1 xi1 +β3 xi3 +εi . La table ANOVA
de ce modèle est
Source d.l. SC CM F
Régression 2 153 478 76 739 7.94
Résiduelle 45 434 889 9664
Totale 47 588 366
On obtient donc une statistique F pour le test :
H0
SSRes − SSRes
H1
434 889 − 189 050
F = =
∆dl s 2 (45 − 43)4397
= 27.96.

D’une table F , on a que F0.05; 2,43 = 3.21. Comme 27.96 > 3.21, on rejette l’hypothèse faite
par l’économiste.

1.7.4 Test d’une hypothèse linéaire générale


Plusieurs tests en régression linéaire se veulent en fait une liste de contraintes linéaires
sur les valeurs des paramètres. Soit C, une matrice de dimension r × p, et d, un vecteur de
dimension r × 1. Alors une hypothèse linéaire générale est une hypothèse de la forme

H0 : Cβ = d (1.40)
vs H1 : Cβ ̸= d.
43

On peut ré-écrire ce test d’hypothèse sous la forme d’un modèle réduit et d’un modèle
complet :

H0 : Y = Zα + ε
vs H1 : Y = Xβ + ε,

où l’équation en H0 est obtenue en (i) résolvant le système d’équations Cβ = d pour β et


(ii) en substituant la solution trouvée en (i) dans le modèle Y = Xβ + ε.
Puisque le test d’une hypothèse linéaire générale peut être exprimé comme le test d’un
modèle réduit vs un modèle complet, on peut utiliser le principe de somme des carrés rési-
duelle additionnelle. Il est possible de démontrer (Sen & Srivastava, 1990, pp. 44-45 et pp.
60-64) que
H0
SSRes − SSRes
H1
= (C β̂ − d)′ [C(X ′ X)−1 C ′ ]−1 (C β̂ − d).

Notez que σ 2 [C(X ′ X)−1 C ′ ] est la variance de C β̂ − d. Donc la différence des sommes
de carrés résiduelles peut être vue comme la longueur du vecteur qui sépare C β̂ et d,
standardisée par sa variance (distance de Mahalanobis entre C β̂ et d). Si la distance entre
H0
C β̂ et d est petite, alors H0 est une hypothèse raisonnable, SSRes − SSRes
H1
prend une petite
valeur et on ne rejette donc pas H0 . Si H0 n’est pas raisonnable, alors C β̂ sera loin de
H0
d, SSRes − SSRes
H1
prendra une grande valeur et nous rejetterons H0 . On peut maintenant
terminer la construction de la statistique F en utilisant l’équation (1.39) :

(C β̂ − d)′ [C(X ′ X)−1 C ′ ]−1 (C β̂ − d)/r (C β̂ − d)′ [C(X ′ X)−1 C ′ ]−1 (C β̂ − d)


F = = ,
H1
SSRes /(n − p) rs2H1
(1.41)
où r est le nombre de rangées de la matrice C. Le fait que ∆dl = r dans ce cas est facile à
comprendre si on utilise le truc 3, soit le nombre de contraintes sur les paramètres du modèle
complet pour obtenir le modèle réduit.

Exemple 1.3 (Consommation d’essence) Testez l’hypothèse qu’une hausse de la taxe de


vente de 1% a exactement le même impact sur la consommation d’essence moyenne qu’une
baisse du revenu de 500$.
44

En termes mathématiques, une hausse de 1% de la taxe sur la consommation d’essence


moyenne est donnée par

E[Y ; x1 + 1] − E[Y ; x1 ] = β0 + β1 (x1 + 1) + β2 x2 + β3 x3


−(β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 )
= β1 .

De façon similaire, on trouve que l’effet d’une baisse du revenu de 500$ (x3 diminuée de 0.5)
sur la consommation moyenne est −0.5β3 . On veut donc tester H0 : β1 = −0.5β3 ⇔ β1 +
0.5β3 = 0, c.-à-d. que C = ( 0 1 0 0.5 0 ) et d = 0. On obtient que [C(X ′ X)−1 C ′ ]−1 =
20.32 et C β̂ − d = −68.1, et donc

(−68.1)(20.32)(−68.1)
F = = 21.4.
(1)(4397)

Ceci équivaut à un seuil de P [F1,43 ≥ 21.4] < 0.0001, et donc on rejette l’hypothèse.
Notez que nous aurions aussi pu faire le test de H0 : Yi = β0 + β1 xi1 + β3 xi3 + εi de la
section 1.7.3 avec la méthode du test d’une hypothèse linéaire généralisée, puisque dans ce
cas H0 peut se récrire comme H0 : β2 = 0, β4 = 0, et donc il s’agit d’un test d’hypothèse
linéaire généralisée avec r = 2,
   
0 0 1 0 0  0
C= et d =  .
0 0 0 0 1 0

1.8 Variables exogènes catégorielles


1.8.1 Variables binaires ou polytomiques (qualitatives)
Jusqu’à maintenant, nous n’avons considéré que des variables exogènes continues. Il arrive
pourtant souvent en pratique que les variables exogènes ne puissent prendre des valeurs que
dans un ensemble fini de valeurs possibles, et que ces valeurs n’impliquent pas un ordre entre
45

les mesures. Quelques exemples :




H, si i est un homme
x1i = 
F, si i est une femme

 1, si i est une ville
x1i =
 −1, si i est un village


1, si i est à ON
x1i = 
0, si i est à OFF

Dans ces cas, il est toujours plus prudent de coder xi sous la forme d’une variable indi-
catrice, c.-à-d. sous la forme 
 1, si ...
xi =
 0, sinon
Si ce type de codage n’est pas utilisé, alors les β peuvent être difficiles à interpréter. Par
exemple si 
 −5, si i est un homme
xi =
 5, si i est une femme
alors on a que le modèle Yi = β0 + β1 xi + εi nous donne

E[Yi ; i est un homme] = β0 − 5β1


E[Yi ; i est une femme] = β0 + 5β1

⇒ β1 représente 0.1 fois la différence entre la valeur moyenne de Y pour les hommes et celle
pour les femmes.
Si on prend 
 1, si i est un homme
xi =
 0, si i est une femme
46

alors on a
E[Yi ; i est un homme] = β0 + β1
E[Yi ; i est une femme] = β0

et maintenant β1 représente exactement la différence entre la valeur moyenne de Y pour les


hommes et celle pour les femmes.
Si xi est une variable polytomique, c.-à-d. que xi peut prendre une parmi C ≥ 2 valeurs
possibles, la façon prudente de procéder est de définir C − 1 variables indicatrices. Ainsi, si


 1, si i est bleu




 2, si i est rouge
x1i =

 3, si i est jaune




 4, si i est vert
alors on définit
 
 1, si i est bleu  1, si i est rouge
xBi = xRi =
 0, sinon  0, sinon


1, si i est jaune
xJi = 
0, sinon
Dans ce cas
x1i = bleu ⇒ (xBi , xRi , xJi ) = (1, 0, 0)
x1i = rouge ⇒ (xBi , xRi , xJi ) = (0, 1, 0)
x1i = jaune ⇒ (xBi , xRi , xJi ) = (0, 0, 1)
x1i = vert ⇒ (xBi , xRi , xJi ) = (0, 0, 0)
Ainsi, si Yi = β0 + βB xBi + βR xRi + βJ xJi + εi ,
E[Yi ; i est bleu] = β0 + βB
E[Yi ; i est rouge] = β0 + βR
E[Yi ; i est jaune] = β0 + βJ
E[Yi ; i est vert] = β0 .
47

Remarque 1.3 Dans plusieurs domaines d’application, la modalité de la variable polyto-


mique qui correspond à une valeur de 0 pour toutes les variables indicatrices est appelée
modalité de base (ou de référence). Ainsi, dans l’exemple ci-dessus, la modalité de base pour
la couleur est “vert”.

Plusieurs hypothèses intéressantes peuvent être vues comme des hypothèses linéaires sur
les β, ce qui nous permet d’utiliser nos résultats des sections 1.2 et 1.3. Par exemple, si l’on
veut tester que la valeur moyenne de Yi est la même que i soit rouge ou bleu, ceci revient à
tester

H0 : E[Yi ; i est rouge] = E[Yi ; i est bleu]


⇔ H0 : β0 + βR = β0 + βB
⇔ H0 : βR − βB = 0.

Exemple 1.4 Soit x1i , le numéro de lot du produit i, x2i , la concentration de sel dans le
produit i et Yi , l’indice de qualité du produit i. Les variables Yi et x2i sont des variables
continues, alors que x1i est un variable polytomique prenant une des valeurs {1, 2, 3, 4}. À
l’aide d’un graphique de E[Yi ] en fonction de x2i (voir figure 1.5), interpréter les coefficients
du modèle
Yi = β0 + β11 x11i + β12 x12i + β13 x13i + β2 x2i + εi ,


 
 1, x1i = 1  1, x1i = 2
x11i = x12i =
 0, x1i ̸= 1  0, x1i ̸= 2


1, x1i = 3
x13i = 
̸ 3.
0, x1i =

Test de l’effet d’une variable polytomique

Pour tester si une variable polytomique a un effet significatif sur la valeur moyenne de la
variable endogène, il faut tester si plusieurs coefficients sont simultanément égaux à zéro à
48

Groupe 3
E[Y]

β2 Groupe 2

β2
Groupe 4
β0+β 13
β2
Groupe 1
β0 + β 12
β2
β0

β0 +β 11
x2

Figure 1.5 – Espérance de la variable endogène Y en fonction de la variable exogène x2


pour chacun des groupes 1-4. Comme on peut le voir, les β0 et β1j déterminent les ordonnées
à l’origine, tandis que β2 détermine la pente des droites de régression.
49

l’aide d’un test F . Ainsi, si nous voulons tester si le groupe d’où provient l’item i a un effet
dans l’exemple 1.4, il faut tester H0 : β11 = β12 = β13 = 0. (Notez que ceci revient à tester
si la ligne de régression est la même pour les 4 groupes, c.-à-d. que sur la Figure 1.5, les 4
lignes sont superposées.)
En général, pour tester si une variable polytomique prenant C valeurs possibles a un effet
significatif, il faut tester si C − 1 coefficients sont simultanément égaux à zéro. Tester si les
coefficients individuels sont tous différents de 0 peut mener à des conclusions erronnées.

1.8.2 Interactions
Une interaction entre deux variables exogènes x1i et x2i est un terme de la forme β12 x1i x2i .
Les interactions sont présentes lorsque l’effet des variables exogènes impliquées dans l’inter-
action sur la valeur moyenne de la variable endogène dépend de la valeur des variables en
question.

Exemple 1.5 Soit le modèle

Yi = β0 + β1 x1i + β2 x2i + β12 x1i x2i + εi .

Quel est l’effet d’une hausse de x1i d’une unité sur la valeur moyenne de Yi ?

E[Yi ; x1i + 1] = β0 + β1 (x1i + 1)β2 x2i + β12 (x1i + 1)x2i (1.42)


E[Yi ; x1i ] = β0 + β1 x1i + β2 x2i + β12 x1i x2i (1.43)

En prenant (1.42)-(1.43), on obtient que l’effet d’une augmentation d’une unité de x1i sur
E[Yi ] est β1 + β2 x2i , c.-à-d. que l’effet d’une augmentation de x1i d’une unité sur E[Yi ]
dépend de la valeur de x2i .

L’interprétation d’une interaction entre une variable continue et une variable polytomique
est intéressante, comme le montre l’exemple qui suit.

Exemple 1.6 Soit x1i une variable polytomique pouvant prendre les valeurs {1, 2, 3} et soit
x11i l’indicatrice que x1i = 1 et x12i l’indicatrice que x1i = 2. Faites un graphique de l’es-
pérance de la variable endogène en fonction de la valeur de la variable continue x2i afin
50

E[Y]

x =1
1i
β 2+β 112
x 1i = 3
β0+β11
β2
β0+ β12

β2+β 122
β0 x 1i = 2

x2

Figure 1.6 – Espérance de la variable endogène Y en fonction de la variable exogène x2 pour


chacune des valeurs de x1i . Comme on peut le voir, les β0 et β1j déterminent les ordonnées
à l’origine, tandis que β2 et β1j2 déterminent les pentes des droites de régression.

d’interpréter les coefficients du modèle

Yi = β0 + β11 x11i + β12 x2i + β2 x2i + β112 x11i x2i + β122 x12i x2i + εi .

Voir figure 1.6 en page 50.


Chapitre 2

Modèles linéaires généralisés (GLM)

Les modèles que nous avons vus jusqu’à présent ne permettent que des variables endo-
gènes continues, étant donné que nous supposons que Y (ou une transformation g(Y )) suit
une distribution normale. Cependant, en pratique, on devra parfois modéliser la dépendance
d’une variable endogène non continue sur un groupe de variables exogènes :
— Y représente le nombre de réclamations pour un assuré dans une année, et les variables
exogènes sont des mesures prises sur l’assuré (âge, adresse, sexe, etc.).
— Y est une indicatrice (variable 0-1) de la survie d’un patient à une certaine opération,
les variables exogènes sont des mesures de caractéristiques du patient et de la méthode
d’opération.
Il est ainsi possible d’imaginer une foule de situations où supposer une distribution normale
pour Y (ou une transformation g(Y )) ne sera pas approprié.
Le modèle linéaire généralisé est une extension du modèle de régression linéaire permet-
tant de modéliser la distribution d’une variable endogène Y en fonction de variables exogènes
x, en autant que cette distribution fasse partie de la famille exponentielle.

2.1 Introduction aux modèles linéaires généralisés


Le modèle linéaire généralisé est en fait une généralisation du modèle linéaire où l’on
permet à la variable endogène Y de suivre n’importe quelle distribution de la famille expo-

51
52

nentielle. Le modèle linéaire sous le postulat de normalité des résidus est un cas particulier
du modèle linéaire généralisé car, comme nous le verrons plus bas, la distribution normale
est un membre de la famille exponentielle.

2.1.1 La famille exponentielle


Cette famille de distributions contient la vaste majorité des distributions utilisées cou-
ramment en pratique. Il s’agit de la famille des distributions dont la fonction de (densité de)
probabilité peut être écrite sous la forme
{ }
yθ − b(θ)
f (y; θ, ϕ) = exp + c(y, ϕ) . (2.1)
a(ϕ)
Lorsque la valeur du paramètre ϕ est connue, alors on dit que c’est une famille exponentielle
avec paramètre canonique θ.

Proposition 2.1 Pour toute distribution de la famille exponentielle donnée en (2.1), on a


que
1. E[Y ] = b′ (θ) ;
2. V ar[Y ] = b′′ (θ)a(ϕ) ;
3. Si Y1 , . . . , Yn sont n variables aléatoires i.i.d. de distribution donnée par (2.1), alors
{ n }
∑ (yi θi − b(θi )) ∑ n
f (y1 , . . . , yn ) = exp + c(yi , ϕ) . (2.2)
i=1 ai (ϕ) i=1

La proposition 2.1 indique que V ar[Y ] est le produit de deux fonctions : b′′ (θ) qui ne dépend
que de θ (donc que de la moyenne) et qui est appelée fonction de variance, et une fonction
de ϕ. Nous exprimerons en général b′′ (θ) en fonction de la moyenne de Y , µ ≡ E[Y ], sous la
forme V (µ).
La fonction a(ϕ) est généralement de la forme ϕ/w. Le paramètre ϕ, parfois dénoté σ 2 ,
est le paramètre de dispersion. La valeur de ϕ reste constante pour toutes les observations
tandis que w est une valeur connue qui peut varier d’observation en observation.
Les distributions normale, binomiale, Poisson, binomiale négative, gamma, gaussienne
inverse, Tweedie et Pareto sont les exemples les plus populaires de cette famille.
53

Exemple 2.1 Pour la loi normale, on a que f (y; µ, σ 2 ) = (2πσ 2 )−1/2 exp{−(y − µ)2 /(2σ 2 )}.
On peut récrire cette densité sous la forme (2.1) :
{ ( )}
yµ − µ2 /2 1 y2
2
f (y; µ, σ ) = exp − + ln(2πσ 2 ) .
σ2 2 σ2
{ }
y2
On a donc θ = µ, ϕ = σ 2 , b(θ) = θ2 /2 et c(y, ϕ) = − 21 σ2
+ ln(2πσ 2 ) . La moyenne de Y
est donc b′ (θ) = 2θ/2 = θ = µ et puisque b′′ (θ) = 1, la fonction de variance est V (µ) = 1 et
V ar[Y ] = V (µ)a(ϕ) = 1 × σ 2 = σ 2 .

Exemple 2.2 Pour la loi de Poisson, on a f (y; µ) = µy exp(−µ)/y!. C’est une distribution
membre de la famille exponentielle car
{ }
y ln µ − exp(ln µ)
f (y; µ) = exp − ln y! ,
1

ce qui est une famille exponentielle avec paramètre canonique θ = ln µ, a(ϕ) = 1, b(θ) =
exp(θ) et c(y, ϕ) = − ln y!. La moyenne de Y est b′ (θ) = exp(θ) = exp(ln µ) = µ et la fonction
de variance est V (µ) = b′′ (θ) = exp(θ) = µ, ce qui nous donne V ar[Y ] = V (µ)a(ϕ) = µ×1 =
µ.

2.1.2 Les éléments formant un modèle linéaire généralisé


Supposons que nous disposons d’un échantillon pour lequel on mesure la valeur d’une
variable endogène, Y , et de p′ variables exogènes, x1 , . . . , xp′ , pour chacun de n individus
ou items indépendants. Nous allons maintenant décrire les éléments d’un modèle linéaire
généralisé pouvant servir à analyser ces données.
Le premier élément du modèle linéaire généralisé est la distribution de la variable endo-
gène, qui doit être l’un des membres de la famille exponentielle. Ainsi, si Y est une variable
binaire, on choisira la binomiale tandis que si Y est une variable de dénombrement, on pourra
choisir la famille Poisson.
Le deuxième élément est le prédicteur linéaire. Mathématiquement, soit x′i = (1, xi1 , . . .,
xip′ ) le vecteur des variables exogènes pour le ième individu de l’échantillon. Le prédicteur
54

linéaire pour cet individu est ηi = x′i β, où β ′ = (β0 , . . . , βp′ ) est le vecteur des coefficients
de régression inconnus à être estimés à partir de l’échantillon.
Le troisième élément est la fonction de lien, qui donne la relation entre la moyenne de
la variable endogène et le prédicteur linéaire. Plus précisément, on dit qu’un modèle linéaire
généralisé a une fonction de lien g(·) si g(µi ) = ηi ou, de façon équivalente, si µi = g −1 (x′i β).
Si la fonction g(·) est la même que le lien entre µ et le paramètre θ de la famille exponentielle,
on dit que g(·) est le lien canonique. Puisque le prédicteur linéaire prend des valeurs dans
(−∞, ∞) et que µ doit parfois se trouver dans un espace S plus restreint (par exemple
(0, ∞) pour la distribution de Poisson ou (0, 1) pour la binomiale), on préférera souvent les
fonctions de lien g : S → (−∞, ∞), bien que ce ne soit pas une absolue nécessité.
En combinant ces trois éléments, nous spécifions entièrement la distribution de la va-
riable endogène étant donné les variables exogènes et nous sommes donc en mesure d’utiliser
la théorie de l’estimation par maximum de vraisemblance pour estimer les coefficients de
régression, effectuer des tests d’hypothèses, obtenir des prévisions, etc.

2.1.3 Vraisemblance, log-vraisemblance et déviance


Puisque l’on suppose les individus ou items indépendants, la fonction de vraisemblance
des paramètres β et ϕ est donnée par
{ n }
∑ yi θi − b(θi ) ∑ n
L(β, ϕ; y) = exp + c(yi ; ϕ) , (2.3)
i=1 ϕ/wi i=1

où E[Yi ; xi ] = µi = b′ (θi ) et g(µi ) = ηi = x′i β.


La fonction de log-vraisemblance est donnée par

n
yi θi − b(θi ) ∑ n
l(β, ϕ; y) = ln L(β, ϕ; y) = + c(yi ; ϕ). (2.4)
i=1 ϕ/wi i=1

Les coefficients de régression β sont estimés par leur valeur qui maximise la fonction de
log-vraisemblance (2.4). Un estimé de la matrice de variance de β̂ est donnée par l’inverse
de la matrice d’information de Fisher observée :
 −1
∂2

Vd
ar(β̂) =  − l(β; y)  .
∂β∂β ′
β =βˆ
55

À part dans le cas de la distribution normale (modèle linéaire ordinaire), il faut en


général recourir à des méthodes numériques pour trouver la valeur de β qui maximise la
(log-)vraisemblance. La méthode de Newton-Raphson est un exemple d’une telle méthode.
Soit U (β) = ∂l(β; y)/∂β, la fonction de score. Alors pour trouver β̂ tel que U (β̂) = 0, on
(0)
se donne une valeur initiale β̂ et ensuite on répète le calcul suivant jusqu’à convergence
(k+1) (k)
(c.-à-d. ||β̂ − β̂ || petit) :
(k+1) (k) (k) (k)
β̂ = β̂ + Vd
ar(β̂ )U (β̂ ), k = 1, 2, . . . (2.5)

Les logiciels statistiques qui ajustent des modèles linéaires généralisés emploient soit cette
technique, soit le “Fisher scoring”, qui est la modification de cet algorithme avec la matrice
d’information espérée qui remplace la matrice d’information observée. Règle générale, le
“Fisher scoring” requiert quelques itérations de plus pour atteindre la convergence, mais
chaque itération nécessite un peu moins de temps de calcul.
Une autre fonction liée à la fonction de log-vraisemblance qui joue un rôle important
est la fonction de déviance standardisée, qui est le double de la différence entre la log-
vraisemblance maximisée pour un modèle saturé (modèle avec n coefficients de régression) et
la log-vraisemblance maximisée du modèle qui nous intéresse. Mathématiquement, le modèle
saturé revient à estimer µi par yi . La statistique de déviance standardisée pour un modèle
où les moyennes sont estimées par µ′ = (µ1 , . . . , µn ) est donnée par

D∗ (y; µ) = 2{l(y, ϕ; y) − l(µ, ϕ; y)}, (2.6)

où l(z, ϕ; y) dénote la fonction de log-vraisemblance évaluée avec les moyennes données par
z. On l’appelle déviance standardisée car on retrouve ϕ au dénominateur des fonctions de
log-vraisemblance. La fonction de déviance est D(y; µ) = ϕD∗ (y; µ).
La statistique de déviance sert plutôt à estimer la valeur du paramètre ϕ et à mesurer
le degré d’ajustement du modèle aux données. En effet, la statistique de déviance (non
∑n
standardisée) peut s’écrire comme D(y; µ) ≡ ϕD∗ (y; µ) = i=1 di . Les termes individuels di
sont très utiles pour vérifier l’ajustement global d’un modèle linéaire généralisé. On appelle
ième résidu de déviance la racine carrée (signée) de ce ième terme, soit rDi = signe(yi −

µi ) di . Un autre type de résidu qui sera utile est le ième résidu de Pearson, rP i = (yi −

µi )/ V (µi ).
56

Exemple 2.3 On peut voir que le modèle de régression linéaire multiple du chapitre 1 est
bel et bien un modèle linéaire généralisé. Tout d’abord, le modèle suppose que les Yi sont de
distribution normale, donc une distribution membre de la famille exponentielle. Le modèle
suppose aussi que µi = E[Yi ; xi ] = x′i β, donc un lien identité entre la moyenne et le pré-
dicteur linéaire. Comme nous l’avions vu à l’exemple 2.1, dans ce cas θ = µ, donc un lien
identité entre θ et µ, c.-à-d. que le lien identité est le lien canonique dans le cas du modèle
linéaire normal. On a donc θi = x′i β et on peut écrire

n
yi x′i β − (x′i β)2 /2 1 ∑ n
yi2 n
l(β, σ 2 ; y) = − − ln(2π),
i=1 σ2 2 i=1 σ 2 2

ce qui est la fonction de log-vraisemblance (1.21). En remplaçant x′i β par yi dans la log-
vraisemblance ci-dessus, on obtient l(y, σ 2 ; y) et ensuite la déviance standardisée

n
(yi − x′i β)2
D∗ (y; β) = ,
i=1 σ2

ce qui, lorsque évaluée à β = β̂, correspond à la somme des carrés résiduels divisée par σ 2 .

2.2 Variable Y binomiale : régression logistique


Nous considérons maintenant le cas où la variable endogène est Yi = Ỹi /mi , où Ỹi suit
une distribution binomiale(mi , πi ). Dans le cas particulier fréquemment rencontré où mi = 1
et donc Yi = Ỹi , c.-à-d. que Yi prend la valeur 1 avec probabilité πi et 0 avec probabilité
1 − πi , on appelle ce type de régression régression logistique.
57

2.2.1 Le modèle
Dans ce cas, on a que µi = E[Yi ] = πi . La fonction de lien canonique est le lien logit,
c.-à-d. g(u) = ln{u/(1−u)}, d’où le nom de ce type de régression. Sous le lien logit et mi = 1,

πi = P [Yi = 1; xi ] = g −1 (x′i β)
exp(β0 + β1 xi1 + · · · + βp′ xip′ )
=
1 + exp(β0 + β1 xi1 + · · · + βp′ xip′ )
( )
πi
⇔ ln = β0 + β1 xi1 + · · · + βp′ xip′
1 − πi
πi
= exp (β0 + β1 xi1 + · · · + βp′ xip′ ) .
1 − πi
Une première constatation est que l’interprétation de la valeur des coefficients de régression
pour le modèle de régression logistique est très différente de celle pour le modèle de régression
linéaire multiple.
1. Si βj > 0, alors une hausse de xij , avec la valeur de toutes les autres variables exogènes
restant inchangée, augmentera la probabilité d’observer un succès (Yi = 1). Si βj < 0,
alors une hausse de xij , avec la valeur de toutes les autres variables exogènes restant
inchangée, diminuera la probabilité d’observer un succès. Si βj = 0, alors la valeur de
xij n’a aucun effet sur les chances de succès.
2. Le ratio πi /(1 − πi ) est appelé cote (odds). On a donc que la valeur de βj est la hausse
de la log-cote lorsque l’on augmente d’une unité la valeur de xij , toute autre variable
exogène restant inchangée. Si xij augmente d’une unité et que les autres variables
exogènes demeurent inchangées, alors la cote πi /(1 − πi ) est multipliée par exp(βj ) ;
on appelle communément exp(βj ) un rapport de cotes, puisque cette valeur représente
la cote de l’événement Yi = 1 sous xij = x + 1 divisée par la cote du même événement
sous xij = x. Si la probabilité πi est très faible (moins de 0.1, comme c’est le cas
dans plusieurs applications), on ne se trompe que très peu en disant que les chances
(probabilité) de succès sont multipliées par exp(βj ).
À part le lien logit, il existe quelques autres fonctions de lien populaires en régression
logistique :
58

Lien probit : C’est l’inverse de la fonction de répartition de la loi normale standard. En


d’autres termes, on pause Φ−1 (πi ) = x′i β ⇔ πi = Φ(x′i β), où Φ(z) = P [N (0, 1) ≤ z].
Lien log-log complémentaire : C’est la fonction g(u) = ln{− ln(1 − u)}, c.-à-d. on
pose ln{− ln(1 − πi )} = x′i β ⇔ πi = 1 − exp{− exp(x′i β)}.
Malheureusement, seulement la première des deux interprétations des coefficients de régres-
sion données plus haut demeure valide si on utilise un lien autre que le lien logit.

Exemple 2.4 Supposons les données (Yi , xi ), i = 1, . . . , n, où Yi vaut 1 si l’étudiant passe


son cours et 0 sinon, et où xi représente le temps (en heures) consacré à l’étude pour cet
étudiant. Supposons un modèle logistique avec lien logit et prédicteur linéaire −2 + 0.3xi .
Mathématiquement, le modèle suppose que P [Yi = 1; xi ] = exp{−2 + 0.3xi }/(1 + exp{−2 +
0.3xi }). Alors on a que chaque heure additionnelle d’étude augmente la probabilité de passer
le cours. La probabilité de passer pour quelqu’un qui n’étudie pas est e−2 /(1 + e−2 ) = 0.12 et
la cote de passer le cours est multipliée par e0.3 = 1.34 à chaque heure d’étude additionnelle,
c.-à-d. que le ratio des chances de passer sur celles de ne pas passer augmente de 34% avec
chaque heure d’étude additionnelle.
Si on avait utilisé le même prédicteur linéaire mais avec un lien log-log complémentaire,
on aurait le modèle Yi ∼ binomiale(1, πi ) avec πi = 1−exp{− exp(−2+0.3xi )}. On a toujours
que chaque heure additionnelle d’étude augmente la probabilité de passer le cours. Par contre,
on a que la probabilité de passer pour quelqu’un qui n’étudie pas est 1 − exp{− exp(−2)} =
0.13 et l’interprétation en termes du rapport de cotes ne tient plus.
Finalement, si on avait utilisé le même prédicteur linéaire mais avec un lien probit, on
aurait le modèle Yi ∼ binomiale(1, πi ) avec πi = Φ(−2 + 0.3xi ). On a toujours que chaque
heure additionnelle d’étude augmente la probabilité de passer le cours. La probabilité de passer
pour quelqu’un qui n’étudie pas est Φ(−2) = 0.02. Encore une fois, l’interprétation en termes
du rapport de cotes ne tient plus.
Veuillez noter qu’en pratique, si on ajuste le même modèle linéaire généralisé mais avec
3 fonctions de lien différentes à un même jeu de données, les estimés des probabilités de
succès obtenues avec chaque modèle seront relativement similaires et ce sont les estimés des
coefficients βj qui varieront d’un modèle à l’autre afin de mieux s’ajuster aux proportions de
succès observées dans les données.
59

2.2.2 Inférence
Supposons un échantillon d’observations indépendantes (Ỹi , xi ), i = 1, . . . , n, où Ỹi ∼
binomiale(mi , πi ), avec les valeurs de mi connues. Soit une fonction de lien g(·) (en général
le lien logit) et posons g(πi ) = x′i β ⇔ πi = g −1 (x′i β). La fonction de log-vraisemblance pour
ces données et ce modèle est
{ ( ) ( ) }

n
mi πi
l(β; ỹ) = ln + ỹi ln + mi ln(1 − πi ) . (2.7)
i=1 ỹi 1−π
∑ ( )
mi
Puisque le terme ln ỹi
ne dépend pas de πi , il peut être omis de la fonction de log-
vraisemblance sans conséquence.

Estimation de β

Comme πi est en fait une fonction de β, l’estimateur du maximum de vraisemblance


de β est la valeur de β, disons β̂, qui maximise la log-vraisemblance (2.7). La matrice de
variance de β̂ obtenue ci-dessus est estimée comme suit : on prend la matrice de l’opposé de
toutes les dérivées mixtes de l(β; ỹ), c.-à-d. on forme la matrice ayant comme élément (k, l)
−∂ 2 l(β; ỹ)/∂βl ∂βk . On inverse ensuite cette matrice et on évalue ses éléments en β = β̂.
L’estimé de la covariance entre β̂k et β̂l sera en position (k, l) de la matrice ainsi obtenue.
Ces calculs sont simples mais plutôt fastidieux. Ils sont faits en détails aux pages 114 à 116
du livre de McCullagh et Nelder (1989). Les intervalles de confiance sont ensuite obtenus
par la méthode de Wald. Soit β̂j , l’estimateur de βj et Vd
ar(β̂j ), l’estimateur de variance de
β̂j (dont la racine carrée est souvent appelée erreur type, ou directement de l’anglais “erreur
√ L’intervalle de confiance de Wald de niveau (1 − α)100% pour βj est donné par
standard”).
β̂j ± zα/2 Vd
ar(β̂j ), où P [|N (0, 1)| > zα/2 ] = α.

Déviance et tests d’hypothèses

La valeur maximale de la fonction de log-vraisemblance sous un modèle saturé (avec n


paramètres) est obtenue lorsque πi = yi /mi ≡ π̃i (exercice). La fonction de déviance évaluée
60

en πi est donc obtenue ainsi :

D(ỹ; π) = 2{l(π̃; ỹ) − l(π; ỹ)}


n { ( ) ( )}
∑ ỹi mi − ỹi
= 2 ỹi ln + (mi − ỹi ) ln . (2.8)
i=1 πi m i − πi

Comme la plupart des logiciels calculent cette statistique de déviance pour tous les modèles,
il est simple d’effectuer des tests du rapport des vraisemblances lorsque le modèle sous
l’hypothèse nulle est un cas particulier du modèle sous la contre-hypothèse. Dans ce cas, la
procédure de test est simple :
1. Ajuster le modèle complet et obtenir sa statistique de déviance, disons D1 .
2. Ajuster le modèle réduit (sous H0 ) et obtenir sa statistique de déviance, disons D0 .
3. Calculer la statistique de test ξ = D0 − D1 .
4. Calculer le seuil observé p = P [χ2r > ξ], où r est le nombre de paramètres du modèle
complet moins le nombre de paramètres du modèle réduit.
Par exemple, supposons un modèle logistique avec lien logit et prédicteur linéaire ηi =
β0 + β1 xi1 + β2 x2i1 . Nous voulons tester si le terme en x2i1 est nécessaire (test de β2 = 0). Ceci
revient à comparer le modèle “complet” au modèle réduit β0 + β1 xi1 . Le nombre de degrés de
liberté de la statistique de test sera r = 1, puisque le modèle complet compte 3 paramètres
(β0 , β1 et β2 ) alors que le modèle réduit n’en compte que 2 (β0 et β1 ), pour une différence
r = 3 − 2 = 1.

Prévisions

Supposons que nous voulons avoir une idée de la probabilité de succès, disons π0 , pour
un individu ayant x0 comme vecteur de variables exogènes. La prévision ponctuelle pour
cette probabilité est tout simplement son estimateur du maximum de vraisemblance, soit
π̂0 = g −1 (x′0 β̂). Pour avoir un intervalle de confiance, on peut utiliser la méthode de Fieller.
61

Soit
 ′


p
v 2 (x0 ) = Vd
ar(x′0 β̂) = Vd
ar  x0j β̂j 
j=0

= Vd
ar(β̂0 ) + x201 Vd
ar(β̂1 ) + · · · + x20p′ Vd
ar(βˆp′ )
d β̂ , β̂ ) + · · · + 2x ′ x ′ Cov(
+2x01 Cov( d β̂ ′ , β̂ ′ )
0 1 0,p −1 0p p −1 p

= x′0 Vd
ar(β̂)x0 .

Alors l’intervalle de confiance de niveau (1 − α)100% pour π0 est obtenu en construisant un



intervalle de confiance de la forme x′0 β̂ ± zα/2 v 2 (x0 ) pour x′0 β, et ensuite en transformant
l’intervalle en intervalle pour π en utilisant le fait que π = g −1 (x′0 β).

2.2.3 Un exemple détaillé


Vous pouvez trouver sur le site de Statistique Canada toute l’information sur l’Enquête
sociale générale - Victimisation, cycle 23, 2009, dont le but est “est de mieux comprendre
comment les Canadiens perçoivent le crime et le fonctionnement du système de justice ainsi
que leurs expériences de victimisation 1 ”, en particulier de tenter d’établir un profil des
victimes d’actes criminels au pays.
Le jeu de données victim.txt disponible sur le site web du cours est en fait un sous-
ensemble du jeu de données original. Il contient 16 228 observations de 7 variables : victim,
qui vaut 1 si le répondant a été victime d’un acte criminel au cours des 12 derniers mois
et qui vaut 0 sinon, sexe qui indique si le répondant est un homme ou une femme, revenu
qui donne le revenu annuel en milliers de $, regions qui indique si le répondant vient
des provinces de l’Atlantique, du Québec, de l’Ontario, des provinces des Prairies ou de la
Colombie-Britannique (BC), urbain qui dit si le répondant vit dans un milieu urbain ou
rural, naisCan qui vaut 1 si le répondant est né au Canada et vaut 0 sinon, et age qui donne
l’âge du répondant. On a que 25.3% des répondants on rapporté être victime d’un crime
(vic = 1) au cours des 12 derniers mois.
1. Site web de Statistique Canada, http://www23.statcan.gc.ca/imdb/p2SV_f.pl?Function=getSurvey&Id=49195,
consulté le 29 août 2018.
62

Dans cette analyse, nous allons tenter de voir si certaines des variables sont associées avec
le risque d’être victime d’un crime. Pour ce faire, nous allons ajuster un modèle de régression
logistique avec vict comme variable réponse, lien logit et l’ensemble des autres variables
dans le prédicteur linéaire. Les estimés du maximum de vraisemblance des coefficients de
régression de même que leurs erreurs standards et les seuils associés aux tests de Wald que
ces coefficients sont nuls lorsque les autres variables sont dans le modèle vous sont donnés
dans la sortie ci-dessous.

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5969275 0.0992260 -6.016 1.79e-09 ***
sexeHomme -0.0066401 0.0391103 -0.170 0.865185
revenu 0.0026928 0.0005139 5.239 1.61e-07 ***
regionsBC 0.5205899 0.0755065 6.895 5.40e-12 ***
regionsOntario 0.2929760 0.0618573 4.736 2.18e-06 ***
regionsPrairies 0.4661300 0.0614169 7.590 3.21e-14 ***
regionsQuebec 0.2221521 0.0649566 3.420 0.000626 ***
urbainurbain 0.3434683 0.0480949 7.141 9.23e-13 ***
age -0.0311312 0.0011463 -27.158 < 2e-16 ***
naisCan 0.3195960 0.0551936 5.790 7.02e-09 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 18328 on 16205 degrees of freedom
Residual deviance: 17286 on 16196 degrees of freedom
(22 observations deleted due to missingness)
AIC: 17306
Number of Fisher Scoring iterations: 4

On peut voir qu’à part le sexe, toutes les variables ont un effet fort significatif. En outre,
le risque d’être victime d’un crime semble croître d’est en ouest et avec le revenu et décroître
avec l’âge. Être né au Canada et habiter dans un milieu urbain sont associés avec un risque
de victimisation plus élevé. Si on veut interpréter les valeurs numériques des coefficients,
on doit le faire en terme de rapports de cotes. Ainsi la cote de l’événement “être victime
d’un crime au cours des 12 derniers mois” est multipliée par exp(0.0026928) ≈ 1.003 pour
chaque tranche de 1 000$ de revenu annuel additionnelle. La même cote est multipliée par
exp(−0.0311312) ≈ 0.97 pour chaque année d’âge additionnelle.
On peut déduire la valeur de la log-vraisemblance maximale de l’AIC (c.f. chap. 3), soit
-8 643. Si on veut tester que tous les coefficients des régions sont simultanément égaux à 0, on
63

peut ajuster le même modèle, mais sans la région, et on obtient une déviance de 17 363. La
statistique du rapport des vraisemblances pour ce test est donc égale à ξ = 17 363−17 286 =
77. La valeur p est P [χ24 > 77] ≈ 0, donc on rejette l’hypothèse nulle que la région n’a pas
d’effet.
Supposons que nous voulions une estimation de la probabilité qu’un homme de 30 ans,
né au Canada, habitant en milieu rural en Ontario et avec un revenu annuel de 40 000$ ait
été victime d’un crime l’année dernière, avec intervalle de confiance à 95%. On commence
par obtenir ces inférences pour le prédicteur linéaire, soit

η̂0 = −0.5969275 − 0.0066401 + 0.2929760 − 0.0311312(40) + 0.3195960 ≈ −1.236

pour l’estimation ponctuelle. La variance de cette estimation (exercice) est 0.00576. On ob-

tient donc l’intervalle de confiance à 95% égal à −1.236 ± 1.96 0.00576 = (−1.385, −1.087).
En appliquant la fonction de lien inverse, on obtient comme estimation de la probabi-
lité demandée e−1.236 /(1 + e−1.236 ) ≈ 0.225, et comme intervalle de confiance (e−1.385 /(1 +
e−1.385 ), e−1.087 /(1 + e−1.087 )) ≈ (0.200, 0.252).

2.3 Variable Y de dénombrement : régression de Pois-


son (log-linéaire)
La régression de Poisson est utilisée lorsque la variable Yi est une mesure de dénombre-
ment. On suppose que Yi |xi suit une distribution de Poisson de moyenne µi , où g(µi ) = β ′ xi .
Le lien canonique est le lien log, g(u) = ln u, et lorsque ce lien est utilisé, on parle aussi de
régression log-linéaire.
Une présentation très générale et détaillée des modèles et méthodes de régression dans le
cas où la variable endogène est une variable de dénombrement est donnée dans Cameron &
Trivedi (1998).
64

2.3.1 Le modèle
Supposons n variables aléatoires Yi , i = 1, . . . , n, indépendantes avec Yi ∼ Poisson(µi ).
Dans ce cas, E[Yi ] = µi . On suppose que µi est fonction d’un vecteur de variables exogènes
xi et d’un vecteur de paramètres β : g(µi ) = x′i β ⇔ µi = g −1 (x′i β). Si on choisit le lien log,
alors on a que

ln µi = β0 + β1 xi1 + · · · + βp′ xip′


⇔ µi = exp (β0 + β1 xi1 + · · · + βp′ xip′ ) .

L’interprétation des paramètres de ce modèle est un peu plus simple que dans le cas de la
régression logistique : si on augmente xij d’une unité et que les autres variables exogènes
demeurent inchangées, alors la valeur moyenne de Yi est multipliée par exp{βj }.
D’autres fonctions de lien sont parfois utilisées en régression de Poisson.
Lien identité : C’est la fonction g(u) = u, c.-à-d. on pose µi = x′i β.
Lien réciproque : C’est la fonction g(u) = 1/u, c.-à-d. on pose 1/µi = x′i β ⇔ µi =
1/(x′i β).
√ √
Lien racine carrée : C’est la fonction g(u) = u, c.-à-d. on pose µi = x′i β ⇒ µi =
(x′i β)2 .
Encore une fois, l’interprétation du modèle donnée ci-dessus n’est valide que pour le lien log.
Par contre il est intéressant de noter que sous le lien identité, l’interprétation des valeurs des
coefficients βj se fait comme au chapitre 1.

Exemple 2.5 Supposons les données (Yi , xi ), i = 1, . . . , n, où Yi est le nombre de médailles


remportées par le pays i aux Olympiques et où xi est le montant (en milliers de dollars) d’aide
financière fédérale mensuel versé aux athlètes du pays i. Supposons un modèle de régression
de Poisson avec lien log et prédicteur linéaire −0.5 + 0.9xi . On a donc un modèle qui suppose
que Yi ∼ Poisson(µi ) avec E[Yi ; xi ] = µi = exp{−0.5 + 0.9xi }. Ainsi un pays qui ne donne
aucune aide financière peut espérer exp{−0.5} = 0.61 médaille, et chaque 1000$ additionnel
multiplie le nombre espéré de médailles par exp{0.9} = 2.45, soit une hausse de 145%.
65

Terme d’offset

En régression en général, un terme d’offset est une variable exogène que l’on ajoute au
prédicteur linéaire, mais pour lequel le coefficient de régression correspondant n’est
pas estimé mais fixé égal à 1. En régression de Poisson avec lien log, un tel terme est par-
ticulièrement utile lorsque nous savons que le dénombrement (valeur de Yi ) est proportionnel
à une certaine variable que nous voulons inclure dans le prédicteur linéaire. Par exemple,
supposons que Yi est le nombre de pépites de chocolat dans un échantillon de pâte à biscuit
et que l’une des variables exogènes, disons zi , est le volume de cet échantillon de pâte. Il est
clair que le nombre moyen de pépites de chocolat devrait être proportionnel au volume de
l’échantillon (si on prend deux fois plus de pâte, on devrait avoir deux fois plus de pépites,
en moyenne). On peut donc faire entrer ln zi dans le modèle en offset, c.-à-d. que l’on pose le
modèle µi = exp{x′i β + ln zi }, où xi contient toutes les variables exogènes sauf zi . On obtient
que si zi est multiplié par une constante k, alors ln(kzi ) = ln k + ln zi et donc la moyenne
devient exp{x′i β + ln k + ln zi } = k exp{x′i β + ln zi }, c.-à-d. que la moyenne est multipliée
par k elle aussi et est donc proportionnelle à zi .

2.3.2 Inférence
Supposons un échantillon de n observations indépendantes (Yi , xi ), i = 1, . . . , n où Yi ∼
Poisson(µi ). Soit une fonction de lien g(·) (en général le lien log) et posons g(µi ) = x′i β ⇔
µi = g −1 (x′i β). La fonction de log-vraisemblance est donnée par

n
l(β; y) = {yi ln µi − µi − ln(yi !)} . (2.9)
i=1

Le dernier terme ln(yi !) ne dépend pas de µi et on peut donc le laisser tomber sans consé-
quence.

Estimation de β

Comme µi est une fonction de β, l’estimateur du maximum de vraisemblance de β est la


valeur de β, disons β̂, qui maximise la log-vraisemblance (2.9). La matrice de variance de β̂
66

obtenu ci-dessus est estimée de la même façon que pour la régression logistique. La méthode
pour construire des intervalles de confiance est aussi la même que dans le cas de la régression
logistique.

Déviance et tests d’hypothèses

La fonction de déviance évaluée en µ = (µ1 , . . . , µn )′ est donnée par

D(y; µ) = 2{l(y; y) − l(µ; y)}


{ ( ) }
∑n
yi
= 2 yi ln − (yi − µi ) . (2.10)
i=1 µi
∑n
Si on inclut un terme d’ordonnée à l’origine dans le modèle, on peut montrer que i=1 µ̂i =
∑n
i=1 yi , ce qui donne une expression très simple pour la déviance du modèle évaluée à
l’estimateur du maximum de vraisemblance :
( )

n
yi
D(y; µ̂) = 2 yi ln . (2.11)
i=1 µ̂i

La statistique de Pearson est donnée par

2

n
(yi − µ̂i )2
X = . (2.12)
i=1 µ̂i

Encore une fois, la statistique de déviance peut être utilisée pour effectuer des tests du
rapport des vraisemblances.

2.3.3 Variabilité extra-poissonnienne (surdispersion)


Une propriété bien connue de la distribution de Poisson est que sa variance est égale à sa
moyenne. Le modèle de régression de Poisson impose donc la contrainte que E[Yi ; xi ] = µi =
V ar[Yi ; xi ]. Malheureusement, en pratique l’égalité entre la moyenne et la variance est une
hypothèse qui est loin d’être toujours vraie. Nous verrons plus bas qu’il existe deux façons de
contourner ce problème : (i) ajuster un modèle de régression de Poisson et tenir compte de
la surdispersion dans les intervalles de confiance et les tests d’hypothèses en multipliant les
67

variances par ϕ̂P = X 2 /(n − p) ou ϕ̂D = D(y; µ̂)/(n − p) ; (ii) ajuster un modèle binomiale
négative.
Pour les données de dénombrement, la surdispersion est la norme plutôt que l’exception.
Dans ces cas, la surdispersion est fréquemment causée par une variable exogène non observa-
ble qui a un impact important sur la valeur de Yi . De fait, on peut démontrer (voir exercices
à la fin de ce chapitre) que si l’on suppose que Y |Λ = λ suit une distribution de Poisson(λ)
et que Λ suit une distribution gamma, alors Y suit une distribution binomiale négative.
La façon la plus commune de traiter les données de dénombrement avec variabilité extra
poissonienne est de supposer un modèle de type binomiale négative-p (NBp). Pour ce modèle,
on pose V ar[Yi |xi ] = µi + αµpi où la valeur de p est connue et où α ≥ 0 est un paramètre
à être estimé ; on retrouve le modèle de Poisson quand α = 0. Les deux modèles les plus
communs sont le modèle NB1, pour lequel V ar[Yi |xi ] = µi + αµ1i = (1 + α)µi = ϕµi , et le
modèle NB2, pour lequel V ar[Yi |xi ] = µi + αµ2i .
Avec l’approche par le modèle NB1, on ajuste un modèle linéaire généralisé de Poisson
comme s’il n’y avait pas de surdispersion pour estimer les β, puis on estime ϕ par la méthode
du khi-deux de Pearson : ∑
X2 i (yi− µ̂i )2 /µ̂i
ϕ̂ = = .
I −p I −p
On ajuste ensuite nos inférences (intervalles de confiance, tests d’hypothèses) en divisant les
statistiques du khi-deux ou en multipliant les variances et covariances par ϕ̂.
L’approche par le modèle NB2 consiste à ajuster un modèle linéaire généralisé basé sur
la distribution binomiale négative, dont la fonction de probabilité est donnée par
( )1/α ( )y
Γ(y + 1/α) 1/α µi
P [Yi = y|xi ] = , y = 0, 1, 2, . . . , α ≥ 0.
Γ(y + 1)Γ(1/α) µi + 1/α µi + 1/α

Pour cette distribution, E[Yi |xi ] = µi et V ar[Yi |xi ] = µi + αµ2i . On pose g(µi ) = x′i β
et, donc, sous le lien log la valeur des coefficients de régression β conserve exactement la
même interprétation que pour le modèle de régression de Poisson. L’inconvénient principal
de l’approche NB2 est que les paramètres β et α doivent être estimés simultanément par la
méthode du maximum de vraisemblance, ce qui résulte en un algorithme de maximisation
numérique plus complexe dont la convergence est parfois difficile. Un avantage de l’approche
68

NB2 est qu’elle permet un test formel de l’hypothèse qu’il n’y a pas de surdispersion. En
effet, le modèle de régression de Poisson sans surdispersion est le cas particulier du modèle
NB2 avec α = 0. On peut donc effectuer le test du rapport des vraisemblances des hypothèses
H0 : Yi |xi ∼Poisson et H1 : Yi |xi ∼binomiale négative :

1. Ajuster un modèle de régression de Poisson ordinaire. Obtenir la log-vraisemblance


maximisée et la dénoter l0 .
2. Ajuster un modèle binomiale négative avec la même fonction de lien et les mêmes
variables exogènes que le modèle en 1. Obtenir la log-vraisemblance maximisée et la
dénoter l1 .
3. Calculer la statistique du rapport des vraisemblances ξ = 2(l1 − l0 ).
4. Obtenir le seuil observé du test H0 : modèle de régression de Poisson contre H1 : mo-
dèle de régression binomiale négative en calculant p = 0.5P [χ21 > ξ]. La multiplication
par 0.5 est nécessaire car la valeur α = 0 sous H0 est sur la frontière de l’espace du
paramètre et la distibution de la statistique n’est pas une khi-deux avec 1 degré de
liberté mais un mélange 0.5 × (masse à 0) + 0.5χ21 .

Si on ne rejette pas H0 , alors on peut supposer qu’il n’y a pas de variabilité extra poisso-
nienne dans nos données. Un autre avantage est que si l’on veut faire un test d’adéquation du
khi-deux de Pearson basé sur le modèle NB1, alors la statistique du khi-deux standardisée
sera toujours égale à I −p, puisque ϕ̂ = X 2 /(I −p) et donc Xstand.
2
= X 2 /{X 2 /(I −p)} = I −p.
Par contre la statistique du khi-deux de Pearson obtenue à l’aide du modèle NB2 ne sera
pas forcément égale à I − p et peut donc être utilisée pour tester l’adéquation d’un modèle
en présence de surdispersion.

2.3.4 Exemple détaillé


Nous allons illustrer les concepts de cette section en les appliquant à l’analyse d’un sous-
ensemble du jeu de données “Student Performance” disponible sur le site 2 “UCI Machine
Learning Repository”. Il s’agit de données obtenues par Cortez & Silva (2008) dans le cadre
2. https://archive.ics.uci.edu/ml/datasets/Student+Performance accédé le 29 août 2018.
69

d’une étude où l’on cherchait à prédire les résultats scolaires d’étudiants dans des écoles du
Portugal. Plutôt que de répliquer l’analyse de cet article, nous allons plutôt tenter de voir
si un sous-ensemble des variables explicatives sont associées à la variable absences, soit le
nombre de jours d’école manqués par les étudiants dans une session.
Nous disposons de 649 observations du nombre d’absences de chaque étudiant lors de
la période visée. On va s’intéresser aux variables explicatives age (continue, en années),
address (U ou R), Pstatus (A ou T), guardian (father, mother ou other), higher (yes ou
no), internet (yes ou no), Dalc (continue).
Nous ne considérerons que le lien canonique, soit le lien log. On ajuste un modèle Pois-
son, un modèle Poisson mais avec correction pour la surdispersion et un modèle binomiale
négative.
Pour le modèle Poisson ordinaire :
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.14567 0.32072 -0.454 0.649688
age 0.07280 0.01800 4.045 5.23e-05 ***
addressU 0.20950 0.04777 4.385 1.16e-05 ***
PstatusT -0.34327 0.05609 -6.120 9.35e-10 ***
guardianmother 0.21171 0.05444 3.889 0.000101 ***
guardianother 0.46263 0.08655 5.345 9.04e-08 ***
higheryes -0.27315 0.06126 -4.459 8.25e-06 ***
internetyes 0.18845 0.05282 3.568 0.000360 ***
Dalc 0.16258 0.01883 8.635 < 2e-16 ***
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 3464.7 on 648 degrees of freedom
Residual deviance: 3168.7 on 640 degrees of freedom AIC: 4559.8

Pour le modèle Poisson avec correction pour la surdispersion :


Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.14567 0.73028 -0.199 0.841959
age 0.07280 0.04098 1.777 0.076112 .
addressU 0.20950 0.10878 1.926 0.054563 .
PstatusT -0.34327 0.12772 -2.688 0.007380 **
guardianmother 0.21171 0.12397 1.708 0.088162 .
guardianother 0.46263 0.19708 2.347 0.019208 *
higheryes -0.27315 0.13950 -1.958 0.050652 .
internetyes 0.18845 0.12027 1.567 0.117632
Dalc 0.16258 0.04287 3.792 0.000163 ***
(Dispersion parameter for quasipoisson family taken to be 5.184829)
Null deviance: 3464.7 on 648 degrees of freedom
Residual deviance: 3168.7 on 640 degrees of freedom AIC: NA
70

Pour le modèle binomiale négative :


Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.05569 0.88029 -0.063 0.94956
age 0.06636 0.04928 1.347 0.17809
addressU 0.20624 0.12319 1.674 0.09411 .
PstatusT -0.38996 0.16735 -2.330 0.01980 *
guardianmother 0.24868 0.13445 1.850 0.06436 .
guardianother 0.43287 0.26171 1.654 0.09813 .
higheryes -0.23959 0.18454 -1.298 0.19418
internetyes 0.17711 0.13402 1.322 0.18630
Dalc 0.17318 0.05923 2.924 0.00346 **
(Dispersion parameter for Negative Binomial(0.6045) family taken to be 1)
Null deviance: 746.80 on 648 degrees of freedom
Residual deviance: 708.57 on 640 degrees of freedom AIC: 3067

On constate donc que peu importe le modèle, les estimations ponctuelles des effets sont
très similaires. Cependant on peut voir que la surdispersion est importante et que les erreurs
standards augmentent de manière substantielle lorsqu’on en tient compte. Par exemple, dans
une analyse naïve on serait porter à tenter d’interpréter l’effet d’avoir internet à la maison
alors que cet effet ne semble pas important une fois les corrections pour la surdispersion
faites.
Si on poursuit avec le modèle binomiale négative, on peut tenter de prédire le nombre de
jours d’absence espérés pour un étudiant de 16 ans, adresse urbaine, Pstatus T, qui habite
avec sa mère, qui espère faire des études supérieures, qui a internet chez lui et qui consomme
10 alcool. On obtient une prévision de 2.74 avec erreur standard de 0.52 pour le prédicteur
linéaire, ce qui se traduit par exp(2.74) ≈ 15.5 pour le nombre espéré avec intervalle de
confiance à 95% exp(2.74 ± 1.96 × 0.52) ≈ (5.6, 43).
Chapitre 3

Multicollinéarité et sélection de
variables

3.1 Multicollinéarité
La multicollinéarité est un problème qui ne dépend que de la matrice de schéma X. Il
est donc en général approprié de vérifier si nous sommes en présence de multicollinéarité dès
le début d’une analyse de régression.
Depuis le début du cours, nous avons supposé que la matrice de schéma X est une matrice
de plein rang, c.-à-d. qu’il existe un unique inverse à la matrice X ′ X ce qui, en retour,
nous assure qu’il n’existe qu’un seul vecteur β̂ qui minimise la somme SSRes /maximise la
vraisemblance. Si certaines colonnes de X sont reliées linéairement entre elles, alors cet
inverse n’est plus unique et on ne peut aller plus loin. Par contre si certaines colonnes ne
sont pas exactement liées de façon linéaire mais sont près de l’être, alors on peut quand-même
trouver un unique estimateur β̂, mais la variance de certaines des composantes de β̂ sera
démesurément grande, ce qui aura pour effet de donner des prévisions très variables (sur-
apprentissage) et qui pourra même rendre non significatives des variables exogènes pourtant
importantes.

71
72

3.1.1 Détection de la multicollinéarité


À première vue on pourrait être tenté de calculer la matrice des corrélations entre les
∑n ∑n
variables exogènes : soit x⋆ij = (xij −x̄j )/sj , où x̄ij = i=1 xij /n et s2j = i=1 (xij −x̄j ) /(n−1).
2

⋆′ ⋆
La matrice des coefficients de corrélation échantillonnaux est donnée par X X . Si deux
variables exogènes sont linéairement reliées, leur coefficient de corrélation devrait être élevé.
Cependant deux problèmes majeurs empêchent les coefficients de corrélation d’être des bons
outils de diagnostic : (i) il est difficile de dire ce qu’est une large valeur de la corrélation et
(ii) dans une grande proportion des cas, la multicollinéarité est induite par une dépendance
linéaire entre plus de deux variables. Pour voir que le point (ii) est un problème, il est possible
de créer des exemples où p variables sont parfaitement linéairement dépendantes, mais où
les coefficients de corrélations de toutes les paires de variables sont inférieurs à 1/(p − 1).
Une approche plus sensible consiste à évaluer le degré de dépendance linéaire de chaque
variable exogène sur les autres variables exogènes. Ainsi pour la jème variable exogène, on
peut mesurer ce niveau de dépendance en effectuant une régression linéaire avec la jème
variable exogène comme variable réponse et les p′ − 1 variables exogènes restantes comme
variables explicatrices. Le coefficient de détermination de cette régression, dénoté Rj2 et défini
précisément à la section 3.2, mesurera la proportion de la variabilité de la jème variable
exogène qui est expliquée de façon linéaire par les autres variables exogènes.
Un outil utilisé pour détecter la présence de multicollinéarité est le facteur d’inflation de
la variance (VIF), défini par
1
V IFj = .
1 − Rj2
La raison pour laquelle ce facteur est dit “d’inflation de la variance” est que la variance de
β̂j est donnée par
σ2
V ar[β̂j ] = ∑ V IFj .
(xji − x̄j )2
La variance dans un modèle de régression multiple est égale à la variance dans un modèle de
régression linéaire simple fois le V IF . On peut donc voir qu’une grande valeur pour V IFj
signifie une valeur près de 1 pour Rj2 , et donc une forte dépendance linéaire des variables
exogènes. De plus, on peut voir l’effet de cette multicollinéarité sur la variance des estimateurs
des coefficients.
73

Plusieurs auteurs suggèrent V IF > 10 comme point où l’on doit commencer à considérer
la présence de multicollinéarité aux conséquences importantes. Cependant, les V IF à eux
seuls ne sont pas un diagnostic complet. Parmi les points faibles des V IF on dénote l’inca-
pacité de détecter des multicollinéarités impliquant la colonne de 1 de la matrice de schéma,
l’incapacité de cerner le nombre de quasi dépendances linéaires présentes dans les données
et finalement on n’a jamais vraiment réussi à cerner une valeur précise pour V IF où l’on
doit vraiment commencer à s’inquieter (10 est une valeur ad hoc).
Une mesure équivalente au facteur d’inflation de la variance est la tolérance,

T OLj = 1 − Rj2 = 1/V IFj .

La tolérance T OLj est donc la partie de la variabilité dans la jème variable exogène qui n’est
pas expliquée par les autres variables exogènes. Ainsi, si on définit un cas problématique
comme un cas où V IF > 10, ceci est équivalent à définir les cas problématiques comme ceux
ayant T OL < 10%, c.-à-d. ceux pour qui au moins 90% de la variabilitée est expliquée par
les autres variables exogènes.
Les approches décrites ci-dessus permettent de mesurer les effets de la multicollinéarité.
L’approche la plus efficace afin de détecter les causes de multicollinéarité est basée sur les
valeurs propres de la matrice X ⋆ ′ X ⋆ . Pour voir ceci, il aide de définir la multicollinéarité de
façon plus mathématique :

Définition 3.1 La multicollinéarité survient lorsqu’il existe une combinaison de constantes


c1 , . . . , cp′ pas toutes égales à zéro telles que


p
cj x⋆ j ≃ 0.
j=1

∑p′
De la définition de X ⋆ , on a que tr(X ⋆ ′ X ⋆ ) = p′ = j=1 λj , où

V ′ (X ⋆ ′ X ⋆ )V = diag(λ1 , . . . , λp′ ).
∏p ′
S’il y a multicollinéarité, le déterminant de X ⋆ ′ X ⋆ , qui est égal à j=1 λj , aura une valeur
près de 0. Ainsi, la somme des valeurs propres doit être p′ , mais leur produit en présence
74

de multicollinéarité sera près de 0, ce qui implique qu’en présence de multicollinéarité,


il y aura des valeurs propres de faible valeur, et le ratio de la plus grande va-
leur propre sur la plus faible sera élevé. On définit les p′ indices de conditionnement
(condition index, condition number) comme étant
v
u
u λmax
ϕj = t , j = 1, . . . , p′ ,
λj
où λmax est la plus grande valeur propre de la matrice X ⋆ ′ X ⋆ . Plusieurs auteurs semblent
s’entendre pour dire qu’une valeur de ϕj > 30 indique une multicollinéarité dont il faut se
soucier.
Soit v j , le vecteur propre correspondant à la valeur propre λj . Les éléments de ces vecteurs
peuvent nous aider à identifier le nombre de quasi dépendances linéaires dans les données, et
quelles variables exogènes font partie de chaque quasi dépendance. Il est possible de montrer
que la portion de la variance de β̂l expliquée par la jème dépendance linéaire est donnée par
vlj2 /λj
plj = ,
cjj
∑p′
où cjj = l=1 vlj2 /λj .
Donc si jamais on trouve des V IF > 10, l’algorithme permettant d’identifier les sources
de la multicollinéarités est le suivant :
1. Calculer les indices de conditionnement ϕj et vérifier si certains d’entre eux ont une
valeur supérieure à 30.
2. Pour chaque ϕj dont la valeur excède 30, calculer les proportions de la variance
p1j , . . . , pp′ j .
3. Les variables exogènes correspondant aux coefficients avec des valeurs de plj élevées
(en général nettement supérieures à 60%) sont en multicollinéarité.

Remarque 3.1 Si nous sommes en présence de VIF élevés mais que l’analyse des valeurs
propres de X ⋆ ′ X ⋆ ne révèle aucun problème, alors il est fort probable que la colonne de 1
de la matrice X soit impliquée dans la(les) dépendance(s) linéaire(s). Dans ce cas, on peut

utiliser l’algorithme ci-dessus, mais en utilisant la matrice X̃ X̃ au lieu de X ⋆ ′ X ⋆ , où X̃ est
la matrice X originale, mais dont les colonnes sont standardisées, mais non centrées.
75

3.1.2 Remèdes possibles


Que faire si on diagnostique un problème de multicollinéarité ? Quelques options se pré-
sentent à nous. La plus simple est d’éliminer la quasi dépendance linéaire en réduisant la
dimension de la matrice de schéma. Ainsi, si les variables exogènes x1 , x5 et x6 sont en mul-
ticollinéarité, on doit remplacer ces trois variables par deux variables (exemples : x1 et x5 ,
ou x1 et (x5 + x6 )/2, ou (x1 + x5 )/2 et (x1 + x6 )/2, etc.)
Cependant certains chercheurs tiendront absolument à ce que toutes les variables exogènes
soient utilisées. Dans ce cas, il faudra avoir recours à une transformation non linéaire d’une
des variables exogènes en multicollinéarité, ou à une méthode d’estimation autre que celle des
moindres carrés. Ces méthodes ont l’inconvénient de produire des estimateurs biaisés, mais
en contre-partie leur variance n’est que très peu affectée par la présence de multicollinéarité.
Des exemples de telles méthodes sont la régression en composante principale et la régression
ridge.
Une discussion très détaillée de tous les aspects de la multicollinéarité est donnée dans
le manuel de Belsley (1991).

Exemple 3.1 (Vols vers Boston) Le package R nycflights13 contient des données sur
les vols de grandes compagnies partant des aéroports de la région de New York. On peut
se créer un jeu de données avec 1 163 vols vers Boston du mois de juillet et tenter de
voir si l’on peut expliquer le nombre de minutes de retard à l’arrivée à Boston à partir des
variables dep_delay (nombre de minutes de retard au départ), origin (aéroport de départ, 3
modalités), wknd (vol de weekend, 2 modalités), evening_rush_hour (vol à l’heure de pointe
de début de soirée, 2 modalités), seats (nombre de sièges dans l’avion), temp (température
extérieure), dewp (point de rosée), humid (humidité relative), wind_sin (vitesse du vent ×
sinus de sa direction), wind_cos (vitesse du vent × cosinus de sa direction), precip_indic
(présence de précipitations) et visib (visibilité).
Intuitivement, on s’attend à ce que le retard au départ explique la majeure partie du
retard à l’arrivée, mais est-ce que les autres variables peuvent aussi expliquer une partie du
retard ? Avant de commencer à ajuster des modèles et tenter de répondre à la question, on
peut se demander si toutes les variables sont bien utiles. Par exemple plusieurs variables
76

associées à la météo sont probablement fort corrélées, peut-être même au point de contenir
de l’information redondante. Voyons tout d’abord si certaines dépendances dans le jeu de
données mènent à une inflation de la variance. À noter que le package olsrr effectue les

diagnostics ci-dessous à partir de la matrice X̃ X̃.
Variables Tolerance VIF
dep_delay 0.912 1.10
originJFK 0.686 1.46
originLGA 0.570 1.75
wkndTRUE 0.912 1.10
evening_rush_hourTRUE 0.870 1.15
seats 0.758 1.32
temp 0.0229 43.7
dewp 0.0283 35.3
humid 0.0176 56.7
wind_sin 0.742 1.35
wind_cos 0.617 1.62
precip_indicTRUE 0.712 1.40
visib 0.608 1.64

Il y a clairement un problème ici, avec trois VIF clairement supérieurs à 10. Maintenant
qu’un problème est identifié, l’étape suivante est d’en trouver la source. Pour ce faire, on
doit calculer les indices de conditionnement et voir quelles variables ont des proportions de
variabilité élevées pour le plus grand indice de conditionnement, si ce dernier est supérieur
à 30. La sortie ci-dessous donne cette information pour la ligne correspondant au plus grand
indice de conditionnement.
Eigenvalue and Condition Index
------------------------------
Eigenvalue Condition Index intercept dep_delay originJFK originLGA wkndTRUE
14 8.555731e-05 281.502273 8.497028e-01 0.0013575880 0.000119774 1.559966e-03 0.0002417418
evening_rush_hourTRUE seats temp dewp
0.001680512 5.402956e-06 9.956450e-01 9.592541e-01
humid wind_sin wind_cos precip_indicTRUE visib
9.812759e-01 0.009078833 0.0006563675 0.0022619336 7.323268e-02

L’indice de valeur 281.502 est de beaucoup supérieur à 30, et les proportions de variabilité
supérieures à 50% sont celles de la colonne de 1 (intercept), de la température, du point de
rosée et de l’humidité relative. Au moins une de ces colonnes est redondante et on doit passer
de 4 variables à 3. Commençons par enlever la température et refaisons le diagnostic.
77

Variables Tolerance VIF


dep_delay 0.913 1.10
originJFK 0.687 1.46
originLGA 0.571 1.75
wkndTRUE 0.912 1.10
evening_rush_hourTRUE 0.873 1.15
seats 0.758 1.32
dewp 0.501 2.00
humid 0.504 1.98
wind_sin 0.752 1.33
wind_cos 0.617 1.62
precip_indicTRUE 0.715 1.40
visib 0.644 1.55

Tous les VIF sont maintenant clairement inférieurs à 10 (en fait à peine plus élevés que
1), et donc il n’y a plus d’inflation de la variance. On a donc réglé le problème de multicol-
linéarité et nous poursuivrons nos analyses avec toutes les variables du jeu de données, sauf
la température.

3.2 Méthodes de sélection de modèle


Lorsque l’on fait une analyse de régression, nous nous retrouvons fréquemment dans
une situation où un grand nombre de variables exogènes ont été mesurées et incluses dans
la base de données. Il peut même arriver dans certains champs d’application que p > n,
comme par exemple en génomique. Comme nous le verrons plus bas, ceci est souvent dû au
fait que pour obtenir des estimés des coefficients de régression sans biais, il faut que toutes
les variables qui sont à la fois corrélées avec la variable endogène et une variable exogène
d’intérêt soient incluses dans le modèle de régression. La présence de telles variables (appelées
“variables confondantes” ou “facteurs confondants” dans certains champs d’application) se
produit habituellement lors d’expériences non planifiées, où la randomisation ne peut pas
être employée pour assurer une indépedance entre la variable exogène d’intérêt et d’autres
variables potentiellement nuisibles. Malheureusement, inclure trop de variables exogènes peut
aussi avoir des conséquences fâcheuses sur les inférences et, surtout, sur la prévision de
nouvelles observations. La sélection d’un sous-ensemble approprié des variables exogènes à
inclure dans le modèle de régression est donc une étape importante de toute analyse basée
78

sur un modèle de régression. Le sens à donner au mot “approprié” ici dépend grandement
des objectifs de l’analyse (inférence vs prévision).

3.2.1 Importance de la sélection de variables


Biais induit par l’omission de variables exogènes

Puisque les calculs se font de manière explicite pour le modèle de régression linéaire, nous
illlustrons les concepts à partir de ce dernier, mais les principes s’appliquent également aux
GLM. Supposons que le vrai modèle est le modèle E[Y ] = X 1 β 1 + X 2 β 2 , où β 1 compte
p paramètres et β 2 compte m − p paramètres. Maintenant supposons que nous ajustons
le modèle E[Y ] = X 1 β 1 aux données. Nous aurons donc β̂ 1 = (X ′1 X 1 )−1 X ′1 Y comme
estimateur de β 1 . Est-ce un bon estimateur ?

E[β̂ 1 ] = E[(X ′1 X 1 )−1 X ′1 Y ] = (X ′1 X 1 )−1 X ′1 E[Y ]


= (X ′1 X 1 )−1 X ′1 (X 1 β 1 + X 2 β 2 )
= β 1 + (X ′1 X 1 )−1 X ′1 X 2 β 2 = β 1 + Aβ 2 . (3.1)

Le résultat (3.1) est-il problématique ? En fait il nous dit que l’on aura un estimateur de β 1
biaisé si, et seulement si les deux conditions suivantes sont remplies : (i) β 2 ̸= 0 et
(ii) (X ′1 X 1 )−1 X ′1 X 2 ̸= 0. Pour remplir la condition (i), il faut que la valeur de Y dépende
de X 2 . Pour la condition (ii), on remarque qu’il s’agit des estimateurs des moindres carrés
des régressions de chaque variable dans X 2 sur les variables exogènes dans X 1 . On aura
donc que les estimateurs des effets des variables dans X 1 sur la loi de Y sont
biaisés lorsque l’on omet d’inclure dans le modèle de régression les variables qui
sont à la fois corrélées avec la variable endogène et avec les variables dans X 1 .
L’effet d’une telle omission se fera aussi sentir sur les prévisions. En effet, si nous utilisons
x∗1 ′ β̂ 1 pour estimer E[Y ; x∗ ], le biais ne sera pas 0 mais bien

E[x∗1 ′ β̂ 1 ] − (x∗1 ′ β 1 + x∗2 ′ β 2 ) = (x∗1 ′ A − x∗2 ′ )β 2 .

Pour plus tard, il est utile de noter que (Biais)2 = β ′2 (x∗1 ′ A − x∗2 ′ )′ (x∗1 ′ A − x∗2 ′ )β 2 . Si s2p
79

est l’estimateur de σ 2 obtenu avec le modèle à p paramètres (seulement β 1 ), alors


1 ∑ n
E[s2p ] = σ 2 + [Biais(Ŷ (x∗i ))]2 .
n − p i=1
On comprend donc que lorsqu’un modèle ne contient pas toutes les variables exogènes im-
portantes, les estimateurs des coefficients de régression sont biaisés et la variance des termes
d’erreur est sur-estimée.

Problèmes causés par l’ajout de variables inutiles

À première vue, on pourrait être tenté d’utiliser un modèle qui contient une longue liste
de variables exogènes puisque pour les variables inutiles, le coefficient β sera estimé sans
biais, donc près de zéro. Cependant on peut montrer que si l’on ajuste aux données un
modèle comptant trop de paramètres, alors la variance des estimateurs des coefficients et la
variance des prévisions seront supérieures à celles que l’on obtient à partir du vrai modèle, et
parfois de beaucoup. Qui plus est, d’autres problèmes peuvent survenir, comme l’incapacité
de prédire de nouvelles observations (surapprentissage) et la multicollinéarité. Et bien sûr,
dans le cas extrême où p > n, alors X ne sera pas de plein rang et on ne pourra donc même
pas inverser X ′ X pour obtenir β̂.

Propriétés recherchées d’une méthode de sélection

Supposons que le “vrai” modèle ayant généré les données soit un sous-modèle du modèle
de régression complet
Y = β0 + β1 x1 + · · · + βp′ xp′ + ε.
Soit β ∗1 , le vecteur des βj non-nuls et β ∗2 le vecteur des βj = 0. On recherche habituellement
deux qualités quand on applique des méthodes de sélection de variables :
1. Une sélection convergente, c’est-à-dire que l’on veut que lorsque notre taille d’échan-
tillon devient très grande (n → ∞), la probabilité que notre méthode identifie correc-
tement les βj qui font partie de chacun de β ∗1 et β ∗2 tendent vers 100%.
2. Une estimation post-sélection sans biais, c’est-à-dire qu’une fois β ∗1 identifié, on
veut que son estimation soit sans biais.
80

Une propriété qui est légèrement plus forte que les deux qualités ci-dessus combinées est la
propriété dite d’oracle. Une méthode de sélection qui a la propriété d’oracle est une méthode
qui offre une sélection convergente et dont l’estimation de β 1 quand n → ∞ devient aussi
bonne que si l’on estimait directement β 1 par la méthode du maximum de vraisemblance.
Autrement dit c’est une méthode qui, lorsque la taille d’échantillon est grande, est aussi
bonne qui si l’on connaissait le vrai modèle et que l’on en estimait ses paramètres par la
méthode du maximum de vraisemblance.

Approches possibles

On peut partitionner les approches de sélection de variables en trois grandes familles :


1. méthodes basées sur la sélection de sous-modèles ;
2. méthodes basées sur la régularisation ;
3. méthodes basées sur la réduction de la dimension.
Nous allons aborder les méthodes basées sur la sélection de sous-modèles en détails, celles
basées sur la régularisation plus rapidement et nous ne ferons que mentionner quelques
méthodes de réduction de la dimension sans les étudier dans ces notes.
L’approche par sélection de sous-modèles consiste à ajuster le plus de sous-modèles pos-
sibles aux données et ensuite de choisir le meilleur à l’aide d’un critère qui mesure la “qualité”
des modèles ajustés, ou bien de passer d’un sous-modèle au sous-modèle suivant en utilisant
certains critères pour nous dire quel est le modèle suivant qui doit être considéré et à quel
moment nous sommes arrivés à notre modèle “final”. Règle générale, il est difficile de dé-
montrer que ces approches ont les propriétés recherchées dans le cas général, à part pour la
sélection convergente qui est habituellement vraie pour les méthodes non algorithmiques.
Les méthodes basées sur la régularisation peuvent avoir la propriété d’oracle sous certaines
conditions.
81

3.2.2 Méthodes basées sur la sélection de sous-modèles


Critères de comparaison classiques

Comme la décomposition de la variabilité totale peut nous inciter à le penser, un bon


modèle de régression expliquera en général une partie importante de la variabilité. Un premier
critère mesurant la qualité d’un modèle de régression linéaire peut donc être défini comme
suit :
SSReg SSRes
R2 = =1− . (3.2)
SST ot SST ot
Puisque SST ot = SSReg + SSRes et que les trois sommes de carrés sont positives, alors
0 ≤ R2 ≤ 1. Si le modèle de régression explique la totalité de la variabilité dans Y , alors
SSReg = SST ot , SSRes = 0 et donc R2 = 1. À l’opposé, si le modèle n’explique rien, alors
SSReg = 0 = R2 . Ainsi, plus la valeur de R2 est grande et approche 1, plus le modèle de
régression explique une grande partie de la variabilité de la variable endogène. La statistique
R2 est parfois appelée coefficient de détermination.
Bien que facilement interprété et naturellement attrayant, le coefficient de détermination
souffre de quelques problèmes qui font qu’il ne peut pas être utilisé pour comparer
n’importe quels modèles de régression l’un avec l’autre. L’inconvenient principal est que dès
que l’on ajoute un terme à un modèle de régression, SSReg ne peut pas diminuer. Comme
SST ot ne dépend pas du modèle, elle reste inchangée. Donc l’ajout d’un terme au modèle
implique un R2 plus grand ou égal. Ainsi, si le “vrai” modèle générant les données est
Yi = β0 +β1 xi,1 +εi et que l’on ajuste ce modèle ainsi que le modèle Yi = β0 +β1 xi,1 +β2 x2i,2 +εi ,
il est fort probable que le R2 du second modèle soit supérieur à celui du “vrai” modèle. Bien
que l’ajout de termes superflus ne crée pas de biais dans le modèle, ces termes superflus
réduisent en général la précision dans les prévisions et il est souhaitable de les éviter.
Afin de circonscrire à ce problème, nous pouvons utiliser le coefficient de détermination
ajusté :
CMRes SSRes /(n − p) s2
2
Rajus =1− =1− = 1 − (n − 1) . (3.3)
CMT ot SST ot /(n − 1) SST ot
2
Avec Rajus , l’ajout d’une variable exogène peut aussi résulter en une diminution de la sta-
tistique. Comme on peut le voir dans la dernière égalité de l’équation (3.3), comparer deux
82

2
modèles sur la base de leur Rajus est équivalent à comparer deux modèles sur la base de leur
estimé de la variance des termes d’erreur s2 , puisque SST ot et n ne dépendent pas du modèle
choisi.
Il est bon de noter que peu importe si on utilise R2 ou Rajus
2
, on ne peut pas vraiment se
fier sur ces statistiques pour comparer des modèles employant des transformations différentes
de la variable endogène Y , ou un modèle avec et un modèle sans ordonnée à l’origine, puisque
dans ces cas, SST ot varie d’un modèle à l’autre.

Exemple 3.2 (Vols vers Boston) Lorsqu’on ajuste le modèle complet aux données sur les
vols vers Boston, on obtient la table d’analyse de la variance ci-dessous.

Sum of
Squares DF Mean Square F Sig.
--------------------------------------------------------------------------
Regression 2794196.798 12 232849.733 991.429 0.0000
Residual 270092.264 1150 234.863
Total 3064289.063 1162

Il est très simple d’obtenir les coefficients de détermination R2 et Rajus


2
à partir de cette
table.
SSReg 2794196.798
R2 = = = 91.19%
SST ot 3064289.063
s2 234.863
2
Rajus = 1 − (n − 1) = 1 − (1162) = 91.10%.
SST ot 3064289.063
Le modèle explique donc environ 91% de la variabilité dans les minutes de retard des vols
à l’arrivée. (Pour votre curiosité, un modèle de régression linéaire simple avec comme seule
variable le retard au départ explique 89.5% de cette variabilité.)

Plusieurs versions de R2 et Rajus


2
ont été développées pour les GLM, appelés pseudo R2
ou pseudo R2 ajustés. Ils s’interprètent de manière similaire à R2 et Rajust
2
. Par exemple soit
ℓN la log-vraisemblance maximale du modèle avec seulement β0 (modèle nul) et ℓI la log-
vraisemblance du modèle d’intérêt. Alors le pseudo R2 de McFadden pour le modèle d’intérêt
est 1 − ℓI /ℓN , alors que le pseudo Rajus
2
de McFadden est 1 − (ℓI − p)/ℓN .
83

Méthodes basées sur la puissance de prévision

Comme les prévisions sont très sensibles au choix de modèle, il serait souhaitable de définir
les critères de qualité d’un modèle selon son habileté à prédire de nouvelles observations de
façon adéquate. Malheureusement, nous voulons en général utiliser toutes nos données afin
d’estimer les paramètres de la façon la plus précise possible, donc nous ne pouvons pas tester
notre modèle sur de nouvelles observations, à moins d’user d’un peu d’ingéniosité !

Le principe de validation croisée

La validation croisée sert à mesurer la capacité d’un modèle donné à bien prédire de
nouvelles observations. Un algorithme classique de validation croisée consiste à
1. Enlever la ième observation du jeu de données.
2. Estimer les paramètres du modèle à partir des n − 1 données restantes.
3. Prédire Yi à partir de xi et du modèle obtenu en 2. Dénoter cette valeur prédite Ŷi,−i .
4. Répéter les étapes 1 à 3 pour chaque i, i = 1, . . . , n.
∑n
5. Calculer la somme des carrés des erreurs de prévision P RESS = i=1 (Yi − Ŷi,−i )2 .
Le critère P RESS permet de comparer entre eux tous les modèles utilisant la même trans-
formation pour la variable endogène. Évidemment, plus le critère P RESS est faible, plus le
modèle prédit bien. Le critère P RESS peut aussi servir à définir un coefficient de détermi-
nation de prévision :

i=1 (Yi − Ŷi,−i )
n 2
P RESS
2
Rprev =1− = 1 − ∑n . (3.4)
SST ot i=1 (Yi − Ȳ )
2

2
Encore une fois, une valeur de Rprev approchant 1 est signe d’un modèle qui prédit bien,
tandis qu’une valeur approchant 0 signifie un modèle qui prédit mal.

Les résidus PRESS

Le ième résidu P RESS est le radical du ième terme de la somme des carrés des erreurs
de prévision, c.-à-d. ei,−i = Yi − Ŷi,−i . Lorsque nous comparons des modèles, nous regardons
84

la somme P RESS, mais il est aussi bon de regarder chaque résidu P RESS de façon indi-
viduelle. En effet, un modèle faisant des prévisions précises partout sauf en un point peut
quand-même avoir une grande valeur pour la somme P RESS.
La pertinence théorique des résidus P RESS devrait maintenant être claire. Mais la tâche
de les calculer semble interminable ! Heureusement, les propriétés de la matrice chapeau
rendent ce calcul invraisemblablement simple.

Théorème 3.1 Le ième résidu P RESS peut être obtenu à l’aide du ième résidu ordinaire
et de l’élément en position i, i de la matrice chapeau grâce à la relation
ei
ei,−i = .
1 − hii
La conséquence surprenante, grandiose et très pratique du théorème “miracle” 3.1 est que
les résidus P RESS et la statistique P RESS peuvent être obtenus sans avoir à effectuer les
n régressions de l’algorithme de validation croisée !

Corollaire 3.1.1 n ( )2
∑ ei
P RESS = .
i=1 1 − hii

À la section 1.6 on a vu que hii détermine la longueur de l’intervalle de prévision. Comme


0 ≤ hii ≤ 1, une valeur de hii près de 1 indique un intervalle de prévision large. Ceci est tout-
à-fait en accord avec la formule du théorème 3.1, puisque le dénominateur de ei,−i approche
0 lorsque hii approche 1, et donc ei,−i (l’erreur de prévision) approche l’infini et la valeur de
Yi est difficile à prédire.

Exemple 3.2 (Vols vers Boston) Pour le jeu de données sur les vols vers Boston, on
obtient une statistique P RESS = 276873.4, et donc RP2 RESS = 1 − 276873.4/3064289.063 =
91.0%.

Malheureusement, le théorème 3.1 ne fonctionne que pour la régression linéaire. Avec les
GLM, on doit faire au long toutes les n régressions. Par contre on suggère fortement d’y
aller avec une validation croisée à k-plis (k-fold cross-validation), qui consiste à enlever n/k
observations à la fois plutôt qu’une seule, particulièrement pour la régression logistique où
85

comparer des 1 ou des 0 à des probabilités de succès a peu de sens, alors que comparer un
nombre de succès en n/k tentatives à un nombre de succès espéré pour ces tentatives est
plus sensé.

Exemple 3.3 (Consommation d’essence) Si nous retournons à l’exemple de la consom-


mation d’essence avec variable endogène non transformée, utilisons les critères R2 , Rajus
2
et
P RESS pour comparer les trois modèles suivants : (i) le modèle complet, (ii) le modèle avec
taxe et revenu, (iii) le modèle avec taxe, taux de permis et revenu.
Pour (i), on a que R2 = 0.679, Rajus
2
= 0.649 et P RESS = 235 401. Pour (ii), on a
que R2 = 0.261, Rajus
2
= 0.228 et P RESS = 490 323. Finalement, pour (iii) on obtient
R2 = 0.675, Rajus
2 2
= 0.653 et P RESS = 229 999. Clairement, les critères Rajus et P RESS
favorisent le modèle (iii). Cet exemple illustre bien la déficience du critère R2 , qui ne peut
pas favoriser un modèle qui est inclus dans un modèle plus grand (ici le modèle (iii) est inclus
dans le modèle (i), et donc R2 ne favorisera jamais (iii) par rapport à (i)).
Pour que notre traitement de cet exemple ait été vraiment rigoureux, il aurait fallu faire
les mêmes calculs pour tous les 16 modèles possibles avec ces variables ... Mais le modèle
(iii) serait encore sorti grand gagnant.

Méthodes algorithmiques
2
Ces méthodes sont moins recommandées que l’utilisation des critères comme Rajus ou
P RESS, mais comme 2k+1 croit rapidement en fonction de k, il peut parfois être impossible
de calculer les critères pour tous les modèles possibles. C’est pour ces raisons, et aussi dû à
un manque de puissance informatique à l’époque, que des méthodes algorithmiques ont été
inventées. De plus, nous verrons dans les chapitres suivants que des critères équivalents aux
P RESS, etc. ne seront pas toujours aussi facilement disponibles lorsque nous travaillerons
avec d’autres types de régression, alors que les méthodes algorithmiques demeureront tou-
jours applicables. Les méthodes algorithmiques sont décrites dans le cadre d’un test F en
régression linéaire, mais elles s’appliquent exactement de la même façcon pour les GLM, en
remplaçant simplement le test F par un test du rapport des vraisemblances.
86

Méthode d’inclusion (forward selection)

On fixe tout d’abord ce que l’on appelle un seuil d’entrée, αIN . Pour chaque variable
exogène xj , on effectue le test d’hypothèse suivant

H0 : Yi = β0 + εi
H1 : Yi = β0 + β1 xij + εi

à l’aide du test F et du principe de somme des carrés résiduelle additionnelle. La variable


exogène pour laquelle la statistique F est la plus élevée, disons x(1) , entre dans le modèle, en
autant que le seuil du test F pour cette variable soit inférieur à αIN . Ceci équivaut à faire
entrer dans le modèle la variable faisant augmenter le plus le R2 , en autant que son effet soit
significatif.
On répète ensuite la procédure avec toutes les variables exogènes restantes, mais avec
x(1) maintenant incluse dans le modèle :

H0 : Yi = β0 + β1 xi(1) + εi
H1 : Yi = β0 + β1 xi(1) + β2 xij + εi

Encore une fois, la variable exogène pour laquelle la statistique F est la plus élevée est
ajoutée au modèle, en autant que le seuil du test soit inférieur à αIN .
La procédure continue ainsi jusqu’à ce qu’il n’y ait plus de variable exogène pour laquelle
le seuil du test est inférieur à αIN , ou lorsque que toutes les variables exogènes sont incluses
dans le modèle.

Méthode d’exclusion (backward elimination)

On fixe d’abord un seuil de sortie, αOU T . Nous commençons avec le modèle comprenant
toutes les variables exogènes. On enlève ensuite la variable qui a l’impact le plus faible sur
le R2 . Ceci est fait en éliminant la variable dont la statistique F du test

H0 : Yi = β0 + β1 xi1 + · · · + βj−1 xi,j−1 + βj+1 xi,j+1 + · · · + βp′ xip′ + εi


H1 : Yi = β0 + β1 xi1 + · · · + βp′ xip′ + εi
87

a la plus faible valeur, en autant que le test ait un seuil supérieur à αOU T .
Cette procédure est répétée jusqu’à ce que toutes les variables exogènes restant dans le
modèle aient un seuil inférieur à αOU T .
NOTE IMPORTANTE : Une erreur commune commise en pratique est d’ajuster le
modèle complet, et ensuite d’éliminer toutes les variables pour lesquelles le seuil est trop élevé
d’un seul coup. Ceci n’est pas approprié si les données ne proviennent pas d’une expérience
planifiée, car après l’élimination d’une ou deux variables, certaines variables qui ne semblaient
pas du tout importantes peuvent le devenir !

Méthode pas-à-pas (stepwise regression)

La méthode pas-à-pas se veut une méthode d’inclusion où une itération de la méthode


d’exclusion est effectuée entre deux itérations de la méthode d’inclusion. Formellement, on
fixe un seuil d’entrée αIN et un seuil de sortie αOU T . On commence avec le modèle ne conte-
nant que le terme d’ordonnée à l’origine. On fait ensuite un pas de l’algorithme d’inclusion.
Après ce pas, on effectue un pas de la méthode d’exclusion afin que les variables présentes
dans le modèle aient un seuil inférieur à αOU T . On fait ensuite un autre pas de la méthode
d’inclusion, et ainsi de suite. L’algorithme cesse lorsque soit aucune variable additionnelle
ne peut entrer dans le modèle et qu’aucune variable ne peut être sortie du modèle, soit la
variable qui sort du modèle est la même que celle qui vient d’y entrer.
En général, on choisit un seuil d’entrée élevé (20% à 30%) et un seuil de sortie faible (5%
à 15%) afin de considérer le plus grand nombre de modèles possibles. Malgré ces précautions,
il n’est pas garanti que le meilleur modèle sera considéré par les méthodes algorithmiques.

Quelques autres critères

D’autres critères qui sont parfois utilisés en pratique sont basés sur la théorie de l’infor-
mation. Encore une fois, si on veut utiliser ces critères, il faut habituellement ajuster tous les
sous-modèles possibles (ou du moins plausibles, ou qui sont susceptibles de nous intéresser).
Ensuite pour chacun de ces sous-modèles, on calcule le critère en question.
88

Critère d’information d’Akaike, AIC

Il s’agit en fait d’une approximation asymptotique de la distance espérée entre le modèle


ajusté et le “vrai modèle” qui a généré les données. Autrement dit, si on calcule la valeur du
critère AIC pour un ensemble de sous-modèles et que l’on choisit celui pour lequel l’AIC est
le plus petit, alors on choisit le modèle qui, dans cet ensemble, est “le moins loin” du vrai
modèle. Le critère est donné par

AIC = −2l(β̂, σ̂ 2 ) + 2(p + 1),

où l(β̂, σ̂ 2 ) est la log-vraisemblance maximisée obtenue en ajustant le sous-modèle en ques-


tion. On peut donc voir que l’AIC cherche un compromis entre la maximisation de la vrai-
semblance et la parsimonie du modèle.

Critère d’information bayésienne de Schwartz, BIC

Supposons que nous considérons un ensemble de k sous-modèles possibles et qu’a priori,


chacun d’entre eux est aussi probable d’être le “vrai modèle” qui a généré les données.
Alors le modèle qui minimise le critère de Schwartz est celui dont la probabilité a posteriori
approximative d’être le vrai modèle est la plus forte. Ce critère est donné par

BIC = −2l(β̂, σ̂ 2 ) + (p + 1) ln(n).

Exemple 3.2 (Vols vers Boston) Comparons les modèles obtenus avec les méthodes lis-
tées ci-dessus. Tout d’abord pour les approches algorithmiques, avec un seuil d’entrée αIN =
0.30 et un seuil de sortie αOU T = 0.05, la méthode pas-à-pas conserve les variables dep_delay,
seats, evening_rush_hour, wknd, win_sin, tout comme les méthodes d’inclusion et d’ex-
clusion avec seuil de 0.05. La statistique P RESS = 278306.2, ce qui est malheureusement
2
supérieur à ce que nous obtenons avec le modèle complet. Le Rajus diminue à 91.0%.
Si on ajuste tous les sous-modèles possibles et que l’on conserve celui avec la meilleure
statistique PRESS ou le meilleur AIC, on obtient le même modèle qu’avec les méthodes
algorithmiques, sauf que l’on y ajoute la variable origin. Cet ajout fait passer le Rajus à
91.1% et la statistique PRESS à 275187.5.
89

3.2.3 Méthodes de régularisation


Nous avons vu que lorsque p est vraiment très grand, il n’est pas pratiquement possible
2
de calculer un critère (Rajus , P RESS, AIC) pour chaque sous-modèle possible. Qui plus
est, dans ce cas il est loin d’être certain qu’une méthode algorithmique “passera” par le
meilleur modèle. De nouvelles méthodes de régression ont été (et sont toujours) développées
pour tenter de contourner ce problème. Le lecteur intéressé peut trouver plus d’information
dans les pages d’aide de logiciels comme R et SAS, ou dans des livres comme celui de James
et al. (2013, chap. 6). Dans ces notes, nous ne faisons qu’illustrer le principe en présentant
quelques options populaires et disponibles dans les logiciels SAS et R.
Les méthodes de régularisation partent du principe que si des variables inutiles sont
incluses dans le modèles, la variance des estimés des coefficients de régression va exploser
et on aura tendance à avoir des β̂j qui prennent des valeurs extrêmes. Ces méthodes vont
donc trouver la valeur de β̂ qui minimise −l(β̂), mais sous la contrainte que la longueur du
vecteur β̂ est bornée. Mathématiquement, on cherche β̂ qui minimise

−l(β̂) + λq(||β̂||), (3.5)

où q(||β̂||) est un terme de pénalité qui varie selon la méthode choisie et λ ≥ 0 est un
paramètre spécifié par l’utilisateur (on y reviendra plus bas).

Régression ridge

La pénalité la plus classique est la pénalité “ridge”, soit




p
q(||β̂||) = β̂j2 . (3.6)
j=1

Cette pénalité est très efficace lorsque la corrélation entre certaines des variables x1 , . . . , xp′
est forte, situation dans laquelle elle fera énormément diminuer la variance des β̂j au faible
prix d’un biais très léger. Minimiser (3.5) dans ce cas revient à minimiser −l(β̂) sous la
∑p′
contrainte que β̂j2 ≤ λ′ , c’est-à-dire que l’on cherche la valeur de β qui minimise −l(β̂)
j=1
√ ′
dans une sphère de rayon λ′ au lieu de chercher dans l’espace Rp au complet.
90

LASSO

L’inconvénient majeur de la pénalité “ridge” est qu’elle ne permet pas d’effectuer la


sélection de variables ; elle va forcer la valeur de certains β̂j à se rapprocher de 0, mais elle ne
va pas mener à des β̂j = 0 exactement. C’est pourquoi on a développé la pénalité “LASSO”,


p
q(||β̂||) = |β̂j |, (3.7)
j=1

∑p′
pour laquelle on se trouve à minimiser −l(β̂) sous la contrainte que j=1 |β̂j | ≤ λ′ , c’est-
à-dire que l’on cherche la valeur de β qui minimise −l(β̂) dans un losange. La figure 3.1
illustre bien pourquoi certain des β̂j seront égaux à 0 avec ce type de contrainte.
En pratique, parfois les gens vont utiliser le LASSO pour effectuer la sélection de va-
riables et ensuite utiliser la méthode des moindres carrés/du maximum de vraisemblance
pour ajuster le modèle sélectionné et faire les inférences désirées.

Régression “Elastic Net”

La régression “Elastic Net” cherche à combiner les avantages de la régression “ridge”


(diminuer massivement la variance des β̂j quand des variables exogènes sont corrélées) et
du LASSO (effectuer une sélection de variables, c’est-à-dire donner des β̂j = 0 exactement).
Pour ce faire, elle combine tout simplement les deux pénalités (3.6) et (3.7) en cherchant à
minimiser ′ ′

p ∑
p
−l(β̂) + λ1 β̂j2 + λ2 |β̂j |, (3.8)
j=1 j=1

où λ1 et λ2 sont des paramètres fixés par l’analyste. En pratique, on va poser λ1 = (1 − α)λ


et λ2 = αλ et fixer la valeur de α (1 donne le LASSO, 0 donne la régression ridge, une valeur
dans (0,1) donne la régression Elastic Net) et choisir la valeur de λ par validation croisée.

Choix du paramètre λ

Le paramètre λ en LASSO et en régression “Elastic Net” contrôle la taille (nombre de


variables) du modèle final (λ = 0 donne le plus grand modèle et coïncide avec la régression
91

ߚଶ

ߚመଶ

ߚ෨ଶ

ߚመଵ ߚଵ
ߚ෨ଵ

Figure 3.1 – Les courbes de niveau représentent la valeur de la fonction objectif, minimale
au point (β̂1 , β̂2 ). Le losange représente la frontière de la région q(||β̂||) ≤ λ pour une valeur
donnée de λ et (β̃1 , β̃2 ) minimise −l(β̂) sous la contrainte que (β1 , β2 ) est dans le losange.
On voit qu’ici, β̃1 = 0.
92

ordinaire, et le modèle se simplifie au fur et à mesure que λ augmente). En pratique, on


ajuste le modèle avec plusieurs valeurs de λ et on choisit celle qui donne le modèle avec
2
le meilleur PRESS (ou Rajus , ou autre critère). L’algorithme LARS (least angle regression)
permet d’obtenir rapidement les solutions au problème d’optimisation pour le LASSO pour
toute valeur de λ ≥ 0 en régression linéaire. Par contre un tel racourci n’est pas disponible
pour les GLM.

Autres pénalités et recherche actuelle

D’autres formes de pénalités ont été proposées en plus des trois mentionnées dans cette
section (par exemple la pénalité SCAD). Les méthodes de régularisation sont d’ailleurs tou-
jours l’objet de recherche active : on cherche à les adapter pour la sélection d’éléments de
modèles plus complexes comme ceux des chapitres 6 et 7 de ce cours, on cherche à produire
des algorithmes pour qu’elles soient plus facile à mettre en oeuvre sur des machines multi-
coeurs, on cherche à mieux comprendre les propriétés des inférences qui sont faites suite à
leur application, etc.

Exemple 3.2 (Vols vers Boston) Si on applique la méthode du LASSO aux données sur
les vols, la validation croisée à 10 plis suggère de prendre λ = 0.266, ce qui donne le même
modèle que celui avec le meilleur AIC, sauf qu’on y ajoute aussi les deux variables de vent
wind_sin et wind_cos.
Supposons qu’après discussion avec les collègues on opte pour ce modèle comme modèle
final. Lorsqu’on l’ajuste avec la méthode des moindres carrés ordinaires on obtient la sortie
qui suit.

model Beta Std. Error Std. Beta t Sig lower upper


(Intercept) -2.258 1.204 -1.876 0.061 -4.619 0.104
dep_delay 1.025 0.010 0.958 105.436 0.000 1.006 1.044
originJFK -0.537 1.146 -0.005 -0.468 0.640 -2.785 1.711
originLGA 4.296 1.293 0.038 3.321 0.001 1.758 6.833
evening_rush_hourTRUE 8.543 1.707 0.045 5.005 0.000 5.194 11.892
seats -0.043 0.007 -0.060 -5.956 0.000 -0.057 -0.029
wkndTRUE -3.186 1.223 -0.024 -2.606 0.009 -5.584 -0.787
wind_sin 0.206 0.073 0.026 2.817 0.005 0.062 0.349
wind_cos 0.061 0.060 0.010 1.007 0.314 -0.057 0.179
93

On voit que les variables qui semblent associées à une arrivée en retard (bêta positif) sont
de décoller en retard, partir de l’aéroport LGA, partir à l’heure de pointe du souper et lorsque
les vents viennent du nord (sinus positif) ou (dans une moindre mesure) de l’est 1 .
En contrepartie, partir le weekend, partir de l’aéroport JFK ou voler dans un avion avec
plus de sièges sont associés avec des retards à l’arrivée plus courts. À noter que pour l’aéroport
d’origine, la modalité de référence est de partir de l’aéroport de Newark.

3.2.4 Méthodes de réduction de la dimension


Une autre approche parfois utilisée lorsque le but de l’analyse est de prédire Y est la
réduction de la dimension. Dans cette approche, on se construit k << p′ nouvelles variables
z1 , . . . , zk qui sont des combinaisons linéaires des variables originales x1 , . . . , xp′ , et ensuite
on utilise z1 , . . . , zk comme variables exogènes dans le modèle de régression au lieu d’utiliser
x1 , . . . , xp′ . Les techniques possibles pour effectuer cette réduction de la dimension incluent :
— l’analyse en composante principale (ACP en français, PCA en anglais), une stratégie
où l’on prend les k combinaisons linéaires qui capturent la plus grande proportion
possible de la variabilité dans les variables originales ;
— les moindres carrés partiels (PLS en anglais), une stratégie où l’on prend les k com-
binaisons linéaires qui sont les plus fortement corrélées avec Y .
Plus de détails sur ces méthodes, ainsi que d’autres méthodes de sélection de variables ou de
réduction de la dimension, sont donnés dans des livres comme ceux de James et al. (2013)
ou de Kuhn et Johnson (2013).

3.2.5 Que doit-on faire dans la pratique ?


Tout dépendant du champ d’application et/ou des objectifs de l’analyse, on utilisera l’une
ou l’autre des méthodes de sélection de modèle de cette section, avec certaines variantes. Par-
fois, on utilise même des modèles qui sont des combinaisons de différents modèles obtenus
1. Quand on regarde sur une carte, on se rend compte que Boston est au nord et à l’est de New York, et
donc il semble logique que les vents associés à plus de retard à l’arrivée soient les vents de face !
94

de différentes façons, voire même des modifications de techniques propres au champ d’appli-
cation.
Ainsi en écologie, comme on s’intéresse souvent à la prévision ou à identifier quelles
variables parmi une liste de variables sont associées à Y et que p ne prend pas de valeurs
extrêmes, les méthodes où l’on calcule l’AIC, le BIC ou la statistique PRESS pour chaque
sous-modèle possible sont favorisées.
Dans les cas où n est très grand, puisque les variables ont souvent tendance à être signifi-
catives aux seuils usuels même si leur coefficients respectifs sont près de zéro, on recommande
de séparer le jeu de données en un jeu d’entrainement et un jeu de validation, d’ajuster les
modèles candidats au jeu d’entrainement et de calculer l’erreur de prévision ou l’AIC ou le
BIC pour le jeu de validation. Ainsi en actuariat, en finance, en marketing et dans plusieurs
domaines où l’on veut surtout construire un modèle prédictif à partir de grandes bases de
données, optimiser le PRESS (ou l’erreur de prévision sur un jeu de données de validation)
est habituellement la stratégie la plus appropriée. Dans ces cas, il est primordial que les
jeux d’entrainement et de validation soient tous deux représentatifs de la population pour
laquelle les prévisions seront effectuées. Par exemple construire un modèle à partir des don-
nées enregistrées par le site web du service des plaintes afin de prédire le comportement de
l’ensemble des clients de la compagnie risque de donner de mauvais résultats !
En médecine, comme on s’intéresse souvent plus à l’estimation sans biais d’effets
de variables d’intérêt qu’à la prévision, dans les études observationnelles il est fréquent
d’utiliser une méthode de type exclusion, mais de conserver les variables exogènes non signi-
ficatives dont l’inclusion fait varier le coefficient des variables exogènes d’intérêt de 10% ou
plus.
Finalement dans les cas où p est grand, on recommande souvent d’utiliser l’approche
pas-à-pas avec des seuils qui permettent à l’algorithme de rouler pendant plusieurs étapes,
de calculer l’erreur de validation croisée à chaque étape et à la fin de choisir le modèle qui a
la plus petite erreur de validation croisée. Bien sûr les approches par régularisation sont tout
particulièrement intéressantes dans cette situation. D’ailleurs si l’objectif principal d’une
analyse de régression est la prévision, la régularisation donnera généralement un modèle
raisonnable.
Chapitre 4

Validation de modèle

4.1 Méthodes de vérification de modèle


Pour que les inférences (p.ex., estimateurs, intervalles de confiance, seuils associés aux
tests d’hypothèses) soient valides, il est important que les hypothèses sous-jacentes au mo-
dèle soient vraies, ou à tout le moins raisonnables. Dans cette section, des outils permettant
de tester les postulats du modèle sont présentés. Avant d’aller plus loin, rappelons ces hypo-
thèses :
(i) Linéarité : g(E[Y ; X]) = Xβ ⇔ on a le bon prédicteur linéaire et la bonne fonction
de lien ;
(ii) Bonne structure de variance : homoscédasticité pour le modèle linéaire, on tient
bien compte de la sur/sous-dispersion pour les GLM (le cas échéant) ;
(iii) Non corrélation : les n observations ne sont pas corrélées ;
(iv) Bonne distribution : on a bien identifié la distribution des Yi (normale, Poisson,
etc.).

95
96

4.1.1 Les différents types de résidus


Régression linéaire

Les hypothèses (i)-(iv) du modèle linéaire sont toutes des hypothèses faites sur la distri-
bution des termes d’erreur ε1 , . . . , εn . Il est donc clair que la vérification de ces postulats doit
en grande partie se baser sur des estimés de ces termes d’erreur. Ces estimés sont appelés
résidus, et il en existe plusieurs versions.
Résidus ordinaires, ei : Le ième résidu (ordinaire) est défini comme étant ei = Yi −
Ŷi = Yi − x′i β̂. Sous forme matricielle, e = (I − H)Y = (I − H)ε.
Si l’hypothèse (i) est vraie, E[e] = 0. Si les hypothèses (ii) et (iii) sont vraies, alors
V ar[e] = σ 2 (I −H) et donc V ar[ei ] = (1−hii )σ 2 et Cov(ei , ej ) = −hij σ 2 . Finalement,
si l’hypothèse (iv) est vraie, e ∼ Nn (0, σ 2 (I − H)).
Résidus studentisés, si : Le ième résidu studentisé est défini comme étant
ei
si = √ .
s 1 − hii

Modèles linéaires généralisés

La statistique de déviance peut mesurer le degré d’ajustement du modèle aux données.


Sa version non standardisée peut s’écrire comme

n
D(y; µ) ≡ ϕD∗ (y; µ) = di .
i=1

On appelle ième résidu de déviance la racine carrée (signée) de ce ième terme, soit

rDi = signe(yi − µi ) di .

Un autre type de résidu qui sera utile est le ième résidu de Pearson,
/√
rP i = (yi − µi ) V (µi ).
97

4.1.2 Graphiques de résidus


Modèle linéaire

Des graphiques de résidus permettent souvent d’identifier rapidement certains problèmes


avec les hypothèses (i)-(iv) dans le cas du modèle linéaire.

Résidus vs valeurs ajustées (Ŷi , ei )

Ce graphique permet surtout de cerner des problèmes avec l’hypothèse (i) de linéarité.
Si l’hypothèse est raisonnable, ce graphique devrait montrer un nuage de points centré ver-
ticalement à 0. Le graphique devrait avoir une allure complètement aléatoire, c.-à-d. qu’il ne
devrait y avoir aucune tendance discernable (ei croissant ou décroissant avec Ŷi , graphique
à l’allure quadratique, etc.).
Ce graphique peut également cerner des problèmes avec les autres hypothèses, mais les
graphiques basés sur les résidus studentisés sont plus appropriés dans ces cas.

Résidus studentisés vs valeurs ajustées (Ŷi , si )

Bien qu’ils puissent également servir à détecter les mêmes problèmes que les graphiques
(Ŷi , ei ), les graphiques basés sur les résidus studentisés peuvent aussi servir à détecter des pro-
blèmes avec l’hypothèse d’homoscédasticité. Un graphique ayant une apparence d’entonnoir
indique que la variance ne semble pas constante (problème d’hétéroscédasticité).
De plus, ces résidus devraient en général se situer entre -3 et 3. Si certains résidus ont
des valeurs plus grandes que 3 en valeur absolue, ceci peut indiquer un manque de normalité
ou la présence de données aberrantes.

Résidus vs numéro d’observation (i, ei )

Ce graphique sert à vérifier l’hypothèse de non corrélation des résidus. Si les résidus de
grande (faible) valeur ont tendance à suivre des résidus de grande (faible) valeur, alors il y
a problème d’autocorrélation positive. Si les résidus de grande (faible) valeur ont tendance à
98

suivre des résidus de faible (grande) valeur, alors il y a problème d’autocorrélation négative ;
ce dernier phénomène est plutôt rare dans les applications pratiques de la régression.

Résidus studentisés vs quantile de la loi normale (ui , s(i) )

Ce graphique permet de détecter les problèmes avec le postulat de normalité. Il est parfois
appelé QQ-plot normal ou droite de Henry, tout dépendant de la forme utilisée pour les ui .
Dans le QQ-plot, il s’agit des quantiles de la loi normale standard. Dans le cas de la droite
de Henry, il s’agit de l’espérance des statistiques d’ordre de la loi normale standard. Dans
les deux cas, si l’hypothèse de normalité est raisonnable, le graphique devrait avoir la forme
d’une ligne droite de pente positive.
Des graphiques à l’allure de courbe concave ou convexe indiquent une distribution non
symétrique des résidus, alors qu’un graphique en forme “d’intégrale inversée couchée” indique
que les résidus proviennent d’une distribution ayant des queues plus épaisses que celles de la
loi normale.

Régression logistique

Graphique informel

Ce graphique permet de vérifier si le modèle prédit bien les probabilités de succès πi en


fonction de x lorsque le modèle ne compte qu’une seule variable exogène. La procédure est
la suivante :
1. On crée des groupes d’une dizaine d’observations chacun de sorte que les observations
dans un même groupe ont des valeurs très similaires pour x.
2. Pour chaque groupe, on calcule la valeur moyenne de x et le taux de succès moyen,
∑ ∑
Ỹi / mi .
3. Pour chaque groupe, on place sur le graphe un point ayant x en abscisse et le taux
moyen de succès en ordonnée.
4. On ajoute la courbe g −1 (β̂0 + β̂1 x) en fonction de x sur le graphe.
5. Si la courbe tracée en 4 passe près des points placés sur le graphe en 3, alors le modèle
s’ajuste bien.
99

La courbe ROC

Nous considérons maintenant le cas où mi = 1. Comme la variable endogène est binaire,


les graphiques de résidus sont souvent très peu révélateurs. Le graphique des résidus de
déviance en fonction des variables exogènes devrait avoir un comportement similaire au
graphique des résidus ordinaires en fonction des variables exogènes du modèle de régression
linéaire, mais souvent ce n’est pas vraiment le cas.
Un graphique plus utile est la courbe ROC. Le but de ce graphique n’est pas de trouver
des failles dans un modèle, mais plutôt de comparer la puissance de classification de plusieurs
modèles. Lorsque l’un des modèles à comparer est inclus dans l’autre, on peut faire un test
du rapport des vraisemblances. Par contre, lorsque les deux modèles ne sont pas imbriqués
(par exemple deux modèles avec des fonctions de lien différentes, ou un modèle avec β0 +β1 xi

et un modèle avec β0 + β1 xi ), il faut utiliser un autre critère et la courbe ROC nous fournit
un tel critère.
Si on ajuste un modèle de régression logistique, pour chaque observation nous obtenons
un estimé π̂i de la probabilité πi = P [Yi = 1; xi ]. Fixons une valeur u dans [0, 1]. Alors on
peut tenter de prédire si Yi est égal à 1 ou 0 selon la règle suivante : si π̂i < u, on prédit
Yi∗ = 0 et si π̂i ≥ u, on prédit Yi∗ = 1. Il y a 4 scénarios possibles : (i) on prédit Yi∗ = 1
lorsque Yi = 1 (vrai positif) ; (ii) on prédit Yi∗ = 0 lorsque Yi = 0 (vrai négatif) ; (iii) on prédit
Yi∗ = 1 lorsque Yi = 0 (faux positif) ; (iv) on prédit Yi∗ = 0 quand Yi = 1 (faux négatif). La
sensibilité d’un test est le taux de vrais positifs : (nombre d’individus pour lesquels le test
dit Yi∗ = 1 et pour lesquels on a Yi = 1)/(nombre d’individus pour lesquels on a Yi = 1).
La spécificité du même test est un moins le taux de faux positifs : (nombre d’individus pour
lesquels on a Yi = 0 et pour qui le test donne Yi∗ = 0)/(nombre d’individus pour lesquels
on a Yi = 0). En général, on cherche un compromis entre la spécificité et la sensibilité. Par
exemple, si on a un test qui prédit Yi∗ = 1 pour tout le monde, sa sensibilité sera 100% mais
le test ne sera pas très utile ... ce qui est confirmé par sa spécificité de 0%.
Le fonctionnement de la courbe ROC est le suivant : pour chaque valeur de u dans [0, 1],
effectuer les opérations suivantes :
1. Pour chaque individu, poser Yi∗ = 1 si π̂i ≥ u et Yi∗ = 0 si π̂i < u.
100

2. Calculer ou , le taux de vrais positifs et au , le taux de faux positifs.


3. Sur un graphe, mettre un point ayant au comme abscisse et ou comme ordonnée.
Lorsque tous les points sont placés, on obtient la courbe ROC pour le modèle en question.
La courbe ROC part du point (0,0) et se termine au point (1,1). Elle se situe entre la courbe
idéale qui fait l’angle droit de (0,0) à (0,1) à (1,1) et le scénario que l’on obtiendrait si on
assignait les 0 et les 1 complètement au hasard, soit une droite à 45 degrés de (0,0) à (1,1).
L’idée est que plus l’aire sous la courbe est grande, meilleur est le modèle. Règle du
pouce : une aire sous la courbe ROC entre 1 et 0.9 veut dire un excellent modèle, une aire
entre 0.9 et 0.8 signifie un bon modèle, une aire entre 0.8 et 0.7 est un modèle moyen, entre
0.7 et 0.6 est un modèle mauvais et entre 0.6 et 0.5 le modèle est très faible.
Bien que la règle du pouce permette de “valider” un modèle, la courbe ROC est plus
utile pour comparer des modèles différents : on met les courbes ROC de tous les modèles
candidats sur un même graphe et le modèle pour lequel la courbe est la plus haute (aire sous
la courbe la plus élevée) est le meilleur modèle.
Si on a le luxe d’avoir une grande quantité de données, on peut scinder le jeu de données
en deux : une partie à partir de laquelle on construit nos modèles et une partie dont on ne
se sert que pour calculer la courbe ROC.

Régression de Poisson

Le graphique le plus commun est celui des résidus de déviance en fonction de 2 µ̂i . Le fait
que Yi soit discrète rend ce graphique plus difficile à interpréter que celui des ei en fonction
des Ŷi de la régression linéaire, puisque ces valeurs discrètes induisent des orbites dans le
nuage de points. Mais on espère toujours un nuage centré autour de la droite horizontale de
hauteur 0 et sans tendance discernable.

4.1.3 Tests d’hypothèses formels


Il n’est pas rare que certains graphiques puissent paraître ambigus. Dans ces cas, il existe
certains tests d’hypothèses formels qui peuvent aider notre oeil.
101

Test de normalité de Shapiro-Wilk

Ce test permet de détecter un manque de normalité dans les résidus. Le test est en fait
un test que la droite de Henry est raisonnablement droite. Le modèle utilisé sous l’hypo-
thèse nulle (normalité des résidus) est E[ei ] = µ + σu(i) , où u(i) dénote l’espérance de la
ième statistique d’ordre d’un échantillon aléatoire de taille n provenant d’une distribution
N (0, 1). Soit V la matrice n × n de covariance de ces statistiques d’ordre, avec éléments
∑n
vij = Cov(u(i) , u(j) ). Soient S 2 = i=1 (Ri − R̄)2 , ℜ2 = uT V −1 u, C 2 = uT V −1 V −1 u et
σ̂ = (uT V −1 R)/(uT V −1 u), où uT = (u(1) , . . . , u(n) ). Shapiro et Wilk définissent

(ℜ2 )2 σ̂ 2
W =
C 2S 2
et H0 : les résidus proviennent d’une distribution normale est rejetée pour de petites valeurs
de W .
Il vaut la peine de noter que ce test est très puissant et que pour de gros échantillons, il
rejettera très souvent la normalité. Comme les seuils des tests t et F ne sont pas sérieusement
affectés si la distribution des résidus est près de la normalité sans l’atteindre exactement,
alors il est toujours bon d’accompagner le test de normalité d’une droite de Henry ou d’un
QQ-plot normal pour s’assurer que la non normalité est vraiment sérieuse.

Test de Hosmer-Lemeshow

Ce test confronte l’hypothèse nulle que le modèle est adéquat à la contre-hypothèse que le
modèle n’est pas adéquat en régression logistique. L’idée derrière ce test est de partitionner
l’échantillon en quelques sous-échantillons sur la base des valeurs prédites π̂i , ensuite de
comparer la moyenne des mi π̂i et la moyenne des yi dans chaque sous-échantillon. Si la
différence est faible, le modèle est approprié. Si la différence est forte, le modèle doit être
amélioré. Le test est facilement effectué avec SAS ou R et le lecteur intéressé par les détails
du test peut les trouver à la section 5.2.2 du livre de Hosmer et Lemeshow (1989).
102

“Test” basé sur les statistiques du khi-deux de Pearson ou de déviance

En régression de Poisson, on utilise souvent la règle du pouce que le modèle est bon si
la valeur des statistiques du khi-deux de Pearson et de déviance est à peu près égale à leurs
degrés de liberté. On ne peut procéder à un test formel que dans le cas où les données sont
groupées.

4.1.4 Comment régler les problèmes avec les hypothèses ?


Manque de linéarité

Ceci est en général dû à une mauvaise spécification de la forme de la relation entre la


variable endogène et les variables exogènes. Le problème peut être réglé par une ou plusieurs
des options suivantes :
— Transformer certaines des variables exogènes, ou ajouter au modèle des termes en x2ij ,
x3ij , ...
— Ajouter au modèle de nouvelles variables exogènes ;
— Ajouter au modèle des termes d’interaction (βj,j ′ xij xij ′ ) ;
— Transformer la variable endogène (modèle linéaire) ;
— Changer de fonction de lien (GLM).

Surdispersion ou hétéroscédasticité

Dans le cas du modèle linéaire, la transformation de Box-Cox que nous verrons plus
tard pourra souvent prescrire une transformation de la variable endogène (transformation
stabilisatrice de la variance) qui règlera ce problème. Si la transformation de Box-Cox ne
fonctionne pas, alors la régression pondérée peut aider. Les modèles mixtes du chapitre 6
représentent également une avenue de solution. Quant aux problèmes de sur/sous-dispersion
avec les GLM, on peut utiliser les méthodes de la section 2.3.3.
103

Auto-corrélation des résidus

Ce problème est plus difficile à régler. Il est parfois possible de le régler en ajoutant
une variable explicatrice qui explique pourquoi il y a autocorrélation (par exemple, si les
premières mesures sont prises par l’individu A, les mesures suivantes par l’individu B, etc.,
alors peut-être qu’ajouter une variable explicatrice dénotant l’individu ayant pris les mesures
pourra régler le problème). Mais en général, il faut avoir recours à un modèle mixte (chapitre
6) ou a un modèle de série temporelle.

Mauvaise distribution pour la variable Y

Encore une fois, en régression linéaire la transformation de Box-Cox règle souvent le


problème. Parfois, un manque de normalité est tout simplement dû à quelques observations
extrêmes. Une autre option consiste à utiliser des méthodes de régression robustes ou non
paramétriques.

Discussion

Même si les hypothèses ne sont pas parfaitement satisfaites, les estimateurs de β sont,
en général, convergents et mesurent l’impact des variables explicatives sur la variable dé-
pendante. Les estimateurs de variance comme ceux donnés au Lemme 1.4 sont convergents
même si l’hypothèse de normalité est violée. Par contre en présence d’hétéroscédasticité ces
estimateurs sont biaisés et il faut utiliser des estimateurs de variance robustes dus à White
(1980). Si les résidus sont autocorrélés, il faut modéliser leur corrélation pour bien estimer
la variance de β̂. En conclusion, même si certaines hypothèses ne sont pas vérifiées un mo-
dèle de régression ajusté par maximum de vraisemblance donne souvent des informations
pertinentes sur le phénomène ayant produit les données.

4.1.5 Transformation de Box-Cox de la variable endogène


En régression linéaire, parfois la relation entre la variable endogène Y et les variables exo-
gènes x1 , . . . , xp′ n’est pas très bien approximée par une relation linéaire. Dans certains cas,
104

une transformation de certaines variables exogènes ou de la variable endogène peuvent amé-


liorer l’ajustement du modèle aux données. Les transformations de cette dernière sont souvent
utilisées lorsqu’il y a problème avec les hypothèses de normalité ou d’homoscédasticité. Une
méthode formelle efficace pour transformer la variable endogène est la transformation de
Box-Cox. Cette méthode cherche la meilleure transformation de la variable endogène parmi
la famille des transformations par puissances de Y . En gros, on ajuste un modèle avec comme
variable endogène Yλ∗ = Y λ si λ ̸= 0 et Y0∗ = ln Y si λ est 0. Si la meilleure transformation
est celle avec une valeur de λ près de 1, on ne transforme pas Y , si c’est une valeur près de 0

on utilise Y ∗ = ln Y , si c’est une valeur près de 0.5 on utilise Y ∗ = Y , etc. Un algorithme
précis pour trouver automatiquement la meilleure valeur de λ est le suivant.
1. Définir 
 Y λ −1 , λ ̸= 0
λ
g(Y ; λ) = 
ln Y, λ = 0.
2. Fixer la valeur de λ ;
3. Poser Yλ∗ = g(Y ; λ) ;
4. Ajuster le modèle de régression linéaire avec Yλ∗ comme variable endogène.
5. Calculer lλ (β̂(λ)), soit la valeur de la fonction de log-vraisemblance donnée par l’équa-
tion (1.21) avec Y remplacée par Yλ∗ ;
6. Répéter les étapes 1 à 5 pour plusieurs valeurs de λ (par exemple de -2 à 2 par pas
de 0.1) ;
7. Soit λ̂ la valeur de λ pour laquelle lλ (β̂(λ)) est maximale. Alors on choisit en général
la valeur de λ la plus “simple” parmi les valeurs données par l’intervalle de confiance
à 95% suivant pour λ : {λ : 2(lλ̂ (β̂(λ̂)) − lλ (β̂(λ))) ≤ 3.841}.

Exemple 4.0 (Consommation d’essence) Les figures 4.1-4.4 donnent différents graphes
de résidus obtenus en ajustant le modèle Yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi au
jeu de données sur la consommation d’essence. Comme on peut le voir sur les graphiques
impliquant les résidus studentisés, il semble y avoir un problème d’hétéroscédasticité et/ou
de non normalité.
105

Figure 4.1 – Résidus (ei ) vs valeurs ajustées (Ŷi ), modèle Yi = β0 +β1 xi1 +β2 xi2 +β3 xi3 +β4 xi4 +εi ,
données sur la consommation d’essence.

Les graphiques 4.5-4.6 montrent ce qui arrive lorsqu’on utilise la réponse Y ∗ = Y −1/2 =

1/ Y . On peut voir que les problèmes semblent résolus.
La méthode de Box-Cox donne des résultats cohérents avec les graphiques précédents. La
figure 4.7 montre la valeur de la fonction de log-vraisemblance pour plusieurs valeurs fixées
du paramètre λ de la transformation de Box-Cox. Comme on peut le constater, on semble

suggérer d’utiliser ln Y (λ = 0) ou 1/Y (λ = −1) ou 1/ Y (λ = −0.5) plutôt que Y comme
variable endogène.
Si nous effectuons le test de Shapiro-Wilk sur les résidus studentisés avec le modèle sans
transformation (résidus de la figure 4.2), nous obtenons un seuil de 0.0165, et donc on
rejette l’hypothèse nulle de normalité. Si on répète cette procédure avec les résidus studentisés
obtenus avec la réponse transformée (résidus de la figure 4.5), alors on obtient un seuil
observé de 0.99 et on ne rejette donc pas l’hypothèse de normalité des résidus.

Exemple 4.1 (Enquête sur la victimisation) Nous avions ajusté un modèle de régres-
sion logistique à un sous-ensemble des données de l’enquête sur la victimisation de Statistique
106

Figure 4.2 – Résidus studentisés (si ) vs valeurs ajustées (Ŷi ), modèle Yi = β0 + β1 xi1 + β2 xi2 +
β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.

Figure 4.3 – Résidus (ei ) vs numéro d’observation (i), modèle Yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 +
β4 xi4 + εi , données sur la consommation d’essence.
107

Figure 4.4 – Résidus studentisés (si ) vs quantiles de la loi normale standard (ui ), modèle Yi =
β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.


Figure 4.5 – Résidus studentisés (si ) vs valeurs ajustées (Ŷi ), modèle 1/ Yi = β0 + β1 xi1 +
β2 xi2 + β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.
108


Figure 4.6 – Résidus studentisés (si ) vs quantiles de la loi normale standard (ui ), modèle 1/ Yi =
β0 + β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi , données sur la consommation d’essence.

Canada au chapitre 2. La figure 4.8 montre bien que dans le cas de la régression logistique,
regarder un graphique des résidus en fonction des valeurs prédites n’est pas très utile.
On a que le test d’Hosmer-Lemeshow appliqué à l’ensemble de l’échantillon rejette le
modèle, avec une valeur de p inférieure à 0.0001 1 . La figure 4.9 montre la courbe ROC, dont
l’aire sous la courbe est 0.6634. Peut-être pourrions-nous améliorer ces résultats en faisant
une meilleure sélection des variables ou en faisant entrer les variables continues revenu et
age de manière non linéaire dans le modèle ? Pour cette dernière option, nous verrons un
outil susceptible de nous aider au chapitre 5.

Exemple 4.2 (Absences à l’école) Dans cet exemple, nous avions ajusté un modèle basé
sur la loi binomiale négative. La figure 4.10 montre un graphique des résidus de déviane

en fonction de 2 µ̂i . Bien que plus difficile à interpréter que le graphique des (Ŷi , ei ) en
régression linéaire, il s’en rapproche quand-même un peu.
1. Il est à noter qu’avec une taille d’échantillon aussi élevée, le test sera extrêmement puissant et rejettera
le modèle à la moindre évidence qu’il n’est pas parfait.
109

Figure 4.7 – Valeur de la fonction de log-vraisemblance maximisée en fonction de la valeur du


paramètre de la transformation de Box-Cox pour l’exemple de la consommation d’essence.
110

2
Resid. deviance

1
0
−1

0.1 0.2 0.3 0.4 0.5 0.6

val. predites

Figure 4.8 – Résidus de déviance en fonction des probabilités prédites pour l’exemple sur la
victimisation.
111

1.0
0.8
Sensibilite
0.6
0.4
0.2
0.0

1.2 1.0 0.8 0.6 0.4 0.2 0.0 −0.2


Specificite

Figure 4.9 – Résidus de déviance en fonction des probabilités prédites pour l’exemple sur la
victimisation.
112

2
Resid. deviance

1
0
−1

3 4 5 6 7

2*racine(val. predites)

Figure 4.10 – Résidus de déviance en fonction des probabilités prédites pour l’exemple sur la
victimisation.
113

Les graphiques des derniers exemples montrent qu’il est difficile de valider les hypothèses
sous-jacentes au modèle linéaire généralisé quand la loi de la variable réponse n’est pas la loi
normale. Certains auteurs, p.ex. Dunn & Smyth (1996), ont développé des méthodes pour
perturber par simulation les résidus de déviance ou de Pearson de sorte que les graphiques
de ces résidus perturbés soient similaires aux graphiques obtenus dans le cas de la régression
linéaire ordinaire. Une telle famille de méthodes a été mise en oeuvre dans le package R
DHARMa.

4.2 Données influentes et aberrantes


NOTE : Cette section ne couvre que le cas de la régression linéaire. Cependant les prin-
cipes couverts s’appliquent aussi bien aux GLM, seules les formules des différentes mesures
changent.

Les données dites influentes et aberrantes peuvent avoir un impact important sur la valeur
des estimés des coefficients de régression et sur leur variance. Cet impact peut parfois même
être néfaste. Il est donc important d’apprendre à détecter ces types d’observations.

4.2.1 Levier
La notion de levier est capitale dans la détection des observations qui ont un grand impact
sur les inférences en régression. En effet, une donnée aberrante peut n’avoir aucun impact
sur les estimés des coefficients si elle n’a aucun levier. Le levier d’une observation i n’est
en fait que la distance entre ses variables exogènes, xi , et le centre (valeur moyenne) des
∑n
variables exogènes de toutes les observations, x̄ = i=1 xi /n.
Encore une fois, les éléments sur la diagonale de la matrice chapeau entrent en jeu de façon
étonnante. En effet, on peut démontrer que la distance entre xi et x̄ varie de façon parallèle
à hii (voir Sen & Srivastava, section 8.2.1 pour la démonstration). Notez que comme 1/n ≤
hii ≤ 1, on ne peut pas dire que hii est une distance au sens propre du terme. Néanmoins,
plus hii (parfois appelé ième levier) prend une valeur élevée, plus la ième observation est
loin du centre des observations dans l’espace des variables exogènes.
114

4.2.2 Données aberrantes


Les données aberrantes sont des observations qui sont extrêmement peu probables sous les
hypothèses faites par le modèle. Un graphique des paires (xi , Yi ) en régression linéaire simple
permet souvent d’indentifier de telles données. Cependant, en régression linéaire multiple
un tel graphique ne peut pas aider. Par contre les graphiques (si , Ŷi ) et la droite de Henry
basée sur les résidus studentisés peuvent permettre d’identifier les valeurs aberrantes, pour
lesquelles les résidus studentisés prennent des valeurs hors de l’intervalle [-3,3].
Un autre type de résidus utiles dans la détection des valeurs aberrantes ou des données
influentes sont les résidus RSTUDENT, définis comme les résidus studentisés, mais dont
l’estimé de la variance dans le dénominateur du ième résidu est basé sur l’échantillon sans
la ième observation :
e
e⋆i = √ i , (4.1)
s−i 1 − hii

(n − p)s2 − e2i /(1 − hii )
s2−i = . (4.2)
n−p−1

4.2.3 Données influentes


Une donnée influente est une observation qui, à elle seule, a un grand impact sur la valeur
des estimés ou des prévisions. Même si ces données ne sont pas nécessairement aberrantes, il
est important de les identifier et de bien les vérifier car une erreur dans une donnée à grande
influence peut complètement fausser les conclusions d’une analyse de régression. Il y a deux
ingrédients nécessaires afin qu’une observation exerce de l’influence : (i) un levier important
et (ii) une valeur de la variable endogène Y beaucoup plus élevée ou plus basse que pour les
autres observations avec des variables exogènes de valeurs semblables.
La définition même de donnée influente suggère quelques mesures de l’influence d’une
observation.
Influence sur les valeurs prédites : L’influence de la ième observation sur la prévi-
son est quantifiée par la statistique DF F IT Si :
( )1/2
Ŷi − Ŷi,−i hii
DF F IT Si = √ = e⋆i .
s−i hii 1 − hii
115

Une valeur de DF F IT S à l’extérieur de [−2, 2] indique une donnée influente. Mais


en général, une observation dont la valeur de DF F IT S se démarque nettement de la
valeur de DF F IT S pour les autres observations a une certaine influence.
Influence sur la valeur des estimés : L’influence de la ième observation sur l’estimé
de βj est mesurée par
β̂j − β̂j,−i
DF BET ASij = √ .
s−i (X ′ X)−1
j,j

Certains auteurs suggèrent de porter attention aux DF BET AS plus grands que 2/ n
en valeur absolue, mais encore une fois une règle plus fiable est de porter attention
aux points pour lesquels la valeur de DF BET AS se démarque.
Pour les gros jeux de données, il peut être trop long de regarder les DF BET AS
pour chacun des p coefficients de régression pour chaque observation. Une statistique
construite en regardant la distance standardisée entre β̂ et β̂ −i pourrait être utile
dans ces cas. C’est ce que nous donne la distance de Cook :
(β̂ − β̂ −i )′ (X ′ X)(β̂ − β̂ −i )
Di = .
ps2
Lorsqu’une observation a une valeur de Di qui se démarque des autres, il vaut la peine
d’aller voir les DF BET AS pour cette observation.
Influence sur la variance des estimateurs : Une mesure de l’influence d’une obser-
vation sur la variance des estimateurs est donnée par
( )
||s2 (X ′ X −i )−1 || (s2 )p 1
COV RAT IOi = −i 2 −i′ −1 = −i ,
||s (X X) || (s2 )p 1 − hii
où || · || dénote le déterminant. Une valeur près de 1 pour COV RAT IO indique
une donnée peu influente, et donc les valeurs élevées ou près de 0 indiquent des
observations influentes. Certains auteurs suggèrent de regarder de plus près les points
pour lesquels COV RAT IO > 1 + 3p/n ou COV RAT IO < 1 − 3p/n.

Exemple 4.3 (Consommation d’essence) Nous pouvons calculer les mesures d’influence
pour l’exemple de la consommation d’essence (variable endogène non transformée dans cet
exemple). Nous obtenons les résultats ci-dessous.
116

Hat Diag Cov ---------------DFBETAS---------------


Obs Residual RStudent H Ratio DFFITS Intercept taxe dlic revenu routes
1 17.7663 0.2788 0.0963 1.2333 0.0910 0.0105 0.0365 -0.0139 -0.0463 -0.0149
2 -29.1153 -0.4521 0.0740 1.1856 -0.1278 0.0352 -0.0662 -0.0247 0.0209 0.0309
3 -17.1074 -0.2668 0.0847 1.2186 -0.0812 0.0249 -0.0464 -0.0257 0.0307 0.0098
4 -79.3563 -1.2894 0.1252 1.0589 -0.4877 -0.2431 0.2656 0.2893 -0.2884 0.3246
5 -122.0289 -1.9978 0.0923 0.7871 -0.6371 -0.3025 0.2510 0.2767 -0.1646 0.5271
6 23.4486 0.3987 0.2288 1.4313 0.2172 -0.1336 0.1362 0.0294 0.1169 0.0053
7 25.2674 0.4459 0.2832 1.5327 0.2803 -0.0051 0.0428 -0.1501 0.1587 0.1213
8 -24.5060 -0.3880 0.1107 1.2424 -0.1369 -0.0164 0.0336 0.0485 -0.1038 0.0736
9 -25.0246 -0.3856 0.0608 1.1767 -0.0981 0.0179 -0.0397 0.0246 -0.0203 -0.0602
10 -52.3947 -0.8065 0.0479 1.0941 -0.1809 -0.0460 0.0609 0.0627 -0.0646 -0.0435
11 79.5105 1.2284 0.0358 0.9779 0.2368 0.0337 0.0320 -0.1173 0.0644 0.0239
12 28.7467 0.4898 0.2305 1.4207 0.2681 -0.0822 0.0786 -0.0368 0.1159 0.2002
13 -38.3126 -0.5901 0.0556 1.1430 -0.1432 -0.0205 0.0632 0.0302 -0.0938 0.0118
14 -58.0238 -0.8926 0.0433 1.0703 -0.1899 -0.1270 0.1175 0.0989 -0.0130 0.0386
15 -72.0660 -1.1148 0.0441 1.0171 -0.2394 0.0543 0.0171 -0.1033 -0.0025 -0.0975
16 30.6945 0.4742 0.0641 1.1703 0.1241 -0.0282 0.0119 0.0287 -0.0010 0.0881
17 5.5026 0.0836 0.0381 1.1685 0.0167 0.0024 -0.0036 -0.0002 -0.0011 0.0067
18 117.5965 1.8973 0.0734 0.8047 0.5341 0.4458 -0.3426 -0.2460 -0.1950 -0.2490
19 92.0322 1.5685 0.1904 1.0452 0.7606 -0.4550 0.0684 0.6552 0.0880 0.0922
20 -42.7097 -0.7104 0.1875 1.3041 -0.3412 0.2912 -0.2313 -0.2950 0.0436 -0.1567
21 -45.9795 -0.7250 0.0954 1.1685 -0.2354 0.1318 -0.0228 -0.1772 -0.0314 -0.0804
22 -30.2403 -0.4789 0.1094 1.2291 -0.1679 0.0092 0.0338 -0.0048 -0.0999 0.1083
23 48.9207 0.7797 0.1127 1.1798 0.2779 -0.0141 0.0682 -0.1220 0.1585 -0.0647
24 86.7785 1.3738 0.0737 0.9748 0.3875 -0.0803 0.2482 -0.0946 0.0127 0.0862
25 -47.0281 -0.7243 0.0518 1.1149 -0.1692 0.0115 -0.0332 0.0380 -0.0711 0.0619
26 34.0818 0.5347 0.0912 1.1965 0.1694 -0.0494 0.1248 0.0223 -0.0819 0.0569
27 -11.6488 -0.1797 0.0658 1.1994 -0.0477 -0.0098 -0.0109 0.0004 0.0372 -0.0064
28 18.9121 0.2918 0.0647 1.1905 0.0767 -0.0177 0.0274 0.0247 -0.0376 0.0539
29 15.9774 0.2415 0.0265 1.1475 0.0399 -0.0086 0.0172 0.0031 -0.0049 0.0132
30 62.0171 0.9907 0.1091 1.1248 0.3466 0.0338 0.1737 -0.1087 -0.1555 0.0619
31 4.0929 0.0635 0.0782 1.2196 0.0185 0.0145 -0.0088 -0.0102 -0.0079 -0.0020
32 -27.4220 -0.4340 0.1089 1.2344 -0.1517 -0.1174 0.0635 0.0723 0.0896 0.0188
33 -74.6498 -1.2193 0.1378 1.0963 -0.4874 0.0298 -0.1802 -0.1578 0.4251 -0.1679
34 14.1327 0.2198 0.0804 1.2161 0.0650 0.0390 -0.0171 -0.0130 -0.0468 -0.0194
35 -19.4172 -0.3061 0.1042 1.2417 -0.1044 -0.0753 0.0221 0.0680 0.0434 0.0370
36 -72.8238 -1.1499 0.0810 1.0482 -0.3413 -0.0092 0.0802 -0.1695 0.1628 -0.0659
37 -7.2821 -0.1312 0.3151 1.6390 -0.0890 -0.0167 0.0260 0.0052 0.0096 -0.0521
38 62.0662 0.9542 0.0396 1.0522 0.1939 0.0696 -0.0765 0.0227 -0.0857 -0.0095
39 -69.6483 -1.1582 0.1709 1.1594 -0.5258 0.2894 -0.2786 -0.4198 0.2730 -0.0878
40 234.9472 4.4901 0.0997 0.1760 1.4944 -0.3478 -0.3180 1.0174 -0.0231 -0.3815
41 -75.8703 -1.1821 0.0543 1.0099 -0.2834 -0.0020 0.1228 -0.1056 -0.0528 0.1014
42 65.9346 1.0345 0.0745 1.0717 0.2935 0.2142 -0.1801 -0.0705 -0.1328 -0.1546
43 -12.4893 -0.1918 0.0570 1.1876 -0.0471 -0.0172 0.0300 -0.0026 -0.0047 0.0294
44 34.0325 0.5518 0.1488 1.2747 0.2308 0.2103 -0.1631 -0.1490 -0.0368 -0.1561
117

45 68.2005 1.2069 0.2660 1.2923 0.7265 0.1065 -0.4732 0.1018 0.3570 -0.4235
46 -9.6783 -0.1498 0.0723 1.2093 -0.0418 0.0258 -0.0322 -0.0107 -0.0062 -0.0092
47 -60.3979 -0.9363 0.0563 1.0750 -0.2288 -0.0302 0.1118 -0.0751 -0.0084 0.1057
48 -45.4385 -0.7134 0.0879 1.1612 -0.2215 0.0707 0.0034 -0.0275 -0.1306 -0.1022

L’observation i = 40, l’état du Wyoming, est la donnée qui est nettement la plus influente.
On y consomme beaucoup plus d’essence que le modèle ne le prédit (résidu de 235, résidu
RSTUDENT de 4.49). En ce qui a trait aux COVRATIO, en utilisant la règle du pouce “tout
ce qui est hors de 1±3p/n est influent”, on doit chercher les observations au COV RAT IO ∈
/
(0.6875, 1.3125). Le Connecticut (i = 6), New York (i = 7), l’Illinois (i = 12) et le Texas
(i = 37) rejoignent le Wyoming dans la classe des données potentiellement influentes. Bien
qu’une certaine influence soit exercée au niveau de la variance des estimés, il ne semble
pas y avoir d’influence marquante au niveau de la prévision ou de la valeur des estimés des
coefficients, puisque les DFFITS et les DFBETAS sont tous de valeur modérée. D’ailleurs
si on refait l’analyse sans le Wyoming, on réalise que son influence n’est pas dramatique,
puisque les résultats changent peu.

4.2.4 Que faire avec les données aberrantes ou influentes ?


Il arrive fréquemment que ces observations contiennent des erreurs, ou qu’une anomalie
durant l’expérience aient perturbé ces observations. Il faut donc en général tenter d’amasser
le plus d’information possible sur ces données. Si on se rend compte de la présence d’une
erreur, on la corrige si possible et si impossible, on l’enlève du jeu de données.
Il peut aussi arriver que ces données soient causées par une observation peu représentative
du reste de l’échantillon. Par exemple, si un jeu comprend des données sur 99 villes d’environ
100 000 habitants et des données sur un village de 174 habitants, il est fort possible que
l’observation correspondant au village de 174 habitants génère une donnée influente.
Malheureusement, il arrivera souvent que des données influentes soient obtenues, mais que
les situations décrites ci-dessus ne s’appliquent pas. Dans ces cas, on garde habituellement
les données dans le jeu de données, en espérant que l’influence exercée ne fausse pas les
conclusions.
Chapitre 5

Modèles additifs généralisés (GAM)

Bien que les modèles linéaire et linéaire généralisé soient très versatiles et interprétables,
ils peuvent manquer de flexibilité si le but principal est d’effectuer une analyse prédictive
ou si l’on cherche à modéliser un effet non linéaire d’une variable explicative continue. La
classe des modèles additifs généralisés (GAM) est particulièrement utile et simple dans les
situations où l’on a un nombre faible ou modéré de variables explicatives dont certaines
sont continues et que l’on ne s’attend pas à des interactions importantes. Ces modèles se
veulent un compromis entre un modèle complètement paramétrique (GLM) et une approche
complètement non paramétrique (forêt aléatoire, boosting, réseau de neurones, etc.). Si on
suspecte des interactions importantes entre les variables explicatives, alors il est peu probable
que les GAM puissent sérieusement mieux performer qu’un GLM au niveau de la puissance
prédictive.

5.1 Le modèle
Le modèle additif généralisé est très simple à définir à partir du modèle linéaire généralisé.
En fait on n’a qu’à généraliser le prédicteur linéaire du modèle ainsi :

ηi = β0 + f1 (xi1 ) + · · · + fp′ (xip′ ), (5.1)

118
119

où les fj (xij ) peuvent être soit βj xij , soit des fonctions “arbitraires” qui seront estimées
à partir des données. Plusieurs approches 1 existent pour définir ces fonctions arbitraires,
comme par exemple des splines de lissage, des splines cubiques, des polynômes locaux, etc.
Règle générale, si suffisamment de données sont disponibles, ces différentes nuances de la
méthode donnent des résultats similaires.
Tout comme c’était le cas auparavant, fj (xij ) s’interprète comme l’effet de xij sur g(E[Yi ])
quand toutes les autres variables exogènes sont fixées. La seule différence maintenant est que
cet effet n’est plus obligatoirement linéaire. Si fj (xij ) est de la forme βj xij , on peut tester
si xij est requise dans le modèle (si elle a un effet) en testant si βj = 0. Si fj (·) est de
forme arbitraire, il est possible d’obtenir des bandes de confiance pour fj (·) et voir si la ligne
horizontale fj (u) = 0, ∀u, est incluse dans ces bandes 2 ; si c’est le cas, la variable xij n’est
pas utile dans le modèle.
Il existe plusieurs variantes de la méthode pour estimer β0 et les fj (·) de l’équation (5.1),
tout dépendant de l’approche employée pour définir les fonctions. Nous ne les couvrirons pas
dans cette brève introduction ; le lecteur intéressé peut trouver plus de détails au chapitre
7 du livre de James et coll. (2013). Nous concluons ce chapitre en montrant ce à quoi un
GAM peut ressembler et servir en ajustant un tel modèle aux données sur la victimisation
introduites au chapitre 2.

Exemple 5.1 (Enquête sur la victimisation) Retournons à l’exemple du chapitre 2 sur


la victimisation au Canada, pour lequel on a utilisé la régression logistique avec lien logit
pour prédire si un répondant à l’enquête a été victime d’un crime dans l’année précédente.
Au chapitre 4 nous avons vu que nous n’avions pas trouvé le “modèle exact” (rejet du modèle
par le test d’Hosmer et Lemeshow) et que l’aire sous la courbe ROC pouvait peut-être être
améliorée en effectuant une sélection de variables et, peut-être, en considérant des transfor-
mations non-linéaires pour les variables continues que sont le revenu et l’âge. Nous allons
mettre à l’épreuve cette dernière conjecture dans cet exemple.
1. Voir l’aide de packages R comme gam ou mgcv pour voir un éventail de possibilités.
2. Certains packages peuvent même effectuer un test formel de l’hypothèse H0 : fj (u) = 0, ∀u avec
valeur de p. Si on rejette cette hypothèse, alors fj (xij ) doit être conservée dans le modèle. Si on ne rejette
pas H0 , alors il n’y a pas d’évidence que xij soit utile.
120

Tout d’abord, partitionnons le jeu de données en un jeu d’entrainement et un jeu de va-


lidation, question de ne pas confondre du sur-ajustement avec une capacité prédictive amé-
liorée ; la base de données ici contient amplement d’observations (16 206) pour la scinder en
un jeu d’entrainement (10 000 observations) et un jeu de validation (6 206 observations) qui
sont suffisamment grands pour permettre des inférences et une mesure de l’erreur précises.
Nous allons ajuster aux données d’entrainement 4 modèles différents (celui des chapitres 2 et
4, le meilleur sous-modèle selon l’AIC, le meilleur sous-modèle selon l’AIC avec splines de
lissage pour le revenu et l’âge et le meilleure sous-modèle selon l’AIC avec spline de lissage
pour l’âge. Nous allons ensuite calculer l’aire sous la courbe ROC lorsque chacun de ces
modèles est utilisé pour obtenir des prévisions pour le jeu de données de validation.
Tout d’abord, le meilleur sous-modèle selon l’AIC a comme variable explicatives revenu,
regions, urbain, age et naisCan. Par contre son aire sous la courbe ROC lorsque calculée sur
les données de validation n’est pas meilleure que pour le modèle complet des chapitres 2 et 4
(0.668 dans les deux cas).
Ajustons maintenant le modèle additif généralisé avec même prédicteur linéaire que le
meilleur sous-modèle, mais où l’on remplace β1 revenu par f1 (revenu) et β2 age par f2 (age).
On améliore légèrement la valeur de l’aire sous la courbe ROC avec ce modèle, la faisant
augmenter à 0.6691. La figure 5.1 montre les estimations des fonctions f1 (revenu) et f2 (age)
avec intervalles de confiance. Puisqu’une ligne droite semble pouvoir être dessinée entre les
bandes de confiance pour f1 (revenu) mais pas entre celles pour f2 (age), on peut ajuster le
même GAM, mais avec f1 (revenu) remplacée par β1 revenu. Dans ce cas, on améliore encore
un peu l’aire sous la courbe ROC, qui atteint maintenant 0.6695.
Bien que les prévisions soient améliorées en permettant un effet non-linéaire de l’âge à
l’aide d’un GAM, le gain n’est pas très substantiel. De deux choses l’une : ou bien il n’y a
rien de mieux à tirer des variables explicatives fournies, ou bien il existe des interactions
entre les effets des variables explicatives sur la probabilité d’être victime d’un crime qui ne
sont pas capturées par le GAM considéré et qui devraient peut-être l’être (soit avec un GAM
qui inclut des termes d’interaction, soit avec d’autres approches comme les arbres, forêts
aléatoires, boosting, réseaux de neurones, etc.).
121

1.0
0.3

0.5
0.2

0.0
0.1
s(revenu)

s(age)

−2.0 −1.5 −1.0 −0.5


−0.1 0.0
−0.3

0 50 100 150 20 40 60 80

revenu age

Figure 5.1 – GAM logistique pour l’exemple sur la victimisation. À gauche : estimation de la
fonction f1 (revenu). À droite : estimation de la fonction f2 (age).
Deuxième partie

Modèles et méthodes pour données


corrélées

122
Chapitre 6

Le modèle linéaire mixte

6.1 Introduction
Bien que le modèle linéaire soit extrêmement flexible et apte à modéliser plusieurs types
de relations entre une variable endogène et des variables exogènes, il souffre d’une certaine
lacune qui le rend inadéquat dans plusieurs situations : les variables endogènes Y1 , . . . , Yn
doivent être non corrélées et de même variance. Or, dans plusieurs études pratiques, il existe
des groupes d’observations où les variables endogènes sont corrélées entre elles.
Un autre aspect important de ce type de situation est que la hiérarchie définissant les
groupes d’observations corrélées contient implicitement de l’information sur la distribution
de la variable endogène. Comme on n’observe habituellement pas cette information implicite,
elle n’est pas quantifiée dans les variables exogènes disponibles et elle ne peut donc pas être
incluse dans les modèles de régression standards. Par exemple, si on observe les résultats de
360 étudiants à un examen, mais que ces étudiants proviennent en fait d’une trentaine de
classes d’une douzaine d’étudiants, alors il y a fort à parier que les résultats des étudiants
d’une même classe auront tendance à être plus semblables. Cependant les facteurs propres
aux classes qui rendent ces résultats semblables (qualité du matériel pédagogique, efficacité
de l’enseignant, horaire, etc.) ne sont pas quantifiées en tant que variables explicatives dans
un jeu de données. Les modèles de régression à effets mixtes (parfois appelés “modèles multi-
niveaux” ou “modèles hiérarchiques”) sont une façon de tenir compte de cette information

123
124

implicite cachée dans la hiérarchie des données. En plus de modéliser explicitement la cor-
rélation entre les observations d’un même groupe, les modèles mixtes peuvent donc aussi
potentiellement éliminer certains biais causés par des variables confondantes non mesurées
dont la valeur change selon la hiérarchie.

Exemple 6.1 Un vieux jeu de données Kaggle portait sur le prix de vente de maisons dans le
nord-ouest des États-Unis, que l’on tentait de prédire en fonction de certaines caractéristiques
de la maison et du terrain sur laquelle la maison est construite. La figure 6.1 montre la
relation entre le log du prix de vente (Y ) et le log de la superficie du terrain en pieds carrés
(x). À première vue, l’association entre le prix de la maison et la superficie est contre-
intuitive : on s’attendrait à ce que le prix soit une fonction croissante de la superficie ! Par
contre il y a une structure hiérarchique dans ces données : on a plusieurs maisons de la
même région (plus précisément, du même code postal zip code) et ce pour un peu moins
d’une centaine de codes postaux. La figure 6.2 montre les mêmes données qu’à la figure 6.1,
sauf que ce coup-ci les maisons d’un même code postal sont indiquées par un point de la
même couleur et les codes postaux différents sont indiqués par des couleurs différentes. On
peut voir qu’à l’intérieur des codes postaux, on a la même relation croissante entre le prix
de vente et la superficie du terrain.
Cet exemple illustre comment une variable confondante peut être implicite dans la hié-
rarchie. Dans cet exemple, la “variable confondante” est la densité de population. Dans les
codes postaux très peuplés, les maisons se vendent à fort prix même si les terrains sont de
petite taille, et vice-versa. Puisque la densité est associée à la fois au prix de vente et à la
superficie du terrain, si on n’en tient pas compte on aura une estimation biaisée de l’asso-
ciation prix vs superficie (dans cet exemple, le biais est si fort qu’on obtient une estimation
négative d’une association qui est en fait positive).

Exemple 6.2 Verbeke et Molenberghs (2003) présentent une étude de l’effet du dosage d’un
médicament qui réduit la production de testostérone (le Decapeptyl) sur la croissance du crâne
chez les rats Wistar mâles. Un groupe de 50 rats sont randomisés à l’un de trois traitements :
contrôle (pas de médicament), dose forte et dose faible. La variable endogène est la taille du
crâne selon un certain axe sur une radiographie, mesurée en pixels. Les rats commencent à
125

Figure 6.1 – Exemple 6.1 : log du prix de vente des maisons en fonction du log de la
superficie du terrain en pieds carrés. La ligne pointillée représente la droite de régression.

x0 x

Figure 6.2 – Exemple 6.1 : log du prix de vente des maisons en fonction du log de la super-
ficie du terrain en pieds carrés, avec les différents codes postaux indiqués par des couleurs
différentes. Les lignes pointillées représentent les droites de régression propres à chaque code
postal.
126

Figure 6.3 – Données sur la croissance du crâne des rats Wistar présentées par Verbeke et
Molenberghs (2003).

recevoir leur traitement à leur 45ème jour d’âge et la variable endogène est mesurée à tous
les 10 jours à partir du 50ème jour pour chaque rat. L’âge en jours est ensuite transformé
dans une échelle logarithmique : tij = ln{1+(Ageij −45)/10}, ce qui donne une valeur tij = 0
au temps du début du traitement. Nous allons utiliser l’approche de la section 6.5 afin de
construire un modèle mixte pour ces données.
Les graphiques de la mesure de la taille du crâne, Yij , en fonction de l’âge pour les
3 groupes de rats sont présentés à la figure 6.3. Des études précédentes ont recommandé
de prendre la transformation logarithmique de l’âge afin de rendre la relation plus linéaire
entre la taille du crâne et le temps. Nous allons donc commencer par ajuster un modèle
linéaire ordinaire avec une ordonnée à l’origine et une pente différente pour chacun des trois
traitements :

Yij = β0 + β1 tij + βH0 xHi + βH1 xHi tij


+βC0 xCi + βC1 xCi tij + εij , (6.1)

où xHi vaut 1 si le rat i reçoit la dose forte, 0 sinon et où xCi vaut 1 si le rat i ne reçoit pas
127

Figure 6.4 – Résidus d’une régression linéaire ordinaire en fonction du temps obtenus avec le
modèle (6.1). Les résidus d’un même animal sont liés par un segment.

de traitement (contrôle), 0 sinon.


Le graphique des résidus de cette régression en fonction du temps est donné à la fi-
gure 6.4). On y a relié les résidus d’un même rat à l’aide de segments ; il est clair que les
résidus d’un même animal ont tendance à prendre des valeurs similaires. Le postulat de non-
corrélation des résidus du modèle linéaire n’est donc pas approprié ici. De plus, si on retourne
à la figure 6.3, on voit que les lignes de régression pour chaque animal semblent avoir une
ordonnée à l’origine différente (les crânes des rats au temps 0 sont de diamètre différent).
Nous verrons plus bas que ces deux phénomènes (corrélation et hétérogénéité) sont parfois
liés et que le modèle linéaire mixte permet d’en tenir compte.

6.2 Le modèle linéaire mixte général


Soit Y , X, β et ε, le vecteur n × 1 des valeurs de la variable endogène, la matrice
de schéma n × p, le vecteur p × 1 des coefficients de régression et le vecteur n × 1 des
128

termes d’erreur, tels que vus au chapitre 1. Le modèle de régression linéaire supposait que
Y = Xβ + ε, avec ε ∼ Nn (0, σ 2 I). Le modèle de régression linéaire mixte (général) est
une généralisation du modèle de régression linéaire permettant d’obtenir des coefficients de
régression aléatoires et de tenir compte de la corrélation entre les variables endogènes.
Considérons la situation où nous avons une structure “hiérarchique” dans les données :
i = 1, . . . , K représente la grappe et j = 1, . . . , ni représente l’osbervation individuelle dans
la grappe. On suppose un jeu de données constitué de K grappes indépendantes avec N =
∑K
i=1 ni observations au total dans le jeu de données. Dans cette situation, on le jeu de
données typique aura la forme suivante :

Grappe Observation Y x1 x2 ...


1 1 12.3 0 0.32 ...
1 2 8.1 0 0.82 ...
1 3 4.3 0 0.02 ...
2 1 -2.3 1 0.12 ...

Dans ce contexte plus général, on redéfinit le vecteur Y et la matrice X ainsi :


   
Y11 1 x111 ··· x11p′
   
 ..   .. .. .. 
 .   . . . 
   
   
 Y1n1   1 x1n1 1 ··· x1n1 p′ 
   
 ..   .. .. .. 
Y =  .  X=  .
   . . . 
   
 YK1   ··· 
   1 xK11 xK1p′ 

 .. 


 .. .. .. 

 .   . . . 
   
YKnK 1 xKnK 1 · · · xKnK p′

On va dénoter par Y i = (Yi1 , . . . , Yini )′ la partie de Y constituée des observations de Y pour


la grappe i et par X i la partie correspondante de X. On définit aussi xij = (1, xij1 , . . . , xijp′ )′ ,
le vecteur des variables explicatives pour l’observation j de la grappe i.
129

Soit un vecteur d’erreurs ε défini selon la même structure que Y et


 
γ11
 
 .. 
   
.γ1q
 
γ1  
..

 .. 




.

γ=  . =  ,
   γK1 
 

γK  .. 

 . 
 
γKq

un vecteur de variables aléatoires, nommées effets aléatoires, qui ne sont pas observées. Le
modèle linéaire mixte est défini ainsi :

Y = Xβ + Zγ + ε, (6.2)

où Z est une matrice de schéma connue dont la spécification sera plus simple à comprendre
à partir d’exemples et donc la ligne correspondant à l’observation j de la grappe i est
z ′ij . La matrice Z sera spécifiée de sorte que l’élément du système d’équations (6.2) pour
l’observation j de la grappe i soit

Yij = x′ij β + z ′ij γ i + εij .

Les hypothèses du modèle sont les suivantes : les vecteurs γ 1 , . . . , γ K sont i.i.d. et
(i) E[γ] = 0 ;
(ii) E[ε] = 0 ;
(iii) V ar[ε] = V ;
(iv) V ar[γ] = D ;
 
( )
ε = V
(v) V ar γ
0 
.
0 D
En combinant le modèle (6.2) aux hypothèses (i)-(v), on obtient que E[Y ] = Xβ et que

Σ ≡ V ar[Y ] = ZDZ ′ + V . (6.3)


130

L’ajout d’effets aléatoires dans le modèle linéaire mixte n’a donc pas d’impact sur la moyenne
de Y . De plus, on peut immédiatement voir de (6.3) que le modèle mixte nous permet de
modéliser la corrélation entre les variables endogènes de deux façons : directement dans la
matrice V ou en spécifiant une structure d’effets aléatoires (Z et D). En général, la structure
de la base de données et les besoins en interprétabilité devraient guider notre choix. Plus de
détails sur la construction d’un modèle mixte sont donnés à la section 6.5. La meilleure façon
de bien comprendre tous les éléments du modèle mixte est de regarder quelques exemples.

Exemple 6.3 Supposons une expérience à partir de laquelle on aimerait construire un mo-
dèle de régression pour la masse Y gagnée par une souris en fonction de la quantité x d’un
supplément alimentaire donné à cette souris. Nous avons 6 souris provenant de 3 familles et
nous supposons une corrélation entre les observations d’une même famille. Dénotons par Yij
le gain de masse de la jème souris de la ième famille et par xij la quantité de supplément
prise par cette souris.
Comme premier modèle, supposons que l’effet de la quantité de supplément est le même
pour toutes les souris, c.-à-d. que E[Yij ] = β0 +β1 xij et que V ar(εij ) = σ 2 +σ12 , Cov(εij , εij ′ ) =
σ12 , j ̸= j ′ , et Cov(εij , εi′ j ′ ) = 0, i ̸= i′ . Il existe plusieurs spécifications des éléments de (6.2)
permettant d’arriver à ce modèle. Ainsi si on pose

Y ′ = (Y11 , Y12 , Y21 , Y22 , Y31 , Y32 ) β ′ = (β0 , β1 ) ε′ = (ε11 , ε12 , ε21 , ε22 , ε31 , ε32 )
   

1 x11  
σ 2 + σ12 σ12 0 0 0 0 
   
 1 x12   σ12 σ 2 + σ12 0 0 0 0 
   
   
 1 x21   0 0 σ 2 + σ12 σ12 0 0 
X =   V1=  ,
   
 1 x22   0 0 σ12 2
σ + σ12 0 0 
   
   
 1 x31   0 0 0 0 σ 2 + σ12 σ12 
   
1 x32 0 0 0 0 σ12 σ 2 + σ12

nous obtenons un modèle qui remplit les conditions données plus haut. Une autre façon
tout-à-fait équivalente d’y arriver est de supposer qu’il n’y a pas de corrélation entre les
εij , mais plutôt un effet aléatoire dû aux familles que l’on ne peut observer, c.-à-d. que
pour la ième famille on ajoute un effet aléatoire γi0 . En termes du modèle, ceci nous donne
131

Yij = β0 +β1 xij +γi0 +εij avec V 2 = σ 2 I. En termes matriciels, on a Y , X, β et ε inchangés


et  

1 0 0 
     
 1 0 0 
  γ σ2 0 0 
   10   1
 0 1 0     
Z=   γ =  γ20  D =  0 σ12 0  .
     
 0 1 0 
  γ30 0 0 σ12
 
 0 0 1 
 
0 0 1
Un calcul simple montre que E[Yij ] = β0 +β1 xij et que V ar[Y ] = ZDZ ′ +V 2 est exactement
la même matrice que la matrice V 1 sous la première formulation du modèle.
Notez que si l’on récrit la seconde formulation du modèle ainsi : Yij = (β0 +γi0 )+β1 xij +εij ,
on peut voir qu’il correspond aussi à un modèle où l’effet de la quantité de supplément sur
le gain en masse (β1 ) est le même pour chaque famille mais où le gain en masse lorsque
l’on ne prend pas de supplément, donc quand xij = 0 est une variable aléatoire β0 + γi0 de
moyenne β0 qui varie de famille en famille. Autrement dit, c’est comme si nous avions un
modèle de régression linéaire simple pour chaque famille avec une même pente dans chaque
modèle, mais des ordonnées à l’origine différentes pour chaque famille.

Exemple 6.4 Retournons à l’exemple sur les rats Wistar. Pour simplifier les choses, sup-
posons que les rats i = 1, . . . , 4 reçoivent la dose forte (xHi = 1, xCi = 0), que les rats
i = 5, . . . , 8 reçoivent la dose faible (xHi = 0, xCi = 0) et que les mesures du crâne sont
prises à trois reprises pour chaque rat. Un premier modèle pourrait faire les suppositions sui-
vantes : tous les rats ont un crâne de diamètre différent au temps 0 et les taux de croissance
des crânes de chaque rat diffèrent. Ceci suggère donc la formulation

Yij = (β0 + γi0 ) + β1 xHi + (β2 + γi1 )tij + β3 xHi tij + εij . (6.4)

De (6.4), on note que le diamètre de chaque crâne au temps 0 est une variable aléatoire de
moyenne β0 pour les rats qui reçoivent la dose faible et de β0 +β1 pour les rats qui reçoivent la
dose forte et que le taux de croissance de chaque crâne est une variable aléatoire de moyenne
β2 pour les rats qui reçoivent la dose faible et β2 + β3 pour les rats qui reçoivent la dose forte.
132

Pour reformuler (6.4) sous la forme du modèle mixte général (6.2), on pose
     
Y11 1 xH1 t11 xH1 t11 ε11
     
 Y12   1 xH1 t12 xH1 t12   ε12 
     
     

 Y13 


 1 xH1 t13 xH1 t13 


 ε13 

       

 Y21 


 1 xH2 t21 xH2 t21 
 β

 ε21 

     0   

 Y22 


 1 xH2 t22 xH2 t22 

 
 β1 

 ε22 

Y =   X=   β=   ε=  
      
 Y23   1 xH2 t23 xH2 t23   β2   ε23 
       
 ..   .. .. .. ..   .. 
 .   . . . .  β3  . 
     
     
 Y81   1 xH8 t81 xH8 t81   ε81 
     
     
 Y82   1 xH8 t82 xH8 t82   ε82 
     
Y83 1 xH8 t83 xH8 t83 ε83
 
1 t11 0 0 0 ··· 0 0
 
 0 ··· 0   
 1 t12 0 0 0 
  γ10

 1 t13 0 0 0 ··· 0 0  




  γ11 

 0 0 1 t21 0 · · · 0 0  




  γ20 

 0 0 1 t22 0 · · · 0 0  



Z =   γ=  γ21 .

 0 0 1 t23 0 ··· 0 0  
 .. 

   
 .. .. .. .. .. .. .. ..   . 
 . . . . . . . .   
  
   γ80 

 0 0 ··· 0 0 0 1 t81 
 
  γ81
 0 0 ··· 0 0 0 1 t82 
 
0 0 ··· 0 0 0 1 t83

Pour le choix des matrices V et D, la structure d’effets aléatoires induira déjà suffisamment
de corrélation, donc on peut poser V = σ 2 I. Pour D, le choix est plus complexe. On peut
supposer que γi0 et γi1 ont des variances différentes ou la même variance et on peut aussi
supposer que Cov(γi0 , γi1 ) est nulle ou non nulle. Prenons le cas plus général où l’on pose
V ar[γi0 ] = σ02 , V ar[γi1 ] = σ12 et Cov(γi0 , γi1 ) = σ01 . On obtient donc une matrice D de
133

dimension 16 × 16 donnée par


 
σ02 σ01 0 0 0 ··· 0
 
 
 σ01 σ12 0 0 0 ··· 0 
 
 
 0 0 σ02 σ01 0 ··· 0 
 
 
D=  0 0 σ01 σ12 0 ··· 0 .

 .. .. .. .. .. .. .. .. 

 . . . . . . . . 
 
 
 0 0 0 0 ··· 0 σ02 σ01 
 
0 0 0 0 ··· 0 σ01 σ12

La matrice de variance de Y est ensuite obtenue ainsi :

Σ = V ar[Y ] = ZDZ ′ + V
 
a1,11 a1,12 a1,13 0 0 0 0 ··· 0 0 0
 
 ··· 
 a1,12 a1,22 a1,23 0 0 0 0 0 0 0 
 

 a1,13 a1,23 a1,33 0 0 0 0 ··· 0 0 0  
 

 0 0 0 a2,11 a2,12 a2,13 0 ··· 0 0 0  
 

 0 0 0 a2,12 a2,22 a2,23 0 ··· 0 0 0  
=   + σ 2 I,

 0 0 0 a2,13 a2,23 a2,33 0 ··· 0 0 0  
 
 .. .. .. .. ... ... .. .. .. 
 . . . . . . . 
 
 
 0 0 0 0 0 0 ··· 0 a8,11 a8,12 a8,13 
 
 
 0 0 0 0 0 0 ··· 0 a8,12 a8,22 a8,23 
 
0 0 0 0 0 0 ··· 0 a8,13 a8,23 a8,33

où ai,kl = σ02 + σ01 (tik + til ) + σ12 tik til . Ce modèle est donc équivalent au modèle Yij =
β0 + β1 xHi + β2 tij + β3 xHi tij + εij où V ar[Yij ] = σ 2 + ai,jj et Cov(Yij , Yik ) = ai,jk . En d’autres
termes, la variance du diamètre du crâne change avec le temps et les diamètres mesurés sur
un même rat sont corrélées.

6.2.1 Formes possibles des matrices de variance


Deux éléments importants du modèle mixte sont les matrices de variance V et D. La
matrice V sera une matrice de dimension N × N . Il s’agira d’une matrice diagonale par
134

blocs. Plus précisément, elle sera constitué de K blocs qui formeront sa diagonale. Le i-ème
bloc correspond à la matrice de variance de (εi1 , . . . , εini )′ et sera donc un bloc de dimension
ni × ni . Les éléments à l’extérieur des blocs correspondent à des covariances de la forme
Cov(εij , εi′ j ′ ) pour i ̸= i′ , qui sont toutes égales à zéro. Si on a un modèle avec q effets
aléatoires (par exemple dans l’exemple sur les rats Wistar, nous avions une ordonnée à
l’origine et une pente aléatoires, donc q = 2), alors la matrice D sera de dimension Kq × Kq
et sera elle aussi diagonale par blocs. Elle sera constituée de K blocs identiques de dimension
q × q, puisque le i-ème bloc représente la matrice de variance du vecteur γ i et on suppose
ces γ i i.i.d. (et cette indépendance explique les covariances nulles à l’extérieur des blocs).
Afin que les paramètres des matrices de variance soient estimables, il faut généralement
que les blocs correspondant aux différentes grappes (valeurs de i) soient de la même forme afin
de partager les mêmes paramètres. Plusieurs types de spécifications sont disponibles (voir
la documentation de la fonction lmer du package lme4 de R ou de la procédure MIXED
en SAS ou les livres cités dans la bibliographie). Voici une liste des spécifications les plus
utilisées comme structure pour les blocs des matrices V et D.

Composantes de variance (variance components)

Les observations ont la même variance (σ 2 ) et les covariances sont nulles :


 
σ2 0 0 ···
 

 0 σ2 0 ···  
 .
 .. .. . . . .. 
 . . . 
 
0 ··· 0 σ2

Cette forme est plus applicable aux blocs de la matrice de variance des résidus V qu’à
ceux de la matrice des effets aléatoires D. En effet, comme les coefficients β0 , β1 , . . . sont
rarement de la même échelle, il est peu raisonnable de croire que la variance d’une ordonnée
à l’origine aléatoire serait égale à la variance d’une pente aléatoire, par exemple.
135

Symétrie composée (compound symmetry)

Cette forme suppose que toutes les observations ont la même variance (σ 2 ) et que toutes
les covariances sont égales (σ1 ) :
 
σ2 σ1 σ1 · · ·
 

 σ1 σ2 σ1 · · · 


 .. .. .. .. .
 . . . . 
 
σ1 · · · σ1 σ2

Encore une fois, puisque toutes les variances y sont égales et que toutes les covariances y
sont égales, cette structure est appropriée pour les blocs de V et non pas pour les blocs de
D.

Auto-régressive d’ordre 1 (AR(1))

Même variance (σ 2 ) et covariance qui diminue géométriquement :


 
σ2 ρσ 2 ρ2 σ 2 · · ·
 

 ρσ 2 σ2 ρσ 2 ··· 

 , 

 ρ2 σ 2 ρσ 2 σ2 ··· 

 
.. .. ...
. .

où |ρ| < 1.
Cette spécification n’est pas appropriée pour les blocs de la matrice D, mais elle est
particulièrement utile pour les blocs de V lorsque les observations corrélées entre elles sont
des mesures prises sur un même sujet à intervalles réguliers dans le temps (par exemple,
mesures de la hauteur d’un arbre prises à toutes les 3 semaines) ou dans l’espace (usure de
l’asphalte d’une route au km 1, au km 2, au km 3, ...)
136

Non structurée (unstructured)

C’est le modèle le plus général, où toutes les variances et les covariances prennent des
valeurs différentes :  
σ12 σ21 σ31 · · ·
 

 σ21 σ22 σ32 · · · 

 .

 σ31 σ32 σ32 ··· 
 
.. .. ..
. . .
On peut utiliser cette structure pour les blocs de la matrice D, puisque règle générale,
les blocs de D sont de faible dimension (on a rarement plus de 3 effets aléatoires dans un
modèle en pratique, donc les blocs de D sont rarement de dimension supérieure à 3 × 3),
tous de même taille et que la valeur de j a la même signification pour tout i (par exemple
j = 1 est l’ordonnée à l’origine aléatoire et j = 2 est la pente aléatoire pour tous les γ i ). Par
contre puisque le nombre de paramètres distincts ne serait pas le même pour tous les blocs
de la matrice V , on ne peut pas vraiment l’utiliser comme structure pour cette dernière, sauf
dans les cas où tous les ni sont égaux, de faible valeur et que la valeur de j a exactement la
même signification pour tout i (par exemple i =famille et j = 1 pour le père, j = 2 pour la
mère, etc.).

Diagonale principale (banded main diagonal)

Variances différentes, covariances toutes nulles :


 
σ12 0 0 ···
 

 0 σ22 0 ··· 

 .

 0 0 σ32 · · · 

 
.. .. ..
. . .

Cette structure est appropriée pour les blocs de D, mais il n’est pas hors de question
qu’elle puisse servir pour les blocs de V dans les cas où tous les ni sont égaux, de faible
valeur et que la valeur de j a exactement la même signification pour tout i.
137

6.3 Estimation des paramètres et des effets aléatoires


Le modèle mixte (6.2) comporte deux groupes de paramètres à être estimés à partir des
données : les coefficients de régression (éléments du vecteur β) et les composantes de variance
(les éléments des matrices V et D). De plus, on peut parfois être intéressé à prédire/estimer
la valeur des effets aléatoires γ i , ce qui permet en outre d’obtenir des prévisions plus précises
de nouvelles valeurs de Y dans une grappe donnée.

6.3.1 Estimation des β et des composantes de variance


En plus des hypothèses introduites à la section 6.2, la majorité des implémentations du
modèle linéaire mixte en pratique vont supposer que les termes d’erreur ε et les effets aléa-
toires γ sont de loi normale. En combinant le tout, on obtient que Y ∼ N (Xβ, ZDZ ′ + V ),
ce qui permet de développer des méthodes d’inférence basées sur la méthode du maximum
de vraisemblance. En effet, nous pouvons maintenant facilement écrire la densité conjointe
des données observées :
{ }
−n/2 −1/2 1
L(β, V , D) = (2π) ||Σ|| exp − (Y − Xβ)′ Σ−1 (Y − Xβ) , (6.5)
2
où Σ = ZDZ ′ + V . On peut montrer que peu importe la valeur de la matrice Σ, la valeur
de β qui maximise (6.5) est l’estimateur des moindres carrés pondérés

β̂ = (X ′ Σ−1 X)−1 X ′ Σ−1 Y . (6.6)

En substituant cette valeur à la place de β dans (6.5), on obtient une expression qui ne
dépend plus que des paramètres inconnus dans les matrices V et D. Si l’on dénote l’ensemble
de ces paramètres inconnus θ, alors on prend le log de L(β, V , D), on crée le vecteur des
dérivées de cette fonction par rapport à chaque élément de θ, on pose égal à 0 et on résout
pour trouver θ̂, les estimateurs du maximum de vraisemblance des composantes de variance.
On les substitue dans D et V pour obtenir D̂ et V̂ , respectivement et ensuite on obtient
Σ̂ = Z D̂Z ′ + V̂ qu’il ne nous reste qu’à mettre à la place de Σ dans (6.6) pour obtenir β̂.
Pour faire des tests d’hypothèses, des intervalles de confiance, etc., on peut utiliser le fait
138

que lorsque K → ∞, on a
     { } 
′ −1
β̂  β X Σ̂ X 0
 ≈N
 ,


 , (6.7)
θ̂ θ 0 Vd
ar(θ̂)

où Vd
ar(θ̂) est l’inverse de la matrice d’information pour le paramètre θ.

6.3.2 Estimation de γ et prévisions


La meilleure prévision linéaire sans biais (BLUP) de γ est donnée par

γ̂ BLU P = DZ ′ Σ−1 (Y − Xβ) (6.8)


−1
γ̂ EBLU P = D̂Z ′ Σ̂ (Y − X β̂). (6.9)

Son utilité vient du fait qu’on peut ensuite obtenir des prévisions plus précises pour la valeur
de Y dans chacune des grappes i. En fait il existe en général deux types de prévisions pour
les modèles mixtes : une prévision pour la moyenne de la population à une valeur donnée
des variables exogènes et une prévision pour la moyenne d’une grappe i pour une valeur
donnée des variables exogènes.
Pour la moyenne de la population, on cherche une prévision pour une valeur donnée des
variables exogènes et avec la valeur moyenne des effets aléatoires, soit 0 pour chaque effet
aléatoire. Mathématiquement, on cherche à prédire

E[Y ; x0 , z 0 ] = E[x′0 β + z ′0 γ + ε] = x′0 β + E[z ′0 γ + ε]


= x′0 β + 0 + 0 = x′0 β.

Le meilleur estimateur linéaire non biaisé empirique de cette quantité est x′0 β̂, qui sera
notre prévision ponctuelle. Il est également possible de construire un intervalle de confiance ;
nous ne verrons pas comment le faire de façon théorique dans ce cours, mais nous pourrons
facilement obtenir de tels intervalles avec R et SAS.
Quand on parle d’une prévision pour la valeur moyenne dans une grappe i, on parle en
fait d’une prévision de Y pour une valeur donnée de x0 et z 0 étant donné les valeurs des
Yij observées pour cette grappe. Nous cherchons donc une meilleure prévision linéaire non
139

biaisée empirique de x′0 β + z ′0 γ, ce qui est donné par x′0 β̂ + z ′0 γ̂. Encore une fois, on peut
également obtenir un intervalle de confiance correspondant à cette prévision très facilement à
l’aide de R ou SAS. Une propriété très intéressante de ces estimateurs qui est exploitée dans
plusieurs domaines (e.g., échantillonnage, actuariat) est que l’on peut montrer que (Verbeke
& Molenbergs, 1997, p. 80)

Ŷ i = V i Σ−1 −1
i X i β̂ + (I ni ×ni − V i Σi )Y i .

En d’autres termes, le vecteur des valeurs prédites pour la grappe i est une moyenne pondérée
de la moyenne globale dans la population X ′i β̂ et des données observées dans la grappe i,
Y i . On note que le poids donné à la moyenne globale est proportionnel à V i et inversement
proportionnel à Σi , ce qui implique que si la variabilité résiduelle pour la grappe i est élevée
par rapport à la variabilité totale, la moyenne globale aura un grand poids dans la prévision
pour la grappe i, et vice-versa.
Par exemple, pour un modèle de régression linéaire simple avec coefficients aléatoires,
une prévision pour la valeur moyenne de Y dans la population lorsque la variable exogène
prend la valeur x0 est donnée par β̂0 + β̂1 x0 tandis qu’une prévision pour la valeur moyenne
de Y pour l’individu i sous x0 est (β̂0 + γ̂i0 ) + (β̂1 + γ̂i1 )x0 .

6.3.3 Amélioration des inférences


Les inférences basées sur la théorie standard de l’estimation par maximum de vraisem-
blance fonctionnent bien en pratique seulement lorsque le nombre de grappes K est élevé.
C’est pourquoi les inférences sur les composantes de variance et les coefficients de régression
fournies par défaut par les logiciels sont basées sur de légères variantes de cette approche.

Estimation des composantes de variance par la méthode REML

Cette méthode consiste à maximiser la vraisemblance non pas de Y , mais plutôt de com-
binaisons linéaires des Yij construites de telle sorte que les effets fixes (Xβ) sont “éliminés”.
Ceci a pour effet de corriger les estimés des composantes de variance pour les degrés de
liberté des effets fixes, de façon analogue à la division de la somme des carrés résiduels par
n − p au lieu de n au chapitre 1.
140

Plus précisément, soit N le nombre de lignes de la matrice X et rX le rang de X. Soit


la matrice K = (k1 , . . . , kN −rX ) dont les N − rX colonnes sont linéairement indépendantes
et telles que K ′ X = 0 (c.-à-d. que k′j X = 0, j = 1, . . . , N − rX ). Comme Y ∼ NN (Xβ, Σ),
alors
U = K ′ Y ∼ NN −rX (0, K ′ ΣK). (6.10)

On utilise ensuite l’estimation par maximum de vraisemblance basée sur (6.10) pour estimer
les paramètres de Σ à partir des données U . Plus de détails sur cette procédure (ainsi que sur
la façon d’obtenir la matrice K) sont donnés au chapitre 6 de McCulloch & Searle (2001).
Un coup Σ ainsi estimée, on peut la substituer dans les équations appropriées pour inférer
sur les valeurs de β et/ou γ.

Maximum de vraisemblance ordinaire (ML) ou REML ?

Il semblerait que la méthode REML soit la méthode de choix en pratique (elle est
d’ailleurs la méthode par défaut de la fonction lmer de R et la procédure MIXED de SAS).
En plus d’être plus stable numériquement, ses estimateurs des composantes de variance ont
moins tendance à sous-estimer les vraies valeurs. En contre-partie, si on utilise la méthode
REML, certains chercheurs conseillent de ne pas se fier sur des critères basés sur la fonction
de log-vraisemblance comme les tests du rapport des vraisemblances ou les critères AIC ou
BIC, surtout lorsque les modèles comparés n’ont pas les mêmes effets fixes, puisque dans ce
dernier cas des modèles différents auront un vecteur U différent et on se retrouvera donc à
comparer ces critères alors qu’on a une variable réponse différente pour chaque modèle com-
paré. Voir la section 6.10 de McCulloch & Searle (2001) pour une discussion plus élaborée.

Tests et intervalles sur les β et γ

Il est possible de faire des tests d’hypothèses et de construire des intervalles de confiance
en passant par des statistiques t et F modifiées qui performent mieux que les tests z basés
141

sur la loi normale (6.7). Considérons le test d’une hypothèse linéaire générale de la forme
 
β 
H0 : L =0
γ
 
β 
H1 : L ̸ 0,
=
γ

où L est une matrice de constantes de rang égal à r (la plupart du temps son nombre de
lignes). Soit  
−1 −1
X ′ V̂ X X ′ V̂ Z
Ĉ =  ′ −1 −1 −1
.
Z V̂ X Z ′ V̂ Z + D̂
Si L ne compte qu’une seule ligne, alors
 
β̂ 
L
γ̂
t= √
−1
LĈ L′
suit approximativement une distribution tv̂ , où v̂ est un nombre de degrés de liberté qui
ne dépend pas uniquement du modèle mais qui doit être estimé à partir des données 1 ;
pour les modèles de régression linéaire mixtes, on recommande l’utilisation de la méthode
d’estimation des degrés de liberté de Satterthwaite. On rejette H0 en faveur de H1 lorsque
|t| ≥ tα/2;v̂ . On peut aussi utiliser cette statistique comme pivot pour obtenir un intervalle
( )
de confiance pour L β γ :   √
β̂ −1
 ± tα/2;v̂ LĈ L′ .
L (6.11)
γ̂
Dans le cas général où L compte plus d’une ligne, on peut définir la statistique de test
 ′  
( )−1
β̂  ′ −1 β̂ 
 L LĈ L′ L
γ̂ γ̂
F = . (6.12)
r
1. L’estimation des degrés de liberté pour cette statistique t est une tâche non triviale qui ne peut être
couverte dans cette introduction aux modèles mixtes. Le lecteur intéressé est invité à consulter la p. 84 et
l’annexe A.3 du livre de Verbeke et Molenberghs (1997).
142

Sous H0 , cette statistique de test a une distribution qui s’approxime par une distribution
Fr,v̂ .

6.4 Test de la nécessité d’effets aléatoires


Quand la nécessité d’effets aléatoires n’est pas pré-déterminée par le contexte, il est
recommandé de choisir la structure de ces effets en ajustant le modèle le plus complexe et en
testant si la structure d’effets aléatoires peut être réduite une étape à la fois, en commençant
par enlever les termes aléatoires devant les termes de degré le plus élevé. En général, on
conserve des termes aléatoires devant tous les termes de degré inférieur à un terme qui
conserve son terme aléatoire (par exemple s’il y a un terme aléatoire devant x2 , on conserve
les termes aléatoires devant les termes en x1 = x et x0 =ordonnée à l’origine).

Calcul du seuil des tests

Supposons que l’on désire tester si un modèle à q + 1 effets aléatoires peut se réduire à un
modèle à q effets aléatoires. Il est important de noter que les tests présentés ici ne sont valides
que si D donne aux effets aléatoires des variances différentes et aux paires d’effets aléatoires
des covariances différentes ou nulles (donc des structures telles non-structurée ou diagonale
principale). Soit m0 , le nombre de paramètres différents de la matrice D à estimer dans le
modèle réduit (modèle sous H0 à q effets aléatoires) et soit m1 , le nombre de paramètres
différents de la matrice D à estimer dans le modèle complet (modèle sous H1 à q + 1 effets
aléatoires). Posons ξ = 2(l1 − l0 ), la statistique du rapport des vraisemblances (restreintes
ou pas). Alors en temps normal, le seuil du test serait P [χ2m1 −m0 > ξ]. Malheureusement,
nous ne pouvons utiliser ce seuil ici car sous H0 , le paramètre correspondant à la variance
du (q + 1)ème effet aléatoire est remplacé par 0, une valeur à la frontière de son espace
paramétrique. Mais comme il s’agit là du seul paramètre du test pour lequel la valeur à
tester est à la frontière de l’espace (les autres paramètres impliqués, s’il y en a, sont des
covariances pour lesquelles la valeur 0 est à l’intérieur de l’espace), alors on peut calculer le
seuil ainsi
p-value = 0.5P [χ2m1 −m0 −1 > ξ] + 0.5P [χ2m1 −m0 > ξ].
143

Si m1 −m0 −1 = 0, alors se souvenir qu’une χ20 est une v.a. dégénérée à 0 et donc P [χ20 > ξ] = 0
pour toute valeur de ξ > 0. On note que sous une structure de corrélation de type non
structurée, alors m1 − m0 = q + 1 (le test implique la variance de l’effet aléatoire testé et
les q covariances entre cet effet aléatoires et les autres effets aléatoires), alors que pour une
structure diagonale principale, m1 − m0 = 1 (une variance, aucune covariance).

Exemple 6.5 Verbeke & Molenberghs (2000) analysent un jeu de données où des mesures
d’un indicateur sont prises sur des invidus atteints d’un cancer de la prostate à plusieurs
moments dans le temps. Ils ajustent un moèle linéaire mixte de la forme

Yij = (β0 + γi0 ) + (β1 + γi1 )tij + (β2 + γi2 )t2ij + εij ,

où tij représente le temps écoulé depuis le traitement à la je mesure pour l’individu i.


La question d’intérêt est si les effets aléatoires sont tous nécessaires. Les log-ML et log-
REML maximales pour les modèles suivants, sous une structure non structurée, sont données
par Verbeke & Molenberghs (2000, p. 72) :

Modèle log-ML max. log-REML max.


Yij = (β0 + γi0 ) + (β1 + γi1 )tij + (β2 + γi2 )t2ij + εij -3.575 -20.165
Yij = (β0 + γi0 ) + (β1 + γi1 )tij + β2 t2ij + εij -50.710 -66.563
Yij = (β0 + γi0 ) + β1 tij + β2 t2ij + εij -131.218 -149.430
Yij = β0 + β1 tij + β2 t2ij + εij -251.275 -272.367

Effectuons le test H0 : ordonnées et pentes vs H1 : ordonnées, pentes, termes au carré. La


statistique du rapport des vraisemblances est 2(−3.575 − (−50.710)) = 94.270 (92.796 si on
prend les REML au lieu des ML). Le nombre de paramètres dans les blocs de la matrice D
sous H0 est m0 = 3 (2 variances et une covariance) et sous H1 est m1 = 6 (3 variances et 3
covariances). On a donc comme seuil du test

0.5P [χ26−3−1 > 94.270] + 0.5P [χ26−3 > 94.270] = 0.5P [χ22 > 94.270] + 0.5P [χ23 > 94.270] ≈ 0.

On a donc qu’il est très clair que nous ne pouvons pas simplifier la structure des effets
aléatoires.
144

Si nous avions obtenu ces résultats avec une structure de corrélation de forme diagonale
principale, alors sous H0 nous aurions eu m0 = 2 paramètres (2 variances) tandis que sous
H1 , on aurait m1 = 3 paramètres (3 variances), et donc m1 − m0 − 1 = 0 et m1 − m0 = 1.
Si nous avions choisi une structure de type symétrie composée, alors nous ne pourrions
pas calculer le seuil avec un mélange de khi-deux car les matrices de variance ont les mêmes
paramètres à estimer sous H0 et H1 , même si les matrices sont différentes. Raison de plus
pour choisir des structures de corrélation avec des variances différentes (non structurée,
diagonale principale) pour les blocs de la matrice D ! !

6.5 Procédure typique de construction du modèle


Les procédures de construction et de validation de modèle pour le modèle mixte ne sont,
malheureusement, pas aussi développées que dans le cas du modèle linéaire, bien que récem-
ment certains auteurs ont commencé à étudier comment on peut incorporer les paramètres
des matrices de variance dans les méthodes de régularisation. L’approche décrite ci-dessous
devrait néanmoins mener à des modèles raisonnables.

1. Commencer par ajuster un modèle linéaire ordinaire Y = Xβ + ε par la méthode des


moindres carrés. À ce stade-ci, nous devons favoriser des modèles très larges (inclure
plusieurs interactions, élever au degré 2, etc.) afin d’enlever des résidus toutes les
tendences systématiques.
À noter : Si on hésite à savoir si une variable i devrait faire partie de la matrice
X comme effet fixe ou être le numéro de grappe d’un modèle mixte, on recommande
habituellement de l’utiliser comme grappe dans un modèle mixte dès qu’au moins l’une
de ces situations se présente : on n’a pas l’ensemble de toutes les valeurs possibles de
i dans l’échantillon ; les valeurs des ni sont variables ; on désirera des prévisions pour
des valeurs de i hors de l’échantillon.
2. Faire des graphes des résidus du modèle ajusté à l’étape 1 afin de déterminer les be-
soins en effets aléatoires. Par exemple on peut faire un graphe de eij vs xij pour tous
les i (individus) et j (mesures) et voir si l’ordonnée à l’origine varie d’un individu à
145

l’autre, la pente varie d’un individu à l’autre, etc. Si un terme aléatoire d’ordre supé-
rieur est inclus dans le modèle, alors les termes aléatoires d’ordres inférieurs doivent
également être inclus (par exemple si on inclut un terme aléatoire devant x2 , alors
un terme aléatoire en x doit également être inclus). Important : Habituellement, on
n’inclut pas de coefficient aléatoire devant une variable exogène xijk dont la valeur
ne varie pas avec j ; ceci équivaudrait à tenter d’estimer une pente quand toutes les
observations ont la même valeur de x ! Habituellement, les variables exogènes dont
la valeur est fixe en j servent à expliquer pourquoi la moyenne est différente d’une
grappe à une autre ; si on les omet, la variance des ordonnées à l’origine aléatoire
augmente.
À ce stade-ci, une première vérification et correction de la linéarité peut être effectuée.
3. Choisir la forme appropriée pour les matrices D et V . En général, on garde V le
plus simple possible puisque la présence d’effets aléatoires est souvent suffisante pour
modéliser la covariance entre les résidus εij . Les critères d’information d’Akaike (AIC)
et d’information Bayesienne de Schwarz (BIC) donnés par SAS peuvent aider dans
cette sélection (plus les critères sont faibles, meilleur est le modèle). La quantité de
données dont on dispose peut également jouer un rôle ici : on ne peut pas avoir plus
de paramètres que de données !
4. Une fois D et V choisies, on peut effectuer une sélection plus formelle des effets
aléatoires en utilisant le test de la section 6.4. On commence par le modèle ayant le
plus d’effets aléatoires et on simplifie le modèle une étape à la fois, en commençant
par les effets aléatoires d’ordres supérieurs (par exemple, on teste si un effet aléatoire
devant x2 est nécessaire. Si oui, on arrête, sinon, on l’enlève et on teste si un effet
aléatoire devant x est nécessaire, et ainsi de suite).
5. On réduit ensuite la partie “effets fixes”, Xβ, du modèle en choisissant les variables
exogènes importantes en utilisant une des méthodes algorithmiques de sélection de
modèle du chapitre 3. Attention : On peut utiliser la méthode REML si on choisit une
méthode algorithmique à cette étape, mais si on veut utiliser l’AIC ou le BIC, comme
X diffère d’un modèle à l’autre, ces critères doivent se baser sur la log-vraisemblance
(méthode ML) pour être comparables.
146

6. Les chercheurs en statistique travaillent à développer des méthodes de validation de


modèle (normalité des résidus, normalité des effets aléatoires, observations influentes,
données aberrantes, etc.) et quelques méthodes de validation de modèle sont illustrées
au chapitre 3 du livre de Verbeke & Molenberghs (1997). Notez que si l’on suppose
que V ar[ε] = σ 2 I, alors on peut utiliser les méthodes du chapitre 1 basées sur les
résidus afin de valider le modèle. (Sinon, alors on peut poser ε∗ = (V̂ )−1/2 ε, et alors
V ar[ε∗ ] ≈ I. Les estimés des ε∗ sont parfois appelés résidus standardisés.) Cependant
si les graphiques montrent des problèmes potentiels, ces problèmes peuvent provenir
de plusieurs sources différentes (mauvaise spécification de Xβ, mauvaise spécification
de Zγ, etc.).

6.6 Exemple sur les rats Wistar


Retournons à l’exemple présenté par Verbeke et Molenberghs (2003) sur l’effet du dosage
de Decapepty) sur la croissance du crâne chez les rats Wistar mâles. Les graphiques de la
mesure de la taille du crâne, Yij , en fonction de l’âge pour les 3 groupes de rats avaient
été montrés à la figure 6.3. Le graphique des résidus de la régression linéaire ordinaire en
fonction du temps (figure 6.4) montrait qu’il y avait probablement besoin d’ordonnées à
l’origine aléatoires, mais la réponse est moins claire pour les pentes aléatoires. Nous allons
commencer par ajuster un modèle qui comporte aussi des pentes aléatoires afin d’identifier
la forme des matrices D et V , et nous pourrons ensuite tester de façon formelle si le terme
de pentes aléatoires est nécessaire.
Nous ajustons maintenant le modèle mixte

Yij = (β0 + γi0 ) + (β1 + γi1 )tij + βH0 xHi + βH1 xHi tij
+βC0 xCi + βC1 xCi tij + εij , (6.13)

où γi0 et γi1 sont, respectivement, l’ordonnée à l’origine et la pente aléatoire pour l’individu
i. En essayant ce modèle sur les données avec plusieurs combinaisons de spécifications des
matrices V et D, les critères AIC et BIC nous suggèrent le choix de σ 2 I pour V et non
structurée pour D (étant donné que nous n’avons que deux effets aléatoires, cette structure
147

Table 6.1 – Valeurs des critères de sélection AIC et BIC pour le modèle mixte (6.13). Les
abréviations pour les formes des matrices de variance correspondent à leur syntaxe SAS.
(V , D) AIC BIC
(AR(1), UN) 946 965.1
(CS, UN) 946 965.1
(VC, UN) 944 961.2

n’est pas beaucoup plus complexe que la structure diagonale principale) ; les valeurs des
critères de sélection obtenues pour les combinaisons testées sont données au tableau 6.1.
Nous pouvons maintenant passer à l’étape suivante, c.-à-d. tester si les effets aléatoires
sont nécessaires. En ajustant les modèles avec et sans pentes aléatoires et en prenant deux
fois la différence entre les log-vraisemblance maximisées, on obtient la statistique du rapport
des vraisemblances ξ = (926.0 − 926.0) = 0, donc une différence qui n’est pas significative.
On peut maintenant réduire le modèle avec la méthode d’exclusion. En partant du modèle

Yij = (β0 + γi0 ) + β1 tij + βH0 xHi + βH1 xHi tij


+βC0 xCi + βC1 xCi tij + εij ,

avec V = σ 2 I, on obtient les résultats suivants :

Type 3 Tests of Fixed Effects


Num Den
Effect DF DF F Value Pr > F
t 1 199 2127.94 <.0001
treat 2 199 1.33 0.2678
t*treat 2 199 0.54 0.5823

On élimine donc en deux étapes les termes en βH1 xHi tij et ensuite βC1 xCi tij du modèle
pour obtenir

Type 3 Tests of Fixed Effects


148

Num Den
Effect DF DF F Value Pr > F
t 1 201 2222.21 <.0001
treat 2 201 3.27 0.0401

Le modèle final est

Yij = (69.25 + γi0 ) + 7.22tij − 1.56xHi − 0.33xCi + εij .

Si quelqu’un désire savoir si la taille moyenne des crânes dans la population ayant reçu
une dose faible après t0 unités de temps (transformé) est en général la même que la taille
dans la population n’ayant reçu aucune dose après (t0 + 0.1) unités de temps (transformé),
on cherche à tester

H0 : E[Y ; xC = 0, xH = 0, t = t0 ] = E[Y ; xC = 1, xH = 0, t = t0 + 0.1], ∀t0


⇔ H0 : β0 + βt (t0 + 0.1) = β0 + βC + βt t0 , ∀t0 ⇔ H0 : βC − 0.1βt = 0.

Il s’agit donc d’un test d’une hypothèse linéaire générale pour lequel on obtient
Contrasts
Num Den
Label DF DF F Value Pr > F
control @ t+0.1=low @ t 1 201 2.46 0.1187
On n’a donc aucune évidence contre H0 et on ne rejette pas cette hypothèse.
Finalement, pour le rat numéro 3 qui ne reçoit aucun médicament, on a estimé son
ordonnée à l’origine aléatoire à γ̂0,3 = 2.06. Une prévision de ce que sera la mesure de son
crâne à l’âge 90 jours (ce qui correspond à t = ln{1 + (90 − 45)/10} = 1.704) est donc
(69.25 + 2.06) + 7.22(1.70) − 0.33 = 83.3 pixels. Un intervalle de confiance à 95% pour
l’espérance de la mesure du crâne pour ce rat à cet âge est obtenue avec SAS : (82.2, 84.4).

6.7 Exemple sur le prix de vente des maisons


Retournons à l’exemple 6.1 sur le prix de vente des maisons dans le nord-ouest des États-
Unis. Considérons le jeu de données pour lequel nous avons auquel des 4 trimestres de l’année
149

la vente a eu lieu (j = 1, . . . , 4), le “zip code” de la maison vendue (i = 1, . . . , 70), le log


du prix de vente (Yij ), la superficie du terrain (xij1 ) et la superficie de la surface habitable
(xij2 ) pour 26 613 maisons. Nous partitionnons ce jeu de données aléatoirement en 20 000
observations pour l’entrainement et 1 613 observations pour la validation.
Dans un premier temps, nous ajustons un modèle linéaire naïf qui ne tient pas compte
du “zip code” mais qui a le trimestre (variable qualitative à 4 modalités) et les deux types
de superficie comme variables explicatives. En ajustant ce modèle au jeu d’entrainement on
obtient la sortie ci-dessous.
lm(formula = Y ~ factor(trimestre) + terrain + maison, data = dat.raw)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.942642 0.050386 137.789 < 2e-16 ***
factor(trimestre)2 -0.013665 0.007734 -1.767 0.077263 .
factor(trimestre)3 -0.029391 0.007723 -3.806 0.000142 ***
factor(trimestre)4 0.030172 0.007690 3.924 8.75e-05 ***
terrain -0.052582 0.003192 -16.471 < 2e-16 ***
maison 0.871544 0.006780 128.542 < 2e-16 ***
Multiple R-squared: 0.4635,Adjusted R-squared: 0.4633

On note une estimation négative et très significative de l’effet de la superficie du terrain


sur le prix de vente. Lorsque l’on utilise ce modèle pour prédire le log du prix de vente des
maisons du jeu de validation, la moyenne du carré des erreurs de prévision est 0.14922.
Nous allons maintenant ajuster deux modèles linéaires mixtes à ces données, appelons-les
(a) et (b). Ils auront tous deux le même prédicteur linéaire que le modèle linéaire ci-dessus,
mais nous allons supposer qu’il y a une ordonnée à l’origine aléatoire qui varie selon le “zip
code” pour les deux modèles (a) et (b) ainsi qu’une pente aléatoire devant la superficie du
terrain pour le modèle (a). On obtient les deux sorties qui suivent.
Y ~ factor(trimestre) + terrain + maison + (terrain | i)
Random effects:
Groups Name Variance Std.Dev. Corr
i (Intercept) 0.250606 0.5006
terrain 0.002841 0.0533 -0.70
Residual 0.046592 0.2159
Number of obs: 20000, groups: i, 70
Fixed effects:
Estimate Std. Error t value
(Intercept) 7.003542 0.070000 100.051
factor(trimestre)2 -0.003691 0.004345 -0.849
factor(trimestre)3 -0.001435 0.004346 -0.330
factor(trimestre)4 0.055630 0.004324 12.865
150

terrain 0.087235 0.007027 12.415


maison 0.695406 0.004206 165.320

Y ~ factor(trimestre) + terrain + maison + (1 | i)


Random effects:
Groups Name Variance Std.Dev.
i (Intercept) 0.13508 0.3675
Residual 0.04787 0.2188
Number of obs: 20000, groups: i, 70
Fixed effects:
Estimate Std. Error t value
(Intercept) 7.077446 0.054962 128.770
factor(trimestre)2 -0.003373 0.004399 -0.767
factor(trimestre)3 -0.000980 0.004398 -0.223
factor(trimestre)4 0.056382 0.004377 12.883
terrain 0.071518 0.002227 32.112
maison 0.703920 0.004189 168.057

Dans les deux cas, on obtient maintenant un important effet positif de la superficie du
terrain, ce qui est plus conforme à notre intuition. Au niveau de la prévision sur le jeu de
validation, l’erreur de prévision carrée moyenne est de 0.04891 pour le modèle (a) et 0.04979
pour le modèle (b), soit deux performances très similaires clairement meilleures que celle du
modèle linéaire. À noter que si on inclut le “zip code” comme une variable catégorielle à 70
modalités dans le modèle linéaire ordinaire, l’estimé de l’effet du terrain devient similaire à
celui obtenu par les modèles mixtes, tout comme l’erreur de prévision. Par contre effectuer
ceci n’est pas recommandé si l’on a un jeu de données très débalancé (des “zip codes”
qui auraient des nombres très différents d’observations), si la pente aléatoire a une forte
variance ou si l’on désire des prévisions pour des “zip codes” différents de ceux dans le jeu
d’entrainement.
Finalement si on n’a pas de jeu de validation et que l’on aimerait trancher entre le
modèle (a) et (b), on peut faire le test de la section 6.4. Ici on a que la log-vraisemblance
maximale sous les modèles (a) et (b) est respectivement égale à 1962.598 et 1761.318, pour
une statistique du rapport des vraisemblances égale à ξ = 2(1962.598 − 1761.318) = 402.56.
Puisqu’on a utilisé la structure par défaut pour D qui est non structurée dans lmer, on a
que m1 = 3 (2 variances et une covariance) et que m0 = 1 (une variance) et donc m1 − m0 =
151

3 − 1 = 2 dans cet exemple. La p-value du test est donc donnée par

0.5P [χ21 > 402.56] + 0.5P [χ22 > 402.56] ≈ 0.

On rejette donc très fortement le modèle sans pente aléatoire et on opte pour le modèle (a).
Chapitre 7

Modèles linéaires généralisés pour


données corrélées : approche
marginale

Tout au long du chapitre 2, nous avons supposé que sachant les valeurs des variables
exogènes x1 , . . . , xn , les variables endogènes Y1 , . . . , Yn étaient indépendantes. Il arrive ce-
pendant fréquemment en pratique que cette hypothèse ne soit pas raisonnable. Par exemple
dans les études sur les traitements contre l’épilepsie, pour chaque individu i, on mesure
Yi,1 , . . . , Yi,ni , le nombre de crises dans plusieurs périodes de temps consécutives. Bien que
l’hypothèse d’indépendance soit raisonnable entre Yi,j et Yi′ ,j ′ si i ̸= i′ (individus différents),
les nombres de crises dans deux périodes différentes pour un même individu, Yi,j et Yi,j ′ ,
sont fort probablement corrélés. De façon similaire, si Yi,j est une variable binaire dénotant
la présence ou l’absence d’une tumeur chez le jème rat de la ième portée (famille) après in-
jection d’un cancérogène, il est probable que les rats d’une même famille réagiront de façon
similaire au cancérogène et, donc, que les variables Yi,j et Yi,j ′ soient corrélées.
Dans ce chapitre, nous verrons comment il est possible de tenir compte de ce type de corré-
lation dans nos inférences sur les coefficients de régression β d’un modèle linéaire généralisé.
L’approche que nous adopterons utilisera le concept d’équations d’estimation généralisées
(GEE) et d’estimation robuste de la variance de l’estimateur β̂. Contrairement à l’approche

152
153

par modèles mixtes du chapitre 6, ici nous ne cherchons pas à modéliser de façon précise
la corrélation, mais plutôt à corriger nos estimateurs et leurs estimateurs de variances et
covariances pour tenir compte de la corrélation. (Il s’agit en fait d’une généralisation de
la correction du type “quasi-Poisson” du chapitre 2.) De plus, les coefficients de régression
représentent l’effet d’un changement dans les valeurs exogènes sur la valeur moyenne de la
variable endogène dans l’ensemble de la population, donc on parle ici d’une approche margi-
nale, ou “moyennée sur la population” (population-averaged). Ce chapitre ne se veut en fait
qu’une introduction à ce type d’analyse et nous ne verrons que la procédure pour ajuster un
modèle choisi, sélectionner les variables exogènes et tester des hypothèses sur les coefficients
de régression β.

7.1 Équations d’estimation généralisées (GEE)


Supposons que pour chaque individu (ou groupe) i, nous avons un vecteur Y i = (Yi1 , . . . , Yini )′
de plusieurs observations de la variable endogène ainsi que la matrice de dimensions ni × p
X i = (xi1 , . . . , xini )′ , où xij = (1, xij1 , . . . , xijp′ )′ représente la valeur des variables exo-
gènes pour l’observation j de l’individu (groupe) i. On suppose que la distribution marginale
de chaque variable endogène Yij est un même membre de la famille exponentielle et que
E[Yij |xij ] = µij = g −1 (ηij ) = g −1 (x′ij β) pour une fonction de lien g(·) connue. Étant donné
les variables exogènes, on suppose les variables endogènes d’un vecteur Y i indépendantes de
celles d’un vecteur Y i′ , i ̸= i′ .

7.1.1 Équations d’estimation sous l’indépendance


Nous allons tout d’abord commencer par estimer le vecteur des coefficients de régression
β en supposant que les variables aléatoires à l’intérieur d’un vecteur Y i sont indépendantes.
Cette hypothèse est fausse, mais elle nous permet d’amorcer la procédure d’estimation.
Dans ce cas, on a que la matrice des corrélations de Y i est donnée par Ri = I ni ×ni , la
matrice identité de dimensions ni × ni , et nous obtenons β̂ en maximisant la fonction de
vraisemblance. Comme dans le cas de la famille exponentielle la fonction de vraisemblance
154

est “régulière", on trouve la valeur de β qui la maximise en résolvant le système d’équations 1



n
U indep (β) = X ′i ∆i {Y i − µi (β)} = 0, (7.1)
i=1

où µi (β) = (µi1 (β), . . . , µini (β))′ et ∆i est une matrice diagonale de dimensions ni × ni
dont l’élément en position (j, j) est dθij /dηij où θij est le paramètre canonique de la famille
exponentielle.
Si on définit la matrice Ai comme étant la matrice diagonale dont l’élément en position
(j, j) est b′′ (θij ), alors on a que β̂ qui résoud (7.1) sera, sous l’hypothèse d’indépendance,
approximativement de distribution normale multivariée de moyenne β et de variance
( n )−1

V = X ′i ∆i Ai ∆i X i . (7.2)
i=1

7.1.2 Équations d’estimation généralisées


Les équations d’estimation généralisées sont en fait une généralisation des équations d’es-
timation (7.1) où on peut supposer une structure de corrélation autre que l’indépendance
pour Ri et où on ajuste l’estimateur de variance V donné par (7.2) pour tenir compte du
fait que la structure de corrélation Ri ait pu être mal spécifiée.
1/2 1/2
Soit V i = ϕAi Ri (α)Ai , où Ri (α) est une structure de corrélation de travail pour Y i .
Ici on suppose que cette matrice contient certains paramètres inconnus que l’on représente
par le vecteur α. L’idée est d’essayer de “deviner" la vraie structure de corrélation de Y i .
Si on spécifie une mauvaise structure, les inférences sur β seront quand-même valides, mais
si on spécifie la structure correctement, on aura des inférences plus efficaces (variance des
estimateurs plus faible). Les équations d’estimation généralisées sont ensuite données par

n
D ′i V −1
i {Y i − µi (β)} = 0, (7.3)
i=1

1. Une petite introduction à la théorie des équations d’estimation est incluse dans les supports visuels
utilisés en classe pour ce chapitre.
155

où D i = ∂µi /∂β = ϕAi ∆i X i . Si on pose Ri (α) = I ni ×ni , alors (7.3) se simplifie à (7.1).
On définit ensuite
Yij − µij
eij = √ ,
b′′ (θij )
que l’on évaluera à β = β̂ et dont on se servira pour estimer le paramètre de dispersion ϕ
par
1 ∑ n ∑ ni
ϕ̂ = e2 ,
N − p i=1 j=1 ij
∑n
où N = i=1 ni est le nombre total d’observations dans l’échantillon et p = dim(β).
On estime ensuite β en utilisant l’algorithme suivant :
1. Estimer β sous l’hypothèse d’indépendance (méthodes du chapitre 3) et dénoter l’es-
(0)
timateur obtenu β̂ .
Ensuite pour m = 0, 1, 2, . . .
(m)
2. Estimer α et ϕ à partir de β̂ et des eij .
1/2 1/2
3. Poser V i = ϕ̂Ai Ri (α̂)Ai .
4. Mettre la valeur de β̂ à jour :
( n )−1 ( n )
(m+1) (m) ∑ ∑ (m)
β̂ = β̂ + D ′i V −1
i Di D ′i V −1
i {Y i − µi (β̂ )} .
i=1 i=1

(m+1) (m)
5. Itérer les étapes 2 à 4 jusqu’à convergence (différence entre β̂ et β̂ négligeable).
On peut ensuite estimer la matrice de variance de β̂ ainsi obtenu. Si Ri (α) était la vraie
structure de corrélation de Y i , alors cette variance serait estimée par
( n )−1

VT = D ′i V −1
i Di

.
i=1 ˆ
β =β ,α=α̂,ϕ=ϕ̂
Mais comme Ri (α) n’est qu’une matrice de corrélation de travail et est possiblement mal
spécifiée, alors on estime la variance de β̂ par un estimateur de matrice de variance sandwich
robuste :
( n )


VS = VT D ′i V −1
i {Y i − µi (β)}{Y i − µi (β)} V ′ −1
i Di V T.

i=1 β =βˆ ,α=α̂,ϕ=ϕ̂
156

Le terme “sandwich" vient du fait que dans l’expression de plusieurs estimateurs de variance
robustes, une correction empirique est “prise en sandwich" entre deux estimateurs de variance
basés sur le modèle de travail.

7.2 Structures de corrélation les plus communes


Dans cette section, nous donnons une liste des formes les plus communes pour la structure
de corrélation de travail, c.-à-d. de la matrice Ri (α).

7.2.1 Indépendance
Ici on suppose que la corrélation entre Yij et Yij ′ est nulle pour j ̸= j ′ , donc que Ri =
I ni ×ni .

7.2.2 Échangeable
Ce type de structure suppose que la corrélation entre Yij et Yij ′ est α pour j ̸= j ′ . On a
donc que  

1 α ··· α 
 .. . 
 α 1 . .. 
 
Ri (α) =  . . .
 . .. ... α 
 . 
 
α ··· α 1
Lorsque nous n’avons pas de raison de croire a priori que les différentes paires d’observations
(Yij , Yij ′ ) ont des corrélations différentes les unes des autres, cette structure est très appro-
priée. De plus, elle est pratique lorsque le nombre d’observations n’est pas le même pour
chaque valeur de i.
157

7.2.3 Non structurée


Ce type de structure suppose que la corrélation entre Yij et Yij ′ est αjj ′ pour j ̸= j ′ . On
a donc que  

1 α1,2 ··· α1,ni 
 ... .. 
 α1,2 1 . 
 
Ri (α) =  .. .
 ... ... 
 . αni −1,ni 
 
α1,ni ··· αni −1,ni 1
Il est préférable de n’utiliser cette structure que lorsque le nombre d’observations par groupe
est faible et que nous n’avons pas un petit nombre de groupes/individus ayant plus d’obser-
vations que les autres (afin d’avoir suffisamment d’observations pour estimer chaque corré-
lation). Il est aussi important que les valeurs j = 1, 2, . . . aient le même sens pour chaque
valeur de i ; par exemple si i dénote la famille, alors j = 1 dénote le père pour chaque famille,
j = 2 dénote la mère pour chaque famille, etc.

7.2.4 Auto-régressive d’ordre 1 (AR(1))



Ce type de structure suppose que la corrélation entre Yij et Yij ′ est α|j −j| pour j ̸= j ′ .
On a donc que  

1 α · · · αni −1 
 .. .. 
 α 1 . . 
 
Ri (α) =  .. .
 .. .. 
 . . . α 
 
αni −1 · · · α 1
Comme la corrélation décroît au fur et a mesure que la différence entre j et j ′ augmente, cette
structure est particulièrement appropriée lorsque les observations pour un groupe/individu
sont recueillies dans l’ordre chronologique (ou spatial).

7.3 Procédures d’inférence sur β


Lorsque l’on utilise une approche par équations d’estimation généralisées, nous ne mo-
délisons pas la distribution conjointe des observations. Nous ne disposons donc pas d’une
158

fonction de vraisemblance et les inférences ne peuvent être basées sur aucun élément dé-
pendant de la vraisemblance maximisée, ce qui inclut la fonction de déviance, les tests du
rapport des vraisemblances et les critères AIC et BIC. Heureusement, des inférences sur β
peuvent quand-même être faites ; elles se baseront sur une approximation normale multiva-
riée de la distribution de β̂. En effet, comme nous le disions plus haut, le paramètre β̂ suit
approximativement une distribution normale multivariée de moyenne β et de variance V S .
Mathématiquement,
β̂ ≈ N (β, V S ). (7.4)
Ceci nous permet donc de considérer plusieurs problèmes inférentiels.

7.3.1 Intervalles de confiance et tests pour βj


Soit Vjj , l’élément de V S correspondant à la variance de β̂j . Alors, de l’équation (7.4),
on a que  
β̂j − βj
P −zα/2 ≤ √ ≤ zα/2  ≈ 1 − α.
Vjj
Ceci suggère donc l’intervalle de confiance de niveau (1 − α)100% suivant pour βj :

β̂j ± zα/2 Vjj .

Pour tester une hypothèse de la forme H0 : βj = βj0 , la procédure est simple. On



calcule tout d’abord la statistique de test z = (β̂j − βj0 )/ Vjj . Si la contre hypothèse est
H1 : βj ̸= βj0 , le seuil du test est 2P [N (0, 1) ≥ |z|], si la contre hypothèse est H1 : βj > βj0 ,
le seuil du test est P [N (0, 1) ≥ z] et si la contre hypothèse est H1 : βj < βj0 , le seuil du test
est P [N (0, 1) ≥ −z].

7.3.2 Tests d’une hypothèse linéaire générale


Considérons maintenant le test d’une hypothèse linéaire générale H0 : Lβ = 0 contre
H1 : Lβ ̸= 0. Comme nous l’avons vu au chapitre 0 et de l’équation (7.4), on a que
Lβ̂ ≈ N (Lβ, LV S L′ ). Sous H0 , on a que Lβ = 0 et dans ce cas on peut démontrer que
−1
χ = (Lβ̂)′ {LV S L′ } (Lβ̂) ≈ χ2r ,
159

où r est le nombre de rangées dans la matrice L. Le seuil du test est donc donné par
P [χ2r > χ].

7.3.3 Intervalles de confiance pour c′ β


Si nous voulons un intervalle de confiance pour une combinaison linéaire des coefficients
de régression, c.-à-d. un intervalle de confiance pour c′ β pour un vecteur c de dimensions
p × 1, on utilise encore nos résultats du chapitre 0 et l’équation (7.4) pour obtenir c′ β̂ ≈
N (c′ β, c′ V S c). Ceci suggère l’intervalle de confiance à (1 − α)100% suivant pour c′ β :

c′ β̂ ± zα/2 c′ V S c.

Un cas particulier est un intervalle de confiance pour la valeur moyenne de Y dans une

population où x = x0 . On a l’intervalle x′0 β̂ ± zα/2 x′0 V S x0 pour x′0 β, auquel on applique
le lien inverse pour obtenir l’intervalle désiré :
( √ √ )
−1
g (x′0 β̂ − zα/2 x′0 V S x0 ), g −1
(x′0 β̂ + zα/2 x′0 V S x0 ) .

7.4 Méthode d’application


Voici un algorithme indiquant comment on peut appliquer l’approche par fonctions d’es-
timation généralisées.
1. Choisir une famille de distributions pour les Yij ainsi qu’une fonction de lien.
2. Spécifier une structure de corrélation qui nous semble raisonnable. En pratique, on va
fréquemment comparer les estimateurs de variance des coefficients de régression obte-
nus en supposant l’indépendance à ceux de la matrice de variance sandwich robuste.
Si les deux méthodes donnent des estimateurs qui ont des valeurs très semblables,
alors il est raisonnable de supposer l’indépendance entre les observations et d’utiliser
les méthodes du chapitre 3. Si les variances sont différentes, alors on ne peut avoir
recours aux méthodes du chapitre 3 et on passe à l’étape suivante. Une autre façon
possible (lorsque la structure des données le permet) est d’ajuster un modèle avec une
160

corrélation non structurée et de jeter un coup d’oeil à l’estimé de la matrice Ri (α)


pour voir si elle n’est pas approximativement d’une des formes plus simples.
3. Effectuer la sélection des variables exogènes par la méthode d’exclusion (encore une
fois, on se souvient que les critères basés sur la fonction de vraisemblance, comme
l’AIC, ne sont pas valides si on utilise l’approche par GEE).
4. Des inférences sur les β peuvent être faites, mais on ne peut pas vraiment effectuer
de prévisions pour un individu donné, car ceci nécessiterait la modélisation des effets
aléatoires qui causent la corrélation, comme nous le faisions avec le modèle mixte du
chapitre 2. Les inférences faites à l’aide des méthodes du chapitre 4 ne sont donc que
des inférences au niveau de l’effet des variables exogènes sur la valeur moyenne dans
la population (inférences “marginales”, ou “moyennées sur la population”).

7.5 Exemple détaillé


Nous considérons maintenant une étude de l’effet d’un traitement contre les problèmes
respiratoires (voir aide de SAS sur GENMOD pour plus de détails sur ce jeu de données et
d’autres analyses). Chacun de 55 patients souffrant de problèmes respiratoires sont assignés
de façon aléatoire à un traitement ou un placebo. Pour chaque patient, on mesure le statut
respiratoire (outcome=1 pour bon, outcome=0 pour mauvais) lors de chacune de 4 visites.
On dispose également des variables exogènes age, baseline (le statut respiratoire en début
d’étude), active (1 si l’individu reçoit le traitement, 0 s’il reçoit le placebo), et female (1
pour une femme, 0 pour un homme).
Si on ajuste un modèle de régression logistique ordinaire (sans supposer de corrélation
pour les observations prises sur un même individu), la méthode d’exclusion nous mène à la
sortie SAS suivante :

Analysis Of Parameter Estimates


Standard 95% Confidence Chi-
Parameter DF Estimate Error Limits Square Pr > ChiSq
Intercept 1 -0.5234 0.5276 -1.5575 0.5107 0.98 0.3212
161

active 1 0.8654 0.3405 0.1979 1.5328 6.46 0.0111


age 1 -0.0325 0.0155 -0.0629 -0.0020 4.36 0.0368
baseline 1 2.7955 0.3904 2.0303 3.5606 51.27 <.0001

Si on ajuste ce dernier modèle en tenant compte du fait que les observations provenant
d’un même individu puissent être corrélées, en utilisant une structure de corrélation de travail
d’indépendance, on obtient

Analysis Of GEE Parameter Estimates


Empirical Standard Error Estimates
Standard 95% Confidence
Parameter Estimate Error Limits Z Pr > |Z|
Intercept -0.5234 0.6115 -1.7220 0.6751 -0.86 0.3920
active 0.8654 0.4460 -0.0088 1.7395 1.94 0.0523
age -0.0325 0.0193 -0.0703 0.0054 -1.68 0.0929
baseline 2.7955 0.5014 1.8127 3.7782 5.58 <.0001

Avec une structure de corrélation de travail non structurée, on a

Analysis Of GEE Parameter Estimates


Empirical Standard Error Estimates
Standard 95% Confidence
Parameter Estimate Error Limits Z Pr > |Z|
Intercept -0.5310 0.6152 -1.7367 0.6748 -0.86 0.3881
active 0.8580 0.4488 -0.0217 1.7377 1.91 0.0559
age -0.0324 0.0191 -0.0698 0.0049 -1.70 0.0889
baseline 2.8983 0.5012 1.9160 3.8806 5.78 <.0001

Et avec une structure de corrélation de travail AR(1), on obtient

Analysis Of GEE Parameter Estimates


Empirical Standard Error Estimates
Standard 95% Confidence
162

Parameter Estimate Error Limits Z Pr > |Z|


Intercept -0.5401 0.5977 -1.7116 0.6315 -0.90 0.3663
active 0.8140 0.4466 -0.0614 1.6894 1.82 0.0684
age -0.0319 0.0191 -0.0694 0.0056 -1.67 0.0951
baseline 2.7730 0.4962 1.8004 3.7456 5.59 <.0001

Comme on peut le voir, peu importe la structure de corrélation de travail, les estimateurs
ainsi que les erreurs standards, intervalles de confiance et seuils de tests sont très similaires.
Cependant, on peut constater que la procédure d’exclusion ne terminerait pas avec ce modèle
ici, car l’effet de l’âge ne semble pas significatif. Le fait de ne pas corriger les erreurs standards
pour la corrélation intra-individu aurait donc mené à une sous-estimation de ces erreurs
standards et aurait, probablement à tort, conservé age dans le modèle.

Covariance Matrix (Empirical)


Prm1 Prm2 Prm3 Prm4
Prm1 0.35729 -0.07362 -0.009040 -0.01568
Prm2 -0.07362 0.19947 -0.001706 0.04937
Prm3 -0.009040 -0.001706 0.0003653 -0.002719
Prm4 -0.01568 0.04937 -0.002719 0.24626

Les tests et intervalles de confiance pour un paramètre donné dans les sorties SAS sont en
fait les tests (avec βj0 = 0) et intervalles de la section 7.3.1. Par exemple si on avait voulu

tester H0 : βage = 0 contre H1 : βage ̸= 0, on aurait calculé z = (β̂age − 0)/ Vage,age =

(−0.0319 − 0)/ 0.0003653 = −1.67, pour un seuil de 2P [N (0, 1) > | − 1.67|] = 0.095 et donc
on ne peut rejeter H0 au seuil de 5%. Si on avait plutôt voulu tester H0 : βage = −1 contre
√ √
H1 : βage > −1, on aurait calculé z = {β̂age −(−1)}/ Vage,age = (−0.0319+1)/ 0.0003653 =
50.7, pour un seuil de P [N (0, 1) > 50.7] < 0.0001, et on rejette donc fortement H0 .
Si on veut construire un intervalle de confiance pour la moyenne de Y pour les individus
d’âge 40, avec 0 comme statut respiratoire de base et qui subissent le traitement, nous utili-
sons la méthode de la section 7.3.3. On doit d’abord calculer l’intervalle de confiance pour le
prédicteur linéaire : η̂ = β̂0 +1β̂1 +40β̂1 +0β̂3 = −0.54+(1)(0.81)+(40)(−0.03)+(0)(2.77) =
−0.93 et V ar[η̂] = 0.36+0.20+(40)2 (0.00036)+2(−0.07)+2(40)(−0.0090)+2(40)(−0.0017) =
163


0.14, donc un intervalle de confiance à 95% −0.93 ± 1.96 0.14 = (−1.66, −0.19). En appli-
quant l’inverse du lien logit on obtient l’intervalle (0.16, 0.45).
Chapitre 8

Modèles linéaires généralisés mixtes

Note importante
Étant donné notre temps très limité et la complexité relative des modèles linéaires généra-
lisés mixtes (GLMM), ce chapitre ne se veut qu’une très brève introduction aux GLMM. Les
objectifs visés par ce chapitre sont de vous introduire à cette classe de modèles, de vous mon-
trer à quoi ils servent et comment ils peuvent être interprétés et de vous parler brièvement
de l’aspect “implantation du modèle” : inférences, exemples, etc. À la fin de ce chapitre, vous
devriez être en mesure de savoir ce que font ces modèles et d’avoir une compréhension de la
méthode basée sur l’approximation de Laplace pour calculer la vraisemblance du modèle.

164
165

8.1 Introduction
Au chapitre 7, nous avons vu comment faire des inférences sur le vecteur β d’un modèle
linéaire généralisé lorsque les données sont groupées et qu’il existe une corrélation intra-
groupe. Cependant, contrairement aux méthodes du chapitre 2, les méthodes du chapitre 4
ne permettent que de faire des inférences sur les coefficients de régression, ou sur des fonctions
de ceux-ci. De plus, comme ces coefficients sont supposés égaux dans chaque groupe, nous
ne pouvons donc faire que des inférences sur les effets moyens des variables exogènes dans la
population, et non pas sur les effets sur les groupes. Qui plus est, les prévisions ne peuvent
se faire que pour la valeur moyenne dans la population, et non pour la valeur moyenne dans
un groupe. En fait, au chapitre 2, l’approche qui était utilisée pour faire des inférences au
niveau des groupes était de définir des effets aléatoires (les γ0i , γ1i , etc.) et “d’estimer” ces
effets aléatoires. Le but de ce chapitre est de généraliser le modèle linéaire généralisé afin
d’y introduire des effets aléatoires ; ce chapitre (modèle linéaire généralisé mixte) est donc
au chapitre 2 (modèle linéaire généralisé) ce que le chapitre 6 (modèle linéaire mixte) était
au chapitre 1 (modèle linéaire).
Afin de faire des inférences pour les groupes, nous ne pourrons faire comme au chapitre 7
et éviter de modéliser la corrélation intra-groupe. Heureusement, nous sommes déjà familiers
avec la façon utilisée afin de modéliser cette corrélation. En effet, cette dernière sera induite
par la présence d’effets aléatoires, exactement comme nous le faisions dans le cadre du modèle
linéaire mixte au chapitre 6.

8.2 Le modèle
Soit les vecteurs Y , γ, ε et les matrices X et Z tels que définis au chapitre 6. Le modèle
linéaire généralisé mixte suppose que sachant X, les Yij sont indépendants des Yi′ j ′ pour tout
i ̸= i′ . De plus, on suppose que (Yi1 |xi1 , γ i ), (Yi2 |xi2 , γ i ),. . .,(Yini |xini , γ i ) sont indépendants
pour tout i. (Notez que ceci signifie, en général, que (Yi1 |xi1 ), . . . , (Yini |xini ) sont corrélés.)
Comme son nom l’indique, le modèle linéraire généralisé mixte est un hybride des modèles
166

linéaire mixte et linéaire généralisé. On supposera donc que (Yij |xij , γ i ) ∼ f (y|xij , γ i ), où
{ }
yθij − b(θij )
f (y|xij , γ i ) = exp − c(y, ϕ) .
a(ϕ)

Du chapitre 2, nous savons que µij ≡ E[Yij |xij , γ i ] = b′ (θij ) et que V ar[Yij |xij , γ i ] =
a(ϕ)b′′ (θ)ij = a(ϕ)V (µij ). Le modèle postule que l’effet des variables exogènes et des ef-
fets aléatoires sur la distribution de Yij consiste à modifier la valeur de µij ainsi :

g(µij ) = x′ij β + z ′ij γ i ,

où g(·) est une fonction de lien et où z ′ij est la rangée de la matrice Z qui correspond à la jème
observation du groupe i. Afin de compléter la spécification du modèle, nous devons supposer
une distribution pour les effets aléatoires, comme c’était le cas au chapitre 2, puisque ces
derniers ne sont pas observés. Pour l’instant, nous nous contenterons de supposer que les γ i
sont i.i.d. selon une distribution avec densité connue fγ ; nous verrons qu’en fait les logiciels
font exactement la même supposition qu’au chapitre 2 quant à la distribution des effets
aléatoires et assument que γ i suit une loi normale multivariée de moyenne 0 et avec matrice
de covariance de structure connue (par exemple non-structurée, diagonale principale, etc.).

8.3 Propriétés du modèle et interprétation


Contrairement aux chapitres 2 et 7, le modèle donné par f (yij |xij , γ i ) n’est pas un modèle
marginal, dans le sens où si Yij |xij , γ i suit une loi donnée (par exemple Poisson), alors Yij |xij
ne suit pas nécessairement cette même loi. En fait, le modèle tel que décrit à la section 8.2 est
un modèle conditionnel, c.-à-d. que les moyennes µij sont sachant la valeur des effets aléatoires
γ i . Elles correspondent donc aux attributs des observations du groupe i, et non aux attributs
de la population générale. Si nous désirons faire des inférences sur la population générale,
il nous faut les moyennes, variances et covariances “marginales” , E[Yij |xij ], V ar[Yij |xij ] et
Cov(Yij , Yij ′ |xij ).
167

8.3.1 Moyenne marginale

E[Yij |xij ] = Eγ i {E[Yij |xij , γ i ]} = Eγ i [µij ]


= Eγ i [g −1 (x′ij β + z ′ij γ i )].

À moins que la fonction de lien ne soit spécifiée, cette expression ne peut se simplifier.
Au chapitre 6, cette espérance était facile à calculer car nous avions le lien identité, ce qui
donnait E[Yij |xij ] = Eγ i [x′ij β + z ′ij γ i ] = x′ij β + z ′ij Eγ i [γ i ], où la dernière espérance était
nulle si on supposait une loi normale de moyenne zéro pour les effets aléatoires. Malheureu-
sement, si la fonction de lien n’est pas linéaire (ce qui est le cas pour toutes les fonctions de
lien populaires qui ne sont pas le lien identité), le calcul devient plus difficile.

Exemple 8.1 Considérons le modèle où g(u) = ln u et où γ i suit une loi normale multiva-
riée de moyenne 0 et de variance-covariance D. On a

E[Yij |xij ] = Eγ i [exp(x′ij β + z ′ij γ i )] = exp(x′ij β)Eγi [exp(z ′ij γ i )]


= exp(x′ij β)Mγi (z ij ),

où Mγi (z ij ) est la fonction génératrice des moments conjoints de γ i . Donc

E[Yij |xij ] = exp(x′ij β) exp(z ′ij Dz ij /2)


⇔ ln E[Yij |xij ] = x′ij β + z ′ij Dz ij /2.

8.3.2 Variance marginale

V ar[Yij |xij ] = V arγ i {E[Yij |xij , γ i ]} + Eγ i {V ar[Yij |xij , γ i ]}


= V arγ i [µij ] + Eγ i [a(ϕ)V (µij )]
= V arγ i [g −1 (x′ij β + z ′ij γ i )] + Eγ i [a(ϕ)V {g −1 (x′ij β + z ′ij γ i )}].

Encore une fois, cette expression ne peut se simplifier.


168

Au chapitre 6, nous avions le lien identité g(µij ) = µij , V (µij ) = 1 et a(ϕ) = V ar(εij ),
ce qui donnait V ar[Yij |xij ] = z ′ij V ar(γ i )z ij + V ar(εij ). Encore une fois ici, pour d’autres
distributions et autres fonctions de lien, les calculs deviennent plus complexes.

Exemple 8.2 Soit g(u) = ln u, V (µ) = µ, a(ϕ) = 1 (distribution de Poisson) et γ i ∼


N (0, D). Alors

V ar[Yij |xij ] = V arγ i [exp(x′ij β + z ′ij γ i )] + Eγ i [exp(x′ij β + z ′ij γ i )]


= Eγ i [exp(2{x′ij β + z ′ij γ i })] − E 2 [exp(x′ij β + z ′ij γ i )]
+Eγ i [exp(x′ij β + z ′ij γ i )]
[ ]
= exp(2{x′ij β}) Mγ i (2z ij ) − {Mγ i (z ij )}2 + exp(−x′ij β)Mγ i (z ij )
[ ]
= exp(2{x′ij β}) exp(2z ′ij Dz ij ) − exp(z ′ij Dz ij ) + exp(x′ij β) exp(z ′ij Dz ij /2)
[ { } ]
= exp(x′ij β + z ′ij Dz ij /2) exp(x′ij β) exp(3z ′ij Dz ij /2) − exp(z ′ij Dz ij /2) + 1
[ { }]
= E[Yij |xij ] 1 + exp(x′ij β) exp(3z ′ij Dz ij /2) − exp(z ′ij Dz ij /2) .

Un fait intéressant de l’exemple 8.2 : le terme entre crochets à la droite de E[Yij |xij ] est
supérieur à 1, ce qui indique que la variance marginale est supérieure à la moyenne marginale,
même dans le cas de la distribution de Poisson. Comme nous en avions discuté au chapitre 2,
la surdispersion peut survenir lorsque la valeur moyenne de notre variable endogène dépend
d’une variable aléatoire latente (non observée), dans ce cas-ci γ i , que nous n’incluons pas
dans le modèle de régression.

8.3.3 Covariance marginale

Cov(Yij , Yij ′ |xij , xij ′ ) = Cov(E[Yij |xij , γ i ], E[Yij ′ |xij ′ , γ i ]) + E[Cov(Yij , Yij ′ |xij , xij ′ , γ i )].

Comme nous avons supposé que sachant γ i et les variables exogènes, les Yij sont indépen-
dantes, on a que la covariance à l’intérieur de l’espérance est nulle et que

Cov(Yij , Yij ′ |xij , xij ′ ) = Cov{g −1 (x′ij β + z ′ij γ i ), g −1 (x′ij ′ β + z ′ij ′ γ i )}.
169

Encore une fois, cette expression ne se simplifie guerre, sauf dans le cas du lien identité, où
l’on obtient
Cov(Yij , Yij ′ |xij , xij ′ ) = z ′ij V ar(γ)z ij ′ .

8.3.4 Interprétation
Comment interpréter les β dans un modèle linéaire généralisé mixte ? Tout d’abord,
l’interprétation est plus simple dans le cas d’inférences conditionnelles. Ainsi si le coefficient
devant xijk est (βk + γki ), alors une hausse d’une unité de xijk , toute autre variable exogène
demeurant inchangée, augmentera g(µij ) de (βk + γki ) unités. On peut également interpréter
βk comme l’effet de la kème variable sur l’individu moyen (pour lequel γki = 0), et non pas
comme l’effet de la kème variable sur la moyenne des individus. Bien sûr, s’il n’y
a pas de pente aléatoire devant xijk , alors l’effet devient une hausse de βk unités, ce qui est
la même interprétation que dans le cadre des modèles linéaires généralisés du chapitre 3, à
la différence que l’effet en est un sur le prédicteur linéaire de chaque groupe, et non sur le
prédicteur linéaire de la population entière.
Peut-on quand-même avoir une idée de l’effet d’une hausse de la k e variable exogène sur la
distribution de Y dans la population globale, pas seulement sur la distribution conditionnelle
de Y sachant les groupes ? La réponse est oui, dans certains cas particuliers. Par exemple,
retournons à l’exemple 5.1 de la régression de Poisson avec lien log. Alors si nous n’avons
pas de terme aléatoire devant la k e variable exogène, E[Yij |xijk = x + 1]/E[Yij |xijk = x] =
exp(βk ). On a donc exactement le même effet qu’au chapitre 3. Malheureusement, si nous
avions eu un terme aléatoire devant xijk , alors nous n’aurions pas le même résultat car z ij
avec xijk = x + 1, disons z ∗ , ne serait pas le même que z ij avec xijk = x, disons z ∗∗ . En
effet, dans ce cas on obtient E[Yij |xijk = x + 1]/E[Yij |xijk = x] = exp(βk )Mγi (z ∗ )/Mγi (z ∗∗ ).
(Exercice : Calculez le changement dans la moyenne marginale de Yij quand xij1 passe de
x à x + 1 dans le cas de l’exemple 8.1 avec une ordonnée à l’origine aléatoire et une pente
aléatoire devant la seule variable exogène xij1 .)
En fait ceci nous mène à une question intéressante : doit-on s’attendre à une estimation
différente de la valeur de β entre une approche marginale basée sur les équations d’estima-
tion généralisée et une approche basée sur un modèle linéaire généralisé mixte ? La réponse
170

est “oui”, ce qui ne devrait pas être surprenant puisque, tel que vu ci-dessus, l’effet des va-
riables exogènes sur les moyennes conditionnelles de chaque groupe et l’effet sur la moyenne
marginale de la population sont généralement deux quantités différentes. L’exemple qui suit
l’illustre très bien.

Exemple 8.3 Supposons Yij |xij , γ i ∼binomiale(1, πij ), où Φ−1 (πij ) = x′ij β + z ′ij γ i et γ i ∼
N (0, D). Alors (exercice) on a que
 
 x′ij β 
E[Yij |xij ] = Φ √ = Φ(x′ij β ∗ ),
 z ′ij Dz ij + 1

où β ∗ = β/ z ′ij Dz ij + 1. Comme ce qui est à l’intérieur de la racine carrée est supérieur
à 1, β ∗ sera toujours inférieur (en valeur absolue) à β, ce qui signifie que l’effet moyen des
variables exogènes sur une population est une atténuation des effets moyens à l’intérieur des
groupes.

Notez que le phénomène d’atténuation observé dans l’exemple 8.3 n’est pas spécifique à
cet exemple et se produit en général. De plus, on pourrait montrer que plus les groupes sont
hétérogènes (c’est-à-dire plus les γ i de chaque groupe sont différents), plus l’atténuation sera
importante.

8.3.5 Approche marginale ou conditionnelle ?


Il est donc clair que pour faire des inférences marginales, il est plus simple de passer
par l’approche basée sur les équations d’estimation généralisées (GEE) décrite au chapitre
7 que par des calculs complexes basés sur un modèle conditionnel (GLMM). Par contre les
méthodes marginales du chapitre 7 ne nous permettent pas de faire des inférences condition-
nelles. Ceci soulève la question suivante : devrions-nous effectuer une analyse donnée
à l’aide d’une approche marginale ou à l’aide d’une approche conditionnelle ?
La réponse à cette question n’est pas toujours évidente. Parfois, il est clair que l’on
cherche à estimer l’effet de x sur la valeur moyenne de Y dans la population ; dans ce cas
on doit adopter une approche marginale. À l’opposé, un estimé de l’effet de x au niveau
171

individuel peut être désiré, ce qui requiert une approche conditionnelle. Souvent, on doit
avoir recours aux deux approches, puisque l’on désire inférer sur l’effet de certains éléments
de x sur la population et sur l’effet d’autres éléments de x au niveau individuel. Une règle
du pouce qui peut aider à savoir si l’on peut estimer un effet conditionnel pour une variable
xijk est que si la valeur de xijk ne peut pas changer pour un i, k fixé (par exemple, le sexe du
patient i devrait demeurer constant pour toute valeur de j), alors un effet conditionnel du
sexe n’a pas vraiment de sens et il vaut mieux considérer l’effet marginal (population d’un
sexe vs population de l’autre sexe).

8.4 Inférences
Comme les observations sont supposées indépendantes étant donné les effets aléatoires,
il est possible d’écrire la fonction de vraisemblance basée sur les données observées grâce à
la loi des probabilités totales :

L(β) = f (y|γ)fγ (γ) dγ
∫ ∏
n ∏
ni
= f (yij |xij , γ)fγ (γ) dγ. (8.1)
i=1 j=1

McCullagh & Searle (2001, section 8.4) montrent comment cette fonction peut être maximisée
en pratique et comment obtenir la matrice d’information observée qui permet d’estimer la
variance de β̂. Cependant, cette tâche est numériquement difficile et ne permet pas (en
principe ... voir solution ci-dessous) la prévision des effets aléatoires.
La maximisation numérique implique l’évaluation numérique des intégrales. La majorité
des logiciels vont utiliser la quadrature de Gauss-Hermite pour effectuer cette tâche. Si on
utilise un nombre suffisant de points d’intégration (disons une dizaine), l’approximation sera
suffisamment précise pour que les critères tels l’AIC ou le BIC soient utilisables. (Attention :
Par défaut, plusieurs logiciels utilisent l’approximation de Laplace, qui équivaut à la méthode
de Gauss-Hermite avec un seul point d’intégration. On recommande de ne se servir de cette
méthode que pour obtenir des points de départ pour les itérations avec la méthode de Gauss-
Hermite avec plus de points d’intégration.)
172

Il est à noter que même si la méthode du maximum de vraisemblance ne permet pas


d’estimer directement les γ i (puisqu’on les “intègre hors de la vraisemblance”), la majorité
des logiciels qui implantent cette méthode peuvent quand-même donner des estimés des γ i .
Pour ce faire, ils utilisent une méthode dite “de Bayes empirique” qui consiste à trouver la
valeur des γ i qui maximise la densité conjointe de ces derniers sachant la valeur des yij ,
densité qui est évaluée en β = β̂ :
 
∏ ∏ 
f (γ|y) ∝ 
fγ (γ i ) f (yij |xij , γ i ; β̂) .
i j
Chapitre 9

Bibliographie

Cameron, A.C. & Trivedi, P.K. (1998). Regression Analysis of Count Data. Cambridge :
Cambridge University Press.
Casella, G. & Berger, R.L. (1990). Statistical Inference, Belmont CA : Wadsworth.
Christensen, R. (2002). Plane Answers to Complex Questions, 2nd Edition. New York :
Springer-Verlag.
Cortez, P. & Silva, A. (2008). Using Data Mining to Predict Secondary School Student
Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TECh-
nology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS,
ISBN 978-9077381-39-7.
Draper, N.R. & Smith, H. (1998). Applied Regression Analysis, 3rd Edition. New York :
Wiley.
Dunn, K.P. & Smyth, G.K. (1996). Randomized quantile residuals. Journal of Computatio-
nal and Graphical Statistics, 5, 1-10.
Hogg, R.V., McKean, J.W. & Craig, A.T. (2005). Introduction to Mathematical Statis-
tics, 6th Edition. Upper Saddle River, N.J. : Pearson Education.
Hosmer, D.W. & Lemeshow, S. (1989). Applied Logistic Regression. New York : Wiley.
James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013). An introduction to statisti-
cal learning. New York : Springer.
Kuhn, M., Johnson, K. (2013). Applied predictive modeling. New York : Springer.
Littell, R.C., Miliken, G.A., Stroup, W.W. & Wolfinger, R.D. (1996). SAS System
for Mixed Models. Cary : SAS Institute.
McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models, 2nd Edition. Cambridge :
Chapman and Hall.
McCulloch, C.E. & Searle, R.S. (2001). Generalized, Linear and Mixed Models, New York :
Wiley.
Myers, R.H. (1990). Classical and Modern Regression With Applications, 2nd Edition. Bel-
mont, CA : Duxbury Press.

173
174

Rabe-Hesketh, S. & Skrondal, A. (2008). Multilevel And Longitudinal Data Analysis Using
Stata, 2nd Edition. College Station (TX) : Stata Press.
Sen, A. & Srivastava, M. (1990). Regression Analysis : Theory, Methods, and Applications.
New York : Springer-Verlag.
Verbeke, G. & Molenberghs, G. (eds) (1997). Linear Mixed Models in Practice : A SAS-
Oriented Approach. New York : Springer.
Verbeke, G. & Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. New
York : Springer.
Verbeke, G. & Molenberghs, G. (2003). The use of score tests for inference on variance
components. Biometrics, vol. 59, pp. 254–262.
Weisberg, S. (1985). Applied Linear Regression, 2nd edition. New York : Wiley.
White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and a direct
test for heteroskedasticity. Econometrica, 48, 817-838.

Vous aimerez peut-être aussi