Vous êtes sur la page 1sur 20

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE

U.F.R. SEGMI Année universitaire 2016 – 2017


Licence MIASHS Cours de M. Desgraupes

Statistique S6

Le modèle linéaire

1 Représentation matricielle 2

2 Méthode des moindres carrés 2


2.1 Calcul des coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4.1 Propriétés de β̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4.2 Propriétés des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5 Tests de significativité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.6 Prédictions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.7 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.8 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.9 Test de significativité du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.10 Sous-modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.11 Critères d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.12 Coefficients de corrélation partielle . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.13 Régression sur les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.13.1 Régression d’une variable explicative . . . . . . . . . . . . . . . . . . . 13
2.13.2 Régression entre résidus . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Techniques de diagnostic 14
3.1 Mesures d’influence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.1 Valeurs leviers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.2 Élimination d’une observation . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.3 Calcul des mesures d’influence avec R . . . . . . . . . . . . . . . . . . . 16
3.2 Tests de diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1 Tests d’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.2 Tests d’erreur de spécification . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3 Tests d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Bibliographie 20

Ce document résume les principales définitions et propriétés concernant le modèle linéaire


classique à plusieurs variables numériques.

1
1 Représentation matricielle
Si Y désigne la réponse (ou variable expliquée) et X1 , X2 ,..., Xm désignent les prédicteurs
(ou variables explicatives), on cherche à établir une relation de la forme :

Y = β0 + β1 X1 + β2 X2 + ... + βm Xm + ε (1)
Y , X1 , X2 ,..., Xm et ε sont des vecteurs à N coordonnées représentant des échantillons de
taille N .
La relation (1) peut s’écrire matriciellement sous la forme :

Y = Xβ + ε (2)

avec
 
      1 x11 ... x1m
y1 ε1 β0 1 x21 ... x2m 
Y = · · · ε = · · · β = · · · et X = .
 
.. .. 
 .. . . 
yN εN βm
1 xN 1 ... xN m
Le vecteur ε représente les erreurs ou les perturbations du modèle.
Les modèles linéaires ne comportent pas nécessairement de terme constant (paramètre β0 ).
Si ce terme constant est requis par le modèle, le vecteur β comportera m + 1 coefficients. Si
on recherche un modèle sans terme constant, le vecteur β ne comportera que m coefficients.
Formellement, cela ne change en rien les formules : la seule différence est la présence ou pas
d’une première colonne de 1 dans la matrice X. Dans la suite de ce document, on désignera par p
le nombre de paramètres du modèle (m ou m + 1).

2 Méthode des moindres carrés


2.1 Calcul des coefficients
La méthode des moindres carrés consiste à minimiser la somme des carrés des erreurs :
X
ε2i = tε.ε = t(Y − Xβ)(Y − Xβ) (3)

Pour cela, on annule les dérivées par rapport à β et on trouve que la solution β̂ vérifie la relation :
t
X X β̂ = tX Y (4)

C’est un système d’équations linéaires parfois appelées équations normales. En supposant que la
matrice X est de rang maximal (i-e p), la matrice carrée tX X est aussi de rang maximal et donc
inversible, ce qui permet d’écrire :

β̂ = (tX X)−1 tX Y (5)

Traditionnellement, on note Ŷ le vecteur X β̂. Ce vecteur Ŷ représente les valeurs estimées


par le modèle. On les appelle aussi valeurs ajustées (en anglais fitted values). On a donc :

Ŷ = X β̂
= X (tX X)−1 tX Y
= HY (6)

2
Y
^
^ε = Y − Y

X2

X1 ^
Y

F IGURE 1 – Interprétation géométrique des moindres carrés.

La matrice H = X (tX X)−1 tX est appelée la matrice chapeau (en anglais hat matrix).
La différence entre les valeurs observées Y et les valeurs ajustées Ŷ porte le nom de résidus
et est notée ε̂. Il ne faut pas confondre les erreurs ε et les résidus ε̂. On a :

ε̂ = Y − Ŷ = Y − HY = (I − H)Y (7)

où I est la matrice unité.

2.2 Interprétation géométrique


On considère que les vecteurs Y , X1 , X2 ,... sont des éléments de l’espace RN .
La relation Ŷ = X β̂ signifie que Ŷ est une combinaison linéaire des vecteurs colonnes de la
matrice X ayant pour coefficient les coordonnées du vecteur β̂. Il appartient donc au sous-espace
ΩX engendré par ces vecteurs colonnes.
Géométriquement, comme on peut le voir sur la figure 1, Ŷ est la projection orthogonale du
vecteur Y sur l’espace ΩX . La formule Ŷ = H Y de la relation (6) s’interprète donc en disant que
la matrice H est la matrice de la projection orthogonale de RN sur ΩX . Le vecteur des résidus ε̂
est orthogonal à l’espace ΩX .

3
2.3 Hypothèses du modèle
Le modèle linéaire classique fait quelques hypothèses de travail concernant les variables expli-
catives et les erreurs ε. Tout d’abord, les variables explicatives sont supposées non-stochastiques,
autrement dit ce ne sont pas des variables aléatoires.
On suppose, d’autre part, que les erreurs peuvent être assimilées à un bruit blanc, c’est-à-
dire à un processus de moyenne nulle, de variance constante et non autocorrélé. Ces propriétés
s’écrivent sous la forme suivante :
E(εk ) = 0 (8)
(
0 si k 6= k 0
E(εk εk0 ) = (9)
σε si k = k 0
2

où σε2 est constante, c’est-à-dire est indépendante de k. Un processus de variance constante est dit
homoscédastique.
De manière générale, la matrice de variance-covariance du vecteur ε s’écrit comme ceci :
 
Var(ε1 ) Cov(ε1 , ε2 ) . . . Cov(ε1 , εN )
 Cov(ε2 , ε1 ) Var(ε2 ) . . . Cov(ε2 , εN )
E(ε tε) =  (10)
 
.. .. .. 
 . . . 
Cov(εN , ε1 ) Cov(εN , ε2 ) . . . Var(εN )
Puisque E(εk ) = 0 ∀k, on peut écrire également :
E(ε21 )
 
E(ε1 ε2 ) ... E(ε1 εN )
 E(ε2 ε1 ) E(ε22 ) ... E(ε2 εN )
E(ε tε) =  (11)
 
.. .. .. 
 . . . 
E(εN ε1 ) E(εN ε2 ) . . . E(ε2N )
Matriciellement, les hypothèses d’homoscédasticité et de non-corrélation signifient que la
matrice de variance-covariance se réduit à :
E(ε tε) = σε2 IN (12)

où IN est la matrice unité de taille N .


On suppose aussi, dans le modèle linéaire classique, que les erreurs sont normalement et indé-
pendamment distribuées (en abrégé N.i.d.), autrement dit qu’elles sont indépendantes et suivent
une loi normale multidimensionnelle de moyenne nulle et de matrice de variance Σ = σε2 IN :

ε ∼ N (0, Σ) (13)

Cette hypothèse permet d’établir des propriétés statistiques sur les coefficients, d’effectuer des
tests de significativité et de déterminer des intervalles de confiance.
Il existe un modèle dit modèle linéaire généralisé qui permet d’assouplir les hypothèses pré-
cédentes et d’envisager des matrices de variance-covariance plus complexes et d’autres lois de
probabilité.

2.4 Propriétés des estimateurs


La matrice chapeau H = X (tX X)−1 tX est une matrice de taille N ×N . Elle est symétrique
et idempotente, c’est-à-dire qu’elle vérifie les deux propriétés :
 t
H=H
(14)
H2 = H

4
La matrice I − H a les mêmes propriétés (on note I au lieu de IN pour simplifier) :
 t
(I − H) = I − H
(15)
(I − H)2 = I − H

D’autre part, la trace de la matrice H est égale à p, nombre de coefficients de régression. En


effet :
Tr(H) = Tr(X (tX X)−1 tX) = Tr(tX X (tX X)−1 ) = Tr(Ip ) = p (16)
puisque la matrice tX X est carrée de taille p.

2.4.1 Propriétés de β̂

Compte-tenu des hypothèses de la section 2.3, on calcule l’espérance et la variance de β̂ :


(
E(β̂) = β
(17)
Var(β̂) = σε2 (tX X)−1

En effet, on part de la formule (5) : β̂ = (tX X)−1 tX Y .

E(β̂) = E (tX X)−1 tX Y = (tX X)−1 tX E(Y )




= (tX X)−1 tX E(Xβ + ε)


= (tX X)−1 tXXβ = β (18)

Il en résulte que β̂ est un estimateur sans biais de β. D’autre part :

Var(β̂) = E β̂ tβ̂ − β tβ


= E (tX X)−1 tX Y tY X(tX X)−1 − β tβ




= (tX X)−1 tX E Y tY X(tX X)−1 − β tβ




= (tX X)−1 tX E (Xβ + ε) (tβ tX + tε) X(tX X)−1 − β tβ




= (tX X)−1 tX E(Xβ tβ tX) + E(ε tε) X(tX X)−1 − β tβ




= (tX X)−1 tX Xβ tβ tX + σε2 IN X(tX X)−1 − β tβ




= β tβ + (tX X)−1 tX σε2 IN X(tX X)−1 − β tβ


= σε2 (tX X)−1 (19)

On a utilisé la formule (12) pour remplacer E(ε tε) par σε2 IN .


On voit que Var(β̂) est une matrice carrée de taille p. D’après la formule précédente, si on
note vij les coefficients de la matrice (tX X)−1 , on peut exprimer la variance d’un coefficient β̂i
particulier comme ceci :
Var(β̂i ) = σε2 vi+1,i+1 (20)

On notera que cette formule utilise le (i+1)-ième terme diagonal car les indices de β̂ commencent
à 0. L’erreur standard (écart-type) d’un coefficient β̂i particulier peut ainsi être estimée par :

σc
β̂i = σˆε vi+1,i+1 (21)

5
2.4.2 Propriétés des résidus
Le vecteur des résidus s’écrit algébriquement comme ceci :

ε̂ = Y − Ŷ = Y − HY = (I − H)Y = (I − H)(Xβ + ε)
= (I − H)Xβ + (I − H)ε
= (I − H)ε (22)

cette dernière égalité provenant du fait que HX = X puisque H est la matrice de projection sur
l’espace engendré par les colonnes de X, et donc que (I − H)X = 0.
On en déduit aussi que l’expérance des résidus est nulle :

E(ε̂) = E (I − H)ε = (I − H) E(ε) = 0 (23)

La somme des carrés des résidus s’écrit, en appliquant les identités (15) et (22) :
X
SCR = ε̂2i = tε̂ ε̂ = tε(I − H)ε (24)

On peut calculer son espérance (en désignant par aij le terme général de la matrice I − H) :

E(SCR) = E tε̂ ε̂) = E(tε(I − H)ε



 
X X
= E aii ε2i + 2 aij εi εj 
i i<j
X X
ε2i
 
= aii E +2 E εi εj
i i<j
X
= σε2 aii
i
= σε2 Tr(I − H)
= σε2 (N − p) (25)

On en déduit un estimateur σˆε 2 pour la constante σε2 :

SCR
σˆε 2 = (26)
N −p

D’après (25), on a la relation E(σˆε 2 ) = σε2 , ce qui signifie que σˆε 2 est un estimateur sans
biais de σε2 .
La quantité N −p est le nombre de degrés de liberté du modèle. C’est la taille des échantillons
diminuée du nombre de coefficients de régression.
On peut aussi calculer la matrice de variance-covariance de ε̂. On obtient :

Var(ε̂) = Var((I − H)ε) (27)

et donc, compte-tenu de l’hypothèse d’homoscédasticité Var(ε) = σε2 I :

Var(ε̂) = σε2 (I − H) (28)

6
2.5 Tests de significativité
Le vecteur β̂ suit une loi normale de moyenne β et de matrice de variance σε2 (tX X)−1 :

β̂ ∼ N (β, σε2 (tX X)−1 ) (29)

Pour un coefficient β̂i particulier, cela s’écrit simplement :

β̂i ∼ N (βi , σε2 vi+1,i+1 ) (30)

ou, en centrant et en réduisant :

β̂i − βi
√ ∼ N (0, 1) (31)
σε vi+1,i+1

Comme on ne connaît en général pas la valeur de σε , on l’estime par σˆε et on montre qu’il faut
alors remplacer la loi normale par une loi de Student à N − p degrés de liberté :

β̂i − βi
√ ∼ t(N − p) (32)
σˆε vi+1,i+1

Les quantités vi+1,i+1 sont les termes diagonaux de la matrice (tX X)−1 .
Si uc est la valeur critique de la loi de Student à N − p degrés de liberté pour un risque donné
(en général 5%), on construit un intervalle de confiance autour de la valeur β̂i comme ceci :
 √ √ 
β̂i − uc σˆε vi+1,i+1 , β̂i + uc σˆε vi+1,i+1 (33)

La connaissance de la loi suivie par les paramètres β̂i permet, d’autre part, de faire des tests
de significativité. L’hypothèse nulle du test est que le coefficient βi est nul, autrement dit est
insignifiant dans le modèle :
H0 : βi = 0
La statistique du test est alors le rapport

β̂i
ti = √
σˆε vi+1,i+1

Sous l’hypothèse H0 , cette statistique suit une loi de Student à N − p degrés de liberté, ce qui
permet de construire la région d’acceptation [−uc , uc ] au risque α. On a uc = QT (1 − α/2), où
QT est la fonction quantile de la loi de Student.
Lorsqu’on accepte H0 , on dit que le coefficient βi n’est pas significatif, autrement dit qu’on
peut retirer la variable Xi du modèle. Au contraire, si on rejette l’hypothèse, on conclut (au risque
α de se tromper) que le coefficient βi est significatif.

2.6 Prédictions
Faire des prédictions consiste à prédire la valeur que prendrait la variable expliquée à par-
tir d’une nouvelle observation x0 des variables explicatives. On distingue habituellement deux
types de prédictions : certaines prédictions cherchent à prédire une observation future tandis que
d’autres ont pour objectif de déterminer une valeur moyenne de la variable expliquée. La valeur

7
future est fournie par l’équation du modèle : Y0 = tx0 β + ε et la valeur moyenne serait alors
E(Y0 ). Comme E(Y0 ) = tx0 β, on a la relation Y0 = E[Y0 ] + ε .
On estime ces deux quantités au moyen de la valeur ajustée :

Ŷ0 = tx0 β̂.

On calcule
E[Ŷ0 ] = tx0 E[β̂] = tx0 β = E[Y0 ].
Cela signifie que Ŷ0 est un estimateur sans biais de la valeur moyenne E[Y0 ]. La même quantité
Ŷ0 sert d’estimateur pour E[Y0 ] et de prédicteur pour Y0 : ce sont les variances qui diffèrent.
Comparons les différences avec Ŷ0 pour estimer l’erreur commise lorsqu’on remplace Y0 et E[Y0 ]
par Ŷ0 :
(Y0 − Ŷ0 ) = ε + (E[Y0 ] − Ŷ0 ).
On voit qu’il y a plus d’incertitude pour la prédiction d’une observation future que pour l’es-
timation d’une valeur moyenne. Pour une observation future, on doit prendre en compte la varia-
bilité de ε.
On peut calculer la variance de Ŷ0 comme ceci :

Var(Ŷ0 ) = Var(tx0 β̂) = tx0 Var(β̂)x0 = σε2 tx0 (tX X)−1 x0 (34)

Cela nous permet de déterminer un intervalle de confiance autour de Ŷ0 pour les prédictions.
Celui-ci dépend du type de prédiction envisagé. Si uc est la valeur critique de la loi de Student
à N − p degrés de liberté vue à la section 2.5, l’intervalle de confiance autour de Ŷ0 sera (en
estimant σε par σˆε ) :
— pour l’estimation d’une valeur moyenne
p
Ŷ0 ± uc σˆε tx t
0( X X)−1 x0 (35)

— pour la prédiction d’une observation future


p
Ŷ0 ± uc σˆε 1 + tx0 (tX X)−1 x0 (36)

La fonction predict de R peut calculer ces deux types d’intervalles de confiance. On les diffé-
rencie au moyen de l’argument interval. On obtient des prédictions du premier type en donnant la
valeur "prediction" à cet argument et des prédictions du second type en lui donnant la valeur
"confidence". La fonction renvoie trois quantités sous forme de matrice : la première colonne
(appelée fit) contient la valeur estimée, la deuxième colonne (appelée lwr) la borne inférieure et
la troisième colonne (appelée upr) la borne supérieure de l’intervalle de confiance.

2.7 Analyse de la variance


L’analyse de la variance repose sur la relation suivante entre les sommes des carrés des écarts :
X X X X X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + (Yi − Ŷi )2 = (Ŷi − Ȳ )2 + ε̂2i (37)

que l’on exprime succinctement sous la forme :

SCT = SCE + SCR (38)

8
où SCT est la somme totale des carrés des écarts à la moyenne, SCE la somme des carrés des
écarts des valeurs ajustées et SCR la somme des carrés des résidus.
Si on divise par N , on obtient :
1 X 2
Var(Y ) = Var(Ŷ ) + ε̂i (39)
N
On peut voir cette formule comme une décomposition de la variance de Y . On analyse la
variance totale en disant qu’elle est constituée de deux éléments : la variance des valeurs ajustées
et la variance du vecteur des résidus. Il est intéressant de regarder quelle est la contribution re-
lative de chacun de ces éléments à la variance totale : cela conduit à la notion de coefficient de
détermination définie dans la section suivante.

2.8 Coefficient de détermination


La rapport entre SCE et SCT représente la proportion de variance expliquée et porte le nom
de coefficient de détermination ou de coefficient R2 :

SCE SCR
R2 = =1− (40)
SCT SCT

Le coefficient R2 est compris entre 0 et 1 : plus il est proche de 1 et plus grande est la part
expliquée, autrement dit meilleure est la régression. Inversement, un coefficient R2 proche de 0
indique que la quantité SCR est élevée et donc que la part des résidus (qui estiment les erreurs
du modèle) est prépondérante.
Le coefficient R2 est un indicateur de la qualité de l’ajustement des valeurs observées par le
modèle mais il a le défaut de ne pas tenir compte du nombre de prédicteurs (variables explicatives)
utilisés dans le modèle. On ne peut pas l’utiliser pour comparer plusieurs modèles entre eux car,
si on ajoute une variable explicative à un modèle, la part des erreurs diminue forcément et donc
le coefficient R2 augmente : cela signifie que plus il y a de variables explicatives et plus le R2 est
élevé. Or un modèle n’est pas nécessairement meilleur parce qu’il a plus de variables explicatives.
On définit donc un coefficient R2 ajusté qui tient compte des degrés de liberté. Ce coefficient, noté
Ra2 , est défini par :

SCR/(N − p) N −1
Ra2 = 1 − =1− (1 − R2 ) (41)
SCT /(N − 1) N −p

On peut aussi écrire cette relation sous la forme :


N − 1
1 − Ra2 = 1 − R2

(42)
N −p

Remarque : le coefficient de détermination est relié à la notion classique de coefficient de


corrélation. On peut montrer que le coefficient de détermination R2 est le carré du coefficient de
corrélation entre Y et Ŷ . D’autre part, dans le cas d’une régression simple, c’est-à-dire s’il y a une
seule variable explicative X, le R2 est aussi le carré du coefficient de corrélation rXY = Cov(X,Y
σX σY
)

entre X et Y . On peut donc dans ce cas calculer rXY pour connaître a priori, sans même faire de
régression, la proportion de variation de Y qui est expliquée par X.

9
2.9 Test de significativité du modèle
La quantité
SCE/(p − 1) N − p R2
f= = (43)
SCR/(N − p) p − 1 1 − R2
permet d’effectuer un test de significativité sur l’ensemble des coefficients des variables explica-
tives qui entrent dans la régression.
L’hypothèse nulle H0 est que le modèle se réduit en fait au modèle nul, c’est-à-dire au modèle
réduit au seul coefficient β0 . L’hypothèse peut donc s’écrire :

H0 : β 1 = β 2 = · · · = β m = 0

On montre que, sous l’hypothèse H0 , la statistique f suit une loi de Fisher à (p − 1, N − p)


degrés de liberté :
f ∼ F (p − 1, N − p) (44)
On calcule donc la valeur critique fc de la loi de Fisher correspondant au risque α choisi :

PF (f ≥ fc ) = α

Si f ≥ fc , on rejette l’hypothèse.
Un simple calcul montre que
1
R2 = 1 −
p−1
1+f
N −p

On voit donc que plus f est grand et plus R2 est proche de 1, c’est-à-dire plus grande est la part de
la variance expliquée par le modèle. Un f “grand” (c’est-à-dire supérieur à fc ) conduit à rejeter
l’hypothèse que les βi (1 ≤ i ≤ m) sont tous ensemble insignifiants : cela indique que le modèle
ne se réduit pas au modèle nul. Au contraire, un f “petit” suggère qu’aucune des variables Xi
n’est significative.

2.10 Sous-modèles
On dit qu’un modèle ω est un sous-modèle d’un modèle Ω lorsqu’il est construit sur un sous-
ensemble des prédicteurs de Ω. C’est donc un modèle qui utilise une partie seulement des va-
riables explicatives de Ω. Les variables explicatives qui ne figurent pas dans ω sont absorbées par
le terme d’erreur ε.
La somme des carrés des résidus SCRω du modèle ω est supérieure à celle SCRΩ du modèle
Ω. Sur le graphique de la figure 2, la quantité SCRΩ est représentée par ||Y ŶΩ ||2 et la quantité
SCRω par ||Y Ŷω ||2 . La différence entre les deux modèles est donc mesurée par SCRω − SCRΩ
qui est le carré de la distance entre Ŷω et ŶΩ .
SCRω − SCRΩ
On s’intéresse à la différence relative qui est le rapport . C’est la tangente
SCRΩ
de l’angle entre les lignes pointillées en Y .
Si q est le nombre de variables explicatives dans le sous-modèle ω, on notera le nombre de
degrés de liberté de chacun des modèles comme ceci :
(
dω = n − q
dΩ = n − p

10
Y

^
YΩ
^

Ω ω

F IGURE 2 – Interprétation géométrique des sous-modèles.

On cherche à tester si les deux modèles sont significativement différents ou pas. L’hypothèse
H0 est que les modèles ne présentent pas de différence. Si on convient que les variables qui entrent
dans ω sont les q premières (au besoin en les renumérotant), l’hypothèse s’écrit :

H0 : βq+1 = · · · = βp = 0

On montre que, sous l’hypothèse H0 , la quantité

(SCRω − SCRΩ )/(dω − dΩ ) n − p SCRω − SCRΩ


f= =
SCRΩ /dΩ p−q SCRΩ

suit une loi de Fisher à (dω − dΩ , dΩ ) degrés de liberté. On détermine donc la valeur critique uc
de cette loi au seuil souhaité (en général 5%) et on conclut de la manière suivante :
— si f > uc , on rejette l’hypothèse H0 . Cela signifie que les deux modèles diffèrent, autre-
ment dit que les variables du modèle Ω qui ne figurent pas dans le sous-modèle ω sont
significatives.
— si f < uc , on accepte l’hypothèse H0 . Cela signifie que les variables du modèle Ω qui
ne figurent pas dans le sous-modèle ω ne sont pas significatives et donc, comme l’énonce
l’hypothèse H0 , peuvent être considérées comme nulles.
Remarque

11
Le test vu à la section 2.9 est un cas particulier du résultat précédent : c’est celui où ω est
le modèle nul (réduit à une constante). Les tests de significativité vus à la section 2.5 peuvent
aussi être vus comme des tests de sous-modèle : c’est le cas où le sous-modèle ω est obtenu en
supprimant une seule variable explicative Xi afin de tester l’hypothèse que βi = 0. On montre en
effet en probabilités que, si une variable aléatoire T suit une loi de Student à n degrés de liberté,
alors T 2 suit une loi de Fisher à (1, n) degrés de liberté.
Grâce au test de Fisher sur les sous-modèles, on peut tester des hypothèses très variées. Par
exemple, on pourrait tester l’hypothèse que βi = βj pour deux indices i et j particuliers. Cela
reviendrait à tester si les deux variables Xi et Xj peuvent être remplacées par leur somme (ou
leur moyenne).

2.11 Critères d’information


Il existe plusieurs “critères” qui sont des quantités numériques permettant de mesurer la qua-
lité d’un modèle statistique afin de faire des comparaisons. Le plus connu d’entre eux est le critère
d’information d’Akaike, (en anglais “Akaike information criterion” ou AIC)
Il est défini, de manière générale, comme ceci :

AIC = −2 max(L) + 2p (45)

où L est la log-vraissemblance du modèle et p est le nombre de paramètres.


Dans le cas du modèle linéaire, on montre, sous les hypothèses habituelles concernant les
erreurs et en utilisant
 l’estimation
 (26) de la variance, que le premier terme de la formule précé-
SCR
dente s’écrit n log + C où C est une constante. On obtient donc la formule suivante (à
n
constante près) :
 
SCR
AIC = n log + 2p (46)
n
Le critère AIC sert à comparer les modèles entre eux. On n’a donc pas besoin de connaître la
valeur de la constante. Entre deux modèles, le meilleur est celui qui a le plus faible AIC.
Dans le cas d’un modèle qui ajusterait parfaitement les données, la somme des carrés des
résidus SCR serait nulle et le critère AIC vaudrait −∞.
Un autre critère analogue est le critère d’information bayésien (en anglais “bayesian informa-
tion criterion” ou BIC) défini comme ceci :

BIC = −2 max(L) + p log(n) (47)

Remarque : il existe une fonction AIC dans R qui permet de calculer ces deux indices. On les
distingue au moyen du paramètre optionnel k qui prend la valeur 2 dans le cas de AIC et la valeur
log(n) dans le cas du BIC.

2.12 Coefficients de corrélation partielle


En statistiques, le coefficient de corrélation partielle entre deux variables A et B compte-tenu
d’une troisième variable C est une quantité qui mesure la corrélation qui existerait entre A et B
si jamais elles n’étaient pas corrélées avec C, autrement dit si on fixait ou éliminait l’influence de
la variable C.

12
Cette quantité, notée rAB.C , est définie par :

rAB − rAC rBC


rAB.C = p 2
p
2
(48)
1 − rAC 1 − rBC

où rAB , rAC et rBC sont les coefficients de corrélation simples entre les variables.
Les variables sont interchangeables et on peut définir de manière analogue les coefficients
rAC.B et rBC.A .
Dans le cadre de la régression linéaire, on s’intéresse aux coefficients de corrélation partielle
entre la variable expliquée et les variables explicatives. Par exemple, si on a deux variables expli-
catives X1 et X2 , on calcule les coefficients rY X1 .X2 , rY X2 .X1 et rX1 X2 .Y .
Le coefficient rY X1 .X2 , par exemple, mesure quelle est la véritable corrélation entre Y et X1
si l’influence de X2 a été éliminée.
En élevant ces quantités au carré, on définit des coefficients de détermination partiels. Ils
jouent le rôle d’un coefficient R2 dans une régression entre une variable expliquée et une variable
explicative, l’autre ayant été éliminée : cela mesure la part de variation de Y qui est expliquée par
X1 mais pas par X2 et donne une indication sur le bien-fondé d’inclure la variable X1 dans le
modèle.

Remarque : on peut montrer que le coefficient de corrélation partielle rAB.C peut aussi être
obtenu de la manière suivante : on effectue une régression simple de A par rapport à C donnant
des résidus ε̂A et une régression simple de B par rapport à C donnant des résidus ε̂B . Alors le
coefficient rAB.C est le coefficient de corrélation ordinaire Corr(ε̂A , ε̂B ) entre ε̂A et ε̂B .
Cette définition permet de généraliser la notion et de définir des coefficients de corrélation
partiels d’ordre p notés rAB.C avec C = (C1 , . . . , Cp ). On effectue une régression multiple de A
par rapport aux variables C1 ,. . .,Cp et une régression de B par rapport à ces mêmes variables : ces
régressions produisent des résidus ε̂A et ε̂B et le coefficient rAB.C est le coefficient de corrélation
ordinaire Corr(ε̂A , ε̂B ).
Par exemple, si on étudie un modèle linéaire expliquant la variable Y en fonction de trois
variables X1 , X2 et X3 , le coefficient de corrélation partiel d’ordre 2 noté rY X1 .X2 X3 mesurera
quelle est la véritable corrélation entre Y et X1 lorsque l’influence de X2 et de X3 est éliminée.
Il existe une formule de récurrence, analogue à la relation (48), permettant de calculer un
coefficient de corrélation partielle d’ordre p en fonction de certains coefficients d’ordre p − 1. Par
exemple :
rAB.C1 − rAC2 .C1 rBC2 .C1
rAB.C1 C2 = q q (49)
2
1 − rAC 1 − r 2
2 .C1 BC2 .C1

2.13 Régression sur les résidus


Les estimateurs β̂ des coefficients du modèle linéaire multivarié peuvent s’interpréter au
moyen de régressions simples opérées sur certains résidus. On peut procéder de deux manières
différentes.

2.13.1 Régression d’une variable explicative


On commence par choisir une des variables explicatives, par exemple Xi , et on effectue une
régression de cette variable par rapport aux autres variables explicatives. Cette opération a pour
résultat de retirer de Xi l’effet de ces autres variables. On obtient donc des résidus ε̂(i) .

13
Dans une deuxième étape, on effectue la régression simple de la variable Y par rapport aux
résidus ε̂(i) :
Y ∼ ε̂(i) .

La pente que l’on obtient n’est autre que le coefficient β̂i .

2.13.2 Régression entre résidus


Comme dans la section précédente, on choisit une des variables explicatives, par exemple Xi ,
qu’on régresse par rapport aux autres variables explicatives afin d’obtenir des résidus ε̂(i) .
On effectue également une régression de la variable Y par rapport aux autres variables expli-
catives, ce qui fournit des résidus η̂(i) .
On fait alors une régression simple des résidus η̂(i) par rapport aux résidus ε̂(i) :

η̂(i) ∼ ε̂(i) .

La pente que l’on obtient n’est autre que le coefficient β̂i .

3 Techniques de diagnostic
3.1 Mesures d’influence
Dans un jeu de données, certaines observations apparaissent comme atypiques par rapport à
l’ensembe des autres observations. Ce sont généralement des points qui se trouvent anormalement
éloignés du nuage de points. On distingue deux types d’anomalies :
— certains points s’ajustent mal avec le modèle. On les appelle des points aberrants (en
anglais outliers) ;
— certains points ont une contribution exagérément élevée à la détermination du modèle. On
les appelle des points influents (en anglais influential points).

3.1.1 Valeurs leviers


Ces deux notions ne s’excluent pas mutuellement. Il existe des mesures qui permettent de
repérer les points influents et les points aberrants. Elles sont appelées mesures d’influence et sont
expliquées dans le reste de cette section.
Les éléments diagonaux hii de la matrice chapeau H de la relation (6) sont un premier indica-
teur. On les appelle valeurs leviers (en anglais leverages). Des équations (14), on déduit facilement
que les valeurs leviers sont des nombres compris entre 0 et 1. En effet, la relation H = H 2 permet
d’écrire :
XN N
X N
X
hii = hik hki = h2ii + hik hki = h2ii + h2ik (50)
k=1 k6=i k6=i

cette dernière égalité résultant du fait que la matrice H est symétrique. On obtient ainsi :
N
X
h2ii − hii = − h2ik ≤ 0 (51)
k6=i

ce qui implique que hii est compris entre 0 et 1.


Il y a en tout N valeurs leviers, une pour chaque observation.

14
D’un autre côté, on a vu en (16) que la trace de la matrice H est égale à p, nombre de coef-
ficients de régression. La trace d’une matrice est la somme des éléments diagonaux, donc ici la
somme des valeurs leviers : on en déduit que la valeur moyenne des leviers est Np . On considère
en général que, si une valeur levier est supérieure à 2 ou 3 fois cette valeur moyenne p/N , alors
on a affaire à un point influent.
Un point influent n’est pas nécessairement néfaste. Il y a des bons points influents : ils sont
éloignés du nuage mais se trouvent proches de la droite de régression déterminée par les autres
points et contribuent à améliorer la qualité de l’ajustement. Il y a aussi de mauvais points influents
qui sont éloignés de la droite déterminée par les autres points et modifient substantiellement celle-
ci.
Les valeurs leviers interviennent aussi dans le calcul de la variance des résidus. L’équa-
tion (28) permet en effet d’écrire :

Var(ε̂i ) = σε2 (1 − hii ) (52)

Cette relation suggère de normaliser les résidus en les divisant par leur écart-type et donc, en
remplaçant σε par son estimation σˆε , de considérer les quantités

ε̂i
ri = √ (53)
σˆε 1 − hii

Cette quantité s’appelle le résidu standardisé ou parfois le résidu studentisé interne 1 .


Avec les hypothèses du modèle linéaire, on s’attend donc à ce que Var(ri ) soit proche de 1 et
que Cov(ri , rj ) soit proche de 0 (pour i 6= j). Si ce n’est pas le cas, on a certainement affaire à
une observation présentant une anomalie.
Les résidus standardisés sont utilisés dans les graphiques de diagnostic plutôt que les rési-
dus eux-mêmes : ils peuvent plus facilement être comparés entre eux puisque leur variance est
censée être égale. Noter cependant que leur définition repose sur l’hypothèse de base du modèle
linéaire que les erreurs sont homoscédastiques. S’il y a hétéroscédasticité dans les erreurs alors la
standardisation (ou studentisation) des résidus n’est plus fiable.

3.1.2 Élimination d’une observation


Une technique classique pour évaluer l’impact d’une observation particulière est de comparer
les valeurs obtenues lorsqu’on exécute une régression sur l’ensemble des données et lorsqu’on
exécute une régression sur les données après élimination de cette observation particulière.
On convient de noter avec un indice i entre parenthèses les estimateurs obtenus lorsque la
i-ème observation a été éliminée. Par exemple, le vecteurs β̂(i) est le vecteur des p coefficients
d’une régression qui aura été effectuée sur les N − 1 observations restantes lorsque la i-ème
observation a été supprimée. L’écart-type estimé des résidus, dans ce cas, sera noté de même
σˆε(i) .
Une fois le modèle calculé à partir des N − 1 observations restantes, rien n’empêche néan-
moins de calculer la valeur ajustée pour l’observation d’indice i : ce sera une valeur notée Ŷ(i)i qui
est la prédiction faite par ce modèle à partir des variables explicatives de la i-ème observation. On
s’intéresse alors à la différence entre cette valeur prédite et celle obtenue avec le modèle complet
(celui d’où on n’a pas retiré l’observation d’indice i) : c’est la quantité Ŷi − Ŷ(i)i . Si cette quantité
est élevée, on a probablement affaire à un point aberrant.
On s’intéresse aussi à la différence β̂ − β̂(i) des p coefficients de la régression.
1. Par opposition au résidu studentisé externe présenté plus loin.

15
Classiquement, quatre quantités sont calculées :

 β̂ − β̂(i)

 DF BET A = √
σˆε(i) vi+1,i+1







Ŷi − Ŷ(i)i





 DF F ITi =
σˆε(i) 1 − hii



 det(σˆε 2(i) (tX(i) X(i) )−1 )
COV RAT IOi =


det(σˆε 2 (tX X)−1 )







t


 (Ŷ − Ŷ(i) ) (Ŷ − Ŷ(i) )
Di2 =


pσˆε 2
On voit que DF BET A est un vecteur ayant p coordonnées (autant qu’il y a de coefficients
β dans le modèle). Il est défini comme la différence des coefficients de la régression, divisée par
une estimation de l’écart-type des β̂(i) : les coefficients vi+1,i+1 ont été vus au paragraphe 2.4 et
sont les termes diagonaux de la matrice (tX X)−1 .
Les trois autres quantités concernent les N observations elles-mêmes :
— DF F ITi est√la différence entre les valeurs ajustées, divisée par l’écart-type de la valeur
ajustée σˆε(i) hii . Il y a un DF F IT pour chaque observation (N au total).
— COV RAT IOi est le rapport entre les déterminants des matrices de covariance obtenues
pour le modèle général et pour le modèle privé de la i-ème observation. Pour chaque
observation, il y a un COV RAT IO associé.
— Di est une quantité appelée distance de Cook qui mesure la distance entre Ŷ et Ŷ(i)
compte-tenu de la matrice de variance-covariance. C’est un cas particulier de ce qu’on
appelle les distances de Mahalanobis. La distance entre les vecteurs Ŷ et Ŷ(i) est norma-
lisée en la divisant par p fois la variance des résidus. La formule ci-dessus exprime Di2 ,
autrement dit le carré de la distance de Cook.
En remplaçant σˆε par σˆε(i) dans la définition du résidu standardisé, on obtient ce qu’on appelle
le résidu studentisé externe défini comme ceci :

ε̂
ti = √i (54)
σˆε(i) 1 − hii

où hii est, comme toujours, la valeur levier de l’observation. On a la relation suivante entre les
résidus studentisés interne ri et externe ti :
s
N −p−1
ti = ri (55)
N − p − ri2

Le résidu studentisé externe ti est une quantité très similaire au DF F IT de la i-ème observation.

3.1.3 Calcul des mesures d’influence avec R


Toutes les quantités définies dans les sections précédentes peuvent être calculées dans R au
moyen des fonctions suivantes qui s’appliquent toutes directement à l’objet (de classe lm) renvoyé
par la fonction lm :

16
— la fonction hatvalues fournit les valeurs leviers ;
— la fonction dfbeta (sans s à la fin) fournit les coefficients β̂(i) ;
— les fonctions dffits, dfbetas (avec un s à la fin), covratio et cooks.distance calculent
les quantités de même nom pour toutes les observations ;
— la fonction influence.measures calcule un objet (de classe infl) qui contient toutes les
informations ci-dessus. Elle signale, au moyen d’astérisques, les observations influentes
ou problématiques. C’est essentiellement elle qu’il faut utiliser pour analyser les données
et détecter les points aberrants.
— les fonctions rstandard et rstudent calculent respectivement les résidus studentisés in-
ternes et externes ;
— la fonction lm.influence calcule plusieurs quantités. Elle renvoie une liste dont les com-
posantes s’appellent hat (les valeurs leviers), coefficients (les coefficients β̂(i) ), sigma
(les ε̂(i) ) et wt.res (résidus pondérés) ;

3.2 Tests de diagnostic


Il existe de nombreux tests qui permettent de vérifier quantitativement la validité d’un modèle
linéaire. Les modèles linéaires peuvent être affectés par divers types de problèmes : hétéroscédas-
ticité de la distribution des erreurs, mauvaise spécification de la forme fonctionnelle, autocorréla-
tion (dans le cas des séries temporelles).
Les tests présentés dans les sections qui suivent sont disponibles dans R grâce au package
lmtest. Si ce package n’est pas disponible sur la machine, on l’installe au moyen de l’instruction
suivante :

install.packages("lmtest")
Une fois qu’il est installé, il faut explicitement le charger dans R au moyen d’une instruction :
library(lmtest)

Le tableau 1 indique le nom des fonctions implémentant les divers tests présentés dans les sections
qui suivent.

Nom Fonction
Breusch-Pagan bptest
Goldfeld-Quandt gqtest
RESET resettest
Rainbow raintest
Harvey-Collier harvtest
Durbin-Watson dwtest
Box-Pierce Box.test
Ljung-Box Box.test
Breusch-Godfrey bgtest

TABLE 1 – Tests de diagnostic disponibles dans R.

17
3.2.1 Tests d’hétéroscédasticité
Les tests d’hétéroscédasticité ont pour but de valider l’hypothèse de base des modèles linéaires
selon laquelle Var(εi ) = σε2 .
Le test de Breusch-Pagan procède à une régression linéaire annexe qui ajuste les résidus σˆε 2i
au moyen des mêmes variables explicatives que pour le modèle de départ. Si une trop grande part
de la variance est expliquée dans cette régression, l’hypothèse d’hétéroscédasticité est rejetée.
Sous l’hypothèse nulle H0 d’homoscédasticité, la variable de décision suit une loi du χ2 à q
degrés de libertés où q est le nombre de régresseurs dans le modèle à l’exclusion du terme constant
(puisque les résidus sont de moyenne nulle). Dans R, il est implémenté dans la fonction bptest.
Un autre test fréquemment utilisé est le test de Goldfeld-Quandt qui fonctionne de la manière
suivante : il réordonne l’échantillon par rapport à la variable qui est supposée expliquer l’hété-
roscédasticité et place un point de rupture situé par défaut au centre de l’échantillon. Il examine
ensuite si la variance pour la partie gauche de l’échantillon est la même que pour la partie droite.
Dans R, il est implémenté dans la fonction gqtest.

3.2.2 Tests d’erreur de spécification


Les tests de validité de spécification ont pour but de vérifier l’hypothèse de base des modèles
linéaires selon laquelle E(ε) = 0. L’erreur la plus fréquente qui invalide cette hypothèse est
en effet la mauvaise spécification de la forme du modèle, dûe par exemple à l’omission d’une
variable explicative importante.
Le test RESET (acronyme pour regression specification error test) prend des puissances des
valeurs ajustées Ŷ et teste si elles ont une influence significative lorsqu’on les ajoute au modèle
initial. Il peut ausi opérer en utilisant des puissances des variables explicatives. Dans R, il est
implémenté dans la fonction resettest.
Le test rainbow adopte une approche différente : il compare le modèle initial à un modèle
construit sur un sous-échantillon constitué des valeurs centrales de l’échantillon de départ. Il
ordonne donc l’échantillon selon une variable explicative choisie et opère sur les 50% situés au
centre. La comparaison des deux modèles conduit à un test de Fisher. S’il n’y a pas adéquation
des deux modèles, le test conclut à une mauvaise spécification. Dans R, il est implémenté dans la
fonction raintest.
Le test de Harvey-Collier calcule des résidus standardisés de manière récurrente. Un modèle
est établi sur les i − 1 premières observations et permet de prédire la i-ème observation : cela per-
met d’obtenir un résidu standardisé entre la prédiction et l’observation. En répétant l’opération sur
toutes les valeurs de i, il construit un échantillon de résidus qui devrait avoir une moyenne nulle :
c’est donc finalement un test de Student de nullité de la moyenne. Dans R, il est implémenté
dans la fonction harvtest.

3.2.3 Tests d’autocorrélation


Les tests d’autocorrélation concernent les régressions sur des séries temporelles et ont pour
but de détecter des corrélations sérielles.
Le plus classique est le test de Durbin-Watson qui compare la somme des carrés des dif-
férences d’ordre 1 sur les résidus (c’est-à-dire des termes de la forme (σˆεi − σˆεi−1 )2 ) avec la
somme totale des carrés des résidus SCR. Sous l’hypothèse nulle d’absence d’autocorrélation, le
rapport de ces deux sommes doit être proche de 2. La distribution n’est pas standard : elle corres-
pond à une somme pondérée de variables suivant une loi du χ2 et il existe des tables indiquant des

18
bornes inférieures et supérieures pour els valeurs critiques. Avec R, la fonction dwtest se charge
de calculer la p-valeur. Dans R, il est implémenté dans la fonction dwtest.
Pour des autocorrélations d’ordre supérieur à 1, on peut utiliser d’autres tests qui ne seront
pas détaillés ici. Pour la référence, mentionnons les test de Box-Pierce, de Ljung-Box et de
Breusch-Godfrey. Ces trois tests sont disponibles dans R grâce aux fonctions Box.test (qui
couvre les deux premiers en spécifiant leur nom dans l’argument type) et bgtest.

19
4 Bibliographie
Références
[1] P. A. Cornillon, E. Matzner-Lober. Régression avec R. Springer, Collection Pratique R, 1st
edition, 2011.
[2] P. Dalgaard. Introductory Statistics with R. Springer, 2nd edition, 2008.
[3] B. Everitt, T. Hothorn. A Handbook of Statistical Analyses Using R. Chapman & Hall/CRC,
Boca Raton, FL, 2006.
[4] J. J. Faraway. Linear Models with R. Chapman & Hall/CRC, Boca Raton, FL, 2004.
[5] J. J. Faraway. Extending Linear Models with R : Generalized Linear, Mixed Effects and
Nonparametric Regression Models. Chapman & Hall/CRC, Boca Raton, FL, 2006.
[6] J. Fox, S. Weisberg. An R Companion to Applied Regression. Sage Publications, Thousand
Oaks, CA, USA, second edition, 2011.
[7] C. Gaetan, X. Guyon. Spatial Statistics and Modeling. Springer Series in Statistics. Springer,
2010.
[8] C. Kleiber, A. Zeileis. Applied Econometrics with R. Springer, New York, 2008.
[9] J. Maindonald, J. Braun. Data Analysis and Graphics Using R. Cambridge University Press,
Cambridge, 2nd edition, 2007.
[10] G. Millot. Comprendre et réaliser les tests statistiques à l’aide de R. De Boeck Université,
Louvain-la-Neuve, Belgique, 1st edition, 2009.
[11] G. Petris, S. Petrone, P. Campagnoli. Dynamic Linear Models with R. Use R. Springer,
2009.
[12] C. Ritz, J. C. Streibig. Nonlinear Regression with R. Springer, New York, 2009.
A Modern Approach to Regression with R. Springer, New York, 2008.
[13] P. Spector. Data Manipulation with R. Springer, New York, 2008.
[14] S. Weisberg. Applied Linear Regression. John Wiley and Sons, 2009.
[15] S. N. Wood. Generalized Additive Models : An Introduction with R. Chapman & Hall/CRC,
Boca Raton, FL, 2006.
[16] D. B. Wright, K. London. Modern Regression Techniques Using R : A Practical Guide.
SAGE, London, UK, 2009.

20