Vous êtes sur la page 1sur 13

UNIVERSITÉ DE BRETAGNE OCCIDENTALE Année 2021 - 2022

EURIA Licence 3
Régression linéaire
Franck Vermet

1 Introduction
L’objectif général de la régression est de construire un modèle permettant d’expliquer une
variable à expliquer Y en fonction de p variables explicatives X1 , . . . , Xp . L’origine du mot
régression vient de Francis Galton : en 1885, travaillant sur l’hérédité, il a développé une
théorie intitulée “regression toward mediocrity”, pour rendre compte qu’en moyenne, si un
père est plus petit que la moyenne, alors il y a de fortes chances que ce soit vrai aussi pour
son fils. Il est possible d’expliquer au moins partiellement la taille d’un individu à partir de
la taille de ses parents.
Cependant, l’origine de l’étude de la causalité entre des variables est plus ancienne et remonte
au milieu du 18ème siècle avec les travaux de R. Boscovich en 1757 : il propose alors une
méthode minimisant la somme des valeurs absolues entre un modèle de causalité et les
observations.
Enfin, la méthode d’estimation par moindres carrés, essentielle en régression, est due à
Legendre (1805), ou Gauss (1809), puisque ce dernier prétendait l’utiliser depuis 1795.
De manière générale, les méthodes de régression sont des méthodes dites d’apprentissage
statistique supervisé et supposent que l’on dispose d’observations pour lesquelles les variables
explicatives et la variables à expliquer sont connues. L’objectif est alors d’ajuster un modèle,
de calibrer ses paramètres, de façon que le modèle reproduise au mieux les observations
connues et soit capable de généraliser à d’autres observations pour laquelle la variable à
expliquer est inconnue.
Remarquons que la variable Y à expliquer peut être quantitative ou qualitative avec un
certain nombre de modalités. Dans ce dernier cas, nous parlerons plutôt de classification
supervisée et nous n’aborderons pas ce cas dans ce cours (voir en Master 1 dans les cours
de modèles linéaires et d’apprentissage statistique). Nous supposons donc désormais que
Y est une variable quantitative réelle. De même, les variables explicatives peuvent être
quantitatives ou qualitatives. Les variables qualitatives doivent alors être recodées à l’aide
de variables binaires représentant les différentes modalités (codage disjonctif complet). Nous
supposerons donc également désormais que les variables explicatives sont quantitatives à
valeurs réelles.
Bien entendu, le plus souvent, il n’existe pas de relation mathématique exacte entre les
variables explicatives et la variable Y . Il serait vain de chercher une relation déterministe de
la forme Y = f (X1 , . . . , Xp ), pour la simple raison que les variables explicatives n’expliquent
que partiellement la variable Y . Pour reprendre le premier exemple, connaitre la taille des
parents ne permet pas de prédire exactement la taille de leurs enfants. C’est la raison pour
laquelle un cadre probabiliste est naturel avec un modèle de la forme

1
Y = f (X1 , . . . , Xp ) + W,
où W est une variable aléatoire centrée de variance σ 2 finie.
Le choix de la fonction f est très important et définit la complexité du modèle retenu. Dans
le cadre de cours, nous considérons que f est une fonction linéaire, i.e. de la forme

f (X1 , . . . , Xp ) = β0 + β1 X1 + . . . + βp Xp .

Bien entendu, l’hypothèse d’une dépendance linéaire entre Y et les autres variables est parfois
inadaptée au problème considéré. Nous verrons l’an prochain des modèles plus complexes,
non linéaires, qui entrent dans le cadre de ce qu’on appelle aujourd’hui la data science, avec
par exemple le cas des réseaux de neurones, des arbres de régression, des forêts aléatoires ou
des méthodes de boosting.
L’avantage du modèle linéaire est sa simplicité, qui permet d’en avoir une compréhension
mathématique complète, sa robustesse et le fait qu’il soit facilement interprétable.

2 Cadre mathématique du modèle linéaire


Par la suite, nous noterons les variables aléatoires en lettres majuscules et les quantités
(i) (i)
déterministes en lettres minuscules. Nous supposons que nous observons (x1 , . . . , xp , y (i) ), i =
1, . . . , n et que les y (i) sont des réalisations des variables Y (i) définies par le modèle
(i)
Y (i) = β0 + β1 x1 + . . . + βp x(i) (i)
p + W , i = 1, . . . , n, (1)
(i)
où les W (i) sont des v.a.i.i.d. centrées et de variance σ 2 . Les variables xj sont ici déterministes,
nous considérons que ce sont des observations connues, alors que Y (i) est aléatoire, puisque
W (i) l’est.
Nous devons maintenant déterminer des valeurs pertinentes des paramètres β0 , . . . , βp . A
noter que la variance σ 2 est aussi supposée inconnue et devra être estimée.
Puisque nous cherchons un modèle expliquant la variable Y à partir des variables xj , il est
(i) (i)
naturel de minimiser l’écart entre les y (i) et les valeurs β0 + β1 x1 + . . . + βp xp . Notons β
le vecteur des paramètres βj . Nous allons chercher les valeurs minimisant une fonction
n
X (i)
E(β) = L(y (i) , β0 + β1 x1 + . . . + βp x(i)
p ),
i=1

où L(u, v) est une fonction de perte mesurant l’écart entre u et v. Différents choix sont
possibles pour la fonction L, les choix classiques étant l’écart absolu

L(u, v) = |u − v|

et l’écart quadratique
L(u, v) = (u − v)2 .

2
Dans le cas de l’écart quadratique, cela conduit à la méthode des moindres carrés, i.e. nous
cherchons les paramètres βj minimisant
n
X (i)
E(β) = (y (i) − (β0 + β1 x1 + . . . + βp x(i) 2
p )) .
i=1

L’avantage de l’écart quadratique par rapport à l’écart absolu est qu’il permet une résolution
exacte et que considérer le carré permet de pénaliser les plus gros écarts.

2.1 Un cas particulier : la régression linéaire simple


Nous allons tout d’abord considérer le cas d’une seule variable explicative (p = 1). Nous
avons n
X (i)
E(β0 , β1 ) = (y (i) − β0 − β1 x1 )2 ,
i=1

dont nous cherchons les extrema en annulant les dérivées partielles de E :


n
∂ X (i)
E = −2 (y (i) − β0 − β1 x1 ) = 0.
∂β0 i=1

n n
1 X (i) 1 X (i)
En notant ȳ = y et x̄1 = x , nous obtenons l’équation
n i=1 n i=1 1

β0 = ȳ − β1 x̄1 . (2)

De même,
n
∂ X (i) (i)
E = −2 x1 (y (i) − β0 − β1 x1 ) = 0.
∂β1 i=1

En développant et en utilisant (2), nous obtenons

cov(x1 , y)
β1 = ,
v(x1 )
n n
1 X (i) (i) 1 X (i) 2
avec cov(x1 , y) = x1 y − x̄1 ȳ et v(x1 ) = (x ) −(x̄1 )2 . La quantité cov(x1 , y) est
n i=1 n i=1 1
(i)
la covariance empirique entre les échantillons (x1 ) et (y (i) ) et et v(x1 ) la variance empirique
(i) (i)
de l’échantillon (x1 ). Nous avons supposé que v(x1 ) 6= 0, i.e. toutes les observations (x1 )
ne sont pas identiques. Sous cette hypothèse, nous avons alors unicité de la solution.
La droite de régression de la variable y sur la variable x1 a alors pour équation

cov(x1 , y)
y − ȳ = (x1 − x̄1 ),
v(x1 )

3
qui peut aussi s’écrire en normalisant les variables
y − ȳ cov(x1 , y) (x1 − x̄1 )
p =p p ,
v(y) v(x1 )v(y) v(x1 )
i.e.
y − ȳ (x1 − x̄1 )
p = ρ(x1 , y) p ,
v(y) v(x1 )
(i)
où ρ(x1 , y) est le coefficient de corrélation linéaire entre les échantillons (x1 ) et (y (i) ). Par
l’inégalité de Cauchy-Schwarz, nous avons ρ(x1 , y) ∈ [−1, 1]. Une valeur de ρ(x1 , y) proche
de 1 indique que les variables x1 et y sont fortement corrélées positivement alors qu’une
valeur proche de −1 indique que les variables x1 et y sont fortement corrélées négativement.
Une valeur proche de 0 indique une faible corrélation linéaire. La valeur de ρ(x1 , y) est donc
un indicateur de la qualité globale du modèle linéaire.

2.2 La régression linéaire multiple


(i)
Ce qui précède se généralise facilement au cas de p variables explicatives. En notant x0 = 1
pour tout i, nous définissons
n
X (i) (i)
E(β) = (y (i) − (β0 x0 + β1 x1 + . . . + βp x(i) 2
p )) .
i=1

Il est alors possible de calculer pour tout j = 0, . . . , p :


n
∂ X (i) (i)
E(β) = −2 xj (y (i) − β0 x0 − . . . − βp x(i)
p ) = 0.
∂βj i=1

Ceci donne un système de p + 1 équations linéaires à p + 1 inconnues. En notant


   (1) (1)   (1) 
β0 1 x1 . . . xp y
 .   . . . .   . 
β=  . , x =  . .
   et y =  ,
. .   . 
(n) (n) (n)
βp 1 x1 . . . xp y

ce système s’écrit sous la forme matricielle

(x0 x)β = x0 y,

où A0 désigne la transposée de la matrice A. Si la matrice carrée x0 x de taille (p + 1) × (p + 1)


est inversible, alors nous obtenons comme unique solution

β ∗ = (x0 x)−1 x0 y

Remarque : la matrice x0 x est inversible si elle est de rang p + 1, ce qui est vrai si ses p + 1
colonnes sont linéairement indépendantes. C’est le plus souvent vrai en pratique, notamment
car le nombre d’exemples n est en général plus grand que le nombre de variables p.

4
Une autre méthode, basée sur les projections orthogonales permet de trouver ce résultat.
En effet, si nous considérons les vecteurs colonnes de la matrice x comme des vecteurs de
IRn et F le sous-espace vectoriel de IRn engendré par ces (p+1) vecteurs x0 , . . . , xp , alors la
fonction E peut s’écrire sous la forme

E(β) = ||y − (β0 x0 + . . . + βp xp )||2 .

Minimiser E revient à chercher le vecteur v ∈ F tel que ||y − v||2 soit minimal. La solution
est donnée par v ∗ = ΠF (y) = x(x0 x)−1 x0 y, projection orthogonale de y sur F , d’où on déduit
β ∗ = (x0 x)−1 x0 y.

2.3 Premières propriétés probabilistes du modèle linéaire


D’après ce qui précède, nous définissons l’estimateur par moindres carrés de β le vecteur
aléatoire
B̂ = (x0 x)−1 x0 Y,
dans le cadre du modèle linéaire défini par (1). Nous avons alors les propriétés suivantes :

Proposition 1 : Sous les hypothèses du modèle linéaire, nous avons E[B̂] = β (l’estimateur
est sans biais) et var(B̂) = σ 2 (x0 x)−1 .
Remarquons que var(B̂) désigne ici la matrice de covariance du vecteur B̂.
Démonstration : cela résulte du fait que E[Y ] = xβ et var(Y ) = σ 2 In . n

Théorème 1 (Gauss- Markov) : Sous les hypothèses du modèle linéaire, B̂ est, parmi les
estimateurs sans biais de β s’écrivant comme des fonctions linéaires des Y (i) , l’estimateur de
variance minimale.
Démonstration : ce sera fait en exercice. n
Pour pouvoir aller plus loin sur les résultats statistiques du modèle linéaire, nous allons
désormais faire une hypothèse classique sur la loi des résidus W (i) .

3 Inférence sur les paramètres du modèle linéaire gaussien


Le modèle de régression linéaire gaussien s’écrit
(i)
Y (i) = β0 + β1 x1 + . . . + βp x(i) (i)
p + W , i = 1, . . . , n, (3)
(i)
où les W (i) sont des v.a.i.i.d. de loi normale centrée et variance σ 2 . Les p variables xj sont
ici déterministes, nous considérons que ce sont des observations connues, alors que Y (i) est
aléatoire, puisque W (i) l’est. Nous avons alors :

Proposition 2 : Sous les hypothèses du modèle linéaire gaussien, nous avons les propriétés
suivantes :

5
a) B̂ est de loi normale N (β, σ 2 (x0 x)−1 ).
b) Ŷ = xB̂ est de loi normale N (xβ, σ 2 x(x0 x)−1 x0 ).
S2
1
Pn
c) Notons Ŵ = Y − Ŷ et S 2 = n−p−1 2 2
i=1 (Ŵi ) . Alors (n − p − 1) σ 2 suit une loi de χn−p−1
et est indépendante de B̂ et Ŷ . La variable aléatoire S 2 est donc un estimateur sans biais
de σ 2 .
Démonstration : a) et b) sont des conséquences directes de la propriété suivante :

Lemme 1 : Si Z est un vecteur gaussien de loi N (µ, V ), alors pour toute matrice C telle
que le produit CZ soit défini, CZ est un vecteur gaussien de loi N (Cµ, CV C 0 ).

c) est une conséquence du théorème de Cochran.

Théorème 2 (Cochran) : Soient E et F deux s.e.v. orthogonaux de IRn et Z de loi


N (µ, σ 2 In ). Alors :
i) ΠE (Z) et ΠF (Z) sont des vecteurs gaussiens indépendants
||ΠE (Z) − ΠE (µ)||2
ii) 2
est une v.a. de loi de χ2dimE .
σ

Pour démontrer c), il suffit d’appliquer le théorème de Cochran à Y , avec Ŵ = ΠF ⊥ (Y ).


||ΠF ⊥ (Y )||2 S2
Puisque ΠF ⊥ (xβ) = 0, nous obtenons immédiatement que = (n − p − 1) est
σ2 σ2
une v.a. de loi de χ2n−p−1 . Et l’espérance d’une loi de χ2n−p−1 est (n − p − 1).
Le fait que Ŷ et B̂ s’écrivent comme des fonctions de ΠF (Y ) implique qu’ils sont indépendants
de S 2 , qui est fonction de ΠF ⊥ (Y ). n

Nous en déduisons le corollaire suivant :

Corollaire 1 : Notons H = (x0 x)−1 . Sous les hypothèses du modèle linéaire gaussien, nous
avons les propriétés suivantes :
a) B̂i est de loi normale N (βi , σ 2 Hii ).
B̂i − βi
b) √ 2 est de loi de Student à n − p − 1 degrés de liberté.
S Hii

Démonstration : la propriété a) découle directement de la proposition.


- Pour montrer b), remarquons que U := √B̂i −β
2
i
est de loi normale centrée réduite et V :=
σ Hii
2
(n − p − 1) Sσ2 suit une loi de χ2n−p−1
et est indépendante de U . Par définition d’une loi de
p U
Student, nous avons donc que n − p − 1 √ est de loi de Student à (n − p − 1) degrés de
V
liberté. n

Nous pouvons alors utiliser ces résultats pour calculer des intervalles de confiance et faire
des tests sur les paramètres inconnus.

6
Intervalle de confiance au niveau de confiance (1 − α) pour βi :
p p
[B̂i − tn−p−1,1−α/2 S Hii , B̂i + tn−p−1,1−α/2 S Hii ],
où tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 d’une v.a. de Student à (n − p − 1) degrés de
liberté.

Intervalle de confiance au niveau de confiance (1 − α) pour σ 2 :


S2 S2
[(n − p − 1) , (n − p − 1) ],
χ2n−p−1,1−α/2 χ2n−p−1,α/2

où χ2n−p−1,α/2 et χ2n−p−1,1−α/2 sont les quantiles respectivement d’ordre α/2 et 1 − α/2 d’une
v.a. de loi de χ2 à (n − p − 1) degrés de liberté. Remarquons qu’une v.a. de loi de χ2 étant
à valeurs positives, l’intervalle de confiance n’est pas symétrique.

Test d’hypothèse pour βi :


Nous souhaitons tester l’hypothèse H0 : βi = c contre H1 : βi 6= c, où c est une valeur fixée.
B̂i − c
Nous considérons alors la statistique de test Ti = √ 2 . Sous H0 , la v.a. Ti suit une loi de
S Hii
Student à (n − p − 1) d.d.l., d’après le corollaire ci-dessus. Nous acceptons donc l’hypothèse
H0 , avec un risque de première espèce α fixé, si et seulement si |Ti | < tn−p−1,1−α/2 . Dans le
cas contraire, nous rejetons l’hypothèse H0 et acceptons H1 .

Remarque : un cas particulier est celui où c = 0, i.e. nous testons l’hypothèse H0 : βi =
0. Ce cas particulier est important, car si nous acceptons H0 , cela signifie que la ième
variable explicative peut être retirée du modèle de régression linéaire et qu’elle n’a pas de
rôle explicatif significatif dans ce modèle.
Pour quantifier l’importance de chacune des variables explicatives, il est courant de calculer
la p-value associée à chaque variable, qui est définie par : pi = P [|T | > |Ti,obs |], où T est une
v.a. de loi de Student à (n − p − 1) d.d.l., et Ti,obs est la valeur observée pour la statistique
Ti dans le cas où c = 0.
En conséquence, si la ième variable explicative a une p-value supérieure à α, on peut la
retirer du modèle, avec un risque de première espèce de niveau α.
Les variables explicatives ayant les p-value les plus petites sont les plus significatives.
Il faut prendre garde cependant à l’interprétation de ces p-value lorsque les variables ex-
plicatives sont corrélées. En particulier, on ne peut pas supprimer simultanément toutes les
variables ayant une p-value supérieure à α. Les techniques de sélection de variables seront
étudiées dans le cours de modèles linéaires de Master 1.
Ce test dans le cas particulier c = 0 est réalisé par défaut dans la fonction lm de R pour
chacune des variables explicatives.

Test d’hypothèse pour σ 2 :


Nous souhaitons tester l’hypothèse H0 : σ = s contre H1 : σ 6= s, où s est une valeur fixée
strictement positive.

7
S2
Nous considérons alors la statistique de test X = (n − p − 1) . Sous H0 , la v.a. X suit
s2
2
une loi de χn−p−1 . Nous acceptons donc l’hypothèse H0 , avec un risque de première espèce
α fixé, si et seulement si χ2n−p−1,α/2 < X < χ2n−p−1,1−α/2 . Dans le cas contraire, nous rejetons
l’hypothèse H0 et acceptons H1 .

4 Prévisions pour le modèle linéaire gaussien


Une application usuelle des modèles de régression est de prévoir la valeur prise par la réponse
Y pour un nouvel individu pour lequel on connaı̂t seulement les valeurs des variables ex-
(0) (0)
plicatives x(0) = (1, x1 , . . . , xp ). La prévision naturelle est alors x(0) β que l’on estime par
la prévision ponctuelle
(0)
Ŷ (0) = x(0) B̂ = B̂0 + B̂1 x1 + . . . + B̂p x(0)
p .

Nous allons voir comment construire des intervalles de confiance et de prédiction associés,
en utilisant la proposition suivante :

Proposition 3 : Sous les hypothèses du modèle linéaire gaussien, nous avons les propriétés
suivantes :
a) Ŷ (0) = x(0) B̂ est de loi normale N (x(0) β, σ 2 x(0) (x0 x)−1 (x(0) )0 ).
Ŷ (0) − x(0) β
b) p est de loi de Student à (n − p − 1) degrés de liberté.
S 2 x(0) (x0 x)−1 (x(0) )0

Démonstration : La proposition se démontre comme la proposition 1 et son corollaire, en


remarquant que Ŷ (0) et S sont indépendantes. n

Nous en déduisons aisément un intervalle de confiance pour x(0) β :


Intervalle de confiance au niveau de confiance (1 − α) pour x(0) β :
q q
[Ŷ (0) − tn−p−1,1−α/2 S x(0) (x0 x)−1 (x(0) )0 , Ŷ (0) + tn−p−1,1−α/2 S x(0) (x0 x)−1 (x(0) )0 ],

où tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 d’une v.a. de Student à (n − p − 1) degrés de
liberté.
Cependant, x(0) β ne tient pas compte de l’aléa présent dans le modèle linéaire gaussien. Si
nous voulons rester conforme à ce modèle, nous devons considérer

Y (0) = x(0) β + W (0) ,

avec W (0) de loi normale N (0, σ 2 ) indépendante de (W (i) , i = 1, . . . , n).


Ŷ (0) − Y (0)
Nous pouvons montrer que p est de loi de Student à (n − p − 1)
S 2 (1 + x(0) (x0 x)−1 (x(0) )0 )
degrés de liberté.

8
Exercice 1 : démontrer cette propriété.
Nous en déduisons alors :
Intervalle de prédiction au niveau de confiance (1 − α) pour Y (0) :
q q
(0) (0)
[Ŷ − tn−p−1,1−α/2 S 1 + x (x x) (x ) , Ŷ + tn−p−1,1−α/2 S 1 + x(0) (x0 x)−1 (x(0) )0 ],
(0) 0 −1 (0) 0

où tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 d’une v.a. de Student à (n − p − 1) degrés de
liberté.
L’intervalle de prédiction est plus large que l’intervalle de confiance. Il prend mieux en
compte la dispersion des données, modélisée par l’aléa W présent dans le modèle linéaire
gaussien.

5 Qualité et validation du modèle linéaire gaussien


Bien entendu, les intervalles de confiance pour les paramètres et les prévisions reposent sur
les hypothèses du modèle linéaire gaussien. Ceci n’a donc de sens que si les hypothèses de
ce modèle sont bien vérifiées par les données. Il convient donc de construire des outils pour
mesurer la qualité du modèle choisi et vérifier si les hypothèses faites sont réalistes.

5.1 Qualité globale du modèle


Notons x1 , . . . , xp les vecteurs de IRn générés par les p variables explicatives observées sur les
n exemples et x0 = (1, . . . , 1) ∈ IRn . Nous avons démontré au début du cours que Ŷ est la
projection orthogonale de Y sur le sous-espace vectoriel F de IRn engendré par les vecteurs
n
1X
{x0 , x1 , . . . , xp }. Notons Ȳn = Yi et Ȳ = Ȳn u = (Ȳn , . . . , Ȳn ) ∈ IRn .
n i=1
Un bon modèle de régression est un modèle tel que les données observées Y soient proches
des valeurs théoriques prédites par le modèle Ŷ . Une façon de mesurer ceci est de quantifier
l’écart entre Y et sa projection Ŷ sur le sous-espace vectoriel F . Nous pouvons par exemple
considérer ||Ŷ − Y ||2 , mais l’interprétation de la valeur obtenue est délicate, car elle est liée
aussi à l’échelle des valeurs prises par Y . Nous pouvons également considérer l’angle θ entre
Y − Ȳ et Ŷ − Ȳ . Cet angle est compris entre −π/2 et π/2 et un angle proche de ±π/2 indique
un modèle de mauvaise qualité, alors qu’un angle proche de 0 indique de Y est proche de
son projeté Ŷ sur F . Nous définissons alors le coefficient de détermination R2 par :

||Ŷ − Ȳ ||2
R2 = cos(θ)2 = ∈ [0, 1].
||Y − Ȳ ||2
Un modèle de bonne qualité correspond à des valeurs de R2 proches de 1. Au contraire, si
R2 est proche de 0, cela veut dire que Y est quasiment dans l’orthogonal de F , le modèle est
donc inadapté, les variables (x1 , . . . , xp ) n’expliquent pas la variable Y .

9
Remarquons que le théorème de Pythagore nous donne :
||Y − Ȳ ||2 = ||Ŷ − Ȳ ||2 + ||Y − Ŷ ||2
n
X n
X n
X
2 2
(Yi − Ȳn ) = (Ŷi − Ȳn ) + (Yi − Ŷi )2
i=1 i=1 i=1
Cette formule peut être vue comme une formule de décomposition de la variance
SCT = SCE + SCR,
où SCT (respectivement SCE et SCR) représentent la Somme des Carrés Totale (respec-
tivement Expliquée par le modèle et Résiduelle). Le coefficient de détermination s’écrit
alors :
SCE SCR
R2 = =1− ,
SCT SCT
et représente la part de la variabilité expliquée par le modèle sur la variabilité totale de Y .

Exercice 2 : démontrer que pour p = 1 (une seule variable explicative), nous avons R2 = ρ2 ,
où ρ est le coefficient de corrélation linéaire entre les (x(i) ) et les (Y (i) ).

Le coefficient de détermination peut être utilisé pour comparer des modèles entre eux. Cepen-
dant, si on ajoute une variable explicative dans un modèle, le R2 ne peut qu’augmenter, le
R2 n’est donc pas adapté pour comparer entre eux des modèles avec un nombre différent de
variables. C’est pour cette raison que nous définissons le coefficient de détermination
ajusté
2 n − 1 SCR SCR/(n − p − 1) (n − 1)R2 − p
Ra = 1 − =1− =
n − p − 1 SCT SCT /(n − 1) n−p−1
En fait, le R2 s’écrit aussi
SCE SCR/n
R2 = =1− ,
SCT SCT /n
et SCT /n est un estimateur biaisé de var(Y ), tandis que SCR/n est un estimateur biaisé
de σ 2 , la variance du résidu. Dans Ra2 , on remplace ces estimateurs par les estimateurs non
biaisés et Ra2 s’interprète alors comme la proportion de variance expliquée par le modèle.

5.2 Analyse des résidus


L’hypothèse principale du modèle linéaire gaussien (3) est que les résidus (W (i) ) sont des
variables aléatoires indépendantes de loi normale centrée et variance σ 2 . Il convient donc de
vérifier que ces hypothèses sont vérifiées par les jeux de données considérées, pour pouvoir
utiliser les méthodes développées précédemment. Les résidus sont définis par
(i)
W (i) = Y (i) − (β0 + β1 x1 + . . . + βp x(i)
p ), i = 1, . . . , n,

mais bien entendu, ils ne peuvent être calculées, car les paramètres βj sont inconnus. On les
remplace donc par les résidus estimés
(i)
Ŵ (i) = Y (i) − (B̂0 + B̂1 x1 + . . . + B̂p x(i)
p ), i = 1, . . . , n.

10
Nous avons vu que Ŵ = Y − Ŷ = (I − A)Y , où A = x(x0 x)−1 x0 est la matrice de projection
orthogonale sur le sous-espace vectoriel F et I est la matrice identité de dimension n. La
matrice (I − A) est également la matrice de projection orthogonale sur l’orthogonal de F et
puisque Y = xβ + W et xβ ∈ F , nous pouvons donc aussi écrire

Ŵ = (I − A)W.

Nous en déduisons alors que Ŵ est un vecteur gaussien centré et de variance

σ 2 (I − A)0 (I − A) = σ 2 (I − A),

car (I − A) = (I − A)0 = (I − A)2 , la matrice (I − A) étant une matrice de projection


orthogonale. Remarquons qu’en général, les v.a. Ŵ (i) ne sont pas indépendantes, puisque la
matrice I − A n’est pas diagonale.
Afin d’éliminer la non-homogénéité de la variances des résidus estimés, nous pouvons alors
définir les résidus normalisés

Ŵ (i)
R̂(i) = √ , i = 1, . . . , n,
σ 1 − Aii
qui sont de loi normale centrée réduite. Cependant, σ étant inconnu, nous définissons les
résidus standardisés
Ŵ (i)
ε̂(i) = √ , i = 1, . . . , n,
S 1 − Aii
où nous avons remplacé σ par son estimateur S.
Remarquons que les v.a. ε̂(i) ne suivent pas une loi de Student (contrairement à ce que nous
avons obtenu dans le Corollaire 1 et la Proposition 3 en remplaçant σ par S), car les v.a. Ŵ (i)
ne sont pas indépendantes de S. Cependant, puisque les résidus normalisés sont de variance
unité et que S ≈ σ, il est usuel de considérer que les observations non probables pour le
modèle (d’un point de vue statistique) sont celles correspondant à des résidus standardisés
ε̂(i) ∈
/ [−2, 2]. En effet, une v.a. de loi normale centrée réduite (les résidus standardisés
sont proches des résidus normalisés), prend ses valeurs entre −2 et 2 avec une probabilité
supérieure à 0.95.
Nous avons montré que la variance des Ŵ est σ 2 (I − A), où A est la matrice de la projection
orthogonale sur F . Le coefficient Aii est appelé le levier de la ième observation. Nous avons
la propriété suivante :
n
X
Aii = trace(A) = rang(A) = p + 1.
i=1

p+1 p+1
Le levier empirique moyen vaut donc Aii = . Si un levier Aii vérifie Aii > 3 ,
n n
nous considérons que l’observation est anormale, dans le sens où elle a un poids trop élevé
dans le modèle : retirer cette observation peut conduire à une modification importante des
paramètres du modèle.

11
Il est important également de tester le caractère gaussien des résidus W (i) . Là encore,
le test sera réalisé sur les v.a. ε̂(i) , même si ce n’est pas complètement rigoureux, ces v.a.
n’étant qu’approximativement gaussienne, si les W (i) le sont. Différents tests de normalité
existent : parmi les plus courants, citons le test de Kolmogorov-Smirnov, le test de
Shapiro-Wilk et le test du χ2 . Pour ces tests, il s’agit de calculer, à partir de l’échantillon
des résidus, une statistique T dont on connait la loi sous l’hypothèse H0 que l’échantillon est
gaussien. Si la statistique T prend une valeur tobs non probable (i.e. tel que P [|T | > tobs ] <
α), alors l’hypothèse H0 est rejetée au niveau de rejet α (où α est assez petit, α = 0.01 ou
0.05 en pratique).
Il existe également un test graphique usuel pour vérifier que l’échantillon des résidus est
gaussien : il s’agit de la droite de Henry pour les résidus standardisés. Le principe
est le suivant : soient Z une v.a. de loi N (µ, σ 2 ), (Z1 , . . . , Zn ) un échantillon de v.a.i.i.d.
gaussiennes même loi que Z et (z1 , . . . , zn ) une réalisation de ces v.a.. Nous pouvons écrire

Z −µ zi − µ zi − µ
FZ (zi ) = P[Z ≤ zi ] = P[ ≤ ] = Φ( ),
σ σ σ
où Φ est la fonction de répartition de la loi normale centrée réduite. Nous en déduisons que
zi peut s’écrire sous la forme :

zi = µ + σΦ−1 (FZ (zi )).

Nous remplaçons alors la fonction de répartition FZ par la fonction de répartition empirique


de l’échantillon : n
1X
F̂n (z) = 1{Zi ≤z} ,
n i=1
qui converge presque surement vers FZ lorsque n tend vers l’infini.
La méthode de la droite de Henry consiste alors à tracer le nuage de points (Φ−1 (F̂n (ε̂(i) )), ε̂(i) ),
i = 1, . . . , n. Si l’échantillon est gaussien, alors les points doivent être proches de la droite
d’équation y = σx + µ.

Il est important également de vérifier la linéarité de la relation entre la variable à expliquer et


les variables explicatives. Pour cela, nous pouvons tracer les résidus estimés Ŵ (i) en fonction
de la valeur prédite Ŷ (i) . Si le nuage des résidus présente une structure déterministe, cela
signifie qu’un modèle non linéaire serait mieux adapté qu’un modèle linéaire.
Lorsque le modèle linéaire n’est pas adapté, il est possible parfois d’utiliser malgré tout les
techniques du modèle linéaire en effectuant un ou des changements de variable sur la variable
à expliquer ou les variables explicatives, pour se ramener à un modèle linéaire. L’exercice
ci-dessous en donne un exemple.

Exercice 3 : Pour effectuer des mesures électriques en biologie ou en médecine, on utilise


souvent des électrodes en contact avec un tissu biologique. Dans certains cas, le système
électrodes-tissu se comporte comme une capacité et une résistance en parallèle et la valeur de
la résistance R dépend de la fréquence F du courant traversant les électrodes. L’étalonnage

12
F 30 50 100 200 300 500 1000 2000 3000 5000 10000
R 1180 1010 690 540 450 350 240 160 130 95 58

d’une sonde formée d’une paire d’électrodes parcourues par un courant d’intensité fixe a
donné les résultats suivants (F en hertz, R en ohms) :
1) Tracer le nuage de point correspondant à ces observations et calculer le coefficient de
corrélation linéaire entre F et R. Un modèle linéaire gaussien du type

Ri = β0 + β1 Fi + Wi

serait-il satisfaisant ? Justifier la réponse.

2) On propose maintenant d’utiliser un modèle linéaire gaussien du type


1
Ri = β0 + β1 √ + Wi ,
Fi
où les Wi sont des variables aléatoires centrées, indépendantes et de loi normale de variance
σ2.
2.a) Ce modèle vous semble-t-il être adapté?
2.b) Donner une estimation ponctuelle des paramètres β0 , β1 et σ 2 ainsi que des intervalles
de confiance à 95% pour ces paramètres.
2.c) Utiliser le modèle précédent pour estimer la valeur de R correspondant à F = 50000.
On donnera les intervalles de prédiction et de confiance à 90% correspondant.
2.d) Peut-on supposer que β0 = 0 ? On répondra à l’aide d’un test statistique.
2.e) Les hypothèses du modèle linéaire gaussien sont-elles satisfaites ?

Nous pouvons également vérifier l’hypothèse d’homoscédacité des résidus, i.e. les résidus
W (i) ont la même variance. Pour cela, nous pouvons tracer le graphique des points |ε̂(i) | en
fonction des valeurs prédites Ŷ (i) et observer si l’ordre de grandeur de la dispersion des |ε̂(i) |
est homogène sur tout l’échantillon.

Références bibliographiques :
- P.A. Cornillon, E. Matzner-Lober, “Régression, théorie et application”, Ed. Springer (2007)
- G. Saporta, “Probabilités, analyse des données et statistique”, Ed. Technip (2011)

13

Vous aimerez peut-être aussi