Cours Regression 2021

UNIVERSITÉ DE BRETAGNE OCCIDENTALE Année 2021 - 2022
EURIA Licence 3
Régression linéaire
Franck Vermet
1 Introduction
L’objectif général de la régression est de construire un modèle permettant d’expliquer une
variable à expliquer Y en fonction de p variables explicatives X1 , . . . , Xp . L’origine du mot
régression vient de Francis Galton : en 1885, travaillant sur l’hérédité, il a développé une
théorie intitulée “regression toward mediocrity”, pour rendre compte qu’en moyenne, si un
père est plus petit que la moyenne, alors il y a de fortes chances que ce soit vrai aussi pour
son fils. Il est possible d’expliquer au moins partiellement la taille d’un individu à partir de
la taille de ses parents.
Cependant, l’origine de l’étude de la causalité entre des variables est plus ancienne et remonte
au milieu du 18ème siècle avec les travaux de R. Boscovich en 1757 : il propose alors une
méthode minimisant la somme des valeurs absolues entre un modèle de causalité et les
observations.
Enfin, la méthode d’estimation par moindres carrés, essentielle en régression, est due à
Legendre (1805), ou Gauss (1809), puisque ce dernier prétendait l’utiliser depuis 1795.
De manière générale, les méthodes de régression sont des méthodes dites d’apprentissage
statistique supervisé et supposent que l’on dispose d’observations pour lesquelles les variables
explicatives et la variables à expliquer sont connues. L’objectif est alors d’ajuster un modèle,
de calibrer ses paramètres, de façon que le modèle reproduise au mieux les observations
connues et soit capable de généraliser à d’autres observations pour laquelle la variable à
expliquer est inconnue.
Remarquons que la variable Y à expliquer peut être quantitative ou qualitative avec un
certain nombre de modalités. Dans ce dernier cas, nous parlerons plutôt de classification
supervisée et nous n’aborderons pas ce cas dans ce cours (voir en Master 1 dans les cours
de modèles linéaires et d’apprentissage statistique). Nous supposons donc désormais que
Y est une variable quantitative réelle. De même, les variables explicatives peuvent être
quantitatives ou qualitatives. Les variables qualitatives doivent alors être recodées à l’aide
de variables binaires représentant les différentes modalités (codage disjonctif complet). Nous
supposerons donc également désormais que les variables explicatives sont quantitatives à
valeurs réelles.
Bien entendu, le plus souvent, il n’existe pas de relation mathématique exacte entre les
variables explicatives et la variable Y . Il serait vain de chercher une relation déterministe de
la forme Y = f (X1 , . . . , Xp ), pour la simple raison que les variables explicatives n’expliquent
que partiellement la variable Y . Pour reprendre le premier exemple, connaitre la taille des
parents ne permet pas de prédire exactement la taille de leurs enfants. C’est la raison pour
laquelle un cadre probabiliste est naturel avec un modèle de la forme
1
Y = f (X1 , . . . , Xp ) + W,
où W est une variable aléatoire centrée de variance σ 2 finie.
Le choix de la fonction f est très important et définit la complexité du modèle retenu. Dans
le cadre de cours, nous considérons que f est une fonction linéaire, i.e. de la forme
f (X1 , . . . , Xp ) = β0 + β1 X1 + . . . + βp Xp .
Bien entendu, l’hypothèse d’une dépendance linéaire entre Y et les autres variables est parfois
inadaptée au problème considéré. Nous verrons l’an prochain des modèles plus complexes,
non linéaires, qui entrent dans le cadre de ce qu’on appelle aujourd’hui la data science, avec
par exemple le cas des réseaux de neurones, des arbres de régression, des forêts aléatoires ou
des méthodes de boosting.
L’avantage du modèle linéaire est sa simplicité, qui permet d’en avoir une compréhension
mathématique complète, sa robustesse et le fait qu’il soit facilement interprétable.
2 Cadre mathématique du modèle linéaire

Par la suite, nous noterons les variables aléatoires en lettres majuscules et les quantités
(i) (i)
déterministes en lettres minuscules. Nous supposons que nous observons (x1 , . . . , xp , y (i) ), i =
1, . . . , n et que les y (i) sont des réalisations des variables Y (i) définies par le modèle
(i)
Y (i) = β0 + β1 x1 + . . . + βp x(i) (i)
p + W , i = 1, . . . , n, (1)
(i)
où les W (i) sont des v.a.i.i.d. centrées et de variance σ 2 . Les variables xj sont ici déterministes,
nous considérons que ce sont des observations connues, alors que Y (i) est aléatoire, puisque
W (i) l’est.
Nous devons maintenant déterminer des valeurs pertinentes des paramètres β0 , . . . , βp . A
noter que la variance σ 2 est aussi supposée inconnue et devra être estimée.
Puisque nous cherchons un modèle expliquant la variable Y à partir des variables xj , il est
(i) (i)
naturel de minimiser l’écart entre les y (i) et les valeurs β0 + β1 x1 + . . . + βp xp . Notons β
le vecteur des paramètres βj . Nous allons chercher les valeurs minimisant une fonction
n
X (i)
E(β) = L(y (i) , β0 + β1 x1 + . . . + βp x(i)
p ),
i=1
où L(u, v) est une fonction de perte mesurant l’écart entre u et v. Différents choix sont
possibles pour la fonction L, les choix classiques étant l’écart absolu
L(u, v) = |u − v|
et l’écart quadratique
L(u, v) = (u − v)2 .
2
Dans le cas de l’écart quadratique, cela conduit à la méthode des moindres carrés, i.e. nous
cherchons les paramètres βj minimisant
n
X (i)
E(β) = (y (i) − (β0 + β1 x1 + . . . + βp x(i) 2
p )) .
i=1
L’avantage de l’écart quadratique par rapport à l’écart absolu est qu’il permet une résolution
exacte et que considérer le carré permet de pénaliser les plus gros écarts.
2.1 Un cas particulier : la régression linéaire simple

Nous allons tout d’abord considérer le cas d’une seule variable explicative (p = 1). Nous
avons n
X (i)
E(β0 , β1 ) = (y (i) − β0 − β1 x1 )2 ,
i=1
dont nous cherchons les extrema en annulant les dérivées partielles de E :

n
∂ X (i)
E = −2 (y (i) − β0 − β1 x1 ) = 0.
∂β0 i=1
n n
1 X (i) 1 X (i)
En notant ȳ = y et x̄1 = x , nous obtenons l’équation
n i=1 n i=1 1
β0 = ȳ − β1 x̄1 . (2)
De même,
n
∂ X (i) (i)
E = −2 x1 (y (i) − β0 − β1 x1 ) = 0.
∂β1 i=1
En développant et en utilisant (2), nous obtenons
cov(x1 , y)
β1 = ,
v(x1 )
n n
1 X (i) (i) 1 X (i) 2
avec cov(x1 , y) = x1 y − x̄1 ȳ et v(x1 ) = (x ) −(x̄1 )2 . La quantité cov(x1 , y) est
n i=1 n i=1 1
(i)
la covariance empirique entre les échantillons (x1 ) et (y (i) ) et et v(x1 ) la variance empirique
(i) (i)
de l’échantillon (x1 ). Nous avons supposé que v(x1 ) 6= 0, i.e. toutes les observations (x1 )
ne sont pas identiques. Sous cette hypothèse, nous avons alors unicité de la solution.
La droite de régression de la variable y sur la variable x1 a alors pour équation
cov(x1 , y)
y − ȳ = (x1 − x̄1 ),
v(x1 )
3
qui peut aussi s’écrire en normalisant les variables
y − ȳ cov(x1 , y) (x1 − x̄1 )
p =p p ,
v(y) v(x1 )v(y) v(x1 )
i.e.
y − ȳ (x1 − x̄1 )
p = ρ(x1 , y) p ,
v(y) v(x1 )
(i)
où ρ(x1 , y) est le coefficient de corrélation linéaire entre les échantillons (x1 ) et (y (i) ). Par
l’inégalité de Cauchy-Schwarz, nous avons ρ(x1 , y) ∈ [−1, 1]. Une valeur de ρ(x1 , y) proche
de 1 indique que les variables x1 et y sont fortement corrélées positivement alors qu’une
valeur proche de −1 indique que les variables x1 et y sont fortement corrélées négativement.
Une valeur proche de 0 indique une faible corrélation linéaire. La valeur de ρ(x1 , y) est donc
un indicateur de la qualité globale du modèle linéaire.
2.2 La régression linéaire multiple

(i)
Ce qui précède se généralise facilement au cas de p variables explicatives. En notant x0 = 1
pour tout i, nous définissons
n
X (i) (i)
E(β) = (y (i) − (β0 x0 + β1 x1 + . . . + βp x(i) 2
p )) .
i=1
Il est alors possible de calculer pour tout j = 0, . . . , p :

n
∂ X (i) (i)
E(β) = −2 xj (y (i) − β0 x0 − . . . − βp x(i)
p ) = 0.
∂βj i=1
Ceci donne un système de p + 1 équations linéaires à p + 1 inconnues. En notant

   (1) (1)   (1) 
β0 1 x1 . . . xp y
 .   . . . .   . 
β=  . , x =  . .
   et y =  ,
. .   . 
(n) (n) (n)
βp 1 x1 . . . xp y
ce système s’écrit sous la forme matricielle
(x0 x)β = x0 y,
où A0 désigne la transposée de la matrice A. Si la matrice carrée x0 x de taille (p + 1) × (p + 1)

est inversible, alors nous obtenons comme unique solution
β ∗ = (x0 x)−1 x0 y
Remarque : la matrice x0 x est inversible si elle est de rang p + 1, ce qui est vrai si ses p + 1
colonnes sont linéairement indépendantes. C’est le plus souvent vrai en pratique, notamment
car le nombre d’exemples n est en général plus grand que le nombre de variables p.
4
Une autre méthode, basée sur les projections orthogonales permet de trouver ce résultat.
En effet, si nous considérons les vecteurs colonnes de la matrice x comme des vecteurs de
IRn et F le sous-espace vectoriel de IRn engendré par ces (p+1) vecteurs x0 , . . . , xp , alors la
fonction E peut s’écrire sous la forme
E(β) = ||y − (β0 x0 + . . . + βp xp )||2 .
Minimiser E revient à chercher le vecteur v ∈ F tel que ||y − v||2 soit minimal. La solution
est donnée par v ∗ = ΠF (y) = x(x0 x)−1 x0 y, projection orthogonale de y sur F , d’où on déduit
β ∗ = (x0 x)−1 x0 y.
2.3 Premières propriétés probabilistes du modèle linéaire

D’après ce qui précède, nous définissons l’estimateur par moindres carrés de β le vecteur
aléatoire
B̂ = (x0 x)−1 x0 Y,
dans le cadre du modèle linéaire défini par (1). Nous avons alors les propriétés suivantes :
Proposition 1 : Sous les hypothèses du modèle linéaire, nous avons E[B̂] = β (l’estimateur
est sans biais) et var(B̂) = σ 2 (x0 x)−1 .
Remarquons que var(B̂) désigne ici la matrice de covariance du vecteur B̂.
Démonstration : cela résulte du fait que E[Y ] = xβ et var(Y ) = σ 2 In . n
Théorème 1 (Gauss- Markov) : Sous les hypothèses du modèle linéaire, B̂ est, parmi les
estimateurs sans biais de β s’écrivant comme des fonctions linéaires des Y (i) , l’estimateur de
variance minimale.
Démonstration : ce sera fait en exercice. n
Pour pouvoir aller plus loin sur les résultats statistiques du modèle linéaire, nous allons
désormais faire une hypothèse classique sur la loi des résidus W (i) .
3 Inférence sur les paramètres du modèle linéaire gaussien

Le modèle de régression linéaire gaussien s’écrit
(i)
Y (i) = β0 + β1 x1 + . . . + βp x(i) (i)
p + W , i = 1, . . . , n, (3)
(i)
où les W (i) sont des v.a.i.i.d. de loi normale centrée et variance σ 2 . Les p variables xj sont
ici déterministes, nous considérons que ce sont des observations connues, alors que Y (i) est
aléatoire, puisque W (i) l’est. Nous avons alors :
Proposition 2 : Sous les hypothèses du modèle linéaire gaussien, nous avons les propriétés
suivantes :
5
a) B̂ est de loi normale N (β, σ 2 (x0 x)−1 ).
b) Ŷ = xB̂ est de loi normale N (xβ, σ 2 x(x0 x)−1 x0 ).
S2
1
Pn
c) Notons Ŵ = Y − Ŷ et S 2 = n−p−1 2 2
i=1 (Ŵi ) . Alors (n − p − 1) σ 2 suit une loi de χn−p−1
et est indépendante de B̂ et Ŷ . La variable aléatoire S 2 est donc un estimateur sans biais
de σ 2 .
Démonstration : a) et b) sont des conséquences directes de la propriété suivante :
Lemme 1 : Si Z est un vecteur gaussien de loi N (µ, V ), alors pour toute matrice C telle
que le produit CZ soit défini, CZ est un vecteur gaussien de loi N (Cµ, CV C 0 ).
c) est une conséquence du théorème de Cochran.
Théorème 2 (Cochran) : Soient E et F deux s.e.v. orthogonaux de IRn et Z de loi

N (µ, σ 2 In ). Alors :
i) ΠE (Z) et ΠF (Z) sont des vecteurs gaussiens indépendants
||ΠE (Z) − ΠE (µ)||2
ii) 2
est une v.a. de loi de χ2dimE .
σ
Pour démontrer c), il suffit d’appliquer le théorème de Cochran à Y , avec Ŵ = ΠF ⊥ (Y ).

||ΠF ⊥ (Y )||2 S2
Puisque ΠF ⊥ (xβ) = 0, nous obtenons immédiatement que = (n − p − 1) est
σ2 σ2
une v.a. de loi de χ2n−p−1 . Et l’espérance d’une loi de χ2n−p−1 est (n − p − 1).
Le fait que Ŷ et B̂ s’écrivent comme des fonctions de ΠF (Y ) implique qu’ils sont indépendants
de S 2 , qui est fonction de ΠF ⊥ (Y ). n
Nous en déduisons le corollaire suivant :
Corollaire 1 : Notons H = (x0 x)−1 . Sous les hypothèses du modèle linéaire gaussien, nous
avons les propriétés suivantes :
a) B̂i est de loi normale N (βi , σ 2 Hii ).
B̂i − βi
b) √ 2 est de loi de Student à n − p − 1 degrés de liberté.
S Hii
Démonstration : la propriété a) découle directement de la proposition.

- Pour montrer b), remarquons que U := √B̂i −β
2
i
est de loi normale centrée réduite et V :=
σ Hii
2
(n − p − 1) Sσ2 suit une loi de χ2n−p−1
et est indépendante de U . Par définition d’une loi de
p U
Student, nous avons donc que n − p − 1 √ est de loi de Student à (n − p − 1) degrés de
V
liberté. n
Nous pouvons alors utiliser ces résultats pour calculer des intervalles de confiance et faire
des tests sur les paramètres inconnus.
6
Intervalle de confiance au niveau de confiance (1 − α) pour βi :
p p
[B̂i − tn−p−1,1−α/2 S Hii , B̂i + tn−p−1,1−α/2 S Hii ],
où tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 d’une v.a. de Student à (n − p − 1) degrés de
liberté.
Intervalle de confiance au niveau de confiance (1 − α) pour σ 2 :

S2 S2
[(n − p − 1) , (n − p − 1) ],
χ2n−p−1,1−α/2 χ2n−p−1,α/2
où χ2n−p−1,α/2 et χ2n−p−1,1−α/2 sont les quantiles respectivement d’ordre α/2 et 1 − α/2 d’une
v.a. de loi de χ2 à (n − p − 1) degrés de liberté. Remarquons qu’une v.a. de loi de χ2 étant
à valeurs positives, l’intervalle de confiance n’est pas symétrique.
Test d’hypothèse pour βi :

Nous souhaitons tester l’hypothèse H0 : βi = c contre H1 : βi 6= c, où c est une valeur fixée.
B̂i − c
Nous considérons alors la statistique de test Ti = √ 2 . Sous H0 , la v.a. Ti suit une loi de
S Hii
Student à (n − p − 1) d.d.l., d’après le corollaire ci-dessus. Nous acceptons donc l’hypothèse
H0 , avec un risque de première espèce α fixé, si et seulement si |Ti | < tn−p−1,1−α/2 . Dans le
cas contraire, nous rejetons l’hypothèse H0 et acceptons H1 .
Remarque : un cas particulier est celui où c = 0, i.e. nous testons l’hypothèse H0 : βi =
0. Ce cas particulier est important, car si nous acceptons H0 , cela signifie que la ième
variable explicative peut être retirée du modèle de régression linéaire et qu’elle n’a pas de
rôle explicatif significatif dans ce modèle.
Pour quantifier l’importance de chacune des variables explicatives, il est courant de calculer
la p-value associée à chaque variable, qui est définie par : pi = P [|T | > |Ti,obs |], où T est une
v.a. de loi de Student à (n − p − 1) d.d.l., et Ti,obs est la valeur observée pour la statistique
Ti dans le cas où c = 0.
En conséquence, si la ième variable explicative a une p-value supérieure à α, on peut la
retirer du modèle, avec un risque de première espèce de niveau α.
Les variables explicatives ayant les p-value les plus petites sont les plus significatives.
Il faut prendre garde cependant à l’interprétation de ces p-value lorsque les variables ex-
plicatives sont corrélées. En particulier, on ne peut pas supprimer simultanément toutes les
variables ayant une p-value supérieure à α. Les techniques de sélection de variables seront
étudiées dans le cours de modèles linéaires de Master 1.
Ce test dans le cas particulier c = 0 est réalisé par défaut dans la fonction lm de R pour
chacune des variables explicatives.
Test d’hypothèse pour σ 2 :

Nous souhaitons tester l’hypothèse H0 : σ = s contre H1 : σ 6= s, où s est une valeur fixée
strictement positive.
7
S2
Nous considérons alors la statistique de test X = (n − p − 1) . Sous H0 , la v.a. X suit
s2
2
une loi de χn−p−1 . Nous acceptons donc l’hypothèse H0 , avec un risque de première espèce
α fixé, si et seulement si χ2n−p−1,α/2 < X < χ2n−p−1,1−α/2 . Dans le cas contraire, nous rejetons
l’hypothèse H0 et acceptons H1 .
4 Prévisions pour le modèle linéaire gaussien

Une application usuelle des modèles de régression est de prévoir la valeur prise par la réponse
Y pour un nouvel individu pour lequel on connaı̂t seulement les valeurs des variables ex-
(0) (0)
plicatives x(0) = (1, x1 , . . . , xp ). La prévision naturelle est alors x(0) β que l’on estime par
la prévision ponctuelle
(0)
Ŷ (0) = x(0) B̂ = B̂0 + B̂1 x1 + . . . + B̂p x(0)
p .
Nous allons voir comment construire des intervalles de confiance et de prédiction associés,
en utilisant la proposition suivante :
Proposition 3 : Sous les hypothèses du modèle linéaire gaussien, nous avons les propriétés
suivantes :
a) Ŷ (0) = x(0) B̂ est de loi normale N (x(0) β, σ 2 x(0) (x0 x)−1 (x(0) )0 ).
Ŷ (0) − x(0) β
b) p est de loi de Student à (n − p − 1) degrés de liberté.
S 2 x(0) (x0 x)−1 (x(0) )0
Démonstration : La proposition se démontre comme la proposition 1 et son corollaire, en

remarquant que Ŷ (0) et S sont indépendantes. n
Nous en déduisons aisément un intervalle de confiance pour x(0) β :

Intervalle de confiance au niveau de confiance (1 − α) pour x(0) β :
q q
[Ŷ (0) − tn−p−1,1−α/2 S x(0) (x0 x)−1 (x(0) )0 , Ŷ (0) + tn−p−1,1−α/2 S x(0) (x0 x)−1 (x(0) )0 ],
liberté.
Cependant, x(0) β ne tient pas compte de l’aléa présent dans le modèle linéaire gaussien. Si
nous voulons rester conforme à ce modèle, nous devons considérer
Y (0) = x(0) β + W (0) ,
avec W (0) de loi normale N (0, σ 2 ) indépendante de (W (i) , i = 1, . . . , n).

Ŷ (0) − Y (0)
Nous pouvons montrer que p est de loi de Student à (n − p − 1)
S 2 (1 + x(0) (x0 x)−1 (x(0) )0 )
degrés de liberté.
8
Exercice 1 : démontrer cette propriété.
Nous en déduisons alors :
Intervalle de prédiction au niveau de confiance (1 − α) pour Y (0) :
q q
(0) (0)
[Ŷ − tn−p−1,1−α/2 S 1 + x (x x) (x ) , Ŷ + tn−p−1,1−α/2 S 1 + x(0) (x0 x)−1 (x(0) )0 ],
(0) 0 −1 (0) 0
liberté.
L’intervalle de prédiction est plus large que l’intervalle de confiance. Il prend mieux en
compte la dispersion des données, modélisée par l’aléa W présent dans le modèle linéaire
gaussien.
5 Qualité et validation du modèle linéaire gaussien

Bien entendu, les intervalles de confiance pour les paramètres et les prévisions reposent sur
les hypothèses du modèle linéaire gaussien. Ceci n’a donc de sens que si les hypothèses de
ce modèle sont bien vérifiées par les données. Il convient donc de construire des outils pour
mesurer la qualité du modèle choisi et vérifier si les hypothèses faites sont réalistes.
5.1 Qualité globale du modèle

Notons x1 , . . . , xp les vecteurs de IRn générés par les p variables explicatives observées sur les
n exemples et x0 = (1, . . . , 1) ∈ IRn . Nous avons démontré au début du cours que Ŷ est la
projection orthogonale de Y sur le sous-espace vectoriel F de IRn engendré par les vecteurs
n
1X
{x0 , x1 , . . . , xp }. Notons Ȳn = Yi et Ȳ = Ȳn u = (Ȳn , . . . , Ȳn ) ∈ IRn .
n i=1
Un bon modèle de régression est un modèle tel que les données observées Y soient proches
des valeurs théoriques prédites par le modèle Ŷ . Une façon de mesurer ceci est de quantifier
l’écart entre Y et sa projection Ŷ sur le sous-espace vectoriel F . Nous pouvons par exemple
considérer ||Ŷ − Y ||2 , mais l’interprétation de la valeur obtenue est délicate, car elle est liée
aussi à l’échelle des valeurs prises par Y . Nous pouvons également considérer l’angle θ entre
Y − Ȳ et Ŷ − Ȳ . Cet angle est compris entre −π/2 et π/2 et un angle proche de ±π/2 indique
un modèle de mauvaise qualité, alors qu’un angle proche de 0 indique de Y est proche de
son projeté Ŷ sur F . Nous définissons alors le coefficient de détermination R2 par :
||Ŷ − Ȳ ||2
R2 = cos(θ)2 = ∈ [0, 1].
||Y − Ȳ ||2
Un modèle de bonne qualité correspond à des valeurs de R2 proches de 1. Au contraire, si
R2 est proche de 0, cela veut dire que Y est quasiment dans l’orthogonal de F , le modèle est
donc inadapté, les variables (x1 , . . . , xp ) n’expliquent pas la variable Y .
9
Remarquons que le théorème de Pythagore nous donne :
||Y − Ȳ ||2 = ||Ŷ − Ȳ ||2 + ||Y − Ŷ ||2
n
X n
X n
X
2 2
(Yi − Ȳn ) = (Ŷi − Ȳn ) + (Yi − Ŷi )2
i=1 i=1 i=1
Cette formule peut être vue comme une formule de décomposition de la variance
SCT = SCE + SCR,
où SCT (respectivement SCE et SCR) représentent la Somme des Carrés Totale (respec-
tivement Expliquée par le modèle et Résiduelle). Le coefficient de détermination s’écrit
alors :
SCE SCR
R2 = =1− ,
SCT SCT
et représente la part de la variabilité expliquée par le modèle sur la variabilité totale de Y .
Exercice 2 : démontrer que pour p = 1 (une seule variable explicative), nous avons R2 = ρ2 ,
où ρ est le coefficient de corrélation linéaire entre les (x(i) ) et les (Y (i) ).
Le coefficient de détermination peut être utilisé pour comparer des modèles entre eux. Cepen-
dant, si on ajoute une variable explicative dans un modèle, le R2 ne peut qu’augmenter, le
R2 n’est donc pas adapté pour comparer entre eux des modèles avec un nombre différent de
variables. C’est pour cette raison que nous définissons le coefficient de détermination
ajusté
2 n − 1 SCR SCR/(n − p − 1) (n − 1)R2 − p
Ra = 1 − =1− =
n − p − 1 SCT SCT /(n − 1) n−p−1
En fait, le R2 s’écrit aussi
SCE SCR/n
R2 = =1− ,
SCT SCT /n
et SCT /n est un estimateur biaisé de var(Y ), tandis que SCR/n est un estimateur biaisé
de σ 2 , la variance du résidu. Dans Ra2 , on remplace ces estimateurs par les estimateurs non
biaisés et Ra2 s’interprète alors comme la proportion de variance expliquée par le modèle.
5.2 Analyse des résidus

L’hypothèse principale du modèle linéaire gaussien (3) est que les résidus (W (i) ) sont des
variables aléatoires indépendantes de loi normale centrée et variance σ 2 . Il convient donc de
vérifier que ces hypothèses sont vérifiées par les jeux de données considérées, pour pouvoir
utiliser les méthodes développées précédemment. Les résidus sont définis par
(i)
W (i) = Y (i) − (β0 + β1 x1 + . . . + βp x(i)
p ), i = 1, . . . , n,
mais bien entendu, ils ne peuvent être calculées, car les paramètres βj sont inconnus. On les
remplace donc par les résidus estimés
(i)
Ŵ (i) = Y (i) − (B̂0 + B̂1 x1 + . . . + B̂p x(i)
p ), i = 1, . . . , n.
10
Nous avons vu que Ŵ = Y − Ŷ = (I − A)Y , où A = x(x0 x)−1 x0 est la matrice de projection
orthogonale sur le sous-espace vectoriel F et I est la matrice identité de dimension n. La
matrice (I − A) est également la matrice de projection orthogonale sur l’orthogonal de F et
puisque Y = xβ + W et xβ ∈ F , nous pouvons donc aussi écrire
Ŵ = (I − A)W.
Nous en déduisons alors que Ŵ est un vecteur gaussien centré et de variance
σ 2 (I − A)0 (I − A) = σ 2 (I − A),
car (I − A) = (I − A)0 = (I − A)2 , la matrice (I − A) étant une matrice de projection

orthogonale. Remarquons qu’en général, les v.a. Ŵ (i) ne sont pas indépendantes, puisque la
matrice I − A n’est pas diagonale.
Afin d’éliminer la non-homogénéité de la variances des résidus estimés, nous pouvons alors
définir les résidus normalisés
Ŵ (i)
R̂(i) = √ , i = 1, . . . , n,
σ 1 − Aii
qui sont de loi normale centrée réduite. Cependant, σ étant inconnu, nous définissons les
résidus standardisés
Ŵ (i)
ε̂(i) = √ , i = 1, . . . , n,
S 1 − Aii
où nous avons remplacé σ par son estimateur S.
Remarquons que les v.a. ε̂(i) ne suivent pas une loi de Student (contrairement à ce que nous
avons obtenu dans le Corollaire 1 et la Proposition 3 en remplaçant σ par S), car les v.a. Ŵ (i)
ne sont pas indépendantes de S. Cependant, puisque les résidus normalisés sont de variance
unité et que S ≈ σ, il est usuel de considérer que les observations non probables pour le
modèle (d’un point de vue statistique) sont celles correspondant à des résidus standardisés
ε̂(i) ∈
/ [−2, 2]. En effet, une v.a. de loi normale centrée réduite (les résidus standardisés
sont proches des résidus normalisés), prend ses valeurs entre −2 et 2 avec une probabilité
supérieure à 0.95.
Nous avons montré que la variance des Ŵ est σ 2 (I − A), où A est la matrice de la projection
orthogonale sur F . Le coefficient Aii est appelé le levier de la ième observation. Nous avons
la propriété suivante :
n
X
Aii = trace(A) = rang(A) = p + 1.
i=1
p+1 p+1
Le levier empirique moyen vaut donc Aii = . Si un levier Aii vérifie Aii > 3 ,
n n
nous considérons que l’observation est anormale, dans le sens où elle a un poids trop élevé
dans le modèle : retirer cette observation peut conduire à une modification importante des
paramètres du modèle.
11
Il est important également de tester le caractère gaussien des résidus W (i) . Là encore,
le test sera réalisé sur les v.a. ε̂(i) , même si ce n’est pas complètement rigoureux, ces v.a.
n’étant qu’approximativement gaussienne, si les W (i) le sont. Différents tests de normalité
existent : parmi les plus courants, citons le test de Kolmogorov-Smirnov, le test de
Shapiro-Wilk et le test du χ2 . Pour ces tests, il s’agit de calculer, à partir de l’échantillon
des résidus, une statistique T dont on connait la loi sous l’hypothèse H0 que l’échantillon est
gaussien. Si la statistique T prend une valeur tobs non probable (i.e. tel que P [|T | > tobs ] <
α), alors l’hypothèse H0 est rejetée au niveau de rejet α (où α est assez petit, α = 0.01 ou
0.05 en pratique).
Il existe également un test graphique usuel pour vérifier que l’échantillon des résidus est
gaussien : il s’agit de la droite de Henry pour les résidus standardisés. Le principe
est le suivant : soient Z une v.a. de loi N (µ, σ 2 ), (Z1 , . . . , Zn ) un échantillon de v.a.i.i.d.
gaussiennes même loi que Z et (z1 , . . . , zn ) une réalisation de ces v.a.. Nous pouvons écrire
Z −µ zi − µ zi − µ
FZ (zi ) = P[Z ≤ zi ] = P[ ≤ ] = Φ( ),
σ σ σ
où Φ est la fonction de répartition de la loi normale centrée réduite. Nous en déduisons que
zi peut s’écrire sous la forme :
zi = µ + σΦ−1 (FZ (zi )).
Nous remplaçons alors la fonction de répartition FZ par la fonction de répartition empirique

de l’échantillon : n
1X
F̂n (z) = 1{Zi ≤z} ,
n i=1
qui converge presque surement vers FZ lorsque n tend vers l’infini.
La méthode de la droite de Henry consiste alors à tracer le nuage de points (Φ−1 (F̂n (ε̂(i) )), ε̂(i) ),
i = 1, . . . , n. Si l’échantillon est gaussien, alors les points doivent être proches de la droite
d’équation y = σx + µ.
Il est important également de vérifier la linéarité de la relation entre la variable à expliquer et

les variables explicatives. Pour cela, nous pouvons tracer les résidus estimés Ŵ (i) en fonction
de la valeur prédite Ŷ (i) . Si le nuage des résidus présente une structure déterministe, cela
signifie qu’un modèle non linéaire serait mieux adapté qu’un modèle linéaire.
Lorsque le modèle linéaire n’est pas adapté, il est possible parfois d’utiliser malgré tout les
techniques du modèle linéaire en effectuant un ou des changements de variable sur la variable
à expliquer ou les variables explicatives, pour se ramener à un modèle linéaire. L’exercice
ci-dessous en donne un exemple.
Exercice 3 : Pour effectuer des mesures électriques en biologie ou en médecine, on utilise

souvent des électrodes en contact avec un tissu biologique. Dans certains cas, le système
électrodes-tissu se comporte comme une capacité et une résistance en parallèle et la valeur de
la résistance R dépend de la fréquence F du courant traversant les électrodes. L’étalonnage
12
F 30 50 100 200 300 500 1000 2000 3000 5000 10000
R 1180 1010 690 540 450 350 240 160 130 95 58
d’une sonde formée d’une paire d’électrodes parcourues par un courant d’intensité fixe a
donné les résultats suivants (F en hertz, R en ohms) :
1) Tracer le nuage de point correspondant à ces observations et calculer le coefficient de
corrélation linéaire entre F et R. Un modèle linéaire gaussien du type
Ri = β0 + β1 Fi + Wi
serait-il satisfaisant ? Justifier la réponse.
2) On propose maintenant d’utiliser un modèle linéaire gaussien du type

1
Ri = β0 + β1 √ + Wi ,
Fi
où les Wi sont des variables aléatoires centrées, indépendantes et de loi normale de variance
σ2.
2.a) Ce modèle vous semble-t-il être adapté?
2.b) Donner une estimation ponctuelle des paramètres β0 , β1 et σ 2 ainsi que des intervalles
de confiance à 95% pour ces paramètres.
2.c) Utiliser le modèle précédent pour estimer la valeur de R correspondant à F = 50000.
On donnera les intervalles de prédiction et de confiance à 90% correspondant.
2.d) Peut-on supposer que β0 = 0 ? On répondra à l’aide d’un test statistique.
2.e) Les hypothèses du modèle linéaire gaussien sont-elles satisfaites ?
Nous pouvons également vérifier l’hypothèse d’homoscédacité des résidus, i.e. les résidus
W (i) ont la même variance. Pour cela, nous pouvons tracer le graphique des points |ε̂(i) | en
fonction des valeurs prédites Ŷ (i) et observer si l’ordre de grandeur de la dispersion des |ε̂(i) |
est homogène sur tout l’échantillon.
Références bibliographiques :
- P.A. Cornillon, E. Matzner-Lober, “Régression, théorie et application”, Ed. Springer (2007)
- G. Saporta, “Probabilités, analyse des données et statistique”, Ed. Technip (2011)
13

Cours Regression 2021

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Regression 2021

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITÉ DE BRETAGNE OCCIDENTALE Année 2021 - 2022

2 Cadre mathématique du modèle linéaire

2.1 Un cas particulier : la régression linéaire simple

dont nous cherchons les extrema en annulant les dérivées partielles de E :

En développant et en utilisant (2), nous obtenons

2.2 La régression linéaire multiple

Il est alors possible de calculer pour tout j = 0, . . . , p :

Ceci donne un système de p + 1 équations linéaires à p + 1 inconnues. En notant

ce système s’écrit sous la forme matricielle

où A0 désigne la transposée de la matrice A. Si la matrice carrée x0 x de taille (p + 1) × (p + 1)

E(β) = ||y − (β0 x0 + . . . + βp xp )||2 .

2.3 Premières propriétés probabilistes du modèle linéaire

3 Inférence sur les paramètres du modèle linéaire gaussien

c) est une conséquence du théorème de Cochran.

Théorème 2 (Cochran) : Soient E et F deux s.e.v. orthogonaux de IRn et Z de loi

Pour démontrer c), il suffit d’appliquer le théorème de Cochran à Y , avec Ŵ = ΠF ⊥ (Y ).

Nous en déduisons le corollaire suivant :

Démonstration : la propriété a) découle directement de la proposition.

Intervalle de confiance au niveau de confiance (1 − α) pour σ 2 :

Test d’hypothèse pour βi :

Test d’hypothèse pour σ 2 :

4 Prévisions pour le modèle linéaire gaussien

Démonstration : La proposition se démontre comme la proposition 1 et son corollaire, en

Nous en déduisons aisément un intervalle de confiance pour x(0) β :

Y (0) = x(0) β + W (0) ,

avec W (0) de loi normale N (0, σ 2 ) indépendante de (W (i) , i = 1, . . . , n).

5 Qualité et validation du modèle linéaire gaussien

5.1 Qualité globale du modèle

5.2 Analyse des résidus

Nous en déduisons alors que Ŵ est un vecteur gaussien centré et de variance

car (I − A) = (I − A)0 = (I − A)2 , la matrice (I − A) étant une matrice de projection

zi = µ + σΦ−1 (FZ (zi )).

Nous remplaçons alors la fonction de répartition FZ par la fonction de répartition empirique

Il est important également de vérifier la linéarité de la relation entre la variable à expliquer et

Exercice 3 : Pour effectuer des mesures électriques en biologie ou en médecine, on utilise

serait-il satisfaisant ? Justifier la réponse.

2) On propose maintenant d’utiliser un modèle linéaire gaussien du type

Vous aimerez peut-être aussi