Académique Documents
Professionnel Documents
Culture Documents
EURIA Licence 3
Régression linéaire
Franck Vermet
1 Introduction
L’objectif général de la régression est de construire un modèle permettant d’expliquer une
variable à expliquer Y en fonction de p variables explicatives X1 , . . . , Xp . L’origine du mot
régression vient de Francis Galton : en 1885, travaillant sur l’hérédité, il a développé une
théorie intitulée “regression toward mediocrity”, pour rendre compte qu’en moyenne, si un
père est plus petit que la moyenne, alors il y a de fortes chances que ce soit vrai aussi pour
son fils. Il est possible d’expliquer au moins partiellement la taille d’un individu à partir de
la taille de ses parents.
Cependant, l’origine de l’étude de la causalité entre des variables est plus ancienne et remonte
au milieu du 18ème siècle avec les travaux de R. Boscovich en 1757 : il propose alors une
méthode minimisant la somme des valeurs absolues entre un modèle de causalité et les
observations.
Enfin, la méthode d’estimation par moindres carrés, essentielle en régression, est due à
Legendre (1805), ou Gauss (1809), puisque ce dernier prétendait l’utiliser depuis 1795.
De manière générale, les méthodes de régression sont des méthodes dites d’apprentissage
statistique supervisé et supposent que l’on dispose d’observations pour lesquelles les variables
explicatives et la variables à expliquer sont connues. L’objectif est alors d’ajuster un modèle,
de calibrer ses paramètres, de façon que le modèle reproduise au mieux les observations
connues et soit capable de généraliser à d’autres observations pour laquelle la variable à
expliquer est inconnue.
Remarquons que la variable Y à expliquer peut être quantitative ou qualitative avec un
certain nombre de modalités. Dans ce dernier cas, nous parlerons plutôt de classification
supervisée et nous n’aborderons pas ce cas dans ce cours (voir en Master 1 dans les cours
de modèles linéaires et d’apprentissage statistique). Nous supposons donc désormais que
Y est une variable quantitative réelle. De même, les variables explicatives peuvent être
quantitatives ou qualitatives. Les variables qualitatives doivent alors être recodées à l’aide
de variables binaires représentant les différentes modalités (codage disjonctif complet). Nous
supposerons donc également désormais que les variables explicatives sont quantitatives à
valeurs réelles.
Bien entendu, le plus souvent, il n’existe pas de relation mathématique exacte entre les
variables explicatives et la variable Y . Il serait vain de chercher une relation déterministe de
la forme Y = f (X1 , . . . , Xp ), pour la simple raison que les variables explicatives n’expliquent
que partiellement la variable Y . Pour reprendre le premier exemple, connaitre la taille des
parents ne permet pas de prédire exactement la taille de leurs enfants. C’est la raison pour
laquelle un cadre probabiliste est naturel avec un modèle de la forme
1
Y = f (X1 , . . . , Xp ) + W,
où W est une variable aléatoire centrée de variance σ 2 finie.
Le choix de la fonction f est très important et définit la complexité du modèle retenu. Dans
le cadre de cours, nous considérons que f est une fonction linéaire, i.e. de la forme
f (X1 , . . . , Xp ) = β0 + β1 X1 + . . . + βp Xp .
Bien entendu, l’hypothèse d’une dépendance linéaire entre Y et les autres variables est parfois
inadaptée au problème considéré. Nous verrons l’an prochain des modèles plus complexes,
non linéaires, qui entrent dans le cadre de ce qu’on appelle aujourd’hui la data science, avec
par exemple le cas des réseaux de neurones, des arbres de régression, des forêts aléatoires ou
des méthodes de boosting.
L’avantage du modèle linéaire est sa simplicité, qui permet d’en avoir une compréhension
mathématique complète, sa robustesse et le fait qu’il soit facilement interprétable.
où L(u, v) est une fonction de perte mesurant l’écart entre u et v. Différents choix sont
possibles pour la fonction L, les choix classiques étant l’écart absolu
L(u, v) = |u − v|
et l’écart quadratique
L(u, v) = (u − v)2 .
2
Dans le cas de l’écart quadratique, cela conduit à la méthode des moindres carrés, i.e. nous
cherchons les paramètres βj minimisant
n
X (i)
E(β) = (y (i) − (β0 + β1 x1 + . . . + βp x(i) 2
p )) .
i=1
L’avantage de l’écart quadratique par rapport à l’écart absolu est qu’il permet une résolution
exacte et que considérer le carré permet de pénaliser les plus gros écarts.
n n
1 X (i) 1 X (i)
En notant ȳ = y et x̄1 = x , nous obtenons l’équation
n i=1 n i=1 1
β0 = ȳ − β1 x̄1 . (2)
De même,
n
∂ X (i) (i)
E = −2 x1 (y (i) − β0 − β1 x1 ) = 0.
∂β1 i=1
cov(x1 , y)
β1 = ,
v(x1 )
n n
1 X (i) (i) 1 X (i) 2
avec cov(x1 , y) = x1 y − x̄1 ȳ et v(x1 ) = (x ) −(x̄1 )2 . La quantité cov(x1 , y) est
n i=1 n i=1 1
(i)
la covariance empirique entre les échantillons (x1 ) et (y (i) ) et et v(x1 ) la variance empirique
(i) (i)
de l’échantillon (x1 ). Nous avons supposé que v(x1 ) 6= 0, i.e. toutes les observations (x1 )
ne sont pas identiques. Sous cette hypothèse, nous avons alors unicité de la solution.
La droite de régression de la variable y sur la variable x1 a alors pour équation
cov(x1 , y)
y − ȳ = (x1 − x̄1 ),
v(x1 )
3
qui peut aussi s’écrire en normalisant les variables
y − ȳ cov(x1 , y) (x1 − x̄1 )
p =p p ,
v(y) v(x1 )v(y) v(x1 )
i.e.
y − ȳ (x1 − x̄1 )
p = ρ(x1 , y) p ,
v(y) v(x1 )
(i)
où ρ(x1 , y) est le coefficient de corrélation linéaire entre les échantillons (x1 ) et (y (i) ). Par
l’inégalité de Cauchy-Schwarz, nous avons ρ(x1 , y) ∈ [−1, 1]. Une valeur de ρ(x1 , y) proche
de 1 indique que les variables x1 et y sont fortement corrélées positivement alors qu’une
valeur proche de −1 indique que les variables x1 et y sont fortement corrélées négativement.
Une valeur proche de 0 indique une faible corrélation linéaire. La valeur de ρ(x1 , y) est donc
un indicateur de la qualité globale du modèle linéaire.
(x0 x)β = x0 y,
β ∗ = (x0 x)−1 x0 y
Remarque : la matrice x0 x est inversible si elle est de rang p + 1, ce qui est vrai si ses p + 1
colonnes sont linéairement indépendantes. C’est le plus souvent vrai en pratique, notamment
car le nombre d’exemples n est en général plus grand que le nombre de variables p.
4
Une autre méthode, basée sur les projections orthogonales permet de trouver ce résultat.
En effet, si nous considérons les vecteurs colonnes de la matrice x comme des vecteurs de
IRn et F le sous-espace vectoriel de IRn engendré par ces (p+1) vecteurs x0 , . . . , xp , alors la
fonction E peut s’écrire sous la forme
Minimiser E revient à chercher le vecteur v ∈ F tel que ||y − v||2 soit minimal. La solution
est donnée par v ∗ = ΠF (y) = x(x0 x)−1 x0 y, projection orthogonale de y sur F , d’où on déduit
β ∗ = (x0 x)−1 x0 y.
Proposition 1 : Sous les hypothèses du modèle linéaire, nous avons E[B̂] = β (l’estimateur
est sans biais) et var(B̂) = σ 2 (x0 x)−1 .
Remarquons que var(B̂) désigne ici la matrice de covariance du vecteur B̂.
Démonstration : cela résulte du fait que E[Y ] = xβ et var(Y ) = σ 2 In . n
Théorème 1 (Gauss- Markov) : Sous les hypothèses du modèle linéaire, B̂ est, parmi les
estimateurs sans biais de β s’écrivant comme des fonctions linéaires des Y (i) , l’estimateur de
variance minimale.
Démonstration : ce sera fait en exercice. n
Pour pouvoir aller plus loin sur les résultats statistiques du modèle linéaire, nous allons
désormais faire une hypothèse classique sur la loi des résidus W (i) .
Proposition 2 : Sous les hypothèses du modèle linéaire gaussien, nous avons les propriétés
suivantes :
5
a) B̂ est de loi normale N (β, σ 2 (x0 x)−1 ).
b) Ŷ = xB̂ est de loi normale N (xβ, σ 2 x(x0 x)−1 x0 ).
S2
1
Pn
c) Notons Ŵ = Y − Ŷ et S 2 = n−p−1 2 2
i=1 (Ŵi ) . Alors (n − p − 1) σ 2 suit une loi de χn−p−1
et est indépendante de B̂ et Ŷ . La variable aléatoire S 2 est donc un estimateur sans biais
de σ 2 .
Démonstration : a) et b) sont des conséquences directes de la propriété suivante :
Lemme 1 : Si Z est un vecteur gaussien de loi N (µ, V ), alors pour toute matrice C telle
que le produit CZ soit défini, CZ est un vecteur gaussien de loi N (Cµ, CV C 0 ).
Corollaire 1 : Notons H = (x0 x)−1 . Sous les hypothèses du modèle linéaire gaussien, nous
avons les propriétés suivantes :
a) B̂i est de loi normale N (βi , σ 2 Hii ).
B̂i − βi
b) √ 2 est de loi de Student à n − p − 1 degrés de liberté.
S Hii
Nous pouvons alors utiliser ces résultats pour calculer des intervalles de confiance et faire
des tests sur les paramètres inconnus.
6
Intervalle de confiance au niveau de confiance (1 − α) pour βi :
p p
[B̂i − tn−p−1,1−α/2 S Hii , B̂i + tn−p−1,1−α/2 S Hii ],
où tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 d’une v.a. de Student à (n − p − 1) degrés de
liberté.
où χ2n−p−1,α/2 et χ2n−p−1,1−α/2 sont les quantiles respectivement d’ordre α/2 et 1 − α/2 d’une
v.a. de loi de χ2 à (n − p − 1) degrés de liberté. Remarquons qu’une v.a. de loi de χ2 étant
à valeurs positives, l’intervalle de confiance n’est pas symétrique.
Remarque : un cas particulier est celui où c = 0, i.e. nous testons l’hypothèse H0 : βi =
0. Ce cas particulier est important, car si nous acceptons H0 , cela signifie que la ième
variable explicative peut être retirée du modèle de régression linéaire et qu’elle n’a pas de
rôle explicatif significatif dans ce modèle.
Pour quantifier l’importance de chacune des variables explicatives, il est courant de calculer
la p-value associée à chaque variable, qui est définie par : pi = P [|T | > |Ti,obs |], où T est une
v.a. de loi de Student à (n − p − 1) d.d.l., et Ti,obs est la valeur observée pour la statistique
Ti dans le cas où c = 0.
En conséquence, si la ième variable explicative a une p-value supérieure à α, on peut la
retirer du modèle, avec un risque de première espèce de niveau α.
Les variables explicatives ayant les p-value les plus petites sont les plus significatives.
Il faut prendre garde cependant à l’interprétation de ces p-value lorsque les variables ex-
plicatives sont corrélées. En particulier, on ne peut pas supprimer simultanément toutes les
variables ayant une p-value supérieure à α. Les techniques de sélection de variables seront
étudiées dans le cours de modèles linéaires de Master 1.
Ce test dans le cas particulier c = 0 est réalisé par défaut dans la fonction lm de R pour
chacune des variables explicatives.
7
S2
Nous considérons alors la statistique de test X = (n − p − 1) . Sous H0 , la v.a. X suit
s2
2
une loi de χn−p−1 . Nous acceptons donc l’hypothèse H0 , avec un risque de première espèce
α fixé, si et seulement si χ2n−p−1,α/2 < X < χ2n−p−1,1−α/2 . Dans le cas contraire, nous rejetons
l’hypothèse H0 et acceptons H1 .
Nous allons voir comment construire des intervalles de confiance et de prédiction associés,
en utilisant la proposition suivante :
Proposition 3 : Sous les hypothèses du modèle linéaire gaussien, nous avons les propriétés
suivantes :
a) Ŷ (0) = x(0) B̂ est de loi normale N (x(0) β, σ 2 x(0) (x0 x)−1 (x(0) )0 ).
Ŷ (0) − x(0) β
b) p est de loi de Student à (n − p − 1) degrés de liberté.
S 2 x(0) (x0 x)−1 (x(0) )0
où tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 d’une v.a. de Student à (n − p − 1) degrés de
liberté.
Cependant, x(0) β ne tient pas compte de l’aléa présent dans le modèle linéaire gaussien. Si
nous voulons rester conforme à ce modèle, nous devons considérer
8
Exercice 1 : démontrer cette propriété.
Nous en déduisons alors :
Intervalle de prédiction au niveau de confiance (1 − α) pour Y (0) :
q q
(0) (0)
[Ŷ − tn−p−1,1−α/2 S 1 + x (x x) (x ) , Ŷ + tn−p−1,1−α/2 S 1 + x(0) (x0 x)−1 (x(0) )0 ],
(0) 0 −1 (0) 0
où tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 d’une v.a. de Student à (n − p − 1) degrés de
liberté.
L’intervalle de prédiction est plus large que l’intervalle de confiance. Il prend mieux en
compte la dispersion des données, modélisée par l’aléa W présent dans le modèle linéaire
gaussien.
||Ŷ − Ȳ ||2
R2 = cos(θ)2 = ∈ [0, 1].
||Y − Ȳ ||2
Un modèle de bonne qualité correspond à des valeurs de R2 proches de 1. Au contraire, si
R2 est proche de 0, cela veut dire que Y est quasiment dans l’orthogonal de F , le modèle est
donc inadapté, les variables (x1 , . . . , xp ) n’expliquent pas la variable Y .
9
Remarquons que le théorème de Pythagore nous donne :
||Y − Ȳ ||2 = ||Ŷ − Ȳ ||2 + ||Y − Ŷ ||2
n
X n
X n
X
2 2
(Yi − Ȳn ) = (Ŷi − Ȳn ) + (Yi − Ŷi )2
i=1 i=1 i=1
Cette formule peut être vue comme une formule de décomposition de la variance
SCT = SCE + SCR,
où SCT (respectivement SCE et SCR) représentent la Somme des Carrés Totale (respec-
tivement Expliquée par le modèle et Résiduelle). Le coefficient de détermination s’écrit
alors :
SCE SCR
R2 = =1− ,
SCT SCT
et représente la part de la variabilité expliquée par le modèle sur la variabilité totale de Y .
Exercice 2 : démontrer que pour p = 1 (une seule variable explicative), nous avons R2 = ρ2 ,
où ρ est le coefficient de corrélation linéaire entre les (x(i) ) et les (Y (i) ).
Le coefficient de détermination peut être utilisé pour comparer des modèles entre eux. Cepen-
dant, si on ajoute une variable explicative dans un modèle, le R2 ne peut qu’augmenter, le
R2 n’est donc pas adapté pour comparer entre eux des modèles avec un nombre différent de
variables. C’est pour cette raison que nous définissons le coefficient de détermination
ajusté
2 n − 1 SCR SCR/(n − p − 1) (n − 1)R2 − p
Ra = 1 − =1− =
n − p − 1 SCT SCT /(n − 1) n−p−1
En fait, le R2 s’écrit aussi
SCE SCR/n
R2 = =1− ,
SCT SCT /n
et SCT /n est un estimateur biaisé de var(Y ), tandis que SCR/n est un estimateur biaisé
de σ 2 , la variance du résidu. Dans Ra2 , on remplace ces estimateurs par les estimateurs non
biaisés et Ra2 s’interprète alors comme la proportion de variance expliquée par le modèle.
mais bien entendu, ils ne peuvent être calculées, car les paramètres βj sont inconnus. On les
remplace donc par les résidus estimés
(i)
Ŵ (i) = Y (i) − (B̂0 + B̂1 x1 + . . . + B̂p x(i)
p ), i = 1, . . . , n.
10
Nous avons vu que Ŵ = Y − Ŷ = (I − A)Y , où A = x(x0 x)−1 x0 est la matrice de projection
orthogonale sur le sous-espace vectoriel F et I est la matrice identité de dimension n. La
matrice (I − A) est également la matrice de projection orthogonale sur l’orthogonal de F et
puisque Y = xβ + W et xβ ∈ F , nous pouvons donc aussi écrire
Ŵ = (I − A)W.
σ 2 (I − A)0 (I − A) = σ 2 (I − A),
Ŵ (i)
R̂(i) = √ , i = 1, . . . , n,
σ 1 − Aii
qui sont de loi normale centrée réduite. Cependant, σ étant inconnu, nous définissons les
résidus standardisés
Ŵ (i)
ε̂(i) = √ , i = 1, . . . , n,
S 1 − Aii
où nous avons remplacé σ par son estimateur S.
Remarquons que les v.a. ε̂(i) ne suivent pas une loi de Student (contrairement à ce que nous
avons obtenu dans le Corollaire 1 et la Proposition 3 en remplaçant σ par S), car les v.a. Ŵ (i)
ne sont pas indépendantes de S. Cependant, puisque les résidus normalisés sont de variance
unité et que S ≈ σ, il est usuel de considérer que les observations non probables pour le
modèle (d’un point de vue statistique) sont celles correspondant à des résidus standardisés
ε̂(i) ∈
/ [−2, 2]. En effet, une v.a. de loi normale centrée réduite (les résidus standardisés
sont proches des résidus normalisés), prend ses valeurs entre −2 et 2 avec une probabilité
supérieure à 0.95.
Nous avons montré que la variance des Ŵ est σ 2 (I − A), où A est la matrice de la projection
orthogonale sur F . Le coefficient Aii est appelé le levier de la ième observation. Nous avons
la propriété suivante :
n
X
Aii = trace(A) = rang(A) = p + 1.
i=1
p+1 p+1
Le levier empirique moyen vaut donc Aii = . Si un levier Aii vérifie Aii > 3 ,
n n
nous considérons que l’observation est anormale, dans le sens où elle a un poids trop élevé
dans le modèle : retirer cette observation peut conduire à une modification importante des
paramètres du modèle.
11
Il est important également de tester le caractère gaussien des résidus W (i) . Là encore,
le test sera réalisé sur les v.a. ε̂(i) , même si ce n’est pas complètement rigoureux, ces v.a.
n’étant qu’approximativement gaussienne, si les W (i) le sont. Différents tests de normalité
existent : parmi les plus courants, citons le test de Kolmogorov-Smirnov, le test de
Shapiro-Wilk et le test du χ2 . Pour ces tests, il s’agit de calculer, à partir de l’échantillon
des résidus, une statistique T dont on connait la loi sous l’hypothèse H0 que l’échantillon est
gaussien. Si la statistique T prend une valeur tobs non probable (i.e. tel que P [|T | > tobs ] <
α), alors l’hypothèse H0 est rejetée au niveau de rejet α (où α est assez petit, α = 0.01 ou
0.05 en pratique).
Il existe également un test graphique usuel pour vérifier que l’échantillon des résidus est
gaussien : il s’agit de la droite de Henry pour les résidus standardisés. Le principe
est le suivant : soient Z une v.a. de loi N (µ, σ 2 ), (Z1 , . . . , Zn ) un échantillon de v.a.i.i.d.
gaussiennes même loi que Z et (z1 , . . . , zn ) une réalisation de ces v.a.. Nous pouvons écrire
Z −µ zi − µ zi − µ
FZ (zi ) = P[Z ≤ zi ] = P[ ≤ ] = Φ( ),
σ σ σ
où Φ est la fonction de répartition de la loi normale centrée réduite. Nous en déduisons que
zi peut s’écrire sous la forme :
12
F 30 50 100 200 300 500 1000 2000 3000 5000 10000
R 1180 1010 690 540 450 350 240 160 130 95 58
d’une sonde formée d’une paire d’électrodes parcourues par un courant d’intensité fixe a
donné les résultats suivants (F en hertz, R en ohms) :
1) Tracer le nuage de point correspondant à ces observations et calculer le coefficient de
corrélation linéaire entre F et R. Un modèle linéaire gaussien du type
Ri = β0 + β1 Fi + Wi
Nous pouvons également vérifier l’hypothèse d’homoscédacité des résidus, i.e. les résidus
W (i) ont la même variance. Pour cela, nous pouvons tracer le graphique des points |ε̂(i) | en
fonction des valeurs prédites Ŷ (i) et observer si l’ordre de grandeur de la dispersion des |ε̂(i) |
est homogène sur tout l’échantillon.
Références bibliographiques :
- P.A. Cornillon, E. Matzner-Lober, “Régression, théorie et application”, Ed. Springer (2007)
- G. Saporta, “Probabilités, analyse des données et statistique”, Ed. Technip (2011)
13