Vous êtes sur la page 1sur 10

Régression linéaire multiple — WikipédiaRégression linéaire multiple

Un article de Wikipédia, l'encyclopédie libre.


Aller à : navigation, rechercher Pour les articles homonymes, voir Régression.
Pour un article plus général, voir Régression linéaire.
Cet article ou cette section concernant les mathématiques doit être recyclé.
(indiquez la date de pose grâce au paramètre date)
Une réorganisation et une clarification du contenu est nécessaire. Discutez des
points à améliorer en page de discussion.La régression linéaire multiple est une
analyse statistique qui décrit les variations d'une variable endogène associée
aux variations de plusieurs variables exogènes.
Par exemple, une analyse de régression multiple peut révéler une relation
positive entre la demande de lunettes de soleil et différents caractères
démographiques (âge, salaire) des acheteurs de ce produit. La demande augmente
et baisse avec les variations de ces caractéristiques.
Sommaire
1 Modèle théorique
1.1 Estimation1.2 Notation matricielle1.3 Hypothèses
1.3.1 Régresseurs stochastiques2 La méthode des moindres carrés ordinaires
2.1 Estimateur des moindres carrés ordinaires2.2 Propriétés des estimateurs
2.2.1 Propriétés en échantillons finis2.2.2 Propriétés asymptotiques3
Évaluation
3.1 Matrice de variance-covariance des coefficients
3.1.1 Estimation de la variance du résidu3.1.2 Estimation de la matrice de
variance-covariance des coefficients3.2 Étude des coefficients
3.2.1 Distribution3.2.2 Intervalle de confiance et tests d'hypothèses3.3
Évaluation globale de la régression — Tableau d'analyse de variance
3.3.1 Tableau d'analyse de variance et coefficient de détermination3.3.2
Significativité globale du modèle4 Régression de séries temporelles5 Voir
aussi
5.1 Références6 Notes et références
6.1 Articles connexes7 LogicielsModèle théorique[modifier | modifier le code]La

régression linéaire multiple est une généralisation, à p variables explicatives,


de la régression linéaire simple.
Elle reste dans le cadre de la régression mathématique : étant donné un
échantillon ( Y i , X i 1 , … , X i p ) i ∈ [ [ 1 , n ] ] {\displaystyle
(Y_{i},X_{i1},\ldots ,X_{ip})_{i\in [\![1,n]\!]}} , on cherche à expliquer, avec
le plus de précision possible, les valeurs prises par Y i {\displaystyle Y_{i}}
, dite variable endogène, à partir d'une série de variables explicatives X i 1 ,
… , X i p {\displaystyle X_{i1},\ldots ,X_{ip}} . Le modèle théorique, formulé
en termes de variables aléatoires, prend la forme
Y i = a 0 + a 1 X i 1 + a 2 X i 2 + … + a p X i p + ε i , i = 1 , … , n
{\displaystyle Y_{i}=a_{0}+a_{1}X_{i1}+a_{2}X_{i2}+\ldots
+a_{p}X_{ip}+\varepsilon _{i},\qquad i=1,\ldots ,n}
où ε i {\displaystyle \varepsilon _{i}} est l'erreur du modèle qui exprime, ou
résume, l'information manquante dans l'explication linéaire des valeurs de Y i
{\displaystyle Y_{i}} à partir des X i 1 , … , X i p {\displaystyle
X_{i1},\ldots ,X_{ip}} (problème de spécifications, variables non prises en
compte, etc.). Les coefficients a 0 , a 1 , … , a p {\displaystyle
a_{0},a_{1},\ldots ,a_{p}} sont les paramètres à estimer.
Estimation[modifier | modifier le code]Lorsqu'on dispose de n observations ( y i
, x i 1 , … , x i p ) , i = 1 , … , n {\displaystyle (y_{i},x_{i1},\ldots
,x_{ip}),\,i=1,\ldots ,n} , qui sont des réalisations des variables aléatoires (
Y i , X i 1 , … , X i p ) {\displaystyle (Y_{i},X_{i1},\ldots ,X_{ip})} ,
l'équation de régression s'écrit
y i = a 0 + a 1 x i 1 + … + a p x i p + ε i i = 1 , … , n {\displaystyle
y_{i}=a_{0}+a_{1}x_{i1}+\ldots +a_{p}x_{ip}+\varepsilon _{i}\qquad i=1,\ldots
,n\,}
La problématique reste la même que pour la régression simple :
estimer les paramètres ( a i ) i ∈ { 0 , ⋯ , p } {\displaystyle (a_{i})_{i\in
\{0,\cdots ,p\}}} en exploitant les observations ;
évaluer la précision de ces estimateurs ;
mesurer le pouvoir explicatif du modèle ;
évaluer l'influence des variables dans le modèle :
globalement (les p variables en bloc) et,
individuellement (chaque variable) ;
évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction)
;
détecter les observations qui peuvent influencer exagérément les résultats
(points atypiques).
Notation matricielle[modifier | modifier le code]On peut adopter une écriture
condensée qui rend la lecture et la manipulation de l'ensemble plus facile. Les
équations suivantes
{ y 1 = a 0 + a 1 x 1 , 1 + … + a p x 1 , p + ε 1 y 2 = a 0 + a 1 x 2 , 1 + …
+ a p x 2 , p + ε 2 ⋯ y n = a 0 + a 1 x n , 1 + … + a p x n , p + ε n
{\displaystyle {\begin{cases}y_{1}=a_{0}+a_{1}x_{1,1}+\ldots
+a_{p}x_{1,p}+\varepsilon _{1}\\y_{2}=a_{0}+a_{1}x_{2,1}+\ldots
+a_{p}x_{2,p}+\varepsilon _{2}\\\cdots \\y_{n}=a_{0}+a_{1}x_{n,1}+\ldots
+a_{p}x_{n,p}+\varepsilon _{n}\end{cases}}}
peuvent être résumées avec la notation matricielle
( y 1 ⋮ y n ) = ( 1 x 1 , 1 ⋯ x 1 , p ⋮ ⋮ ⋱ ⋮ 1 x n , 1 ⋯ x n , p ) ( a 0
1 ⋮ a p ) + ( ϵ 1 ⋮ ϵ n ) {\displaystyle {\begin{pmatrix}y_{1}\\\vdots
\\y_{n}\end{pmatrix}}={\begin{pmatrix}1&x_{1,1}&\cdots &x_{1,p}\\\vdots
&\vdots &\ddots &\vdots \\1&x_{n,1}&\cdots
&x_{n,p}\end{pmatrix}}{\begin{pmatrix}a_{0}\\a_{1}\\\vdots
\\a_{p}\\\end{pmatrix}}+{\begin{pmatrix}\epsilon _{1}\\\vdots \\\epsilon
_{n}\\\end{pmatrix}}}
Soit de manière compacte :
y = X a + ϵ {\displaystyle y=Xa+\epsilon \,}
avec
y est de dimension (n, 1)
X est de dimension (n, p+1)
a est de dimension (p+1, 1)
ε est de dimension (n, 1)
La première colonne de la matrice X sert à indiquer que la régression est
effectuée avec constante.
Hypothèses[modifier | modifier le code]Comme en régression simple, les
hypothèses permettent de déterminer : les propriétés des estimateurs (biais,
convergence) ; et leurs lois de distributions (pour les estimations par
intervalle et les tests d'hypothèses).
Il existe principalement deux catégories d'hypothèses :
Hypothèses stochastiques
H 1 : {\displaystyle \mathrm {H_{1}:} \,} Les X j sont déterminées sans
erreurs, j = 1, …, p ;
H 2 : E ( ϵ i ) = 0 {\displaystyle \mathrm {H_{2}:} \ E(\epsilon _{i})=0\,}
Le modèle est bien spécifié en moyenne ;
H 3 : Var ( ϵ i ) = σ 2 ∀ i {\displaystyle \mathrm {H_{3}:} \
{\text{Var}}(\epsilon _{i})=\sigma ^{2}\ \forall {i}\,} Homoscédasticité des
erreurs (variance constante)
H 4 : c o v ( ϵ i , ϵ j ) = 0 ∀ i ≠ j {\displaystyle \mathrm {H_{4}:} \
\mathrm {cov} (\epsilon _{i},\epsilon _{j})=0\ \forall {i\neq j}\,} Pas
d'autocorrélation des erreurs.
H 5 : c o v ( X i , ϵ j ) = 0 ∀ i ≠ j {\displaystyle \mathrm {H_{5}:} \
\mathrm {cov} (X_{i},\epsilon _{j})=0\ \forall {i\neq j}\,} Les erreurs sont
linéairement indépendantes des variables exogènes.
H 6 : ϵ ∼ N n ( 0 , σ 2 I n ) {\displaystyle \mathrm {H_{6}:} \ \epsilon
\sim {\mathcal {N}}_{n}(0,\sigma ^{2}I_{n})\,} Les erreurs suivent une loi
normale multidimensionnelle ( H 6 {\displaystyle \mathrm {H_{6}} } implique
les hypothèses H 2 {\displaystyle \mathrm {H_{2}} } , H 3 {\displaystyle
\mathrm {H_{3}} } et H 4 {\displaystyle \mathrm {H_{4}} } la réciproque
étant fausse car les 3 hypothèses réunies n'impliquent pas que ϵ
{\displaystyle \ \epsilon \ } soit un vecteur gaussien).
Hypothèses structurelles
H 7 : {\displaystyle \mathrm {H_{7}:} \,} absence de colinéarité entre les
variables explicatives, i.e. X TX est régulière, det(X TX) ≠ 0 et (X TX)−1
existe (remarque : c'est équivalent à rang(X) = rang(X TX) = p + 1) ;
H 8 : 1 n X T X {\displaystyle \mathrm {H_{8}:} \,{\frac {1}{n}}X^{T}X} tend
vers une matrice finie non singulière Q lorsque n → +∞ ;
H 9 : n > p + 1 {\displaystyle \mathrm {H_{9}:} \ n>p+1\,} Le nombre
d'observations est supérieur au nombre de variables + 1 (la constante). S'il y
avait égalité, le nombre d'équations serait égal au nombre d'inconnues aj, la
droite de régression passerait par tous les points, nous serions face à un
problème d'interpolation linéaire (voir Interpolation numérique).
Écriture matricielle de l'hypothèse H 6 {\displaystyle \mathrm {H_{6}} }
H 2 : E ( ϵ ) = E ( ϵ 1 ⋮ ϵ n ) = ( 0 ⋮ 0 ) {\displaystyle \mathrm {H_{2}:} \
E(\epsilon )=E{\begin{pmatrix}\epsilon _{1}\\\vdots \\\epsilon
_{n}\end{pmatrix}}={\begin{pmatrix}0\\\vdots \\0\end{pmatrix}}}
Sous l'hypothèse d'homoscedasticité et d'absence d'auto-corrélation, la matrice
de variance-covariance du vecteur des erreurs peut s'écrire :
H 3 et H 4 : c o v ( ϵ ) = σ 2 I n = σ 2 ( 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ ⋯ 1
)
= ( σ 2 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ ⋯ σ 2 ) {\displaystyle \mathrm {H_{3}\
{\mbox{et}}\ H_{4}:} \ \mathrm {cov} (\epsilon )=\sigma ^{2}I_{n}=\sigma
^{2}{\begin{pmatrix}1&0&\cdots &0\\0&1&\cdots &0\\\vdots &&\ddots &\vdots
\\0&\cdots &\cdots &1\end{pmatrix}}={\begin{pmatrix}\sigma ^{2}&0&\cdots
&0\\0&\sigma ^{2}&\cdots &0\\\vdots &&\ddots &\vdots \\0&\cdots &\cdots &\sigma
^{2}\end{pmatrix}}}
Régresseurs stochastiques[modifier | modifier le code]Dans certains cas,
l'hypothèse (H1) est intenable : les régresseurs X sont supposés aléatoires.
Mais dans ce cas, on suppose que X est aléatoire mais est indépendant de l'aléa
ε {\displaystyle \varepsilon } . On remplace alors l'hypothèse (H2) par une
hypothèse sur l'espérance conditionnelle :
H 2 : E ( ϵ i ∣ X ) = 0 {\displaystyle \mathrm {H_{2}:} \ E(\epsilon
_{i}\mid X)=0\,}
De même, il faudrait changer en conséquence les hypothèses (H3), (H4) et aussi
(H5).
La méthode des moindres carrés ordinaires[modifier | modifier le code]Estimateur
des moindres carrés ordinaires[modifier | modifier le code]Du modèle complet :
y i = a 0 + a 1 x i , 1 + ⋯ + a p x i , p + ϵ i {\displaystyle
y_{i}=a_{0}+a_{1}x_{i,1}+\cdots +a_{p}x_{i,p}+\epsilon _{i}\,}
On va estimer les paramètres et obtenir:
y i ^ = a ^ 0 + a ^ 1 x i , 1 + ⋯ + a ^ p x i , p {\displaystyle {\hat
{y_{i}}}={\hat {a}}_{0}+{\hat {a}}_{1}x_{i,1}+\cdots +{\hat
{a}}_{p}{x}_{i,p}\,}
Les résidus estimés sont la différence entre la valeur de y observée et estimée.
Soit :
Définition — ϵ ^ i ≡ y i − y ^ i {\displaystyle {\hat {\epsilon }}_{i}\equiv
y_{i}-{\hat {y}}_{i}\,}
Le principe des moindres carrés consiste à rechercher les valeurs des paramètres
qui minimisent la somme des carrés des résidus.
min ∑ i = 1 n ϵ ^ i 2 = min a ^ 0 , . , a ^ p ∑ i = 1 n ( y i − a ^ 0 − a ^ 1
x i , 1 − ⋯ − a ^ p x i , p ) 2 {\displaystyle \min \sum _{i=1}^{n}{\hat
{\epsilon }}_{i}^{2}=\min _{{\hat {a}}_{0},.,{\hat {a}}_{p}}\sum
_{i=1}^{n}(y_{i}-{\hat {a}}_{0}-{\hat {a}}_{1}x_{i,1}-\cdots -{\hat
{a}}_{p}x_{i,p})^{2}} .
Ce qui revient à rechercher les solutions de ∂ ( ∑ ϵ ^ i 2 ) ∂ a ^ j = 0
{\displaystyle {\frac {\partial (\sum {\hat {\epsilon }}_{i}^{2})}{\partial
{\hat {a}}_{j}}}=0\,} . Nous avons j =p + 1 équations, dites équations normales,
à résoudre.
La solution obtenue est l'estimateur des moindres carrés ordinaires, il s'écrit
:
Théorème — a ^ = ( X T X ) − 1 X T Y {\displaystyle {\hat
{a}}=(X^{T}X)^{-1}X^{T}Y\qquad \,} est l'estimateur qui minimise la somme des
carrés des résidus.
avec X T {\displaystyle X^{T}} la transposée de X
Démonstration
∂ ( ∑ ϵ ^ i 2 ) ∂ a ^ j = 0 {\displaystyle {\frac {\partial (\sum {\hat
{\epsilon }}_{i}^{2})}{\partial {\hat {a}}_{j}}}=0}
En passant l'opérateur de dérivation dans la somme, on a ∀ j = 0 , ⋯ , p
{\displaystyle \forall {j=0,\cdots ,p}} :
∑ i = 1 n x i , j ( y i − a ^ 0 − a ^ 1 x i , 1 − ⋯ − a ^ p x i , p ) = 0
{\displaystyle \sum _{i=1}^{n}x_{i,j}(y_{i}-{\hat {a}}_{0}-{\hat
{a}}_{1}x_{i,1}-\cdots -{\hat {a}}_{p}x_{i,p})=0}
Il suffit alors d'écrire cette dernière relation sous forme vectorielle :
X T ( Y − X a ^ ) = 0 {\displaystyle X^{T}(Y-X{\hat {a}})=0\,}
X T X a ^ = X T Y {\displaystyle X^{T}X{\hat {a}}=X^{T}Y}
a ^ = ( X T X ) − 1 X T Y {\displaystyle {\hat {a}}=(X^{T}X)^{-1}X^{T}Y}
Remarques:
Pourquoi minimiser la somme des carrés plutôt que la simple somme? Cela tient,
en partie, au fait que la moyenne de ces résidus sera 0, et donc que nous
disposerons de résidus positifs et négatifs. Une simple somme les annulerait,
ce qui n'est pas le cas avec les carrés.
si les x j sont centrés, X TX correspond à la matrice de variance-covariance
des variables exogènes ; s'ils sont centrés et réduits, X TX correspond à la
matrice de corrélation.
Interprétation géométrique, algébrique et statistique de l'estimateur MCO
L'estimateur MCO correspond à une projection orthogonale du vecteur Y sur
l'espace formé par les vecteurs X.
L'estimateur MCO correspond à une matrice inverse généralisée du système Y = X
a {\displaystyle Y=Xa} pour mettre a en évidence. En effet, si on multiplie à
gauche par l'inverse généralisée ( X T X ) − 1 X ′ {\displaystyle
(X^{T}X)^{-1}X'} on a :
( X T X ) − 1 X T Y = ( X T X ) − 1 X T X a = a {\displaystyle
(X^{T}X)^{-1}X^{T}Y=(X^{T}X)^{-1}X^{T}Xa=a}
L'estimateur MCO est identique à l'estimateur obtenu par le principe du
maximum de vraisemblance.
Propriétés des estimateurs[modifier | modifier le code]Si les hypothèses
initiales sont respectées, l'estimateur des MCO (Moindres Carrés Ordinaires)
possède d'excellentes propriétés.
Propriétés en échantillons finis[modifier | modifier le code]Propriété —
L'estimateur MCO est sans biais, c.-à-d. E ( a ^ ) = a {\displaystyle
\operatorname {E} ({\hat {a}})=a} , sous les hypothèses H 1 , H 2 , H 5
{\displaystyle H_{1},H_{2},H_{5}}
Preuve
E [ a ^ ] = E [ ( X T X ) − 1 X T Y ] = E [ a + ( X T X ) − 1 X T ε ] = a
+ ( X T X ) − 1 X T E [ ε ] sous H 1 et H 5 = a + 0 sous H 2 = a
{\displaystyle {\begin{aligned}\operatorname {E} [{\hat {a}}]&=\operatorname {E}
\left[(X^{T}X)^{-1}X^{T}Y\right]\\&=\operatorname {E}
\left[a+(X^{T}X)^{-1}X^{T}\varepsilon
\right]\\&=a+(X^{T}X)^{-1}X^{T}\operatorname {E} [\varepsilon ]\qquad {\text{
sous }}H_{1}{\text{ et }}H_{5}\\&=a+0\qquad \qquad \qquad \qquad {\text{ sous
}}H_{2}\\&=a\end{aligned}}} Cette propriété se base seulement sur les
hypothèses d'espérance nulle des résidus. La présence d'autocorrélation ou
d'hétéroscédasticité n'affecte pas ce résultat.
Propriété — L'estimateur MCO est le meilleur estimateur linéaire sans biais,
sous les hypothèses H 1 {\displaystyle H_{1}} à H 5 {\displaystyle H_{5}}
Ceci signifie qu'il n'existe pas d'estimateur linéaire sans biais de a qui ait
une variance plus petite. Cette propriété en anglais est désignée par BLUE, pour
best linear unbiased estimator. La preuve est donnée par le théorème de
Gauss-Markov.
Propriété — L'estimateur MCO est distribué selon une loi normale a ^ ∼ N ( a , σ
2 ( X T X ) − 1 ) {\displaystyle {\hat {a}}\sim {\mathcal {N}}(a,\sigma
^{2}(X^{T}X)^{-1})} sous les hypothèses H 1 , H 2 {\displaystyle H_{1},H_{2}} ,
et H 6 {\displaystyle H_{6}}
Propriétés asymptotiques[modifier | modifier le code]Propriété — L'estimateur
MCO est convergent en probabilité, c.-à-d. a ^ → p a {\displaystyle {\hat
{a}}{\xrightarrow {p}}a} , sous les hypothèses H 6 {\displaystyle H_{6}} , et H
8 {\displaystyle H_{8}}
Preuve
Récrivons: a ^ = a + ( ( X T X ) n ) − 1 X ′ ε n {\displaystyle {\hat
{a}}=a+\left({\frac {(X^{T}X)}{n}}\right)^{-1}{\frac {X'\varepsilon }{n}}}
Prenons la limite en probabilité : plim a ^ = a + plim ( ( ( X T X ) n ) − 1
X T ε n ) {\displaystyle \operatorname {plim} \,{\hat {a}}=a+\operatorname
{plim} \left(\left({\frac {(X^{T}X)}{n}}\right)^{-1}{\frac {X^{T}\varepsilon
}{n}}\right)}
Comme on a fait l'hypothèse H 8 {\displaystyle H_{8}} que X T X n
{\displaystyle {\frac {X^{T}X}{n}}} tend vers une matrice Q définie positive,
la limite devient:
plim a ^ = a + Q − 1 plim ( X T ε n ) {\displaystyle \operatorname {plim}
\,{\hat {a}}=a+Q^{-1}\operatorname {plim} \left({\frac {X^{T}\varepsilon
}{n}}\right)}
Il reste alors à étudier le comportement de X T ε n {\displaystyle {\frac
{X^{T}\varepsilon }{n}}} . Sous l'hypothèse H6, (ou plutôt sur une forme plus
restrictive E [ x i ε i ] = 0 {\displaystyle \operatorname {E}
[x_{i}\varepsilon _{i}]=0} ) on peut montrer que son espérance est nulle, et
que sa variance tend asymptotiquement vers 0, ce qui implique qu'il converge
en moyenne quadratique vers 0, et donc qu'il converge en probabilité vers 0.
On a donc finalement :
plim a ^ = a + Q − 1 ⋅ 0 = a {\displaystyle \operatorname {plim} \,{\hat
{a}}=a+Q^{-1}\cdot 0=a} Propriété — L'estimateur MCO suit asymptotiquement une
loi normale a ^ ∼ N ( a , σ 2 Q − 1 n ) {\displaystyle {\hat {a}}\sim {\mathcal
{N}}(a,{\frac {\sigma ^{2}Q^{-1}}{n}})} sous les hypothèses H1 à H5 et H8
Ce résultat est obtenu sans l'hypothèse de normalité des résidus (H6).
Évaluation[modifier | modifier le code]Pour réaliser les estimations par
intervalle et les tests d'hypothèses, la démarche est presque toujours la même
en statistique paramétrique :
définir l'estimateur (â dans notre cas) ;
calculer son espérance mathématique (ici E(â ) = a) ;
calculer sa variance (ou sa matrice de variance covariance) et produire son
estimation ;
et enfin déterminer sa loi de distribution (en général et sous l'hypothèse
nulle des tests).
Matrice de variance-covariance des coefficients[modifier | modifier le code]La
matrice de variance-covariance des coefficients est importante car elle
renseigne sur la variance de chaque coefficient estimé, et permet de faire des
tests d'hypothèse, notamment de voir si chaque coefficient est significativement
différent de zéro. Elle est définie par :
Var ( a ^ ) ≡ Σ = E [ ( a ^ − a ) ( a ^ − a ) T ] {\displaystyle
\operatorname {Var} ({\hat {a}})\equiv \Sigma =\operatorname {E} [({\hat
{a}}-a)({\hat {a}}-a)^{T}]}
Sous les hypothèses d'espérance nulle, d'absence d'autocorrélation et
d'homoscédasticité des résidus (H1 à H5), on a :
Var ( a ^ ) = σ 2 ( X ′ X ) − 1 {\displaystyle \operatorname {Var} ({\hat
{a}})=\sigma ^{2}(X'X)^{-1}}
Preuve
en récrivant: a ^ = a + ( X T X ) − 1 X T ε {\displaystyle {\hat
{a}}=a+(X^{T}X)^{-1}X^{T}\varepsilon } , on obtient que:
Var [ a ^ ] = Var [ ( X T X ) − 1 X T ε ] = ( X T X ) − 1 X T Var [ ε ] X
( X T X ) − 1 = ( X T X ) − 1 X T σ 2 I X ( X T X ) − 1 sous H 3 et H 4 = σ
2 ( X T X ) − 1 X T X ( X T X ) − 1 = σ 2 ( X T X ) − 1 {\displaystyle
{\begin{aligned}\operatorname {Var} [{\hat {a}}]&=\operatorname {Var}
\left[(X^{T}X)^{-1}X^{T}\varepsilon \right]\\&=(X^{T}X)^{-1}X^{T}\operatorname
{Var} [\varepsilon ]X(X^{T}X)^{-1}\\&=(X^{T}X)^{-1}X^{T}\sigma
^{2}IX(X^{T}X)^{-1}\qquad {\text{ sous }}H_{3}{\text{ et }}H_{4}\\&=\sigma
^{2}(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1}\end{aligned}}}
Cette formule ne s'applique cependant que dans le cas où les résidus sont
homoscédastiques et sans auto-corrélation, ce qui permet d'écrire la matrice des
erreurs comme :
Cov [ ε ] = σ 2 I n {\displaystyle {\textrm {Cov}}[\varepsilon ]=\sigma
^{2}I_{n}\,}
S'il y a de l'hétéroscédasticité ou de l'auto-corrélation, et donc Cov [ ε ] ≠ σ
2 I n {\displaystyle {\textrm {Cov}}[\varepsilon ]\neq \sigma ^{2}I_{n}} , il
est possible de rectifier la matrice de variance-covariance estimée par :
la matrice de variance-covariance de White (ou Eicker-White (1967, 1980)),
consistante en cas d'hétéroscédasticité (en anglais HC pour Heteroskedasticity
Consistent).
la matrice de variance-covariance de Newey-West (1987), consistante en cas
d'hétéroscédasticité et d'auto-corrélation (en anglais HAC pour
Heteroskedasticity and Autocorrelation Consistent).
Estimation de la variance du résidu[modifier | modifier le code]Pour la variance
du résidu σ 2 ≡ Var [ ε ] {\displaystyle \sigma ^{2}\equiv \operatorname {Var}
[\varepsilon ]} , on peut utiliser l'estimateur sans biais construit à partir de
la variance des résidus observés :
s 2 ≡ σ ^ 2 = 1 n − p − 1 ∑ i = 1 N ε ^ i 2 {\displaystyle s^{2}\equiv {\hat
{\sigma }}^{2}={\frac {1}{n-p-1}}\sum _{i=1}^{N}{\hat {\varepsilon }}_{i}^{2}}

Les ε ^ {\displaystyle {\hat {\varepsilon }}} correspondent aux résidus


observés : ε ^ = Y − Y ^ {\displaystyle {\hat {\varepsilon }}=Y-{\hat {Y}}} .
On remarque deux choses par rapport à l'estimateur classique de la variance :
s n − 1 2 ≡ σ ^ 2 = 1 n − 1 ∑ i = 1 n ( y i − y ¯ ) 2 {\displaystyle
s_{n-1}^{2}\equiv {\hat {\sigma }}^{2}={\frac {1}{n-1}}\sum
_{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}} ,
on n'inclut pas l'espérance des résidus, car celle-ci est supposée être de
zéro (selon H 2 {\displaystyle H_{2}} ). Surtout, les résidus du modèle ont
exactement une moyenne de zéro lorsqu'une constante est introduite dans le
modèle.
La somme des carrés est divisée par n - p - 1 = n - (p + 1) et non par n-1. En
fait, n-p-1 correspond aux degrés de liberté du modèle (le nombre
d'observations moins le nombre de coefficients à estimer). On remarque
effectivement que E ( ε ^ ′ ε ^ ) = σ 2 ( n − p − 1 ) {\displaystyle
\operatorname {E} ({\hat {\varepsilon }}'{\hat {\varepsilon }})=\sigma
^{2}(n-p-1)} .
Il existe également un autre estimateur, obtenu par la méthode du maximum de
vraisemblance, qui est cependant biaisé :
s 2 ≡ σ ^ 2 = 1 n ∑ i = 1 N ε ^ i 2 {\displaystyle s^{2}\equiv {\hat {\sigma
}}^{2}={\frac {1}{n}}\sum _{i=1}^{N}{\hat {\varepsilon }}_{i}^{2}}
Estimation de la matrice de variance-covariance des coefficients[modifier |
modifier le code]Il suffit de remplacer la variance théorique des résidus, σ 2
{\displaystyle \sigma ^{2}} , par son estimateur sans biais des moindres carrés
: s 2 ≡ σ ^ 2 = 1 n − p − 1 ∑ i = 1 N ε i 2 {\displaystyle s^{2}\equiv {\hat
{\sigma }}^{2}={\frac {1}{n-p-1}}\sum _{i=1}^{N}\varepsilon _{i}^{2}}
L'estimateur de la matrice de variance-covariance des résidus devient :
Var ^ [ a ^ ] ≡ Σ ^ a ^ = σ ^ 2 ( X T X ) − 1 {\displaystyle {\widehat
{\operatorname {Var} }}[{\hat {a}}]\equiv {\hat {\Sigma }}_{\hat {a}}={\hat
{\sigma }}^{2}(X^{T}X)^{-1}}
La variance estimée σ ^ a ^ j 2 {\displaystyle {\hat {\sigma }}_{{\hat
{a}}_{j}}^{2}} de l'estimation du paramètre â j est lue sur la diagonale
principale de cette matrice.
Étude des coefficients[modifier | modifier le code]Après avoir obtenu
l'estimateur, son espérance et une estimation de sa variance, il ne reste plus
qu'à calculer sa loi de distribution pour produire une estimation par intervalle
et réaliser des tests d'hypothèses.
Distribution[modifier | modifier le code]En partant de l'hypothèse
ϵ i ∼ N ( 0 , σ 2 ) {\displaystyle \epsilon _{i}\sim {\mathcal {N}}(0,\sigma
^{2})\,} ,
on peut montrer
a ^ j − a j σ a ^ j ∼ N ( 0 , 1 ) {\displaystyle {\frac {{\hat
{a}}_{j}-a_{j}}{\sigma _{{\hat {a}}_{j}}}}\sim {\mathcal {N}}(0,1)}
( n − p − 1 ) σ ^ a ^ j 2 σ a ^ j 2 ∼ χ n − p − 1 2 {\displaystyle
(n-p-1){\frac {{\hat {\sigma }}_{{\hat {a}}_{j}}^{2}}{\sigma _{{\hat
{a}}_{j}}^{2}}}\sim \chi _{n-p-1}^{2}}
Le rapport d'une loi normale et de la racine carrée d'une loi du χ² normalisée
par ses degrés de liberté aboutit à une loi de Student. On en déduit donc la
statistique :
t = a ^ j − a j σ ^ a ^ j ∼ T ( n − p − 1 ) {\displaystyle t={\frac {{\hat
{a}}_{j}-a_{j}}{{\hat {\sigma }}_{{\hat {a}}_{j}}}}\sim \mathrm {T} (n-p-1)}
elle suit une loi de Student à (n - p - 1) degrés de liberté.
Intervalle de confiance et tests d'hypothèses[modifier | modifier le code]À
partir de ces informations, il est possible de calculer les intervalles de
confiance des estimations des coefficients.
Il est également possible de procéder à des tests d'hypothèses, notamment les
tests d'hypothèses de conformité à un standard. Parmi les différents tests
possibles, le test de nullité du coefficient (H0 : a j = 0, contre H1 : a j ≠ 0)
tient un rôle particulier : il permet de déterminer si la variable x j joue un
rôle significatif dans le modèle. Il faut néanmoins être prudent quant à ce
test. L'acceptation de l'hypothèse nulle peut effectivement indiquer une absence
de corrélation entre la variable incriminée et la variable endogène ; mais il
peut également résulter de la forte corrélation de x j avec une autre variable
exogène, son rôle est masqué dans ce cas, laissant à croire une absence
d'explication de la part de la variable.
Évaluation globale de la régression — Tableau d'analyse de variance[modifier |
modifier le code]Tableau d'analyse de variance et coefficient de
détermination[modifier | modifier le code]L'évaluation globale de la pertinence
du modèle de prédiction s'appuie sur l'équation d'analyse de variance SCT = SCE
+ SCR, où
SCT, somme des carrés totaux, traduit la variabilité totale de l'endogène ;
SCE, somme des carrés expliqués, traduit la variabilité expliquée par le
modèle ;
SCR, somme des carrés résiduels correspond à la variabilité non-expliquée par
le modèle.
Toutes ces informations sont résumées dans un tableau, le tableau d'analyse de
variance.
Source de variationSomme des carrésDegrés de libertéCarrés moyens
ExpliquéeS C E = ∑ i ( y ^ i − y ¯ ) 2 {\displaystyle SCE=\sum _{i}({\hat
{y}}_{i}-{\bar {y}})^{2}} pC M E = S C E p {\displaystyle CME={\frac
{SCE}{p}}}
RésiduelleS C R = ∑ i ( y i − y ^ i ) 2 {\displaystyle SCR=\sum
_{i}(y_{i}-{\hat {y}}_{i})^{2}} n - p - 1C M R = S C R n − p − 1
{\displaystyle CMR={\frac {SCR}{n-p-1}}}
TotaleS C T = ∑ i ( y i − y ¯ ) 2 {\displaystyle SCT=\sum _{i}(y_{i}-{\bar
{y}})^{2}} n - 1

Dans le meilleur des cas, SCR = 0, le modèle arrive à prédire exactement toutes
les valeurs de y à partir des valeurs des x j. Dans le pire des cas, SCE = 0, le
meilleur prédicteur de y est sa moyenne y ¯ {\displaystyle {\bar {y}}} .
Un indicateur spécifique permet de traduire la variance expliquée par le modèle,
il s'agit du coefficient de détermination. Sa formule est la suivante :
R 2 = S C E S C T = 1 − S C R S C T {\displaystyle R^{2}={\frac
{SCE}{SCT}}=1-{\frac {SCR}{SCT}}\,}
R = R 2 {\displaystyle R={\sqrt {R^{2}}}\,} est le coefficient de corrélation
multiple.
Dans une régression avec constante, nous avons forcément
0 ≤ R ² ≤ 1.
Enfin, si le R ² est certes un indicateur pertinent, il présente un défaut
parfois ennuyeux, il a tendance à mécaniquement augmenter à mesure que l'on
ajoute des variables dans le modèle. De ce fait, il est inopérant si l'on veut
comparer des modèles comportant un nombre différent de variables. Il est
conseillé dans ce cas d'utiliser le coefficient de détermination ajusté qui est
corrigé des degrés de libertés. Le R² ajusté est toujours inférieur au R².
Significativité globale du modèle[modifier | modifier le code]Le R ² est un
indicateur simple, on comprend aisément que plus il s'approche de la valeur 1,
plus le modèle est intéressant. En revanche, il ne permet pas de savoir si le
modèle est statistiquement pertinent pour expliquer les valeurs de y.
Nous devons nous tourner vers les tests d'hypothèses pour vérifier si la liaison
mise en évidence avec la régression n'est pas un simple artefact.
La formulation du test d'hypothèse qui permet d'évaluer globalement le modèle
est la suivante :
H0 : a1 = a2 = … = ap = 0 ;
H1 : un des coefficients au moins est non nul.
La statistique dédiée à ce test s'appuie (parmi les différentes formulations
possibles) sur le R ², il s'écrit :
F c a l c = R 2 p 1 − R 2 n − p − 1 {\displaystyle F_{calc}={\frac {\frac
{R^{2}}{p}}{\frac {1-R^{2}}{n-p-1}}}} ,
et suit une loi de Fisher à (p, n - p - 1 ) degrés de liberté.
La région critique du test est donc : rejet de H0 si et seulement si Fcalc > F1
- α(p, n - p - 1), où α est le risque de première espèce.
Une autre manière de lire le test est de comparer la p-value (probabilité
critique du test) avec α : si elle est inférieure, l'hypothèse nulle est
rejetée.
Régression de séries temporelles[modifier | modifier le code]La régression de
séries temporelles, c'est-à-dire de variables indexées par le temps, peut poser
des problèmes, en particulier à cause de la présence d'autocorrélation dans les
variables donc aussi dans les résidus. Dans des cas extrêmes (lorsque les
variables ne sont pas stationnaires), on aboutit au cas de régression
fallacieuse : des variables qui n'ont aucune relation entre elles apparaissent
pourtant significativement liées selon les tests classiques.
La régression de séries temporelles demande donc dans certains cas l'application
d'autres modèles de régression, comme les modèles vectoriels autorégressifs
(VAR) ou les modèles à correction d'erreur (VECM).
Voir aussi[modifier | modifier le code]Références[modifier | modifier le
code]Régis Bourbonnais, Économétrie, Dunod, 1998 (ISBN 2100038605)
Yadolah Dodge et Valentin Rousson, Analyse de régression appliquée, Dunod,
2004 (ISBN 2100486594)
R. Giraud, N. Chaix, Économétrie, Puf, 1994
C. Labrousse, Introduction à l'économétrie -- Maîtrise d'économétrie, Dunod,
1983
J. Confais, M. Le Guen, Premiers pas en régression linéaire, La Revue Modulad,
N°35, 2006, pp220–363[1],
Notes et références[modifier | modifier le code]↑ J. Confais, M. Le Guen, «
Premiers pas en Régression Linéaire », La Revue Modulad, no 35, 2006 (lire en
ligne)Articles connexes[modifier | modifier le code]Ajustement de profil
Modèles de régression multiple postulés et non postulés
Régression linéaire
Régression polynomiale
Régression elliptique
Logiciels[modifier | modifier le code]Free Statistics, un portail recensant
plusieurs logiciels de statistique libres et gratuits, plusieurs d'entre eux
traitent de la régression linéaire multiple.
(en) Linear Algebra Mener des régressions sous Matlab avec l'aide de l'algèbre
linéaire.
R, un logiciel de statistique et d'analyse de données complet, sous licence
GNU General Public.
Regress32, un logiciel dédié à la régression linéaire multiple.
RLM, un logiciel gratuit pour effectuer des régressions linéaires multiples.
SIMUL 3.2 logiciel gratuit de modélisation économétrique multi-dimensionnelle
(multi-sectorielle, multirégionale) [1].
Tanagra, un logiciel de statistique et d'analyse de données, comportant un
module de régression.
Portail des probabilités et de la statistique
Ce document provient de «
https://fr.wikipedia.org/w/index.php?
title=Régression_linéaire_multiple&oldid=142891184
».
Catégorie : RégressionCatégories cachées : Page à recycler
(mathématiques)Portail:Probabilités et statistiques/Articles
liésProjet:Mathématiques/Articles
Menu de navigationOutils personnels
Non connecté
DiscussionContributionsCréer un compteSe connecterEspaces de noms
ArticleDiscussionVariantes Affichages
LireModifier
Modifier le codeAfficher l’historiquePlus
Rechercher Navigation
Accueil
Portails thématiques
Article au hasard
Contact
ContribuerDébuter sur Wikipédia
Aide
Communauté
Modifications récentes
Faire un don
OutilsPages liées
Suivi des pages liées
Importer un fichier
Pages spéciales
Lien permanent
Informations sur la page
Élément Wikidata
Citer cette page
Imprimer / exporterCréer un livre
Télécharger comme PDF
Version imprimable
Dans d’autres languesDeutsch
English
日本語
Modifier les liensLa dernière modification de cette page a été faite le 24
novembre 2017 à 14:10.
Droit d'auteur : les textes sont disponibles sous licence Creative Commons
attribution, partage dans les mêmes conditions ; d’autres conditions peuvent
s’appliquer. Voyez les conditions d’utilisation pour plus de détails, ainsi
que les crédits graphiques. En cas de réutilisation des textes de cette page,
voyez comment citer les auteurs et mentionner la licence.
Wikipedia® est une marque déposée de la Wikimedia Foundation, Inc.,
organisation de bienfaisance régie par le paragraphe 501(c)(3) du code fiscal
des États-Unis.

Politique de confidentialitéÀ propos de


WikipédiaAvertissementsDéveloppeursDéclaration sur les témoins
(cookies)Version mobile