Vous êtes sur la page 1sur 16

Menu principal








 Créer un compte
 Se connecter

Outils personnels


Sommaire

Début


Modèle théorique

 

Estimation

Notation matricielle


Hypothèses

Régresseurs stochastiques


La méthode des moindres carrés ordinaires

 

Estimateur des moindres carrés ordinaires

Propriétés des estimateurs

Propriétés en échantillons finis

Propriétés asymptotiques


Évaluation

 

Matrice de variance-covariance des coefficients


o

Estimation de la variance du résidu

Estimation de la matrice de variance-covariance des coefficients

Étude des coefficients

Distribution

Intervalle de confiance et tests d'hypothèses

Évaluation globale de la régression — Tableau d'analyse de variance

Tableau d'analyse de variance et coefficient de détermination

Significativité globale du modèle



Régression de séries temporelles


Voir aussi

 

Références


Notes et références


o

Articles connexes

Logiciels

Régression linéaire multiple

 Article
 Discussion

 Lire
 Modifier
 Modifier le code
 Voir l’historique

Outils











(Redirigé depuis Régression multilinéaire)

Pour les articles homonymes, voir Régression.

Pour un article plus général, voir Régression linéaire.

Cet article concernant les mathématiques doit être recyclé (novembre 2011).

Une réorganisation et une clarification du contenu paraissent nécessaires. Améliorez-le,


discutez des points à améliorer ou précisez les sections à recycler en utilisant {{section à
recycler}}.

En statistique, la régression linéaire multiple est une méthode de régression mathématique


étendant la régression linéaire simple pour décrire les variations d'une variable endogène
associée aux variations de plusieurs variables exogènes.

Par exemple, une analyse de régression multiple peut révéler une relation positive entre la
demande de lunettes de soleil et différents caractères démographiques (âge, salaire) des
acheteurs de ce produit. La demande augmente et baisse avec les variations de ces
caractéristiques.

Modèle théorique
Étant donné un échantillon (Yi, Xi1, ..., Xip)i ∈ {1, n} , on cherche à expliquer, avec le plus de
précision possible, les valeurs prises par Yi, dite variable endogène, à partir d'une série de
variables explicatives Xi1, ..., Xip. Le modèle théorique, formulé en termes de variables
aléatoires, prend la forme
où εi est l'erreur du modèle qui exprime, ou résume, l'information manquante dans
l'explication linéaire des valeurs de Yi à partir des Xi1, ..., Xip (problème de spécifications,
variables non prises en compte, etc.). Les coefficients a0, a1, ..., ap sont les paramètres à
estimer.

Estimation

Lorsqu'on dispose de n observations (yi, xi1, ..., xip), i ∈ {1, n} , qui sont des réalisations des
variables aléatoires (Yi, Xi1, ..., Xip), l'équation de régression s'écrit

La problématique reste la même que pour la régression simple :

 estimer les paramètres a0, a1, ..., ap en exploitant les observations ;


 évaluer la précision de ces estimateurs ;
 mesurer le pouvoir explicatif du modèle ;
 évaluer l'influence des variables dans le modèle :
o globalement (les p variables en bloc) et,
o individuellement (chaque variable) ;
 évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction) ;
 détecter les observations qui peuvent influencer exagérément les résultats (points
atypiques).

Notation matricielle

On peut adopter une écriture condensée qui rend la lecture et la manipulation de l'ensemble
plus facile. Les équations suivantes

peuvent être résumées avec la notation matricielle

Soit de manière compacte :

avec

 y est de dimension (n, 1)


 X est de dimension (n, p+1)
 a est de dimension (p+1, 1)
 ε est de dimension (n, 1)
La première colonne de la matrice X sert à indiquer que la régression est effectuée avec

constante (ici ).

Hypothèses

Comme en régression simple, les hypothèses permettent de déterminer : les propriétés des
estimateurs (biais, convergence) ; et leurs lois de distributions (pour les estimations par
intervalle et les tests d'hypothèses).

Il existe principalement deux catégories d'hypothèses :

Hypothèses stochastiques

 H1 : Les X j sont déterminées sans erreurs, j = 1, …, p ;

 H2 : Le modèle est bien spécifié en moyenne ;

 H3 : Homoscédasticité des erreurs (variance constante)

 H4 : Pas d'autocorrélation des erreurs.

 H5 : Les erreurs sont linéairement indépendantes des variables exogènes.

 H6 : Les erreurs suivent une loi normale multidimensionnelle (H6 implique les
hypothèses H2, H3 et H4, la réciproque étant fausse car les trois hypothèses réunies
n'impliquent pas que ε soit un vecteur gaussien).

Hypothèses structurelles

 H7 : absence de colinéarité entre les variables explicatives, i.e. X TX est régulière,
det(X TX) ≠ 0 et (X TX)−1 existe (remarque : c'est équivalent à rang(X) = rang(X TX) = p
+ 1) ;

 H8 : tend vers une matrice finie non singulière Q lorsque n → +∞ ;

 H9 : Le nombre d'observations est strictement supérieur au nombre de


variables + 1 (la constante). S'il y avait égalité, le nombre d'équations serait égal au
nombre d'inconnues aj, la droite de régression passerait par tous les points, nous
serions face à un problème d'interpolation linéaire (voir Interpolation numérique).

Écriture matricielle de l'hypothèse H6


Sous l'hypothèse d'homoscedasticité et d'absence d'auto-corrélation, la matrice de variance-
covariance du vecteur des erreurs peut s'écrire :

Régresseurs stochastiques

Dans certains cas, l'hypothèse (H1) est intenable : les régresseurs X sont supposés aléatoires.
Mais dans ce cas, on suppose que X est aléatoire mais est indépendant de l'aléa ε. On remplace
alors l'hypothèse (H2) par une hypothèse sur l'espérance conditionnelle :

De même, il faudrait changer en conséquence les hypothèses (H3), (H4) et aussi (H5).

La méthode des moindres carrés ordinaires


Estimateur des moindres carrés ordinaires

Du modèle complet :

On va estimer les paramètres et obtenir:

Les résidus estimés sont la différence entre la valeur de y observée et estimée. Soit :

Définition — 

Le principe des moindres carrés consiste à rechercher les valeurs des paramètres qui
minimisent la somme des carrés des résidus.

.
Ce qui revient à rechercher les solutions de . Nous avons j =p + 1 équations, dites
équations normales, à résoudre.

La solution obtenue est l'estimateur des moindres carrés ordinaires, il s'écrit :

Théorème —  est l'estimateur qui minimise la somme des carrés des résidus.

avec XT la transposée de X
[afficher]
Démonstration

Remarques:

 Pourquoi minimiser la somme des carrés plutôt que la simple somme? Cela tient, en
partie, au fait que la moyenne de ces résidus sera 0, et donc que nous disposerons de
résidus positifs et négatifs. Une simple somme les annulerait, ce qui n'est pas le cas
avec les carrés.
 si les x j sont centrés, 1/n (X TX) correspond à la matrice de variance-covariance des
variables exogènes ; s'ils sont centrés et réduits, 1/n (X TX) correspond à la matrice de
corrélation.

Interprétation géométrique, algébrique et statistique de l'estimateur MCO (Moindres Carrés


Ordinaires)

 L'estimateur MCO correspond à une projection orthogonale du vecteur Y sur l'espace


formé par les vecteurs X.
 L'estimateur MCO correspond à une matrice inverse généralisée du système Y = Xa
pour mettre a en évidence. En effet, si on multiplie à gauche par l'inverse généralisée

on a :

 L'estimateur MCO est identique à l'estimateur obtenu par le principe du maximum de


vraisemblance.

Propriétés des estimateurs

Si les hypothèses initiales sont respectées, l'estimateur des MCO possède d'excellentes
propriétés.

Propriétés en échantillons finis


Propriété — L'estimateur MCO est sans biais, c.-à-d. , sous les hypothèses H1, H2,
H5.

[afficher]
Preuve
Cette propriété se base seulement sur les hypothèses d'espérance nulle des résidus. La
présence d'autocorrélation ou d'hétéroscédasticité n'affecte pas ce résultat.

Propriété —  L'estimateur MCO est le meilleur estimateur linéaire sans biais, sous les
hypothèses H1 à H5.

Ceci signifie qu'il n'existe pas d'estimateur linéaire sans biais de a qui ait une variance plus
petite. Cette propriété en anglais est désignée par BLUE, pour best linear unbiased estimator.
La preuve est donnée par le théorème de Gauss-Markov.

Propriété — L'estimateur MCO est distribué selon une loi normale sous les
hypothèses H1, H2 et H6.

Propriétés asymptotiques

Propriété — L'estimateur MCO est convergent en probabilité, c.-à-d. , sous les


hypothèses H6 et H8.

[afficher]
Preuve

Propriété — L'estimateur MCO suit asymptotiquement une loi normale sous les


hypothèses H1 à H5 et H8.

Ce résultat est obtenu sans l'hypothèse de normalité des résidus (H6).

Évaluation
Pour réaliser les estimations par intervalle et les tests d'hypothèses, la démarche est presque
toujours la même en statistique paramétrique :

 définir l'estimateur (â dans notre cas) ;


 calculer son espérance mathématique (ici E(â ) = a) ;
 calculer sa variance (ou sa matrice de variance covariance) et produire son estimation ;
 et enfin déterminer sa loi de distribution (en général et sous l'hypothèse nulle des
tests).

Matrice de variance-covariance des coefficients

La matrice de variance-covariance des coefficients est importante car elle renseigne sur la
variance de chaque coefficient estimé, et permet de faire des tests d'hypothèse, notamment de
voir si chaque coefficient est significativement différent de zéro. Elle est définie par :

Sous les hypothèses d'espérance nulle, d'absence d'autocorrélation et d'homoscédasticité des


résidus (H1 à H5), on a :

[afficher]
Preuve

Cette formule ne s'applique cependant que dans le cas où les résidus sont homoscédastiques et
sans auto-corrélation, ce qui permet d'écrire la matrice des erreurs comme :

S'il y a de l'hétéroscédasticité ou de l'auto-corrélation, et donc , il est possible de


rectifier la matrice de variance-covariance estimée par :

 la matrice de variance-covariance de White (ou Eicker-White (1967, 1980)),


consistante en cas d'hétéroscédasticité (en anglais HC pour Heteroskedasticity
Consistent).
 la matrice de variance-covariance de Newey-West (1987), consistante en cas
d'hétéroscédasticité et d'auto-corrélation (en anglais HAC pour Heteroskedasticity and
Autocorrelation Consistent).

Estimation de la variance du résidu

Pour la variance du résidu , on peut utiliser l'estimateur sans biais construit à partir de
la variance des résidus observés :

Les correspondent aux résidus observés : .


On remarque deux choses par rapport à l'estimateur classique de la variance :

,
 on n'inclut pas l'espérance des résidus, car celle-ci est supposée être de zéro (selon

). Surtout, les résidus du modèle ont exactement une moyenne de zéro


lorsqu'une constante est introduite dans le modèle.
 La somme des carrés est divisée par n - p - 1 = n - (p + 1) et non par n-1. En fait, n-p-1
correspond aux degrés de liberté du modèle (le nombre d'observations moins le

nombre de coefficients à estimer). On remarque effectivement que .

Il existe également un autre estimateur, obtenu par la méthode du maximum de


vraisemblance, qui est cependant biaisé :

Estimation de la matrice de variance-covariance des coefficients

Il suffit de remplacer la variance théorique des résidus, σ2, par son estimateur sans biais des

moindres carrés :

L'estimateur de la matrice de variance-covariance des résidus devient :

La variance estimée de l'estimation du paramètre â j est lue sur la diagonale principale
de cette matrice.

Étude des coefficients

Après avoir obtenu l'estimateur, son espérance et une estimation de sa variance, il ne reste
plus qu'à calculer sa loi de distribution pour produire une estimation par intervalle et réaliser
des tests d'hypothèses.

Distribution

En partant de l'hypothèse

on peut montrer
1.

2.

Le rapport d'une loi normale et de la racine carrée d'une loi du χ² normalisée par ses degrés de
liberté aboutit à une loi de Student. On en déduit donc la statistique :

elle suit une loi de Student à (n - p - 1) degrés de liberté.

Intervalle de confiance et tests d'hypothèses

À partir de ces informations, il est possible de calculer les intervalles de confiance des
estimations des coefficients.

Il est également possible de procéder à des tests d'hypothèses, notamment les tests
d'hypothèses de conformité à un standard. Parmi les différents tests possibles, le test de nullité
du coefficient (H0 : a j = 0, contre H1 : a j ≠ 0) tient un rôle particulier : il permet de déterminer
si la variable x j joue un rôle significatif dans le modèle. Il faut néanmoins être prudent quant à
ce test. L'acceptation de l'hypothèse nulle peut effectivement indiquer une absence de
corrélation entre la variable incriminée et la variable endogène ; mais il peut également
résulter de la forte corrélation de x j avec une autre variable exogène, son rôle est masqué dans
ce cas, laissant à croire une absence d'explication de la part de la variable.

Évaluation globale de la régression — Tableau d'analyse de variance

Tableau d'analyse de variance et coefficient de détermination

L'évaluation globale de la pertinence du modèle de prédiction s'appuie sur l'équation d'analyse


de variance SCT = SCE + SCR, où

 SCT, somme des carrés totaux, traduit la variabilité totale de l'endogène ;


 SCE, somme des carrés expliqués, traduit la variabilité expliquée par le modèle ;
 SCR, somme des carrés résiduels correspond à la variabilité non-expliquée par le
modèle.

Toutes ces informations sont résumées dans un tableau, le tableau d'analyse de variance.

Source de variation Somme des carrés Degrés de liberté Carrés moyens


Expliquée p

Résiduelle n–p–1

Totale n–1
Dans le meilleur des cas, SCR = 0, le modèle arrive à prédire exactement toutes les valeurs de
y à partir des valeurs des x j. Dans le pire des cas, SCE = 0, le meilleur prédicteur de y est sa
moyenne y.

Un indicateur spécifique permet de traduire la variance expliquée par le modèle, il s'agit du


coefficient de détermination. Sa formule est la suivante :

est le coefficient de corrélation multiple.

Dans une régression avec constante, nous avons forcément

Enfin, si le R 2 est certes un indicateur pertinent, il présente un défaut parfois ennuyeux, il a
tendance à mécaniquement augmenter à mesure que l'on ajoute des variables dans le modèle.
De ce fait, il est inopérant si l'on veut comparer des modèles comportant un nombre différent
de variables. Il est conseillé dans ce cas d'utiliser le coefficient de détermination ajusté qui
est corrigé des degrés de libertés. Le R 2 ajusté est toujours inférieur au R 2.

Significativité globale du modèle

Le R 2 est un indicateur simple, on comprend aisément que plus il s'approche de la valeur 1,
plus le modèle est intéressant. En revanche, il ne permet pas de savoir si le modèle est
statistiquement pertinent pour expliquer les valeurs de y.

Nous devons nous tourner vers les tests d'hypothèses pour vérifier si la liaison mise en
évidence avec la régression n'est pas un simple artefact.

La formulation du test d'hypothèse qui permet d'évaluer globalement le modèle est la


suivante :

 H0 : a1 = a2 = … = ap = 0 ;
 H1 : un des coefficients au moins est non nul.

La statistique dédiée à ce test s'appuie (parmi les différentes formulations possibles) sur le R 2,
il s'écrit :

et suit une loi de Fisher à (p, n - p - 1) degrés de liberté.

La région critique du test est donc : rejet de H0 si et seulement si Fcalc > F1 - α(p, n - p - 1), où α
est le risque de première espèce.
Une autre manière de lire le test est de comparer la p-value (probabilité critique du test) avec
α : si elle est inférieure, l'hypothèse nulle est rejetée.

Régression de séries temporelles


La régression de séries temporelles, c'est-à-dire de variables indexées par le temps, peut poser
des problèmes, en particulier à cause de la présence d'autocorrélation dans les variables donc
aussi dans les résidus. Dans des cas extrêmes (lorsque les variables ne sont pas stationnaires),
on aboutit au cas de régression fallacieuse : des variables qui n'ont aucune relation entre elles
apparaissent pourtant significativement liées selon les tests classiques.

La régression de séries temporelles demande donc dans certains cas l'application d'autres
modèles de régression, comme les modèles vectoriels autorégressifs (VAR) ou les modèles à
correction d'erreur (VECM).

Voir aussi
Références

 Régis Bourbonnais, Économétrie, Dunod, 1998 (ISBN 2100038605)


 Yadolah Dodge et Valentin Rousson, Analyse de régression appliquée, Dunod, 2004
(ISBN 2100486594)
 R. Giraud, N. Chaix, Économétrie, Puf, 1994
 C. Labrousse, Introduction à l'économétrie -- Maîtrise d'économétrie, Dunod, 1983
 J. Confais, M. Le Guen, Premiers pas en régression linéaire, La Revue Modulad,
N°35, 2006, pp220–3631,

Notes et références
1.

1. J. Confais, M. Le Guen, « Premiers pas en Régression Linéaire », La Revue Modulad,


no 35, 2006 (lire en ligne [archive])

Articles connexes

 Ajustement de profil
 Modèles de régression multiple postulés et non postulés
 Régression linéaire
 Régression polynomiale
 Régression elliptique

Logiciels
 Free Statistics [archive], un portail recensant plusieurs logiciels de statistique libres et
gratuits, plusieurs d'entre eux traitent de la régression linéaire multiple.
 (en) Linear Algebra [archive] Mener des régressions sous Matlab avec l'aide de l'algèbre
linéaire.
 R [archive], un logiciel de statistique et d'analyse de données complet, sous licence
GNU General Public.
 Regress32 [archive], un logiciel dédié à la régression linéaire multiple.
 RLM [archive], un logiciel gratuit pour effectuer des régressions linéaires multiples.
 SIMUL 3.2 logiciel gratuit de modélisation économétrique multi-dimensionnelle
(multi-sectorielle, multirégionale) [1] [archive].
 Tanagra [archive], un logiciel de statistique et d'analyse de données, comportant un
module de régression.

 Portail des probabilités et de la statistique

Catégorie :

 Régression

[+]

 La dernière modification de cette page a été faite le 30 mars 2023 à 17:20.


 Droit d'auteur : les textes sont disponibles sous licence Creative Commons attribution,
partage dans les mêmes conditions ; d’autres conditions peuvent s’appliquer. Voyez
les conditions d’utilisation pour plus de détails, ainsi que les crédits graphiques. En cas
de réutilisation des textes de cette page, voyez comment citer les auteurs et mentionner
la licence.
Wikipedia® est une marque déposée de la Wikimedia Foundation, Inc., organisation
de bienfaisance régie par le paragraphe 501(c)(3) du code fiscal des États-Unis.

 Politique de confidentialité
 À propos de Wikipédia
 Avertissements
 Contact
 Version mobile
 Développeurs
 Statistiques
 Déclaration sur les témoins (cookies)

Vous aimerez peut-être aussi