Vous êtes sur la page 1sur 27

STATISTIQUE APPLIQUEE

Chap. IV : Régression multiple

Rachid MCHICH
Introduction
L’analyse de la régression multiple est
l’étude de la relation entre une variable
dépendante y et au moins deux variables
indépendantes.

Dans le cas général, nous noterons p le


nombre de variables indépendantes.
I.  Modèle de régression multiple

Le modèle de régression utilisé dans une régression


multiple s’écrit :

y = β0 + β1 x1 + β2 x2 +... + β p x p + ε

y : variable à expliquer (dépendante)


xi : variables explicatives (indépendantes)

β0 , β1,..., β p correspondent aux paramètres du modèle

ε est une variable aléatoire appelée: terme d’erreur.

Ce terme prend en compte la variabilité de y qui


n’est pas expliquée par l’impact linéaire des p
variables indépendantes.
Chaque distribution des valeurs de y a sa propre
moyenne. L’équation qui décrit comment la
moyenne de y est liée à x est appelée : équation
de la régression multiple.

Elle est donnée par :

E(y) = β0 + β1 x1 + β2 x2 +... + β p x p
En pratique, la valeur des paramètres n’est pas
connue et doit être estimée en utilisant les données
d’un échantillon. D’où l’équation estimée de la
régression multiple :

ŷ = b0 + b1 x1 + b2 x2 +.... + bp x p

où b0 , b1, b2 ,..., bp sont les estimations de β0 , β1, β2 ,..., β p


et ŷ correspond à la valeur estimée de la variable
dépendante.
II. La méthode des moindres carrés :
On a vu dans le chapitre précédent que la méthode des
moindres carrés qui permet d’utiliser les données de
l’échantillon pour estimer l’équation de la régression (b0 et
b1).

Cette même approche est utilisée pour estimer l’équation


de la régression multiple. Ce critère est formulé comme
suit :

2
min ∑ (yi − ŷi )

yi : valeur observée de l’observation de la variable dépendante

ŷi : valeur observée de l’observation de la variable dépendante


La méthode des moindres carrés permet d’utiliser les
données de l’échantillon pour estimer b0 et b1, dans le cas
d’une régression linéaire simple.

Pour une régression multiple, on a recours à l’utilisation du


calcul matriciel pour avoir une estimation de :

b0 , b1,..., bp

L’utilisation de logiciels permet aussi d’avoir ces valeurs.


Exemple : Pour améliorer les plannings de travail, les responsables
d’une société souhaitent estimer la durée quotidienne des trajets
effectués par les chauffeurs. Pour cela, ils supposent que cette durée
totale des trajets est fortement liée au nombre de kms parcourus
pour effectuer les livraisons. Un échantillon aléatoire simple de dix
livraisons a fourni les données suivantes :

Livraison Xi : Nbr de kms Yi :Temps du


parcourus trajet (en heures)
1 100 9,3
2 50 4,8
3 100 8,9
4 100 6,5
5 50 4,2
6 80 6,2
7 75 7,4
8 65 6,0
9 90 7,6
10 90 6,1
Equation estimée de la régression linéaire simple:
ŷ = 1, 27 + 0, 0678x1
Au seuil de signification: α = 0, 05

F = 15,81; p = 0,004; t = 3,98

Donc hypothèse (H0) à rejeter dans tous les cas. On


peut ainsi conclure que la relation entre la durée
totale des trajets et le nombre de kms parcourus
est significative.

Coefficient de détermination = 0,664. Donc 66,4%


de la durée des trajets peut être expliquée
linéairement par le nombre de kms parcourus.
Cependant les responsables pensent que le nombre de
livraisons peut également expliquer la durée totale du trajet.
D’où le nouveau tableau :
Livraison Xi : Nbr de X2 : Nbr de Y :Temps
kms livraisons du trajet
parcourus effectuées (en
heures)
1 100 4 9,3
2 50 3 4,8
3 100 4 8,9
4 100 2 6,5
5 50 2 4,2
6 80 2 6,2
7 75 3 7,4
8 65 4 6,0
9 90 3 7,6
10 90 2 6,1
En utilisant un logiciel adéquat, l’équation estimée de
la régression multiple est :
ŷ = −0,869 + 0, 0611x1 + 0, 923x2

Notons que la valeur de b1 n’est pas la même dans les deux


cas. Pour une régression linéaire simple, b1 peut être
interprété comme une estimation de l’effet sur y d’une
variation d’une unité de la variable indépendante.

Pour une régression multiple, chaque bi représente une


estimation d’un changement de y suite à un changement
d’une unité de xi lorsque toutes les autres variables
indépendantes sont constantes.
III. Coefficient de détermination :

Comme pour une régression linéaire simple, on a :

SCT = SCreg + SCres

où : 2
SCT = ∑ (yi − y )

2
SCreg = ∑ ( ŷi − y )

2
SCres = ∑ (yi − ŷi )
Le ratio (SCreg/SCT) est utilisé pour évaluer
l’adéquation de l’équation estimée de la régression.
Ce ratio est appelé coefficient de détermination
multiple et est noté :
2 SCreg
R =
SCT
SCreg 21601
Pour notre exemple : R = 2
= = 0, 904
SCT 23900

—  Cela veut dire que 90,4% de la variabilité dans le


temps de trajet y est expliquée par l’équation de
la régression multiple (2 var. indpdtes).
Remarques :
1.  Beaucoup d’analystes préfèrent ajuster le R2 au nombre
de variables indépendantes pour éviter de surestimer
l’impact de l’ajout d’une variable indépendante sur la
part de la variabilité expliquée par l’équation estimée de
la régression (n: nbr d’observations, p: nbr de var.
indpdtes) :
2 2 n −1
R = 1− (1− R )
a
n − p −1
Pour notre exemple :
2 10 −1
R = 1− (1− 0, 904)
a = 0,88
10 − 2 −1
2.  Si une variable est ajoutée dans le modèle, R2 augmente
même si cette variable n’est pas statistiquement
significative. Le coefficient de détermination multiple
ajusté tient compte du nombre de variables
indépendantes présentes dans le modèle.

3.  Si la valeur de R2 est faible et que le modèle contient un


nombre de variables indépendantes important, le
coefficient de détermination ajusté peut prendre une
valeur négative. Dans de tels cas, prendre un coefficient
égal à 0.
IV. Hypothèses du modèle :

Même avec une valeur du coefficient de


détermination assez élevé, une analyse approfondie
de la robustesse du modèle supposé doit être faite.

Pour cela, des tests de signification doivent être


effectués et sont basés sur les hypothèses suivantes,
concernant le terme d’erreur ε :
Hypothèses sur le terme d’erreur ε dans le modèle
de la régression : y = β0 + β1 x1 +... + β p x p + ε

(H1) E(ε ) = 0 (donc E(y) = β0 + β1 x1 +... + β p x p )

(H2) La variance de ε notée σ 2 est la même pour


toutes les valeurs des variables indépendantes.

(H3) Les valeurs de ε sont indépendantes entre


elles.

(H4) Le terme d’erreur ε est une v. a. normalement


distribuée (et donc y aussi).
V. Test de signification :
Pour l’équation de régression linéaire simple, les tests de
signification utilisés étaient les tests t de Student et F de Fisher. Et
les deux tests aboutissent à la même conclusion.

Pour une régression multiple, les deux tests n’ont pas le même
objectif:

1.  Le test de Fisher est utilisé pour déterminer s’il existe une
relation significative entre la var. dépendante et l’ensemble des
variables indépendantes. On parle du test de signification
globale.
2.  Le test de Student est utilisé pour déterminer si chacune des
variables indépendantes est significative. Un test de Student est
effectué pour chaque variable indépendante du modèle; on
parle du test de signification individuelle.
Test de Fisher:

y = β0 + β1 x1 +... + β p x p + ε
On a :

Les hypothèses du test de Fisher concernent les


paramètres du modèle de régression.

H0 : β1 = β2 = ... = β p = 0

Ha : Au moins un des paramètres n’est pas égal à zéro.


Dans le cas d’une régression multiple, la SCT a n-1
degrès de liberté, la SCreg a p degrès de liberté et la
SCres a n-p-1 degrès de liberté. Par conséquent,

SCreg
MCreg =
p

SCreg
MCres =
n − p −1
—  Test de signification globale de Fisher:

H 0 : β1 = β2 = ... = β p = 0
H a : Au moins un des paramètres n'est pas égal à 0

MCreg
—  Statistique de test : F=
MCres

—  Règle de rejet :


– Approche par la valeur p : Rejet de H0 si p ≤ α
– Approche par la valeur critique : Rejet de H0 si
F ≥ Fα
où Fαest basé sur la loide Fisher à p ddl au numérateur et
(n-p-1) ddl au dénominateur.
Dans notre exemple,

MCreg 10,8
F= = = 32, 9
MCres 0, 328
Au seuil de signification :
α = 0, 01
On a :
F0,01 = 9, 55

Donc (H0) à rejeter. Et on peut conclure qu’une


relation significative existe entre la durée des trajets y
et les deux var. indpdtes : nbr de kms parcourus et
nbr de livraisons effectuées.
Tableau ANOVA :

Source Somme Degrés Moyenne des carrés F


de la des de liberté
variation carrés
Régression SCreg p
SCreg MCreg
MCreg = F=
p MCres

SCres
Résidu SCres n – p-1 MCres =
n − p −1

Totale SCT n-1


Test de signification individuelle de Student :
Pour tout paramètre βi
H 0 : βi = 0
H a : βi ≠ 0
bi
—  Statistique de test : t =
sbi

—  Règle de rejet :


– Approche par la valeur p : Rejet de H0 si p ≤ α
– Approche par la valeur critique : Rejet de H0 si
t ≤ −tα /2 ou t ≥ tα /2
où tα /2 est basé sur la distribution de Student à (n-p-1) ddl.
Remarques :

1.  Les tests de Fisher et de Student conduisent à des


résultats identiques dans le cadre d’une régression
linéaire simple.

2.  Rejeter l’hypothèse nulle et conclure que la relation


entre x et y est statistiquement significative ne nous
permet pas de conclure qu’une relation de cause à
effet relie x et y.
3.  Le fait de rejeter H0 et de conclure à l’existence d’une
relation significative ne nous permet pas de conclure
que la relation est linéaire entre x et y (x et y sont
liées et une relation linéaire explique une partie de la
variabilité de y par rapport à x).

4.  Dans la mesure où la relation est significative, nous


pouvons utiliser (avec confiance) l’équation estimée
de la régression pour effectuer des prévisions pour
des valeurs de x appartenant à l’intervalle des valeurs
observées dans l’échantillon.
VI. Multi-colinéarité:
Le terme « variables indépendantes » est utilisé pour expliquer la
valeur de la variable dépendante. Ce terme ne signifie pas que les
variables indépendantes sont elles-mêmes indépendantes au sens
statistique du terme.

Au contraire, la plupart des variables indépendantes sont plus ou


moins corrélées entre elles. Il est alors possible de calculer le
coefficient de corrélation entre chaque couple de variables
indépendantes pour déterminer dans quelle mesure ces deux
variables sont liées.

Ainsi, lorsque les variables indépendantes sont fortement


corrélées, il n’est pas possible de déterminer l’effet propre d’une
variable indépendante particulière sur la variable dépendante.

Vous aimerez peut-être aussi