Vous êtes sur la page 1sur 26

Modélisation & Prévision QF02

Chapitre 10. La régression linéaire multiple


Estimer le lien entre plusieurs variables quantitatives

C. Hahn & R. Jallet-Cattan


Objectifs

Expliquer une variable quantitative Y par p


variables quantitatives X1…Xp

Juger de la qualité du modèle construit

2
Principe

Construire un modèle linéaire pour la


population,
à partir d’un échantillon

Y = 0 + 1 X1 + … + p Xp + 

3
Procédure générale

4
Etape 1. Spécifier le modèle

Y = 0 + 1X1 + … + pXp + 

Soit pour le ième individu :

Yi = 0 + 1 xi1 + … + p xip + i
Où :

- xij est une valeur fixe observée pour le jième critère X j

- Yi et i sont des variables aléatoires

5
Hypothèses sur les i

i, i Gaussienne

i et j (ij), i et j indépendantes

i, E (i) = 0

i, Var (i) = constante = ²

6
Hypothèses sur les Yi

i, Yi Gaussienne

i et j (ij), Yi et Yj indépendantes

i, E (Yi) = 0 +1xi1+… +pxip

i, Var (Yi) = ²


7
Les hypothèses du modèle

2 conditions supplémentaires

• Nombre d’observations supérieur au nombre de variables


explicatives : n > p + 1

• Absence de multicolinéarité : pas de forte corrélation linéaire


entre les variables explicatives

8
Multicolinéarité

Fortes corrélations entre les variables explicatives

Information redondante

Manque de stabilité du modèle

9
Etape 2. Estimer les paramètres du modèle

Paramètres du modèle Estimation Estimateur

Coefficients : βi bi Bi

b0 B0
Constante : 0

s   e / n  ( p  1) 
2 2
i
S2
Variance des erreurs : σε
2

10
Etape 3. Valider le modèle

3.1 Est-ce que la régression est globalement significative ?

3.2 Est-ce que la contribution marginale de chaque variable est


significative?

11
Tableau d’analyse de la variance

12
3.1 La validité globale : Test de Fisher

Formuler les hypothèses

Spécifier la statistique du test

Prendre une décision

13
Formuler les hypothèses (1)

H0 : 1 = ... = p = 0

H1 : Au moins un des coefficients j  0

14
Spécifier la statistique du test (2)

15
Prendre une décision (3)

• Méthode de la valeur critique :

H0 est rejetée au risque de 1ère espèce  si

• Méthode de la probabilité critique :

H0 est rejetée au risque de 1ère espèce  si pvaleur < 

16
3.2 Influence individuelle de chaque variable :
Tests de Student

Tester si
l’ajout d’une variable explicative
à la suite
d’autres variables explicatives déjà dans
l’équation de régression
apporte une contribution significative !

17
p tests de Student
• Hypothèses :

H 0 : j = 0
H 1 : j  0

• Statistique du test :

Sous H0 : T = Bj / s B j ~ Student (n-p-1)

• Décision :
Si , alors on rejette H0

i.e. la contribution marginale de Xj est significative sur la population


18
Etape 4. Evaluer la qualité

4.1 Vérifier la qualité de l’ajustement sur les données de l’échantillon

4.2 Examiner les résidus

19
4.1 Le coefficient de détermination

Mesure le pourcentage de variance expliquée


par le modèle 20
Le coefficient de détermination ajusté

Le coefficient de détermination dépend du nombre de variables explicatives

 Coefficient de détermination ajusté:

Mesure la qualité de la régression


en tenant compte les p variables explicatives 21
4.2 Analyse des résidus

Valider à posteriori
mais de manière empirique
les hypothèses du modèle !

22
Analyse des résidus

Vérifier les hypothèses de :

- Normalité

- Indépendance
- Variance constante : Homoscédasticité

=> Tracer le nuage de points des résidus centrés réduits en


fonction des valeurs de chaque variable explicative

23
Multicolinéarité : Comment la détecter?

Coefficients de corrélation linéaire entre les variables explicatives

Contradiction entre les tests T et le test F

Signes des coefficients de régression en contradiction avec ce qui est attendu

24
Régression pas à pas

On sélectionne la variable explicative qui a le plus fort coefficient de


corrélation linéaire avec la variable Y. Si sa contribution est
significative, on l’introduit dans le modèle.

On recherche la variable explicative qui réduit le plus la variation non


expliquée par la première variable explicative choisie.

On examine à nouveau la première variable explicative entrée dans le


modèle pour s’assurer que sa contribution reste significative.

25
r² partiels

Permettent d’évaluer dans quelle proportion, l’ajout d’une variable


explicative réduit la variation non expliquée par les autres
variables explicatives dans le modèle

26

Vous aimerez peut-être aussi