Vous êtes sur la page 1sur 145

Régression linéaire multiple

Michaël Genin

Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
michael.genin@univ-lille2.fr

DU Biostatistiques appliquées à la recherche clinique et à l’épidémiologie


Plan

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Introduction à l’étude de deux variables quantitatives

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 2 / 100
Introduction à l’étude de deux variables quantitatives

Introduction
Croisement de deux variables quantitatives
âge et fréquence cardiaque
Consommation et poids d’un véhicule
Capacité d’épargne et revenus
Etude du lien entre ces deux variables
Représentation graphique
Indicateur statistique (Coefficient de corrélation)
Modèle de prédiction (Régression linéaire)
Notations
On considère n individus sur lesquels on mesure X et Y deux variables
quantitatives.
Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )
qui représente les valeurs prises par X et Y pour l’individu i.

Remarque : les slides suivantes sont uniquement des rappels sur les principes de
corrélation et de régression linéaire simple et ne constituent en aucun cas un
cours !
→ Lien cours complet ←
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 3 / 100
Introduction à l’étude de deux variables quantitatives

1ère étape
Représentation graphique
Graphique pour représenter deux variables quantitatives ⇒ nuage de points
1ère étape de toute analyse de liaison : apprécier la forme de la relation entre les
deux variables

● ●
● ●●
●●● ● ● ●● ● ●●
●●●● ●●●●●●

0

● ●● ●● ●●●● ● ● ● ● ● ●● ●
● ●● ●
● ●● ● ● ●● ●

2
● ● ● ●● ● ●● ● ●
● ●● ●
●● ● ● ●●● ●
● ● ● ● ● ● ●
● ●●● ● ● ● ●
●● ● ● ●
●● ● ●

−500
● ● ●●
●●● ●
● ●● ● ●● ● ●
●●●●
●●●●
● ● ● ●
● ● ● ● ● ● ●● ● ●



● ● ● ● ● ● ●
●● ●● ● ● ●● ● ●● ●
●● ● ● ● ●● ●● ● ●
50

● ● ● ●

1
● ● ●● ● ●●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ●● ● ●
−1000
● ● ● ● ● ●
●● ● ● ●● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ●● ●● ● ● ●● ● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ●● ●
● ● ●●●
● ● ● ● ● ● ●
● ●● ●● ● ● ● ● ●● ● ● ●
● ●● ● ● ●● ● ●● ● ●● ●

●● ● ● ● ● ●
● ●●● ● ●●
● ● ●

● ● ●

● ●
● ● ● ●●
● ●● ● ● ●●

0
● ●● ●● ●● ● ● ● ●
−1500

●● ● ● ●● ●
● ●● ●● ● ●● ● ● ● ● ●● ●
Y

Y
● ●● ● ● ● ● ● ● ● ●

● ●● ●
● ● ● ● ● ●●● ●
● ●● ●●● ● ● ● ● ● ● ● ●
● ●● ●●● ● ● ● ● ● ● ●
●● ● ● ● ● ●● ●
● ● ● ● ● ●● ● ●● ● ● ●

● ●

● ● ●●
● ●● ●
0

● ● ● ●
● ●
● ● ●● ● ●
● ● ●
●● ●
●● ● ● ●
−2000

● ●

−1
● ● ● ●
● ● ● ●● ●● ●
● ●
● ● ● ●
● ● ● ● ● ● ●
● ●● ● ●● ●
● ● ●●
●● ● ●● ●
● ● ●
● ● ●
● ● ●● ● ● ● ●
● ● ● ●
● ● ● ● ●
● ●
−2500

−2
● ●● ● ●
● ●

−50

● ● ●●

●●
−3000

● ●

−3
−60 −40 −20 0 20 40 60 −60 −40 −20 0 20 40 60 −40 −20 0 20 40

X X X

liaison linéaire liaison polynomiale pas de liaison

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 4 / 100
Coefficient de corrélation (Rappels)

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)


Définition
Test du coefficient de corrélation
Conclusions

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 5 / 100
Coefficient de corrélation (Rappels) Définition

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)


Définition
Test du coefficient de corrélation
Conclusions

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 6 / 100
Coefficient de corrélation (Rappels) Définition

Coefficient de corrélation linéaire

Coefficient de corrélation théorique

σXY
ρXY = ∈ [−1; 1]
σX σY

Coefficient de corrélation de Bravais-Pearson

ρ est estimé par


∑n
sxy (xi − x̄ )(yi − ȳ )
r= = √∑ i=1 ∑n
sx sy n
i=1 (xi − x̄ ) i=1 (yi − ȳ )
2 2

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 7 / 100
Coefficient de corrélation (Rappels) Test du coefficient de corrélation

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)


Définition
Test du coefficient de corrélation
Conclusions

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 8 / 100
Coefficient de corrélation (Rappels) Test du coefficient de corrélation

Test de la significativité de ρ
Principe du test : Test de la nullité du coefficient de corrélation.
Si ρ = 0 alors il n’y a pas de liaison linéaire entre X et Y
Si ρ ̸= 0 alors il existe une relation linéaire entre X et Y

Condition d’application : X ∼ N (µ1 , σ1 ) et Y ∼ N (µ2 , σ2 )

En pratique : Vérification de X et Y "a peu près normales" (symétrique) car test


robuste (n grand)

Hypothèses du test {
H0 : ρ = 0
H1 : ρ ̸= 0
Statistique de test
Sous H0 ,

R n−2
T = √ ∼ Tn−2 ddl
1 − R2
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 9 / 100
Coefficient de corrélation (Rappels) Conclusions

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)


Définition
Test du coefficient de corrélation
Conclusions

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 10 / 100
Coefficient de corrélation (Rappels) Conclusions

Conclusions

Le coefficient de corrélation permet de mesurer le lien linéaire entre deux


variables quantitatives X et Y .
On peut également cherche à modéliser le lien entre X et Y afin de réaliser
des prédictions :
Exprimer Y en fonction de X
Ex : Prédire la FCM d’un patient en ne connaissant que son âge
Le coefficient de corrélation n’est pas suffisant
Recours à la régression linéaire :

Y = β1 X + β0 + ϵ

Où Y est la variable à expliquer et X la variable explicative

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 11 / 100
Régression linéaire simple (Rappels)

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 12 / 100
Régression linéaire simple (Rappels)

Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X est un caractère contrôlé (caractère explicatif)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xi est la valeur fixée pour l’individu i

Objectif : Exprimer le lien entre Y et X .

Y = f (X ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire

Régression linéaire simple


1 Modèle de régression
2 Droite de régression au sens des moindres carrés

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 13 / 100
Régression linéaire simple (Rappels) Modèle de régression linéaire simple

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 14 / 100
Régression linéaire simple (Rappels) Modèle de régression linéaire simple

Modèle de régression linéaire


∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que

Yi = β1 xi + β0 + ϵi

Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 : coefficients du modèle, constantes (valeurs fixes dans la population).

Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendante de X → Cov(xi , ϵi ) = 0
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 15 / 100
Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 16 / 100
Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires

Droite de régression au sens des moindres carrés

Objectif : estimer β0 et β1 grâce à leur estimateurs B0 et B1 et leur réalisations b0


et b1 sur un échantillon d’observations i.i.d. de taille n.

Trouver b0 et b1 qui minimisent un critère d’ajustement.


⇒ Méthode des moindres carrés ordinaires


n ∑
n
2
S(β0 , β1 ) = (ei )2 = (yi − (β1 xi + β0 ))
i=1 i=1

→ min S(β0 , β1 )
Dérivées partielles → Systèmes aux équations normales

sxy
Solutions : b1 = et b0 = ȳ − b1 x̄
sx2

Détails

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 17 / 100
Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires

Droite de régression au sens des moindres carrés

La droite de régression au sens des moindres carrés a pour expression :

ybi = b1 xi + b0

C’est une estimation du modèle de régression par la méthode des moindres carrés.

Les erreurs observées sur l’échantillon sont appelés résidus.

ei = (yi − ybi ) = yi − b1 xi − b0

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 18 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 19 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement

Qualité de l’ajustement

Evaluation de la qualité d’ajustement du modèle

⇒ Coefficient de détermination

SCE
R2 = ∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire.

Remarque importante : le carré du coefficient de corrélation linéaire est égal au


coefficient de détermination :

r 2 = R2
Conséquence : deux tests statistiques équivalents pour évaluer la liaison linéaire
entre X et Y .

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 21 / 100
Régression linéaire simple (Rappels) Validité du modèle

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 22 / 100
Régression linéaire simple (Rappels) Validité du modèle

Etude de la validité du modèle


Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs
Vérifier la normalité des résidus observés (Droite de Henry)
Vérifier que les résidus ne contiennent pas d’information structurée
(V[ϵ] = σ 2 )
Les résidus ne dépendent pas de X (Graphiques)
Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont
mutuellement indépendantes) (Test de Durbin Watson)
→ Ces hypothèses vont permettre par la suite de réaliser des tests dans le
modèle linéaire.
Observations aberrantes / influentes
Valeur aberrante de x (Descriptif univarié)
Observation i mal reconstituée par la régression → (ei élevé) (résidus
studentisés)
Observation i présentant un poids exagéré dans la régression (prédiction /
coefficients) (distance de Cook)

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 23 / 100
Régression linéaire simple (Rappels) Validité du modèle

Conclusion sur l’étude de la validité du modèle

Etape très importante !!

1 Descriptif univarié
2 Estimation des coefficients du modèle
3 Vérification des hypothèses sur les erreurs
4 Détection d’observations influentes
Si OUI : Correction ou suppression
Nouvelle estimation des coefficients

Après ces étapes : Inférence statistique

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 24 / 100
Régression linéaire simple (Rappels) Inférence statistique

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 25 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par X traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = ∑ i (ŷi − ȳ )2 1 CME = SCE
1
Résiduelle SCR = i
2
(yi − ŷi ) n−2 CMR = SCR
n−2

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par X traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = ∑ i (ŷi − ȳ )2 1 CME = SCE
1
Résiduelle SCR = i
2
(yi − ŷi ) n−2 CMR = SCR
n−2

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par X traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = ∑ i (ŷi − ȳ )2 1 CME = SCE
1
Résiduelle SCR = i
2
(yi − ŷi ) n−2 CMR = SCR
n−2

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par X traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = ∑ i (ŷi − ȳ )2 1 CME = SCE
1
Résiduelle SCR = i
2
(yi − ŷi ) n−2 CMR = SCR
n−2

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation globale de la régression

Tableau d’analyse de variance - Test de significativité globale

Le test F permet d’évaluer la significativité globale de la régression.


{
H0 : La variabilité expliquée est identique à la variabilité résiduelle
H1 : La variabilité expliquée est supérieure à la variabilité résiduelle

Sous H0

CME
F = ∼ F1,n−2 ddl
CMR
Interprétation : {
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 27 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation des coefficients - β1


Test de significativité de β1
Idée : tester la nullité de β1 .
{
H0 : β1 = 0 "X n’a aucun pouvoir explicatif sur Y"
H1 : β1 ̸= 0 "X a un pouvoir explicatif sur Y"

B1 −β1
Nous savons que ∼ Tn−2 , par conséquent sous H0
b
σB1

B1
∼ Tn−2
bB1
σ

Intervalle de confiance de β1
 
1−α sn−2
IC β1 = b1 ± t(1−α/2;n−2) √∑ 
n
i=1 (xi − x̄ )2

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 28 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation des coefficients - β1

Dans le cas d’une régression linéaire simple de type :

Y = β1 X + β0 + ϵ

Tester la significativité globale du modèle

Tester la significativité de β1

Tester la significativité de ρ

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 29 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation des coefficients - β1

Lien entre test et intervalle de confiance

1−α
ICθ = {θ0 /H0 = {θ = θ0 } est accepté au niveau de confiance 1 − α}

Conséquences : pour tester H0 : β1 = 0 au risque α, on peut simplement vérifier


si 0 appartient ou non à l’intervalle de confiance :
Si 0 ∈ IC alors on conserve H0
Si 0 ∈
/ IC alors on rejette H0

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 30 / 100
Régression linéaire simple (Rappels) Inférence statistique

Evaluation des coefficients - β0


Test de significativité de β0

Idée : tester la nullité de β0 .


{
H0 : β0 = 0 "L’ordonnée à l’origine n’est pas significative"
H1 : β0 ̸= 0 "L’ordonnée à l’origine est significative"

B0 −β0
Nous savons que ∼ Tn−2 , par conséquent sous H0
b
σB0

B0
∼ Tn−2
bB0
σ

Intervalle de confiance de β0
[ √ ]
1−α 1 x̄ 2
IC = b0 ± t(1−α/2;n−2) sn−2 + ∑n
i=1 (xi − x̄ )
β0 2
n

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 31 / 100
Régression linéaire simple (Rappels) Prédiction

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 32 / 100
Régression linéaire simple (Rappels) Prédiction

Intervalle de prédiction d’une observation

Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la


valeur de yn+1 pour une observation xn+1 n’appartenant pas à l’échantillon :

ybn+1 = b1 xn+1 + b0
Or ybn+1 n’est qu’une estimation de la "vraie droite de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
[ √ ]
1−α
(xn+1 − x̄ )2
IC yn+1 = ybn+1 ± t(1−α/2;n−2) sn−2
1
1 + + ∑n
n i=1 (xi − x̄ )
2

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 33 / 100
Régression linéaire simple (Rappels) Prédiction

Intervalle de prédiction d’une observation

[ √ ]
1−α
(xn+1 − x̄ )2
IC yn+1 = ybn+1 ± t(1−α/2;n−2) sn−2
1
1 + + ∑n
n i=1 (xi − x̄ )
2

Quelques remarques
La taille du rayon de l’intervalle de confiance sera d’autant plus faible que
2
sn−2 est faible → la régression est de bonne qualité
n est élevé
n+1 est proche de x̄ ↔ (xn+1 − x̄ ) est faible
2
x∑
n
i=1
(x i − x̄ )2
est élevé → les x i sont bien dispersés
Attention : utiliser des valeurs de x qui sont dans le cadre d’étude
(relativement proches de x̄ pour obtenir de bonnes prédictions.

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 34 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)


Modèle de régression linéaire simple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Mise en évidence d’un problème

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 35 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème

Mise en évidence d’un problème


Vente de CD et cas de grippe H1N1 en 2009

Région Nb cas de grippe H1N1 Nb ventes CD M.J.


Région 1 . .
Région 2 . .
. . .
. . .
Région n . .

Il existe une liaison linéaire significative . . .

Test de ρ : p < 1.10−4 , Test de β1 : p < 1.10−4

. . . mais pas de relation de cause à effet !

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 36 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème

Mise en évidence d’un problème


Existence de Facteurs de confusion (ici : la période de temps)
Exemple : vente de CD de MJ les plus fortes en automne alors
{
↗ ventes
Pour la même période :
↗ cas de grippes

Temps

Grippe Ventes

Figure : Diagramme de corrélation

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 37 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème

Mise en évidence d’un problème

Nécessité de pouvoir ajuster sur des facteurs de confusion


Dans de nombreuses situations, plusieurs facteurs peuvent expliquer un
caractère
Y = f (X1 , X2 , . . . , Xp )
Régression linéaire multiple

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 38 / 100
Régression linéaire multiple

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 39 / 100
Régression linéaire multiple

Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X1 , X2 , . . . Xp sont des caractères contrôlés (caractères explicatifs)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xij est la valeur fixée pour l’individu i et la variable j, j ∈ {1, 2, . . . , p}

Objectif : Exprimer le lien entre Y et les Xj .

Y = f (X1 , X2 , . . . , Xp ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire

Régression linéaire multiple


1 Modèle de régression
2 Hyperplan de régression au sens des moindres carrés

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 40 / 100
Régression linéaire multiple

Exemple : Données véhicules


n = 31 véhicules pour lesquels on dispose de
Consommation (L/100Km)
Prix (Fr.)
Cylindrée (cm3)
Puissance (KW)
Poids (Kg)

Objectif : prédire la consommation (Y ) en fonction des différents paramètres.

Modèle de régression à estimer

Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ϵ

Modèle estimé sur un échantillon (hyperplan de régression)


\ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids
Conso

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 41 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 42 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Modèle de régression linéaire multiple


∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que


p
Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip + ϵi = β0 + βj xij + ϵi
j=1

Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 , . . . , βp : coefficients du modèle, constantes (valeurs fixes dans la
population).

Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendantes des Xj → COV(xij , ϵi ) = 0
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 43 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple

Ecriture du modèle
Sur un échantillon de n observations i.i.d. :

Y1 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1


Y2 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle
       
Y1 β0 1 x11 x12 ··· x1p ϵ1
   ..   .. .. ϵ =  .. 
Y =  ... β =  .  X= . ..
.
..
.
..
. .   . 
Yn βp 1 xn1 xn2 ··· xnp ϵn

Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 45 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires

Hyperplan de régression au sens des moindres carrés

Objectif : estimer β0 , β1 , . . . , βp grâce à leur estimateurs B0 , B1 , B2 , . . . , Bp et


leur réalisations b0 , b1 , b2 , . . . , bp sur un échantillon d’observations i.i.d. de taille
n.
     
β0 B0 b0
     
β =  ...  B =  ...  b =  ... 
βp Bp bp

Trouver b qui minimisent l’erreur :

( )2

n ∑
n ∑
p
S(β0 , . . . , βp ) = (ϵi )2 = yi − β0 − βj xij = ||ϵ||2
i=1 i=1 j=1

( )−1 T
Solution : b = XT X X Y

Remarque : B est appelé estimateur des moindres carrés de β. Détails

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 46 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires

Hyperplan de régression au sens des moindres carrés

L’ hyperplan de régression au sens des moindres carrés a pour expression :


p
ybi = b0 + bj xij
j=1

C’est une estimation du modèle de régression multiple par la méthode des


moindres carrés.

Les erreurs observées sur l’échantillon sont appelés résidus.


p
ei = (yi − ybi ) = yi − b0 − bj xij
j=1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 47 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires

Exemple : Données véhicules


Modèle de régression à estimer

Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + β0 + ϵ

Modèle estimé sur un échantillon (hyperplan de régression)


\ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids + b0
Conso

Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix 2.042e-05 8.731e-06
Cylindree -5.006e-04 5.748e-04
Puissance 2.499e-02 9.992e-03
Poids 4.161e-03 8.788e-04

Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 48 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires

Propriétés des estimateurs - Moments (1)

E[B] = β estimateur sans biais

( )−1
V[B] = σ 2 XT X

Détails

V[B](p+1)×(p+1) est appelée matrice de variances - covariances des coefficients :


 2 
bB0 COV (B0 , B1 ) . . . COV (B0 , Bp )
σ
 · bB2 1
σ . . . COV (B1 , Bp ) 
 
 .. 
 . · ... · 
· · ... bB2 p
σ

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 49 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires

Propriétés des estimateurs - Moments (2)

La matrice de variances - covariances V[B] fait intervenir la variance de l’erreur


σ2 .
Cette variance est inconnue
2
Elle est estimée par Sn−p−1 au moyen du tableau d’ANOVA.
On montre que
∑n 2
2 SCR (Ei )
Sn−p−1 = = i=1
n−p−1 n−p−1

est un estimateur non biaisé de σ 2 .

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 50 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires

Propriétés des estimateurs - Distributions d’échantillonnage

De par les hypothèses du modèle et l’estimation de σ 2 , on montre que


∀j ∈ {0, 1, . . . , p}

Bj − βj
∼ Tn−p−1 d.d.l.
bBj
σ

bBj tiré de la matrice de variances-covariances.


avec σ

Ces distributions vont nous permettre de réaliser une inférence statistique sur les
coefficients (tests de nullité et intervalles de confiance).

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 51 / 100
Régression linéaire multiple Qualité de l’ajustement

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 52 / 100
Régression linéaire multiple Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement

Qualité de l’ajustement

Equation d’analyse de la variance

yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b

n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1


n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement

Qualité de l’ajustement

Evaluation de la qualité d’ajustement du modèle

⇒ Coefficient de détermination

SCE
R2 = ∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire multiple.

Remarque importante : R 2 est fonction du nombre variables explicatives dans le


modèle (même non pertinentes)

p ↗ → R2 ↗

Aussi : tests de significativité des coefficients, sélection de variables (modèle


parcimonieux)

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 54 / 100
Régression linéaire multiple Qualité de l’ajustement

Exemple : Données véhicules

Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso

Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix 2.042e-05 8.731e-06
Cylindree -5.006e-04 5.748e-04
Puissance 2.499e-02 9.992e-03
Poids 4.161e-03 8.788e-04

Multiple R-squared: 0.9546

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 55 / 100
Régression linéaire multiple Validité du modèle

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 56 / 100
Régression linéaire multiple Validité du modèle

Etude de la validité du modèle

Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs
Vérifier la normalité des résidus observés
Vérifier que les résidus ne contiennent pas d’information structurée
(V[ϵ] = σ 2 )
Les résidus ne dépendent pas des Xj
Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont
mutuellement indépendantes)
→ Ces hypothèses vont permettre par la suite de réaliser des tests dans le
modèle linéaire.
Observations aberrantes / influentes
Valeur aberrante d’une observation (diagnostic univarié, multivarié)
Observation i mal reconstituée par la régression → (ei élevé)
Observation i présentant un poids exagéré dans la régression (prédiction /
coefficients)

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 57 / 100
Régression linéaire multiple Validité du modèle

Etude des résidus

Vérification de la normalité des résidus

histogramme ⇒ la distribution doit être unimodale et symétrique autour de 0.


Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peu
puissants (peu aptes à rejeter H0 )
Droite de Henry ⇒ confronte les quantiles théoriques de la loi normale et la
distribution cumulée estimée sur les données

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 58 / 100
Régression linéaire multiple Validité du modèle

Etude des
Etude des résidus
résidus
Vérification de l’homoscédasticité des résidus
Vérification de l’homoscédasticité des résidus
Les résidus sont homoscédastiques si leur répartition est homogène
Les résidus sont ditspas
et ne dépend homoscédastiques
des valeurs desilaleur dispersion
variable est homogène
explicative et ne
(et donc pas
dépend pas des valeurs de la variable explicative xj (et donc pas non plus des
non plus des valeurs prédites).
valeurs prédites).
On vérifie que les résidus n’ont pas de structure particulière en
On vérifie que les résidus n’ont pas de structure particulière en traçant un graphe
traçant: un graphe des résidus :
des résidus
Residus non correles Residus correles
4



● ●

2
● ●
● ●●
● ● ●●
● ● ●
● ●
●●

● ● ● ●
●● ● ● ● ●
● ●
2

● ●
● ●● ● ● ●
●● ●
● ● ●
● ●

1
●● ● ●
● ● ● ● ● ● ●
● ●
●●
● ●
● ●●
● ● ● ●●● ● ● ●● ●
●● ● ● ●● ●
● ● ● ●

● ● ● ● ●● ● ●
● ● ●
● ● ●● ● ● ●● ● ● ● ● ●
Residus

Residus
● ● ● ● ● ●
● ● ● ● ● ● ● ●●
● ●●
●● ● ● ● ● ● ● ● ● ●
● ●● ● ● ●● ● ● ●● ●● ●
●●
●● ● ● ● ● ● ● ● ●●● ●
0

● ● ● ●
● ●● ● ● ● ● ●
● ●● ● ● ●● ● ● ● ● ●

0
●● ● ● ●
● ●● ● ●● ● ●
● ● ● ●
● ● ●● ● ● ●●● ● ● ●● ● ● ●


● ● ● ● ● ●
● ● ●● ● ● ●
● ●● ● ● ●
● ●●● ●
● ● ●●● ● ●
● ● ● ●

●●
● ●●




● ●●
●● ● ● ● ● ● ● ●●
● ● ●
● ● ● ● ● ● ●

● ●●
● ● ●
● ●
● ●●
● ● ● ●

● ● ●

● ● ●● ●●
● ● ● ● ● ●●●
−2

● ●● ●● ● ● ●●
−1

● ●● ● ● ●
● ● ●● ● ● ●
● ● ● ●● ● ●
●● ● ●
● ●
● ●●




● ●●
● ●
−4

−2

−40 −20 0 20 40 −40 −20 0 20 40

X X

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 59 / 100
Régression linéaire multiple Validité du modèle

Etude des résidus

On peut localiser des points du nuage mal expliqués par la relation linéaire en
traçant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1
on peut considérer ces points, si ils ne sont pas trop nombreux, comme des
points exceptionnels, les éliminer et recalculer b1 et b0 .
on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindres
carrés pondérés (fonction de l’écart |y − ŷ |/2sn−p−1
2
). Méthode plus robuste
si il y a beaucoup de points mal expliqués (en dehors de la bande), c’est que
le modèle est mal choisi.

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 60 / 100
Régression linéaire multiple Validité du modèle

Etude des résidus

graphe des residus

6
4 ●


2


● ● ●
residus

● ●
−2

● ●
−4


−6

25 30 35 40 45 50 55

age

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 61 / 100
Régression linéaire multiple Validité du modèle

Etude des résidus


Vérification de l’indépendance entre les résidus

Test de Durbin Watson


{
H0 : il n’y a pas de corrélation entre ϵi et ϵi−1
H1 : il y a une corrélation entre ϵi et ϵi−1

∑n
(ei − ei−1 )2
i=2∑
d= n 2
i=1 ei

La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pas


d’autocorrélation.
La loi de d est tabulée : DL et DU bornes au risque α.
0 DL DU 2 4-DU 4-DL 4

AC ? ? AC
Positive Pas d’AC Négative
Rejet H0 Non Rejet de Rejet H0
H0

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 62 / 100
Régression linéaire multiple Validité du modèle

Observations aberrantes / influentes


Valeur aberrante de xj (Univarié) → Boxplot
Effet important sur l’estimation de l’hyperplan de régression
Mauvais ajustement aux données
Solution : descriptif univarié → boxplot

50
40
30
20
10

Problème : Ne prend pas en compte les interactions possibles entre les Xj .


Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 63 / 100
Régression linéaire multiple Validité du modèle

Observations aberrantes / influentes

Valeur aberrante (Multivarié) → Levier


Principe : Pour une observation i, mesure la distance avec le centre de gravité du
nuage défini par les Xj , j ∈ {1, , . . . , p}
Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) :
( )−1 T
H = X XT X X

En pratique
( )−1 T
hii = hi = xi XT X xi

avec xi la ième ligne de la matrice X.

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 64 / 100
Régression linéaire multiple Validité du modèle

Observations aberrantes / influentes

Valeur aberrante (Multivarié) → Levier

Règle de décision

p+1
R.C . : hi > 2 ×
n

Permet de détecter des observations aberrantes / influentes d’un point de vue


multivarié
Effet néfaste sur l’estimation des βj par les MCO

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 65 / 100
Régression linéaire multiple Validité du modèle

Exemple : Données véhicules


1. Levier Seuil : 2(p + 1)/n = 2(4 + 1)/31 = 0.32.

Ferrari.456.GT

0.8
0.6

Maserati.Ghibli.GT
Levier

Mercedes.S.600
0.4

Toyota.Previa.salon
Hyundai.Sonata.3000
0.2

Seat.Alhambra.2.0

Daihatsu.Cuore Subaru.Vivio.4WD Lancia.K.3.0.LS Peugeot.806.2.0


Opel.Omega.2.5i.V6
Mazda.Hachtback.V
Fiat.Panda.Mambo.L
Opel.Corsa.1.2i.Eco Seat.Ibiza.2.0.GTI Mitsubishi.Galant
Suzuki.Swift.1.0.GLS
VW.Polo.1.4.60 Volvo.960.Kombi.aut
Renault.Safrane.2.2..V
Toyota.Corolla Opel.Astra.1.6i.16V Citroen.ZX.Volcane Ford.Fiesta.1.2.Zetec
Honda.Civic.Joker.1.4
Fort.Escort.1.4i.PT
Volvo.850.2.5 Nissan.Primera.2.0
Peugeot.306.XS.108
VW.Golt.2.0.GTI
Fiat.Tempra.1.6.Liberty

0 5 10 15 20 25 30
Index

ID Modele Prix Cylindree Puissance Poids Consommation


Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3
Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7
Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500 2789 209 1485 14.5

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 66 / 100
Régression linéaire multiple Validité du modèle

Exemple : Données véhicules

1. Levier Interprétation : 3 véhicules se démarquent. Raisons potentielles :

Grosses cylindrées luxueuses


Limousine (Mercedes)
Sportives (Ferrari et Maserati)

ID Modele Prix Cylindree Puissance Poids Consommation


Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3
Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7
Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500 2789 209 1485 14.5

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 67 / 100
Régression linéaire multiple Validité du modèle

Observations aberrantes / influentes

Résidus studentisés internes


Idée : Mettre en évidence les observations dont le résidu ei est important Pour une
observation i, le résidu studentisé interne est défini par :

ei
ti = √
sn−p−1 1 − hi

avec hi levier de l’observation i. On montre que

Ti ∼ T(n−p−1) .

D’où :
1−α/2
RC : |ti | > tn−p−1
Problème : L’observation évaluée a participé à la construction de la droite (Juge
et partie).

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 68 / 100
Régression linéaire multiple Validité du modèle

Observations aberrantes / influentes


Résidus studentisés externes
Idée : Estimer le modèle sans l’observation i (−i) et comparer la valeur observée
de yi à celle prédite par le modèle (ŷi (−i) : prédiction pour une nouvelle
observation).
Pour une observation i, le résidu studentisé externe est défini par :

yi − ŷi (−i)
ti∗ = √
sn−p−1 (−i) 1 − hi (−i)
On montre que
Ti∗ ∼ T(n−p−1) .
D’où :
RC : |ti∗ | > tn−p−1
1−α/2

Remarque : √
n−p−2
ti∗ =
n − p − 1 − ti2

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 69 / 100
Régression linéaire multiple Validité du modèle

Observations aberrantes / influentes

Distance de Cook
Idée : Evaluer l’influence d’une observation i sur l’estimation des coefficients.
Comparaison des prédictions du modèle complet et du modèle sans l’observation i.
La distance de Cook pour une observation i est définie par
∑n
j=1 (yˆj − yˆj (−i))2
Di = 2
(p + 1)sn−p−1

Règle de décision
RC : Di > 1
4
RC : Di > (Ajustement sur le nombre de variables)
n−p−1
Si la différence entre les prédictions est élevée, l’observations i joue un rôle sur
l’estimation des coefficients.

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 70 / 100
Régression linéaire multiple Validité du modèle

Exemple : données véhicules


2. Distance de Cook
Seuil : 4/(n − p − 1) = 4/(31 − 4 − 1) = 0.154

Ferrari.456.GT
5
cooks.distance(fit)
4
3
2
1

Mercedes.S.600

Hyundai.Sonata.3000
Seat.Ibiza.2.0.GTI Mitsubishi.Galant Toyota.Previa.salon
Opel.Omega.2.5i.V6
0

Toyota.Corolla
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Subaru.Vivio.4WD
VW.Polo.1.4.60
Fiat.Panda.Mambo.L
Daihatsu.Cuore Opel.Astra.1.6i.16V
Maserati.Ghibli.GT
Peugeot.306.XS.108 Fiat.Tempra.1.6.Liberty
Renault.Safrane.2.2..V
VW.Golt.2.0.GTI Ford.Fiesta.1.2.Zetec
Honda.Civic.Joker.1.4
Fort.Escort.1.4i.PT
Citroen.ZX.Volcane Lancia.K.3.0.LS
Volvo.850.2.5 Mazda.Hachtback.V Seat.Alhambra.2.0
Peugeot.806.2.0Volvo.960.Kombi.aut
Nissan.Primera.2.0

0 5 10 15 20 25 30
Index

ID Modele Prix Cylindree Puissance Poids Consommation


Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3
Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 71 / 100
Régression linéaire multiple Validité du modèle

Observations aberrantes / influentes

DFBETAS
Idée : Si la distance de COOK a identifié une observation ayant une influence sur
l’estimation des coefficients, on peut aller plus loin pour déterminer quel
coefficient est affecté.
Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, le
DFBETAS est défini par :

bj − bj (−i)
DFBETASi,j = √
−1
sn−p−1 (−i) (XT X)j

Règle de décision
2
RC : |DFBETASi,j | > √
n

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 72 / 100
Régression linéaire multiple Validité du modèle

Exemple : données véhicules


√ √
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|

Ferrari.456.GT
3
2
dfbeta$Prix
1

Mercedes.S.600
Toyota.Previa.salon
Lancia.K.3.0.LS Seat.Alhambra.2.0
Subaru.Vivio.4WD Opel.Astra.1.6i.16V Citroen.ZX.Volcane
Fort.Escort.1.4i.PT Nissan.Primera.2.0
Opel.Corsa.1.2i.Eco Opel.Omega.2.5i.V6
0

Fiat.Panda.Mambo.L
Daihatsu.Cuore
Suzuki.Swift.1.0.GLS Toyota.Corolla Fiat.Tempra.1.6.Liberty
Renault.Safrane.2.2..V Honda.Civic.Joker.1.4
Ford.Fiesta.1.2.Zetec Peugeot.806.2.0Volvo.960.Kombi.aut
VW.Polo.1.4.60 VW.Golt.2.0.GTI
Peugeot.306.XS.108 Volvo.850.2.5
Maserati.Ghibli.GT Mazda.Hachtback.V
Seat.Ibiza.2.0.GTI Mitsubishi.Galant
Hyundai.Sonata.3000

0 5 10 15 20 25 30
Index

ID Modele Prix Cylindree Puissance Poids Consommation


Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3
Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 73 / 100
Régression linéaire multiple Validité du modèle

Exemple : données véhicules


√ √
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|

Hyundai.Sonata.3000
1.0
0.5
dfbeta$Cylindree

Seat.Ibiza.2.0.GTI Opel.Omega.2.5i.V6
Honda.Civic.Joker.1.4
0.0

Peugeot.306.XS.108
Toyota.Corolla Opel.Astra.1.6i.16VVW.Golt.2.0.GTI Ford.Fiesta.1.2.Zetec
Volvo.850.2.5
Fiat.Tempra.1.6.Liberty Peugeot.806.2.0
Mazda.Hachtback.V
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Fiat.Panda.Mambo.L
Daihatsu.Cuore Nissan.Primera.2.0
Citroen.ZX.Volcane
Fort.Escort.1.4i.PT Lancia.K.3.0.LS
VW.Polo.1.4.60
Subaru.Vivio.4WD Renault.Safrane.2.2..V Toyota.Previa.salon
Volvo.960.Kombi.aut
Seat.Alhambra.2.0
Maserati.Ghibli.GT
Mitsubishi.Galant
−0.5

Ferrari.456.GT
−1.0

Mercedes.S.600

0 5 10 15 20 25 30
Index

ID Modele Prix Cylindree Puissance Poids Consommation


Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3
Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 74 / 100
Régression linéaire multiple Validité du modèle

Exemple : données véhicules


√ √
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|

Mitsubishi.Galant
0.5

Maserati.Ghibli.GT
Mercedes.S.600
dfbeta$Puissance

VW.Polo.1.4.60
Volvo.960.Kombi.aut
Seat.Ibiza.2.0.GTI Mazda.Hachtback.V
0.0

Subaru.Vivio.4WD
Toyota.Corolla Renault.Safrane.2.2..V
Peugeot.306.XS.108 Peugeot.806.2.0
Suzuki.Swift.1.0.GLS
Daihatsu.Cuore
Fiat.Panda.Mambo.L
Opel.Corsa.1.2i.Eco VW.Golt.2.0.GTI
Citroen.ZX.Volcane Volvo.850.2.5
Ford.Fiesta.1.2.Zetec
Fiat.Tempra.1.6.Liberty
Fort.Escort.1.4i.PT Nissan.Primera.2.0
Opel.Astra.1.6i.16V Honda.Civic.Joker.1.4 Lancia.K.3.0.LS Seat.Alhambra.2.0
Opel.Omega.2.5i.V6

Toyota.Previa.salon
−0.5

Hyundai.Sonata.3000

Ferrari.456.GT

0 5 10 15 20 25 30
Index

ID Modele Prix Cylindree Puissance Poids Consommation


Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3
Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 75 / 100
Régression linéaire multiple Validité du modèle

Exemple : données véhicules


√ √
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|

Toyota.Previa.salon

Mercedes.S.600
0.4

Seat.Alhambra.2.0
0.2

Renault.Safrane.2.2..V
Volvo.960.Kombi.aut
dfbeta$Poids

Suzuki.Swift.1.0.GLS
VW.Polo.1.4.60 Opel.Astra.1.6i.16V Ford.Fiesta.1.2.Zetec
Fort.Escort.1.4i.PT
Citroen.ZX.Volcane Lancia.K.3.0.LS
0.0

Daihatsu.Cuore Toyota.Corolla
Maserati.Ghibli.GT Nissan.Primera.2.0
Opel.Corsa.1.2i.Eco
Subaru.Vivio.4WD
Fiat.Panda.Mambo.L Volvo.850.2.5
Fiat.Tempra.1.6.Liberty
VW.Golt.2.0.GTI Peugeot.806.2.0
Mazda.Hachtback.V
Peugeot.306.XS.108
Honda.Civic.Joker.1.4
−0.6 −0.4 −0.2

Mitsubishi.Galant

Ferrari.456.GT Seat.Ibiza.2.0.GTI
Opel.Omega.2.5i.V6

Hyundai.Sonata.3000

0 5 10 15 20 25 30
Index

ID Modele Prix Cylindree Puissance Poids Consommation


Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3
Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 76 / 100
Régression linéaire multiple Inférence statistique

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 77 / 100
Régression linéaire multiple Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par les Xj traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = i (ŷi − ȳ )2 p CME = CME
∑ p
Résiduelle SCR = 2
i
(yi − ŷi ) n−p−1 CMR
CMR = n−p−1

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par les Xj traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = i (ŷi − ȳ )2 p CME = CME
∑ p
Résiduelle SCR = 2
i
(yi − ŷi ) n−p−1 CMR
CMR = n−p−1

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par les Xj traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = i (ŷi − ȳ )2 p CME = CME
∑ p
Résiduelle SCR = 2
i
(yi − ŷi ) n−p−1 CMR
CMR = n−p−1

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique

Evaluation globale de la régression


Tableau d’analyse de variance - Test de significativité globale

R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la


régression de Y par les Xj traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA

Source de variation Somme des carrés DDL Carrés moyens



Expliquée SCE = i (ŷi − ȳ )2 p CME = CME
∑ p
Résiduelle SCR = 2
i
(yi − ŷi ) n−p−1 CMR
CMR = n−p−1

Totale SCT = i
(yi − ȳ )2 n−1 -

Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique

Evaluation globale de la régression

Tableau d’analyse de variance - Test de significativité globale

Le test F permet d’évaluer la significativité globale de la régression.


{
H0 : β1 = β2 = . . . = βp = 0
H1 : ∃j/βj ̸= 0

Sous H0

CME
F = ∼ Fp,n−p−1 ddl
CMR
Interprétation : {
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 79 / 100
Régression linéaire multiple Inférence statistique

Evaluation des coefficients - βj


Test de significativité de βj

Idée : tester la nullité de βj .


{
H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y"
H1 : βj ̸= 0 ”Xj a un pouvoir explicatif sur Y"

Bj −βj
Nous savons que ∼ Tn−p−1 , par conséquent :
b
σ Bj
Sous H0

Bj
∼ Tn−p−2
bBj
σ

Intervalle de confiance de βj

1−α [ ]
ICβ j
= bj ± t(1−α/2;n−p−1) σ
bBj

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 80 / 100
Régression linéaire multiple Inférence statistique

Exemple : données véhicule

Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.456e+00 6.268e-01 3.919 0.000578 ***
Prix 2.042e-05 8.731e-06 2.339 0.027297 *
Cylindree -5.006e-04 5.748e-04 -0.871 0.391797
Puissance 2.499e-02 9.992e-03 2.501 0.018993 *
Poids 4.161e-03 8.788e-04 4.734 6.77e-05 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’0.1 ’ ’ 1

Residual standard error: 0.8172 on 26 degrees of freedom


Multiple R-squared: 0.9546, Adjusted R-squared: 0.9476
F-statistic: 136.5 on 4 and 26 DF, p-value: < 2.2e-16

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 81 / 100
Régression linéaire multiple Prédiction

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 82 / 100
Régression linéaire multiple Prédiction

Intervalle de prédiction d’une observation

Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la


valeur de yn+1 pour une observation Xn+1 n’appartenant pas à l’échantillon :

Xn+1 = (xn+1,1 , xn+1,2 , . . . , xn+1,p )


p
ybn+1 = b0 + bj xn+1,j
j=1

ybn+1 = Xn+1 .b
Or ybn+1 n’est qu’une estimation du "vrai hyperplan de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
1−α [ √ ]
IC yn+1
−1
= ybn+1 ± t(1−αr ;n−p−1) sn−p−1 1 + Xn+1 (XT X) XTn+1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 83 / 100
Régression linéaire multiple Détection et traitement de la colinéarité

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 84 / 100
Régression linéaire multiple Détection et traitement de la colinéarité

Définition et conséquences de la colinéarité

Définition
Une variable explicative Xj est colinéaire à une autre variable Xk lorsque
rXj ,Xk > 0.8.
Une variable explicative Xj est multicolinéaire aux autres variables lorsque
′ ′ ′ ′ ′
Xj = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp ,

elle peut s’écrire comme une combinaison linéaire des autres variables explicatives.
Conséquences
Valeurs/Signes des coefficients contraires à l’intuition
Variances estimées des coefficients trop importantes
Coefficients non significatifs (inférence statistique)
Instabilité du modèle
Risque de passer à côté d’une variable importante (redondance)

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 85 / 100
Régression linéaire multiple Détection et traitement de la colinéarité

Détection de la colinéarité

Variance Inflation Factor - VIF


Principe : Pour chaque Xj , réalisation de la régression de Xj avec les autres
variables explicatives. On note Rj2 le coefficient de détermination associé à cette
régression.
Pour une variable Xj , le VIF est défini par

1
VIFj =
1 − Rj2

La valeur du VIF sera d’autant plus forte que Xj est une combinaison linéaire des
autres variables.
Règle de décision
VIFj ≥ 4
Rq : Détermination des variables incriminées dans la combinaison linéaire →
Cercle des corrélations (ACP)

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 86 / 100
Régression linéaire multiple Détection et traitement de la colinéarité

Détection de la colinéarité

Variance Inflation Factor - VIF


Remarque :
σ2
σB2 j = VIFj
n
Donc :
Plus la valeur de VIFj est importante plus σB2 j sera importante
Estimation instable
Problème de significativité du coefficient

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 87 / 100
Régression linéaire multiple Détection et traitement de la colinéarité

Traitement de la colinéarité

Approche "métier"

Mise en évidence de plusieurs variables explicatives colinéaires (VIF + ACP)


Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pour
l’analyse

Approche statistique

Méthode de sélection de variables (Forward, Backward, Stepwise)


Mais si toutes les variables sont pertinentes ?
Régression sur les composantes principales de l’ACP
Régression ridge
Régression PLS

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 88 / 100
Régression linéaire multiple Sélection de variables

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 89 / 100
Régression linéaire multiple Sélection de variables

Motivations - Critère de sélection de variables


Motivations
Sélection d’un sous-ensemble de Xj pertinentes et non redondantes qui
expliquent au mieux Y
Principe du rasoir d’Occam → Modèles parcimonieux
Modèle plus simple, lisible, robuste, stable
Nombre restreint de variables explicatives (collecte des données)
Traitement de la multicolinéarité

Critère de sélection de variables


Retrait ou ajout d’une variable Xj dans le modèle en fonction de sa valeur du Fj
partiel de Fisher :
( )2
Bj
Fj = ∼ F1,n−p−1
bBJ
σ

Détails

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 90 / 100
Régression linéaire multiple Sélection de variables

Motivations - Critère de sélection de variables

Autres critères de sélection de variables

R 2 ajusté
SCR/(n − p − 1)
R̄ 2 = 1 −
SCT /(n − 1)
AIC (à minimiser) ( )
SCR
AIC = n ln + 2(p + 1)
n
BIC de Schwartz (à maximiser)
( )
SCR
BIC = n ln + ln(n)(p + 1)
n
etc. . .

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 91 / 100
Régression linéaire multiple Sélection de variables

Méthodes de sélection de variables

Méthode ascendante (Forward)


Principe : On part du modèle sans Xj . On ajoute successivement les Xj qui sont
significatifs au sens du F partiel de Fisher et on s’arrête lorsqu’on ne peut plus
ajouter de Xj (NS dans le modèle)
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp }
( )
SI P Fj∗ > fj∗ < αsle ALORS
Ajout de Xj au modèle
SINON Arrêt
Fin TANT QUE
Remarques :
Plus αsle est élevé plus le nombre de variables dans le modèle sera important
En pratique : αsle = 0.2

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 92 / 100
Régression linéaire multiple Sélection de variables

Méthodes de sélection de variables

Méthode ascendante (Forward) - Exemple


Soient Y et X1 , X2 , X3 sur un échantillon de n = 50 observations

Etape Modèle ddl F (p-value)


1 Y = β0 1 ;50-1-1 X1 → 43 (3, 51.10−8 )
X2 → 150 (2, 22.10−16 )
X3 → 12 (1, 11.10−3 )
2 Y = β0 + β2 X2 1 ;50-2-1 X1 → 9 (4, 31.10−3 )
X3 → 2 (0.1639)
3 Y = β0 + β2 X2 + β1 X1 1 ;50-3-1 X3 → 0.7 (0.4071)

X3 n’est plus significative dans le modèle. Modèle final :

Y = β0 + β2 X2 + β1 X1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 93 / 100
Régression linéaire multiple Sélection de variables

Méthodes de sélection de variables

Méthode descendante (Backward)


Principe : On part du modèle saturé (toutes les Xj ). On retire successivement les
Xj qui sont non significatifves au sens du F partiel de Fisher et on s’arrête
lorsqu’on toutes les Xj sont significatives.
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = min{F1 , . . . , Fp }
( )
SI P Fj∗ > fj∗ > αsls ALORS
Retrait de Xj du modèle
SINON Arrêt
Fin TANT QUE
Remarques :
Plus αsls est faible plus le nombre de variables dans le modèle sera faible
En pratique : αsls = 0.2

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 94 / 100
Régression linéaire multiple Sélection de variables

Méthodes de sélection de variables

Méthode Stepwise
Principe : "Mix" entre les méthodes ascendante et descendante. On début par le
modèle sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher
(αsle ). Dans les étapes suivantes, on vérifie que l’ajout d’une variable de conduit
pas à la non significativité (αsls ) des autres déjà présentes dans le modèle (phase
descendante).
Le processus se termine quand aucune Xj n’est significative lors de la phase
ascendante.
Avantage : Contrairement la méthode ascendante, une Xj introduite dans le
modèle peut être remise en cause lors des étapes suivantes.
En pratique :
αsle = αsls = 0.2

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 95 / 100
Régression linéaire multiple Sélection de variables

Méthodes de sélection de variables

Méthode Stepwise
On part du modèle : Y = β0
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp }
( )
SI P Fj∗ > fj∗ < αsle ALORS
Ajout de Xj du modèle
POUR Chaque Xj inclue dans le modèle FAIRE
Calcul de Fj pour chaque Xj
Choix( de Fj∗ tel ∗
) que Fj = min{F1 , . . . , Fp }
∗ ∗
SI P Fj > fj > αsls ALORS
Retrait de Xj du modèle
FIN POUR
SINON Arrêt
Fin TANT QUE

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 96 / 100
Régression linéaire multiple Conclusions

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple


Modèle de régression linéaire multiple
Méthode des moindres carrés ordinaires
Qualité de l’ajustement
Validité du modèle
Inférence statistique
Prédiction
Détection et traitement de la colinéarité
Sélection de variables
Conclusions

5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 97 / 100
Régression linéaire multiple Conclusions

Processus de modélisation
1 Estimation des coefficients (MCO)
2 Mesure de la qualité d’ajustement (R 2 )
3 Etude la validité du modèle
Si hypothèses sur les erreurs non vérifiées → STOP
Si observations aberrantes/influentes →
Correction/Suppression
Retour à l’Etape 1

4 Inférence statistique
Test de significativité globale
Tests de significativité des coefficients
5 Evaluation de la multicolinéarité
6 Sélection de variables (Modèle parcimonieux)
Modèle restreint
Réitération des Etapes 1, 2, 3, 4

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 98 / 100
Références

Point étudié

1 Introduction à l’étude de deux variables quantitatives

2 Coefficient de corrélation (Rappels)

3 Régression linéaire simple (Rappels)

4 Régression linéaire multiple

5 Références

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 99 / 100
Références

Références

Livres
Probabilités Analyses des données et Statistique, G. Saporta, TECHNIP
Dodge, Y, Rousson, V., Analyse de régression appliquée, Dunod, 2ème édition,
2004.
Supports en ligne
Econométrie - Régression linéaire simple et multiple, R. Rakotomalala
http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

Pratique de la régression linéaire multiple - Diagnostic et Sélection de


variables, R. Rakotomalala
http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

Régression linéaire, A. Guyader


http:
//www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 100 / 100
Annexe 1 - Système aux équations normales


n
2
min S(β0 , β1 ) = min (yi − (β1 xi + β0 ))
i=1

n
[ 2 ]
= min yi − 2xi yi β1 − 2yi β0 + β12 xi2 + 2β0 β1 xi + β02
i=1

S(β0 , β1 ) est strictement convexe donc elle admet un minimum au point unique
(b0 , b1 ) déterminé en annulant les dérivées partielles de S :

∂S(β0 , β1 ) ∑ n
=0⇒ −2yi + 2b1 xi + 2b0 = 0 (1)
∂β0 i=1

∂S(β0 , β1 ) ∑ n
=0⇒ −2xi yi + 2b1 xi2 + 2b0 xi = 0 (2)
∂β1 i=1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 11
Annexe 1 - Système aux équations normales

De ( ??) on déduit que


∑n ∑n
i=1 yi − b1 i=1 xi
b0 = = ȳ − b1 x̄ (3)
n
De ( ??) on déduit que


n ∑
n ∑
n
b1 xi2 + b0 xi = xi yi (4)
i=1 i=1 i=1

En utilisant ( ??) nous obtenons


n ∑
n ∑
n
b1 xi2 + (ȳ − b1 x̄ ) xi = xi yi (5)
i=1 i=1 i=1

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 2 / 11
Annexe 1 - Système aux équations normales

En divisant par n les deux termes :

1∑ 2 1∑
n n
b1 xi + (ȳ − b1 x̄ )x̄ = xi yi (6)
n i=1 n i=1

[ ]
1∑ 2 1∑
n n
b1 xi − x̄ =
2
xi yi − x̄ ȳ (7)
n i=1 n i=1

sxy
b1 = (8)
sx2
Retour

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 3 / 11
Annexe 2 - RLM : MCO

Observons que ||ϵ||2 = ||Y − Xβ||2 . Aussi


T
||ϵ||2 = (Y − Xβ) (Y − Xβ) = YT Y − YT Xβ − β T XT Y + β T XT Xβ.

Or comme la transposée d’un scalaire est égale à lui-même :


( T )T
Y Xβ = β T XT Y,

nous avons donc

S(β0 , . . . , βp ) = ||ϵ||2 = YT Y − 2β T XT Y + β T XT Xβ

Minimiser la fonction S revient à annuler les dérivées différentielles par rapport à


β. L’annulation de la dérivation matricielle nous donne
∂S ( ) ( )
= −2 XT Y + 2 XT X b = 0
∂β

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 4 / 11
Annexe 2 - RLM : MCO

Aussi ) ( ( )
XT X b = XT Y .
( )
Or rg(X) = p et p ≤ n donc XT X est inversible. Aussi
( )−1 ( T )
b = XT X X Y

Retour

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 5 / 11
Annexe 3 - RLM : moments des estimateurs

Espérance
[( )−1 T ] ( T )−1 T
E[B] = E XT X X Y = X X X E[Y]
( )−1 T
E[B] = XT X X E[X.β + ϵ] = β

Variance
[( )−1 T ] ( )−1 ( )−1 T
V[B] = V XT X X Y = X XT X V[Y] XT X X
( T )−1 ( T )−1 T ( ) −1
V[B] = X X X V[ϵ] X X X = σ 2 XT X

Retour

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 6 / 11
Annexe 4 - F partiel de Fisher
L’égalité
( )2
Bj
F = ∼ F1,n−p−1
bBJ
σ
se base sur un cas particulier du test de nullité d’un bloc de q coefficients.
{
H0 : Y = β0 + β1 X1 + . . . + βj Xj + βj+q+1 Xj+q+1 + . . . + βp Xp + ϵ
H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ
{
H0 : Modèle sans les q variables (modèle restreint)
H1 : Modèle complet
Posons
2
R(0) : Coefficient de détermination du modèle restreint (H0 )

2
R(1) : Coefficient de détermination du modèle complet (H1 )

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 7 / 11
Annexe 4 - F partiel de Fisher

Notons F la statistique de test associée. On montre que sous H0 ,


( )
2
R(1) − R(0)
2
/q
F =( ) ∼ Fq,n−p−1
1 − R(1)
2 /(n − p − 1)

Autre interprétation : si l’accroissement


( ) q
2
R(1) − R(0)
2
> fq,n−p−1
n−p−1
alors la place des q variables dans le modèle est justifiée.

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 8 / 11
Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

On veut tester la nullité d’un coefficient βj


{
H0 : Y = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp + ϵ
H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ
{
H0 : Modèle sans Xj (modèle restreint)
H1 : Modèle complet
Posons
2
R(0) : Coefficient de détermination du modèle restreint (H0 )

2
R(1) : Coefficient de détermination du modèle complet (H1 )

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 9 / 11
Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

Notons F la statistique de test associée. On montre que sous H0 ,


( )
2
R(1) − R(0)
2
/1
F =( ) ∼ F1,n−p−1
1 − R(1)
2 /(n − p − 1)

Or
Bj
T = ∼ Tn−p−1
bBJ
σ
Donc ( )2
Bj
F = T2 =
bBJ
σ
Remarque : test de la significativité du coefficient et son apport au R 2 .

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 10 / 11
Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

Autre interprétation : si l’accroissement


( ) 1
2
R(1) − R(0)
2
> f1,n−p−1
n−p−1
alors la place de Xj dans le modèle est justifiée.

Note : Tests de type III sous SAS.


Retour

Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 11 / 11

Vous aimerez peut-être aussi