Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
michael.genin@univ-lille2.fr
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Plan
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 100
Introduction à l’étude de deux variables quantitatives
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 2 / 100
Introduction à l’étude de deux variables quantitatives
Introduction
Croisement de deux variables quantitatives
âge et fréquence cardiaque
Consommation et poids d’un véhicule
Capacité d’épargne et revenus
Etude du lien entre ces deux variables
Représentation graphique
Indicateur statistique (Coefficient de corrélation)
Modèle de prédiction (Régression linéaire)
Notations
On considère n individus sur lesquels on mesure X et Y deux variables
quantitatives.
Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )
qui représente les valeurs prises par X et Y pour l’individu i.
Remarque : les slides suivantes sont uniquement des rappels sur les principes de
corrélation et de régression linéaire simple et ne constituent en aucun cas un
cours !
→ Lien cours complet ←
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 3 / 100
Introduction à l’étude de deux variables quantitatives
1ère étape
Représentation graphique
Graphique pour représenter deux variables quantitatives ⇒ nuage de points
1ère étape de toute analyse de liaison : apprécier la forme de la relation entre les
deux variables
● ●
● ●●
●●● ● ● ●● ● ●●
●●●● ●●●●●●
0
●
● ●● ●● ●●●● ● ● ● ● ● ●● ●
● ●● ●
● ●● ● ● ●● ●
2
● ● ● ●● ● ●● ● ●
● ●● ●
●● ● ● ●●● ●
● ● ● ● ● ● ●
● ●●● ● ● ● ●
●● ● ● ●
●● ● ●
−500
● ● ●●
●●● ●
● ●● ● ●● ● ●
●●●●
●●●●
● ● ● ●
● ● ● ● ● ● ●● ● ●
●
●
●
● ● ● ● ● ● ●
●● ●● ● ● ●● ● ●● ●
●● ● ● ● ●● ●● ● ●
50
● ● ● ●
1
● ● ●● ● ●●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ●● ● ●
−1000
● ● ● ● ● ●
●● ● ● ●● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ●● ●● ● ● ●● ● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ●● ●
● ● ●●●
● ● ● ● ● ● ●
● ●● ●● ● ● ● ● ●● ● ● ●
● ●● ● ● ●● ● ●● ● ●● ●
●
●● ● ● ● ● ●
● ●●● ● ●●
● ● ●
●
● ● ●
●
● ●
● ● ● ●●
● ●● ● ● ●●
0
● ●● ●● ●● ● ● ● ●
−1500
●● ● ● ●● ●
● ●● ●● ● ●● ● ● ● ● ●● ●
Y
Y
● ●● ● ● ● ● ● ● ● ●
●
● ●● ●
● ● ● ● ● ●●● ●
● ●● ●●● ● ● ● ● ● ● ● ●
● ●● ●●● ● ● ● ● ● ● ●
●● ● ● ● ● ●● ●
● ● ● ● ● ●● ● ●● ● ● ●
●
● ●
●
● ● ●●
● ●● ●
0
● ● ● ●
● ●
● ● ●● ● ●
● ● ●
●● ●
●● ● ● ●
−2000
● ●
−1
● ● ● ●
● ● ● ●● ●● ●
● ●
● ● ● ●
● ● ● ● ● ● ●
● ●● ● ●● ●
● ● ●●
●● ● ●● ●
● ● ●
● ● ●
● ● ●● ● ● ● ●
● ● ● ●
● ● ● ● ●
● ●
−2500
−2
● ●● ● ●
● ●
●
−50
● ● ●●
●
●●
−3000
● ●
●
−3
−60 −40 −20 0 20 40 60 −60 −40 −20 0 20 40 60 −40 −20 0 20 40
X X X
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 4 / 100
Coefficient de corrélation (Rappels)
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 5 / 100
Coefficient de corrélation (Rappels) Définition
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 6 / 100
Coefficient de corrélation (Rappels) Définition
σXY
ρXY = ∈ [−1; 1]
σX σY
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 7 / 100
Coefficient de corrélation (Rappels) Test du coefficient de corrélation
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 8 / 100
Coefficient de corrélation (Rappels) Test du coefficient de corrélation
Test de la significativité de ρ
Principe du test : Test de la nullité du coefficient de corrélation.
Si ρ = 0 alors il n’y a pas de liaison linéaire entre X et Y
Si ρ ̸= 0 alors il existe une relation linéaire entre X et Y
Hypothèses du test {
H0 : ρ = 0
H1 : ρ ̸= 0
Statistique de test
Sous H0 ,
√
R n−2
T = √ ∼ Tn−2 ddl
1 − R2
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 9 / 100
Coefficient de corrélation (Rappels) Conclusions
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 10 / 100
Coefficient de corrélation (Rappels) Conclusions
Conclusions
Y = β1 X + β0 + ϵ
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 11 / 100
Régression linéaire simple (Rappels)
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 12 / 100
Régression linéaire simple (Rappels)
Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X est un caractère contrôlé (caractère explicatif)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xi est la valeur fixée pour l’individu i
Y = f (X ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 13 / 100
Régression linéaire simple (Rappels) Modèle de régression linéaire simple
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 14 / 100
Régression linéaire simple (Rappels) Modèle de régression linéaire simple
Yi = β1 xi + β0 + ϵi
Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 : coefficients du modèle, constantes (valeurs fixes dans la population).
Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendante de X → Cov(xi , ϵi ) = 0
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 15 / 100
Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 16 / 100
Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires
∑
n ∑
n
2
S(β0 , β1 ) = (ei )2 = (yi − (β1 xi + β0 ))
i=1 i=1
→ min S(β0 , β1 )
Dérivées partielles → Systèmes aux équations normales
sxy
Solutions : b1 = et b0 = ȳ − b1 x̄
sx2
Détails
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 17 / 100
Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires
ybi = b1 xi + b0
C’est une estimation du modèle de régression par la méthode des moindres carrés.
ei = (yi − ybi ) = yi − b1 xi − b0
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 18 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 19 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 20 / 100
Régression linéaire simple (Rappels) Qualité de l’ajustement
Qualité de l’ajustement
⇒ Coefficient de détermination
SCE
R2 = ∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire.
r 2 = R2
Conséquence : deux tests statistiques équivalents pour évaluer la liaison linéaire
entre X et Y .
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 21 / 100
Régression linéaire simple (Rappels) Validité du modèle
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 22 / 100
Régression linéaire simple (Rappels) Validité du modèle
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 23 / 100
Régression linéaire simple (Rappels) Validité du modèle
1 Descriptif univarié
2 Estimation des coefficients du modèle
3 Vérification des hypothèses sur les erreurs
4 Détection d’observations influentes
Si OUI : Correction ou suppression
Nouvelle estimation des coefficients
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 24 / 100
Régression linéaire simple (Rappels) Inférence statistique
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 25 / 100
Régression linéaire simple (Rappels) Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 26 / 100
Régression linéaire simple (Rappels) Inférence statistique
Sous H0
CME
F = ∼ F1,n−2 ddl
CMR
Interprétation : {
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 27 / 100
Régression linéaire simple (Rappels) Inférence statistique
B1 −β1
Nous savons que ∼ Tn−2 , par conséquent sous H0
b
σB1
B1
∼ Tn−2
bB1
σ
Intervalle de confiance de β1
1−α sn−2
IC β1 = b1 ± t(1−α/2;n−2) √∑
n
i=1 (xi − x̄ )2
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 28 / 100
Régression linéaire simple (Rappels) Inférence statistique
Y = β1 X + β0 + ϵ
Tester la significativité de β1
≡
Tester la significativité de ρ
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 29 / 100
Régression linéaire simple (Rappels) Inférence statistique
1−α
ICθ = {θ0 /H0 = {θ = θ0 } est accepté au niveau de confiance 1 − α}
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 30 / 100
Régression linéaire simple (Rappels) Inférence statistique
B0 −β0
Nous savons que ∼ Tn−2 , par conséquent sous H0
b
σB0
B0
∼ Tn−2
bB0
σ
Intervalle de confiance de β0
[ √ ]
1−α 1 x̄ 2
IC = b0 ± t(1−α/2;n−2) sn−2 + ∑n
i=1 (xi − x̄ )
β0 2
n
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 31 / 100
Régression linéaire simple (Rappels) Prédiction
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 32 / 100
Régression linéaire simple (Rappels) Prédiction
ybn+1 = b1 xn+1 + b0
Or ybn+1 n’est qu’une estimation de la "vraie droite de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
[ √ ]
1−α
(xn+1 − x̄ )2
IC yn+1 = ybn+1 ± t(1−α/2;n−2) sn−2
1
1 + + ∑n
n i=1 (xi − x̄ )
2
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 33 / 100
Régression linéaire simple (Rappels) Prédiction
[ √ ]
1−α
(xn+1 − x̄ )2
IC yn+1 = ybn+1 ± t(1−α/2;n−2) sn−2
1
1 + + ∑n
n i=1 (xi − x̄ )
2
Quelques remarques
La taille du rayon de l’intervalle de confiance sera d’autant plus faible que
2
sn−2 est faible → la régression est de bonne qualité
n est élevé
n+1 est proche de x̄ ↔ (xn+1 − x̄ ) est faible
2
x∑
n
i=1
(x i − x̄ )2
est élevé → les x i sont bien dispersés
Attention : utiliser des valeurs de x qui sont dans le cadre d’étude
(relativement proches de x̄ pour obtenir de bonnes prédictions.
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 34 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 35 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 36 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème
Temps
Grippe Ventes
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 37 / 100
Régression linéaire simple (Rappels) Mise en évidence d’un problème
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 38 / 100
Régression linéaire multiple
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 39 / 100
Régression linéaire multiple
Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X1 , X2 , . . . Xp sont des caractères contrôlés (caractères explicatifs)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xij est la valeur fixée pour l’individu i et la variable j, j ∈ {1, 2, . . . , p}
Y = f (X1 , X2 , . . . , Xp ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 40 / 100
Régression linéaire multiple
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 41 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 42 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
∑
p
Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip + ϵi = β0 + βj xij + ϵi
j=1
Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 , . . . , βp : coefficients du modèle, constantes (valeurs fixes dans la
population).
Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendantes des Xj → COV(xij , ϵi ) = 0
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 43 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Ecriture matricielle
Y1 β0 1 x11 x12 ··· x1p ϵ1
.. .. .. ϵ = ..
Y = ... β = . X= . ..
.
..
.
..
. . .
Yn βp 1 xn1 xn2 ··· xnp ϵn
Y= X. β +ϵ
n×1 n × (p + 1) (p + 1) × 1 n×1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 44 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 45 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires
( )2
∑
n ∑
n ∑
p
S(β0 , . . . , βp ) = (ϵi )2 = yi − β0 − βj xij = ||ϵ||2
i=1 i=1 j=1
( )−1 T
Solution : b = XT X X Y
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 46 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires
∑
p
ybi = b0 + bj xij
j=1
∑
p
ei = (yi − ybi ) = yi − b0 − bj xij
j=1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 47 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires
Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix 2.042e-05 8.731e-06
Cylindree -5.006e-04 5.748e-04
Puissance 2.499e-02 9.992e-03
Poids 4.161e-03 8.788e-04
Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 48 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires
( )−1
V[B] = σ 2 XT X
Détails
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 49 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 50 / 100
Régression linéaire multiple Méthode des moindres carrés ordinaires
Bj − βj
∼ Tn−p−1 d.d.l.
bBj
σ
Ces distributions vont nous permettre de réaliser une inférence statistique sur les
coefficients (tests de nullité et intervalles de confiance).
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 51 / 100
Régression linéaire multiple Qualité de l’ajustement
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 52 / 100
Régression linéaire multiple Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement
Qualité de l’ajustement
yi − ȳ ) + (yi − ybi )
yi − ȳ = (b
yi − ȳ )2 + (yi − ybi )2
(yi − ȳ )2 = (b
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2 +
(b (yi − ybi )2
i=1 i=1 i=1
∑
n ∑
n ∑
n
(yi − ȳ )2 = yi − ȳ )2
(b + (yi − ybi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Somme des carrés Somme des carrés Somme des carrés
totale expliquée résiduelle
SCT SCE SCR
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 53 / 100
Régression linéaire multiple Qualité de l’ajustement
Qualité de l’ajustement
⇒ Coefficient de détermination
SCE
R2 = ∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire multiple.
p ↗ → R2 ↗
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 54 / 100
Régression linéaire multiple Qualité de l’ajustement
Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix 2.042e-05 8.731e-06
Cylindree -5.006e-04 5.748e-04
Puissance 2.499e-02 9.992e-03
Poids 4.161e-03 8.788e-04
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 55 / 100
Régression linéaire multiple Validité du modèle
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 56 / 100
Régression linéaire multiple Validité du modèle
Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs
Vérifier la normalité des résidus observés
Vérifier que les résidus ne contiennent pas d’information structurée
(V[ϵ] = σ 2 )
Les résidus ne dépendent pas des Xj
Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont
mutuellement indépendantes)
→ Ces hypothèses vont permettre par la suite de réaliser des tests dans le
modèle linéaire.
Observations aberrantes / influentes
Valeur aberrante d’une observation (diagnostic univarié, multivarié)
Observation i mal reconstituée par la régression → (ei élevé)
Observation i présentant un poids exagéré dans la régression (prédiction /
coefficients)
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 57 / 100
Régression linéaire multiple Validité du modèle
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 58 / 100
Régression linéaire multiple Validité du modèle
Etude des
Etude des résidus
résidus
Vérification de l’homoscédasticité des résidus
Vérification de l’homoscédasticité des résidus
Les résidus sont homoscédastiques si leur répartition est homogène
Les résidus sont ditspas
et ne dépend homoscédastiques
des valeurs desilaleur dispersion
variable est homogène
explicative et ne
(et donc pas
dépend pas des valeurs de la variable explicative xj (et donc pas non plus des
non plus des valeurs prédites).
valeurs prédites).
On vérifie que les résidus n’ont pas de structure particulière en
On vérifie que les résidus n’ont pas de structure particulière en traçant un graphe
traçant: un graphe des résidus :
des résidus
Residus non correles Residus correles
4
●
●
● ●
2
● ●
● ●●
● ● ●●
● ● ●
● ●
●●
●
● ● ● ●
●● ● ● ● ●
● ●
2
● ●
● ●● ● ● ●
●● ●
● ● ●
● ●
1
●● ● ●
● ● ● ● ● ● ●
● ●
●●
● ●
● ●●
● ● ● ●●● ● ● ●● ●
●● ● ● ●● ●
● ● ● ●
●
● ● ● ● ●● ● ●
● ● ●
● ● ●● ● ● ●● ● ● ● ● ●
Residus
Residus
● ● ● ● ● ●
● ● ● ● ● ● ● ●●
● ●●
●● ● ● ● ● ● ● ● ● ●
● ●● ● ● ●● ● ● ●● ●● ●
●●
●● ● ● ● ● ● ● ● ●●● ●
0
● ● ● ●
● ●● ● ● ● ● ●
● ●● ● ● ●● ● ● ● ● ●
0
●● ● ● ●
● ●● ● ●● ● ●
● ● ● ●
● ● ●● ● ● ●●● ● ● ●● ● ● ●
●
●
● ● ● ● ● ●
● ● ●● ● ● ●
● ●● ● ● ●
● ●●● ●
● ● ●●● ● ●
● ● ● ●
●
●●
● ●●
●
●
●
●
● ●●
●● ● ● ● ● ● ● ●●
● ● ●
● ● ● ● ● ● ●
●
● ●●
● ● ●
● ●
● ●●
● ● ● ●
●
● ● ●
●
● ● ●● ●●
● ● ● ● ● ●●●
−2
● ●● ●● ● ● ●●
−1
● ●● ● ● ●
● ● ●● ● ● ●
● ● ● ●● ● ●
●● ● ●
● ●
● ●●
●
●
●
●
● ●●
● ●
−4
−2
X X
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 59 / 100
Régression linéaire multiple Validité du modèle
On peut localiser des points du nuage mal expliqués par la relation linéaire en
traçant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1
on peut considérer ces points, si ils ne sont pas trop nombreux, comme des
points exceptionnels, les éliminer et recalculer b1 et b0 .
on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindres
carrés pondérés (fonction de l’écart |y − ŷ |/2sn−p−1
2
). Méthode plus robuste
si il y a beaucoup de points mal expliqués (en dehors de la bande), c’est que
le modèle est mal choisi.
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 60 / 100
Régression linéaire multiple Validité du modèle
6
4 ●
●
2
●
● ● ●
residus
● ●
−2
● ●
−4
●
−6
25 30 35 40 45 50 55
age
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 61 / 100
Régression linéaire multiple Validité du modèle
∑n
(ei − ei−1 )2
i=2∑
d= n 2
i=1 ei
AC ? ? AC
Positive Pas d’AC Négative
Rejet H0 Non Rejet de Rejet H0
H0
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 62 / 100
Régression linéaire multiple Validité du modèle
50
40
30
20
10
En pratique
( )−1 T
hii = hi = xi XT X xi
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 64 / 100
Régression linéaire multiple Validité du modèle
Règle de décision
p+1
R.C . : hi > 2 ×
n
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 65 / 100
Régression linéaire multiple Validité du modèle
Ferrari.456.GT
0.8
0.6
Maserati.Ghibli.GT
Levier
Mercedes.S.600
0.4
Toyota.Previa.salon
Hyundai.Sonata.3000
0.2
Seat.Alhambra.2.0
0 5 10 15 20 25 30
Index
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 66 / 100
Régression linéaire multiple Validité du modèle
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 67 / 100
Régression linéaire multiple Validité du modèle
ei
ti = √
sn−p−1 1 − hi
Ti ∼ T(n−p−1) .
D’où :
1−α/2
RC : |ti | > tn−p−1
Problème : L’observation évaluée a participé à la construction de la droite (Juge
et partie).
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 68 / 100
Régression linéaire multiple Validité du modèle
yi − ŷi (−i)
ti∗ = √
sn−p−1 (−i) 1 − hi (−i)
On montre que
Ti∗ ∼ T(n−p−1) .
D’où :
RC : |ti∗ | > tn−p−1
1−α/2
Remarque : √
n−p−2
ti∗ =
n − p − 1 − ti2
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 69 / 100
Régression linéaire multiple Validité du modèle
Distance de Cook
Idée : Evaluer l’influence d’une observation i sur l’estimation des coefficients.
Comparaison des prédictions du modèle complet et du modèle sans l’observation i.
La distance de Cook pour une observation i est définie par
∑n
j=1 (yˆj − yˆj (−i))2
Di = 2
(p + 1)sn−p−1
Règle de décision
RC : Di > 1
4
RC : Di > (Ajustement sur le nombre de variables)
n−p−1
Si la différence entre les prédictions est élevée, l’observations i joue un rôle sur
l’estimation des coefficients.
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 70 / 100
Régression linéaire multiple Validité du modèle
Ferrari.456.GT
5
cooks.distance(fit)
4
3
2
1
Mercedes.S.600
Hyundai.Sonata.3000
Seat.Ibiza.2.0.GTI Mitsubishi.Galant Toyota.Previa.salon
Opel.Omega.2.5i.V6
0
Toyota.Corolla
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Subaru.Vivio.4WD
VW.Polo.1.4.60
Fiat.Panda.Mambo.L
Daihatsu.Cuore Opel.Astra.1.6i.16V
Maserati.Ghibli.GT
Peugeot.306.XS.108 Fiat.Tempra.1.6.Liberty
Renault.Safrane.2.2..V
VW.Golt.2.0.GTI Ford.Fiesta.1.2.Zetec
Honda.Civic.Joker.1.4
Fort.Escort.1.4i.PT
Citroen.ZX.Volcane Lancia.K.3.0.LS
Volvo.850.2.5 Mazda.Hachtback.V Seat.Alhambra.2.0
Peugeot.806.2.0Volvo.960.Kombi.aut
Nissan.Primera.2.0
0 5 10 15 20 25 30
Index
DFBETAS
Idée : Si la distance de COOK a identifié une observation ayant une influence sur
l’estimation des coefficients, on peut aller plus loin pour déterminer quel
coefficient est affecté.
Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, le
DFBETAS est défini par :
bj − bj (−i)
DFBETASi,j = √
−1
sn−p−1 (−i) (XT X)j
Règle de décision
2
RC : |DFBETASi,j | > √
n
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 72 / 100
Régression linéaire multiple Validité du modèle
Ferrari.456.GT
3
2
dfbeta$Prix
1
Mercedes.S.600
Toyota.Previa.salon
Lancia.K.3.0.LS Seat.Alhambra.2.0
Subaru.Vivio.4WD Opel.Astra.1.6i.16V Citroen.ZX.Volcane
Fort.Escort.1.4i.PT Nissan.Primera.2.0
Opel.Corsa.1.2i.Eco Opel.Omega.2.5i.V6
0
Fiat.Panda.Mambo.L
Daihatsu.Cuore
Suzuki.Swift.1.0.GLS Toyota.Corolla Fiat.Tempra.1.6.Liberty
Renault.Safrane.2.2..V Honda.Civic.Joker.1.4
Ford.Fiesta.1.2.Zetec Peugeot.806.2.0Volvo.960.Kombi.aut
VW.Polo.1.4.60 VW.Golt.2.0.GTI
Peugeot.306.XS.108 Volvo.850.2.5
Maserati.Ghibli.GT Mazda.Hachtback.V
Seat.Ibiza.2.0.GTI Mitsubishi.Galant
Hyundai.Sonata.3000
0 5 10 15 20 25 30
Index
Hyundai.Sonata.3000
1.0
0.5
dfbeta$Cylindree
Seat.Ibiza.2.0.GTI Opel.Omega.2.5i.V6
Honda.Civic.Joker.1.4
0.0
Peugeot.306.XS.108
Toyota.Corolla Opel.Astra.1.6i.16VVW.Golt.2.0.GTI Ford.Fiesta.1.2.Zetec
Volvo.850.2.5
Fiat.Tempra.1.6.Liberty Peugeot.806.2.0
Mazda.Hachtback.V
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Fiat.Panda.Mambo.L
Daihatsu.Cuore Nissan.Primera.2.0
Citroen.ZX.Volcane
Fort.Escort.1.4i.PT Lancia.K.3.0.LS
VW.Polo.1.4.60
Subaru.Vivio.4WD Renault.Safrane.2.2..V Toyota.Previa.salon
Volvo.960.Kombi.aut
Seat.Alhambra.2.0
Maserati.Ghibli.GT
Mitsubishi.Galant
−0.5
Ferrari.456.GT
−1.0
Mercedes.S.600
0 5 10 15 20 25 30
Index
Mitsubishi.Galant
0.5
Maserati.Ghibli.GT
Mercedes.S.600
dfbeta$Puissance
VW.Polo.1.4.60
Volvo.960.Kombi.aut
Seat.Ibiza.2.0.GTI Mazda.Hachtback.V
0.0
Subaru.Vivio.4WD
Toyota.Corolla Renault.Safrane.2.2..V
Peugeot.306.XS.108 Peugeot.806.2.0
Suzuki.Swift.1.0.GLS
Daihatsu.Cuore
Fiat.Panda.Mambo.L
Opel.Corsa.1.2i.Eco VW.Golt.2.0.GTI
Citroen.ZX.Volcane Volvo.850.2.5
Ford.Fiesta.1.2.Zetec
Fiat.Tempra.1.6.Liberty
Fort.Escort.1.4i.PT Nissan.Primera.2.0
Opel.Astra.1.6i.16V Honda.Civic.Joker.1.4 Lancia.K.3.0.LS Seat.Alhambra.2.0
Opel.Omega.2.5i.V6
Toyota.Previa.salon
−0.5
Hyundai.Sonata.3000
Ferrari.456.GT
0 5 10 15 20 25 30
Index
Toyota.Previa.salon
Mercedes.S.600
0.4
Seat.Alhambra.2.0
0.2
Renault.Safrane.2.2..V
Volvo.960.Kombi.aut
dfbeta$Poids
Suzuki.Swift.1.0.GLS
VW.Polo.1.4.60 Opel.Astra.1.6i.16V Ford.Fiesta.1.2.Zetec
Fort.Escort.1.4i.PT
Citroen.ZX.Volcane Lancia.K.3.0.LS
0.0
Daihatsu.Cuore Toyota.Corolla
Maserati.Ghibli.GT Nissan.Primera.2.0
Opel.Corsa.1.2i.Eco
Subaru.Vivio.4WD
Fiat.Panda.Mambo.L Volvo.850.2.5
Fiat.Tempra.1.6.Liberty
VW.Golt.2.0.GTI Peugeot.806.2.0
Mazda.Hachtback.V
Peugeot.306.XS.108
Honda.Civic.Joker.1.4
−0.6 −0.4 −0.2
Mitsubishi.Galant
Ferrari.456.GT Seat.Ibiza.2.0.GTI
Opel.Omega.2.5i.V6
Hyundai.Sonata.3000
0 5 10 15 20 25 30
Index
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 77 / 100
Régression linéaire multiple Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 78 / 100
Régression linéaire multiple Inférence statistique
Sous H0
CME
F = ∼ Fp,n−p−1 ddl
CMR
Interprétation : {
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 79 / 100
Régression linéaire multiple Inférence statistique
Bj −βj
Nous savons que ∼ Tn−p−1 , par conséquent :
b
σ Bj
Sous H0
Bj
∼ Tn−p−2
bBj
σ
Intervalle de confiance de βj
1−α [ ]
ICβ j
= bj ± t(1−α/2;n−p−1) σ
bBj
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 80 / 100
Régression linéaire multiple Inférence statistique
Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.456e+00 6.268e-01 3.919 0.000578 ***
Prix 2.042e-05 8.731e-06 2.339 0.027297 *
Cylindree -5.006e-04 5.748e-04 -0.871 0.391797
Puissance 2.499e-02 9.992e-03 2.501 0.018993 *
Poids 4.161e-03 8.788e-04 4.734 6.77e-05 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’0.1 ’ ’ 1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 81 / 100
Régression linéaire multiple Prédiction
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 82 / 100
Régression linéaire multiple Prédiction
∑
p
ybn+1 = b0 + bj xn+1,j
j=1
ybn+1 = Xn+1 .b
Or ybn+1 n’est qu’une estimation du "vrai hyperplan de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
1−α [ √ ]
IC yn+1
−1
= ybn+1 ± t(1−αr ;n−p−1) sn−p−1 1 + Xn+1 (XT X) XTn+1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 83 / 100
Régression linéaire multiple Détection et traitement de la colinéarité
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 84 / 100
Régression linéaire multiple Détection et traitement de la colinéarité
Définition
Une variable explicative Xj est colinéaire à une autre variable Xk lorsque
rXj ,Xk > 0.8.
Une variable explicative Xj est multicolinéaire aux autres variables lorsque
′ ′ ′ ′ ′
Xj = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp ,
elle peut s’écrire comme une combinaison linéaire des autres variables explicatives.
Conséquences
Valeurs/Signes des coefficients contraires à l’intuition
Variances estimées des coefficients trop importantes
Coefficients non significatifs (inférence statistique)
Instabilité du modèle
Risque de passer à côté d’une variable importante (redondance)
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 85 / 100
Régression linéaire multiple Détection et traitement de la colinéarité
Détection de la colinéarité
1
VIFj =
1 − Rj2
La valeur du VIF sera d’autant plus forte que Xj est une combinaison linéaire des
autres variables.
Règle de décision
VIFj ≥ 4
Rq : Détermination des variables incriminées dans la combinaison linéaire →
Cercle des corrélations (ACP)
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 86 / 100
Régression linéaire multiple Détection et traitement de la colinéarité
Détection de la colinéarité
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 87 / 100
Régression linéaire multiple Détection et traitement de la colinéarité
Traitement de la colinéarité
Approche "métier"
Approche statistique
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 88 / 100
Régression linéaire multiple Sélection de variables
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 89 / 100
Régression linéaire multiple Sélection de variables
Détails
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 90 / 100
Régression linéaire multiple Sélection de variables
R 2 ajusté
SCR/(n − p − 1)
R̄ 2 = 1 −
SCT /(n − 1)
AIC (à minimiser) ( )
SCR
AIC = n ln + 2(p + 1)
n
BIC de Schwartz (à maximiser)
( )
SCR
BIC = n ln + ln(n)(p + 1)
n
etc. . .
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 91 / 100
Régression linéaire multiple Sélection de variables
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 92 / 100
Régression linéaire multiple Sélection de variables
Y = β0 + β2 X2 + β1 X1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 93 / 100
Régression linéaire multiple Sélection de variables
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 94 / 100
Régression linéaire multiple Sélection de variables
Méthode Stepwise
Principe : "Mix" entre les méthodes ascendante et descendante. On début par le
modèle sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher
(αsle ). Dans les étapes suivantes, on vérifie que l’ajout d’une variable de conduit
pas à la non significativité (αsls ) des autres déjà présentes dans le modèle (phase
descendante).
Le processus se termine quand aucune Xj n’est significative lors de la phase
ascendante.
Avantage : Contrairement la méthode ascendante, une Xj introduite dans le
modèle peut être remise en cause lors des étapes suivantes.
En pratique :
αsle = αsls = 0.2
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 95 / 100
Régression linéaire multiple Sélection de variables
Méthode Stepwise
On part du modèle : Y = β0
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp }
( )
SI P Fj∗ > fj∗ < αsle ALORS
Ajout de Xj du modèle
POUR Chaque Xj inclue dans le modèle FAIRE
Calcul de Fj pour chaque Xj
Choix( de Fj∗ tel ∗
) que Fj = min{F1 , . . . , Fp }
∗ ∗
SI P Fj > fj > αsls ALORS
Retrait de Xj du modèle
FIN POUR
SINON Arrêt
Fin TANT QUE
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 96 / 100
Régression linéaire multiple Conclusions
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 97 / 100
Régression linéaire multiple Conclusions
Processus de modélisation
1 Estimation des coefficients (MCO)
2 Mesure de la qualité d’ajustement (R 2 )
3 Etude la validité du modèle
Si hypothèses sur les erreurs non vérifiées → STOP
Si observations aberrantes/influentes →
Correction/Suppression
Retour à l’Etape 1
4 Inférence statistique
Test de significativité globale
Tests de significativité des coefficients
5 Evaluation de la multicolinéarité
6 Sélection de variables (Modèle parcimonieux)
Modèle restreint
Réitération des Etapes 1, 2, 3, 4
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 98 / 100
Références
Point étudié
5 Références
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 99 / 100
Références
Références
Livres
Probabilités Analyses des données et Statistique, G. Saporta, TECHNIP
Dodge, Y, Rousson, V., Analyse de régression appliquée, Dunod, 2ème édition,
2004.
Supports en ligne
Econométrie - Régression linéaire simple et multiple, R. Rakotomalala
http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 100 / 100
Annexe 1 - Système aux équations normales
∑
n
2
min S(β0 , β1 ) = min (yi − (β1 xi + β0 ))
i=1
∑
n
[ 2 ]
= min yi − 2xi yi β1 − 2yi β0 + β12 xi2 + 2β0 β1 xi + β02
i=1
S(β0 , β1 ) est strictement convexe donc elle admet un minimum au point unique
(b0 , b1 ) déterminé en annulant les dérivées partielles de S :
∂S(β0 , β1 ) ∑ n
=0⇒ −2yi + 2b1 xi + 2b0 = 0 (1)
∂β0 i=1
∂S(β0 , β1 ) ∑ n
=0⇒ −2xi yi + 2b1 xi2 + 2b0 xi = 0 (2)
∂β1 i=1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 1 / 11
Annexe 1 - Système aux équations normales
∑
n ∑
n ∑
n
b1 xi2 + b0 xi = xi yi (4)
i=1 i=1 i=1
∑
n ∑
n ∑
n
b1 xi2 + (ȳ − b1 x̄ ) xi = xi yi (5)
i=1 i=1 i=1
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 2 / 11
Annexe 1 - Système aux équations normales
1∑ 2 1∑
n n
b1 xi + (ȳ − b1 x̄ )x̄ = xi yi (6)
n i=1 n i=1
[ ]
1∑ 2 1∑
n n
b1 xi − x̄ =
2
xi yi − x̄ ȳ (7)
n i=1 n i=1
sxy
b1 = (8)
sx2
Retour
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 3 / 11
Annexe 2 - RLM : MCO
S(β0 , . . . , βp ) = ||ϵ||2 = YT Y − 2β T XT Y + β T XT Xβ
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 4 / 11
Annexe 2 - RLM : MCO
Aussi ) ( ( )
XT X b = XT Y .
( )
Or rg(X) = p et p ≤ n donc XT X est inversible. Aussi
( )−1 ( T )
b = XT X X Y
Retour
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 5 / 11
Annexe 3 - RLM : moments des estimateurs
Espérance
[( )−1 T ] ( T )−1 T
E[B] = E XT X X Y = X X X E[Y]
( )−1 T
E[B] = XT X X E[X.β + ϵ] = β
Variance
[( )−1 T ] ( )−1 ( )−1 T
V[B] = V XT X X Y = X XT X V[Y] XT X X
( T )−1 ( T )−1 T ( ) −1
V[B] = X X X V[ϵ] X X X = σ 2 XT X
Retour
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 6 / 11
Annexe 4 - F partiel de Fisher
L’égalité
( )2
Bj
F = ∼ F1,n−p−1
bBJ
σ
se base sur un cas particulier du test de nullité d’un bloc de q coefficients.
{
H0 : Y = β0 + β1 X1 + . . . + βj Xj + βj+q+1 Xj+q+1 + . . . + βp Xp + ϵ
H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ
{
H0 : Modèle sans les q variables (modèle restreint)
H1 : Modèle complet
Posons
2
R(0) : Coefficient de détermination du modèle restreint (H0 )
2
R(1) : Coefficient de détermination du modèle complet (H1 )
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 7 / 11
Annexe 4 - F partiel de Fisher
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 8 / 11
Annexe 4 - F partiel de Fisher
2
R(1) : Coefficient de détermination du modèle complet (H1 )
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 9 / 11
Annexe 4 - F partiel de Fisher
Or
Bj
T = ∼ Tn−p−1
bBJ
σ
Donc ( )2
Bj
F = T2 =
bBJ
σ
Remarque : test de la significativité du coefficient et son apport au R 2 .
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 10 / 11
Annexe 4 - F partiel de Fisher
Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 9 mars 2016 11 / 11