Vous êtes sur la page 1sur 23

R ÉGRESSION LINÉAIRE MULTIPLE

Statistiques - 4ème année Data Science - A.U. 2020/2021


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Plan

1 Introduction

2 Modèle

3 Estimation des paramètres

4 Qualité d’ajustement

5 Etude des résidus

6 Commande R et interprétation

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Objectif

A la suite de la régression linéaire simple, ce cours introduit le modèle linéaire


multidimensionnel dans lequel une variable quantitative Y est expliquée,
modélisée, par plusieurs variables quantitatives Xj .

Après avoir expliciter les hypothèses nécessaires et les termes du modèle, les notions
d’estimation des paramètres du modèle (moindres carrés) sont discutées de même
que les outils de diagnostics (graphe des résidus, colinéarité).

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Introduction
Etudier la liaison entre une variable quantitative à expliquer Y et une suite
de variables quantitatives explicatives X1 , . . . , Xk .

Modèle
Y = β0 + β1 X1 + · · · + βk Xk + ε
où βj = paramètres fixes(mais inconnus)
ε = terme aléatoire de moyenne 0 et d’écart-type σ

Vocabulaire :
Y X1 , X2 , . . . , Xk
Variable à expliquer Variables explicatives
Variable dépendante Variables indépendantes
Variable endogène Variables exogènes

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Exemples
Expliquer en fonction
• Superfice
• Standing
Prix d’un appartement • Quartier
• Sécurité
• Proximité de commerce
• Cylindrée
• Taille
Prix d’une voiture • Vitesse maximale
• Origine
• Niveau de finition

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Modèle

Nous considérons que yi est la réalisation de la variable aléatoire Yi définie par:

Yi = β0 + β1 xi1 + · · · + βk xik + εi

où εi est une variable aléatoire de moyenne 0 et d’éart-type σ .

☛ Les variables aléatoires ε1 , . . . , εn sont supposées êtres distribuées selon des lois
normales.

☛ Elles sont supposées non corrélées entre elles.

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Exemple: Données véhicules


n = 31 véhicules pour lesquels on dispose de:
• Consommation • Prix • Cylindrée • Puissance • Poids (Kg)
(L/100Km) (F r.) (cm3 ) (KW ) (Kg)

Objectif:
Prédire la consommation (Y ) en fonction des différents paramètres

Modèle de régression à estimer


Cons = β0 + β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ε

Modèle estimé sur un échantillon


[ = b0 + b1 Prix + b2 Cylind + b3 Puiss + b4 Poids
Cons

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Modèle
Ecriture du modèle: Sur un échantillon de n observations i.i.d
Y1 = β0 + β1 x11 + · · · + βk x1k + ε1
Y2 = β0 + β1 x21 + · · · + βk x2k + ε2
.. ..
. .
Yn = β0 + β1 xn1 + · · · + βk xnk + εn

Ecriture matricielle :

Y = X β + ε
n×1 n × (k + 1) (k + 1) × 1 n×1
       
Y1 1 x11 x12 . . . x1k β0 ε1
 .  . .. .. ..
. ; X =  .. ..  ; β =  ...  ; ε =  .. 
    
Y =
 .   . . . .     . 

Yn 1 xn1 xn2 . . . xnk βk εn

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

Modèle
2
 L’ensemble des équations associées à chacune des observations, pour
i = 1, . . . , n, s’écrit matriciellement:
Y =X β+ε

2
 Les hypothèses faites sur les termes aléatoires ε1 , . . . , εn s’écrivent:
E[ε] = 0 ; E[ε ε′ ] = σ 2 In

2
 Enfin, on suppose
rang(X) = k + 1

Remarque:
Pour que les calculs soient possibles, il faut éviter qu’une(ou plusiuers) des vari-
abes explicatives soit une combinaison linéaire exacte des autres variables ex-
plicatives.

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

10

Estimation des paramètres

β0 , β1 , . . . , βk

Nous cherchons les estimations β̂0 , β̂1 , . . . , β̂k des paramètres β0 , β1 , . . . , βk


permettant de reconstituer au mieux les données yi à partir des observations des k
variables X 1 , . . . , X k .

Critère des moindres carrés


Déterminer β̂0 , β̂1 , . . . , β̂k minimisant
n
X
(yi − β0 − β1 xi1 − · · · − βk xik )2
i=1

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

11

Estimation des paramètres

βb = (X ′ X)−1 X ′ y

βb estimation des moindres carrés de β


yb = X βb vecteur des yi
e = y − yb vecteur des erreurs

Remarque:
Cette expression est importante, elle montre qu’il est nécessaire d’inverser la
matrice X ′ X . Les problèmes pratiques rencontrés en régression (par exemple la
multicolinéarité) sont liés à cette inversion.

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

12

Exemple

Modèle de régression à estimer


Cons = β0 + β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ε

Modèle estimé sur un échantillon


[ = b0 + b1 Prix + b2 Cylind + b3 Puiss + b4 Poids
Cons

Commande R:> lm
Modèle estimé

[ = 2.46 + 0.00002 Prix − 0.0005 Cylind


Cons
+0.0249 Puiss + 0.004 Poids

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

13

Qualité d’ajustement

n
X n
X n
X
2 2
(yi − y) = (ŷi − y) + (yi − ŷi )2
|i=1 {z } |i=1 {z } |i=1 {z }

SCT = SCE + SCR


Somme des Somme des Somme des
carrés totalee carrés expliquée carrés résiduelle

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

14

Qualité d’ajustement

Coefficient de détermination:
SCE
R2 =
SCT

◗ Interprétation: Part de la variabilité de Y expliquée par le modèle de régression


linéaire multiple.

Remarque:
R2 est en fonction du nombre des variables explicatives dans le modèle.
p ↗ =⇒ R2 ↗

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

15

Exemple

Modèle estimé

[ = 2.46 + 0.00002 Prix − 0.0005 Cylind + 0.0249 Puiss + 0.004 Poids


Cons

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

16

Vérification de la normalité des résidus

➺ histogramme =⇒ la distribution doit être unimodale et symétrique


autour de 0.

➺ Test de normalité (Shapiro Wilkis, Kolmogrov-Smirnov,...) mais souvent


tests peu puissants (peu aptes à rejeté H0 .

➺ Droite de Henry =⇒ conforme les quantiles théoriques de la loi normale


et la istribution cumulée estimée sur les données.

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

17

Vérification de l’homoscédasticité des résidus


Les résidus sont dit homoscédastiques si leur dispersion est homogène et ne dépend
pas des valeurs de la variable explicative Xj ( et donc pas non plus des valeurs
prédites).
On vérifie que les résidus n’ont pas de structure particulière en traçant un graphe
des résidus.

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

18

Fonction R à utiliser

Principales fonctions génériques permettant d’extraire des informations d’objet qui


résulte d’une analyse.
➤ print(): retourne un résumé succint de l’analyse
➤ summary(): retourne un résumé détaillé de l’analyse
➤ coef(): retourne les coefficients estimés
➤ residuals(): retourne les résidus
➤ fitted(): retourne les valeurs ajustées par le modèle
➤ AIC(): calcule le critère d’information d’Akaike
➤ plot(): graphique adapté à l’analyse. Résidus du modèle pour
modélisation

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

19

Pour ajuster un modèle linéaire gaussien


yi = Xβ + εi

> modele<-lm(y ∼ x1 + x2 + x3)


ou
> modele<-lm(y ∼ ., data=dataframe)

Pour voir les principales statistiques du modèle

> summary(modele)

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

20

On peut valider la normalité des résidus par la méthode:


Visualisation de la droite de Henry
qqnorm(resid(res));qqline(resid(res));

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

21

Test de normalité des résidus

➤ Shapiro-Wilk normality test


> shapiro.test(resid(res))
> data: resid(res)
> W=0.9951 , p-value=0.3684

=⇒ La p-value est supérieure au seuil et on ne peut pas donc rejeter l’hypothèse H0 .


Les données sont donc compatibles avec une distribution normale.

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

22

Vérification de l’homoscédasticité des résidus

Vérifier l’homoscédasticité des résidus en vérifiant visuellement que le nuage de


point est bien épars de manière symétrique autour de 0.

> plot(res$fitted.values,res$residuals,

+ xlab="Valeurs prédites par le modèle",

+ ylab="Résidus",pch=16,cex=0.75,col="blue")

@UP-Maths Régression multiple Statistiques


Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation

23

@UP-Maths Régression multiple Statistiques

Vous aimerez peut-être aussi