Vous êtes sur la page 1sur 41

Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Statistique multivariée

Y X1 ... Xp
Observation 1 y1 x11 ... x1p
Observation 2 y2 x21 ... x2p
.. .. .. .. ..
. . . . .
Observation i yi xi1 ... xip
.. .. .. .. ..
. . . . .
Observation n yn xn1 ... xnp

Y : variable à expliquer ou variable réponse


X1 , . . . , Xp : p variables explicatives ou régresseurs
Mêmes buts que pour la régression linéaire simple : description,
explication (quelles variables explicatives à une réelle influence sur la
variable réponse), prédiction etc

1
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Régression Linéaire Multiple

2
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Régression linéaire multiple


Modèle

Yi = β0 + β1 xi,1 + . . . + βp xi,p + εi , i = 1, . . . , n

β0 , β1 , . . . , βp ∈ R.

εi i.i.d. centrés, et de variance σ 2 .

p variables ”explicatives” x·,j , non aléatoires (dans un domaine


d’étude fixé)

Yi aléatoire
Z Les paramètres à estimer sont : β0 , β1 , . . . , βp et σ.

Remarque
Si p = 1, on retrouve la régression linéaire simple. 3
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Notation matricielle : les notations suivantes sont équivalentes

Yi = β0 + β1 xi,1 , +β2 xi,p + . . . + βp xi,p + εi


pour i = 1, . . . , n
m

       
Y1 1 x1,1 ... x1,p β0 ε1
 Y2   1 x2,1 ... x2,p   β1   ε2 
=  +
       
 ..  .. .. .. ..   ..   .. 
 .   . . . .   .   . 
Yn 1 xn,1 ... xn,p βp εn

Y = Xβ + 

Y1
  1 x1,1 ... x1,p  
β0
 
ε1

 Y2   1 x2,1 ... x2,p   β1   ε2 
       
où Y =  . , X =  . . . . , β =  . ,  =  .
       

 .   . . . .   .   . 
 .   . . . .   .   . 
Yn 1 xn,1 ... xn,p βp εn

4
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Estimation des paramètres

Problème 1
Estimer les paramètres β0 , . . . , βp .

Solution : les moindres carrés


 b 
β0
 βb1 
On cherche βb =  .  qui minimise le carré des erreurs :
 
 .. 
βbp
 2
n
X
min yi − (β0 + β1 xi,1 + . . . + βp xi,p )
 
β0 ,...,βp | {z }
i=1
erreur i

5
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Estimation des paramètres β0 , β1 , . . . , βp par moindres carrés Exo

 b 
β0  2
 βb1  X n Xp
βb =  .  = argmin
   y i − β0 − βj xij 
 ..  β0 ,...,βp i=1 j=1
βbp
= argminky − X βk2
β0 ,...,βp

= (X 0 X )−1 X 0 y

En effet, rappels de calcul


Les calculs différentiel :
ky − X βk2 = (y − X β)0 (y − X β)
f : Rd → R différentiable
= y 0y − β0X 0y − y 0X β + β0X 0X β car

= y 0 y − 2y 0 X β + β 0 X 0 X β Si f (u) = a0 u où a ∈ Rd ,
β 0 Xy est un scalaire, donc égal à sa transposée. alors ∇f (u) = a
La dérivée par rapport à β donne Si f (u) = u 0 Au où A
matrice de taille d × d,
−2X 0 y + 2X 0 X β
alors ∇f (u) = (A + A0 )u
6
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Remarques :
1 Si p = 1, on retrouve les mêmes estimateurs que dans la régression
linéaire simple :
   Pn 
0 1 1 ... 1 0 i=1 y i
X = X y = Pn
x1 x2 . . . xn i=1 xi yi
Pn
(x − x̄)(yi − ȳ )
a = β̂0 = ȳ − bx̄ b = β̂1 = Pn i
i=1
2
i=1 (xi − x̄)

2 Si p est trop grand, éviter d’utiliser la formule βb = (X 0 X )−1 X 0 Y à


cause des erreurs d’arrondi. Mieux vaut utiliser un algorithme de
minimisation.

7
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Après l’estimation des paramètres β0 , . . . , βp , on en déduit


1 Valeurs ajustées (”estimées”) des observations
pour 1 6 i 6 n, estimation du y correspondant à xi = (1, xi,1 , . . . , xi,n ) :
 
βb0
p
 β1 
X  b 
ybi = βb0 + xi,k βbk = (1, xi,1 , . . . , xi,p )   = xi,. β
.  b
k=1
| {z }  .. 
xi,.
βbp

En vectoriel : ŷ = X β̂.
2 Résidus : ei = yi − ybi (le vecteur des n résidus : e = y − ŷ )
 
1
 xn+1,1 
Prévision pour un nouveau point xn+1 = 
 
3
.. 
 . 
xn+1,p
p
X 0
ybn+1 = βb0 + xn+1,k βbk = xn+1 βb
k=1

8
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Problème 2 : Estimation de la variance σ 2 des erreurs


n
1 1 X
s2 = ky − ybk2 = (yi − ŷi )2
n−p−1 n−p−1
i=1

Pythagore. De même que dans la RL simple : R2 Exo CD

n
X n
X n
X
(yi − ȳ )2 = (yi − ybi )2 + yi − ȳ )2
(b
i=1 i=1 i=1

ky − ȳ k2 = ky − ybk2 + y − ȳ k2
kb
| {z } | {z } | {z }
SCT SCE SCM

somme des carrés totale somme des carrés des erreurs somme des carrés moyens

variation totale variation résiduelle variation expliquée par le modèle

Figure – Rappel de la formule de ”Pythagore” dans le cas de la régression linéaire simple

9
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

B Exemple :
Y = Quantité d’ozone
X1 = Rayonnement solaire, X2 = Vent, X3 = Température, X4 =
Mois, X5 = Jour.

10
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

B Exemple :
Y = Quantité d’ozone
X1 = Rayonnement solaire, X2 = Vent, X3 = Température, X4 =
Mois, X5 = Jour.

Solution du problème des moindres carrés :


Y = −64.12 + 0.05X1 − 3.32X2 + 1.89X3 − 3.04X4 + 0.27X5

Problème 2
Problème 1 Choix des variables. Quelles
Peut-on faire des prédictions avec ce variables explicatives ont un
modèle ? Sont-elles valables ? impact sur la variable
réponse ?

10
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Intervalles de confiance (IC) et tests

11
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Question à se poser pour chaque variable Xk , 1 6 k 6 p :


La variable explicative Xk est-elle utile pour prédire Y ? Est-ce qu’elle a une
influence sur Y ?

Z Est-ce que βk = 0 ?

Rappel
Pour un échantillon (xi1 , xi2 , . . . , xip , yi )i=1,...,n on a une estimation βb et donc
un modèle estimé yb = X β.b

Z βbk est donc aléatoire !

Z Trouvons sa loi pour en déduire un test sur le vrai βk et un IC du


vrai βk .

12
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

A partir de maintenant, et dans toute la suite, i ∼ N (0, σ) i.i.d.

Loi de chaque régresseur


Soit 0 6 k 6 p le numéro d’une variable explicative .
(k = 0 correspond à l’ordonnée à l’origine)

On a :  q 
βbk ∼ N βk , σ [(X 0 X )−1 ] k,k

βbk − βk βbk − βk
⇒ q ∼ N (0, 1) et q ∼ T (n − p − 1)
σ [(X 0 X )−1 ]k,k S [(X 0 X )−1 ]k,k

Test de nullité de βk

H0 : βk = 0 (les autres βj =6 0)
IC de niveau 1 − γ pour βk
H1 : βk 6= 0 (les autres βj =6 0)
h q i
βbk ± tγ/2 S [(X 0 X )−1 ]k,k Statistique de test :
βbk
q ∼ T (n − p − 1)
S [(X 0 X )−1 ]k,k H0
13
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Zoom sur le test de la nullité de βk Exo

H 0 : βk = 0 (les autres 6 0)
βj =
H1 : βk 6= 0 (les autres βj =6 0)

Statistique de test :

βbk
q ∼ T (n − p − 1)
H0
S [(X 0 X )−1 ]k,k

Ce test permet de voir si l’ajout de la variable Xk est pertinent


Ce test est équivalent au test suivant :

H0 : β1 6= 0, . . . , βk−1 6= 0, βk = 0, βk+1 6= 0 et βp 6= 0
H1 : βj 6= 0, j = 1, . . . , p

forward backward

14
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Intervalle de confiance de la ’droite’

Soit un point x = (1, x1 , . . . , xp ) et sa prédiction yb = x βb

Yb − E(Y (x))
q ∼ T (n − p − 1).
0 −1 0
S x (X X ) x

Z Intervalle de confiance (IC) de niveau 1 − γ pour E(Y (x)) :


 q 
−1
Yb ± tγ/2 S x (X 0 X ) x 0

C’est l’intervalle de confiance de la ”droite”, i.e. un IC de la valeur


moyenne E(Y (x)) attendue au point x.

15
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Intervalle de confiance des prévisions Exo

Soit un point x = (1, x1 , . . . , xp ) et sa prédiction yb = x βb

Yb − Y
q ∼ T (n − p − 1).
−1
S 1 + x (X 0 X ) x0

Z Intervalle de confiance (IC) de niveau 1 − γ pour Y = Y (x) :


 q 
−1
yb ± tγ/2 S 1 + x (X 0 X ) x 0

C’est l’intervalle de confiance du nuage de points.

16
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Test sur le modèle entier ou test de Fisher global Exo

H 0 : β 1 = β2 = . . . = βp = 0
H1 : ∃k ∈ {1, . . . , p} : βk 6= 0

Sous H0 :

Y = β0 = constante ⇒ Yb = Yb0 = Ȳ
Yb les valeurs ajustées de Y sur les p variables X1 , . . . , Xp .

• Statistique de test :
!13
x 10
1.2

kYb − Ȳ k2 /p
1
densité de la
loi de Fisher à
(!1,!2) degrés de liberté

∼ F (p, n − p − 1)
0.8

F = 0.6

kY − Yb k2 /(n − p − 1) H0 0.4

"
0.2

0
f"

• Rejet de H0 au risque α de se tromper si F > fα .

Pn b
R 2 n−p−1 (Yi −Ȳ )2 b −Ȳ k2
kY SCM
Remarque : F = 1−R 2 p avec R 2 = Pi=1
n 2 = kY −Ȳ k2
= SCT
i=1 (Yi −Ȳ )
Pythagore
17
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Validation (et qualité)

18
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Validation du modèle

Repose essentiellement sur l’analyse des résidus (comme dans la


régression linéaire simple)
1 Variance constante (homoscédasticité)
2 Normalité
3 Indépendance

Il est bien d’afficher les résidus ei (idée de l’indépendance et contrôle


de l’homoscédasticité), de tracer (yi , ei ) et les (xi,j , ei ) pour
j = 1, . . . , p pour détecter les éventuels points aberrants et avoir une
idée de l’indépendance des résidus.

19
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Mesure de l’ajustement Pyth

Coefficient de détermination :

kYb − Ȳ k2 SCM SCT-SCE SCE


R2 = 2
= = =1−
kY − Ȳ k SCT SCT SCT
i.e.
kY − Yb k2
R2 = 1 −
kY − Ȳ k2
Remarque : Ce coef ne tient pas compte de la dimension du modèle et
augmente avec le nombre de variables.

Coefficient de détermination ajusté :

n − 1 kY − Yb k2
Ra2 = 1 −
n − p − 1 kY − Ȳ k2

20
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Bilan

1 Examiner le tableau de données (graphiques, corrélations)

2 Sélectionner les variables intéressantes (par procédure automatique


s’il y en a beaucoup)

3 Appliquer la régression linéaire multiple

4 Effectuer un test à chaque régresseur Xk pour vérifier que βk 6= 0

5 Effectuer le test de Fisher global pour vérifier la significativité du


modèle global obtenu

6 Vérifier les hypothèses sur les résidus

21
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Sélection de variables

22
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Cas où p est très grand


Parmi ces p variables explicatives, lesquelles sont réellement
explicatives ?
1 1re idée : regarder la relation entre Y et chaque variable explicative :
Relation entre Y et X1
Relation entre Y et X2
..
.
Relation entre Y et Xp
sélectionner les Xi fortement corrélés avec Y
attention si Xi et Xj fortement corrélées avec Y mais aussi
fortement corrélées entre elles (variables ’redondantes’)

2 2e idée : regarder la relation globale entre Y et les p variables


explicatives
un critère : par exemple, celui du R 2 ajusté.

23
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

1re idée : Outils de base pour le choix des variables explicatives


1 Nuages de points (yi , xij ), pourairquality
chaque data variable explicative Xj
0 50 150 250 60 70 80 90 0 5 10 15 20 25 30

150
Ozone

0 50
300

Solar.R
150
0

15
Wind

5
Temp
80
60

5 6 7 8 9
Month
10 20 30

Day
0

0 50 100 150 5 10 15 20 5 6 7 8 9

2 Matrice de corrélation entre chaque variable deux à deux :

1 sur la diagonale
Matrice symétrique

24
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Coefficient de corrélation entre Y et une variable explicative X (rappel)

Cov (X ,Y )
ρ= √ ∈R
Var (X )Var (Y )
Pn
(x −x)(y −y )
r = Pn i=1 i 2 √Pi n
√ 2
estimation de ρ
i=1 (x i −x) i=1 (yi −y )
Pn
(x −x)(Y −Y )
R = √Pn i=1 i 2 √Pin 2
v.a. dont r est une réalisation
i=1 (xi −x) i=1 (Yi −Y )

On peut tester la nullité de ρ

Interprétation H0 : ρ = 0 contre H1 : ρ 6= 0
r ∈ [−1; 1]
r proche de ±1 : le nuage de Statistique de test :
√ R
point est aligné (croissant si n − 2√ ∼ T (n − 2)
r ≈ 1, décroissant si r ≈ −1). 1 − R 2 H0
r proche de 0 : pas de Condition d’application du test
tendance linéaire. Y = β0 + βxi + i
avec εi ∼ N (0, σ) i.i.d.

25
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

2e idée : regarder la relation globale entre Y et les p variables explicatives


un critère simple pour mesurer l’ajustement du modèle : celui du R 2
(ajusté)

Types de procédures de sélection de variables


1 la recherche exhaustive parmi tous les modèles linéaires possibles
2 les méthodes de type pas à pas

26
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Remarques :
Outils qui vont suivre :
1 efficaces
2 mais ne pas se fier uniquement aux résultats fournis par ces outils.

Les méthodes présentées ensuite :


1 La recherche exhaustive
2 La méthode ascendante
3 La méthode descendante
4 La régression stepwise

Remarque importante
Toutes ces procédures ne mènent pas forcément à la même solution
quand elles sont appliquées au même problème.

27
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

La méthode exhaustive

La recherche exhaustive (parmi tous les modèles linéaires possibles)


Z Si p variables disponibles, cela fait 2p modèles à comparer.

Z Nous choisissons celui qui a le R 2 ajusté maximum (ou avec un autre


critère d’ajustement).

Z Impossible numériquement si p dépasse 10...

28
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

La méthode ascendante (forward selection)

La méthode ascendante (forward selection)


Z Simplification de la méthode de la recherche exhaustive.

Z Idée :
On part d’un modèle sans variable explicative puis on introduit une à une
d’autres variables explicatives en utilisant le test d’inclusion d’une
variable revoir

29
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

La méthode ascendante (forward selection)


Détails de la méthode ascendante
1 Étape 0 : On part d’un modèle sans variable explicative. Faire p
régressions avec une seule variable explicative.
Inclure la variable explicative la plus significative.
2 Étape k : Modèle Mk avec k variables explicatives
(il reste donc p − k autres variables à tester)

Test du modèle Mk augmenté d’une nouvelle variable revoir

On réalise p − k tests :
H0 modèle Mk
H1 modèle Mk augmenté d’une variable explicative

Deux cas se présentent :


aucune variable supplémentaire n’est retenue : Mk est choisi, on va à
l’étape Fin
inclure la variable la plus significative, on note Mk+1 le nouveau modèle et
on passe à l’étape k + 1 avec le modèle Mk+1 .

3 Fin On ne peut plus ajouter de variable significative. 30


Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

La méthode ascendante (forward selection)

Avantages et inconvénient de la méthode ascendante


évite de travailler avec plus de variables que nécessaire,

améliore l’équation à chaque étape.

Mais l’inconvénient majeur de la méthode ascendante : une variable


introduite dans le modèle ne peut plus être éliminée.

31
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

La méthode descendante (backward selection)


Détails de la méthode descendante (backward selection)
1 Étape 0 : Modèle M0 avec toutes (p) les variables explicatives. Test
de nullité de chacun des p coefficients de régressions βk .
Exclure la variable explicative la moins significative.
2 Étape k : Modèle Mk avec p − k variables explicatives
on a éliminé k variables explicatives aux k étapes précédentes

Test de du modèle Mk contre le modèle Mk diminué d’une variable revoir

On réalise p − k tests :
H0 modèle Mk avec une variable explicative en moins
H1 modèle Mk

Deux cas se présentent :


toutes les variables sont significatives : Mk est choisi, on va à l’étape Fin.
on élimine la variable la moins significative et on passe à l’étape k + 1
avec le modèle Mk+1 à p − k − 1 variables significatives.

3 Fin Le modèle obtenu a toutes ses variables significatives.


32
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

La méthode descendante (backward selection)

Conclusions de la méthode descendante


Très satisfaisante pour l’utilisateur préférant avoir toutes les
variables possibles afin de ne rien ignorer.

Inconvénient majeur : il n’est plus possible de réintroduire une


variable une fois qu’elle a été supprimée !

33
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Méthodes ascendante/descendante

♦ En pratique :
Pour chacune des deux méthodes, on fixe un risque α pour déterminer, à
l’étape k, si aucune ”nouvelle” variable n’est retenue (ascendante)/toutes
les variables ”encore en jeu” sont significatives (descendante). En fait,
quand on parle de significativité, c’est sous-entendu par rapport à un
certain risque α.

Remarques :
Avec la méthode descendante, on ne peut plus introduire une
variable éliminée une fois.

Avec la méthode ascendante, on ne peut plus éliminer une variable


introduite une fois.

Z Ce problème est alors résolu par la procédure stepwise.


34
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

La méthode stepwise

Procédure stepwise
Z Amélioration de la méthode ascendante.

Comment ?
À chaque étape, nous réexaminons toutes les variables introduites
précédemment dans le modèle. En effet, une variable considérée comme
la plus significative à une étape de l’algorithme peut, à une étape
ultérieure, devenir non significative.

Pourquoi ce phénomène ?
En raison de la redondance avec d’autres variables introduites après coup
dans le modèle.

35
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Procédure stepwise
Après l’introduction d’une nouvelle variable dans le modèle :
refaire les tests pour chaque variable explicative anciennement
admise dans le modèle,

après réexamen, si des variables ne sont plus significatives, alors


retirer du modèle la moins significative d’entre elles.
Le processus continue jusqu’à ce que plus aucune variable ne puisse être
introduite ni retirée du modèle.

36
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Bilan

1 Examiner le tableau de données (graphiques, corrélations)

2 Sélectionner les variables intéressantes (par procédure automatique


s’il y en a beaucoup)

3 Appliquer la régression linéaire multiple

4 Effectuer un test à chaque régresseur Xk pour vérifier que βk 6= 0

5 Effectuer le test de Fisher global pour vérifier la significativité du


modèle global obtenu

6 Vérifier les hypothèses sur les résidus

37
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Exercice

38
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Exercice : influence des heures de travail et du capital sur la production ?


Obs
X1 : Travail X2 : Capital Y : Production
(× 100 h) (× 10 machines/h) (× 1000 tonnes)
1 11 30 6
2 12 40 12
3 14 42 19
4 15 40 25
5 15 51 30
6 16 59 36
7 18 60 38
8 18 63 43
9 18 61 44
On suppose que pour i = 1, . . . , 9,
Yi = β0 + β1 X1,i + β2 X2,i + i ,

où β = (β0 , β1 , β2 ) ∈ R3 est inconnu et i sont des



i.i.d.

de loi N (0, σ).

6 1 11 30
 12   1 12 40 
Sous Matlab, on rentre les matrices suivantes
   
y =  . , X =  . . . 
   
 .   . . . 
 .   . . . 
44 1 18 61
39
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex

Exercice : influence des heures de travail et du capital sur la production ?


1 Que vaut sum((y-mean(y)).^ 2) ? Pythagore

2 Donner une estimation du vecteur β et de la variance σ 2 . Estimation

3 Tester le modèle dans sa globalité. Test global

4 Chacune des deux variables ”Travail” et ”Capital” influence-t-elle


significativement la ”Production” ? Test partiel
5 Pour un travail de 1600 (16 × 100) heures et un capital de 500
(50 × 10) machines par heures, quelle production (+IC) s’attend-on
à avoir en moyenne ? IC
6 On exécute le programme suivant : subplot(1,2,1)
qqplot(y-X*b)
subplot(1,2,2)
plot((y-X*b)/s,’o’)
où s désigne l’écart-type estimé des résidus.
Commenter ces résultats. À quoi servent-ils ?

40

Vous aimerez peut-être aussi