Académique Documents
Professionnel Documents
Culture Documents
Statistique multivariée
Y X1 ... Xp
Observation 1 y1 x11 ... x1p
Observation 2 y2 x21 ... x2p
.. .. .. .. ..
. . . . .
Observation i yi xi1 ... xip
.. .. .. .. ..
. . . . .
Observation n yn xn1 ... xnp
1
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
2
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Yi = β0 + β1 xi,1 + . . . + βp xi,p + εi , i = 1, . . . , n
β0 , β1 , . . . , βp ∈ R.
Yi aléatoire
Z Les paramètres à estimer sont : β0 , β1 , . . . , βp et σ.
Remarque
Si p = 1, on retrouve la régression linéaire simple. 3
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Y1 1 x1,1 ... x1,p β0 ε1
Y2 1 x2,1 ... x2,p β1 ε2
= +
.. .. .. .. .. .. ..
. . . . . . .
Yn 1 xn,1 ... xn,p βp εn
Y = Xβ +
Y1
1 x1,1 ... x1,p
β0
ε1
Y2 1 x2,1 ... x2,p β1 ε2
où Y = . , X = . . . . , β = . , = .
. . . . . . .
. . . . . . .
Yn 1 xn,1 ... xn,p βp εn
4
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Problème 1
Estimer les paramètres β0 , . . . , βp .
5
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
b
β0 2
βb1 X n Xp
βb = . = argmin
y i − β0 − βj xij
.. β0 ,...,βp i=1 j=1
βbp
= argminky − X βk2
β0 ,...,βp
= (X 0 X )−1 X 0 y
= y 0 y − 2y 0 X β + β 0 X 0 X β Si f (u) = a0 u où a ∈ Rd ,
β 0 Xy est un scalaire, donc égal à sa transposée. alors ∇f (u) = a
La dérivée par rapport à β donne Si f (u) = u 0 Au où A
matrice de taille d × d,
−2X 0 y + 2X 0 X β
alors ∇f (u) = (A + A0 )u
6
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Remarques :
1 Si p = 1, on retrouve les mêmes estimateurs que dans la régression
linéaire simple :
Pn
0 1 1 ... 1 0 i=1 y i
X = X y = Pn
x1 x2 . . . xn i=1 xi yi
Pn
(x − x̄)(yi − ȳ )
a = β̂0 = ȳ − bx̄ b = β̂1 = Pn i
i=1
2
i=1 (xi − x̄)
7
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
En vectoriel : ŷ = X β̂.
2 Résidus : ei = yi − ybi (le vecteur des n résidus : e = y − ŷ )
1
xn+1,1
Prévision pour un nouveau point xn+1 =
3
..
.
xn+1,p
p
X 0
ybn+1 = βb0 + xn+1,k βbk = xn+1 βb
k=1
8
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
n
X n
X n
X
(yi − ȳ )2 = (yi − ybi )2 + yi − ȳ )2
(b
i=1 i=1 i=1
ky − ȳ k2 = ky − ybk2 + y − ȳ k2
kb
| {z } | {z } | {z }
SCT SCE SCM
somme des carrés totale somme des carrés des erreurs somme des carrés moyens
9
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
B Exemple :
Y = Quantité d’ozone
X1 = Rayonnement solaire, X2 = Vent, X3 = Température, X4 =
Mois, X5 = Jour.
10
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
B Exemple :
Y = Quantité d’ozone
X1 = Rayonnement solaire, X2 = Vent, X3 = Température, X4 =
Mois, X5 = Jour.
Problème 2
Problème 1 Choix des variables. Quelles
Peut-on faire des prédictions avec ce variables explicatives ont un
modèle ? Sont-elles valables ? impact sur la variable
réponse ?
10
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
11
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Z Est-ce que βk = 0 ?
Rappel
Pour un échantillon (xi1 , xi2 , . . . , xip , yi )i=1,...,n on a une estimation βb et donc
un modèle estimé yb = X β.b
12
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
On a : q
βbk ∼ N βk , σ [(X 0 X )−1 ] k,k
βbk − βk βbk − βk
⇒ q ∼ N (0, 1) et q ∼ T (n − p − 1)
σ [(X 0 X )−1 ]k,k S [(X 0 X )−1 ]k,k
Test de nullité de βk
H0 : βk = 0 (les autres βj =6 0)
IC de niveau 1 − γ pour βk
H1 : βk 6= 0 (les autres βj =6 0)
h q i
βbk ± tγ/2 S [(X 0 X )−1 ]k,k Statistique de test :
βbk
q ∼ T (n − p − 1)
S [(X 0 X )−1 ]k,k H0
13
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
H 0 : βk = 0 (les autres 6 0)
βj =
H1 : βk 6= 0 (les autres βj =6 0)
Statistique de test :
βbk
q ∼ T (n − p − 1)
H0
S [(X 0 X )−1 ]k,k
H0 : β1 6= 0, . . . , βk−1 6= 0, βk = 0, βk+1 6= 0 et βp 6= 0
H1 : βj 6= 0, j = 1, . . . , p
forward backward
14
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Yb − E(Y (x))
q ∼ T (n − p − 1).
0 −1 0
S x (X X ) x
15
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Yb − Y
q ∼ T (n − p − 1).
−1
S 1 + x (X 0 X ) x0
16
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
H 0 : β 1 = β2 = . . . = βp = 0
H1 : ∃k ∈ {1, . . . , p} : βk 6= 0
Sous H0 :
Y = β0 = constante ⇒ Yb = Yb0 = Ȳ
Yb les valeurs ajustées de Y sur les p variables X1 , . . . , Xp .
• Statistique de test :
!13
x 10
1.2
kYb − Ȳ k2 /p
1
densité de la
loi de Fisher à
(!1,!2) degrés de liberté
∼ F (p, n − p − 1)
0.8
F = 0.6
kY − Yb k2 /(n − p − 1) H0 0.4
"
0.2
0
f"
Pn b
R 2 n−p−1 (Yi −Ȳ )2 b −Ȳ k2
kY SCM
Remarque : F = 1−R 2 p avec R 2 = Pi=1
n 2 = kY −Ȳ k2
= SCT
i=1 (Yi −Ȳ )
Pythagore
17
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
18
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Validation du modèle
19
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Coefficient de détermination :
n − 1 kY − Yb k2
Ra2 = 1 −
n − p − 1 kY − Ȳ k2
20
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Bilan
21
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Sélection de variables
22
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
23
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
150
Ozone
0 50
300
Solar.R
150
0
15
Wind
5
Temp
80
60
5 6 7 8 9
Month
10 20 30
Day
0
0 50 100 150 5 10 15 20 5 6 7 8 9
1 sur la diagonale
Matrice symétrique
24
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Cov (X ,Y )
ρ= √ ∈R
Var (X )Var (Y )
Pn
(x −x)(y −y )
r = Pn i=1 i 2 √Pi n
√ 2
estimation de ρ
i=1 (x i −x) i=1 (yi −y )
Pn
(x −x)(Y −Y )
R = √Pn i=1 i 2 √Pin 2
v.a. dont r est une réalisation
i=1 (xi −x) i=1 (Yi −Y )
Interprétation H0 : ρ = 0 contre H1 : ρ 6= 0
r ∈ [−1; 1]
r proche de ±1 : le nuage de Statistique de test :
√ R
point est aligné (croissant si n − 2√ ∼ T (n − 2)
r ≈ 1, décroissant si r ≈ −1). 1 − R 2 H0
r proche de 0 : pas de Condition d’application du test
tendance linéaire. Y = β0 + βxi + i
avec εi ∼ N (0, σ) i.i.d.
25
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
26
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Remarques :
Outils qui vont suivre :
1 efficaces
2 mais ne pas se fier uniquement aux résultats fournis par ces outils.
Remarque importante
Toutes ces procédures ne mènent pas forcément à la même solution
quand elles sont appliquées au même problème.
27
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
La méthode exhaustive
28
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Z Idée :
On part d’un modèle sans variable explicative puis on introduit une à une
d’autres variables explicatives en utilisant le test d’inclusion d’une
variable revoir
29
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
On réalise p − k tests :
H0 modèle Mk
H1 modèle Mk augmenté d’une variable explicative
31
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
On réalise p − k tests :
H0 modèle Mk avec une variable explicative en moins
H1 modèle Mk
33
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Méthodes ascendante/descendante
♦ En pratique :
Pour chacune des deux méthodes, on fixe un risque α pour déterminer, à
l’étape k, si aucune ”nouvelle” variable n’est retenue (ascendante)/toutes
les variables ”encore en jeu” sont significatives (descendante). En fait,
quand on parle de significativité, c’est sous-entendu par rapport à un
certain risque α.
Remarques :
Avec la méthode descendante, on ne peut plus introduire une
variable éliminée une fois.
La méthode stepwise
Procédure stepwise
Z Amélioration de la méthode ascendante.
Comment ?
À chaque étape, nous réexaminons toutes les variables introduites
précédemment dans le modèle. En effet, une variable considérée comme
la plus significative à une étape de l’algorithme peut, à une étape
ultérieure, devenir non significative.
Pourquoi ce phénomène ?
En raison de la redondance avec d’autres variables introduites après coup
dans le modèle.
35
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Procédure stepwise
Après l’introduction d’une nouvelle variable dans le modèle :
refaire les tests pour chaque variable explicative anciennement
admise dans le modèle,
36
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Bilan
37
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
Exercice
38
Régression Linéaire Multiple IC et tests Validation Sélection de variables Ex
40