Vous êtes sur la page 1sur 105

Les Mthodes PLS

Pierre-Louis Gonzalez

Michel Tenenhaus
1

Les mthodes PLS


inities par Herman et Svante Wold
I. NIPALS (Nonlinear Iterative Partial Least Squares)
II. Rgression PLS (Partial Least Squares Regression)
II.1 PLS1
II.2 PLS2
III Analyse discriminante PLS
IV. Rgression logistique PLS
2

I. La mthode NIPALS
Analyse en composantes principales
Possibilit de donnes manquantes.
Validation croise pour choisir le nombre
de composantes.
Identification des outliers avec
- une carte de contrle des observations,
- des tests sur les carts au modle de lACP.
3

Utilisation de NIPALS :Exemple voitures


Modle
Honda Civic
Renault 19
Fiat Tipo

Cylindre
.
1721
1580

Puissance
90
.
83

Vitesse
174
180
.

Poids
850
965
970

Longueur
369
415
395

Largeur
166
169
170

95

184

730

350

Citron AX Sport 1294

Il y a une observation manquante par vhicule !


Le principe de NIPALS: Comment projeter un
point avec donnes manquantes ?
4

Projection sur un axe


xi
* *
*
*

xi

ti
o

x i'u
ti =
= pente de la droite
u'u
des moindres
carrs sans constante
de x i sur u
5

Projection dun point avec donnes manquantes sur un axe


xi
* *

xi

Valeur manquante

*
*

u
ti

o
o

S' il y a des donnes manquantes


xi ' u
est calcul sur les donnes
ti =
u'u
disponible s
6

L algorithme NIPALS
Recherche des composantes principales
Donnes :
X = {xij} tableau nk ,
xj = variable j
xi = observation i
Modle de l ACP :
X = t1p1 + + tkpk
avec (1) p1, , pk orthonorms ( axes )
et
(2) t1, , tk
orthogonaux
7
( composantes principales )

L algorithme NIPALS
Recherche de la premire composante principale
Modle : X = t1p1 + rsidu, avec p1 norm
Algorithme : les quations de base
(1) Si t1 connu, calcul de p1j par rgression :
xj = p1jt1 + rsidu
(2) Normalisation de p1 = (p11,,p1k)
(3) Si p1 connu, calcul de t1i par rgression :
xi = t1ip1 + rsidu

Algorithme : fonctionnement
Prendre t1 = x1 , puis itrer sur (1), (2), (3).
-

Si donnes manquantes, faire les calculs sur toutes les donnes


disponibles.
8

Commentaires:
Les relations cycliques dcoulant des quations de base
de lalgorithme montrent que 1 est la plus grande valeur
propre vrifiant les quations suivantes:

1
X ' X p1 = 1 p1
n 1
1
X X ' t1 = 1 t1
n 1
Nous avons divis par n-1 pour retrouver les rsultats de
SIMCA.
Ce calcul est une application de la mthode de la
puissance itre pour le calcul du vecteur propre dune
matrice associ la plus grande valeur propre
( Hotelling-1936; Anderson-1958)
9

Projection sur l axe 1


xi
* *
*
*

p1

xi

t1i
o

o
p1

t1 i

xi ' p1
=
= p e n t e d e la d r o i te
p 1 'p 1

d e s m o i n d r e s c a r r s s a n s c o n s t a n te
de x i sur p1
10

L algorithme NIPALS
Recherche des autres composantes principales
La premire tape donne :
X = t1p1 + X1
On rpte les oprations prcdentes sur la matrice
des rsidus X1 de la rgression de X sur t1.
On obtient : X1 = t2p2 + X2
et X = t1p1 + t2p2 + X2
On obtient de mme les autres composantes.
11

RESSh et PRESSh
A chaque tape on tudie la reconstitution du tableau X :

= t p ' + t p ' + ... + t p '


X
1 1
2 2
h h
RESS h = ( x ij x ij ) 2

Residual Sum of Squares :

i, j

Les cases de X sont partages en G groupes, et on ralise G factorisations


en enlevant chaque fois un seul des groupes.

Predicted Residual Sum of Squares :

PRESSh = ( x ij x ( ij) ) 2
i, j

( ij) est calcul dans lanalyse ralise sans le groupe


o x
contenant la case (i,j).

12

L algorithme NIPALS
Choix du nombre de composantes
On choisit le nombre de composantes principales
par validation croise.
La composante th est retenue si
PRESSh
Q = 1
limite
RESSh 1
2

13

Q2(cum) et R2(validation croise)


h

2
[Qcum
]h

PRESS a
= 1
a =1 RESS a 1

peu diffrent de

R 2validation croise

PRESSh / n 1
= 1
2
s
j
j

La composante h est retenue si :


2
2
[Qcum
]h est nettement suprieur [Qcum
]h 1

CONSEIL : Modle h composantes acceptable si [Q2cum]h > 0.5

14

Utilisation de NIPALS :
Exemple voitures
autobis.M1 (PC), Untitled, Work set
Model Overview (cum)
R2X(cum)
Q2(cum)

1.00

R2X(cum) & Q2(cum)

0.80

0.60

0.40

0.20

0.00
Comp[1]

Comp[2]

Comp[3]

Comp[4]

Simca-P 8.0 by Umetrics AB 2000-05-30 18:38

La validation croise conduit deux composantes.


15

NIPALS : Exemple Voitures


Carte des variables ("les vecteurs propres")
VITESSE

0.6
0.4

PUISSANCE

0.0
Simca-P 3.01 by Umetri AB 1998-11-21 14:26

p[2]

0.2

CYLINDRE
-0.2
LONGUEUR
POIDS

-0.4

LARGEUR
0.0

0.1

0.2

0.3

0.4

p[1]

16

NIPALS : Exemple Voitures


Carte des voitures (les 2 premires "composantes principales")
2
citroen
peugeot
bmw 325i
audi 90

seat ibi
peugeot

t[2]

honda ci

peugeot
renault
citroen
ford sie
renault
fiat tip peugeot

fiat uno

ford fie

roverbmw
82 530i
renault
ford sco

opel ome
renault

-1

Simca-P 3.01 by Umetri AB 1998-11-21 14:29

nissan
vwv carav

-2

-4

-2

t[1]
Ellipse: Hotelling T2 (0.05)

17

NIPALS : Identification des outliers


Carte de contrle des distances au modle normalises

2.00 DCrit (0.05)


nissan vanet

1.80
1.60

bmw 325ix
ford scorpio

DModX[2]

1.40
1.20

opel omega

honda civic

1.00
0.80

peugeot 205

renault 25

renault 21
peugeot 405
fiat tipo
renault 19
citroen bx
bmw 530i

renault espa
vw caravelle
fiat uno
audi 90 quat
peugeot 405b
ford sierra

0.60

peugeot 205r

0.40
ford fiesta

seat ibiza s
citroen a

rover 827i

0.20
0.00
0

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals


Simca-P 8.0 by Umetrics AB 2000-05-30 19:00

18

25

Calcul de la limite de contrle


Proprit :

xi
*

DModX =
*

d 2 ( x i , yi )
n

yi
*

1
2
d
( x i , yi )
n i=1

F( k1 , k 2 )

*
Limite de contrle :

F0.95 ( k1 , k 2 )
19

Probabilit dappartenir au modle


Test : H0 : lobservation i appartient au modle de lACP
H1 : lobservation i nappartient pas au modle
Dcision : On rejette H0 au risque de se tromper si

DModX

F1 (k1 , k 2 )

Niveau de signification ou probabilit dappartenir au


modle :

Plus petit conduisant au rejet de H0


= Prob (F(k1,k2) DModX2)

Lindividu i est exactement sur la limite de contrle DCrit(min)


20

NIPALS : Exemple Voitures


"Probabilit" d'appartenir au modle ACP (2 composantes)
1.00

rover 827i

citroen a
seat ibiza s

ford fiesta
0.90

peugeot 205r

0.80

ford sierra
peugeot 405b

M1.PModX[2]

0.70
bmw 530i
citroen bx

0.60

audi 90 quat

renault 19

fiat uno
vw caravelle

fiat tipo

0.50

renault espa

peugeot 405
0.40

renault 21

renault 25

honda civic

peugeot 205

opel omega

0.30
0.20

ford scorpio
bmw 325ix

0.10

nissan vanet
0

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

M1.Num
Simca-P 8.0 by Umetrics AB 2000-05-22 11:34

PModX(Nissan Vanette) = 0.08


21

II. La rgression PLS


Relier un bloc de variables expliquer Y un
bloc de variables explicatives X.
Possibilit de donnes manquantes.
Il peut y avoir beaucoup plus de variables X que
dobservations.
Il peut y avoir beaucoup plus de variables Y que
dobservations.
Meilleure rponse au problme de la
multicolinarit.
22

La rgression PLS : vocabulaire


Rgression PLS1 : un seul Y
Rgression PLS2 : plusieurs Y
Analyse discriminante PLS :
Y qualitatif transform en variables
indicatrices des modalits
23

II.1. La rgression PLS1 :une ide de lalgorithme


Etape 1 : Recherche de m composantes orthogonales
th = Xah bien explicatives de leur propre groupe et bien
corrles y.
Le nombre m est obtenu par validation croise.
Etape 2 : Rgression de Y sur les composantes PLS th .
Etape 3 : Expression de la rgression en fonction de X.
24

Objectif de ltape 1 de la rgression PLS1


y

t1

X2
*
**

*
*

CPX1

* *
**
*
*

*
X1

CPX1

y
* *
*

***
t1
25

La rgression PLS1 : une ide de ltape 1


lorsquil ny a pas de donnes manquantes
Pour chaque h = 1 m, on recherche des
composantes th = Xah maximisant
le critre
Cov (Xah , y)
sous des contraintes de norme (

ah = 1 )

et

dorthogonalit entre th et les composantes


prcdentes t1 ,, th-1.
26

Proprits de la rgression PLS1


De Cov2(Xah , y) = Cor2(Xah , y)*Var(Xah)*Var(y)

on dduit que la rgression PLS1 ralise un


compromis entre la rgression multiple de y sur X et
lanalyse en composantes principales de X.
27

Rgression PLS1: tape 1


1. Calcul de la premire composante PLS t1 :

t1 = Xa1 = cor ( y, x j ) x j
j

Lors de cette tape les


covariances sont gales aux
corrlations, puisque toutes les
donnes sont centres rduites

2. Normalisation du vecteur a1= (a11,,a1k)


3. Rgression de y sur t1=Xa1 exprime en fonction des x
4. Calcul des rsidus y1 et X1 des rgressions de y et X sur t1 :
y = c1t1 + y1
X = t1p1 + X1
28

Rgression PLS1: tape 2


1. Calcul de la deuxime composante PLS t2 :

t 2 = X 1b2 = cov( y1 , x1 j ) x1 j
j

2. Normalisation du vecteur b2= (b21,,b2k)


3. Calcul de a2 tel que : t2 = X1b2 = Xa2
4. Rgression de y1 sur t2 = Xa2 exprime en fonction des x
5. Calcul des rsidus y2 et X2 des rgressions de y et X1
sur t2 :
y1 = c2t2 + y2
X1 = t2p2 + X2
29

Rgression PLS1: tapes suivantes


On procde de la mme manire pour
les autres composantes.
Do le modle de rgression PLS m
composantes :
y

=
=
=
=

c1t1 + c2t2 + + cmtm + Rsidu


c1Xa1 + c2Xa2 + + cmXam + Rsidu
X(c1a1 + c2a2 + + cmam) + Rsidu
b1x1 + b2x2 + + bkxk + Rsidu

30

Calcul de RESSh et PRESSh ltape h


Residual Sum of Squares : RESS h = ( y ( h 1),i y ( h 1),i ) 2
o

y ( h 1),i = c h t hi

est la prvision de y(h-1),i

Les observations sont partages en G groupes, et on ralise G fois ltape


courante de lalgorithme sur yh-1 et Xh-1 en enlevant chaque fois un groupe.

Predicted Residual Sum of Squares :

PRESS h = ( y ( h 1),i y ( h 1), i ) 2


i

y ( h 1), i

est calcul dans lanalyse ralise sans le groupe

contenant lobservation (i).


31

Choix du nombre de composantes


On choisit le nombre de composantes
par validation croise.
La composante h est retenue si

Soit :

[PRESSh] 0.95[RESSh-1]
PRESS h
Q = 1
0.05
RESSh 1
2

32

Q2(cum) et R2(validation croise)


h

2
[Qcum
]h

PRESS a
= 1
a =1 RESS a 1

peu diffrent de
2
Rvalidation
croise

PRESS h
= 1
2
(
y

y
)
i
i

La composante h est retenue si :


2
2
[Qcum
]h est nettement suprieur [Qcum
]h 1

Modle h composantes acceptable si [Q2cum]h > 0.5

33

Variable Importance in the Prediction


(VIP)
Composantes PLS : th = Xh-1bh, avec ||bh|| = 1
Importance de la variable xj (j=1,, p) pour la
prdiction de y dans un modle m composantes :
VIPmj =

p
m

2
2
R
(
y
,
t
)
b

h hj

2
h =1
R
(
y
,
t
)

h
h =1

Moyenne des carrs des VIP = 1


Variable importante pour la prdiction si VIP > 0.8
34

Rgression PLS1 : Exemple Voitures


Problmes : multicolinarit, donnes manquantes
Donnes compltes
Modle
Honda Civic
Renault 19
Fiat Tipo

Prix
83700
83800
70100

Cylindre
1396
1721
1580

Puissance
90
92
83

Vitesse
174
180
170

Poids
850
965
970

Longueur
369
415
395

Largeur
166
169
170

1294

95

184

730

350

160

Citron AX Sport 66800

Donnes incompltes
Modle
Honda Civic
Renault 19
Fiat Tipo

Prix
83700
83800
70100

Cylindre
.
1721
1580

Puissance
90
.
83

Vitesse
174
180
.

Poids
850
965
970

Longueur
369
415
395

Largeur
166
169
170

1294

95

184

730

350

Citron AX Sport 66800

35

Rgression multiple sur les donnes compltes


R2 = 0.847, F = 15.730 Sig. = 0.0001
Coefficientsa

Model

Unstandardized
Coefficients
B
Std. Error
(Constant)
12070.406
194786.6
CYLINDRE
-1.936
33.616
PUISSANC
1315.906
613.510
VITESSE
-472.507
740.319
POIDS
45.923
100.047
LONGUEUR
209.653
504.152
LARGEUR
-505.429
1501.589

Standardized
Coefficients
Beta
-.018
.888
-.207
.184
.151
-.067

t
.062
-.058
2.145
-.638
.459
.416
-.337

Sig.
.951
.955
.047
.532
.652
.683
.741

a. Dependent Variable: PRIX


36

Corrlations entre les variables


Correlation Matrix

PRIX
CYLINDRE
PUISSANC
VITESSE
POIDS
LONGUEUR
LARGEUR

PRIX
1.000
.852
.891
.720
.813
.747
.611

CYLINDRE
.852
1.000
.861
.693
.905
.864
.709

PUISSANC
.891
.861
1.000
.894
.746
.689
.552

Correlation
VITESSE
.720
.693
.894
1.000
.491
.532
.363

POIDS
.813
.905
.746
.491
1.000
.917
.791

LONGUEUR
.747
.864
.689
.532
.917
1.000
.864

LARGEUR
.611
.709
.552
.363
.791
.864
1.000

37

Rgression PLS sur les donnes incompltes


Choix du nombre de composantes
autopbis.M1 (PLS), Untitled, Work set
Model Overview (cum)
R2Y(cum)
Q2(cum)
1.00

R2Y(cum) & Q2(cum)

0.80

0.60

0.40

0.20

0.00
Comp[1]

Comp[2]

Comp[3]

Simca-P 8.0 by Umetrics AB 2000-05-30 18:11

On retient une composante PLS


38

Rgression PLS sur les donnes incompltes


R2 = 0.761
quation sur les donnes centres-rduites (CoeffCS)
Pr ix
= 2.18 + 0.183Cylindre* + 0.206Puissance* + 0.146Vitesse *
(Pr ix)
+ 0.165Poids* + 0.153Longueur * + 0.129Largeur *

quation sur les donnes dorigine (Coeff)


Prix = -316 462 + 23Cylindre + 328Puissance + 339Vitesse
+ 40Poids + 205Longueur + 1007Largeur

quation sur les donnes dorigine pour Y et centres pour X (CoeffC)


Prix = 125513 + 23(Cylindre - 1888) + 328(Puissance - 112) + 339(Vitesse - 182)
+ 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168)

39

Rsultats de la validation croise


sur les coefficients de rgression PLS
0.24

0.22

Audi 90 Quattro

0.20

0.18

0.16

0.14

0.12

0.10
LARGEUR

LONGUEUR

POIDS

VITESSE

PUISSANC

CYLINDRE

PRIX

40

Rsultats de la validation croise


sur les coefficients de rgression PLS
Cylindre
Puissance
Vitesse
Poids
Longueur
Largeur

B
0.1827
0.2060
0.1465
0.1653
0.1525
0.1286

SE
0.0371
0.0570
0.0430
0.0181
0.0175
0.0299

Student T
4.925
3.614
3.407
9.133
8.714
4.301

p-value
0.0001
0.0005
0.0002
0.0001
0.0001
0.0001

41

Carte des variables


X
Y

PUISSANCE

0.60

0.40

PRIX
VITESSE
POIDS

w*c[2]

0.20

0.00

CYLINDRE
-0.20

LONGUEUR
-0.40

-0.60

LARGEUR
-0.80

-0.70

-0.60

-0.50

-0.40

-0.30

-0.20

-0.10

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

w*c[1]

42

Validation globale
Autoprib.M1 (PLS): Validate Model
PRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192)

R2
Q2

0.80

0.70

0.60

0.50

0.40

0.30

0.20

0.10

0.00

-0.10

-0.20
0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

200 permutations 1 components

- Abscisse : Corrlation entre Y et Y permut


- Ordonne : R2 et Q2 de la rgression PLS de Y permut sur X
- Les droites noire et rouge sont les droites des moindres carrs

43

Exemple Voitures
Variable Importance in the Projection (1 composante)
1.20
1.10
1.00
0.90

0.70
0.60
0.50
0.40
0.30
0.20

LARGEUR

VITESSE

LONGUEUR

POIDS

0.00

CYLINDRE

0.10
PUISSANC

VIP[1]

0.80

Simca-P 8.0 by Umetrics AB 2000-05-22 12:05

44

Rgression PLS sur les donnes incompltes


AUTOPRIB.M1 (PLS), Modle 1, Work set
PRIX, Comp 1(Cum)
250000

audi 90
bmw 325i

200000

renault
150000

vw carav
peugeot
peugeot opel ome
renault
nissan
v ford sie
citroen

100000

50000

bmw 530i
renault
ford sco
rover 82

fiat ford
uno fie

40000

60000

honda ci
renault
peugeot
seat
peugeot
fiatibitip
citroen

80000

100000

120000

140000

160000

180000

200000

220000

240000

Predicted

RMSEE=28979
Simca-P 7.01 by Umetri AB 1998-11-23 09:40

45

Intervalle de confiance 95% du prix moyen


(fourni par SIMCA)
300000

200000

PRIX

100000

0
0

100000

200000

300000

prvision
46

Intervalle de prvision 95% du prix


( calculer)
300000

audi 90 quattro

200000

PRIX

100000

0
0

100000

200000

300000

prvision
47

Prdiction du prix de la HONDA CIVIC


(Problme : certains X sont manquants)
Prix de vente : 83 700 FF

Cylindre
Puissance
Vitesse
Poids
Longueur
Largeur

Caractristiques
de la Honda Civic
?
90
174
850
369
166

Caractristiques
centres-rduites
?
-.61009
-.32011
-1.10172
-1.23196
-.32679

48

Prdiction du Prix de la HONDA CIVIC


Rgression du Prix sur t1 :

Prix - 125 512


0.4045789 t1
57 503
Calcul de tPS1 pour la HONDA CIVIC :
-

Rgression : Xj = p1jt1 + erreur, j = 1,, p


p1 = (p11, , p1p)

Rgression : xi = tPS1ip1 + erreur


sur les donnes disponibles; d o le calcul de tPS1i
tPS1(Honda Civic) = -1.84262 est lestimation de t1i

Prdiction du prix de la HONDA CIVIC


-

On utilise tPS1 la place de t1


Prdiction du Prix = 82 644.5 FF

49

Prdiction du Prix de la HONDA CIVIC :


calcul de tPS1 (Honda Civic)
Cylindre
Puissance
Vitesse
Poids
Longueur
Largeur

xHonda

P1
0.48
0.45
0.37
0.39
0.39
0.36

0.48
?

0.45

.
61

.32
0.37
tPS1 ( Honda)
=

1.10
0.39
1.23
0.39

.33
0
.
36

tPS1(Honda) = -1.84262

50

Rgression PLS1 : Cas UOP Guided Wave


Problme : 226 variables X et 26 observations

Les donnes :
Y = indice doctane
X1, X2, , X226 :
valeurs dabsorbance diffrentes longueurs donde

Donnes de calibration :
26 chantillons dessence (dont 2 avec alcool)

Donnes de validation :
13 chantillons dessence (dont 4 avec alcool)
51

Cas UOP Guided Wave


Visualisation des X
-4.469e-03

0.113

0.231

0.349

0.467

0.585

a
m

H17
H36

p
l

S.016
e
s

1100

1200
a
V

1300
i

1400
l
b

1500
s

Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables

52

Cas UOP Guided Wave


Visualisation des X : Donnes de calibration
.7
.6
.5
.4

M52

.3
.2

H59

.1
0.0
-.1
1

25
13

49
37

73
61

97
85

121
109

145
133

169
157

193
181

217
205

Sequence number

Les chantillons M52 et H59 contiennent de l alcool

53

Cas UOP Guided Wave


Visualisation des X : Donnes de validation
.7
.6
.5
.4
.3
.2
.1
0.0
-.1
1

25
13

49
37

73
61

97
85

121
109

145
133

169
157

193
181

217
205

Numro de la longueur d'onde


Les chantillons avec alcool sont en rouge

54

Rgression PLS1 : les rsultats


Donnes de spectroscopie
Les donnes sont centres, mais non rduites

Validation croise :
3 composantes PLS

55

UOP Guided Wave : Les composantes PLS


OCTANE.M4 (PLS), Untitled, Work set
Scores: t[1]/t[2]

0.40
H39
H12
H24
H27
H20
H11
H17
H38
H36
H32
L13
M18
M05
M01
L21
M02
L37
L40
L35
L29
L06
L14
L31
L15

t[2]

0.20
0.00
-0.20

H59

M52
-0.40
-0.40

-0.30

-0.20

-0.10

0.00

0.10

0.20

0.30

0.40

0.50

0.60

t[1]

Ellipse: Hotelling T2 (0.05)


Simca-P 7.01 by Umetri AB 1998-11-23 12:14

- Indice d octane : L = Low, M = Medium, H = High


- Les chantillons M52 et H59 contiennent de lalcool

56

UOP Guided Wave : les composantes PLS


OCTANE.M4 (PLS), Untitled, Work set
Scores: t[2]/t[3]
0.100
H32
H36 H38
H17

t[3]

0.050
M52

0.000

H59

L31 L40
L15 L14
L29
L06
L35

M02 M05
M18
M01
H11
H20
H27
H24
L21
L37

-0.050

-0.100
-0.50

-0.40

-0.30

-0.20

-0.10

H12

L13

0.00

0.10

0.20

0.30

H39

0.40

0.50

t[2]

Ellipse: Hotelling T2 (0.05)


Simca-P 7.01 by Umetri AB 1998-11-23 12:41

Indice d octane : L = Low, M = Medium, H = High

57

Cas UOP Guided Wave : Prvision


Donnes de calibration
OCTANE.M4 (PLS), Untitled, Work set
OCTANE, Comp 3(Cum)
H38
H39 H17
H24H20
H27
H36
H12
H11
H32

92
91

H59

90
M05
M18
M52
M02 M01

89
88
87

L15

L35 L37L40
L14
L31
L29
L21
L06
87

L13

88

89

90

91

92

Predicted

RMSEE=0.290788
Simca-P 7.01 by Umetri AB 1998-11-23 12:53

58

Cas UOP Guided Wave : Prvision


Donnes de validation
OCTANE.M5 (PLS), Untitled, PS-OCTANE
OCTANE, Comp 3 (Cum)
92
S.022S.026
S.010
S.057
S.058

Observed

91

S.016
S.055

S.056

90
89

S.004
S.025
S.003

S.019

88
87

S.034
87

88

89

90

91

92

Predicted

RMSEP=0.256792
Simca-P 7.01 by Umetri AB 1998-11-23 13:11

Prsence d alcool : OUI / NON

59

II.2 La rgression PLS2


Relier un bloc de variables expliquer Y un
bloc de variables explicatives X.
Possibilit de donnes manquantes.
Il peut y avoir beaucoup plus de variables X que
dobservations.
Il peut y avoir beaucoup plus de variables Y que
dobservations.
60

La rgression PLS2 : une ide de lalgorithme


Etape 1 : Recherche de m composantes orthogonales
th = Xah et m composantes uh= Ybh bien corrles
entre elles et explicatives de leur propre groupe.
Le nombre m est obtenu par validation croise.
Etape 2 : Rgression de Y sur les composantes th .
Etape 3 : Expression de la rgression en fonction de X.
61

Objectif de ltape 1 de la rgression PLS2


Y2

t1

X2
**

CPX1

*
*
*

CPY1
* *
**
*
*

*
X1

u1

Y1

u1

* *
*

***
t1
62

La rgression PLS2 : une ide de ltape 1


lorsquil ny a pas de donnes manquantes
Pour chaque h = 1 m, on recherche des
composantes th = Xah et uh= Ybh maximisant
le critre
Cov (Xah , Ybh )
sous des contraintes de norme et dorthogonalit
entre th et les composantes prcdentes t1 ,, th-1.
63

Interprtation du critre de Tucker


De Cov2(Xah , Ybh )
= Cor2(Xah , Ybh )* Var(Xah)*Var(Ybh)
on dduit que la rgression PLS ralise un
compromis entre lanalyse canonique
de X et Y, une ACP de X, et une ACP
oblique de Y.
64

Variable Importance in the Prediction (VIP)


Composantes PLS : th = Xh-1bh , avec ||bh|| = 1
Importance de la variable xj (j=1, p) pour la prdiction
des yk (k=1, q) dans un modle m composantes :
VIPmj =

p
m

2
2
[
R
(
y
,
t
)
]
b
k h hj

2
h =1
R
(
y
;
t
)
k h

k =1

h =1 k =1

Moyenne des carrs des VIP = 1


Variable importante pour la prvision si VIP > 0.8
65

Rgression PLS2
Exemple 1: Dgustation de th
Les donnes
Obs Temprature Sucr
1
1
1
2
1
2
3
1
3

Force
1
2
3

Citron
1
1
2

Sujet 1
4
2
6

Sujet 6
5
8
6

11

14

12

15

18

Temprature
Sucr
1 = Chaud
1 = Pas de sucre
2 = Tide
2 = 1 sucre
3 = Glac
3 = 2 sucres

Force
Citron
1 = Fort
1 = Avec
2 = Moyen 2 = Sans
3 = Faible

66

Cas Dgustation de th
Bloc X
Variables indicatrices des modalits
de Temprature, Sucr, Force et Citron
Bloc Y
Les classements des sujets
67

Cas Dgustation de th
Rsultats de la rgression PLS

Validation croise :
3 composantes : th = Xwh* et uh = Ych

quation de rgression de Yk sur t1, , th :


Yk = c1kt1 + c2kt 2+ c3kt3 + c4kt4 + rsidu

Les variables X et Y sont reprsentes laide


des vecteurs wh* et ch.
68

Cas Dgustation de th
Carte des variables
THE.M1 (PLS), rgression PLS, Workset

Loadings: w*c[1]/w*c[2]
Y5

0.6

Y3
CHAUD

0.4

CITRON0
FORT
MOYEN
SUCRE1

Y2

SUCRE2

0.0

Y4
GLAC
SUCRE0

-0.2

Y6
-0.4

TIEDE

CITRON1
LEGER

-0.6
-0.6

-0.4

-0.2

0.0

w*c[1]

0.2

0.4

0.6

0.8

Simca-P 3.01 by Umetri AB 1998-11-23 18:11

w*c[2]

0.2

Y1

69

Cas dgustation de th
Visualisation de la rgression PLS de Y1 sur X
THE.M1 (PLS), rgression PLS, Workset

THE rgression PLS

Loadings: w*c[1]/w*c[2]

M1.Y1 (CoeffCS) [4]

Y5

0.6

Y3
0.4

CHAUD

0.0

w*c[1]

0.2

0.4

0.6

0.8

Rgle dinterprtation:
Les projections des variables X sur les variables Y refltent le signe et
lordre de grandeur des coefficients de rgression PLS des Y sur X.
Le juge 1 aime son th chaud et rejette le th tide

70

Simca-P 3.01 by Umetri AB 1998-11-23 19:14

-0.2

CITRON0

-0.4

CITRON1

-0.6

-0.6
LEGER

LEGER
-0.6

-0.4

MOYEN

CITRON1

FORT

TIEDE

SUCRE2

Y6
-0.4

-0.2

SUCRE1

-0.2

SUCRE0

Y4
FROID
SUCRE0

0.0

FROID

SUCRE2

0.0

TIEDE

Y2

SUCRE1

Simca-P 3.01 by Umetri AB 1998-11-23 18:11

w*c[2]

0.2

0.2

Y1

CHAUD

CITRON0
FORT
MOYEN

CoeffCS5[4]

0.4

Validation du modle pour le juge 1


0.60

0.20
0.00
-0.20
-0.40

CITRON0

CITRON1

LEGER

MOYEN

FORT

SUCRE2

SUCRE1

SUCRE0

FROID

TIEDE

-0.60
CHAUD

CoeffCS[4](Y1)

0.40

Var ID (Primary)

71

Cas dgustation de th
Visualisation de la rgression PLS de Y5 sur X
THE rgression PLS

THE.M1 (PLS), rgression PLS, Workset

M1.Y5 (CoeffCS) [4]

Loadings: w*c[1]/w*c[2]
Y5

0.6

Y3
CHAUD

-0.4

-0.2

0.0

w*c[1]

0.2

0.4

0.6

0.8

Le juge 5 prfre son th sans citron, fort;


il est indiffrent au th tide; il rejette le th lger, avec
du citron.
72

Simca-P 3.01 by Umetri AB 1998-11-23 19:26

-0.6

CITRON0

-0.6

-0.4
CITRON1

LEGER

LEGER

CITRON1

MOYEN

TIEDE

FORT

-0.4

-0.2

SUCRE2

Y6

SUCRE1

-0.2

0.0

SUCRE0

Y4
FROID
SUCRE0

Simca-P 3.01 by Umetri AB 1998-11-23 18:11

SUCRE2

0.0

FROID

Y2

SUCRE1

TIEDE

0.2

0.2

Y1

CHAUD

CITRON0
FORT
MOYEN

CoeffCS9[4]

0.4

w*c[2]

0.4

Validation du modle pour le juge 5

0.40

0.00

-0.20

CITRON0

CITRON1

LEGER

MOYEN

FORT

SUCRE2

SUCRE1

SUCRE0

FROID

TIEDE

-0.40

CHAUD

CoeffCS[4](Y5)

0.20

Var ID (Primary)

73

Carte des produits dans lespace des juges


Dgustation de ths
Scores: u[1]/u[2]

11
8
2

12

18
1
4

14

10

]
2[ 0
u

9
6
16

-1

13

17
-2

15
-2

5
-1

u[1]
Simca-P 8.0 by Umetrics AB 2000-11-27 10:19

74

Variable Importance in the Projection (VIP)


THE.M1 (PLS), Untitled, Work set
VIP, Comp 4(Cum)
1.60

1.40

1.20

0.80

0.60

0.40

SUCRE1

MOYEN

FROID

FORT

CITRON0

CITRON1

LEGER

SUCRE2

SUCRE0

0.00

CHAUD

0.20

TIEDE

VIP[4]

1.00

75
Simca-P 8.0 by Umetrics AB 2000-03-08 08:01

III. Analyse discriminante PLS


Bloc Y
La variable qualitative Y est remplace par
lensemble des variables indicatrices de ses
modalits.
Bloc X
Variables numriques ou indicatrices des
modalits des variables qualitatives.
Rgression PLS de Y sur X
76

Analyse discriminante PLS : exemple


Les donnes
16 biopsies de tumeurs de cerveau humain.
Chaque tumeur est classe par un mdecin anatomopathologiste comme bnigne ou maligne.
Chaque biopsie est analyse par chromatographie en phase
gazeuse : on obtient un profil mtabolique de la biopsie
form de 156 pics.
Quelques donnes manquantes
Article:
Jellum E., Bjrnson I., Nesbakken R., Johanson E., Wold S. Classification of
human cancer cells by means of capillary gas chromatography and pattern
recognition analysis. ( Journal of Chromatography, 1981)
77

Analyse discriminante PLS


Profils mtaboliques des biopsies
T2

1200

1400

T3
1200

1000

T6

1000

T7

800

T8

N1

800

600

T9

N4
600
N5

T10

400

400

T11

N13

200

200

N14

N15
1

17
9

33
25

49
41

65
57

81
73

97
89

113
105

Sequence number

Tumeurs bnignes

129
121

T16

0
1

145
137

T12

153

17
9

33
25

49
41

65
57

81
73

97
89

113
105

129
121

145
137

153

Sequence number

Tumeurs malignes
78

Analyse en composantes principales des 16 biopsies


Composantes principales 1 et 2
EGI1.M4 (PC), Untitled, Work set
Scores: t[1]/t[2]

10

N15

t[2]

N13

T8
T12
T6
T7

N1

T3T11
T16

N4
N14
T9

-5

T10 T2
N5

-10

-10

10

t[1]

Ellipse: Hotelling T2 (0.05)


Simca-P 7.01 by Umetri AB 1998-11-24 15:17

79

Analyse en composantes principales des 16 biopsies


Composantes principales 1 et 3
EGI1.M4 (PC), Untitled, Work set
Scores: t[1]/t[3]
N14

10

N5

t[3]

T16
T8 T12
T6
T7

T9

N13

N15
N1

T3T11

T10
N4

-5
T2
-10
-10

10

t[1]

Ellipse: Hotelling T2 (0.05)


Simca-P 7.01 by Umetri AB 1998-11-24 15:19

80

Analyse discriminante PLS


Composantes PLS 1 et 2
EGI1.M5 (PLS), Untitled, Work set
Scores: t[1]/t[2]
N14

10

t[2]

T8

N15

T12
T16
T7T6
T3
T11
T9

-5

T10

N5
N1

N13

N4

T2
-10
-10

10

t[1]

Ellipse: Hotelling T2 (0.05)


Simca-P 7.01 by Umetri AB 1998-11-24 15:22

81

IV. Rgression logistique PLS


Bonne solution au problme de la
multicolinarit.
Il peut y avoir beaucoup plus de variables que
dobservations.
Il peut y avoir des donnes manquantes.
Prsentation de trois algorithmes

82

Qualit des vins de Bordeaux


Variables observes sur 34 annes (1924 - 1957)
TEMPERATURE : Somme des tempratures
moyennes journalires
SOLEIL
: Dure dinsolation
CHALEUR
: Nombre de jours de grande chaleur
PLUIE
: Hauteur des pluies
QUALITE DU VIN : Bon, Moyen, Mdiocre

83

Rgression logistique ordinale


Y = Qualit : Bon (1), Moyen (2), Mdiocre (3)
PROB(Y i) =
i +1Temprature+2Soleil+3Chaleur+4Pluie
e
i +1Temprature+2Soleil+3Chaleur+4Pluie
1+ e
84

Rgression logistique ordinale


Rsultats SAS
Score Test for the Proportional Odds Assumption
Chi-Square = 2.9159 with 4 DF (p=0.5720)
Analysis of Maximum Likelihood Estimates

Variable

DF

INTERCP1
INTERCP2
TEMPERA
SOLEIL
CHALEUR
PLUIE

1
1
1
1
1
1

Parameter
Estimate

Standard
Error

Wald
Chi-Square

Pr >
Chi-Square

-2.6638
2.2941
3.4268
1.7462
-0.8891
-2.3668

0.9266
0.9782
1.8029
1.0760
1.1949
1.1292

8.2641
5.4998
3.6125
2.6335
0.5536
4.3931

0.0040
0.0190
0.0573
0.1046
0.4568
0.0361
85

Rgression logistique ordinale


Qualit de prvision du modle
QUALITE
PREVISION
OBSERVEE
Effectif
1
2
3

1
8
3
0

2
2
8
1

3
0
1
11

Total
10
12
12

Total
11
11
12
34

Rsultat : 7 annes mal classes


86

Rgression logistique ordinale


Commentaires
Le modle pentes gales est acceptable
(p = 0.572).
La chaleur a une influence positive sur la qualit
du vin de Bordeaux, alors quelle apparat comme
non significative et avec un coefficient ngatif
dans le modle.
C est un problme de multicolinarit.
Il y a 7 annes mal classes.
87

Algorithme 1 : La rgression logistique PLS


Etape 1 : Recherche de m composantes orthogonales
Th = Xah explicatives de leur propre groupe
et bien prdictives de y.
Le nombre m est obtenu par validation croise.
Etape 2 : Rgression logistique de Y sur les
composantes Th .
Etape 3 : Expression de la rgression logistique en
fonction de X.
88

Rgression logistique PLS


tape 1
1. Rgression logistique de y sur chaque xj :

les coefficients de rgression a1j

2. Normalisation du vecteur a1= (a11,,a1k)


3. Rgression logistique de y sur T1=Xa1
exprime en fonction des X
4. Calcul du rsidu X1 de la rgression de X sur T1
89

Rgression logistique PLS


tape 2
1. Rgression logistique de y sur T1 et chaque
rsidu x1j :
les coefficients de rgression b2j
2. Normalisation du vecteur b2= (b21,,b2k)
3. Calcul de a2 tel que : T2 = X1b2 = Xa2
4. Rgression logistique de y sur T1= Xa1 et T2 = Xa2
exprime en fonction des X
5. Calcul du rsidu X2 de la rgression de X sur T1 , T2
90

Rgression logistique PLS


Choix du nombre de composantes
On procde de la mme manire pour les autres tapes.
On choisit le nombre de composantes par
validation croise : la composante h est retenue si
2
[ Pearson
( validation croise, tape h )]1 / 2
2
1/ 2
[

(
substituti
on,
tape
h
1
)]
0.95 Pearson

Soit :
Q2 = 1

2
validation

croise, tape

2
substituti
on, tape

0 .0975

h -1

91

Rgression logistique PLS


Rsultats de lalgorithme
La temprature de 1924 est suppose inconnue.
La rgression logistique PLS de Y sur X a conduit
deux composantes PLS T1 et T2 :
T1 = 0.57Temprature + 0.63Soleil + 0.41Chaleur
- 0.34Pluie

T2 = - 0.14Temprature + 0.45Soleil - 0.69Chaleur


- 0.52Pluie
92

Rgression logistique ordinale sur T1, T2


Rsultats SAS
Analysis of Maximum Likelihood Estimates

Variable

DF

INTERCP1
INTERCP2
T1
T2

1
1
1
1

Parameter
Estimate

Standard
Error

Wald
Chi-Square

Pr >
Chi-Square

-2.5490
2.1349
3.0797
1.4148

0.8768
0.8955
0.8350
0.8849

8.4507
5.6837
13.6032
2.5563

0.0036
0.0171
0.0002
0.1099

TABLEAU CROISANT QUALIT OBSERVE ET PRDITE


QUALIT

PRDICTION

Effectif
1
2
3

1
9
2
0

2
1
9
1

3
0
1
11

Total
10
12
12

Total
11
11

Rsultat :
5 annes mal classes

12
34

93

Rgression logistique PLS


Le modle

Prob (Y i)
2.55 Bon + 2.14 Moyen + 3.08T1 +1.42T2

e
=
1 + e 2.55Bon +2.14Moyen +3.08T1+1.42T2
e 2.55Bon +2.14Moyen +1.57Temp.+2.73Soleil +0.26Chaleur 1.77Pluie
=
1 + e 2.55Bon +2.14Moyen +1.57Temp.+2.73Soleil +0.26Chaleur 1.77Pluie
94

Algorithme 2
Rgression logistique sur composantes PLS

(1)
(2)

Rgression PLS des indicatrices de Y


sur les X.
Rgression logistique de Y sur les
composantes PLS des X.

95

Rgression logistique sur les composantes PLS


Rsultats
La temprature de 1924 est suppose inconnue.
La rgression PLS des indicatrices de Y sur X
a conduit une seule composante PLS t1
(rsultat de la validation croise).
t1 = 0.55Temprature + 0.55Soleil +0.48Chaleur
0.40Pluie

Pour lanne 1924 :


t1 = (0.55Soleil +0.48Chaleur 0.40Pluie)/0.69
96

Utilisation de la rgression PLS pour la


prvision de la qualit du vin de Bordeaux
The PLS Procedure
Cross Validation for the Number of
Latent Variables
Test for larger
residuals than
minimum
Number of
Root
Latent
Mean
Prob >
Variables
PRESS
PRESS

0
1.0313
0
1
0.8304
1.0000
2
0.8313
0.4990
3
0.8375
0.4450
4
0.8472
0.3500
Minimum Root Mean PRESS = 0.830422 for
1 latent variable
Smallest model with p-value > 0.1: 1
latent

TABLE OF QUALITE BY PREV


QUALITE

PREV

Frequency
1
3

1
11
0

2
4
7

3
1
11

Total
16
18

Choix dune composante PLS

Total
11
11
12
34

Rsultat :
12 annes mal classes
97

Rsultats de la rgression logistique


de Y sur la composante PLS t1
Analysis of Maximum Likelihood Estimates

Variable

DF

INTERCP1
INTERCP2
t1

1
1
1

Parameter
Estimate

Standard
Error

Wald
Chi-Square

Pr >
Chi-Square

-2.1492
2.2845
2.6592

0.8279
0.8351
0.7028

6.7391
7.4841
14.3182

0.0094
0.0062
0.0002

TABLEAU CROISANT QUALIT OBSERVE ET PRDITE


QUALIT

PRDICTION

Effectif
1
2
3

1
9
2
0

2
2
8
1

3
0
1
11

Total
11
11
12

Total
11
11

Rsultat :
6 annes mal classes

12
34

98

Rgression logistique sur composantes PLS


Le modle

Prob (Y i)
2.15 Bon + 2.28 Moyen + 2.66t1

e
=
1 + e 2.15Bon +2.28Moyen +2.66t1
e 2.15Bon+2.28Moyen+1.47Temp.+1.46Soleil+1.28Chaleur 1.07Pluie
=
1 + e 2.15Bon+2.28Moyen+1.47Temp.+1.46Soleil+1.28Chaleur 1.07Pluie
99

Conclusion 1: Rgression logistique PLS


vs rgression logistique sur composantes PLS
Les deux algorithmes prsents devraient avoir
des qualits comparables.
L algorithme 2 est beaucoup plus simple :
Deux tapes :
(1) Rgression PLS des indicatrices de Y sur X
(2) Rgression logistique de Y sur les
composantes PLS

100

Conclusion 2:
Le modle linaire gnralis PLS
Le modle linaire gnralis PLS peut tre
construit selon les mmes procdures.
Approche beaucoup plus simple que la
mthode de Brian Marx : Iteratively
Reweighted Partial Least Square Estimation
for Generalized Linear Regression ,
Technometrics, 1996.
101

Algorithme 3 (donnes groupes)


Rgression PLS du logit de la variable de
rponse sur les prdicteurs
Exemple : Job satisfaction (Zelterman, 1999)
9949 employees in the craft job within a company
Response : Satisfied/Dissatisfied
Factors : Sex, Race (White/Nonwhite),
Age (<35, 35-44, >44)
Region (Northeast, Mid-Atlantic, Southern,
Midwest, Northwest, Southwest, Pacific)
Explain Job satisfaction with all the main effects and
the interactions.
102

Une approche exploratoire


(1)

Rgression PLS de
Y1 = Logit(proportion of satisfied people)
Y2 = Logit(proportion of non satisfied people)

sur les 4 facteurs et toutes les interactions.


(2) limination itrative des termes petits
VIP, en vrifiant laugmentation du
Q2(cum)
(3) Carte des variables finalement retenues
103

Rsultat de la Rgression PLS sur les logits


MEN
0.30

YOUNG in NORTHEAST
WOMEN in MIDWEST

0.20

NONWHITE WOMEN

NON SATISFIED

NORTHEAST

0.10

OLD WHITE

w*c[2]

YOUNG in MIDWEST
0.00
YOUNG

WOMEN in NORTHEAST

OLD in MID-ATLANTIC

-0.10

SATISFIED

MID-ATLANTIC
YOUNG WHITE

-0.20

WHITE in MID-ATLANTIC
-0.30

YOUNG WOMEN

SOUTHERN
NONWHITE MEN

WOMEN
-0.40
OLD in SOUTHERN
-0.50
-0.30

-0.20

-0.10

0.00

0.10

0.20

0.30

w*c[1]

Y1 = Logit (Proportion of Satisfied)


Y2 = Logit (Proportion of Non Satisfied)
X = Explanatory variables kept after elimination of small VIP terms

104

Quelques rfrences sur les mthodes PLS


Rgression PLS
- L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and
Megavariate Data Analysis using Projection Methods (PCA & PLS),
Umetrics, 1999.
- H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000
- H. Martens & T. Ns : Multivariate calibration, Wiley, 1989
- SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden),
distribu par SIGMA PLUS
- M. Tenenhaus : La rgression PLS, Editions Technip, 1998

Approche PLS (PLS Path modelling)


-

J.-B. Lohmller : Latent variable path modeling with partial least


squares, Physica-Verlag, 1989
LVPLS 1.8 : Software for Latent variables path analysis with partial
least-squares estimation, J.-B. Lohmller, 1989
M. Tenenhaus : Lapproche PLS, R.S.A., 47 (2), 5-40, 1999

105

Vous aimerez peut-être aussi