Vous êtes sur la page 1sur 271

1

Analyse discriminante,
classification supervise,
scoring
Gilbert Saporta
Conservatoire National des Arts et Mtiers
Gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta
Version du 8/11/2009
2
Bibliographie
Bardos: Analyse discriminante , Dunod, 2001
Hastie, Tibshirani, Friedman : The Elements of Statistical
Learning , 2nd edition, Springer-Verlag, 2009 http://www-
stat.stanford.edu/~hastie/Papers/ESLII.pdf
Nakache, Confais: Statistique explicative applique , Technip,
2003
Thiria et al. : Statistique et mthodes neuronales Dunod, 1997
Thomas, Edelman,Crook: Credit scoring and its applications ,
SIAM, 2002
Tuffry: Data Mining et statistique dcisionnelle ,Technip, 2007
Tuffry: tude de cas en statistique dcisionnelle ,Technip, 2009
Vapnik : Statistical Learning Theory , Wiley 1998
3
Plan
I Lanalyse factorielle discriminante
II Discrimination sur variables qualitatives :
le scoring.
III Analyse discriminante probabiliste
IV Rgression logistique
V SVM
VI Validation
VII Choix de modles et thorie de lapprentissage
statistique
VIII Arbres de dcision
4
Objet dtude
Observations multidimensionnelles rparties en k
groupes dfinis a priori.
Autre terminologie: classification supervise
Exemples dapplication :
Pronostic des infarctus (J .P. Nakache)
2 groupes : dcs, survie (variables mdicales)
Iris de Fisher :
3 espces : 4 variables (longueur et largeur des ptales et spales)
Risque des demandeurs de crdit
2 groupes : bons, mauvais (variables qualitatives)
Autres :
Mto, publipostage, reclassement dans une typologie.
5
Quelques dates :
P.C. Mahalanobis 1927
H. Hotelling 1931
R. A. Fisher 1936
J .Berkson 1944
C.R.Rao 1950
T.W.Anderson 1951
D.Mc Fadden 1973
V.Vapnik 1998
6
Objectifs
Y variable expliquer qualitative k catgories
X
1
, X
2
, , X
p
variables explicatives
Objectif 1 : Dcrire
tude de la distribution des X
i
/ Y
Gomtrie : Analyse factorielle discriminante AFD
Tests : Analyse de variance multidimensionnelle MANOVA
Objectif 2 : Classer
tude de P(Y/ X
1
, X
2
, , X
p
)
Modlisation fonctionnelle : Approche baysienne
Modlisation logique : Arbre de dcision
Mthodes gomtriques.
7
1. Rduction de dimension, axes et
variables discriminantes.
2. Cas de 2 groupes.
3. Mthodes gomtriques de
classement.
1
re
partie : Lanalyse
factorielle discriminante
8
Reprsentation des donnes
2 cas :
prdicteurs numriques
prdicteurs qualitatifs
n points dans R
p
appartenant k groupes.
1 2
1 1 1 1
1 2
1 2
1 2 1 2
1
2
...
0 1 ... 0
1 0 ... 0

...
0 0 ... 1
1 0 ... 0
indicatrices des groupes variables explicatives
j p
j p
i i i i
j p
n n n n
k j p
i
n
X X X X
X X X X
X X X X
9
I .1 Rduction de dimension.
Recherche daxes et de variables
discriminantes.
Dispersion intergroupe
et dispersion intra
groupe.
W = matrice variance intra
W = 1/n n
i
V
i
B = matrice variance inter
B = 1/n n
i
(g
i
- g) (g
i
- g)
V = W + B variance totale
V
1
g
1
V
2
g
2
V
k
g
k
10
Axes discriminants : deux
objectifs
Dispersion intraclasse minimale : min uWu
Dispersion interclasse maximale : max uBu
u
g
2
g
k
g
1
11
Axes discriminants : deux
objectifs
Simultanit impossible
Compromis :
-1 -1


min max

max


V W B
u V u u W u u B u
u B u u B u
ou
u V u u W u
V Bu u W Bu u
= +

= +





= =
min ' min i
max ' max
u Wu Wu u
u Bu Bu u i


=
=
12
Axes discriminants : deux
objectifs
ACP du nuage des g
i
avec :
Mtrique V
-1
Mtrique W
-1
Mahalanobis
( )
1
-1
a) Bu u
Bu u
Bu (W B)u
1- Bu Wu
b) W Bu u u
1-
V
V

=
=
= +
=
= =
13
Les diffrents cas selon
1
1.
1
= 0 : aucune sparation linaire nest possible, groupes
concentriques
2.
1
=1 : sparation parfaite
3. Mais 0 <
1
< 1 : sparation possible avec groupes non recouvrants
14
Nombre daxes discriminants
ACP des groupes : dimension de lespace contenant
les centres des groupes g
i
Si n>p>k (cas frquent), k-1 axes discriminants
Exemple clbre : Iris de Fisher
K = 3 Setosa, Versicolor, Virginica
P=4 longueur ptale, longueur spale, largeur ptale, largeur
spale
n
1
=n
2
=n
3
=50
Donc deux axes
15
Iris setosa Iris versicolor Iris virginica
16
17
18
Distance de MAHALANOBI S
Distance au sens de la mtrique W
-1
.
1. pour p=1 :
2. p quelconque :
Standardisation de chaque composante x
j
Dcorrlation...
( ) ( )
2 1
1 2 1 2
'
p
D g g W g g

=
g
1
D
p
g
2
( ) ( )
( ) ( )
2 1
1 2 1 2
2 1/2 1/2
1 2 1 2
1/2
'

p
p
W X
D g g W g g
D g g W W g g

=
_
2
2
1 2 1 2 1 2
1 1 2
1 2 1 2
(1; 2)

n n x x n n
D F n n
n n n n


= +

+ +


19
I nterprtation probabiliste
( ) ( )
( ) ( )
( ) ( )
2 2 -1
p
1 2 1 2
p p
1 2
2 2
p
1 1 2 2
2 1
1 2 1 2
thorique : '
2 populations N , et N ,
estimation (biaise) de

2
= '
p
p
Le
D
nV n V
W
n
D g g W g g

+
= =


20
( )
( )
( )
2 2
1 2
2
1 2
2
1 2
p
2
1
0
1
D ~ ; 1
2
p p
n pn
E D
n p n n
Si
n n n p
F p n p
n p n

= +



= =

I nterprtation probabiliste
21
Distances de Mahalanobis
entre 2 groupes parmi k
Thoriques :
Estimes :
( ) ( )
2 1
'
p i j i j

=
( ) ( )
1
2
'
p
i j i j
n
D g g W g g
n k


( )
( )
2
2
0
n-k-p+1
;n-k-p+1
n-k
i j
p
i j
Si
n n
D F p
n n p
=
=
+
22
I .2 Cas de deux groupes
g
1
et g
2
sont sur une une droite : 1 seul axe discriminant :
RAPPEL : en ACP axe a, facteur u = M a
Combinaison discriminante proportionnelle
M (g
2
- g
1
) = W
-1
(g
2
- g
1
) ou V
-1
(g
2
- g
1
)
FONCTION DE FISHER :
1 1
2 1
1 1
2 1
2 1
( )
p p
X X
W g g W
X X


e
a
d e a
e Ma e u
M
= < >
= =
,
a g g = ( )
1 2
23
Historique
( )
p
j
j
j=1
1
2
d
1, 2 p
-1
1 2
-
Historiquement : d= ux =X u
d -d
Test (de Student) de comparaison de 2 moyennes : T=
s
Fisher (1936)
Trouver u , u , ..., u tel que T maximal.
Solution : u proportionnel W g -g
Nota : W

( ) ( )
( )
1 -1 2
1 2
1 2 1 2 p
nn
g -g = V g -g avec : =1+ D
n n-2
24
Une rgression incorrecte
y 2 valeurs (-1;+1) ou (0;1) ou (a;b)
a=n/n
1
b=-n/n
2
D
p
distance de Mahalanobis entre groupes
Incomprhensions et controverses!
1
1 2
2
2
2 2
2
2
1 2
1 2

( )
( 2)

( 2)
1
p
p
p
D
n n R
R D
n n
n n R
D
n n

= =


+
V g g
25
Consquences
Pas de test,
pas derreurs standard sur les coefficients
MAIS possibilit dutiliser les mthodes de pas pas
en rgression.
Modle linaire usuel non valide :
en discriminante cest linverse que lon suppose :
2
/ ( ; ) y N X X I
/ ( ; )
p j
y j N = X
26
FONCTION LINEAIRE DISCRIMINANTE
VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA
........ VARIABLES FONCTION REGRESSION TYPES STUDENT
NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)
(SEUIL= 0.20)
..............................................................................................
3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154
4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006
5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317
6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897
7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173
8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549
9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849
CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958
..............................................................................................
R2 = 0.55759 F = 16.74489 PROBA = 0.000
D2 = 4.94213 T2 = 124.77643 PROBA = 0.000
..............................................................................................
27
I -3 Mthodes gomtriques
de classement
chantillon dapprentissage
e observation de groupe inconnu
e class dans le groupe i tel que:
d(e ; g
i
) minimal

e
?
y x x
p
' . . .
.
.
.
1
1
2
1
g
1
g
2
g
3
G
1
G
2
G
3
e
28
Utilisation des fonctions
discriminantes
On classe dans le groupe pour lequel la fonction est maximale.
( ) ( ) ( )
( )
2 1 1 1 1
2 1 1
1 2 k
1
11 21 k1
2
p
1p 2p kp
; ' ' 2 ' '
min d ; max 2 ' '
groupes k fonctions discriminantes
1 2 ....... k
1
X
X
X
i
i i i i i i
i i i i
d e g e g W e g e W e g W e g W g
e g g W e g W g
k




= = +


=

_
29
Linear Discriminant Function for Species
Setosa Versicolor Virginica
Constant -85.20986 -71.75400 -103.26971
SepalLength Sepal Length in mm. 2.35442 1.56982 1.24458
SepalWidth Sepal Width in mm. 2.35879 0.70725 0.36853
PetalLength Petal Length in mm. -1.64306 0.52115 1.27665
PetalWidth Petal Width in mm. -1.73984 0.64342 2.10791
30
Number of Observations Classified into Species
From
Species Setosa Versicolor Virginica Total
Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 1 49 50
Total 50 49 51 150
Priors 0.33333 0.33333 0.33333
31
pour deux groupes
On classe dans G
1
si:
Fonction de Fisher >c
Score de Fisher:
' 1 ' 1 ' 1 ' 1
1 1 1 2 2 2
1 ' 1 ' 1
1
1 2 1 1 2 2
2
2 2
( )' ( )
g W e g W g g W e g W g
g g W e g W g g W g


>
>
1 ' 1 ' 1
1
1 2 1 1 2 2 2
( )' ( ) g g W e g W g g W g


32
I nterprtation gomtrique
Projection sur la droite des centres avec la
mtrique W
-1
Dualit axe-frontire plane
frontire
axe discriminant
33
Rgle de classement des plus
proches voisins
On compte le nombre dobservations de G
1
,
G
2
, parmi les k plus proches voisins et on
classe dans le groupe le plus frquent.
Cas limite k = 1
34
Mthode des plus proches voisins (Hastie and al)
35
36
37
38
39
40
Deuxime partie:
Discrimination sur variables
qualitatives et scoring
1. Le problme
2. Disqual
3. Les objectifs du credit scoring
41
I I .1 Discrimination sur
variables qualitatives
1 2 p 1 2 p
variable de groupe
X , X , ... , X Variables explicatives m, m, ... , m modalits

bon payeur
Y :
mauvais payeur
Y
Solvabilit d'emprunteurs auprs de banques
Exemples
1 2
1 2

X : sexe, X : catgorie professionnelle etc.

bon conducteur (pas d'accidents)
Y :
mauvais conducteur
X : sexe, X : t
Risque en assurance automobile
3
ranche d'ge, X : vhicule sportif ou non ...

Y numro de groupe
Reclassement dans une typologie
42
Un peu de (pr)histoire
Fisher (1940)
Un seul prdicteur
Equations de lAFC
Introduction du vocable Scores
43
44
45
Cas de 2 groupes : le
scoring
Deux ides quivalentes :
Transformer les variables qualitatives
explicatives en variables quantitatives.
Donner des valeurs numriques (notes
ou scores) aux modalits de faon
optimale: maximiser la distance de
Mahalanobis dans R
p
Travailler sur le tableau disjonctif des
variables explicatives
Une ralisation : Passage par
lintermdiaire dune analyse des
correspondances multiples.
1 2

0 1 1 0 0
. . . .
.
.
X X







46
Variables explicatives
qualitatives
Quantification : Transformer une variable
qualitative en une variable numrique et se ramener
au cas prcdent.
Exemple : tat matrimonial de 7 individus
Quantification :
1
1
2
2
2
3
4

a C
a C
C Clibataire
a M
M Mari
M a
V Veuf
M a
D Divorc
V a
D a



=

=


=

=




47
X Tableau disjonctif des variables
indicatrices
C M V D
1 0 0 0
1 0 0 0
0 1 0 0
0 1 0 0
0 1 0 0
0 0 1 0
0 0 0 1
F
H
G
G
G
G
G
G
G
G
G
I
K
J
J
J
J
J
J
J
J
J
Quantification
x
a
a
a
a
a
a
a
a
a
a
a
Xa =
F
H
G
G
G
G
G
G
G
G
G
I
K
J
J
J
J
J
J
J
J
J
F
H
G
G
G
G
I
K
J
J
J
J
=
1
1
2
2
2
3
4
1
2
3
4
= X
48
La fonction de Fisher est une
combinaison linaire des variables
quantifies
S est une combinaison
linaire des (m
1
+ m
2
+ +
m
p
) indicatrices des
variables
i
1
j
1
X
1
i
p
i
I
m
i j
j
s
X

=
=
=
=

49
X nest pas de plein rang: rank(X)=m
i
-p
Solution classique: liminer une indicatrice par
prdicteur (GLM , LOGISTIC de SAS)
Disqual (Saporta, 1975):
ADL effectue sur une slection de facteurs de lACM
de X. Analogue de la rgression sur composantes
principales
Composantes slectionnes de manire experte selon
inertie et pouvoir discriminant
50
I I .2 DI SQUAL
1
re
tape
Analyse des correspondances du tableau des
prdicteurs.
k variables numriques : garder les coordonnes
factorielles les plus discriminantes
1
. . .
1
2
.
=
.

.
n
k
z z
Z











1 2 3 4
Prop. Loc
Profession Logement
P P P P .
1 1 0 0 0 0 1
2 0 1 0 0 1 0
. .
... . .
. .
. .

variables indicatrices
X
n

51
2
me
tape :
Analyse discriminante linaire (Fisher).
Score = combinaison linaire des coordonnes factorielles=
combinaison linaire des indicatrices des catgories
Coefficients = grille de notation
1
Score
k
j
j
j
d
=
=

s z
: coordonnes des catgories sur l'axe nj
j j j
z = Xu u
1 1
grille de score
k k
j j
j j
j j
s d Xu X d u
= =
= =

_
( )
1
1 2
1 2
.
.
( )
.
.
j j
j
j
z z
d
V



= =






V g g
z

52
Slection des axes
Selon lordre de lACM
% dinertie
Selon le pouvoir discriminant
Student sur 2 groupes,F sur k groupes
Rgularisation, contrle de la VC dimension
53
Exemple assurance (SPAD)
1106 contrats automobile belges:
2 groupes: 1 bons, 2 mauvais
9 prdicteurs: 20 catgories
Usage (2), sexe (3), langue (2), age (3), rgion
(2), bonus-malus (2), puissance (2), dure (2),
age du vhicule (2)
54
ACM
55
ADL de Fisher sur les composantes
FACTEURS CORRELATIONS COEFFICIENTS
..............................................................................
1 F 1 0.719 6.9064
2 F 2 0.055 0.7149
3 F 3 -0.078 -0.8211
4 F 4 -0.030 -0.4615
5 F 5 0.083 1.2581
6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169
8 F 8 0.090 1.3133
9 F 9 -0.074 -1.1383
10 F 10 -0.150 -3.3193
11 F 11 -0.056 -1.4830
CONSTANTE 0.093575
..............................................................................
R2 = 0.57923 F = 91.35686
D2 = 5.49176 T2 = 1018.69159
..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
56
scores normaliss
Echelle de 0 1000
Transformation linaire du score et du seuil
57
+----------------------------------------------------------------------------+
| | COEFFICIENTS | TRANSFORMED |
| CATEGORIES | DISCRIMINANT | COEFFICIENTS |
| | FUNCTION | (SCORE) |
+----------------------------------------------------------------------------+
| 2 . Use type |
| USE1 - Profess. | -4.577 | 0.00 |
| USE2 - private | 0.919 | 53.93 |
+----------------------------------------------------------------------------+
| 4 . Gender |
| MALE - male | 0.220 | 24.10 |
| FEMA - female | -0.065 | 21.30 |
| OTHE - companies | -2.236 | 0.00 |
+----------------------------------------------------------------------------+
| 5 . Language |
| FREN French | -0.955 | 0.00 |
| FLEM - flemish | 2.789 | 36.73 |
+----------------------------------------------------------------------------+
| 24 . Birth date |
| BD1 - 1890-1949 BD | 0.285 | 116.78 |
| BD2 - 1950-1973 BD | -11.616 | 0.00 |
| BD? - ???BD | 7.064 | 183.30 |
+----------------------------------------------------------------------------+
| 25 . Region |
| REG1 - Brussels | -6.785 | 0.00 |
| REG2 Other regions | 3.369 | 99.64 |
+----------------------------------------------------------------------------+
| 26 . Level of bonus-malus |
| BM01 - B-M 1 (-1) | 17.522 | 341.41 |
| BM02 - Others B-M (-1) | -17.271 | 0.00 |
+----------------------------------------------------------------------------+
| 27 . Duration of contract |
| C<86 - <86 contracts | 2.209 | 50.27 |
| C>87 - others contracts | -2.913 | 0.00 |
+----------------------------------------------------------------------------+
| 28 . Horsepower |
| HP1 - 10-39 HP | 6.211 | 75.83 |
| HP2 - >40 HP | -1.516 | 0.00 |
+----------------------------------------------------------------------------+
| 29 . year of vehicle construction |
| YVC1 - 1933-1989 YVC | 3.515 | 134.80 |
| YVC2 - 1990-1991 YVC | -10.222 | 0.00 |
+----------------------------------------------------------------------------+
Grille de score ( scorecard )
58
Cas des prdicteurs numriques
Si prdicteurs numriques (taux
dendettement, revenu )
Dcoupage en classes
Avantages, dtection des liaisons non linaires
59
Prise en compte des interactions
Amlioration
considrable de
lefficacit du score
Exemple : tat
matrimonial et nombre
denfants.
( ) ( )
( )
1 1 0 . . . 0
2 0 1 . . . 0
. .
. .
. .
.
. n












3
1 2 1 2 3
1 1 1 2 2

2 catgories 3 catgories
M M E E E
variable croise 6 catgories
ME ME ME
( ) ( )
1 1 2 2
... Score f x f x = + + Rappel :
Modle additif interaction sans
60
Un exemple bancaire
15 000 dossiers de demandes de prt
1000 passs en contentieux
Variables:
Taux dendettement
Revenu disponible par personne du mnage
Situation dans le logement
Statut matrimonial
Nombre denfants
Profession
Anciennet dans lemploi
61
Grille de score
Ratio dendettement :
Revenu disponible par personne du mnage :
Situation dans le logement :
62
Grille de score (suite)
tat matrimonial et enfants charge :
63
Grille de score (suite)
profession et stabilit dans lemploi :
64
Exemple :
Note de score : + 60
65
Rpartitions par tranches de score
66
Rpartition selon le score
67
Simulation
68
Courbe de lift (efficacit du ciblage)
69
I I .3 Les objectifs du credit
scoring
Slection des risques
Prvision des impays
Suivi et contrle
70
Credit scoring is the set of decision models and their
underlying techniques that aid lenders in the granting of
consumer credit.
Credit scoring is one the most successful applications of
statistical modeling in finance and banking. Yet because
credit scoring does not have the same glamour as the
pricing of exotic financial derivatives or portfolio analysis,
the literature on the subject is very limited.
Thomas & al. 2002
credit scoring
71
Le comit de Ble sur la supervision
bancaire
Cr en 1974 par le G10
Banque des Rglements Internationaux (BIS)
Rduire la vulnrabilit par la mise en place dun
ratio prudentiel attestant dun niveau minimal
de fonds propres.
Accords Ble II
72
Ble 2
Une rvolution quantitative (A.L.Rmy Crdit
Agricole)
banks are expected to provide an estimate of
the PD and LGD
PD (probability de dfaut)
LGD (perte en cas de dfaut)
EAD (exposition en cas de dfaut)
Calcul du capital ncessaire au niveau de
confiance 99.9% un an
73
Impact norme sur les tudes statistiques.
Exigence de justification statistique et de
backtesting impos par le rgulateur (Commission
Bancaire)
Recrutements massifs
Le New Basel Capital Accord rgulera les prts
bancaires partir de 2007
74
LES DI FFERENTES ETAPES
DE REALI SATI ON
ECHANTILLONNAGE
COLLECTE DE LINFORMATION
REDRESSEMENT
SELECTION DES CRITERES
CONSTRUCTION DU MODELE
SIMULATION
MISE EN OEUVRE
75
1. ECHANTI LLONNAGE
OBJ ECTIF :
CONSTRUIRE UN ECHANTILLON REPRESENTATIF DE LA
DEMANDE ET DU COMPORTEMENT DU PAYEUR.
1.1. PRISE EN COMPTE DES DOSSIERS REFUSES
LES TROIS STRATES DE LA DEMANDE
76
PROBLEME
UN SCORE CALCULE UNIQUEMENT SUR LES
DOSSIERS ACCEPTES NE SAPPLIQUE PAS A
LENSEMBLE DE LA DEMANDE.
77
PRI SE EN COMPTE DE LA
DI MENSI ON TEMPORELLE
DEUX POSSIBILITES :
A ) OBSERVER UNE COUPE INSTANTANEE
INCONVENIENT:
CERTAINS DOSSIERS SONT CONSIDERES COMME BONS
ALORS QUILS DEVIENDRONT MAUVAIS PAR LA SUITE.
B ) OBSERVER UNE POPULATION DE DOSSIERS
TERMINES
INCONVENIENT:
LA STRUCTURE DE LA POPULATION OBSERVEE NE
CORRESPOND PAS A LA STRUCTURE ACTUELLE.
78
2. LA COLLECTE DE
LI NFORMATI ON
OBJ ECTIF:
BATIR UN FICHIER CONTENANT TOUTES LES INFORMATIONS
CONNUES SUR LES REFUSES AINSI QUE LES BONS ET MAUVAIS
PAYEURS.
PROBLEMES:
PAS DE STOCKAGE INFORMATIQUE DES OBSERVATIONS
INDIVIDUELLES
PAS DE CONSERVATION DES DOSSIERS REFUSES
PAS DE STATISTIQUES PERMETTANT DELABORER LE PLAN DE
SONDAGE
HISTORIQUE TROP COURT OU ABSENT
79
3. REDRESSEMENT
OBJ ECTIF: REDONNER A LECHANTILLON LA
STRUCTURE DE LA DEMANDE ACTUELLE.
DEUX FAMILLES DE METHODES :
A) SCORE ACCEPTE/REFUSE
HYPOTHESE: LES REFUSES DUN TRANCHE ONT LE MEME
COMPORTEMENT QUE LES ACCEPTES.
80
3. REDRESSEMENT
B) SIMULATION DU COMPORTEMENT
PRINCIPE : CHAQUE DOSSIER REFUSE SERAIT
DEVENU BON (OU MAUVAIS) AVEC UNE PROBABILITE
A ESTIMER.
81
4. SELECTI ON DES CRI TERES
OBJ ECTIF:
CHOISIR LES VARIABLES ET LES INTERACTIONS A
INTRODUIRE DANS LE MODELE.
LES PROBLEMES :
DECOUPAGE/REGROUPEMENT EN CATEGORIES.
CHOIX DES INTERACTIONS.
CHOIX DES VARIABLES LES PLUS EXPLICATIVES.
CHOIX DES VARIABLES LES MOINS CORRELEES ENTRE
ELLES.
82
7. LA MI SE EN UVRE
OBJ ECTIF:
INTRODUIRE LE SCORE COMME OUTIL DE
SELECTION, DE PREVISION ET DE SUIVI.
LES PROBLEMES :
FORMATION DES UTILISATEURS.
MISE EN PLACE DES OUTILS INFORMATIQUES.
REACTUALISATION.
83
3
me
partie : Analyse
discriminante probabiliste.
1. Rgle baysienne et loi normale.
2. Mthodes non paramtriques.
84
I nsuffisances des rgles
gomtriques
Mesures de distances ?
Risques derreurs ?
Probabilits dappartenance ?
x
g
1
g
2
85
I I I .1Rgle baysienne
3 possibilits :
Paramtrique : lois normales avec galit ou non des
j
Non paramtrique : noyaux ou plus proches voisins
Semi-paramtrique : rgression logistique estimation
directe de :
( )
( )
'
0
j
0
exp
P (G / )
1 exp '
x
x
x


+
=
+ +
p
j
probabilit a priori dappartenir au groupe j
f
j
(x) loi des x
i
dans le groupe j
1
( )
Formule de Bayes : ( / )
( )
j j
j
k
j j
j
p f
P G
p f
=
=

x
x
x

Problme : estimer les f
j
(x)
86
La rgle baysienne
nave dans le cadre normal
( )
( )
( )
( )
( ) ( )
( )
( ) ( )
j
1
1/2
/2
j j
1
j j
x densit d'une N ;
1 1
exp -
2
2
max p f x attribuer x au groupe le plus
probable a posteriori
1 1
max Ln p
2 2
j j
j j j j
p
j
j j j
f
f x x x
x x Ln


rgle quadratique



87
La rgle baysienne
1 2
1 1 1
j
1
j

simplificatrice : ... =
On attribue x au groupe j tel que :
1 1
max Ln p
2 2
1
: max Ln p
2
j j j
j j
j
indpendant
du groupe
a
Hypothse
x x x
donc


=



+





_
_
1
j j
Rgle linaire quivalente la rgle gomtrique si quiprobabilit, aprs estimation
de par g et de par W.
j
x

88
Analyse discriminante probabiliste:
cas de deux groupes
( )
( ) ( )
( ) ( ) ( )
1 1 2 2
1
1
2 2
1 2 2 2 2
2
1 2 1 2 1 2
1
fonction de Fisher
Affecter au groupe 1 si ( ) ( )
1 1
( ) exp '
2
2
1 1
ln( ) ln( )
2 2
1
' ln '
2
i i i
p
p f p f
f
p p
p
p


>

=


+ > +

> + +


' -1 ' -1 ' -1 ' -1
1 1 1
-1 -1
x x
x x x

x x
x
_
89
Fonction de score et probabilit
Fonction de score S(x) :
Rgle :affecter au groupe 1 si S(x)>0
Probabilit dappartenance au groupe 1 :
( )
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1
1
1
1 2
2 1
1
1 1
1 1
1 1 2 2
1 1
1 1 2 2
1/2
1/2 1/2
1/2 1/2
G /
/
P
1/ 1
x x
x x x x
x x x x
p e
x
p e p e
p p e p






+
+
=
= +
1 1
1
1 2 1 2 1 2
2
1
( ) ( )' ln( ) ( )' ( )
2
p
S
p

= + + x x
90
probabilit
Fonction logistique du score
Expression en fonction des distances de Mahalanobis
aux centres :
( ) ( )
( )
( ) ( )
2 2
2 1
1/2 ; ;
2 1
2 2
2 1
2 1
1

1 /
Si P alors S x 1/2 ; ;
x x
P
P P e
P x x





=
+

= =

( )
( )
1 1
1
( )
ln(1/ ( / ) 1) ( ) 1/ ( / ) 1
1 exp( ( ))
( / )
1 1 exp( ( ))
S
S
P G S P G e
S
P G
e S

= = +
= =
+ +
x
x
x x x
x
x
x
91
S(x)
2
1
1
( ( ) 0) ln
2
p
p
p
P S x P U
p


> = > +




Probabilit derreur de classement de G2 en G1 :
On classe en G1 si S(x)>0
92
Rgle de Bayes avec cots
d erreur
Maximiser la probabilit a posteriori peut conduire des rgles
absurdes.
Cots d erreurs :
C(1/2) si on classe en G1 un individu de G2
C(1/1) = 0
Cot moyen a posteriori dun classement en G1 : C(1/2) P(G2/x)
Cot moyen a posteriori dun classement en G2 : C(2/1) P(G1/x)
On classera x en G1 si C(1/2) P(G2/x) < C(2/1) P(G1/x)
( ) ( )
( )
( )
( ) ( )
2 2 1 1 1 1
1 1 2 2 1 1 2 2 2 2
' '
1 1 2 2
1/2
1/2 < c 2/1 donc si : >
c 2/1
Rgle habituelle avec p =p c 2/1 et p =p c 1/2
c
p f p f p f
c
p f p f p f p f p f + +
93
I I I 2 : Discriminante non
paramtrique
( )
( )
( )
( )
( )
j
P G /

j j
j j
j
j
p f x
Bayes x
p f x
f x
Frquence
f x
Volume
=

=
x
x
x
x
x
x
x
x
x
x
x
x
x
94
Fentre mobile: cas
unidimensionnel
Ide (Parzen-Rosenblatt): un histogramme o
chaque classe serait centre sur lobservation
courante
h
x
Fentre mobile
95
Fentre mobile
( )

/
Estimateur
discontinu.
x
f x n nh =
96
1
1/2 -1/2 0
( )
( )
( )
] [
1
i
1

t 1/2 ; 1/2 1
0
sinon
h h
1 si x x- ; x+
2 2
n
i
i
i
x x
f x k
nh h
si K t
K t
x x
K
h
=


=


=

( )
1
1

Mthode du noyau
fonction de densit
n
i
i
x x
f x k
nh h
k
=

densit
97
Choix du noyau
K continue, paire, unimodale
Exemples
K pas forcment positif
( ) 1 K x dx
+

2
2
1 1 3
( ) exp ( ) 1 pour 5 Epanechnikov
2 5
2 4 5
u
K u u K u u



= = <



( ) ( )
2
2 2
105
( ) 1 1 3 pour 1 Lejeune
64
K u u u u =
98
Quelques rsultats thoriques
Il nexiste pas destimateur sans biais dune
densit qui soit continu, symtrique en x
i
Critre du MISE

( ( )) ( ) est impossible E f x f x x =
( )
2

( ) ( ) E f x f x dx
+

99
Si
En substituant h
opt
qui dpend de f
Calcul des variations:
K optimal = Epanechnikov
Noyau moins influent que la constante de lissage
( ) ( )
( ) ( )
2
2
4
2 2
2
4 1
2 1
2 2 5 5
5 5
2
( ) 1 ( ) 0 et ( )
1
MISE "( ) ( )
4
( ) "( )
optimal
K x dx xK x dx x K x dx k
h
k f x dx K x dx
nh
h k K x dx f x dx n
+ + +

+ +

+ +

= = =
+

=





=
( ) ( )
4 1
2 4
2 2 5 5
5 5
2
5
( ) "( )
4
MISE k K x dx f x dx n
+ +





=
100
Paramtre de lissage h
h (ou r) J oue le mme rle que la largeur de classe
dans lhistogramme.
Estimation de h :
Mthodes visuelles (si p = 1)
Maximum de vraisemblance
h petit : h grand :
15 25 35 45 55
0
0.01
0.02
0.03
0.04
0.05
0.06
15 25 35 45 55
0
0.01
0.02
0.03
0.04
0.05
101
Estimation de densit par la
mthode du noyau lmentaire
Noyau uniforme
On compte le nombre
dobservations appartenant
la boule de rayon r.
Ce nombre est alatoire.
Plus proches voisins.
k nombre de voisins est fix.
Volume de la boule :
alatoire.
( )
k paramtre fixer
k
f x
nV
=
r
x
102
noyaux
( ) ( )
( )
( )
( )
( )
( ) ( )
t
-1 2
t
t
1
t
2
0
t 1
1
f
1
si z' V
uniforme k
0 sinon
1 1 '
normal k exp -
2
'
Epanechnikov k 1
noyaux
t
t
y
r
t
x k x y
n
z r
V t
z
z V z
z
C t r
z V
z C t


=




=


=

( ) ( )
( ) ( )
1
-1 2
t
2
2
1
t 2
2
3
1
t 3
2
si z' V
'
Biweight k 1
'
Triweight k 1
t
t
t
z
z r
r
z V z
z C t
r
z V z
z C t
r






=



=


103
Estimation de densit versus
discrimination linaire
Discrimination linaire :
simplicit, robustesse, interprtation
inefficace si non linarits fortes
Estimation de densit :
prcision, adaptation aux donnes
calculs complexes, absence dinterprtation
104
4 me partie: La rgression
logistique
IV.1 Le modle logistique simple
IV.2 Odds ratios
IV.3 Interprtation conomtrique
IV.4 Estimation
IV.5 Tests
IV.6 Rgression logistique multiple
IV.7 Comparaison avec lanalyse discriminante
105
Berkson (biostatistique) 1944
Cox 1958
Mc Fadden (conomtrie) 1973
106
IV.1 Le modle logistique simple
Rponse dichotomique : Y = 0 / 1
Variable explicative : X
Objectif : Modliser
Le modle linaire (x) =
0
+
1
x
convient mal lorsque X est continue.
Le modle logistique est plus naturel
(x) =Prob(Y = 1/X = x)
107
Exemple : Age and Coronary Heart
Disease Status (CHD) (Hosmer &Lemeshow;
M.Tenenhaus)
Les donnes
ID AGRP AGE CHD
1
2
3
4
5
.
97
98
99
100
1
1
1
1
1
.
8
8
8
8
20
23
24
25
25
.
64
64
65
69
0
0
0
0
1
.
0
1
1
1
108
AGE
70 60 50 40 30 20 10
C
H
D
1.2
1.0
.8
.6
.4
.2
0.0
-.2
109
Description des donnes regroupes
par classe dage
Age Group n
CHD
absent
CHD
present
Mean
(Proportion)
20 29
30 34
35 39
40 44
45 49
50 54
55 - 59
60 - 69
10
15
12
15
13
8
17
10
9
13
9
10
7
3
4
2
1
2
3
5
6
5
13
8
0.10
0.13
0.25
0.33
0.46
0.63
0.76
0.80
Total 100 57 43 0.43
Tableau des effectifs
de CHD par classe dage
Graphique des proportions
de CHD par classe dage
AGEGRP
8 7 6 5 4 3 2 1
P
r
o
p
o
r
t
i
o
n

(
C
H
D
)
1.0
.8
.6
.4
.2
0.0
110
Le modle logistique simple
x
x
1 0
1 0
e 1
e
) x (
+
+
+
=
x )
) x ( 1
) x (
( Log
1 0
+ =

ou
Probabilit d'une maladie cardiaque
en fonction de l'age
AGE
70 60 50 40 30 20 10
P
r
o
b
(
Y
=
1

/

X
)
1.0
.8
.6
.4
.2
0.0
Fonction de lien : Logit
111
Il sagit bien dun problme de rgression:
Modlisation de lesprance conditionnelle
E(Y/X=x)=f(x)
Choix de la forme logistique en pidmiologie:
Sajuste bien
Interprtation de
1
en termes dodds-ratio
112
I V.2 Odds-Ratio
Si X binaire (sujet expos X=1, non expos
X=0)
0 1 0
0 1 0
1/ 1 ( 1/ 0) ( )
1 1
Y X P Y X P
e e
e e


+
+
= = = = = =
+ +
1
( 1/ 1)/ ( 0/ 1)
( 1/ 0)/ ( 0/ 0)
P Y X P Y X
OR e
P Y X P Y X

= = = =
= =
= = = =
113
Odds-Ratio
Mesure lvolution du rapport des chances
dapparition de lvnement Y=1 contre Y=0
(la cote des parieurs) lorsque X passe de x
x+1.
Formule gnrale:
1
( 1)/(1 ( 1))
( )/(1 ( ))
x x
OR e
x x



+ +
= =

114
I V.3I nterprtation conomtrique
Y possession dun bien durable par un
mnage: manifestation visible dune variable
latente Zinobservable continue.
Z est l intensit du dsir de possder le
bien
Si Z<seuil Y=0, sinon Y=1
Le seuil peut tre choisi gal 0
115
Modle dutilit
pour le mnage i de caractristiques x
i
(ge, sexe,
revenu, CSP...), la possession du bien procure un
niveau dutilit U(1,x
i
), la non possession U(0,x
i
).
Y
i
= 1 U(1,x
i
) > U(0,x
i
)
Y
i
= 0 U(0,x
i
) > U(1,x
i
)
Variable latente Z
i
= U(1,x
i
) U(0,x
i
).
116
Modle dutilit (suite)
Z
i
= x
i
+
i

i
= P(Y
i
=1|x
i
)= P(Z
i
> 0)=P(x
i
> -
i
) = F(x
i
)
F fonction de rpartition de -
i
Choix de F:
Logistique :modle logit, rgression logistique
Normal: modle probit
117
Comparaison logit-probit
Logit:F(x) = 1/(1+e
-x
)
E(X)=O V(X)=
2
/3
Peu diffrent en
pratique
Logit plus simple
numriquement
118
I V.4 Estimation des paramtres
Les donnes
X Y
x
1

.
x
i

.
x
n
y
1

.
y
i

.
y
n


y
i
= 1 si caractre prsent,
0 sinon
i 1 0
i 1 0
x
x
i i
e 1
e

) x X / 1 Y ( P ) x (
+
+
+
=
= = =
Le modle
119
Vraisemblance (conditionnelle!)
Probabilit dobserver les donnes
[(x
1
,y
1
), , (x
i
,y
i
), , (x
n
,y
n
)]

=
= = =
n
1 i
i i
) x X / y Y ( Prob

=

=
n
1 i
y 1
i
y
i
i i
)) x ( 1 ( ) x (
) , ( L
1 0
=

+
+
+
+
+

+
=
n
1 i
y 1
x
x
y
x
x
i
i 1 0
i 1 0
i
i 1 0
i 1 0
)
e 1
e
1 ( )
e 1
e
(
120
maximum de vraisemblance
maximisent
Maximisation de la log-vraisemblance
Estimateurs obtenus par des procdures
numriques: pas dexpression analytique
1 0

et


0 1
( , ) ( ) L L =
[ ]
1
( ) log ( ) log ( ) (1 )log(1 ( ))
n
i i i i
i
L y x y x
=
= = +

/
1
0
1
1
( )
( ( )) 0
( )
( ( )) 0
n
i i
i
n
i i i
i
y x
x y x

=
=

= =

= =

/
/

121
Prcision (asymptotique) des estimateurs
La matrice
est estime par la matrice
0 0 1
0 1 1

( ) ( , )

( )

( , ) ( )
V Cov
V
Cov V



=


1
2
2

( ) Log L

122
1
2
2

1
1 1
2
1 1
1 1 1 1
( )

( )

(1 ) (1 )


(1 ) (1 )

1 (1 ) 0 1


1 0 (1 ) 1
n n
i i i i i
i i
n n
i i i i i i
i i
n n n n
V
x
x x
x x
x x




= =
= =




/
. . . .

1
1
( ) .

= XVX
123
Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio

INTERCPT 1 -5.3095 1.1337 21.9350 0.0001 . .
AGE 1 0.1109 0.0241 21.2541 0.0001 0.716806 1.117
5,3095 0,1109
5,3095 0,1109
( )
1
x
x
e
x
e

+
+
=
+
124
125
I V.5 Tests sur les paramtres
Trois mthodes sont disponibles pour tester
lapport de la variable X au modle :
1. Le test de Wald
2. La mthode du rapport de vraisemblance
3. Le test du score
H
0
:
j
= 0
H
1
:
j
0
126
Test de Wald
analogue un test de Student en rgression usuelle,
si lon considre la statistique wdfinie par :
reprsente lestimation de lcart-type de
lestimateur de
1
.
Sous lhypothse H
0
, w
2
suit approximativement une
loi du khi-deux un degr de libert .
Rejet de H
0
si w
2
1
1

( )
w
s

=
1

( ) s
) 1 (
2
1

127
Test du rapport des vraisemblances
Lapport de la variable X est mesur laide de la
statistique :
G= -2 log [ ]
sous lhypothse H
0
G suit asymptotiquement une loi du
khi-deux un degr de libert.
Vraisemblance sans la variable:
Vraisemblance sans la variable
Vraisemblance avec la variable
0 1
0 1
n n
n n
n n



128
Test du score
U vecteur des drives partielles de la log-
vraisemblance estimes
Le score suit galement asymptotiquement
sous H
0
une loi du khi-deux un degr de
libert
En rgression logistique simple, le score est
gal nr
2
, o r est le coefficient de corrlation
linaire (abusif!) entre Y et X
0
0 0
1

( ) ( ) ( )
H H
H
score U J U

=

129
Comparaison des 3 tests
130
Model Fitting Information and Testing Global Null Hypothesis BETA=0

Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates

AIC 138.663 111.353 .
SC 141.268 116.563 .
-2 LOG L 136.663 107.353 29.310 with 1 DF (p=0.0001)
Score . . 26.399 with 1 DF (p=0.0001)
131
I ntervalle de confiance de lodds-Ratio
2
1 1
s )

( Var =
Dolintervalle de confiance de OR(1) au niveau 0.95:
] e , e [
1 1 1 1
s 96 . 1

s 96 . 1

+
132
I ntervalle de confiance de (x)
au niveau 95%
x
x
1 0
1 0
e 1
e
) x (
+
+
+
=
De
x s 2 x s s ) x

( Var
01
2 2
1
2
0 1 0
+ + = +
on dduit lintervalle de confiance de :
]
e 1
e
;
e 1
e
[
) x

( Var 96 . 1 x

) x

( Var 96 . 1 x

) x

( Var 96 . 1 x

) x

( Var 96 . 1 x

1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
+ + +
+ + +
+ +
+ +
+ +
133
Comparaison entre les proportions
observes et thoriques
Classe d'age
8 7 6 5 4 3 2 1
P
r
o
p
o
r
t
i
o
n
1.0
.8
.6
.4
.2
0.0
Prop. observe
Prop. thorique
Proportion observe :

Classe i
Classe i
n y /
Proportion thorique :

Classe i
Classe i
n /

puisque E(y
i
) =
i
estimpar
i

134
I V.6 Rgression logistique
multiple
Gnralisation p variables explicatives
X
1
,, X
p
.
Estimation par le maximum de vraisemblance
Ne converge pas toujours: cas de la sparation
complte
0 1 1
0 1 1
...
...
( ) ( 1/ )
1
p p
p p
x x
x x
e
x P Y X x
e

+ + +
+ + +
= = = =
+
135
Probabilits a posteriori et stratification
Estimer P demande de connatre les vraies probabilits a priori
Les modifier change seulement
0
en ADL et en logistique:on ajoute
Proc DISCRIM
PRIORS statement
Proc LOGISTIC
PEVENT option MODEL statement (SAS 8)
PRIOR (ou PRIOREVENT) option SCORE statement (SAS 9)
Important pour les probabilits , pas pour un score
1
2
ln
p
p



136
Tests
Tests dabsence deffet de toutes les
variables: H
0
:
1
= =
p
= 0
Rapport de vraisemblance G
Score test U
Test de Wald
Sous H
0
, suivent tous trois asymptotiquement une
loi du
2
p ddl
137
I V.7 Comparaison avec
lanalyse discriminante
Avantages proclams:
Unicit et interprtabilit des coefficients (odds-
ratios)
Erreurs standard calculables
Modlisation des probabilits
Hypothses plus gnrales quen AD gaussienne
Maximum de vraisemblance au lieu de moindres
carrs (rgression linaire de Y sur les X
j
)
Prise en charge facile des X qualitatifs (logiciels)
138
Mais:
Erreurs standard asymptotiques , bootstrap en AD
Non convergence en cas de sparation parfaite.
Fisher existe toujours
Maximum de vraisemblance conditionnel:non
optimal dans le cas gaussien standard
LAD peut aussi traiter les variables qualitatives, et
de manire plus robuste grce aux contraintes de
sous-espace (Disqual)
139
Querelle largement idologique (modlisation
versus analyse des donnes)
LAD est aussi un modle, mais sur les lois des X/Y,
la logistique sur les lois de Y/X
En pratique diffrences peu nettes: fonctions
de score souvent trs proches
It is generally felt that logistic regression is a safer,
more robust bet than the LDA model, relying on fewer
assumptions . It is our experience that the models give
very similar results , even when LDA is used in
inappropriately, such as with qualitative variables.
Hastie and al.(2001)
140
I nfarctus: comparaison
Fisher et logistique
Courbe ROC
1 - Spcificit
1.00 .75 .50 .25 0.00
S
e
n
s
i
t
i
v
i
t

1.00
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
141
Assurance
142
Usages souvent diffrents: AD pour classer, logistique
pour modliser (facteurs de risque)
Logistique aussi utilise en scoring
Si lobjectif est de classer:
On ne fait plus de la science mais de laide la dcision
Mieux vaut essayer les deux mthodes.
Mais comment les comparer?
Le vrai critre de choix est la performance en gnralisation
143
5me partie:
les SVM (sparateurs vaste
marge ou support vector
machines)
144
V.1 Du perceptron aux SVM
Algorithme de Rosenblatt (1958), la premire
machine apprendre
145
Du perceptron aux SVM
Equation de lhyperplan sparateur
( ) 0 f b = + = x w'x
146
Un peu de gometrie
Equation dun hyperplan:
Coefficients dfinis un facteur prs:
b=1 ou
Distance lhyperplan:
( ) 0 f b b = + = + = x w'x x'w
b
d
+
=
w'x
w
1 = w
147
Minimiser la somme des distances au plan des
observations mal classes
Y
i
=1 mal class si wx
i
+b<0
Y
i
=-1 mal class si wx
i
+b>0
mal classs
mal classs mal classs
min ( ( ))
gradient
b
i i
i i i
y b
y y
+

= =


w'x
x
w
148
Gradient stochastique (obs. par obs.)
coefficient dapprentissage
Solutions multiples dans le cas sparable
selon linitialisation
Non convergence dans le cas non sparable
1
i i
i
n n
y
y b b


+


x w w
149
V.2 Lhyperplan optimal (Vapnik)
Frontire avec no mans land maximal,
Hyperplan pais
150
Hyperplan optimal
Maximise la marge ou rayon du corridor:
distance du point le plus proche lhyperplan
151
Cas sparable
Marge C: tous les points sont une distance
> C
'
'
'
max sous ( ) et 1
contrainte quivalente: ( )
1
ou car et dfinis l'chel
min sous ( ) 1
le prs
i i
i i
i i
C y b C
y b
y b
C
b
C
+ =
+
=
+

x w w
x w w
w x w
w w
152
Programme quadratique
Lagrangien:
Do:
Dual de Wolfe
2
'
2 ( ) 1
i i i
y b

+

w x w
1 1
et 0
n n
i i i i i
i i
y y
= =
= =

w x
'
1
1
max
2
avec 0 et 0
i i k i k i k
n
i i i
i
y y
y


=

x x
153
Conditions de Khn et Tucker:
w, donc lhyperplan, ne dpend que des
points supports o les
i
sont non nuls.
( ) 1 0
0 alors ( ) 1
( ) 1 alors 0
i i
i i
i i
y b
Si y b
Si y b


+ =

> + =
+ > =
'
i
'
i
'
i
x w
x w
x w
154
Solution
f(x) ne dpend que des points supports
est une combinaison linaire des variables (score)
rgle de dcision selon le signe de f(x)
0
'
0 0

( )
i
i i
n
i i i
n n
i i i i i
y
f b y b y b


>
> >
=
= + = + = +


i
w x
x w x x x x x
155
Lhyperplan optimal ne dpend que des points
proches (diffre de Fisher)
VC dimension:
Plus la marge est grande, meilleure est la
robustesse en principe.
Mais pas toujours :
2
2
o x
R
h R
C

156
V.3 Le cas non sparable
Deux solutions:
modifier le critre
changer despace pour rendre le
problme linairement sparable
157
Variables dcart
On borne la proportion de points tombant du
mauvais ct.
La solution ne dpend que des points
supports o :
min sous ( ) 1
et
i i
i
y b

+
<

'
i
w x w
( ) 1
i i
y b + >
'
i
x w
158
Formulation quivalente:
C contrle le trade-off entre la marge et
lerreur.
0<
i
<
2
min ave ( ) 1 c
i i i
C y b


+ +

'
i
x w w
159
SVM non-linaires
Passage dans un espace de donnes
transformes ( feature space ) de grande
dimension
Un sparateur linaire dans (E) donne un
sparateur non-linaire dans E.
160
161
162
Solution
1
max
2

0 et 0
i i k i
k
i i i
y y
C y

< < =

i k
(x ) (x )
1
Solution ( )
n
i i
i
f y b
=
= +

i
x (x ) (x)
Ne dpend que des produits scalaires
163
Espaces de Hilbert noyaux
reproduisants
Noyaux K(x,x)=(x) (x)
Le kernel trick :choisir astucieusement K
pour faire les calculs uniquement dans
lespace de dpart.
Exemple:
Dans lespace darrive:
2 2
1 2 1 1 2 2
x ( ; ) (x) ( ; 2 ; ) x x x x x x = =
2 '2 ' ' 2 '2
1 1 1 2 1 2 2 2
' ' 2 2
1 1 2 2
(x) (x') 2
( ) (xx')
x x x x x x x x
x x x x
= + +
= + =
164
On peut donc calculer le produit scalaire dans
(E) sans utiliser

Conditions de Mercer pour avoir un noyau:


k(x
i
;x
j
) terme gnral dune matrice sdp
supports
Solution ( ) ( ; )
i i i
i
f y K b

= +

x x x
165
Exemples de noyaux
Linaire K(x;x)=<x;x>
Polynomial K(x;x)=(<x;x>)
d
ou (<x;x> +1)
d
Gaussien (radial basis)
K(x;x)=exp-(||x-x||
2
)/
2
)
166
J oachims
167
168
Hastie, Tibshirani, Friedman : The Elements of Statistical Learning , Springer-Verlag, 2001
169
Le problme de la gnralisation.
les SVM vitent :
Le risque de surapprentissage ( curse of
dimensionality )
Linfinit de solutions dans le cas sparable
(problme mal pos)
170
Le problme de la gnralisation.
les SVM :
Contrlent la capacit de gnralisation en
augmentant la marge car:
Ne dpend pas de la dimension de lespace
(ventuellement )
2
2
o x
R
h R
C

171
Approches voisines
LS-SVM, GDA (Baudat, Anouar) : fonction de Fisher
dans le feature space
172
Quelques rfrences
http://www.kernel-machines.org
Th.J oachims tutorial SVM
C.Burges a tutorial on SVM for pattern recognition
O.Bousquet introduction aux SVM,
http://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdf
J .Suykens et al. Least squares support vector
machines , World Scientific, 2002
Logiciels:
http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
http://www.csie.ntu.edu.tw/~cjlin/
173
6 me partie: validation
VI-1 Qualit dun score
VI-2 Qualit dune rgle de classement
174
VI -1 Qualit dun score
Quil soit obtenu par Fisher, logistique ou
autre (une probabilit est un score)
Comparaison des distributions du score sur
les deux groupes
densits
fonctions de rpartition
175
Fonctions de rpartition
176
Courbe ROC
177
Courbe ROC: interprtation
Groupe dtecter G
1
: scores levs
Sensibilit 1-= P(S>s/G
1
):% de vrais positifs
Spcificit 1-=P(S<s/G
2
) :% de vrais ngatifs
178
Courbe ROC: interprtation (2)
Evolution de 1- puissance du test en fonction
de , risque de premire espce lorsque le
seuil varie
Proportion de vrais positifs en fonction de la
proportion de faux positifs
179
Un site: http://www.anaesthetist.com/mnm/stats/roc/
180
Surface sous la courbe ROC
Surface thorique sous la courbe ROC:
P(X
1
>X
2
) si on tire au hasard et
indpendemment une observation de G
1
et
une observation de G
2
Estimation non-paramtrique de la surface:
Proportion de paires concordantes
(1 ( )) ( )
s
s
AUC s d s
=
=+
=

1 2
c
n
c
n n
=
181
mesures de concordance
Coefficients d association entre les probabilits
calcules et les rponses observes.
Paires formes dune obs o Y=1 et dune o Y=0 .
Nombre de paires t=n
1
n
2
n=n
1
+n
2
Si lobservation telle que Y = 1 a une probabilit
estime que Y = 1, plus grande que celle de
lobservation o Y = 0 la paire est concordante.
nc = nombre de paires concordantes; nd = nombre
de paires discordantes; t - nc - nd = nombre dex-
aequo
182
Courbe ROC: proprits
Courbe ROC et surface sont des mesures
intrinsques de sparabilit, invariantes pour
toute transformation monotone croissante du
score
La surface est lie aux statistiques U de Mann-
Whitney et W de Wilcoxon n
c
= U
U+W= n
1
n
2
+0.5n
1
(n
1
+1)
AUC=U/n
1
n
2
183
I nfarctus: comparaison
Fisher et logistique
Courbe ROC
1 - Spcificit
1.00 .75 .50 .25 0.00
S
e
n
s
i
t
i
v
i
t

1.00
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
184
Autres mesures
D de Somers = (nc - nd) / t
Gamma = (nc - nd) / (nc + nd)
Tau-a = 2 (nc - nd) / n(n-1)
Indice de Gini
Double de la surface entre la courbe ROC et la diagonale
G=2AUC-1
En labsence dex-aequo: G identique au D de Somers
La capacit prdictive du modle est dautant
meilleure que ces indices sont proches de 1.
185
Courbe de lift
% de la cible
186
Surface sous la courbe lift
Pourcentage dindividus ayant un score>s
Surface
1 1
(1 ) (1 ) p p +
{ }
1 1
1 1
1
1
(1 ) (1 ) (1 )
(1 ) (1 ) (1 ) (1 )
(1 )
2
L d p p
p d p d
p
p AUC


= + =

+

= +


187
Coefficient Ki (Kxen)
Ki=(surface entre lift
estim et alatoire) /
(surface entre lift idal
et alatoire)
Ki=2(surface ROC)-1
1 1
1
1
1
2(1 ) 1
2
2 1
1
1
2
L
p p AUC
Ki AUC
p
p

+
= = =


188
VI -2 Qualit dune rgle de
classement
Tableau de classement :
On classe des observations dont le groupe est connu :
Pourcentage de bien classs :
Taux derreur de classement :
n n
n
11 22
+
n n
n
12 21
+
groupe prdit
groupe n n
rel n n
1 2
1
2
11 12
21 22
189
Sur quel chantillon faire ce
tableau ?
chantillon test dindividus supplmentaires.
Si on reclasse lchantillon ayant servi construire la rgle
(estimation des coefficients) : mthode de resubstitution
BIAIS
surestimation du pourcentage de bien classs.
Solutions pour des chantillons de petite taille :
Validation croise
n discriminations avec un chantillon test dune unit : % de
bien classs sans biais (mais variance souvent forte)
bien class
2 n- 1 n
mal class
1
190
Bootstrap
B analyses discriminantes do distributions empiriques des
coefficients et du % de bien classs.
chantillon B Rplications par tirage avec
remise de n parmi n
191
Septime partie: du choix de
modles la thorie de
lapprentissage statistique
VII.1 Slection de variables
VII.2 Choix de modles par vraisemblance
pnalise
VII.3 Lapprentissage selon Vapnik
192
VI I .1 Slection de variables
Rduire le nombre de prdicteurs
Pourquoi ?
conomie
Pertinence
Stabilit
Comment ?
Recherche exhaustive 2
p
-1 sous-ensembles
Mthodes pas pas ascendantes, descendantes
193
Critres
Le % de bien classs nest pas utilis dans les
logiciels classiques (SAS, SPSS): trop de calculs.
Algorithmes usuels en analyse discriminante:
Critre de Wilks :
On recherche minimiser : quivaut maximiser D pour k=2
Suppose implicitement la normalit
Mthodes pas pas : non optimales.
Pour k=2 recherche exhaustive par lalgorithme de Furnival et
Wilson.
=W V
194
Tests de variables en AD
Test dapport dune variable : Sous lhypothse de non
apport :
Test de non discrimination : (analyse de variance
multidimensionnelle)
k-1 ; n-k-p
1
1 ~F
1
p
p
n k p
k
+







( )
1-
3 F 2p ; n-p-2
2
k>3 approximations
p
k
n p
pour

= =

195
Slection de variables en
rgression logistique
Mthode ascendante :
Selon le score dans la proc logistic de SAS
Mthode descendante:
Selon la statistique de Wald dans la proc logistic de SAS
196
VI I .2 Choix de modles par
vraisemblance pnalise
Comparer des modles ayant des nombres de
paramtres diffrents: K nombre de paramtres
estimer.
Critre dAkake :
AIC = -2 ln(L) + 2K
Critre de Schwartz :
BIC = -2 ln(L) + K ln(n)
On prfrera le modle pour lequel ces critres ont la
valeur la plus faible.
197
AIC et BIC ne sont semblables quen
apparence
Thories diffrentes
AIC : approximation de la divergence de Kullback-
Leibler entre la vraie distribution f et le meilleur
choix dans une famille paramtre
Asymptotiquement:
( )
( ; ) ( )ln (ln( ( )) (ln( ( ))
( )
f f
f t
I f g f t dt E f t E g t
g t
= =


(ln( ( ; )) ln( ( ))
f
E E g t L k


198
BIC : choix bayesien de modles
m modles M
i
paramtrs par
i
de probabilits a priori P(M
i
) gales.
Distribution a priori de
i
pour chaque modle P(
i
/ M
i
).
Distribution a posteriori du modle sachant les donnes ou vraisemblance
intgre P(x/M
i
)
Choix du modle le plus probable a posteriori revient maximiser

ln( ( / ) ln( ( / , ) ln( )


2
i i i
k
P M P M n x x
0.5
0.5
1
( / )
i
j
BIC
i
m
BIC
j
e
P M
e

=
=

x
199
Comparaison AI C BI C
Si n tend vers linfini la probabilit que le BIC choisisse le
vrai modle tend vers 1, ce qui est faux pour lAIC.
AIC va choisir le modle qui maximisera la vraisemblance de
futures donnes et ralisera le meilleur compromis biais-
variance
LAIC est un critre prdictif tandis que le BIC est un critre
explicatif.
Pour n fini: rsultats contradictoires. BIC ne choisit pas
toujours le vrai modle: il a tendance choisir des modles
trop simples en raison de sa plus forte pnalisation
200
AI C BI C ralistes?
Vraisemblance pas toujours calculable.
Nombre de paramtres non plus: ridge, PLS etc.
Vrai modle?
tous les modles sont faux ; certains sont utiles G.Box
Vapnik: choisir selon la VC
dimension
201
VI I .3 : La thorie de
lapprentissage statistique
Une introduction aux thories de V.Vapnik
(rdige en collaboration avec Michel Bera, Kxen)
Un mathmaticien russe arriv aux USA en 92, qui travaille
depuis chez NEC aprs les Bell (aujourdhui AT&T) Labs.
Premiers papiers en russe ds 1972.
Premier livre chez Springer Verlag en 1982
US Medal en sciences en 1992.
Un troisime livre ( 800 pages ) chez J . Wiley,en 1998
202
Norbert Wiener 1948
Frank Rosenblatt 1962
Vladimir Vapnik 1982
Image courtesyof theResearchLaboratoryof Electronicsat MIT.
203
Le problme de la bote noire et
lapprentissage supervis
Etant donne une entre x, un systme non
dterministe renvoie une variable y = f(x)+e. On
dispose de n paires (x
i
,y
i
) et on cherche une fonction
qui approxime la fonction inconnue f.
Deux conceptions:
Une bonne approximation est une fonction proche de f
Une bonne approximation est une fonction qui donne
un taux derreur voisin de celui de la bote noire
204
Risque dapprentissage
Apprentissage supervis
Y rponse prdire, X prdicteurs
Y numrique rgression ; binaire (-1;+1) discrimination
Un modle calcule un prdicteur
o:
f classe de fonction
w est un paramtre qui dfinit le modle, estim sur
lensemble dapprentissage
) , (

w X f y =
205
Fonction de perte L(y;f(x,w))
Rgression L(y;f(x,w))=(y-f(x))
2
Discrimination : taux (ou cot) derreur de classement
y et valeurs dans {-1;+1}
Risque (erreur de gnralisation sur de
nouvelles donnes z = (X, y) )
( ) ( , ) ( ) R E L L z w dP z = =

( )
2 1 1

( ; )
2 4
L y y y y y y = =

y
206
Objectif impossible: minimiser sur w le Risque
P(z) probabilit inconnue
On dispose seulement de n cas
dapprentissage (z
1
, .. , z
n
) tirs suivant la loi
P(z), au lieu de minimiser R, on minimise le
Risque Empirique :
1
1
( ; ( ; ))
n
emp i i
i
R L y f
n
=
=

x w
207
Problme central en thorie de
lapprentissage:
Quelle est la relation entre le Risque R et le
risque empirique R
emp
?
Quelle est la capacit de gnralisation de
ce genre de modle?
208
Le dilemme biais-variance
Modle y=f(x )+, f estim sur donnes
dapprentissage
Erreur de prdiction
Doublement alatoire
Erreur quadratique moyenne de prdiction
(risque R)
0 0 0 0

( ) ( ) y y f x f x = +
( )
( ) ( )
( )
( )
2
2
2
2 2
0 0 0 0 0 0 0

( ) ( ) ( ) ( ) ( ) E y y E f x f x E f x f x V f x = + = + +
biais variance
209
premier terme: ala irrductible
deuxime terme: carr du biais du modle
troisime terme: variance de la prdiction
Plus un modle sera complexe plus le biais sera faible,
mais au dtriment de la variance.
Mais comment mesurer la complexit?
( )
( ) ( )
( )
( )
2
2
2
2 2
0 0 0 0 0 0 0

( ) ( ) ( ) ( ) ( ) E y y E f x f x E f x f x V f x = + = + +
210
Robustesse
Modle robuste: erreurs en apprentissage et
en gnralisation du mme ordre de grandeur
211
Modele robuste bon ajustement
Compromis
x
Y
x
Y
x
Y
212
Consistence
Un processus dapprentissage est consistent si
lerreur sur lensemble dapprentissage
converge, lorsque la taille de cet ensemble
augmente, vers lerreur en gnralisation.
213
%erreur
Taille ens. dapprentissage
Erreur en gnralisation
Erreur dapprentissage
Apprentissage consistent
214
Taille ens. dapprentissage
%erreur
Erreur en
gnralisa
tion
Erreur dapprentissage
Apprentissage non consistent
215
Les quatre piliers de la
thorie de lapprentissage
1 Consistence (garantit la gnralisation)
Sous quelles conditions un modle peut-il gnraliser?
2 Vitesse de convergence en fonction du nombre
dexemples (mesure de la gnralisation)
Comment samliore la gnralisation lorsque le nombre
dexemples augmente ?
216
Quatre piliers de la thorie
de lapprentissage
3 Contrle de la capacit de gnralisation
Comment contrler efficacement la gnralisation partir
de linformation contenue dans un ensemble
dapprentissage de taille finie ?
4 Construire des algorithmes dapprentissage
Existe-t-il une stratgie pour construire des algorithmes
qui garantissent, mesurent et contrlent la capacit de
gnralisation de modles dapprentissage ?
217
La VC dimension
Dimension de Vapnik-Cervonenkis: une mesure du
pouvoir sparateur (complexit) dune famille de
fonctions
VC dimension : un nombre entier attach une
famille F de fonctions
Chaque f de F cest--dire, pour un w donn
peut-tre utilis pour de la classification :
f (X,w) >= 0 : X class en 1
f (X,w) < 0 : X class en -1
( , ):
p
f X w R R
218
VC dimension suite
Pour un chantillon de n points (x
1
, .. , x
n
) de
R
p
Il existe 2
n
manires diffrentes de
sparer cet chantillon en deux sous-
chantillons
Un ensemble F de fonctions f(X,w) hache
(shatters) lchantillon si les 2
n
sparations
peuvent tre faites par des f(X,w) diffrentes
de la famille F
219
Aucune ligne
droite ne
peut sparer
les points
noirs des
points roses
Exemple
En 2-D, les fonctions linaires (droites)
peuvent hacher 3 points, mais pas 4
220
Un ensemble de fonctions de
R
p
->R a la dimension h si :
Il existe un jeu de h points de R
p
qui peut
tre hach, quel que soit ltiquetage des
points
Aucun ensemble de h+1 points ne peut tre
hach par cet ensemble de fonctions.
221
Quelques exemples
La VC dimension de lensemble des
hyperplans de R
p
est p+1
Hyper-rectangles de R
p
parallles aux axes
h=2p
(V.Cherkassky, F.Mulier, 1998)
Sphres de R
p
h=p+1
222
Mais les VC dimensions ne sont PAS
gales au nombre de paramtres libres
La VC dimension de lensemble de fonctions
f(x,w) = sign (sin (w.x) ),
c < x < 1, c>0,
avec un paramtre libre w est infinie.
Hastie et al. 2001
223
Deux cas importants:
a) rgression ridge
La VC dimension de lensemble des
indicatrices linaires
satisfaisant la condition :
dpend de C et peut prendre toute valeur de
0 p+1.
( )
( )
1
( , ) 1
p
i i
i
f X sign w x
X R
=
= +


w
2
2
1
1 p
i
i
W w
C
=
=

2
2
min ; 1
R
h ent p
C


+




224
b) Lhyperplan de marge maximale
Mme rsultat:
2
2
min ; 1
R
h ent p
C


+




225
Thorme de Vapnik :
Q : Quelles sont les conditions ncessaires et
suffisantes pour assurer la consistence ?
R : Le processus dapprentissage est consistent si et
seulement si la famille de modles a une VC
dimension finie h
La VC dimension finie ne garantit pas seulement la
gnralisation, mais cest LA SEULE MANIERE qui
permet la gnralisation de se produire.
226
Vitesse de convergence
Taille de lens. dapprentissage: n
Intervalle
Erreur en gnralisation
Erreur dapprentissage
% erreur
227
Vitesse de convergence (2)
Q : Quelle est la diffrence entre les erreurs
dapprentissage et de test pour une taille
donne de lensemble dapprentissage ?
R : La diffrence entre les erreurs
dapprentissage et de test dpend du rapport
entre la VC dimension, h, et la taille de
lensemble dapprentissage, n.
228
I ngalit de Vapnik
Avec la probabilit 1- :
ne fait pas intervenir p mais la VC dimension h
Ne fait pas intervenir la distribution de probabilit P
( )
( )
emp
ln 2 1 ln( 4) h n h
R R
n
+
< +
229
n fix
230
De Guillaume dOckham
Vapnik
wikipedia
Guillaume dOccam (1285 - 3 avril 1349), dit le docteur
invincible franciscain philosophe logicien et thologien
scolastique.
Etudes Oxford, puis Paris. Enseigne quelques annes
Oxford.
Accus d'hrsie, convoqu pour sexpliquer Avignon,
excommuni , se rfugie Munich, la cour de Louis de
Bavire, lui-mme excommuni. Meurt de l'pidmie de
peste noire.
A inspir le personnage du moine franciscain Guillaume de
Baskerville dans le Nom de la rose d'Umberto Eco.
Premier jour, vpres : il ne faut pas multiplier les
explications et les causes sans qu'on en ait une stricte
ncessit.
231
Le rasoir dOckham ou principe de
parcimonie
Principe de raisonnement attribu Ockham: Les multiples ne
doivent pas tre utiliss sans ncessit (pluralitas non est
ponenda sine necessitate).
Rasoir d'Ockhamet science moderne
Le rasoir d'Ockhamn'est malheureusement pas un outil trs incisif, car il ne donne pas de
principe opratoire clair pour distinguer entre les hypothses en fonction de leur
complexit : ce n'est que dans le cas o deux hypothses ont la mme vraisemblance
qu'on favorisera l'hypothse la plus simple (ou parcimonieuse). Il s'agit en fait d'une
application directe du thorme de Bayes o l'hypothse la plus simple a reu la
probabilit a priori la plus forte. Des avatars modernes du rasoir sont les mesures
d'information du type AIC, BIC o des mesures de pnalit de la complexit sont
introduites dans la log-vraisemblance.
wikipedia
232
De Guillaume dOckham
Vapnik
Si deux familles de modles expliquent les donnes
avec une qualit gale, alors la famille qui a la plus
faible VC dimension doit tre prfre.
1re dcouverte: La VC (Vapnik-Chervonenkis) dimension mesure la
complexit dune famille de modles.
233
De Guillaume dOckham Vapnik
Si deux modles expliquent les donnes avec une
qualit gale, alors celui qui provient dune
famille plus faible VC dimension a une meilleure
performance en gnralisation.
2me dcouverte: La VC dimension peut tre relie des rsultats de
gnralisation (rsultats sur de nouvelles donnes).
234
De Guillaume dOckham Vapnik
Pour construire le meilleur modle partir de donnes, il
faut tenter doptimiser la fois sa performance sur
lensemble dapprentissage,
et sa performance de gnralisation tire de la VC
dimension : pour ce faire, il faut parcourir une suite de
familles dapplications pour y construire ce modle
3me dcouverte: Au lieu dobserver des diffrences entre des
modles, mieux vaut les contrler..
235
Contrle de la Capacit de
Gnralisation
Risque = Risque dApprentissage +
Intervalle de Confiance
Minimiser la seule erreur dapprentissage ne
donnera pas une esprance derreur faible
(une bonne gnralisation)
minimiser la somme de lerreur
dapprentissage et de lintervalle de
confiance.
( )
( )
emp
ln 2 1 ln( 4) h n h
R R
n
+
< +
236
Principe de minimisation structure du
risque (SRM) (1)
lorsque n/h est faible (h trop grand), le
deuxime terme est grand
Lide gnrale du SRM est de minimiser la
somme des deux termes la droite de
linquation.
( ) ( )
L
q h L h
w E w R
ln 1 2 ln
) ( ) (
+
+ <
( )
( )
emp
ln 2 1 ln( / 4) h n h
R R
n
+
< +
237
Principe de minimisation structure du
risque (SRM)(2)
Considrons une structure S
1
S
2
.. S
L
sur
lensemble des fonctions vrifiant la proprit
h
1
< h
2
< .. < h
L
Pour chaque lment S
i
de la structure,
lingalit est valide
( )
( )
emp
ln 2 1 ln( / 4)
i i
h n h
R R
n
+
< +
SRM : Trouver i tel que la somme devienne minimale,
238
Application du principe SRM
La structure S
i
(familles de modles) peut tre
contrle par :
Architecture de rseaux de neurones
Degr dun polynme
Mthodologie dapprentissage
Contrle des poids dans un rseau de neurones, ...
239
Avec/sans lapproche SRM de Vapnik
Sans le SRM:
Hypothses sur la distribution statistique (inconnue) des donnes
Un grand nombre de dimensions signifie un modle grand nombre
de paramtres, ce qui pose des problmes de gnralisation
Modliser revient chercher le meilleur ajustement
Avec le SRM:
On tudie la famille de modles, contrlant sa VC dimension h
Le nombre de paramtres peut tre trs grand, car on contrle par
dfinition la gnralisation
Modliser cest rechercher le meilleur compromis entre ajustement et
robustesse
240
Borne suprieure trop grande,
mais:
Thorme (Devroye, Vapnik) :
Pour toute distribution le SRM fournit la meilleure
solution possible avec probabilit 1
(universally strongly consistent)
241
Contrle de h
h doit tre fini
h/n doit tre petit: si n augmente, on peut
augmenter la complexit du modle
h dcroit avec:
Rduction de dimension (cf. Disqual)
La marge (SVM)
k en rgression ridge
Mais h difficile obtenir
242
Les 3 chantillons:
Apprentissage: pour estimer les paramtres des
modles
Test : pour choisir le meilleur modle
Validation : pour estimer la performance sur des
donnes futures
Rchantillonner: validation croise, bootstrap
Modle final: avec toutes les donnes disponibles
243
244
Principes dinduction
Ne pas chercher rsoudre un problme plus
gnral que ncessaire
Ne pas estimer une densit si on veut estimer une
fonction
Ne pas estimer une fonction si on veut seulement
estimer une valeur en un point
245
8 me partie : arbres de
dcision
246
Les mthodes de segmentation
Dveloppes autour de 1960 et trs utilises en marketing,
ces mthodes dlaisses par les statisticiens ont connu un
regain dintrt avec les travaux de Breiman & al.
(1984) qui en ont renouvel la problmatique: elles sont
devenues un des outils les plus populaires du data mining
ou fouille de donnes en raison de la lisibilit des
rsultats. On peut les utiliser pour prdire une variable Y
quantitative (arbres de rgression) ou qualitative (arbres de
dcision, de classification, de segmentation) laide de
prdicteurs quantitatifs ou qualitatifs. Le terme de
partitionnement rcursif est parfois utilis
247
Les mthodes de segmentation sont des mthodes but
explicatif qui rsolvent les problmes de discrimination et de
rgression en divisant successivement l chantillon en sous-
groupes.
Il sagit de slectionner parmi les variables explicatives celle
qui est la plus lie la variable expliquer. Cette variable
fournit une premire division de l chantillon en plusieurs
sous-ensembles appels segments (on prsentera plus tard
des critres permettant de diviser un segment).
Puis on ritre cette procdure lintrieur de chaque
segment en recherchant la deuxime meilleure variable, et
ainsi de suite
Il sagit donc dune classification descendante but
prdictif oprant par slection de variables : chaque classe
doit tre la plus homogne possible vis vis de Y
248
La segmentation est donc en concurrence avec les
mthodes explicatives paramtriques (rgressions linaires,
logistique, analyse discriminante ).
A la diffrence de ces mthodes, les variables sont
prsentes et utilises squentiellement et non
simultanment.
Les mthodes de segmentation sont des techniques non
paramtriques, trs peu contraintes par la nature des
donnes.
Les sorties se prsentent sous forme d arbres de dcision
qui fournissent des rgles d affectation lisibles et
facilement interprtables.
249
Un logiciel gratuit:
SIPINA http://eric.univ-lyon2.fr
250
Arbre de dcision
On reprsente ainsi les divisions successives de l chantillon (on
parcours l arbre en le descendant).
A chaque tape, on divise un segment en plusieurs segments plus
purs ou de variances plus faibles (i.e. plus homognes).
T
t
1
t
2
t
3
t
4
t
5
t
6
t
7
t
8
: Segments intermdiaires
: Segments terminaux
t
8
t
1
251
Arbres binaires ou non?
En prsence dun prdicteur qualitatif, on
pourrait utiliser des arbres non binaires en
dcoupant en msous ensembles : cette ide
nest en gnral pas bonne car elle conduit
des subdivisions avec trop peu dobservations
et souvent non pertinentes.
Lintrt des arbres binaires est de pouvoir
regrouper les modalits qui ne se distinguent
pas vis vis de y.
252
Divisions dun nud (arbres binaires)
Les divisions possibles dpendent de la nature statistique de
la variable :
variable binaire B(0,1) : une division possible
variable nominale N (k modalits) : 2
k-1
- 1 divisions possibles
variable ordinale O (k modalits) : k-1 divisions possibles
variable quantitative Q (q valeurs distinctes) : q-1 divisions possibles
Exemple : (3 variables, divisions binaires)
binaire (b1,b2) : (b1) (b2)
Ordinale (o1,o2,o3,o4) :
(o1) (o2,o3,o4)
(o1,o2) (o3,o4)
(o1,o2,o3) (o4)
nominale (n1) (n2,n3)
(n2) (n1,n3)
(n3) (n1,n2)
253
254
La mthode CART
La mthode CART permet de construire un arbre de
dcision binaire par divisions successives de
l chantillon en deux sous-ensembles.
Il n y a pas de rgle d arrt du processus de division
des segments : l obtention de l arbre complet, une
procdure d lagage permet de supprimer les
branches les moins informatives.
Au cours de cette phase d lagage, la mthode
slectionne un sous arbre optimal en se fondant sur
un critre d erreur calcul sur un chantillon test
Il est noter que CART utilise le mme principe pour
analyser une variable nominale (problme de
discrimination) ou une variable continue (rgression).
255
Discrimination : critre de
division
Impuret dun nud :
Avec r s et o P(r/t) et P(s/t) sont les proportions
d individus dans les classes c
r
et c
s
dans le segment t (i(t)
est lindice de diversit de Gini )
Segment pur : ne contient que des individus d une classe,
i(t) = 0
Segment mlang : i(t) 0 et i(t) fonction croissante du
mlange
( ) ( / ) ( / )
k k
r s
i t P r t P s t =

256
Rduction dimpuret
Rduction de l impuret par la division s :
O les p
g
sont les proportions d individus du nud t respectivement dans les
segments descendants t
g
et t
d
(la fonction i(t) tant concave, l impuret
moyenne ne peut que dcrotre par division d un nud)
Rduction maximale pour chaque variable :
Rduction maximale pour l ensemble des p variables :
*
( , ) max{ ( , )} i s t i s t =
*
1...
* max { ( , )}
j p
i s t
=
=
257
Entropie et indice de Gini
entropie
indice de diversit de Gini
Pour deux classes,
indices trs proches:
( )
1
ln
k
i i
i
p p
=

( )
1
1
k
i i
i
p p
=

258
Discrimination : arrt des
divisions, affectation
Nud terminal :
sil est pur ou sil contient des observations toutes
identiques
sil contient trop peu d observations
Un segment terminal est affect la classe
qui est la mieux reprsente
259
Discrimination : T.E.A.
Taux derreur de classement en apprentissage (T.E.A) associ
un segment terminal de l arbre A :
Avec r=s et o P(r/t) = n
r
(t)/n
t
est la proportion d individus du
segment t affects la classe c
s
et qui appartiennent la classe c
r
T.E.A associ l arbre :
Reprsente la proportion dindividus mal classs dans
lensemble des segments terminaux
1
( / ) ( / )
k
r
R s t p r t
=
=

1
( ) ( )
( ) ( / )
k
r r
t A t A k
n t n t
TEA A R s t
n n
=
= =

260
Discrimination : Slection du
meilleur sous-arbre
chantillon dapprentissage :
Construction de l arbre complet A
max
, puis lagage : partir de l arbre
complet, on dtermine la squence optimale de sous-arbres embots
{A
max
-1,A
h
, A
1
} avec 1 h < max
Le taux derreur en apprentissage (TEA) de
Ah
vrifie :
O S
h
est l ensemble des sous-arbres de A
max
ayant h segments terminaux
chantillon-test :
Choix de A* tel que lerreur de classement en test (ETC) vrifie :
( ) min { ( )}
h
h A S
TEA A TEA A

=
*
1 max
( ) min { ( )}
h h
ETC A ETC A

=
261
Divisions quirductrices et
quidivisantes
En plus de la meilleure division d* (celle assurant
la plus grande rduction de l impuret ou de la
variance rsiduelle ) , on dfinit :
Les divisions quirductrices : celles qui assurent
aprs d* les plus fortes rduction de l impuret ou
des variances rsiduelles ; elles permettent
d autres choix de variables explicatives.
Les divisions quidivisantes : fournissent les
rpartitions les plus proches de la meilleure division
d* ; elles permettent de grer les donnes
manquantes.
262
Exemple: bons et mauvais
clients dune banque (SPAD)
263
264
265
266
Matrice de confusion
------------------------------
PREDIT
OBSERVE BON MAUV
------------------------------
BON 163 25
MAUV 67 119
------------------------------
267
268
Arbres de rgression
Si y est numrique, mesure dhomognit
=variance de la classe
Division en deux sous-groupes: minimiser la
variance intra-groupe ou maximiser la
variance inter-groupe.
( ) ( )
( )
2 2
inter 1 1 2 2
1
V n y y n y y
n
= +
269
La coupure optimale pour une variable
qualitative nominale mmodalits doit
respecter lordre induit par la moyenne de y .
On rordonne donc les catgories de x selon
et il ny a plus que m-1 dichotomies
examiner au lieu de 2
m-1
1.
( )
2
1 2
inter 1 2
2
n n
V y y
n
=
i
y
270
Avantages et inconvnients
Les mthodes de segmentation fournissent une
alternative intressante aux mthodes
paramtriques usuelles : elles ne ncessitent pas
dhypothse sur les donnes, et les rsultats sont
plus simples exploiter
MAIS : elles fournissent souvent des arbres
instables (une division conditionne les suivantes, et
ce fait peut tre particulirement gnant si les
variables quirductrices sont proches de la
variable qui a servi faire la division).
271
Nouvelles tendances :
Bagging ou bootstrap averaging
B arbres partir de B rplications: fort
Procdure de vote
Boosting AdaBoost
Combinaison de classifieurs faibles
Poids croissant avec la prcision
Classifieur G
m
: surpondration desobservations
mal classesde G
m-1
( )
m m
m
G x

Vous aimerez peut-être aussi