Académique Documents
Professionnel Documents
Culture Documents
supervisées
Yves Lechevallier
INRIA-Rocquencourt
78153 Le Chesnay Cedex
E_mail : Yves.Lechevallier@inria.fr
Yves Lechevallier Master-ISI 1
Processus Data Mining
Phase B : Phase C
Phase A : Entrepôt Exploration Modélisation
de données
Ensemble Ensemble de règles
d’apprentissage Classifieurs
Ensemble validation
Entrepôt de Ensemble de
données test
Scores
Phase E: Prédiction Règles
Données
/ Scoring
Opérationnelles
Yves Lechevallier Master-ISI 2
Méthodes de classement
Discrimination
• Les méthodes de classement ont pour objet
d’identifier la classe d’appartenance
d’objets définis par leur description
• Un objet à classer est une entité appartenant
à une population théorique Π constituant
l’ensembles des objets susceptibles d’avoir
à être classés. Cette population est supposée
connue de façon exhaustive.
DX
X •Un couple (x,y) où x
représente sa
description et y l’indice
Π
Y G
de sa classe
d’appartenance.
{
Rk = Yˆ −1 (k ) = x ∈ DX /Yˆ ( x) = k }
Pour un descripteur X et une fonction de décision Yˆ
on peut définir sur Π une partition en K classes
d'affectation.
Yves Lechevallier Master-ISF 7
Fonction de décision Yˆ
DX
^
X Y
(Π
ˆ ,..., Π
ˆ ,..., Π
ˆ )
Π 1 k K
Y G
(Π1 ,..., Π k ,..., Π K )
Yves Lechevallier Master-ISF 8
Espace de description DX
élément de E
+ valeur dans DX
Xj
X +
+
X + +
+
+ Xp
X1
Π
DX
Yves Lechevallier Master-ISF 9
Classes a priori
élément de E
+ valeur dans DX
Xj
Π1 X, +
Y +
X, + +
Y +
+ Xp
Π2 +
X1
Π
DX
Yves Lechevallier Master-ISF 10
Fonction de décision Yˆ
élément de E
+ valeur dans DX
Xj
+
+
Rk
Yˆ + +
+
+ Xp
+
ˆ k = X −1 o Yˆ −1 (k ) = X −1 ( Rk )
Π
X1 DX
(Π
ˆ 1 ,..., Π
ˆ k ,..., Π
ˆ K)
Yves Lechevallier Master-ISF 11
Tableau de données
Tableau de données (modèle « vectoriel »)
On sélectionne
deux variables:
Sepalwidth et
Sepallength
π k Lk ( x)
Théorème de Bayes Pr(k / x) =
L( x)
π k = Pr[Y = k ]
Lk ( x) = Pr[ X = x / Y = k ] est la densité de la classe k
∀x Y * ( x) = k où k est telque Pr(k / x) = maxπ k Lk ( x)
(
Lk ( x) = (2π) det Σ kp
)
− 12
(
exp − 12 ( x − μ k )t Σ k−1 ( x − μ k ) )
Yves Lechevallier Master-ISF 17
Exemple 1
π k Lk ( x)
Lk(x) Pr( k / x) =
L( x)
densité de deux lois normales de variances égales
1.0 probabilité a posteriori
mu = 1.67, sigma = 0.1 F
mu = 1.76, sigma = 0.1 H posteriori F
1.0 posteriori H
0.8
0.8
0.6
densité ->
densité ->
0.6
0.4
0.4
0.2 0.2
0.0
0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0
12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0
x ->
x ->
π k Lk ( x)
Lk(x) Pr( k / x) =
L( x)
densité de deux lois normales de variances #
probabilité a posteriori
1.0
mu = 1.67, sigma = 0.07 F
posteriori F
mu = 1.76, sigma = 0.1 H
1.0 posteriori H
0.8
0.8
0.6
densité ->
densité ->
0.6
0.4
0.4
0.2 0.2
0.0 0.0
12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0
x -> x ->
o o + o o +
o + o +
o o + + ++ o o + + ++
o o
o o + + + ++ + o o + + + ++ +
o oo + + + o oo + ++
+ +
o o o o + o o o o +
+ +
o o o o
oo oo
o o o o
o o
Modèle simple
Yves Lechevallier Master-ISF 20
Généralisation
o o +
o +
o oo + + + +
Modèle un peu
o o + + + ++ +
o oo + + + trop flexible
+
o o o o+ +
o o
oo
o o
o
Complexité du modèle : Comment adapter au mieux
le modèle aux données sachant que l’on ne possède
qu’un échantillon ?
Yves Lechevallier Master-ISF 21
Complexité du modèle
X2
b
a X1
"Bien-portant"
Bien-portants 91
Malades 1
Bien-portants 6
Malades 37
Règle 3
Bien-portant Malade
Sous-arbre élagué 1
2 3
4 5 6 7
8 Sous-arbre quelconque
∑ C (Y t ). Pr( t )
utilisation
C Yˆ * =
ˆ*
~
t∈T
= ∑∑ C (k / h)Pr(h / t )Pr(k / t )
k∈G h∈G
Cette quantité représente également l'espérance
mathématique du risque encouru à affecter aléatoirement
les descriptions de t suivant la loi Pr(Yˆ ( x) = k / x ∈ t ) = Pr( k / t )
Le gradient Δ du risque, induit par une question Q au nœud t
Δ C (Q, t ) = C (t )−[C ( g (t ) )Pr ( g (t ) / t )+C (d (t ) )Pr (d (t ) / t )]
i (t ) = ∑ ∑ Pr( k / t )Pr( h / t )
k∈G h∈G
h≠k
Coupure du nœud t t
n1, n2, …, nk
td
tg
r =1
~
T est l’ensemble des nœuds terminaux, l’impureté de l’arbre T est:
I(T) = ∑ I(t) =∑ i(t) p(t)
~ ~
t∈T t∈T
Le nœud t est affecté à la classe j si p(j/t) est supérieur à tous les p(k/t)
K
r(t) = 1 − max
k
p(k / t) = 1 − p(j / t) = ∑ p(r / t)
r =1; r ≠ j
R(T) = ∑ r(t)p(t)
~
t∈T
• t est pur
•l’impureté est au dessous d’un seuil s
•variation de l’impureté trop faible
•nombre d’individus dans t est trop faible
•t est presque pur
⎛ n (t) ⎞
il y une réduction du biais E⎜ k ⎟ = p(k / t)
⎝ n(t) ⎠
⎛ n (t) ⎞
une augmentation de la variance Var⎜ k ⎟ = 1 p(k / t)(1 − p(k / t))
⎝ n(t) ⎠ n(t)
Compromis biais/variance
Yves Lechevallier Master-ISF 42
Le compromis biais/variance
• la complexité du modèle est elle suffisante
pour réaliser une approximation correcte de
la fonction de décision Y*?
• L’erreur d’estimation réalisée sur
l’échantillon est un bon indicateur de la
performance du modèle sur les données
futures?
• L’estimation de Y* est elle très dépendante
de l’échantillon?