Franck Picard?
?
UMR CNRS-5558, Laboratoire de Biométrie et Biologie Evolutive
franck.picard@univ-lyon1.fr
F. Picard (LBBE) 1 / 75
Introduction
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 2 / 75
Introduction
Introduction
F. Picard (LBBE) 3 / 75
Introduction
F. Picard (LBBE) 4 / 75
Introduction
Supervisé ou non ?
F. Picard (LBBE) 5 / 75
Introduction
Un problème de combinatoire
On cherche bien sur la “meilleure” partition possible au vu d’un
certain critère: Peut-on explorer toutes les partitions et choisir la
meilleure ?
Soit E un ensemble de n individus que l’on souhaite partitionner en
K classes
- Le nombre de partitions de E à K groupes (nombre de Stirling de
première espèce)
g (n, k) ∼ K n /K !
- Le nombre total de partitions de E (nombre de Bell)
n
X 1 X kn
Bn = g (n, k) =
e k!
k=1 k≥1
Conclusion:
On ne peut pas explorer toutes les partitions possibles !
F. Picard (LBBE) 6 / 75
Introduction
Stratégies itératives
F. Picard (LBBE) 7 / 75
Dissimilarités et distances
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 8 / 75
Dissimilarités et distances
d :E ×E → R+
(i, i 0 ) → d(i, i 0 )
F. Picard (LBBE) 9 / 75
Dissimilarités et distances
F. Picard (LBBE) 10 / 75
Dissimilarités et distances
Nuages de points
(x1 , . . . xn ) ∈ Rp
F. Picard (LBBE) 11 / 75
Dissimilarités et distances
F. Picard (LBBE) 12 / 75
Dissimilarités et distances
F. Picard (LBBE) 13 / 75
Dissimilarités et distances
Autres distances
Warnings!
Il est bien plus important de choisir la distance entre individu que
l’algorithme de classification, c’est l’étape cruciale
F. Picard (LBBE) 14 / 75
Classifications hierarchiques
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 15 / 75
Classifications hierarchiques
Intuitions et principes
F. Picard (LBBE) 16 / 75
Classifications hierarchiques
F. Picard (LBBE) 17 / 75
Classifications hierarchiques
F. Picard (LBBE) 18 / 75
Classifications hierarchiques
X p
n X n
X
IT = (xij − g )2 = d 2 (i, g )
i=1 j=1 i=1
F. Picard (LBBE) 19 / 75
Classifications hierarchiques
F. Picard (LBBE) 20 / 75
Classifications hierarchiques
Stratégie d’optimisation
F. Picard (LBBE) 21 / 75
Classifications hierarchiques
∆ = IW (A, B) − IW (A ∪ B)
F. Picard (LBBE) 22 / 75
Classifications hierarchiques
F. Picard (LBBE) 23 / 75
Classifications hierarchiques
F. Picard (LBBE) 24 / 75
Classifications hierarchiques
F. Picard (LBBE) 25 / 75
Classifications hierarchiques
a b c d
On considère les données suivantes: X 0 0 3 3
Y 0 1 0 1
Calculer la matrice de distance euclidienne D et construire le
dendrogramme avec la méthode du lien simple et la méthode du lien
maximum
Autre exemple avec la matrice de distance:
a b c d e
a 0 3 7 3 4
b 0 4 4 1
c 0 2 6
d 0 0.5
e 0
F. Picard (LBBE) 26 / 75
Classifications hierarchiques
F. Picard (LBBE) 27 / 75
Classifications hierarchiques
http://lib.stat.cmu.edu/DASL/Stories/EconomicsofCities.html
http://lib.stat.cmu.edu/DASL/Stories/ClusteringCars.html
http://lib.stat.cmu.edu/DASL/Stories/EuropeanJobs.html
http://lib.stat.cmu.edu/DASL/Stories/ProteinConsumptioninEurope.html
F. Picard (LBBE) 28 / 75
Algorithme des k-means
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 29 / 75
Algorithme des k-means
F. Picard (LBBE) 30 / 75
Algorithme des k-means
F. Picard (LBBE) 31 / 75
Algorithme des k-means
Un algorithme itératif
F. Picard (LBBE) 32 / 75
Algorithme des k-means
F. Picard (LBBE) 33 / 75
Algorithme des k-means
Décroissance de l’inertie
F. Picard (LBBE) 34 / 75
Algorithme des k-means
Convergence de l’algorithme
F. Picard (LBBE) 35 / 75
Algorithme des k-means
Stratégies d’utilisation
F. Picard (LBBE) 36 / 75
Modèles de mélanges
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 37 / 75
Modèles de mélanges
Introduction
F. Picard (LBBE) 38 / 75
Modèles de mélanges
Idées de base
F. Picard (LBBE) 39 / 75
Modèles de mélanges
Classification probabiliste
Les labels Zik peuvent être modélisés comme des variables aléatoires
Si on note (π1 , . . . , πK ) le vecteur inconnu des tailles des groupes
X
πk = 1
k
Zik ∼ M(1, π1 , . . . , πK )
F. Picard (LBBE) 40 / 75
Modèles de mélanges
Pr{Zik = 1} = πk
F. Picard (LBBE) 41 / 75
Modèles de mélanges
πk Pr{Xi = xi |Zik = 1}
τik (xi ) = PK
`=1 π` Pr{Xi = xi |Zi` = 1}
F. Picard (LBBE) 42 / 75
Modèles de mélanges
Illustration avec R
tau1 = prop[1]*f1/(prop[1]*f1+prop[2]*f2)
tau2 = prop[2]*f2/(prop[1]*f1+prop[2]*f2)
par(mfrow=c(2,1))
plot(x,tau1,type="l"); lines(x,tau2,type="l")
plot(x,prop[1]*f1+prop[2]*f2,type="l")
lines(x,prop[1]*f1,type="l",col="red")
lines(x,prop[2]*f2,type="l",col="blue")
F. Picard (LBBE) 43 / 75
Modèles de mélanges
Xi |{Zik = 1} ∼ N (µk , σ 2 )
Xi |{Zik = 1} ∼ N (µk , σk2 )
Xi |{Zik = 1} ∼ P(λk )
Xi |{Zik = 1} ∼ E(λk )
F. Picard (LBBE) 44 / 75
Modèles de mélanges
F. Picard (LBBE) 45 / 75
Modèles de mélanges
N (µk , σ 2 ) : K + 1
N (µk , σk2 ) : 2K
P(λk ) : K
C’est la loi jointe de toutes les observations (xi )ni=1 quand tous les
labels sont connus (Zik ).
La vraisemblance des labels
n Y
Y K
LK (Z; π) = Pr{Zik = 1}I{Zik =1}
i=1 k=1
F. Picard (LBBE) 47 / 75
Modèles de mélanges
n Y
Y K
LK (X|Z; θ) = f (xi ; θk )I{Zik =1}
i=1 k=1
n Y
K
( )I{Zik =1}
Y 1 xi − µk 2
= √ exp −
σ 2π σ
i=1 k=1
n X
K
√ xi − µk 2
X
−2 log LK (X|Z; θ) = n log(σ 2 2π) + Zik
σ
i=1 k=1
F. Picard (LBBE) 48 / 75
Modèles de mélanges
n Y
Y K
LK (X|Z; θ) = f (xi ; θk )I{Zik =1}
i=1 k=1
n Y K
xi I{Zik =1}
1 Y
= exp −
λk λk
i=1 k=1
n X K
X xi
− log LK (X|Z; θ) = Zik log(λk ) +
λk
i=1 k=1
F. Picard (LBBE) 49 / 75
Modèles de mélanges
F. Picard (LBBE) 50 / 75
Modèles de mélanges
F. Picard (LBBE) 52 / 75
Modèles de mélanges
F. Picard (LBBE) 53 / 75
Modèles de mélanges
F. Picard (LBBE) 54 / 75
Modèles de mélanges
Modèle # param.
λI 1 kmeans
Σk = diag(σ12 , . . . , σp2 ) K ×p pas de corr., une variance/dim
Σk = Σ p + p(p − 1)/2 non spécifiée mais commune
Σk K (p + p(p − 1)/2) non spécifiée différentes
F. Picard (LBBE) 55 / 75
Modèles de mélanges
F. Picard (LBBE) 56 / 75
Modèles de mélanges
F. Picard (LBBE) 57 / 75
Modèles de mélanges
(x − µ)2
1
f (x) = √ exp −
2πσ 2 2σ 2
le modèle de mélange gaussien de paramètres (πk , µk , σk )k
n
Mθ = θ = (πk , µk , σk )k ∈ Θ = [0, 1]K × RK × R+,K ,
2
π (x − µk )
q k exp −
X X
πk = 1, f (x) =
2πσk2 2σk2
k k
F. Picard (LBBE) 58 / 75
Modèles de mélanges
F. Picard (LBBE) 59 / 75
Modèles de mélanges
log L(M
e θ ) = log L(Mθ ) − βpen (|Mθ |)
F. Picard (LBBE) 60 / 75
Modèles de mélanges
F. Picard (LBBE) 61 / 75
Modèles de mélanges
M
cb = arg max {BIC (Mθ )}
θ
BICK (λI), BICK (diag(σ12 , . . . , σp2 )), BICK (Σ), BICK (Σk )
F. Picard (LBBE) 62 / 75
Introduction à la classification supervisée
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 63 / 75
Introduction à la classification supervisée
Contexte
F. Picard (LBBE) 64 / 75
Introduction à la classification supervisée
F. Picard (LBBE) 65 / 75
L’analyse discriminante probabiliste
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 66 / 75
L’analyse discriminante probabiliste
πk fk (xi )
Pr{Yi = k|xi } = PK
`=1 π` f` (xi )
F. Picard (LBBE) 67 / 75
L’analyse discriminante probabiliste
F. Picard (LBBE) 68 / 75
L’analyse discriminante probabiliste
Fonction de Score
1 1
µ0k Σ−1 xi − µ0k Σ−1 µk + log πk > µ0` Σ−1 xi − µ0` Σ−1 µ` + log π`
2 2
0 −1 πk 1 0 −1
(µk − µ` ) Σ xi + log − (µk − µ` ) Σ (µk + µ` ) > 0
π` 2
πk 1
S(xi ) = (µk − µ` )0 Σ−1 xi + log − (µk − µ` )0 Σ−1 (µk + µ` )
π` 2
F. Picard (LBBE) 69 / 75
L’analyse discriminante probabiliste
F. Picard (LBBE) 70 / 75
Analyse Factorielle Discriminante
Outline
1 Introduction
2 Dissimilarités et distances
3 Classifications hierarchiques
5 Modèles de mélanges
8 F. Picard (LBBE) 71 / 75
Analyse Factorielle Discriminante
On souhaite projeer les indivus sur des axes qui les séparent avec
une petite variance intra-classe et une grande variance inter-classes
On cherche les axes u tels que min{u0 IW u}, max{u0 IB u}
On ne peut pas trouver de solution simultanément aux deux
problèmes
Mais étant donné que IT = IW + IB , on considère
0
u IB u
max
u0 IT u
F. Picard (LBBE) 72 / 75
Analyse Factorielle Discriminante
x̄1 − x̄2 2
n1 n2 n1 n2
= D2
n1 + n2 σ
b n1 + n2 1,2
F. Picard (LBBE) 73 / 75
Analyse Factorielle Discriminante
Si ∆21,2 = 0 alors µ1 = µ2
2 est un estimateur biasé de ∆2 tel que
D1,2 1,2
2
n−2 2 pn
E D1,2 = ∆1,2 +
n−p−1 n1 n2
F. Picard (LBBE) 74 / 75
Analyse Factorielle Discriminante
F. Picard (LBBE) 75 / 75