Académique Documents
Professionnel Documents
Culture Documents
Plan du cours.
1- Méthodes exploratoires
2- Modèle de mélange
Objectif.
Besoin d'une mesure de "ressemblance" entre individus (distance) et d'une mesure de l'homogénéité
des groupes (inertie).
Distance et notion d'inertie
Distance euclidienne :
2
X
p
2
d (xi, xi0 ) = (xip − xi0p)
j=1
Attention : travailler sur les données normalisées.
X
n
2
IT = d (xi, xG)
i=1
X
K X
2
X
K
2
= d (xi, xCk ) + nk d (xCk , xG)
k=1 i∈Ck
| {z } |k=1 {z }
Inertie inter-groupes
Inertie intra-groupe
Objectif. Trouver la partition des n individus en K groupes qui minimise l'inertie intra-groupe (qui
rend les groupes les plus homogènes possibles).
Initialisation. On choisit K centres des K groupes (soit par tirage aléatoire / soit choisis par
l'utilisateur).
2 étapes en boucle
1. Aectation. Chaque individu est aecté au centre le plus proche : on dénit K groupes
C1 , . . . , CK .
2. Calcul des nouveau centres. Dans chaque groupe Ci, on dénit le nouveau centre comme
étant le barycentre des individus de Ci
Règle d'arrêt.
Nombre limité d'itérations
Convergence de l'algorithme : entre deux itérations les groupes formés restent les mêmes.
Algorithme des K -means : illustration
3 3 3
2 2 2
1 1 1
0 0 0
−1 −1 −1
−2 −2 −2
−2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5
3 3 3
2 2 2
1 1 1
0 0 0
−1 −1 −1
−2 −2 −2
−2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5
Algorithme des K -means
Inconvénients :
Principe.
à l'étape initiale. les n individus constituent des groupes à eux seuls : un individu par groupe.
à l'étape 1.
• les deux individus les plus proches sont réunis en un groupe.
• on calcule les distances entre ce groupe et les n − 2 individus.
2 0
D(Ck , Ck0 ) = minx∈Ci minx0∈C 0 d (x, x )
i
2 nk nk 0
D(Ck , Ck0 ) = d (xCk , xCk0 ) ×
nk + n k 0
⇒ on peut montrer que l'on regroupe à chaque étape les deux groupes qui limite l'augmentation
de l'inertie intra-groupe.
CAH : illustration
a b c d
a 0 1 4.1 4.5
b 0 3.2 3.6 ⇒ on regroupe a et b.
c 0 1
d 0
{ a, b } c d
{ a, b } 0 2.2 2.6
⇒ on regroupe c et d.
c 0 1
d 0
CAH : illustration
Etape 3.
{a, b} {c , d }
{a, b} 0 2.91
{c , d } 0
Les branches sont proportionnelles au pourcentage de perte d'inertie : une branche "grande"
indique que l'on fusionne des groupes pas très homogènes.
CAH
Avantages :
algorithme stable : pas d'initialisation.
Inconvénients :
algorithme lent dès que n est grand.
Choix de K : on coupe l'arbre lorsque les branches sont coupées trop "grandes" (pas toujours facile !).
Modèle de mélange
Objectif : toujours le même. Obtenir une classication des observations en groupes homogènes.
Notion d'homogénéité. Les observations qui sont dans un même groupe sont issues d'une même
distribution.
Modèle
On suppose que ces n individus sont issus de K groupes (K supposé connu pour l'instant).
(Xi | i ∈ Ck ) ∼ f (·; θk )
La distribution de Xi s'écrit
X
K
= πk f (xi; θk ).
k=1
4 4
0.25
3 3
0.2
2 2
0.15
1 1
0.1
0 0
0.05
−1 −1
0 −2 −2
−4
−2 −3 −3
0
−4 −4
2
2 3 4 −5 −5
4 −1 0 1
−3 −2 −4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3
−4
Aectation. Idée : classer l'individu i dans le groupe dont il a le plus de chance d'être issu au vu de
sa valeur xi observée et des caractéristiques des groupes.
πk f (xi; θk )
τik = P (Zi = k|Xi = xi) = PK
l=1 πl f (xi ; θl )
Règle du Maximum a Posteriori (MAP). Classer l'individu i dans le groupe Ck tel que τik soit
maximale (Règle du Maximum a Posteriori (MAP)).
Exemple pour un mélange Gaussien à 3 groupes
0.35 1
groupe 1 groupe 3
mélange
0.9 groupe 2
0.3
0.8
0.25
0.7
0.6
0.2
groupe 2 0.5
0.15 groupe 3
groupe 1 0.4
0.3
0.1
0.2
0.05
0.1
0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
La log-vraisemblance complète : les données sont X = (X1 , Z1 ), ..., (Xn , Zn ) ((X, Z))
XX
log L ((X1, Z1), ..., (Xn, Zn); α) = log [πk f (Xi; θk )]
k Zi =k
Relation :
X
n
log L ((X1, Z1), ..., (Xn, Zn); α) = log f (Zi|Xi; α) + log f (Xi; α)
i=1
et donc
Pn
log L (X1, ..., Xn; α) = log L ((X1, Z1), ..., (Xn, Zn); α) − i=1 log f (Zi|Xi; α)
Algorithme EM
Problème. On ne peut obtenir des expressions explicites des estimateurs du maximum de vraisemblance
(des données incomplètes).
0 0
log L (X; α) = Q(α, α ) − H(α, α )
avec
0 0
Q(α, α ) = E log L ((X, Z); α) |X, α
( n )
0
X 0
H(α, α ) = E log f (Zi|Xi; α)|X, α
i=1
Algorithme EM
0 0 0 0
log L (X; α) − log L X; α = Q(α, α ) − Q(α , α )
0 0 0
+ H(α , α ) − H(α, α )
A l'itération (l + 1)
Critère d'arrêt : soit une diérence relatif de la log-vraisemblance, soit sur les paramètres.
Calcul de Q(α; α(l))
n o
(l) (l)
Q(α; α ) = E log L ((X1, Z1), ..., (Xn, Zn); α) |X, α
XX (l)
= E(Zi = k|Xi, α ) log [πk f (Xi; θk )]
i k
XX (l)
= τik log [πk f (Xi; θk )]
i k
(l) (l)
(l) πk f ( X i ; θ k )
τik =P (l) (l)
k0 πk 0 f ( X i ; θ k 0 )
EM pour un mélange de gaussiennes univariées
2 2
θk = (µk , σk ), fk = N (µk , σk )
La densité φ s'écrit
1 h i
2 2 2
f (Xk ; µk , σk ) = √ exp (Xk − µk ) /(2σk )
σk 2π
(l+1) 1 X (l)
µk = P (l)
τik Xi
i τik i
1 X 2
2 (l+1) (l) (l+1)
(σk ) = P (l)
τik Xi − µk
i τik i
(l+1) 1 X (l)
πk = τik
n i
Pas besoin de l'implémenter, existe dans tous les bons logiciels de stat !
Affectation des individus aux groupes
Propriétés de EM :
converge toujours (à chaque étape log L augmente).
mais pas forcément vers le maximum global.
Utilisation pratique de EM :
facile à implémenter.
converge parfois lentement.
(0)
très sensible aux valeurs initiales (en général, on choisit au hasard les τik = 1/K ).
Initialisation.
soit à faire répéter l'algorithme à partir de plusieurs valeurs initiales et à retenir la meilleure,
soit à faire tourner l'algorithme un grand nombre de fois et de considérer les valeurs moyennes
obtenues comme point de départ du "bon" algorithme.
soit utiliser un autre algorithme comme une CAH.
Choix du nombre de groupes
Les mélanges peuvent être multivariés dans ce cas on considère des gaussiennes de dimension
d ≥ 1. Par contre Z reste unidimensionnel.