Class If

Classication
Plan du cours.
1- Méthodes exploratoires
1.1 - CAH 1.2 - K-means
2- Modèle de mélange
2.1 - Modèle 2.2 - Algorithme EM
2.3 - Choix du nombre de groupes 2.4 - Conclusions

Méthodes exploratoires
Basée sur des considérations géométriques.
Objectif.
Faire des groupes les plus homogènes possibles et distincts.
Regrouper les observations qui sont "proches".
Besoin d'une mesure de "ressemblance" entre individus (distance) et d'une mesure de l'homogénéité
des groupes (inertie).
Distance et notion d'inertie
Distance euclidienne :
2
X
p
2
d (xi, xi0 ) = (xip − xi0p)
j=1
Attention : travailler sur les données normalisées.
Inertie. xG barycentre du nuage de tous les individus, xCk barycentre du groupe Ck .
X
n
2
IT = d (xi, xG)
i=1
X
K X
2
X
K
2
= d (xi, xCk ) + nk d (xCk , xG)
k=1 i∈Ck
| {z } |k=1 {z }
Inertie inter-groupes
Inertie intra-groupe
Inertie intra-groupes : les individus d'un même groupe sont proches ?

Inertie inter-groupes : groupes distants les uns des autres ?
Objectif de la classification
Objectif. Trouver la partition des n individus en K groupes qui minimise l'inertie intra-groupe (qui
rend les groupes les plus homogènes possibles).
Comment ? Considérer toutes les partitions possibles.
Problème. Impossible en pratique (il y en a trop !).
Solution. Visiter qu'un nombre restreint de partitions : solution approchée.
Deux algorithmes couramment utilisés : K-means et Classication Hiérarchique Ascendante (CAH).

Algorithme des K -means
Nombre de groupes K xé.
Initialisation. On choisit K centres des K groupes (soit par tirage aléatoire / soit choisis par
l'utilisateur).
2 étapes en boucle
1. Aectation. Chaque individu est aecté au centre le plus proche : on dénit K groupes
C1 , . . . , CK .
2. Calcul des nouveau centres. Dans chaque groupe Ci, on dénit le nouveau centre comme
étant le barycentre des individus de Ci
Règle d'arrêt.
Nombre limité d'itérations
Convergence de l'algorithme : entre deux itérations les groupes formés restent les mêmes.
Algorithme des K -means : illustration
3 3 3
2.5 2.5 2.5
2 2 2
1.5 1.5 1.5
1 1 1
0.5 0.5 0.5
0 0 0
−0.5 −0.5 −0.5
−1 −1 −1
−1.5 −1.5 −1.5
−2 −2 −2
−2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5
3 3 3
2.5 2.5 2.5
2 2 2
1.5 1.5 1.5
1 1 1
0.5 0.5 0.5
0 0 0
−0.5 −0.5 −0.5
−1 −1 −1
−1.5 −1.5 −1.5
−2 −2 −2
−2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5
Algorithme des K -means
Avantage : algorithme rapide.
Inconvénients :
algorithme instable : dépend fortement de l'initialisation.
Dicile de xer le nombre de groupes à l'avance.

Classification Hiérarchique Ascendante
Objectif. Construire une suite de partitions emboîtées en n groupes, n − 1 groupes, . . . , 1 groupe.
Principe.
à l'étape initiale. les n individus constituent des groupes à eux seuls : un individu par groupe.
à l'étape 1.
• les deux individus les plus proches sont réunis en un groupe.
• on calcule les distances entre ce groupe et les n − 2 individus.
jusqu'à n'obtenir qu'un seul groupe.
Besoin d'une distance entre individus (distance euclidienne) et entre groupes.

Choix d'une distance entre groupes
Il en existe plusieurs, par exemple
distance du lien simple :
2 0
D(Ck , Ck0 ) = minx∈Ci minx0∈C 0 d (x, x )
i
la plus utilisée : la distance de Ward :
2 nk nk 0
D(Ck , Ck0 ) = d (xCk , xCk0 ) ×
nk + n k 0
avec nk le nombre d'individus dans le groupe Ck .
⇒ on peut montrer que l'on regroupe à chaque étape les deux groupes qui limite l'augmentation
de l'inertie intra-groupe.
CAH : illustration
Etape 1. On calcule les distances entre les 4 individus.
a b c d
a 0 1 4.1 4.5
b 0 3.2 3.6 ⇒ on regroupe a et b.
c 0 1
d 0
Etape 2. On met à jour le tableau des distances.
{ a, b } c d
{ a, b } 0 2.2 2.6
⇒ on regroupe c et d.
c 0 1
d 0
CAH : illustration
Etape 3.
{a, b} {c , d }
{a, b} 0 2.91
{c , d } 0
⇒ on fusionne les deux groupes {a, b} et {c , d }.

Représentation graphique : le dendogramme
Représentation de l'historique de la classication par un arbre :
Les branches sont proportionnelles au pourcentage de perte d'inertie : une branche "grande"
indique que l'on fusionne des groupes pas très homogènes.
CAH
Avantages :
algorithme stable : pas d'initialisation.
on ne choisit pas le nombre de groupes K à l'avance.
Inconvénients :
algorithme lent dès que n est grand.
dépend bien sur de la distance entre groupes choisie.
Choix de K : on coupe l'arbre lorsque les branches sont coupées trop "grandes" (pas toujours facile !).
Modèle de mélange
Utilise des modèles statistiques.
Objectif : toujours le même. Obtenir une classication des observations en groupes homogènes.
Notion d'homogénéité. Les observations qui sont dans un même groupe sont issues d'une même
distribution.
Modèle
On observe x1 , . . . , xn , n observations d'une variable x pour n individus.
On suppose que ces n individus sont issus de K groupes (K supposé connu pour l'instant).
Chaque individu a une probabilité πk d'appartenir au groupe Ck .
Si l'individu i appartient au groupe Ck , alors
(Xi | i ∈ Ck ) ∼ f (·; θk )
où f est la densité de paramètre θ .

Modèle
La distribution de Xi s'écrit
f (xi) = P (i ∈ C1) × f (xi; θ1) + . . . + P (i ∈ CK ) × f (xi; θK )

X
K
= P (i ∈ Ck ) × f (xi; θk )
k=1
X
K
= πk f (xi; θk ).
k=1
C'est donc un mélange de K distributions.
Dans un monde idéal : on observerait un échantillon i.i.d {(X1 , Z1 ), . . ., (Xn , Zn )} de distribution
Zi ∼ M(1; π1, . . . , πK ), (Xi | Zi = k) ∼ f (·; θk )
⇒ Zi représente le label du groupe auquel appartient l'individu i et P (Zi = k) = πk .

Exemple et objectif
le modèle ce qu'on aimerait ce qu'on a
4 4
0.25
3 3
0.2
2 2
0.15
1 1
0.1
0 0
0.05
−1 −1
0 −2 −2
−4
−2 −3 −3
0
−4 −4
2
2 3 4 −5 −5
4 −1 0 1
−3 −2 −4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3
−4
données complétées données incomplètes

Z : 1 = ◦, 2 = +, 3 = ∗ Z =?
Affectation des individus aux K groupes
Caractérisation des groupes. Chaque groupe k est caractérisé par

πk qui représente la proportion d'individus appartenant au groupe k,
θk qui sont les paramètres de la distribution du groupe k.
Aectation. Idée : classer l'individu i dans le groupe dont il a le plus de chance d'être issu au vu de
sa valeur xi observée et des caractéristiques des groupes.
Probabilité a posteriori pour l'individu i d'appartenir au groupe Ck
πk f (xi; θk )
τik = P (Zi = k|Xi = xi) = PK
l=1 πl f (xi ; θl )
Règle du Maximum a Posteriori (MAP). Classer l'individu i dans le groupe Ck tel que τik soit
maximale (Règle du Maximum a Posteriori (MAP)).
Exemple pour un mélange Gaussien à 3 groupes
Distributions : Probabilités a posteriori

f (x) = π1f (x; θ1) + π2f (x; θ2) + π3f (x; θ3) τik = Pr(Zi = k | xi)
0.35 1
groupe 1 groupe 3
mélange
0.9 groupe 2
0.3
0.8
0.25
0.7
0.6
0.2
groupe 2 0.5
0.15 groupe 3
groupe 1 0.4
0.3
0.1
0.2
0.05
0.1
0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
Remarque : τik max ⇔ πk f (xi; θk ) max.
⇒ Besoin d'estimer les πk et les θk . Notons αk = (πk , θk ) et α l'ensemble de tous les

paramètres.
Les vraisemblances
La log-vraisemblance incomplète : les données sont les X1 , ..., Xn (X )

" #
X
n X
log L (X1, ..., Xn; α) = log πk f ( X i ; θ k )
i=1 k
La log-vraisemblance complète : les données sont X = (X1 , Z1 ), ..., (Xn , Zn ) ((X, Z))
XX
log L ((X1, Z1), ..., (Xn, Zn); α) = log [πk f (Xi; θk )]
k Zi =k
Relation :
X
n
log L ((X1, Z1), ..., (Xn, Zn); α) = log f (Zi|Xi; α) + log f (Xi; α)
i=1
et donc
Pn
log L (X1, ..., Xn; α) = log L ((X1, Z1), ..., (Xn, Zn); α) − i=1 log f (Zi|Xi; α)
Algorithme EM
Problème. On ne peut obtenir des expressions explicites des estimateurs du maximum de vraisemblance
(des données incomplètes).
Idée de l'algorithme EM.
0 0
log L (X; α) = Q(α, α ) − H(α, α )
avec
0 0
Q(α, α ) = E log L ((X, Z); α) |X, α
( n )
0
X 0
H(α, α ) = E log f (Zi|Xi; α)|X, α
i=1
Algorithme EM
0 0 0 0
log L (X; α) − log L X; α = Q(α, α ) − Q(α , α )
0 0 0
+ H(α , α ) − H(α, α )
On peut montrer que H(α0 , α0 ) − H(α, α0 ) ≥ 0 donc
augmenter Q c'est augmenter log L (X; α)

Algorithme EM
L'algorithme EM est un algorithme itératif de α(l) −→ αl+1 .
A l'iteration (0) : initialisation de α.
A l'itération (l + 1)
• Etape E (Expectation) : Calcul de Q(α; α(l) ) pour tout α.
• Etape M (Maximisation) : recherche de α(l+1) qui maximise Q(α; α(l) ).
Critère d'arrêt : soit une diérence relatif de la log-vraisemblance, soit sur les paramètres.
Calcul de Q(α; α(l))
n o
(l) (l)
Q(α; α ) = E log L ((X1, Z1), ..., (Xn, Zn); α) |X, α
XX (l)
= E(Zi = k|Xi, α ) log [πk f (Xi; θk )]
i k
XX (l)
= τik log [πk f (Xi; θk )]
i k
Revient à calculer les probabilité a posteriori
(l) (l)
(l) πk f ( X i ; θ k )
τik =P (l) (l)
k0 πk 0 f ( X i ; θ k 0 )
EM pour un mélange de gaussiennes univariées
2 2
θk = (µk , σk ), fk = N (µk , σk )
La densité φ s'écrit
1 h i
2 2 2
f (Xk ; µk , σk ) = √ exp (Xk − µk ) /(2σk )
σk 2π
Les paramètres à l'itération (l + 1) sont donnés par :
(l+1) 1 X (l)
µk = P (l)
τik Xi
i τik i
1 X 2
2 (l+1) (l) (l+1)
(σk ) = P (l)
τik Xi − µk
i τik i
(l+1) 1 X (l)
πk = τik
n i
Pas besoin de l'implémenter, existe dans tous les bons logiciels de stat !
Affectation des individus aux groupes
Distributions : Probabilités a posteriori

f (x) = π1f1(x) + π2f2(x) + π3f3(x) τgk = Pr{g ∈ fk | xg } = πk fk (xg )/f (xg )
pg (k) (%) g=1 g=2 g=3

k=1 65.8 0.7 0.0
k=2 34.2 47.8 0.0
k=3 0.0 51.5 1.0
Propriété et en pratique
Propriétés de EM :
converge toujours (à chaque étape log L augmente).
mais pas forcément vers le maximum global.
Utilisation pratique de EM :
facile à implémenter.
converge parfois lentement.
(0)
très sensible aux valeurs initiales (en général, on choisit au hasard les τik = 1/K ).
Initialisation.
soit à faire répéter l'algorithme à partir de plusieurs valeurs initiales et à retenir la meilleure,
soit à faire tourner l'algorithme un grand nombre de fois et de considérer les valeurs moyennes
obtenues comme point de départ du "bon" algorithme.
soit utiliser un autre algorithme comme une CAH.
Choix du nombre de groupes
Vraisemblance. Comportement de −2 log L pour diérentes valeurs de K
Critère de vraisemblance pénalisée.
AIC = −2 log L + 2 × nombre de paramètres
BIC = −2 log L + log n × nombre de paramètres
ICL = critère qui pénalise la log-vrais complétée
par une fonction de n et du nombre de paramètres

Remarques
Les mélanges peuvent être multivariés dans ce cas on considère des gaussiennes de dimension
d ≥ 1. Par contre Z reste unidimensionnel.
Logiciels : mclust, Mixmod, R MIX

Class If

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Class If

Transféré par

Droits d'auteur :

Formats disponibles

Classication

1.1 - CAH 1.2 - K-means

2.1 - Modèle 2.2 - Algorithme EM

2.3 - Choix du nombre de groupes 2.4 - Conclusions

Basée sur des considérations géométriques.

Faire des groupes les plus homogènes possibles et distincts.

Regrouper les observations qui sont "proches".

Inertie. xG barycentre du nuage de tous les individus, xCk barycentre du groupe Ck .

Inertie intra-groupes : les individus d'un même groupe sont proches ?

Comment ? Considérer toutes les partitions possibles.

Problème. Impossible en pratique (il y en a trop !).

Solution. Visiter qu'un nombre restreint de partitions : solution approchée.

Deux algorithmes couramment utilisés : K-means et Classication Hiérarchique Ascendante (CAH).

Nombre de groupes K xé.

2.5 2.5 2.5

1.5 1.5 1.5

0.5 0.5 0.5

−0.5 −0.5 −0.5

−1.5 −1.5 −1.5

2.5 2.5 2.5

1.5 1.5 1.5

0.5 0.5 0.5

−0.5 −0.5 −0.5

−1.5 −1.5 −1.5

Avantage : algorithme rapide.

 algorithme instable : dépend fortement de l'initialisation.

 Dicile de xer le nombre de groupes à l'avance.

Objectif. Construire une suite de partitions emboîtées en n groupes, n − 1 groupes, . . . , 1 groupe.

 jusqu'à n'obtenir qu'un seul groupe.

Besoin d'une distance entre individus (distance euclidienne) et entre groupes.

Il en existe plusieurs, par exemple

 distance du lien simple :

 la plus utilisée : la distance de Ward :

avec nk le nombre d'individus dans le groupe Ck .

Etape 1. On calcule les distances entre les 4 individus.

Etape 2. On met à jour le tableau des distances.

⇒ on fusionne les deux groupes {a, b} et {c , d }.

Représentation de l'historique de la classication par un arbre :

 on ne choisit pas le nombre de groupes K à l'avance.

 dépend bien sur de la distance entre groupes choisie.

Utilise des modèles statistiques.

 On observe x1 , . . . , xn , n observations d'une variable x pour n individus.

 Chaque individu a une probabilité πk d'appartenir au groupe Ck .

 Si l'individu i appartient au groupe Ck , alors

où f est la densité de paramètre θ .

f (xi) = P (i ∈ C1) × f (xi; θ1) + . . . + P (i ∈ CK ) × f (xi; θK )

C'est donc un mélange de K distributions.

Dans un monde idéal : on observerait un échantillon i.i.d {(X1 , Z1 ), . . ., (Xn , Zn )} de distribution

Zi ∼ M(1; π1, . . . , πK ), (Xi | Zi = k) ∼ f (·; θk )

⇒ Zi représente le label du groupe auquel appartient l'individu i et P (Zi = k) = πk .

le modèle ce qu'on aimerait ce qu'on a

données complétées données incomplètes

Caractérisation des groupes. Chaque groupe k est caractérisé par

Probabilité a posteriori pour l'individu i d'appartenir au groupe Ck

Distributions : Probabilités a posteriori

Remarque : τik max ⇔ πk f (xi; θk ) max.

⇒ Besoin d'estimer les πk et les θk . Notons αk = (πk , θk ) et α l'ensemble de tous les

La log-vraisemblance incomplète : les données sont les X1 , ..., Xn (X )

Idée de l'algorithme EM.

On peut montrer que H(α0 , α0 ) − H(α, α0 ) ≥ 0 donc

augmenter Q c'est augmenter log L (X; α)

L'algorithme EM est un algorithme itératif de α(l) −→ αl+1 .

A l'iteration (0) : initialisation de α.

• Etape E (Expectation) : Calcul de Q(α; α(l) ) pour tout α.

Classication

Deux algorithmes couramment utilisés : K-means et Classication Hiérarchique Ascendante (CAH).

Nombre de groupes K xé.

algorithme instable : dépend fortement de l'initialisation.

Dicile de xer le nombre de groupes à l'avance.

jusqu'à n'obtenir qu'un seul groupe.

distance du lien simple :

la plus utilisée : la distance de Ward :

Représentation de l'historique de la classication par un arbre :

on ne choisit pas le nombre de groupes K à l'avance.

dépend bien sur de la distance entre groupes choisie.

On observe x1 , . . . , xn , n observations d'une variable x pour n individus.

Chaque individu a une probabilité πk d'appartenir au groupe Ck .

Si l'individu i appartient au groupe Ck , alors

Vraisemblance. Comportement de −2 log L pour diérentes valeurs de K

Logiciels : mclust, Mixmod, R MIX