Vous êtes sur la page 1sur 29

Classication

Plan du cours.

1- Méthodes exploratoires

1.1 - CAH 1.2 - K-means

2- Modèle de mélange

2.1 - Modèle 2.2 - Algorithme EM

2.3 - Choix du nombre de groupes 2.4 - Conclusions


Méthodes exploratoires

Basée sur des considérations géométriques.

Objectif.

Faire des groupes les plus homogènes possibles et distincts.

Regrouper les observations qui sont "proches".

Besoin d'une mesure de "ressemblance" entre individus (distance) et d'une mesure de l'homogénéité
des groupes (inertie).
Distance et notion d'inertie

Distance euclidienne :
2
X
p
2
d (xi, xi0 ) = (xip − xi0p)
j=1
Attention : travailler sur les données normalisées.

Inertie. xG barycentre du nuage de tous les individus, xCk barycentre du groupe Ck .

X
n
2
IT = d (xi, xG)
i=1

X
K X
2
X
K
2
= d (xi, xCk ) + nk d (xCk , xG)
k=1 i∈Ck
| {z } |k=1 {z }
Inertie inter-groupes
Inertie intra-groupe

Inertie intra-groupes : les individus d'un même groupe sont proches ?


Inertie inter-groupes : groupes distants les uns des autres ?
Objectif de la classification

Objectif. Trouver la partition des n individus en K groupes qui minimise l'inertie intra-groupe (qui
rend les groupes les plus homogènes possibles).

Comment ? Considérer toutes les partitions possibles.

Problème. Impossible en pratique (il y en a trop !).

Solution. Visiter qu'un nombre restreint de partitions : solution approchée.

Deux algorithmes couramment utilisés : K-means et Classication Hiérarchique Ascendante (CAH).


Algorithme des K -means

Nombre de groupes K xé.

Initialisation. On choisit K centres des K groupes (soit par tirage aléatoire / soit choisis par
l'utilisateur).

2 étapes en boucle

1. Aectation. Chaque individu est aecté au centre le plus proche : on dénit K groupes
C1 , . . . , CK .
2. Calcul des nouveau centres. Dans chaque groupe Ci, on dénit le nouveau centre comme
étant le barycentre des individus de Ci

Règle d'arrêt.
 Nombre limité d'itérations
 Convergence de l'algorithme : entre deux itérations les groupes formés restent les mêmes.
Algorithme des K -means : illustration

3 3 3

2.5 2.5 2.5

2 2 2

1.5 1.5 1.5

1 1 1

0.5 0.5 0.5

0 0 0

−0.5 −0.5 −0.5

−1 −1 −1

−1.5 −1.5 −1.5

−2 −2 −2
−2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5

3 3 3

2.5 2.5 2.5

2 2 2

1.5 1.5 1.5

1 1 1

0.5 0.5 0.5

0 0 0

−0.5 −0.5 −0.5

−1 −1 −1

−1.5 −1.5 −1.5

−2 −2 −2
−2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5
Algorithme des K -means

Avantage : algorithme rapide.

Inconvénients :

 algorithme instable : dépend fortement de l'initialisation.

 Dicile de xer le nombre de groupes à l'avance.


Classification Hiérarchique Ascendante

Objectif. Construire une suite de partitions emboîtées en n groupes, n − 1 groupes, . . . , 1 groupe.

Principe.
 à l'étape initiale. les n individus constituent des groupes à eux seuls : un individu par groupe.

 à l'étape 1.
• les deux individus les plus proches sont réunis en un groupe.
• on calcule les distances entre ce groupe et les n − 2 individus.

 jusqu'à n'obtenir qu'un seul groupe.

Besoin d'une distance entre individus (distance euclidienne) et entre groupes.


Choix d'une distance entre groupes

Il en existe plusieurs, par exemple

 distance du lien simple :

2 0
D(Ck , Ck0 ) = minx∈Ci minx0∈C 0 d (x, x )
i

 la plus utilisée : la distance de Ward :

2 nk nk 0
D(Ck , Ck0 ) = d (xCk , xCk0 ) ×
nk + n k 0

avec nk le nombre d'individus dans le groupe Ck .

⇒ on peut montrer que l'on regroupe à chaque étape les deux groupes qui limite l'augmentation
de l'inertie intra-groupe.
CAH : illustration

Etape 1. On calcule les distances entre les 4 individus.

a b c d
a 0 1 4.1 4.5
b 0 3.2 3.6 ⇒ on regroupe a et b.
c 0 1
d 0

Etape 2. On met à jour le tableau des distances.

{ a, b } c d
{ a, b } 0 2.2 2.6
⇒ on regroupe c et d.
c 0 1
d 0
CAH : illustration

Etape 3.

{a, b} {c , d }
{a, b} 0 2.91
{c , d } 0

⇒ on fusionne les deux groupes {a, b} et {c , d }.


Représentation graphique : le dendogramme

Représentation de l'historique de la classication par un arbre :

Les branches sont proportionnelles au pourcentage de perte d'inertie : une branche "grande"
indique que l'on fusionne des groupes pas très homogènes.
CAH

Avantages :
 algorithme stable : pas d'initialisation.

 on ne choisit pas le nombre de groupes K à l'avance.

Inconvénients :
 algorithme lent dès que n est grand.

 dépend bien sur de la distance entre groupes choisie.

Choix de K : on coupe l'arbre lorsque les branches sont coupées trop "grandes" (pas toujours facile !).
Modèle de mélange

Utilise des modèles statistiques.

Objectif : toujours le même. Obtenir une classication des observations en groupes homogènes.

Notion d'homogénéité. Les observations qui sont dans un même groupe sont issues d'une même
distribution.
Modèle

 On observe x1 , . . . , xn , n observations d'une variable x pour n individus.

 On suppose que ces n individus sont issus de K groupes (K supposé connu pour l'instant).

 Chaque individu a une probabilité πk d'appartenir au groupe Ck .

 Si l'individu i appartient au groupe Ck , alors

(Xi | i ∈ Ck ) ∼ f (·; θk )

où f est la densité de paramètre θ .


Modèle

La distribution de Xi s'écrit

f (xi) = P (i ∈ C1) × f (xi; θ1) + . . . + P (i ∈ CK ) × f (xi; θK )


X
K
= P (i ∈ Ck ) × f (xi; θk )
k=1

X
K
= πk f (xi; θk ).
k=1

C'est donc un mélange de K distributions.

Dans un monde idéal : on observerait un échantillon i.i.d {(X1 , Z1 ), . . ., (Xn , Zn )} de distribution

Zi ∼ M(1; π1, . . . , πK ), (Xi | Zi = k) ∼ f (·; θk )

⇒ Zi représente le label du groupe auquel appartient l'individu i et P (Zi = k) = πk .


Exemple et objectif

le modèle ce qu'on aimerait ce qu'on a

4 4
0.25

3 3
0.2

2 2

0.15
1 1

0.1
0 0

0.05
−1 −1

0 −2 −2
−4

−2 −3 −3

0
−4 −4
2

2 3 4 −5 −5
4 −1 0 1
−3 −2 −4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3
−4

données complétées données incomplètes


Z : 1 = ◦, 2 = +, 3 = ∗ Z =?
Affectation des individus aux K groupes

Caractérisation des groupes. Chaque groupe k est caractérisé par


 πk qui représente la proportion d'individus appartenant au groupe k,
 θk qui sont les paramètres de la distribution du groupe k.

Aectation. Idée : classer l'individu i dans le groupe dont il a le plus de chance d'être issu au vu de
sa valeur xi observée et des caractéristiques des groupes.

Probabilité a posteriori pour l'individu i d'appartenir au groupe Ck

πk f (xi; θk )
τik = P (Zi = k|Xi = xi) = PK
l=1 πl f (xi ; θl )

Règle du Maximum a Posteriori (MAP). Classer l'individu i dans le groupe Ck tel que τik soit
maximale (Règle du Maximum a Posteriori (MAP)).
Exemple pour un mélange Gaussien à 3 groupes

Distributions : Probabilités a posteriori


f (x) = π1f (x; θ1) + π2f (x; θ2) + π3f (x; θ3) τik = Pr(Zi = k | xi)

0.35 1
groupe 1 groupe 3
mélange
0.9 groupe 2
0.3

0.8

0.25
0.7

0.6
0.2

groupe 2 0.5

0.15 groupe 3
groupe 1 0.4

0.3
0.1

0.2

0.05
0.1

0 0
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4

Remarque : τik max ⇔ πk f (xi; θk ) max.

⇒ Besoin d'estimer les πk et les θk . Notons αk = (πk , θk ) et α l'ensemble de tous les


paramètres.
Les vraisemblances

La log-vraisemblance incomplète : les données sont les X1 , ..., Xn (X )


" #
X
n X
log L (X1, ..., Xn; α) = log πk f ( X i ; θ k )
i=1 k

La log-vraisemblance complète : les données sont X = (X1 , Z1 ), ..., (Xn , Zn ) ((X, Z))

XX
log L ((X1, Z1), ..., (Xn, Zn); α) = log [πk f (Xi; θk )]
k Zi =k
Relation :

X
n
log L ((X1, Z1), ..., (Xn, Zn); α) = log f (Zi|Xi; α) + log f (Xi; α)
i=1

et donc

Pn
log L (X1, ..., Xn; α) = log L ((X1, Z1), ..., (Xn, Zn); α) − i=1 log f (Zi|Xi; α)
Algorithme EM

Problème. On ne peut obtenir des expressions explicites des estimateurs du maximum de vraisemblance
(des données incomplètes).

Idée de l'algorithme EM.

0 0
log L (X; α) = Q(α, α ) − H(α, α )
avec

0  0
Q(α, α ) = E log L ((X, Z); α) |X, α
( n )
0
X 0
H(α, α ) = E log f (Zi|Xi; α)|X, α
i=1
Algorithme EM

0 0 0 0 
log L (X; α) − log L X; α = Q(α, α ) − Q(α , α )
0 0 0 
+ H(α , α ) − H(α, α )

On peut montrer que H(α0 , α0 ) − H(α, α0 ) ≥ 0 donc

augmenter Q c'est augmenter log L (X; α)


Algorithme EM

L'algorithme EM est un algorithme itératif de α(l) −→ αl+1 .

A l'iteration (0) : initialisation de α.

A l'itération (l + 1)

• Etape E (Expectation) : Calcul de Q(α; α(l) ) pour tout α.

• Etape M (Maximisation) : recherche de α(l+1) qui maximise Q(α; α(l) ).

Critère d'arrêt : soit une diérence relatif de la log-vraisemblance, soit sur les paramètres.
Calcul de Q(α; α(l))

n o
(l) (l)
Q(α; α ) = E log L ((X1, Z1), ..., (Xn, Zn); α) |X, α
XX (l)
= E(Zi = k|Xi, α ) log [πk f (Xi; θk )]
i k
XX (l)
= τik log [πk f (Xi; θk )]
i k

Revient à calculer les probabilité a posteriori

(l) (l)
(l) πk f ( X i ; θ k )
τik =P (l) (l)
k0 πk 0 f ( X i ; θ k 0 )
EM pour un mélange de gaussiennes univariées

2 2
θk = (µk , σk ), fk = N (µk , σk )
La densité φ s'écrit

1 h i
2 2 2
f (Xk ; µk , σk ) = √ exp (Xk − µk ) /(2σk )
σk 2π

Les paramètres à l'itération (l + 1) sont donnés par :

(l+1) 1 X (l)
µk = P (l)
τik Xi
i τik i

1 X  2
2 (l+1) (l) (l+1)
(σk ) = P (l)
τik Xi − µk
i τik i

(l+1) 1 X (l)
πk = τik
n i

Pas besoin de l'implémenter, existe dans tous les bons logiciels de stat !
Affectation des individus aux groupes

Distributions : Probabilités a posteriori


f (x) = π1f1(x) + π2f2(x) + π3f3(x) τgk = Pr{g ∈ fk | xg } = πk fk (xg )/f (xg )

pg (k) (%) g=1 g=2 g=3


k=1 65.8 0.7 0.0
k=2 34.2 47.8 0.0
k=3 0.0 51.5 1.0
Propriété et en pratique

Propriétés de EM :
 converge toujours (à chaque étape log L augmente).
 mais pas forcément vers le maximum global.

Utilisation pratique de EM :
 facile à implémenter.
 converge parfois lentement.
(0)
 très sensible aux valeurs initiales (en général, on choisit au hasard les τik = 1/K ).

Initialisation.
 soit à faire répéter l'algorithme à partir de plusieurs valeurs initiales et à retenir la meilleure,
 soit à faire tourner l'algorithme un grand nombre de fois et de considérer les valeurs moyennes
obtenues comme point de départ du "bon" algorithme.
 soit utiliser un autre algorithme comme une CAH.
Choix du nombre de groupes

Vraisemblance. Comportement de −2 log L pour diérentes valeurs de K

Critère de vraisemblance pénalisée.

AIC = −2 log L + 2 × nombre de paramètres

BIC = −2 log L + log n × nombre de paramètres

ICL = critère qui pénalise la log-vrais complétée

par une fonction de n et du nombre de paramètres


Remarques

 Les mélanges peuvent être multivariés dans ce cas on considère des gaussiennes de dimension
d ≥ 1. Par contre Z reste unidimensionnel.

 Logiciels : mclust, Mixmod, R MIX

Vous aimerez peut-être aussi