Segmentation Slide

Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP
Classification non supervisée
N. TSOPZE
Département d’Informatique - Université de Yaoundé I
March 24, 2015
N. TSOPZE Classification non supervisée

Segmentation
Classification non supervisée
Définition
Ensemble de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de n
observations décrites par p attributs mesurés sur chacune des
observations.
Observations collectées lors d’une même expérience, ne sont pas
toutes issues de la même population homogène, mais plutôt de K
populations:
1 Caractériser les K groupes
2 Affecter chaque observation à un groupe

Segmentation
Situation du problème
Situation
Donnée non étiquetée
Regroupement des données similaires
Apprentissage non supervisé
Trouver le nombre de groupe est NP-Complet
Deux catégories::
1 Segmentation - méthode descendante
2 Classification hiérarchique ascendante - méthode ascendante.

Segmentation
similarités
fonction s qui à tout couple (x1 , x2 ) associe une valeur dans R+,
et telle que:
s(x1 , x2 ) = s(x2 , x1 ) ≥ 0,
s(x1 , x2 ) = 0 ⇒ x1 = x2 .
Plus les observations se ressemblent, plus le score est élevé.

Segmentation
Centres mobiles K-means
Algorithme EM
Segmentation
l’ensemble de données X en K groupes

SK non hiérarchisés que l’on
notera G1 , G2 , ... GK . On a : X = i=1 Gi
Centre de gravité
Soit X un ensemble de donnée, chacune décrite par P attributs.
On nomme ”centre de gravité” g de X une donnée synthétique
dont chaque attribut est égal à la moyenne de cet attribut dans X .
Soit, g = (a¯1 , a¯2 , ..., a¯P ).

Segmentation
Algorithme EM
Inertie
PN 2 (x
L’inertie d’un ensemble X de N données : I = i=1 d i, g)
g est le centre de gravité de X .

Inertie intraclasse
IW = K
P
i=1 wi Ii
Inertie interclasse
IB = i=1 wi d 2 (gi , g )
P
Théorème de Huygens
I = IW + IB

Segmentation
Algorithme EM
algorithme des centres mobiles
Idée:
segmenter les données en k groupes, k étant fixé a priori
Associer chaque exemple au centre le plus proche
Remarques:
La segmentation obtenue dépend des centres initiaux
Il n’existe pas un moyen pour déterminer le nombre de
groupes k

Segmentation
Algorithme EM
algorithme des centres mobiles
Algorithm 1 Algorithmes des centres mobiles

Require: jeu de données X , nombre de groupes K ∈ N
Ensure: k groupes.
1: I ←− ∞
2: prendre K centres arbitraires ck ∈ D
3: repeat
4: Initialiser tous les k groupes au vide Gk ←− {} ;
5: for i ∈ {1, ..., N} do
6: k ∗ ←− argmink∈{1,...,K } d(xi ; ck ) Gk ∗ ←− Gk ∗ ∪ {xi }
7: end for
8: Recalculer les centres : ck ←− centre de gravité de Gk
9: I ←− IW
10: calculer IW
11: until I − IW < seuil
Segmentation
Algorithme EM
Mixture
rechercher un modèle statistique (une mixture) qui décrive au

mieux le jeu de données à segmenter et associer chaque donnée à
chaque segment une certaine probabilité.
mixture
ensemble de K distributions de probabilité.
chaque distribution de probabilité décrit la distribution des valeurs

d’attributs pour un groupe de la segmentation. K est le nombre de
segments.

Segmentation
Algorithme EM
EM
P mixture de K distributions est {(wi , θi ), i ∈ {1, ..., K }} avec

Une
wi = 1 et wi ≥ 0
avec wi le poids de la distribution (poids de la mixture) et θi les
paramètres de la distributions.
Fixer K et la forme de la distribution, puis chercher θ et W .

Segmentation
Deux méthodes:
1 Ascendante: construit une partition à N − 1 classes par fusion
de deux groupes, puis N − 2 groupes par fusion de deux
groupes, ... jusqu’à avoir rassemblé tous les points dans un
seul groupe ;
2 Descendante: rassemble initialement les N points dans un seul
groupe à partir duquel on construit 2 groupes, puis 3, ... puis
N

Segmentation
Classification ascendante
Algorithm 2 Classification hiérarchique

Require: Le jeu de données X
Ensure: les classes de X .
1: initialiser les N groupes à raison d’une donnée par groupe :
Gi ←− xi
2: marquer tous les Gi comme ”prenable”
3: for d de N + 1 à 2N − 1 do
4: chercher les deux groupes prenables à fusionner : Gi et Gj
5: les fusionner : Gd ←− Gi ∩ Gj
6: marquer Gi et Gj comme ”non prenable”
7: marquer Gd comme ”prenable”
8: end for

Segmentation
Méthode ascendante
1 saut minimal: fusion de deux groupes entre lesquels la plus

petite dissimilarité est minimale;
2 saut maximal: fusion de deux groupes entre lesquels la plus
grande dissimilarité est la plus petite;
3 saut moyen: fusion de deux groupes entre lesquels la
dissimilarité moyenne (donc, la dissimilarité entre leurs centres
de gravité) est la plus petite;
4 méthode de Ward : fusion de deux groupes pour lesquels la
perte d’inertie interclasse est la plus faible.

Segmentation
La méthode de Ward
perte d’inertie due à la fusion de deux groupes Gi et Gj :

wi wj 2
δ(Gi ; Gj ) = wi +wj d (gi ; gj )
où wi et wj sont respectivement la proportion de données s dans le

groupe Gi ( kGi k/N ) et dans le groupe Gj et gi (resp. gj ) est le
centre de gravité de Gi (resp. Gj ). On peut utiliser cette quantité
en guise de dissimilarité entre deux groupes.
Quand on a fusionné deux groupes Gi et Gj , la dissimilarité entre
ce regroupement et un autre groupe Gk peut se calculer par
l’équation suivante :
(wi +wk )δ(Gi ,Gk )+(wj +wk )δ(Gj ,Gk )+wk δ(Gi ,Gj )
δ(Gk , Gi ∩ Gj ) = wi +wj +wk

Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation
1 Segmentation
Algorithme EM
2 Classification hiérarchique
3 Analyse en Composantes Principales - ACP

Problème
Présentation
ACP formelle
Exemple
Interprétation

Problème
Interprétation
Situation du problème
On dispose de n individus décrits par p variables xi .

Objectifs:
les relations entre les modalités des variables
les variables qui décrivent au mieux les individus
relations entre les modalités et les individus
Visualiser les données
Réduction de dimensions
Compression

Problème
Interprétation
But: résumer les variations d’un champs de représentations dans

une population donnée.
1 Passer d’un ensemble de variables corrélées à un ensemble de
variables non corrélées.
2 effectuer une projection des données depuis leur espace
d’origine dans un espace généeralement planaire.
3 visualiser ensuite cette projection afin de mieux comprendre
les données, éventuellement d’en extraire une segmentation
4 réduction de dimensionnalité
Trouver les variables abstraites (en plus petit

nombre) reproduisant de la façon la moins déformée
possible la variabilité observée.
Idéal: q = 2
Problème
Interprétation
Présentation de l’ACP
disposer d’un ensemble X de N donnéees,

décrites par P attributs.
données = points dans un espace euclidien à P dimensions,
objectif de l’ACP :
construire l’espace euclidien à moins de P dimensions le plus
caractéristique et le plus économique pour représenter ces
points.
passer de l’espace des données à un espace de caractéristiques
(feature space) ou espace factoriel.
transformer l’espace initial (des données) dans un espace à P
dimensions de manière à ce que la variance observée dans chacune
de ces nouvelles dimensions soit décroissante.
Problème
Interprétation
ensemble de points dans un espace ayant moins de dimensions

entraı̂ne la distance entre les points ne peut que diminuer
chercher le plan dans lequel la distance entre les points
projetés demeurent, en moyenne, maximale – plan principal;
En général, on définit P droites orthogonales les unes aux
autres qui permettent de définir un repère orthonormal – P
axes principaux d’un repère dans lequel sont situés les
individus de manière à les décrire de la facon la plus concise;
l’objectif est que les coordonnées d’un individu (en moyenne)
soient la plupart presque nulle et que seules quelques
coordonnées aient une valeur importante.
Les coordonnées d’un individu dans ce nouveau repère s’expriment
par rapport à de nouveaux caractères appelés ses ”composantes
principales”
Problème
Interprétation
ACP
Notons zj∈{1,...,P} les composantes principales, zi,j dénotant le j e

caractère principal de l’individu i.
une relation reliant les attributs originaux aux attributs
synthétiques : zj = uj,1 a1 + uj,2 a2 + ... + uj,P aP .
Les coefficients (uj,1 ; uj,2 ; ...; uj,P ) forment le j e ”facteur
princial”.
La meilleure représentation des données au moyen de q < P
caractères s’obtient en ne prenant en compte que les q premières
composantes principales.

Problème
Interprétation
ACP - formelle
X = matrice des données, N lignes, P colonnes
V = matrice de covariance
 V = 
var (a1 ) covar (a1 , a2 ) covar (a1 , a3 ) ... covar (a1 , aP )
 covar (a2 , a1 ) var (a2 ) covar (a2 , a3 ) ... covar (a2 , aP )
 
 .... 
covar (aP , a1 ) covar (aP , a2 ) covar (aP , a3 ) ... var (aP )
R = matrice de corrélation, symétrique car r (aj , ak ) = r (ak , aj )

 
1 r (a1 , a2 ) r (a1 , a3 ) ... r (a1 , aP )
 1 r (a2 , a3 ) ... r (a2 , aP )
R= ....


... 1

Problème
Interprétation
On a:
Pour des données centrées et réduits, R = V .
1 T
R= PX X, X T = transposée de X .
La matrice de corrélation permet de repérer les caractères
fortement corrélés et les caractères qui ne le sont pas.
Le calcul des valeurs propres et des vecteurs propres de R fournit
alors toutes les informations recherchées. Notons λi∈{1,...,P} les P
valeurs propres de R ordonnées de manière décroissante :
λ1 ≥ λ2 ≥ ... ≥ λP , et leurs P vecteurs propres associés
→
V i∈{1,...,P}

Problème
Interprétation
l’axe principal est celui associé à la valeur propre la plus grande;

donc, les q axes principaux sont les droites dont les vecteurs
unitaires sont les vecteurs propres associés aux q valeurs propres
les plus grandes
On obtient alors les coordonnées principales des individus en les
projetant dans cet espace, c’est-à-dire en faisant le produit scalaire
des coordonnées (centrées réduites) d’un individu par chacun des P
vecteurs propres

Problème
Interprétation
ACP - Etapes
Les étapes de l’ACP sont:

1 Centrage - réduction des données de départ (optionnel)
2 Calculer la matrice de corrélations
3 Calculer la matrice des variances-covariances
4 Calculer les valeurs propres λi , les ordonner décroissantes et
des vecteurs propres de la matrice de variances - covariances
5 Calculer les coordonnées des individus sur les nouveaux axes
6 Calculer les corrélations des variables (attributs) - Facteurs
Sommes des variances = sommes des valeurs propres
Valeurs propres = facteurs

Problème
Interprétation
Précautions
Prétraitement des données:
Centrer et reduire: Zi = Xiσ−2X̄
Eviter les problèmes liés à l’unité de mesure
Matrice de corrélation R égale à la matrice de
variance-covariance V .
Individu Poids Taille Age Note
x1 45 1,5 13 14
x2 50 1,6 13 16
x3 50 1,65 13 15
x4 60 1,75 15 9
x5 60 1,7 14 10
x6 60 1,7 14 7
x7 70 1,6 14 8
x8 65 1,6 13 13
x9 60 1,55 15 17
x10 65 1,7 14 11
Problème
Interprétation
Valeurs propres - vecteurs propres
Les vecteurs propres sont des coefficients à affecter aux

variables initiales pour obtenir les composantes principales.
Les deux premières colonnes de la matrice de corrélations
variables - Facteurs permettent de réaliser le graphique des
variables, donner un sens aux facteurs.
Interprétation:
Si un facteur est fortement corrélé positivement avec une
variable alors, plus la valeur d’un individu pour la variable sera
élevée, plus son score sera aussi élevé sur l’axe du facteur.
Réciproquement, Si le facteur et une variable sont fortement
corrélés négativement alors, plus la valeur de cette variable est
élevée pour un individu, plus son score sera bas sur l’axe du
facteur.
Problème
Interprétation
Exemple
Individu Poids Taille Age Note

x1 45 1,5 13 14
x2 50 1,6 13 16
x3 50 1,65 13 15
x4 60 1,75 15 9
x5 60 1,7 14 10
x6 60 1,7 14 7
x7 70 1,6 14 8
x8 65 1,6 13 13
x9 60 1,55 15 17
x10 65 1,7 14 11
Table: Exemple de données
calculer la distance entre x4 , x5 et x6 , puis exprimer la taille en cm

et recalculer.
Problème
Interprétation
Exemple
Calcul de la matrice de corrélation

 
Poids Taille Age Note
Poids
 1 0, 367 0, 485 −0, 568

R = Taille 0, 367
 1 0, 396 −0, 629

 Age 0, 485 0, 396 1 −0, 322
Note −0, 568 −0, 629 −0, 322 1
Valeurs propres et vecteurs propres
λ1 = 2, 391; V1 = (0, 5080; 0, 5038; 0, 4453; −0 : 5383)
λ2 = 0, 750; V2 = (0, 3065; −0, 4641; 0, 7058; 0, 4381)
λ3 = 0, 584; V3 = (−0, 6593; 0, 5253; 0, 4712; 0, 2593)
λ4 = 0, 274; V4 = (−0, 4619; −0, 5042; 0, 2855; −0, 6715)

Problème
Interprétation
Exemple
Calcul des coordonnées des individus dans le nouveau repère: pour

chaque coordonnée, faire Xi × Vi
Par pour la donnée X1
 
(x1,1 , x1,2 , x1,3 , x1,4 ) × V1
(x1,1 , x1,2 , x1,3 , x1,4 ) × V2 
 
(x1,1 , x1,2 , x1,3 , x1,4 ) × V3 
(x1,1 , x1,2 , x1,3 , x1,4 ) × V4
On obtient alors (−2, 64; −0, 20, −0, 10, 1, 04)

Problème
Interprétation
Axes principaux
Valeur propre nulle⇔ les attributs non linéairement

indépendants vecteurs propres sont unitaires et orthogonaux
deux à deux.
Les q axes principaux recherchés sont les q vecteurs propres
associés aux q valeurs propres les plus importantes.
Les coordonnées principales s’obtiennent en faisant la
projection des individu dans cet espace (produit scalaire)
Composante principale (score) zj pour le j e caractère d’un
individu i:
zj = uj,1 a1 + uj,2 a2 + ... + uj,p ap
P
où le vecteur propre vj = ~uj,k
Inertie associée à la valeur propre : Ii = λpi

Problème
Interprétation
Axes principaux
Choix des axes:

1 Critère de Kaiser: axes pour lesquels la valeur propre est
supérieure à 1
2 Critère de Cottel: calcul de i = λi − λi+1 puis δi = i − i+1 ,
retenir les λi tant que δ > 0

Problème
Interprétation
Interprétation
Attention: Les données sont supposées centrées réduites.

Contributions des individus
(Score de Si selon CPk )2
CTR(Si , Cpi ) = nλk
Qualité de la représentation de i par CPk

(Score de Si selon CPk )2
QLT (Si , CPk ) == P 2
l (score de Si selon CPl )

Problème
Interprétation
Interprétation
Saturation des variables

coefficient de corrélation entre les variables centrées réduites de
départ et les variables factorielles:
SAT (Zj , CPk ) = ρ(Zj , CPk )
Contribution des variables

Saturation de Zj selon CPk
CTR(Zj , CPk ) = λk
Qualité de représentation des variables

QLT (Zi , CPk ) = (Saturation deZi selon CPk )2 )

Segmentation Slide

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Segmentation Slide

Transféré par

Droits d'auteur :

Formats disponibles

Segmentation

Classification non supervisée

Département d’Informatique - Université de Yaoundé I

March 24, 2015

N. TSOPZE Classification non supervisée

Classification non supervisée

N. TSOPZE Classification non supervisée

N. TSOPZE Classification non supervisée

N. TSOPZE Classification non supervisée

l’ensemble de données X en K groupes

N. TSOPZE Classification non supervisée

g est le centre de gravité de X .

N. TSOPZE Classification non supervisée

algorithme des centres mobiles

N. TSOPZE Classification non supervisée

algorithme des centres mobiles

Algorithm 1 Algorithmes des centres mobiles

rechercher un modèle statistique (une mixture) qui décrive au

chaque distribution de probabilité décrit la distribution des valeurs

N. TSOPZE Classification non supervisée

P mixture de K distributions est {(wi , θi ), i ∈ {1, ..., K }} avec

N. TSOPZE Classification non supervisée

N. TSOPZE Classification non supervisée

Algorithm 2 Classification hiérarchique

N. TSOPZE Classification non supervisée

1 saut minimal: fusion de deux groupes entre lesquels la plus

N. TSOPZE Classification non supervisée

perte d’inertie due à la fusion de deux groupes Gi et Gj :

où wi et wj sont respectivement la proportion de données s dans le

N. TSOPZE Classification non supervisée

3 Analyse en Composantes Principales - ACP

N. TSOPZE Classification non supervisée

On dispose de n individus décrits par p variables xi .

N. TSOPZE Classification non supervisée

But: résumer les variations d’un champs de représentations dans

Trouver les variables abstraites (en plus petit

disposer d’un ensemble X de N donnéees,

ensemble de points dans un espace ayant moins de dimensions

Notons zj∈{1,...,P} les composantes principales, zi,j dénotant le j e

N. TSOPZE Classification non supervisée

R = matrice de corrélation, symétrique car r (aj , ak ) = r (ak , aj )

N. TSOPZE Classification non supervisée

N. TSOPZE Classification non supervisée

l’axe principal est celui associé à la valeur propre la plus grande;

N. TSOPZE Classification non supervisée

Les étapes de l’ACP sont:

N. TSOPZE Classification non supervisée

Valeurs propres - vecteurs propres

Les vecteurs propres sont des coefficients à affecter aux

Individu Poids Taille Age Note

Table: Exemple de données

calculer la distance entre x4 , x5 et x6 , puis exprimer la taille en cm

Calcul de la matrice de corrélation

N. TSOPZE Classification non supervisée

Calcul des coordonnées des individus dans le nouveau repère: pour

On obtient alors (−2, 64; −0, 20, −0, 10, 1, 04)

N. TSOPZE Classification non supervisée

Valeur propre nulle⇔ les attributs non linéairement

N. TSOPZE Classification non supervisée

Choix des axes:

N. TSOPZE Classification non supervisée

Attention: Les données sont supposées centrées réduites.

Qualité de la représentation de i par CPk