Vous êtes sur la page 1sur 33

Segmentation

Classification hiérarchique
Analyse en Composantes Principales - ACP

Classification non supervisée

N. TSOPZE

Département d’Informatique - Université de Yaoundé I

March 24, 2015

N. TSOPZE Classification non supervisée


Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP

Classification non supervisée

Définition
Ensemble de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de n
observations décrites par p attributs mesurés sur chacune des
observations.
Observations collectées lors d’une même expérience, ne sont pas
toutes issues de la même population homogène, mais plutôt de K
populations:
1 Caractériser les K groupes
2 Affecter chaque observation à un groupe

N. TSOPZE Classification non supervisée


Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP

Situation du problème

Situation
Donnée non étiquetée
Regroupement des données similaires
Apprentissage non supervisé
Trouver le nombre de groupe est NP-Complet
Deux catégories::
1 Segmentation - méthode descendante
2 Classification hiérarchique ascendante - méthode ascendante.

N. TSOPZE Classification non supervisée


Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP

similarités

fonction s qui à tout couple (x1 , x2 ) associe une valeur dans R+,
et telle que:
s(x1 , x2 ) = s(x2 , x1 ) ≥ 0,
s(x1 , x2 ) = 0 ⇒ x1 = x2 .
Plus les observations se ressemblent, plus le score est élevé.

N. TSOPZE Classification non supervisée


Segmentation
Centres mobiles K-means
Classification hiérarchique
Algorithme EM
Analyse en Composantes Principales - ACP

Segmentation

l’ensemble de données X en K groupes


SK non hiérarchisés que l’on
notera G1 , G2 , ... GK . On a : X = i=1 Gi
Centre de gravité
Soit X un ensemble de donnée, chacune décrite par P attributs.
On nomme ”centre de gravité” g de X une donnée synthétique
dont chaque attribut est égal à la moyenne de cet attribut dans X .
Soit, g = (a¯1 , a¯2 , ..., a¯P ).

N. TSOPZE Classification non supervisée


Segmentation
Centres mobiles K-means
Classification hiérarchique
Algorithme EM
Analyse en Composantes Principales - ACP

Inertie
PN 2 (x
L’inertie d’un ensemble X de N données : I = i=1 d i, g)

g est le centre de gravité de X .


Inertie intraclasse
IW = K
P
i=1 wi Ii

Inertie interclasse
IB = i=1 wi d 2 (gi , g )
P

Théorème de Huygens
I = IW + IB

N. TSOPZE Classification non supervisée


Segmentation
Centres mobiles K-means
Classification hiérarchique
Algorithme EM
Analyse en Composantes Principales - ACP

algorithme des centres mobiles

Idée:
segmenter les données en k groupes, k étant fixé a priori
Associer chaque exemple au centre le plus proche
Remarques:
La segmentation obtenue dépend des centres initiaux
Il n’existe pas un moyen pour déterminer le nombre de
groupes k

N. TSOPZE Classification non supervisée


Segmentation
Centres mobiles K-means
Classification hiérarchique
Algorithme EM
Analyse en Composantes Principales - ACP

algorithme des centres mobiles

Algorithm 1 Algorithmes des centres mobiles


Require: jeu de données X , nombre de groupes K ∈ N
Ensure: k groupes.
1: I ←− ∞
2: prendre K centres arbitraires ck ∈ D
3: repeat
4: Initialiser tous les k groupes au vide Gk ←− {} ;
5: for i ∈ {1, ..., N} do
6: k ∗ ←− argmink∈{1,...,K } d(xi ; ck ) Gk ∗ ←− Gk ∗ ∪ {xi }
7: end for
8: Recalculer les centres : ck ←− centre de gravité de Gk
9: I ←− IW
10: calculer IW
11: until I − IW < seuil
N. TSOPZE Classification non supervisée
Segmentation
Centres mobiles K-means
Classification hiérarchique
Algorithme EM
Analyse en Composantes Principales - ACP

Mixture

rechercher un modèle statistique (une mixture) qui décrive au


mieux le jeu de données à segmenter et associer chaque donnée à
chaque segment une certaine probabilité.
mixture
ensemble de K distributions de probabilité.

chaque distribution de probabilité décrit la distribution des valeurs


d’attributs pour un groupe de la segmentation. K est le nombre de
segments.

N. TSOPZE Classification non supervisée


Segmentation
Centres mobiles K-means
Classification hiérarchique
Algorithme EM
Analyse en Composantes Principales - ACP

EM

P mixture de K distributions est {(wi , θi ), i ∈ {1, ..., K }} avec


Une
wi = 1 et wi ≥ 0
avec wi le poids de la distribution (poids de la mixture) et θi les
paramètres de la distributions.
Fixer K et la forme de la distribution, puis chercher θ et W .

N. TSOPZE Classification non supervisée


Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP

Classification hiérarchique

Deux méthodes:
1 Ascendante: construit une partition à N − 1 classes par fusion
de deux groupes, puis N − 2 groupes par fusion de deux
groupes, ... jusqu’à avoir rassemblé tous les points dans un
seul groupe ;
2 Descendante: rassemble initialement les N points dans un seul
groupe à partir duquel on construit 2 groupes, puis 3, ... puis
N

N. TSOPZE Classification non supervisée


Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP

Classification ascendante

Algorithm 2 Classification hiérarchique


Require: Le jeu de données X
Ensure: les classes de X .
1: initialiser les N groupes à raison d’une donnée par groupe :
Gi ←− xi
2: marquer tous les Gi comme ”prenable”
3: for d de N + 1 à 2N − 1 do
4: chercher les deux groupes prenables à fusionner : Gi et Gj
5: les fusionner : Gd ←− Gi ∩ Gj
6: marquer Gi et Gj comme ”non prenable”
7: marquer Gd comme ”prenable”
8: end for

N. TSOPZE Classification non supervisée


Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP

Méthode ascendante

1 saut minimal: fusion de deux groupes entre lesquels la plus


petite dissimilarité est minimale;
2 saut maximal: fusion de deux groupes entre lesquels la plus
grande dissimilarité est la plus petite;
3 saut moyen: fusion de deux groupes entre lesquels la
dissimilarité moyenne (donc, la dissimilarité entre leurs centres
de gravité) est la plus petite;
4 méthode de Ward : fusion de deux groupes pour lesquels la
perte d’inertie interclasse est la plus faible.

N. TSOPZE Classification non supervisée


Segmentation
Classification hiérarchique
Analyse en Composantes Principales - ACP

La méthode de Ward

perte d’inertie due à la fusion de deux groupes Gi et Gj :


wi wj 2
δ(Gi ; Gj ) = wi +wj d (gi ; gj )

où wi et wj sont respectivement la proportion de données s dans le


groupe Gi ( kGi k/N ) et dans le groupe Gj et gi (resp. gj ) est le
centre de gravité de Gi (resp. Gj ). On peut utiliser cette quantité
en guise de dissimilarité entre deux groupes.
Quand on a fusionné deux groupes Gi et Gj , la dissimilarité entre
ce regroupement et un autre groupe Gk peut se calculer par
l’équation suivante :
(wi +wk )δ(Gi ,Gk )+(wj +wk )δ(Gj ,Gk )+wk δ(Gi ,Gj )
δ(Gk , Gi ∩ Gj ) = wi +wj +wk

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

1 Segmentation
Centres mobiles K-means
Algorithme EM

2 Classification hiérarchique

3 Analyse en Composantes Principales - ACP


Problème
Présentation
ACP formelle
Exemple
Interprétation

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Situation du problème

On dispose de n individus décrits par p variables xi .


Objectifs:
les relations entre les modalités des variables
les variables qui décrivent au mieux les individus
relations entre les modalités et les individus
Visualiser les données
Réduction de dimensions
Compression

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

But: résumer les variations d’un champs de représentations dans


une population donnée.
1 Passer d’un ensemble de variables corrélées à un ensemble de
variables non corrélées.
2 effectuer une projection des données depuis leur espace
d’origine dans un espace généeralement planaire.
3 visualiser ensuite cette projection afin de mieux comprendre
les données, éventuellement d’en extraire une segmentation
4 réduction de dimensionnalité

Trouver les variables abstraites (en plus petit


nombre) reproduisant de la façon la moins déformée
possible la variabilité observée.

Idéal: q = 2
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Présentation de l’ACP

disposer d’un ensemble X de N donnéees,


décrites par P attributs.
données = points dans un espace euclidien à P dimensions,
objectif de l’ACP :
construire l’espace euclidien à moins de P dimensions le plus
caractéristique et le plus économique pour représenter ces
points.
passer de l’espace des données à un espace de caractéristiques
(feature space) ou espace factoriel.
transformer l’espace initial (des données) dans un espace à P
dimensions de manière à ce que la variance observée dans chacune
de ces nouvelles dimensions soit décroissante.
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

ensemble de points dans un espace ayant moins de dimensions


entraı̂ne la distance entre les points ne peut que diminuer
chercher le plan dans lequel la distance entre les points
projetés demeurent, en moyenne, maximale – plan principal;
En général, on définit P droites orthogonales les unes aux
autres qui permettent de définir un repère orthonormal – P
axes principaux d’un repère dans lequel sont situés les
individus de manière à les décrire de la facon la plus concise;
l’objectif est que les coordonnées d’un individu (en moyenne)
soient la plupart presque nulle et que seules quelques
coordonnées aient une valeur importante.
Les coordonnées d’un individu dans ce nouveau repère s’expriment
par rapport à de nouveaux caractères appelés ses ”composantes
principales”
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

ACP

Notons zj∈{1,...,P} les composantes principales, zi,j dénotant le j e


caractère principal de l’individu i.
une relation reliant les attributs originaux aux attributs
synthétiques : zj = uj,1 a1 + uj,2 a2 + ... + uj,P aP .
Les coefficients (uj,1 ; uj,2 ; ...; uj,P ) forment le j e ”facteur
princial”.
La meilleure représentation des données au moyen de q < P
caractères s’obtient en ne prenant en compte que les q premières
composantes principales.

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

ACP - formelle
X = matrice des données, N lignes, P colonnes
V = matrice de covariance

 V = 
var (a1 ) covar (a1 , a2 ) covar (a1 , a3 ) ... covar (a1 , aP )
 covar (a2 , a1 ) var (a2 ) covar (a2 , a3 ) ... covar (a2 , aP )
 
 .... 
covar (aP , a1 ) covar (aP , a2 ) covar (aP , a3 ) ... var (aP )

R = matrice de corrélation, symétrique car r (aj , ak ) = r (ak , aj )


 
1 r (a1 , a2 ) r (a1 , a3 ) ... r (a1 , aP )
 1 r (a2 , a3 ) ... r (a2 , aP )
R= ....


... 1

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

On a:
Pour des données centrées et réduits, R = V .
1 T
R= PX X, X T = transposée de X .
La matrice de corrélation permet de repérer les caractères
fortement corrélés et les caractères qui ne le sont pas.
Le calcul des valeurs propres et des vecteurs propres de R fournit
alors toutes les informations recherchées. Notons λi∈{1,...,P} les P
valeurs propres de R ordonnées de manière décroissante :
λ1 ≥ λ2 ≥ ... ≥ λP , et leurs P vecteurs propres associés

V i∈{1,...,P}

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

l’axe principal est celui associé à la valeur propre la plus grande;


donc, les q axes principaux sont les droites dont les vecteurs
unitaires sont les vecteurs propres associés aux q valeurs propres
les plus grandes
On obtient alors les coordonnées principales des individus en les
projetant dans cet espace, c’est-à-dire en faisant le produit scalaire
des coordonnées (centrées réduites) d’un individu par chacun des P
vecteurs propres

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

ACP - Etapes

Les étapes de l’ACP sont:


1 Centrage - réduction des données de départ (optionnel)
2 Calculer la matrice de corrélations
3 Calculer la matrice des variances-covariances
4 Calculer les valeurs propres λi , les ordonner décroissantes et
des vecteurs propres de la matrice de variances - covariances
5 Calculer les coordonnées des individus sur les nouveaux axes
6 Calculer les corrélations des variables (attributs) - Facteurs
Sommes des variances = sommes des valeurs propres
Valeurs propres = facteurs

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Précautions
Prétraitement des données:
Centrer et reduire: Zi = Xiσ−2X̄
Eviter les problèmes liés à l’unité de mesure
Matrice de corrélation R égale à la matrice de
variance-covariance V .
Individu Poids Taille Age Note
x1 45 1,5 13 14
x2 50 1,6 13 16
x3 50 1,65 13 15
x4 60 1,75 15 9
x5 60 1,7 14 10
x6 60 1,7 14 7
x7 70 1,6 14 8
x8 65 1,6 13 13
x9 60 1,55 15 17
x10 65 1,7 14 11
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Valeurs propres - vecteurs propres

Les vecteurs propres sont des coefficients à affecter aux


variables initiales pour obtenir les composantes principales.
Les deux premières colonnes de la matrice de corrélations
variables - Facteurs permettent de réaliser le graphique des
variables, donner un sens aux facteurs.
Interprétation:
Si un facteur est fortement corrélé positivement avec une
variable alors, plus la valeur d’un individu pour la variable sera
élevée, plus son score sera aussi élevé sur l’axe du facteur.
Réciproquement, Si le facteur et une variable sont fortement
corrélés négativement alors, plus la valeur de cette variable est
élevée pour un individu, plus son score sera bas sur l’axe du
facteur.
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Exemple

Individu Poids Taille Age Note


x1 45 1,5 13 14
x2 50 1,6 13 16
x3 50 1,65 13 15
x4 60 1,75 15 9
x5 60 1,7 14 10
x6 60 1,7 14 7
x7 70 1,6 14 8
x8 65 1,6 13 13
x9 60 1,55 15 17
x10 65 1,7 14 11

Table: Exemple de données

calculer la distance entre x4 , x5 et x6 , puis exprimer la taille en cm


et recalculer.
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Exemple

Calcul de la matrice de corrélation


 
Poids Taille Age Note
Poids
 1 0, 367 0, 485 −0, 568

R = Taille 0, 367
 1 0, 396 −0, 629

 Age 0, 485 0, 396 1 −0, 322
Note −0, 568 −0, 629 −0, 322 1
Valeurs propres et vecteurs propres
λ1 = 2, 391; V1 = (0, 5080; 0, 5038; 0, 4453; −0 : 5383)
λ2 = 0, 750; V2 = (0, 3065; −0, 4641; 0, 7058; 0, 4381)
λ3 = 0, 584; V3 = (−0, 6593; 0, 5253; 0, 4712; 0, 2593)
λ4 = 0, 274; V4 = (−0, 4619; −0, 5042; 0, 2855; −0, 6715)

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Exemple

Calcul des coordonnées des individus dans le nouveau repère: pour


chaque coordonnée, faire Xi × Vi
Par pour la donnée X1
 
(x1,1 , x1,2 , x1,3 , x1,4 ) × V1
(x1,1 , x1,2 , x1,3 , x1,4 ) × V2 
 
(x1,1 , x1,2 , x1,3 , x1,4 ) × V3 
(x1,1 , x1,2 , x1,3 , x1,4 ) × V4

On obtient alors (−2, 64; −0, 20, −0, 10, 1, 04)

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Axes principaux

Valeur propre nulle⇔ les attributs non linéairement


indépendants vecteurs propres sont unitaires et orthogonaux
deux à deux.
Les q axes principaux recherchés sont les q vecteurs propres
associés aux q valeurs propres les plus importantes.
Les coordonnées principales s’obtiennent en faisant la
projection des individu dans cet espace (produit scalaire)
Composante principale (score) zj pour le j e caractère d’un
individu i:
zj = uj,1 a1 + uj,2 a2 + ... + uj,p ap
P
où le vecteur propre vj = ~uj,k
Inertie associée à la valeur propre : Ii = λpi

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Axes principaux

Choix des axes:


1 Critère de Kaiser: axes pour lesquels la valeur propre est
supérieure à 1
2 Critère de Cottel: calcul de i = λi − λi+1 puis δi = i − i+1 ,
retenir les λi tant que δ > 0

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Interprétation

Attention: Les données sont supposées centrées réduites.


Contributions des individus
(Score de Si selon CPk )2
CTR(Si , Cpi ) = nλk

Qualité de la représentation de i par CPk


(Score de Si selon CPk )2
QLT (Si , CPk ) == P 2
l (score de Si selon CPl )

N. TSOPZE Classification non supervisée


Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation

Interprétation

Saturation des variables


coefficient de corrélation entre les variables centrées réduites de
départ et les variables factorielles:
SAT (Zj , CPk ) = ρ(Zj , CPk )

Contribution des variables


Saturation de Zj selon CPk
CTR(Zj , CPk ) = λk

Qualité de représentation des variables


QLT (Zi , CPk ) = (Saturation deZi selon CPk )2 )

N. TSOPZE Classification non supervisée

Vous aimerez peut-être aussi