Académique Documents
Professionnel Documents
Culture Documents
Classification hiérarchique
Analyse en Composantes Principales - ACP
N. TSOPZE
Définition
Ensemble de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de n
observations décrites par p attributs mesurés sur chacune des
observations.
Observations collectées lors d’une même expérience, ne sont pas
toutes issues de la même population homogène, mais plutôt de K
populations:
1 Caractériser les K groupes
2 Affecter chaque observation à un groupe
Situation du problème
Situation
Donnée non étiquetée
Regroupement des données similaires
Apprentissage non supervisé
Trouver le nombre de groupe est NP-Complet
Deux catégories::
1 Segmentation - méthode descendante
2 Classification hiérarchique ascendante - méthode ascendante.
similarités
fonction s qui à tout couple (x1 , x2 ) associe une valeur dans R+,
et telle que:
s(x1 , x2 ) = s(x2 , x1 ) ≥ 0,
s(x1 , x2 ) = 0 ⇒ x1 = x2 .
Plus les observations se ressemblent, plus le score est élevé.
Segmentation
Inertie
PN 2 (x
L’inertie d’un ensemble X de N données : I = i=1 d i, g)
Inertie interclasse
IB = i=1 wi d 2 (gi , g )
P
Théorème de Huygens
I = IW + IB
Idée:
segmenter les données en k groupes, k étant fixé a priori
Associer chaque exemple au centre le plus proche
Remarques:
La segmentation obtenue dépend des centres initiaux
Il n’existe pas un moyen pour déterminer le nombre de
groupes k
Mixture
EM
Classification hiérarchique
Deux méthodes:
1 Ascendante: construit une partition à N − 1 classes par fusion
de deux groupes, puis N − 2 groupes par fusion de deux
groupes, ... jusqu’à avoir rassemblé tous les points dans un
seul groupe ;
2 Descendante: rassemble initialement les N points dans un seul
groupe à partir duquel on construit 2 groupes, puis 3, ... puis
N
Classification ascendante
Méthode ascendante
La méthode de Ward
1 Segmentation
Centres mobiles K-means
Algorithme EM
2 Classification hiérarchique
Situation du problème
Idéal: q = 2
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation
Présentation de l’ACP
ACP
ACP - formelle
X = matrice des données, N lignes, P colonnes
V = matrice de covariance
V =
var (a1 ) covar (a1 , a2 ) covar (a1 , a3 ) ... covar (a1 , aP )
covar (a2 , a1 ) var (a2 ) covar (a2 , a3 ) ... covar (a2 , aP )
....
covar (aP , a1 ) covar (aP , a2 ) covar (aP , a3 ) ... var (aP )
On a:
Pour des données centrées et réduits, R = V .
1 T
R= PX X, X T = transposée de X .
La matrice de corrélation permet de repérer les caractères
fortement corrélés et les caractères qui ne le sont pas.
Le calcul des valeurs propres et des vecteurs propres de R fournit
alors toutes les informations recherchées. Notons λi∈{1,...,P} les P
valeurs propres de R ordonnées de manière décroissante :
λ1 ≥ λ2 ≥ ... ≥ λP , et leurs P vecteurs propres associés
→
V i∈{1,...,P}
ACP - Etapes
Précautions
Prétraitement des données:
Centrer et reduire: Zi = Xiσ−2X̄
Eviter les problèmes liés à l’unité de mesure
Matrice de corrélation R égale à la matrice de
variance-covariance V .
Individu Poids Taille Age Note
x1 45 1,5 13 14
x2 50 1,6 13 16
x3 50 1,65 13 15
x4 60 1,75 15 9
x5 60 1,7 14 10
x6 60 1,7 14 7
x7 70 1,6 14 8
x8 65 1,6 13 13
x9 60 1,55 15 17
x10 65 1,7 14 11
N. TSOPZE Classification non supervisée
Problème
Segmentation Présentation
Classification hiérarchique ACP formelle
Analyse en Composantes Principales - ACP Exemple
Interprétation
Exemple
Exemple
Exemple
Axes principaux
Axes principaux
Interprétation
Interprétation