Vous êtes sur la page 1sur 16

ANALYSE DE DONNEES

MUTLIDIMENSIONNELLES II
(ADD 2)
Ismaila DIALLO
Ingénieur Statisticien Economiste (ISE)
PLAN DU COURS
LES METHODES DE CLASSIFICATION
I- CLASSIFICATION HIERARCHIQUE
» Classification Ascendante Hiérarchique (CAH)
» Les méthodes de classification Descendante
» Méthode de Williams-Lambert
» Les méthodes de Segmentation : ELISEE ; AID
II- LES METHODES DE PARTITIONNEMENT
» Les centres mobiles
» Les K-means de McQueen
» Les nuées dynamiques
III- LA CLASSIFICATION MIXTE
IV- DESCRIPTION DES CLASSES
L ’ANALYSE FACTORIELLE DISCRIMINANTE (AFD)
2
Les méthodes de classification
Limites de l’analyse factorielle
» Difficultés d’interprétation au-delà du premier plan factoriel
» Compression excessive et déformations
» Le nombre d’axes significatifs peut être supérieur à 2 : risque de
superpositions de points occupant des positions différentes dans
l’espace.
» Manque de robustesse (des visualisations)
» Un point aberrant peut influencer le premier facteur, et donc toutes les
dimensions car elles sont liées par une contrainte d’orthogonalité.
» Graphiques factoriels inextricables
» Si la visualisation concerne des centaines de points, elle donne lieu à des
graphiques chargés et illisibles.
3
Les méthodes de classification
Nuage de points

4
Les méthodes de classification
Nuage de points

5
Les méthodes de classification
Introduction
Les méthodes de classification sont des méthodes complémentaires à l’ACP,
l’AFC et à l’ACM.
Il existe plusieurs méthodes de classification, parmi les quelles :
» Classification hiérarchique (hierarchical technic) avec les méthodes (
ascendantes et descendantes) ;
» Les méthodes de partitionnement (partitioning technic) où le nombre de
classes est fixé au départ ;
» La méthode des densités (density technic) qui cherche des zones denses
si elles existent ;
» Classification floue (cluming technic ou fuzzy clustering);

6
Les méthodes de classification
Quelques domaines d’applications
» Médecine: regrouper les patients en sous ensemble distincts,
pour définir la conduite thérapeutique ;
» Marketing: former des groupes de villes ou d’individus utilisés
comme marché-test pour le lancement d’un nouveau produit ;
» Politique: regrouper les différents types d’électeurs pour fixer
la stratégie électorale ;
» Économie: regrouper les ménages ou les individus dans des
classes homogènes pour en cibler certains groupes dans une
politique de réduction de la pauvreté, ou dans un programme de
bourse familiale, …
7
Les méthodes de classification
Problème de la classification
Aspect combinatoire

Considérons le nombre de partitions en k classes d’un ensemble de n


individus.
=
» =0 si k>n ;
» =1 si k=n ;
» =1;
» = ;
» Nombre de dichotomies possibles: .
On définit le nombre de partitions:
8
Les méthodes de classification
Problème de la classification
L’explosion combinatoire
» ;
» ;
» ;
peut être relativement grand même si n et k sont petits.
» ;
» ;
»
Même pour n petit, peut exploser.

En règle générale, on cherche la meilleure partition sur (avec k


fixé) ou bien parmi les partitions emboitées. 9
Les méthodes de classification
Mesures de proximité
» Agrégation des classes A et B en C

10
Les méthodes de classification
Mesures de proximité
Une méthode de classification nécessite deux types de mesures
respectivement appelés :
» indice de dissimilarité Sur les individus ;
» indice d’agrégation: Sur les classes ;
» Indice de dissimilarité

(i) ;
(ii)
Il permet de dire si deux individus sont semblables pour être dans une
même classe.
» Exemple: distance euclidienne, distance du
11
Les méthodes de classification
Mesures de proximité
» Indice d’agrégation

(i) D D
(ii) D
Il existe plusieurs indices d’agrégation, selon que E soit un ensemble
quelconque ou non :
» Indice du saut minimum ;
» Indice du saut maximum ;
» Indice du saut moyen ;
» Stratégie barycentrique ;
» Stratégie moment partition ou distance de l’inertie: plus utilisée.
12
Les méthodes de classification
Mesures de proximité
» E est un ensemble quelconque
» Indice du saut minimum
L’indice 𝐷 peut aboutir à des classes contenant des éléments très éloignées : Elle a tendance
à favoriser le regroupement de deux classes dès qu’elles possèdent des points proches.
𝐷 est très utilisé grâce à ses propriétés mathématiques
» Indice du saut maximum
𝐷 exige que les points les plus éloignés, c’est-à-dire tous les points (s’ils sont éloignés au
sens du saut minimal), soient proches : elle permet de corriger 𝑫𝟏 .
» Indice du saut moyen
∈ ∈

13
Les méthodes de classification
Mesures de proximité
» E est un ensemble Euclidien
Soit et le poids de l’individu i.

∈ ∈
» Stratégie barycentrique
» Stratégie moment partition : méthode de Ward

C’est l’indice le plus utilisé : il a l’avantage de minimiser la perte


d’information résultant de l’agrégation entre deux classes.

14
Les méthodes de classification
Formule de l’inertie totale
Soit une partition de E donnée. On note
les inerties interclasses et intra-classes respectivement.
Alors on a :

∈ ∈

15
Les méthodes de classification
Exercices
1. Formule de Lance-Williams
Soit A, B et C trois classes d’individus. Supposons qu’à l’étape courante,
A et B sont agrégés à . Nous cherchons à calculer l’indice du nœud
formé par .

2. Montrer que constitue la perte d’information à chaque étape


d’agrégation ; c’est-à-dire, lorsqu’on agrège deux classes, l’inertie
inter diminue.

16

Vous aimerez peut-être aussi