Académique Documents
Professionnel Documents
Culture Documents
Techniques descriptives de
data mining
Walid AYADI
2
• Analyse factorielle
- Projection du nuage de points sur un espace de dimension
inférieure pour obtenir une visualisation de l’ensemble des liaisons
entre variables tout en minimisant la perte d’information
• Classification
- Trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables
• Détection d’associations entre des objets
• Méthode descriptive :
- pas de variable cible privilégiée
- décrire de façon simple une réalité complexe en la résumant
4
Exemple de classification
5
Les différentes méthodes
• Méthodes de partitionnement
- k-means et nuées dynamiques, k-modes, k-prototypes, k-
représentants (k-medoids)
- réseaux de Kohonen
- méthodes basées sur une notion de densité….
• Méthodes hiérarchiques
- ascendantes (agglomératives) basées sur une notion de
distance ou de densité
- descendantes (divisives)
• Analyse floue (fuzzy clustering) :
- C-means flous
• Méthodes mixtes 6
Méthodes de
partitionnement
K-means
7
Méthode de partitionnement K-means
Algorithme K-moyennes
9
Inertie et qualité d’une classification
• Une classe est homogène ⇔ son inertie est faible
• Deux critères de bonne classification : grande IR, petite
IA
• Ces deux critères sont équivalents d’après la formule de
Huygens : ITOT = IA + IR
10
Illustration de K-means
Soit le tableau 1 de sept individus
caractérisés par 2 variables. On
souhaite construire deux groupes
homogènes à partir de ces
individus.
On propose de commencer la
construction à partir des deux Tableau 1
groupes du tableau 2.
Continuer la construction des
groupes en utilisant la distance
euclidienne pour mesurer la
similarité entre individus. Tableau 2
12
Illustration de K-means
13
2 groupes stables
Mesures de qualité d’une classification
• R² = proportion de la variance expliquée par les
classes
▪ Rapport IR / ITOT
▪ Etre le plus proche possible de 1 sans avoir trop
de classes
▪ S’arrêter après le dernier saut important
14
Mesures de qualité d’une classification
• Pseudo F = mesure la séparation entre toutes
les classes
▪ Rechercher une grande valeur
▪ Avec n = nb d’observations et c = nb de
classes
▪ On a pseudo F =
15
Mesures de qualité d’une classification
Evalutation d’un clustering avec K-means sur des données contenant la
variable de classification : matrice de confusion taux de classification
• Matrice de confusion :
Exemple : clusters 1 2
17
Etude de cas K-means
K-means clustering avec R :
18
Etude de cas K-means
19
Méthode de partitionnement K-means
• Principaux inconvénients :
- Le choix de k est subjectif dans le cas où le nombre de
classes est inconnu au sein de l’échantillon.
- L'algorithme du k-means ne trouve pas nécessairement la
configuration la plus optimal correspondant à la fonction
objective minimale.
- Les résultats de l'algorithme du k-means sont sensibles à
l'initialisation aléatoires des centres.
20