Data Mining Description SP 2022

1
Techniques descriptives de
data mining
Walid AYADI
2
Les techniques descriptives

• Les techniques descriptives :
- visent à mettre en évidence des informations présentes mais
cachées par le volume des données
- il n’y a pas de variable « cible » à prédire
• Analyse factorielle
- Projection du nuage de points sur un espace de dimension
inférieure pour obtenir une visualisation de l’ensemble des liaisons
entre variables tout en minimisant la perte d’information
• Classification
- Trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables
• Détection d’associations entre des objets
Data mining - Walid Ayadi

3
Les deux principales techniques
Data mining - Walid Ayadi

Qu’est ce que la classification?
• Regrouper des objets en groupes, ou classes, ou familles, ou
segments, ou clusters, de sorte que :
- 2 objets d’un même groupe se ressemblent le + possible
- 2 objets de groupes distincts diffèrent le + possible
• Méthode descriptive :
- pas de variable cible privilégiée
- décrire de façon simple une réalité complexe en la résumant
• Utilisation en marketing, médecine, sciences humaines…
4
Exemple de classification
5
Les différentes méthodes
• Méthodes de partitionnement
- k-means et nuées dynamiques, k-modes, k-prototypes, k-
représentants (k-medoids)
- réseaux de Kohonen
- méthodes basées sur une notion de densité….
• Méthodes hiérarchiques
- ascendantes (agglomératives) basées sur une notion de
distance ou de densité
- descendantes (divisives)
• Analyse floue (fuzzy clustering) :
- C-means flous
• Méthodes mixtes 6
Méthodes de
partitionnement
K-means
7
Méthode de partitionnement K-means
Algorithme K-moyennes
Entrée : k le nombre de groupes cherché

Début
• Choisir aléatoirement les centres des groupes
Répéter
• Affecter chaque cas au groupe dont il est le plus proche au
son centre (utiliser une distance adéquate)
• Recalculer le centre de chaque groupe
• jusqu‘à ce que (stabilisation des centres) ou (nombre
d'itérations =t) ou (stabilisation de l’inertie totale de la
population)
Fin
8
Inertie d’un nuage d’individus
• Inertie totale Itot : somme de l’inertie intraclasse IA et de
l’inertie interclasse IR
• Inertie intraclasse IA : somme des inerties totales de
chaque classe
• Inertie interclasse IR : moyenne (pondérée par la somme
des poids de chaque classe) des carrés des distances des
barycentres de chaque classe au barycentre global
• Formule de Huygens : Itot=IA+IR
9
Inertie et qualité d’une classification
• Une classe est homogène ⇔ son inertie est faible
• Deux critères de bonne classification : grande IR, petite
IA
• Ces deux critères sont équivalents d’après la formule de
Huygens : ITOT = IA + IR
10
Illustration de K-means
Soit le tableau 1 de sept individus
caractérisés par 2 variables. On
souhaite construire deux groupes
homogènes à partir de ces
individus.
On propose de commencer la
construction à partir des deux Tableau 1
groupes du tableau 2.
Continuer la construction des
groupes en utilisant la distance
euclidienne pour mesurer la
similarité entre individus. Tableau 2
d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 ) : Distance euclidienne11

i1 j1 i2 j 2 ip jp entre i et j
Résultat de la première boucle :
12
Résultat de la deuxième boucle :
13
2 groupes stables
Mesures de qualité d’une classification
• R² = proportion de la variance expliquée par les
classes
▪ Rapport IR / ITOT
▪ Etre le plus proche possible de 1 sans avoir trop
de classes
▪ S’arrêter après le dernier saut important
14
• Pseudo F = mesure la séparation entre toutes
les classes
▪ Rechercher une grande valeur
▪ Avec n = nb d’observations et c = nb de
classes
▪ On a pseudo F =
15
Evalutation d’un clustering avec K-means sur des données contenant la
variable de classification : matrice de confusion taux de classification
• Matrice de confusion :
Exemple : clusters 1 2
Taux de bonne classification total = (1800+1700) / 4000 = 87,5 %

Taux de bonne classification de la classe A = 1800/2000 = 90 %
Taux de bonne classification de la classe B = 1700/2000 = 85 % 16
Etude de cas K-means
Etudier la qualité des résultats de K-means dans la construction
de groupes de fleurs selon leurs caractéristiques.
17
K-means clustering avec R :
Appliquer K-means avec K=3 :
18
Comparer les résultats de K-means avec la classification réelle :
19
Méthode de partitionnement K-means
• Principaux inconvénients :
- Le choix de k est subjectif dans le cas où le nombre de
classes est inconnu au sein de l’échantillon.
- L'algorithme du k-means ne trouve pas nécessairement la
configuration la plus optimal correspondant à la fonction
objective minimale.
- Les résultats de l'algorithme du k-means sont sensibles à
l'initialisation aléatoires des centres.
20

Data Mining Description SP 2022

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Data Mining Description SP 2022

Transféré par

Droits d'auteur :

Formats disponibles

1

Les techniques descriptives

Data mining - Walid Ayadi

Les deux principales techniques

Data mining - Walid Ayadi

• Utilisation en marketing, médecine, sciences humaines…

Entrée : k le nombre de groupes cherché

• Formule de Huygens : Itot=IA+IR

d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 ) : Distance euclidienne11

Résultat de la première boucle :

Résultat de la deuxième boucle :

Taux de bonne classification total = (1800+1700) / 4000 = 87,5 %

Appliquer K-means avec K=3 :

Comparer les résultats de K-means avec la classification réelle :

Vous aimerez peut-être aussi