Vous êtes sur la page 1sur 20

1

Techniques descriptives de
data mining
Walid AYADI
2

Les techniques descriptives


• Les techniques descriptives :
- visent à mettre en évidence des informations présentes mais
cachées par le volume des données
- il n’y a pas de variable « cible » à prédire

• Analyse factorielle
- Projection du nuage de points sur un espace de dimension
inférieure pour obtenir une visualisation de l’ensemble des liaisons
entre variables tout en minimisant la perte d’information
• Classification
- Trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables
• Détection d’associations entre des objets

Data mining - Walid Ayadi


3

Les deux principales techniques

Data mining - Walid Ayadi


Qu’est ce que la classification?
• Regrouper des objets en groupes, ou classes, ou familles, ou
segments, ou clusters, de sorte que :
- 2 objets d’un même groupe se ressemblent le + possible
- 2 objets de groupes distincts diffèrent le + possible

• Méthode descriptive :
- pas de variable cible privilégiée
- décrire de façon simple une réalité complexe en la résumant

• Utilisation en marketing, médecine, sciences humaines…

4
Exemple de classification

5
Les différentes méthodes

• Méthodes de partitionnement
- k-means et nuées dynamiques, k-modes, k-prototypes, k-
représentants (k-medoids)
- réseaux de Kohonen
- méthodes basées sur une notion de densité….
• Méthodes hiérarchiques
- ascendantes (agglomératives) basées sur une notion de
distance ou de densité
- descendantes (divisives)
• Analyse floue (fuzzy clustering) :
- C-means flous
• Méthodes mixtes 6
Méthodes de
partitionnement

K-means
7
Méthode de partitionnement K-means
Algorithme K-moyennes

Entrée : k le nombre de groupes cherché


Début
• Choisir aléatoirement les centres des groupes
Répéter
• Affecter chaque cas au groupe dont il est le plus proche au
son centre (utiliser une distance adéquate)
• Recalculer le centre de chaque groupe
• jusqu‘à ce que (stabilisation des centres) ou (nombre
d'itérations =t) ou (stabilisation de l’inertie totale de la
population)
Fin
8
Inertie d’un nuage d’individus
• Inertie totale Itot : somme de l’inertie intraclasse IA et de
l’inertie interclasse IR
• Inertie intraclasse IA : somme des inerties totales de
chaque classe
• Inertie interclasse IR : moyenne (pondérée par la somme
des poids de chaque classe) des carrés des distances des
barycentres de chaque classe au barycentre global

• Formule de Huygens : Itot=IA+IR

9
Inertie et qualité d’une classification
• Une classe est homogène ⇔ son inertie est faible
• Deux critères de bonne classification : grande IR, petite
IA
• Ces deux critères sont équivalents d’après la formule de
Huygens : ITOT = IA + IR

10
Illustration de K-means
Soit le tableau 1 de sept individus
caractérisés par 2 variables. On
souhaite construire deux groupes
homogènes à partir de ces
individus.
On propose de commencer la
construction à partir des deux Tableau 1
groupes du tableau 2.
Continuer la construction des
groupes en utilisant la distance
euclidienne pour mesurer la
similarité entre individus. Tableau 2

d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 ) : Distance euclidienne11


i1 j1 i2 j 2 ip jp entre i et j
Illustration de K-means

Résultat de la première boucle :

12
Illustration de K-means

Résultat de la deuxième boucle :

13

2 groupes stables
Mesures de qualité d’une classification
• R² = proportion de la variance expliquée par les
classes
▪ Rapport IR / ITOT
▪ Etre le plus proche possible de 1 sans avoir trop
de classes
▪ S’arrêter après le dernier saut important

14
Mesures de qualité d’une classification
• Pseudo F = mesure la séparation entre toutes
les classes
▪ Rechercher une grande valeur
▪ Avec n = nb d’observations et c = nb de
classes

▪ On a pseudo F =

15
Mesures de qualité d’une classification
Evalutation d’un clustering avec K-means sur des données contenant la
variable de classification : matrice de confusion taux de classification
• Matrice de confusion :
Exemple : clusters 1 2

Taux de bonne classification total = (1800+1700) / 4000 = 87,5 %


Taux de bonne classification de la classe A = 1800/2000 = 90 %
Taux de bonne classification de la classe B = 1700/2000 = 85 % 16
Etude de cas K-means
Etudier la qualité des résultats de K-means dans la construction
de groupes de fleurs selon leurs caractéristiques.

17
Etude de cas K-means
K-means clustering avec R :

Appliquer K-means avec K=3 :

18
Etude de cas K-means

Comparer les résultats de K-means avec la classification réelle :

19
Méthode de partitionnement K-means

• Principaux inconvénients :
- Le choix de k est subjectif dans le cas où le nombre de
classes est inconnu au sein de l’échantillon.
- L'algorithme du k-means ne trouve pas nécessairement la
configuration la plus optimal correspondant à la fonction
objective minimale.
- Les résultats de l'algorithme du k-means sont sensibles à
l'initialisation aléatoires des centres.

20

Vous aimerez peut-être aussi