DataMining Part3 Classification PDF

Data Mining (Fouille de données)
Iskandar KESKES
iskandarkeskes@gmail.com
Assistant en informatique de gestion à ISGG
Membre du laboratoire MIRACL
Membre du laboratoire IRIT
Université de Gabès
Institut supérieur de Gestion de Gabès
Cours data mining - Iskandar KESKES 1

Plan du Cours
1. Introduction au Data Mining

2. Processus ECD
3. Techniques de Data Mining
4. Découverte de règles d’association
5. Classification automatique
6. Arbres de décision
7. Réseaux de neurones
8. Manipulation d’outils logiciels de DataMining.

3. Classification
automatique

Avant-propos
Classification ou clustering?

Définition
L’objet du clustering : le groupent automatique d'objets en classes de
telle manière à :
 Maximiser la ressemblance intra-groupes
 Minimiser la ressemblance inter-groupes =>
Maximiser la dissemblance inter-groupes
Résultats du clustering :
 les objets soient les plus similaires possibles au sein d'un groupe
(critère de compacité)
 les groupes soient aussi dissemblables que possible (critère de
séparabilité)
Utilité du clustering : réduction de la complexité dans certains
problème selon le postulat qui stipule que :
 Deux objets de la même classe se ressemblent ont donc le même
comportement
 Tout élément d’une classe peut-être remplacé par un représentant
de la classe (Choix du représentant?)
Le point de départ
Regrouper est donc une histoire
d'évaluation de la ressemblance entre individus
=> Une bonne clustérisation regroupe des individus

ressemblant
d'évaluation de la dissemblance (ou ressemblance) entre

deux classes (ensembles d'individus)
=> Une bonne clustérisation sépare des groupes

dissemblables

Le point de départ
Évaluation de la ressemblance (comparaison)
Comment procède-t-on?
Exemple : parmi les dix objets suivants quels sont les
deux les plus ressemblants?

Le point de départ
Exemples d’application :
Identifier des groupes d’individus ou de
ménages ayant un comportement homogène
vis-à-vis de :
la consommation de différents produits,
la consommation de différentes marques ou
variétés,
l’attitude par rapport à un produit,
...
 Il s’agit de problèmes souvent traités avec les

méthodes de classification automatique.

Le point de départ
Données analysées :
 Un tableau individus-variables :
n individus (objets) décrits par p variables
(descripteurs) ;
un tableau à valeurs numériques
continues (valeur de la variable j pour
l’individu i) ;
un tableau de contingence (croisant deux
partitions d’une même population) ;
un tableau de présence–absence (valeur
0 ou 1).
 Un tableau carré symétrique de
similarités ou de distances.

Le point de départ
Objectifs :
Constituer des groupes d’objets
homogènes et différenciés tels que :
 les objets soient les plus similaires possibles
au sein d’un groupe (critère de compacité) ;
 les groupes soient aussi dissemblables que
possible (critère de séparabilité).
La ressemblance ou la dissemblance

étant mesurée sur l’ensemble des
variables descriptives.

Le point de départ
Hypothèse :
On suppose qu’une structure de
classes existe au sein de la
population étudiée.
Le but de la classification est de la

mettre à jour ou de l’identifier.
 On suppose que la population étudiée

est séparable.

Le point de départ
Représentations :
La représentation synthétique peut
être :
une typologie ;
une partition ;
une hiérarchie de partitions (arbre
hiérarchique) ;
une hiérarchie de recouvrements
(pyramide).

Le point de départ
Une classification automatique obtenue sur un ensemble n’est

jamais la classification de cet ensemble . . .
 C’est une classification parmi beaucoup d’autres.
La classification fait appel à une démarche algorithmique et

non aux calculs formalisés usuels en statistique.
La définition des classes se fait à partir d’une formulation

algorithmique.
Une série d’opérations définies de façon récursive et répétitive.
La mise en oeuvre de la plupart des techniques de classification
ne nécessite que des notions mathématiques relativement
élémentaires.

Le point de départ
Les étapes de la classification

automatique :
1. Choix des données.
2. Calcul des dissimilarités entre les n

individus à partir du tableau initial.
3. Choix d’un algorithme de classification et
exécution.
4. L’interprétation des résultats :
évaluation de la qualité de la classification,
description des classes obtenues.

Le point de départ
Calcul des ressemblances :

 Variables quantitatives
 La distance euclidienne est une mesure
possible de la ressemblance.
 Dans le cas de variables hétérogènes, il
faut travailler sur les données centrées
réduites.
 Variables qualitatives
 De nombreux indices de ressemblance ont
été proposés.
 Dans le cas d’objets décrits par des
variables binaires, indice de Jaccard, indice
de Russel et Rao.

Le point de départ
Il existe plusieurs familles d’algorithme

de classification.
On s’intéresse d'abord aux algorithmes
hiérarchiques
 Les algorithmes ascendants (ou encore
agglomératifs) qui procèdent à la construction
des classes par agglomérations successives
des objets deux à deux, et qui fournissent une
hiérarchie de partitions des objets.
 Les algorithmes descendants (ou encore
divisifs) qui procèdent par dichotomies
successives de l’ensemble des objets, et qui
peuvent encore fournir une hiérarchie de
partitions.

Le point de départ
Les algorithmes ascendants (ou encore agglomératifs)
 Les algorithmes descendants (ou encore divisifs)

Le point de départ
Une hiérarchie de partitions (arbre hiérarchique)

Le point de départ
Évaluation de la ressemblance
Modèle pour la comparaison

Pour des approches pour l’évaluation de la ressemblance, les
modèles comprennent:
Référentiel => modèle de représentation
Une fonction de similarité => évaluation du degrés de
ressemblance dans le référentiel
Une fonction de similarité entre groupes d'objets
 Remarque
Ces composantes sont autant d'occasions/risques de s'éloigner de la
réalité

Le point de départ
En résumé:
Un algorithme de classification commence par le choix des

paramètres pour la comparaison (features selection / référentiel)
Un algorithme de classification définit une mesure de

ressemblance/dissemblance
•Entre objets
•Entre groupes d’objet
Dans l’espace des paramètres choisis

Vocabulaire de base

Distances

Distances

Similarité

Similarité

Similarité

Similarité

Méthodes

CAH

CAH

CAH

CAH
Un dendrogramme

CAH

CAH

CAH

CAH

CAH

CAH
Première observation :
 La stratégie intuitive utilisé pour passer d’une partition
Pi à la suivante Pi+1 ne remet pas en cause les
regroupements.
 Si deux individus sont réunis dans une classe, ils
restent ensemble tout le temps.
 Les partitions ainsi construites sont emboîtées de la
plus fine à la plus grossière.
 On obtient une hiérarchie de partitions qu’on peut
représenter par un dendrogramme.

CAH
Deuxième observation :

K-Means (Supervisé)

K-Means (Supervisé)

Stratégies Mixtes

Dissimilarité entre deux points
Mesures de distance :
La plupart des techniques de classification font appel à des
mesures de distance, appelé aussi métrique.
 Evaluer les degrés de dissemblance ou de ressemblance entre

deux individus ou deux groupes d’individus.
 La dissemblance entre deux d’individus est évaluée par la

notion de dissimilarité dont le sens mathématique peut se
traduire par divers critères de mesure quantitative.

Types de dissimilarité :
 Selon la nature des données, on distinguent quatre
groupes de critères de dissimilarité entre individus :
1. la dissimilarité définie sur les données quantitatives ;

2. la dissimilarité définie sur les données qualitatives,
fréquentielles, ou les données d’occurrences ;
3. la dissimilarité définie sur les données ordinales ;
4. la dissimilarité définie sur les données logiques.







En utilisant la distance de Manhattan

Calculer les distances entre p1et p2
Calculer les distances entre p1et p3
Intuitivement on sait que p3 est plus proche à p1 que p2

 Il faut normaliser les données

Lorsque les données sont des réels

Il faut calculer des valeurs standardisées pour ces données
Les xji standardisées (z-score)

6,7
5,29

Lorsqu’il s’agit de données binaires, il faut tout

d’abord tracer la table de contingence (table de
dissimilarité) de ces données

Les distances utilisées

Le coefficient de correspondance simple
Le coefficient de Jaccard
Exemple : Oi=(1,1,0,1,0) et Oj=(1,0,0,0,1)

a= 1 b=2 c=1 d=1
dcs(Oi,Oj)=3/5
djc(Oi,Oj)=3/4

Algorithme de CAH
Lance et William (1967)
Etape 0 : il y a n éléments à classer (n objets) ;
Etape 1 : on construit la matrice de distances entre les n éléments et

l’on cherche les deux plus proches, que l’on agrège en un nouvel
élément. On obtient une première partition à (n−1) classes ;
Etape 2 : on construit une nouvelle matrice des distances qui résultent
de l’agrégation, en calculant les distances entre le nouvel élément et les
éléments restants (mêmes conditions qu’à l’étape 1 avec (n−1)
éléments). On cherche les deux éléments les plus proches, que l’on
agrège. On obtient une deuxième partition avec (n−2) classes et qui
englobe la première ;
Etape m : on calcule les nouvelles distances, et l’on réitère le processus
jusqu’à n’avoir plus qu’un seul élément regroupant tous les objets et qui
constitue la dernière partition.

Algorithme de CAH (Exemple)





Exercice
Soit Le tableau de dissimilarités suivant:
En utilisant CAH, construire le dendrogramme en

utilisant la méthode d’agrégation suivante:
 Lien minimum (saut minimal)
 Lien maximum (saut maximal)
 Lien moyen
Réponse

Réponse

DataMining Part3 Classification PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

DataMining Part3 Classification PDF

Transféré par

Droits d'auteur :

Formats disponibles

Data Mining (Fouille de données)

Assistant en informatique de gestion à ISGG

Membre du laboratoire MIRACL

Membre du laboratoire IRIT

Cours data mining - Iskandar KESKES 1

1. Introduction au Data Mining

Cours data mining - Iskandar KESKES 2

Cours data mining - Iskandar KESKES 3

Cours data mining - Iskandar KESKES 4

Regrouper est donc une histoire

d'évaluation de la ressemblance entre individus

=> Une bonne clustérisation regroupe des individus

d'évaluation de la dissemblance (ou ressemblance) entre

=> Une bonne clustérisation sépare des groupes

Cours data mining - Iskandar KESKES 6

Évaluation de la ressemblance (comparaison)

Cours data mining - Iskandar KESKES 7

 Il s’agit de problèmes souvent traités avec les

Cours data mining - Iskandar KESKES 8

Cours data mining - Iskandar KESKES 9

La ressemblance ou la dissemblance

Cours data mining - Iskandar KESKES 10

Le but de la classification est de la

 On suppose que la population étudiée

Cours data mining - Iskandar KESKES 11

Cours data mining - Iskandar KESKES 12

Une classification automatique obtenue sur un ensemble n’est

 C’est une classification parmi beaucoup d’autres.

La classification fait appel à une démarche algorithmique et

La définition des classes se fait à partir d’une formulation

Cours data mining - Iskandar KESKES 13

Les étapes de la classification

2. Calcul des dissimilarités entre les n

Cours data mining - Iskandar KESKES 14

Calcul des ressemblances :

Cours data mining - Iskandar KESKES 15

Il existe plusieurs familles d’algorithme

Cours data mining - Iskandar KESKES 16

Les algorithmes ascendants (ou encore agglomératifs)

 Les algorithmes descendants (ou encore divisifs)

Une hiérarchie de partitions (arbre hiérarchique)

Cours data mining - Iskandar KESKES 18

Modèle pour la comparaison

Cours data mining - Iskandar KESKES 19

Un algorithme de classification commence par le choix des

Un algorithme de classification définit une mesure de

Cours data mining - Iskandar KESKES 20

Cours data mining - Iskandar KESKES 21

Cours data mining - Iskandar KESKES 22

Cours data mining - Iskandar KESKES 23

Cours data mining - Iskandar KESKES 24

Cours data mining - Iskandar KESKES 25

Cours data mining - Iskandar KESKES 26

Cours data mining - Iskandar KESKES 27

Cours data mining - Iskandar KESKES 28

Cours data mining - Iskandar KESKES 29

Cours data mining - Iskandar KESKES 30

Cours data mining - Iskandar KESKES 31

Cours data mining - Iskandar KESKES 32

Cours data mining - Iskandar KESKES 33

Cours data mining - Iskandar KESKES 34

Cours data mining - Iskandar KESKES 35

Cours data mining - Iskandar KESKES 36