Vous êtes sur la page 1sur 64

Data Mining (Fouille de données)

Iskandar KESKES
iskandarkeskes@gmail.com

Assistant en informatique de gestion à ISGG

Membre du laboratoire MIRACL

Membre du laboratoire IRIT

Université de Gabès
Institut supérieur de Gestion de Gabès

Cours data mining - Iskandar KESKES 1


Plan du Cours

1. Introduction au Data Mining


2. Processus ECD
3. Techniques de Data Mining
4. Découverte de règles d’association
5. Classification automatique
6. Arbres de décision
7. Réseaux de neurones
8. Manipulation d’outils logiciels de DataMining.

Cours data mining - Iskandar KESKES 2


3. Classification
automatique

Cours data mining - Iskandar KESKES 3


Avant-propos
Classification ou clustering?

Cours data mining - Iskandar KESKES 4


Définition
L’objet du clustering : le groupent automatique d'objets en classes de
telle manière à :
 Maximiser la ressemblance intra-groupes
 Minimiser la ressemblance inter-groupes =>
Maximiser la dissemblance inter-groupes
Résultats du clustering :
 les objets soient les plus similaires possibles au sein d'un groupe
(critère de compacité)
 les groupes soient aussi dissemblables que possible (critère de
séparabilité)
Utilité du clustering : réduction de la complexité dans certains
problème selon le postulat qui stipule que :
 Deux objets de la même classe se ressemblent ont donc le même
comportement
 Tout élément d’une classe peut-être remplacé par un représentant
de la classe (Choix du représentant?)
Cours data mining - Iskandar KESKES 5
Le point de départ

Regrouper est donc une histoire

d'évaluation de la ressemblance entre individus

=> Une bonne clustérisation regroupe des individus


ressemblant

d'évaluation de la dissemblance (ou ressemblance) entre


deux classes (ensembles d'individus)

=> Une bonne clustérisation sépare des groupes


dissemblables

Cours data mining - Iskandar KESKES 6


Le point de départ

Évaluation de la ressemblance (comparaison)

Comment procède-t-on?
Exemple : parmi les dix objets suivants quels sont les
deux les plus ressemblants?

Cours data mining - Iskandar KESKES 7


Le point de départ

Exemples d’application :
Identifier des groupes d’individus ou de
ménages ayant un comportement homogène
vis-à-vis de :
la consommation de différents produits,
la consommation de différentes marques ou
variétés,
l’attitude par rapport à un produit,
...

 Il s’agit de problèmes souvent traités avec les


méthodes de classification automatique.

Cours data mining - Iskandar KESKES 8


Le point de départ

Données analysées :
 Un tableau individus-variables :
n individus (objets) décrits par p variables
(descripteurs) ;
un tableau à valeurs numériques
continues (valeur de la variable j pour
l’individu i) ;
un tableau de contingence (croisant deux
partitions d’une même population) ;
un tableau de présence–absence (valeur
0 ou 1).
 Un tableau carré symétrique de
similarités ou de distances.

Cours data mining - Iskandar KESKES 9


Le point de départ

Objectifs :
Constituer des groupes d’objets
homogènes et différenciés tels que :
 les objets soient les plus similaires possibles
au sein d’un groupe (critère de compacité) ;
 les groupes soient aussi dissemblables que
possible (critère de séparabilité).

La ressemblance ou la dissemblance


étant mesurée sur l’ensemble des
variables descriptives.

Cours data mining - Iskandar KESKES 10


Le point de départ

Hypothèse :
On suppose qu’une structure de
classes existe au sein de la
population étudiée.

Le but de la classification est de la


mettre à jour ou de l’identifier.

 On suppose que la population étudiée


est séparable.

Cours data mining - Iskandar KESKES 11


Le point de départ

Représentations :
La représentation synthétique peut
être :
une typologie ;
une partition ;
une hiérarchie de partitions (arbre
hiérarchique) ;
une hiérarchie de recouvrements
(pyramide).

Cours data mining - Iskandar KESKES 12


Le point de départ

Une classification automatique obtenue sur un ensemble n’est


jamais la classification de cet ensemble . . .

 C’est une classification parmi beaucoup d’autres.

La classification fait appel à une démarche algorithmique et


non aux calculs formalisés usuels en statistique.

La définition des classes se fait à partir d’une formulation


algorithmique.
Une série d’opérations définies de façon récursive et répétitive.
La mise en oeuvre de la plupart des techniques de classification
ne nécessite que des notions mathématiques relativement
élémentaires.

Cours data mining - Iskandar KESKES 13


Le point de départ

Les étapes de la classification


automatique :
1. Choix des données.

2. Calcul des dissimilarités entre les n


individus à partir du tableau initial.
3. Choix d’un algorithme de classification et
exécution.
4. L’interprétation des résultats :
évaluation de la qualité de la classification,
description des classes obtenues.

Cours data mining - Iskandar KESKES 14


Le point de départ

Calcul des ressemblances :


 Variables quantitatives
 La distance euclidienne est une mesure
possible de la ressemblance.
 Dans le cas de variables hétérogènes, il
faut travailler sur les données centrées
réduites.
 Variables qualitatives
 De nombreux indices de ressemblance ont
été proposés.
 Dans le cas d’objets décrits par des
variables binaires, indice de Jaccard, indice
de Russel et Rao.

Cours data mining - Iskandar KESKES 15


Le point de départ

Il existe plusieurs familles d’algorithme


de classification.
On s’intéresse d'abord aux algorithmes
hiérarchiques
 Les algorithmes ascendants (ou encore
agglomératifs) qui procèdent à la construction
des classes par agglomérations successives
des objets deux à deux, et qui fournissent une
hiérarchie de partitions des objets.
 Les algorithmes descendants (ou encore
divisifs) qui procèdent par dichotomies
successives de l’ensemble des objets, et qui
peuvent encore fournir une hiérarchie de
partitions.

Cours data mining - Iskandar KESKES 16


Le point de départ

Les algorithmes ascendants (ou encore agglomératifs)

 Les algorithmes descendants (ou encore divisifs)


Cours data mining - Iskandar KESKES 17
Le point de départ

Une hiérarchie de partitions (arbre hiérarchique)

Cours data mining - Iskandar KESKES 18


Le point de départ

Évaluation de la ressemblance

Modèle pour la comparaison


Pour des approches pour l’évaluation de la ressemblance, les
modèles comprennent:
Référentiel => modèle de représentation
Une fonction de similarité => évaluation du degrés de
ressemblance dans le référentiel
Une fonction de similarité entre groupes d'objets
 Remarque
Ces composantes sont autant d'occasions/risques de s'éloigner de la
réalité

Cours data mining - Iskandar KESKES 19


Le point de départ

En résumé:

Un algorithme de classification commence par le choix des


paramètres pour la comparaison (features selection / référentiel)

Un algorithme de classification définit une mesure de


ressemblance/dissemblance
•Entre objets
•Entre groupes d’objet
Dans l’espace des paramètres choisis

Cours data mining - Iskandar KESKES 20


Vocabulaire de base

Cours data mining - Iskandar KESKES 21


Distances

Cours data mining - Iskandar KESKES 22


Distances

Cours data mining - Iskandar KESKES 23


Similarité

Cours data mining - Iskandar KESKES 24


Similarité

Cours data mining - Iskandar KESKES 25


Similarité

Cours data mining - Iskandar KESKES 26


Similarité

Cours data mining - Iskandar KESKES 27


Méthodes

Cours data mining - Iskandar KESKES 28


CAH

Cours data mining - Iskandar KESKES 29


CAH

Cours data mining - Iskandar KESKES 30


CAH

Cours data mining - Iskandar KESKES 31


CAH

Un dendrogramme

Cours data mining - Iskandar KESKES 32


CAH

Cours data mining - Iskandar KESKES 33


CAH

Cours data mining - Iskandar KESKES 34


CAH

Cours data mining - Iskandar KESKES 35


CAH

Cours data mining - Iskandar KESKES 36


CAH

Cours data mining - Iskandar KESKES 37


CAH

Première observation :
 La stratégie intuitive utilisé pour passer d’une partition
Pi à la suivante Pi+1 ne remet pas en cause les
regroupements.
 Si deux individus sont réunis dans une classe, ils
restent ensemble tout le temps.
 Les partitions ainsi construites sont emboîtées de la
plus fine à la plus grossière.
 On obtient une hiérarchie de partitions qu’on peut
représenter par un dendrogramme.

Cours data mining - Iskandar KESKES 38


CAH

Deuxième observation :

Cours data mining - Iskandar KESKES 39


K-Means (Supervisé)

Cours data mining - Iskandar KESKES 40


K-Means (Supervisé)

Cours data mining - Iskandar KESKES 41


Stratégies Mixtes

Cours data mining - Iskandar KESKES 42


Dissimilarité entre deux points

Mesures de distance :
La plupart des techniques de classification font appel à des
mesures de distance, appelé aussi métrique.

 Evaluer les degrés de dissemblance ou de ressemblance entre


deux individus ou deux groupes d’individus.

 La dissemblance entre deux d’individus est évaluée par la


notion de dissimilarité dont le sens mathématique peut se
traduire par divers critères de mesure quantitative.

Cours data mining - Iskandar KESKES 43


Dissimilarité entre deux points

Types de dissimilarité :
 Selon la nature des données, on distinguent quatre
groupes de critères de dissimilarité entre individus :

1. la dissimilarité définie sur les données quantitatives ;


2. la dissimilarité définie sur les données qualitatives,
fréquentielles, ou les données d’occurrences ;
3. la dissimilarité définie sur les données ordinales ;
4. la dissimilarité définie sur les données logiques.

Cours data mining - Iskandar KESKES 44


Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 45


Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 46


Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 47


Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 48


Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 49


Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 50


Dissimilarité entre deux points

En utilisant la distance de Manhattan


Calculer les distances entre p1et p2
Calculer les distances entre p1et p3

Intuitivement on sait que p3 est plus proche à p1 que p2


 Il faut normaliser les données

Cours data mining - Iskandar KESKES 51


Dissimilarité entre deux points

Lorsque les données sont des réels


Il faut calculer des valeurs standardisées pour ces données

Les xji standardisées (z-score)

Cours data mining - Iskandar KESKES 52


Dissimilarité entre deux points

6,7
5,29

Cours data mining - Iskandar KESKES 53


Dissimilarité entre deux points

Lorsqu’il s’agit de données binaires, il faut tout


d’abord tracer la table de contingence (table de
dissimilarité) de ces données

Cours data mining - Iskandar KESKES 54


Dissimilarité entre deux points

Les distances utilisées


Le coefficient de correspondance simple

Le coefficient de Jaccard

Exemple : Oi=(1,1,0,1,0) et Oj=(1,0,0,0,1)


a= 1 b=2 c=1 d=1
dcs(Oi,Oj)=3/5
djc(Oi,Oj)=3/4

Cours data mining - Iskandar KESKES 55


Algorithme de CAH

Lance et William (1967)

Etape 0 : il y a n éléments à classer (n objets) ;

Etape 1 : on construit la matrice de distances entre les n éléments et


l’on cherche les deux plus proches, que l’on agrège en un nouvel
élément. On obtient une première partition à (n−1) classes ;
Etape 2 : on construit une nouvelle matrice des distances qui résultent
de l’agrégation, en calculant les distances entre le nouvel élément et les
éléments restants (mêmes conditions qu’à l’étape 1 avec (n−1)
éléments). On cherche les deux éléments les plus proches, que l’on
agrège. On obtient une deuxième partition avec (n−2) classes et qui
englobe la première ;
Etape m : on calcule les nouvelles distances, et l’on réitère le processus
jusqu’à n’avoir plus qu’un seul élément regroupant tous les objets et qui
constitue la dernière partition.

Cours data mining - Iskandar KESKES 56


Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 57


Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 58


Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 59


Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 60


Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 61


Exercice
Soit Le tableau de dissimilarités suivant:

En utilisant CAH, construire le dendrogramme en


utilisant la méthode d’agrégation suivante:
 Lien minimum (saut minimal)
 Lien maximum (saut maximal)
 Lien moyen
Cours data mining - Iskandar KESKES 62
Réponse

Cours data mining - Iskandar KESKES 63


Réponse

Cours data mining - Iskandar KESKES 64

Vous aimerez peut-être aussi