Méthodes Méthodes
Descriptives Prédictives
Arbres de Décisions
Analyse en
Composantes
Principales ACP
Analyse Discriminante
Régression Logistique
Classification
Ascendante
Hiérarchique
Réseaux de Neurones
2
Objectif des techniques
descriptives
visent à mettre en évidence des informations présentes mais cachées
par le grand volume des données
il n’y a pas de variable « cible » à prédire
3
Objectif des techniques de
classification
Distinguer des sous-ensembles (ou classes) distincts dans la population de départ.
Regrouper les objets en groupes, classes, familles, segments, clusters, de sorte que :
Tous deux objets d’un même groupe se ressemblent le plus.
Tous deux objets de groupes différents se distinguent le plus.
Le nombre de groupes est parfois fixé.
la classification se distingue du classement par le fait que les critères de classification ne sont pas connus a
priori (avant étude de la population). C’est la population qui détermine les critères.
La classification est le plus souvent un préalable à d’autres opérations de data mining.
La classification permet de limiter le nombre de variables par sous-ensemble.
La classification permet de rechercher des corrélations propres à chaque classe et donc plus précises.
il n’existe pas une solution unique au problème de la classification. Autrement dit, il n’y a pas « LA » bonne
classification, mais plusieurs classifications possibles.
visent à synthétiser des informations présentes complexes mais cachées par le volume des données
il n’y a pas de variable « cible » à prédire
4
Techniques de Classification
Par Densité :
5
Classification par
partitionnenement
6
Classification Hiérarchique
7
Classification hiérarchique :
deux approches
Clustering hiérarchique ascendant : CHA (Agglomératif)
Commencer avec les points en tant que clusters individuels.
A chaque étape, grouper les clusters les plus proches
jusqu’à obtenir 1 seul ou k clusters.
8
Types de Classification
Par Densité :
9
Classification Ascendante
Hiérarchique
Principe : Chaque point ou cluster est progressivement absorbé par le
cluster le plus proche.
Algorithme
• Initialisation :
– Chaque individu est placé dans son propre cluster.
– Calcul de la matrice de ressemblance M entre chaque couple de clusters (ici les points)
• Répéter
– Sélection dans M des deux clusters les plus proches Ci et Cj .
– Fusion de Ci et Cj pour former un cluster Cg.
– Mise à jour de M en calculant la ressemblance entre Cg et les clusters existants.
11
Algorithme
Entrée : tableau de données (X)
Sortie : Indicateur de partition des individus
Calcul du tableau des distances entre individus
Chaque individu constitue un groupe (classe)
REPETER
Détecter les 2 groupes les plus proches
Les agréger pour n’en former qu’un seul
JUSQU’À tous les individus forment un seul groupe
Identifier le nombre adéquat de groupes
Procéder au partitionnement
3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1
3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1
La coupure au niveau du dendrogramme se fait lorsque les branches sont les plus
longues. Donc, lorsque l’inertie inter-classes est maximale.
3
2
4
5
1 2 3 4 5
3
2
4
5
1 2 3 4 5
n -2 classes
1
3
2
4
5
1 2 3 4 5
3
2
4
5
n -3 classes
1 2 3 4 5
3
2
4
n -4 classes
5
1 2 3 4 5
1 2 classes
3
2
4
5
1 2 3 4 5
classes1 classes2
1 3 classes
3
2
4
5
1 2 3 4 5