Académique Documents
Professionnel Documents
Culture Documents
Mohamed HAMMAMI
Professeur à la FSS – Université de Sfax
mohamed.hammami@fss.usf.tn
LSI 3
Syllabus du cours
Objectifs
Sensibiliser les étudiants à l’importance du Machine Learning
en tant que nouvel domaine technologique;
Positionner le Machine Learning dans le processus ECD ;
Maîtrise des principes théoriques de quelques techniques de
Machine Learning (classification, prédiction, etc) ;
Manipulation d’outils logiciels de Machine Learning.
LSI 3
Mohamed HAMMAMI 2
Plan du Cours
LSI 3
Mohamed HAMMAMI 3
Chapitre 1:
LSI 3
Mohamed HAMMAMI 4
Problématique de base
De plus en plus de
données sont générées :
Banques, télécommunication,
domaines commerciaux ...
Données scientifiques :
astronomie, biologie, etc.
Web : texte, images, son,
vidéo, etc.
E-commerce
LSI 3
Mohamed HAMMAMI 5
Problématique de base
Le stockage et l’analyse de
ces données constituent un
problème à part entière
LSI 3
Mohamed HAMMAMI 6
Problématique de base
LSI 3
Mohamed HAMMAMI 7
Problématique de base
France Telecom ~ 30 To
Web :
Alexa internet archive (www.alexa.com) 7 ans de
données ~ 500 To
Google searches ~ plus de 4 Milliards de pages ~
plusieurs centaines de To
WebFountain d’IBM (2003) ~ 160 To
Internet Archive (www.archive.org) ~ 300 To
LSI 3
Mohamed HAMMAMI 8
Problématique de base
LSI 3
Mohamed HAMMAMI 9
Problématique de base
LSI 3
Mohamed HAMMAMI 10
Problématique de base
Malheureusement cette masse d’information souvent
sous exploitée
Beaucoup de données mais peu de connaissances !
Zighed(1995)
LSI 3
Mohamed HAMMAMI 12
Qu’est-ce que le Data Mining ?
Wikipédia :
Autres appellations:
- ECD (Extraction de Connaissances à partir de Données)
- KDD (Knowledge Discovery from Databases)
- Fouille de données,
- Machine Learning etc …
LSI 3
Mohamed HAMMAMI 13
Origines du Data Mining
LSI 3
Mohamed HAMMAMI 14
Origines du Data Mining
LSI 3
Mohamed HAMMAMI 15
Origines du Data Mining
LSI 3
Mohamed HAMMAMI 16
Origines du Data Mining
LSI 3
Mohamed HAMMAMI 17
Cas d’applications: Commerce
LSI 3
Mohamed HAMMAMI 18
Cas d’applications: Analyse des risques
Détection de fraudes pour les assurances
Prêt Bancaire
Objectif des banques : réduire le risque des prêts bancaires.
LSI 3
Mohamed HAMMAMI 19
Cas d’applications: E-Commerce
Le Web Usage Mining
Principe :
«fouiller» ces données pour
en produire de l’information
et de la connaissance
LSI 3
Mohamed HAMMAMI 20
Cas d’applications: E-Commerce
Le Web Usage Mining
LSI 3
Mohamed HAMMAMI 21
Cas d’applications: E-Commerce
30%Promo
LSI 3
Mohamed HAMMAMI 22
Cas d’applications du Data Mining
LSI 3
Mohamed HAMMAMI 23
Facteurs d’émergence du Data Mining
LSI 3
Mohamed HAMMAMI 24
Facteurs d’émergence du Data Mining
Technologie de l’information
faible coût de stockage de données,
saisie automatique de transaction (code bar, click,
données de localisation GPS, internet)
LSI 3
Mohamed HAMMAMI 25
Le Data Mining et le KDD
L’ECD, par le biais du Data Mining, est alors vue comme une ingénierie
pour extraire des connaissances à partir des données.
LSI 3
Mohamed HAMMAMI 26
Le Data Mining et le KDD
LSI 3
Mohamed HAMMAMI - 27
Principaux avantages du Data Mining
Aide à la prise de décisions des dirigeants (ne les remplace
pas!)
Détecte les relations entre les données et permet de faire des
liens pertinents.
Étudie le passé dans le but de faire des prédictions dans le futur.
Augmente la satisfaction des clients grâce à une approche plus
personnalisée.
Permet de mieux cerner et connaître la clientèle.
Peut augmenter les revenus et diminuer les coûts de entreprise.
Processus ECD
LSI 3
Mohamed HAMMAMI 29
Qu’est-ce que le processus ECD ?
L’ECD est un processus qui fait intervenir des méthodes et des outils issus
de différents domaines en vue de découvrir des connaissances utiles.
LSI 3
Mohamed HAMMAMI 30
Qu’est-ce que le processus ECD ?
L’ECD est un processus qui met en oeuvre un ensemble de
techniques provenant :
des bases de données ; de l’analyse des données ;
LSI 3
Mohamed HAMMAMI 31
Qu’est-ce que le processus ECD ?
LSI 3
Mohamed HAMMAMI 32
Définition générale de l’ECD
LSI 3
Mohamed HAMMAMI 33
Définition générale de l’ECD
LSI 3
Mohamed HAMMAMI 34
Processus de l’ECD
LSI 3
Mohamed HAMMAMI 35
Phase d’acquisition des données
LSI 3
Mohamed HAMMAMI 36
Phase d’acquisition des données
Préliminaires
Bien délimiter le problème de la fouille de données.
Ne pas se lancer dans l’ECD sans définir les objectifs.
Avoir une idée claire sur les moyens technologiques à
disposition.
LSI 3
Mohamed HAMMAMI 37
Phase d’acquisition des données
Objectif
La phase d’acquisition vise à cibler l’espace des données qui va être
exploré.
« Le spécialiste du Data Mining agit à l’image du géologue qui définit des zones de
prospection en étant persuadé que certaines régions seront probablement vite
abandonnées car elles ne recèlent aucun ou peu de minerais. »
Outils
Moteurs de requêtes des bases de données comme SQL.
Outils de requêtes spécifiques aux données non structurées
(données textuelles, images Web)
Moteurs de recherche d’informations par le contenu.
LSI 3
Mohamed HAMMAMI 38
Phase d’acquisition des données
Résultat
Un stock de données contenant potentiellement l’information
ou la connaissance recherchée.
Un échantillon de données tirées du monde réel.
Données relatives à des événements passés.
LSI 3
Mohamed HAMMAMI 39
Phase de préparation des données
LSI 3
Mohamed HAMMAMI 40
Phase de préparation des données
LSI 3
Mohamed HAMMAMI 41
Phase de préparation des données
LSI 3
Mohamed HAMMAMI 42
Exemple: préparation des données
LSI 3
Mohamed HAMMAMI 43
Exemple: préparation des données
Nettoyage des données
Doublons, erreurs de saisie
un doublon donne plus d’importance à la donnée répétée
Une erreur de saisi peut à l’inverse cacher une répétition
Intégrité de domaine
Un contrôle sur les domaines de valeurs peut révéler des valeurs
aberrantes
Informations manquantes
Données avec des champs ne contenant aucune donnée
Parfois le manque d’information est une information
Les valeurs des autres champs peuvent être utiles
LSI 3
Mohamed HAMMAMI 44
Exemple: préparation des données
LSI 3
Mohamed HAMMAMI 45
Exemple: préparation des données
LSI 3
Mohamed HAMMAMI 46
Exemple: préparation des données
MastèreLSI
MRI3
Mohamed HAMMAMI 48
Exemple: préparation des données
Codage et normalisation
Regroupement
Certains attributs prennent un très grand nombre de valeurs
discrètes possibles
Le regroupement en des sous-ensembles permet de réduire le
nombre de valeurs considérées
Région : Tunis, Sfax / Age : jeune, adulte, vieux
Changement de type
Simplifier les types de données afin de faciliter les comparaisons
et les calculs de distance, etc.
Date de naissance Age / Date d’abonnement Durée
MastèreLSI
MRI3
Mohamed HAMMAMI 49
Phase de préparation des données
Sélection de variables
Les données issues de le phase
d’acquisition ne sont pas
nécessairement toutes exploitables
par des techniques de Data Mining.
La recherche des variables
pertinentes parmi un ensemble de
variables est le point central d’un
processus de data mining,
c’est elle qui va conditionner la qualité
des modèles établis.
MastèreLSI
MRI3
Mohamed HAMMAMI 50
Phase de fouille de données (Apprentissage automatique)
MastèreLSI
MRI3
Mohamed HAMMAMI 51
Phase de fouille de données
Cette phase est au coeur du processus ECD.
MastèreLSI
MRI3
Mohamed HAMMAMI 53
Phase de validation et de mise en forme
MastèreLSI
MRI3
Mohamed HAMMAMI 54
Phase de validation et de mise en forme
Critères de comparaison de classifieurs :
1. Taux de précision : capacité à prédire correctement
2. Temps de calcul : temps nécessaire pour apprendre et tester f^
3. Volume de données : efficacité en présence de données de
grande taille
Taux d’erreur :
Soit la matrice de Confusion suivante:
A B
A 888 12
B 5 995
LSI 3
Mohamed HAMMAMI 55
Phase de validation et de mise en forme
Taux d'erreur global
permet de savoir comment va agir un classifieur sur l’ensemble des
données
n A. A n B. B
globale 1
card ( M )
où card(M) est le nombre total d’individu
à priori kA
n
k
A, k
LSI 3
Mohamed HAMMAMI 56
Phase de validation et de mise en forme
à posteriori kA
n
k
k.A
Remarque:
le taux d’erreur à priori est le complément du critère
classique du taux de rappel
Le taux d’erreur à posteriori est le complément du critère
classique du taux de précision
LSI 3
Mohamed HAMMAMI 57
Récapitulation
Les données
Des bits, des symboles, des nombres, des objets que nous
collectons journalièrement
Les informations
Des données sans redondances, réduites au minimum
nécessaire pour caractériser les données
Les connaissances
La connaissance est intégrée dans l’information, elle inclut
des faits et des relations entre ces faits
Elles relient les informations entre-elles
MastèreLSI
MRI3
Mohamed HAMMAMI 58
Exemple: des données aux connaissances
MastèreLSI
MRI3
Mohamed HAMMAMI 59
Logiciels d’ECD / Data Mining
Logiciels commerciaux :
SPAD (Decisia)
SAS Enterprise Miner
• Simplicité du pilotage
• Techniques variées
SPSS Clementine
• Déploiement
STATISTICA Data Miner • Outils de “reporting”
IBM Intelligent Miner
Logiciels universitaires :
TANAGRA
• Spécifiques à certaines techniques
SIPINA
• Techniques référencées - publiées
WEKA • Outils de validation
ORANGE
MastèreLSI
MRI3
Mohamed HAMMAMI 60
Chapitre 3 :
LSI 3
Mohamed HAMMAMI 61
Phase de fouille de données (Apprentissage automatique)
LSI 3
Mohamed HAMMAMI 62
Techniques de visualisation et de description
LSI 3
Mohamed HAMMAMI 63
Techniques de visualisation et de description
LSI 3
Mohamed HAMMAMI 64
Techniques de visualisation et de description
LSI 3
Mohamed HAMMAMI 65
Techniques de visualisation et de description
LSI 3
Mohamed HAMMAMI 66
Techniques de visualisation et de description
LSI 3
Mohamed HAMMAMI 67
Techniques de visualisation et de description
LSI 3
Mohamed HAMMAMI 68
Techniques de visualisation et de description
LSI 3
Mohamed HAMMAMI 69
Exemple
LSI 3
Mohamed HAMMAMI 70
Exemple
LSI 3
71
Exemple
LSI 3
Mohamed HAMMAMI 72
Exemple
LSI 3
Mohamed HAMMAMI 73
Techniques de structuration et de classification
LSI 3
Mohamed HAMMAMI 74
Techniques de structuration et de classification
LSI 3
Mohamed HAMMAMI 75
Techniques de structuration et de classification
Apprentissage non supervisé (Les classes sont
inconnues)
Exemple:
Segmentation de l’ensemble des clients d’une entreprise en
fonction de leurs habitudes d’achat
Grouper des documents ou des images pour des présentations
Attributs (Caractéristiques)
y1 y2 ... yp classe
w1 a b c 1
d’apprentissage
w2
Exemples
b c a 2
.
.
.
wn c a a 4
LSI 3
Mohamed HAMMAMI 76
Techniques de structuration et de classification
Sexe, lunettes,
sourire, chapeau
LSI 3
Mohamed HAMMAMI 77
Techniques de structuration et de classification
LSI 3
Mohamed HAMMAMI 78
Techniques de structuration et de classification
LSI 3
Mohamed HAMMAMI 79
Techniques de structuration et de classification
Dendrogramme:
Représentation
graphique des
groupes et des
combinaisons des
groupes
LSI 3
Mohamed HAMMAMI 80
Techniques de structuration et de classification
Exemple: 2 Clusters
LSI 3
Mohamed HAMMAMI 81
Techniques de structuration et de classification
Exemple: 6 Clusters
LSI 3
Mohamed HAMMAMI 82
Techniques de prédiction
LSI 3
Mohamed HAMMAMI 83
Techniques de prédiction
Apprentissage supervisé.
Exemple : prédire la qualité d’un client (rembourse ou pas
son crédit) en fonction de ses caractéristiques.
Attributs (Caractéristiques)
y1 y2 ... yp classe
w1 a b c 1
d’apprentissage
w2 b c a 2
Exemples
.
.
.
wn c a a 4
LSI 3
Mohamed HAMMAMI 84
Techniques de prédiction
Méthodes et algorithmes
Arbres de décision
Réseaux de neurones
Machines à vecteur de support (SVM)
Régression en général
Méthode des plus proches voisins
…
LSI 3
Mohamed HAMMAMI 87
Techniques de prédiction
LSI 3
Mohamed HAMMAMI 88
Techniques de prédiction
LSI 3
Mohamed HAMMAMI 89
Techniques de prédiction
LSI 3
Mohamed HAMMAMI 90
Chapitre 4 :
Apprentissage non-supervisé
LSI 3
Mohamed HAMMAMI 91
Données Connaissances
LSI 3
Mohamed HAMMAMI 92
Introduction générale
LSI 3
Mohamed HAMMAMI 93
Introduction générale
Exemples d’application :
Identifier des groupes d’individus ou de
ménages ayant un comportement
homogène vis-à-vis de :
la consommation de différents produits,
la consommation de différentes
marques ou variétés,
l’attitude par rapport à un produit,
...
LSI 3
Mohamed HAMMAMI 94
Introduction générale
Données analysées :
Un tableau individus-variables :
n individus (objets) décrits par p variables
(descripteurs) ;
un tableau à valeurs numériques
continues (valeur de la variable j pour
l’individu i) ;
un tableau de contingence (croisant deux
partition d’une même population) ;
un tableau de présence–absence (valeur
0 ou 1).
Un tableau carré symétrique de
similarités ou de distances.
LSI 3
Mohamed HAMMAMI 95
Introduction générale
Objectifs :
Constituer des groupes d’objets
homogènes et différenciés tels que :
les objets soient les plus similaires possibles
au sein d’un groupe (critère de compacité) ;
les groupes soient aussi dissemblables que
possible (critère de séparabilité).
LSI 3
Mohamed HAMMAMI 96
Introduction générale
Hypothèse :
On suppose qu’une structure de
classes existe au sein de la
population étudiée.
LSI 3
Mohamed HAMMAMI 97
Introduction générale
Représentations :
La représentation synthétique peut
être :
une typologie ;
un recouvrement (classes empiétantes) ;
une partition ;
une hiérarchie de partitions (arbre
hiérarchique) ;
une hiérarchie de recouvrements
(pyramide).
LSI 3
Mohamed HAMMAMI 98
Introduction générale
LSI 3
Mohamed HAMMAMI 99
Introduction générale
LSI 3
Mohamed HAMMAMI 100
Introduction générale
LSI 3
Mohamed HAMMAMI 101
Introduction générale
LSI 3
Mohamed HAMMAMI 102
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed HAMMAMI 103
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed HAMMAMI 104
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed HAMMAMI 105
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed HAMMAMI 106
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed HAMMAMI 107
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed HAMMAMI 108
Classification Ascendante Hiérarchique (CAH)
Première observation :
La stratégie intuitive utilisé pour passer d’une partition
Pi à la suivante Pi+1 ne remet pas en cause les
regroupements.
Si deux individus sont réunis dans une classe, ils
restent ensemble tout le temps.
Les partitions ainsi construites sont emboîtées de la
plus fine à la plus grossière.
On obtient une hiérarchie de partitions qu’on peut
représenter par un dendrogramme.
LSI 3
Mohamed HAMMAMI 109
Classification Ascendante Hiérarchique (CAH)
Deuxième observation :
LSI 3
Mohamed HAMMAMI 110
Dissimilarité entre deux points
Mesures de distance :
La plupart des techniques de classification font appel à des
mesures de distance, appelé aussi métrique.
LSI 3
Mohamed HAMMAMI 111
Dissimilarité entre deux points
Types de dissimilarité :
Selon la nature des données, on distingue quatre
groupes de critères de dissimilarité entre individus :
LSI 3
Mohamed HAMMAMI 112
Dissimilarité entre deux points
LSI 3
Mohamed HAMMAMI 113
Dissimilarité entre deux points
LSI 3
Mohamed HAMMAMI 114
Dissimilarité entre deux points
LSI 3
Mohamed HAMMAMI 115
Dissimilarité entre deux points
LSI 3
Mohamed HAMMAMI 116
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed HAMMAMI 117
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed HAMMAMI 118
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 119
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 120
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 121
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 122
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 123
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 124
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 125
Algorithme de la CAH
Choix de la meilleure partition
Si l’indice de la hiérarchie fait un saut important par passage
de la partition Pi à la partition Pi+1
Cela signifie que les deux classes que l’on vient de réunir sont
relativement éloignées.
LSI 3
Mohamed HAMMAMI 126
Algorithme de la CAH
Choix de la meilleure partition
Le saut le plus important a été effectué pour passer de P3 à
P4 car l’indice de la hiérarchie est passé de 3.35 à 7.07.
Comparativement aux précédentes valeurs, il s’agit d’une
variation brusque.
La meilleure partition est celle pour laquelle l’indice de la
hiérarchie h est tel que 3.35 ≤ h < 7.07
LSI 3
Mohamed HAMMAMI 127
Algorithme de la CAH
LSI 3
Mohamed HAMMAMI 128
Algorithme k-means
LSI 3
Mohamed HAMMAMI 129
Algorithme k-means
LSI 3
Mohamed HAMMAMI 130
Algorithme k-means
Exemple K-moyennes, étape 1:
k1
Y
Choisir 3 k2
centres
de classes
(au hasard)
k3
X
LSI 3
Mohamed HAMMAMI 131
Algorithme k-means
Exemple K-moyennes, étape 2:
k1
Y
Affecter k2
chaque point
à la classe
dont le centre
est le plus k3
proche
X
LSI 3
Mohamed HAMMAMI 132
Algorithme k-means
Exemple K-moyennes, étape 3:
k1 k1
Y
Déplacer k2
chaque centre
de classe vers k3
k2
la moyenne de
chaque classe k3
X
LSI 3
Mohamed HAMMAMI 133
Algorithme k-means
Exemple K-moyennes, étape 4:
Y
Réaffecter les
points qui sont k1
plus proches du
centre d'une autre
classe
X
LSI 3
Mohamed HAMMAMI 134
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
R : les trois
points qui
changent de k3
classe k2
X
LSI 3
Mohamed HAMMAMI 135
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
Re-calculer les
moyennes des
classes k3
k2
X
LSI 3
Mohamed HAMMAMI 136
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
Déplacer les k2
centres des k3
classes vers
les moyennes
X
LSI 3
Mohamed HAMMAMI 137
Algorithme k-means
LSI 3
Mohamed HAMMAMI 138
Algorithme k-means
Algorithme K-means
Initialisation des centroïdes avec les valeurs initiales
FIN = FAUX
TANT QUE NON FIN FAIRE
POUR chaque observation FAIRE
Trouver le centroïde le plus proche
Placer l’observation dans l’aggrégat le plus proche
FIN POUR
SI aucun changement des valeurs des centroïdes FAIRE
FIN = VRAI
SINON
Calculer les nouveaux centroïdes
FIN SI
FIN TANT QUE
LSI 3
Mohamed HAMMAMI 139
Algorithme k-means
LSI 3
Mohamed HAMMAMI 140
Algorithme k-means
K-Means :Exemple
LSI 3
Mohamed HAMMAMI 141
Algorithme k-means
K-Means :Exemple
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
LSI 3
Mohamed HAMMAMI 143
Algorithme k-means
Avantages de K-means
La grande popularité de K-means vient de :
Sa simplicité conceptuelle.
Sa rapidité
- on ne compare pas toutes les observations entre elles mais
par rapport aux centres de classes.
LSI 3
Mohamed HAMMAMI 144
Algorithme k-means
Inconvénients de K-means
Obligation de fixer à priori le nombre (K) de classes ou
clusters.
Ce choix peut se faire par simple examen visuel dans le cas de
données bidimensionnelles, mais il n'en est pas de même pour
des données de dimension supérieure.
un "mauvais choix" pour la valeur de K conduira alors à une
typologie sans rapport avec la réalité.
Les k-means sont souvent précédées d’une ACP (Analyse en
Composantes Principales). Une autre solution consiste à
effectuer d’abord une CAH (Classification Ascendante
Hiérarchique).
LSI 3
Mohamed HAMMAMI 145
LSI 3
Mohamed HAMMAMI 146
Chapitre 5 :
Apprentissage supervisé
LSI 3
Mohamed HAMMAMI 147
Classification supervisée
Principe
On utilise des données « historiques » ou connues pour
construire un modèle.
Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations
LSI 3
Mohamed HAMMAMI 148
Classification supervisée
Exemple introductif: Modèle de prédiction pour le diagnostic
Chaque instance est décrite par un vecteur d’ attributs/valeurs
Toux Fièvre Poids Douleur
Mariem non oui normal gorge
Farid non oui normal abdomen
Salah oui oui maigre aucune
Nizar oui non obese tête
X:E
X est la fonction qui associe à tout élément de sa description
Y:K
Y est la fonction qui associe à tout élément de sa classe
S C (S)
X :
S X(S) = (X1, , X2, X3..........
.Xn )
Critères utilisés :
n_mots, n_v_mots, n_v_url , n_v_meta, n_liens, n_v_liens,
n_images, Npw …..
LSI 3
Mohamed HAMMAMI 151
Classification supervisée
Apprendre, c'est trouver une fonction F …
Gros plan
Plan américain
I C(I )
À pieds
X :
I X(I) = Ppeau
LSI 3
Mohamed HAMMAMI 152
Classification supervisée
Apprendre, c'est trouver une fonction F …
Exemple 3: Prédire la solvabilité d’un client
Construction du modèle sur des individus avec la variable cible connue
X1 X2 X3 X4 X5….. Xn Y
age sexe CA 2008 matrimonial ... solvabilité
32 M 125000 Married ... Y
25 M 254000 Single ... N
37 F 265000 Married ... Y
Modèle prédictif : F(X1, .. Xn)
52 M 126000 Divorced ... N
24 F 265000 Veuf ... Y
29 F 345000 Married ... Y
36 F 362000 Married ... N
34 M 654000 Single ... N
Autres exemples
Prédiction de
Faillite
Non remboursement de prêt
Détection de fraude
…
LSI 3
Mohamed HAMMAMI 154
Classification supervisée
Plusieurs techniques:
Arbres de décision
Réseaux de neurones
Machines à vecteur de support (SVM)
Réseaux bayésiens
Algorithmes génétiques, ….
…
LSI 3
Mohamed HAMMAMI 155
Arbres de décision
Principe
Classer les objets en sous-classes par divisions hiérarchiques
=> construction automatique à partir d ’un échantillon de la base
Algorithme de base :
1. Choisir le "meilleur" attribut
2. Etendre l'arbre en rajoutant une nouvelle branche pour chaque
valeur de l'attribut
3. Répartir les exemples d'app. sur les feuilles de l'arbre
4. Si aucun exemple n'est mal classé alors arrêt,
sinon repéter les étapes 1-4 pour les feuilles
LSI 3
Mohamed HAMMAMI 156
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2
LSI 3
Mohamed HAMMAMI 157
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2
LSI 3
Mohamed HAMMAMI 158
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2
LSI 3
Mohamed HAMMAMI 159
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v2 v1
Un parcours
V1<Y
v3
v2
Si V3 > X
et V1 < Y
alors <Classe>
LSI 3
Mohamed HAMMAMI 161
Exemple introductif
LSI 3
Mohamed HAMMAMI 162
Comment construire un arbre de décision ?
LSI 3
Mohamed HAMMAMI 163
Nœud racine de l’arbre
LSI 3
Mohamed HAMMAMI 164
Comment éclater le nœud racine ?
+
+ J4,J5,J10
J9,J11 J6,J14
- J1,J2,J8 -
+ J3,J13,J7,J12
-
LSI 3
Mohamed HAMMAMI 165
Comment éclater le nœud racine ?
+ J3,J13 + J5,J7,J9
- J1,J2 - J6
+ J4,J10,J11,J13
- J8,J14
LSI 3
Mohamed HAMMAMI 166
Comment éclater le nœud racine ?
+ J3,J4,J12 + J5,J7,J9,J10,J11,J13
- J1,J2, J8, J14 - J6
LSI 3
Mohamed HAMMAMI 167
Comment éclater le nœud racine ?
+ J3,J4,J5,J9,10,J13 + J7,J11,J12
- J1,J8 - J2,J6,J14
LSI 3
Mohamed HAMMAMI 168
Quelle est la variable à choisir ?
LSI 3
Mohamed HAMMAMI 169
Quelle est la variable à choisir ?
LSI 3
Mohamed HAMMAMI 170
Quelle est la variable à choisir ?
LSI 3
Mohamed HAMMAMI 171
Deuxième partition de l’arbre
9 (64,3%)
S0 5 (36,7%)
LSI 3
Mohamed HAMMAMI 172
Quel est le nœud à éclater ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed HAMMAMI 173
Quelle est la variable à choisir ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed HAMMAMI 174
Quelle est la variable à choisir ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed HAMMAMI 175
Quelle est la variable à choisir ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed HAMMAMI 176
Troisième partition de l’arbre
9 (64,3%)
S0 5 (36,7%)
High Normal
S2
0 (0%) 2 (100%)
3 (100%) 0 (0%)
LSI 3
Mohamed HAMMAMI 177
Quatrième partition de l’arbre
9 (64,3%)
5 (36,7%)
S3
LSI 3
Mohamed HAMMAMI 178
Mesure d’impureté
Il y a le plus souvent de nombreux arbres de
décision possibles corrects.
Entropie de Shannon
Entropie de Boltzmann
Index de Gini
LSI 3
Mohamed HAMMAMI 180
Entropie de Shannon
Shannon en 1949 a proposé une mesure d’entropie
valable pour les distributions discrètes de probabilité.
LSI 3
Mohamed HAMMAMI 181
Entropie de Shannon
9 9 5 5 9 (64,3%) Yes
I ( s0 ) log 2 ( ) log 2 ( ) 0,94
14 14 14 14 5 (36,7%) No
2 2 3 3
I ( s11 ) log 2 ( ) log 2 ( ) 0,97
5 5 5 5
NB
4 4 0 0
I (s12 ) log2 ( ) log2 ( ) 0 Log2(x) = Log(x) / Log(2)
4 4 4 4
3 3 2 2
I ( s13 ) log 2 ( ) log 2 ( ) 0,97
5 5 5 5
LSI 3
Mohamed HAMMAMI 182
Entropie de Shannon
Card( s)
I (S ) I ( s)
sS Card ()
LSI 3
Mohamed HAMMAMI 183
Entropie de Shannon
9 (64,3%) Yes
5 (36,7%) No
5 4 5
I (S ) I (s11 ) I (s12 ) I (s13 )
14 14 14
LSI 3
Mohamed HAMMAMI 184
Entropie de Shannon
Critère de partitionnement
Gain d’incertitude:
(st1)I(St)I(St1)
LSI 3
Mohamed HAMMAMI 186
Arbre final obtenu
Outlook
sunny rain
overcast
No Yes No Yes
LSI 3
Mohamed HAMMAMI 187
Algorithmes d’apprentissage
ID3 [Quinlan,1986]
C4.5 [Quinlan,1993]
CART [Briemen,1984]
SIPINA [Zighed,1992]
...
LSI 3
Mohamed HAMMAMI 188
ID3, C4.5
1 0 4
10 8 2
S5 S6 S7
LSI 3
Mohamed HAMMAMI 189
ID3, C4.5
- Critère de partitionnement
ID3 maximiser le gain d’incertitude entre I(St) et I(St+1)
Utilisation de l’entropie de Shannon:
Exemple:
So
( St 1 ) I ( S1 ) I ( S3 , S 4 )
10
S1 S2
10 log210 20log2 20 20
30 30 30 30 Xj
- [ - 25 ( 5 log 2 5 + 20 log 2 20) - 5 (5 log 2 5 + 0 log 2 0)]
30 25 25 25 25 30 5 5 5 5 5 5
S3 S4
20 0
Xi
= 0.9183- 0.7739
= 0.1443 1 0 4
10 8 2
S5 S6 S7
LSI 3
Mohamed HAMMAMI 190
ID3, C4.5
C4.5 I ( S j ) ( St 1 )
( S t 1 )
nkj nkj
log 2
k 1 n j nj
I ( S1 ) I ( S 3 , S 4 )
( S t 1 )
Sur le même exemple: 25 25 5 5
log 2 log 2
30 30 30 30
LSI 3
Mohamed HAMMAMI 191
ID3, C4.5
Conditions d’arrêt:
1. Tous le sommets sont saturés
2. Contrainte d’admissibilité
3. Gain d’information minimal
LSI 3
Mohamed HAMMAMI 192
CART
Soit : ng card(Sg)
Sg1 Sd1
nd card(Sd)
Critères utilisés
Indice de Gini : M=2
Indicateur de Towing : M>2
Élagage d’arbre
CART: oui
LSI 3
Mohamed HAMMAMI 193
CART
2
ng nd
m nig n
JT ( sg sd )
n n
id
4 i 1 ng nd
LSI 3
Mohamed HAMMAMI 195
SIPINA
Avantages SIPINA ?
Exclusivement Divisif
Méthodes arborescentes
Insensibilité à l effectif
Fusion
SIPINA
Sensibilité à l’effectif
LSI 3
Mohamed HAMMAMI 196
SIPINA
40 0 4 0
0 20 0 2
A B
LSI 3
Mohamed HAMMAMI 197
SIPINA
• Non décroissance du critère
S0 40
20
(S)0
20 20
S={S1,S2} S0 est équivalente à S
10 10
LSI 3
Mohamed HAMMAMI 198
SIPINA
Objectif: maximiser (Si)
Ajout d’un parametre λ
qui contrôle le développement du graphe et pénalise
les nœuds de faible effectif
de ce fait , favorise les fusions entre les sommets
S0
S1 S2
S3 S4 S5 S6
S9
LSI 3
Mohamed HAMMAMI 199
SIPINA
Critère de partitionnement
maximiser le gain d’incertitude:
(SI )I(Si)I(Si1)
Utilisation de l’entropie de Shannon:
K nj m nij nij
I (S i ) log 2
j 1 n
i 1 n j m n j m
LSI 3
Mohamed HAMMAMI 200
SIPINA
S3
S1 S2
S i31 s 2 , s1 s3 ( )
S i31
Repartir à la phase 1
LSI 3
Mohamed HAMMAMI 201
SIPINA
- Sur chacun des sommets issu d’un regroupement, on cherche par ´éclatement,
avec toutes les variables Xj la meilleure partition
LSI 3
Mohamed HAMMAMI 202
SIPINA
LSI 3
Mohamed HAMMAMI 203
Inconvénients des arbres de décision
LSI 3
Mohamed HAMMAMI 204