Cours Machine Learning

Machine Learning
Mohamed HAMMAMI
Professeur à la FSS – Université de Sfax
mohamed.hammami@fss.usf.tn
LSI 3
Syllabus du cours
Objectifs
 Sensibiliser les étudiants à l’importance du Machine Learning
en tant que nouvel domaine technologique;
 Positionner le Machine Learning dans le processus ECD ;
 Maîtrise des principes théoriques de quelques techniques de
Machine Learning (classification, prédiction, etc) ;
 Manipulation d’outils logiciels de Machine Learning.
Pré-requis : Connaissances en statistiques utiles,

mais pas indispensables
LSI 3
Mohamed HAMMAMI 2
Plan du Cours
Chapitre 1 : Introduction au Machine Learning

Chapitre 2 : Processus ECD
Chapitre 3 : Techniques de Machine Learning
Chapitre 4 : Apprentissage Non-supervisé
Chapitre 5 : Apprentissage supervisé
LSI 3
Mohamed HAMMAMI 3
Chapitre 1:
Introduction au Machine Learning
LSI 3
Mohamed HAMMAMI 4
Problématique de base
De plus en plus de
données sont générées :
 Banques, télécommunication,
domaines commerciaux ...
 Données scientifiques :
astronomie, biologie, etc.
 Web : texte, images, son,
vidéo, etc.
 E-commerce
De nos jours, les entreprises accumulent

au quotidien de gros volumes de données
LSI 3
Mohamed HAMMAMI 5
Quelques exemples concrets

…
 interféromètre européen VLBI
(Very Long Baseline Interferometry)
possède 16 télescopes, dont
chacun produit 1 Go par seconde
de données astronomiques.
 Le stockage et l’analyse de
ces données constituent un
problème à part entière
LSI 3
Mohamed HAMMAMI 6
Quelques exemples concrets …

 AT&T le plus grand fournisseur de
services téléphoniques à l’Etats-Unis gère
des milliards d'appels téléphoniques par
jour
Le stockage des données relatives est

très difficile
 L’analyse en temps réel de ces appels
est encore plus difficile
LSI 3
Mohamed HAMMAMI 7
Quelques chiffres concrets …

 BD commerciales (selon le Winter Corp. 2003
Survey) :
AT&T ~ 26 To (1Terra Octet = 1024 Go).
France Telecom ~ 30 To
Web :
Alexa internet archive (www.alexa.com) 7 ans de
données ~ 500 To
Google searches ~ plus de 4 Milliards de pages ~
plusieurs centaines de To
WebFountain d’IBM (2003) ~ 160 To
Internet Archive (www.archive.org) ~ 300 To
LSI 3
Mohamed HAMMAMI 8
Quelques chiffres concrets …

Selon UC Berkeley (2003) :
5 Eo (5 millions To) est la taille des données crées dans le
monde durant l’année 2002
Environ 40% de ces données sont produites par les Etats Unis
www.sims.berkeley.edu/research/projects/how-much-info-2003/
Selon IDC study (2007) :

161 Eo (161 millions To) est la taille des données crées dans le
monde durant l’année 2006
Pour l’année 2010, on projette la création de 988 Eo
www.usatoday.com/tech/news/2007-03-05-data_N.htm
LSI 3
Mohamed HAMMAMI 9
Les outils automatiques de collecte de données font que

les Bases de Données (BD’s) contiennent énormément de
données
Le développement du matériel informatique et la baisse

des coûts ont permis à de nombreux organismes de
constituer de grandes masses de données à moindre
frais
On estime que la quantité de données dans le monde

double tous les vingt mois [Kodratoff 1997].
LSI 3
Mohamed HAMMAMI 10
Malheureusement cette masse d’information souvent
sous exploitée
Beaucoup de données mais peu de connaissances !
Nécessité d’exploiter ces données

Est-il possible de valoriser ces données amassées ?
Est-il possible de s’en servir pour prendre des décisions ou

éclairer des choix pour l’entreprise ?
Quelles données sont utiles ?
L’explication se cache dans les données auxquelles on
ne pense pas
Compréhension de phénomènes complexes
 Solution: Data Mining, Machine Learning
LSI 3
Mohamed HAMMAMI 11
Qu’est-ce que le Data Mining ?
Zighed(1995)
Extraction d’informations intéressantes (non triviales, implicites,

préalablement inconnues et potentiellement utiles) à partir de
grandes bases de données
Fayyad et al. (1997) :
Data Mining is a step in the KDD process that consists of applying

data analysis and discovery algorithms that produce a particular
enumeration of patterns (or models) over the data.
LSI 3
Mohamed HAMMAMI 12
Qu’est-ce que le Data Mining ?
Wikipédia :
Le Data Mining est un processus d’extraction de connaissances

valides et exploitables à partir de grands volumes de données.
Le Data Mining a pour objet l’extraction d’un savoir ou d’une

connaissance à partir de grandes quantités de données, par des
méthodes automatiques ou semi-automatiques, et l’utilisation
industrielle ou opérationnelle de ce savoir.
Autres appellations:
- ECD (Extraction de Connaissances à partir de Données)
- KDD (Knowledge Discovery from Databases)
- Fouille de données,
- Machine Learning etc …
LSI 3
Mohamed HAMMAMI 13
Origines du Data Mining
L’expression Data Mining est apparue vers le début

des années 1960 (sens péjoratif)
L’avènement des ordinateurs a permis d’effectuer toutes
sortes de calculs qu’on ne pouvait faire manuellement.
Certains chercheurs, principalement des informaticiens, ont
commencé à traiter sans a priori statistique les tableaux de
données relatifs à des enquêtes ou à des expériences.
Les résultats obtenus sont prometteurs et loin d’être aberrants !
Une tendance à systématiser cette approche opportuniste !
Les statisticiens trouvaient cette démarche peu scientifique et

utilisèrent les termes Data Mining ou Data Fishing pour la
critiquer
LSI 3
Mohamed HAMMAMI 14
La diffusion de l’analyse de données (Jean-Paul

Benzecri)
 Succès de cette démarche empirique malgré les critiques des
statisticiens
L’analyse des données s’est développée en parallèle

avec la taille des BD
Fin des années 1980 : Agrawal Rakesh (chercheurs en

BD) propose l’exploitation du contenu des BD
volumineuses relatives aux tickets de caisses de
grandes surfaces
 Premiers algorithmes de recherche de règles d’association
 Ces algorithmes ont étaient critiqués par les statisticiens et les
spécialistes de l’induction en raison de leur naïveté
méthodologique
LSI 3
Mohamed HAMMAMI 15
Les algorithmes de recherche de règles d’association

ont été ramenés dans un cadre méthodologique plus
rigoureux faisant usage de théories reconnues
(treillis de Gallois, décomposition optimale de
relations binaires)
On a adopté l’expression Data Mining
Mars 1989 : Piatetsky-Shapiro proposa le terme

Knowledge Discovery à l’occasion d’un atelier sur la
découverte des connaissances dans les BD
Aujourd’hui, les termes Data Mining et Knowledge Discovery
in Databases (KDD) sont utilisés plus ou moins indifféremment
LSI 3
Mohamed HAMMAMI 16
En 1995, la communauté de Data Mining a

initié sa première conférence
En 1997, publication du premier numéro de

la revue Data Mining and Knowledge
Discovery Journal
Plusieurs conférences on data mining

PAKDD, PKDD, SIAM-Data Mining,
(IEEE) ICDM, DaWaK, SPIE-DM, etc.
En France : EGC janvier 2001 (Nantes),

janvier 2002 (Montpellier), janvier 2003
(Lyon),..., janvier 2010 (Hammamet).
LSI 3
Mohamed HAMMAMI 17
Cas d’applications: Commerce
Si on baisse le prix du Coca-Cola de 5%, alors

on va en augmenter les ventes de 15%
 On savait cette connaissance sans Data Mining !
 Le Data Mining révèle que les ventes des cacahuètes vont

augmenter dans une proportion voisine
 Association d’idées : « Puisque j’achète du Coca, il me faut
aussi des cacahuètes »
 Si la marge sur le Coca-Cola est relativement faible, et celle sur
les cacahuètes importantes . . .
 Baisser le prix du Coca-Cola est un moyen de vendre plus
de cacahuètes !
LSI 3
Mohamed HAMMAMI 18
Cas d’applications: Analyse des risques
Détection de fraudes pour les assurances
Analyse des déclarations des assurés par un expert afin

d’identifier les cas de fraudes.
Extraction de caractéristiques à partir de ces déclarations (type

d’accident, de blessures, etc...)
Applications de méthodes statistiques pour identifier les

caractéristiques des déclarations fortement corrélées à la fraude.
Prêt Bancaire
Objectif des banques : réduire le risque des prêts bancaires.
Créer un modèle à partir de caractérisques des clients pour

discriminer les clients à risque des autres.
LSI 3
Mohamed HAMMAMI 19
Cas d’applications: E-Commerce
Le Web Usage Mining
Comment les personnes naviguent-elles sur Internet ?

 Web Usage Mining (Clickstream Analysis)
Information sur les chemins de navigation disponibles dans

des fichiers logs.
Principe :
«fouiller» ces données pour
en produire de l’information
et de la connaissance
LSI 3
Mohamed HAMMAMI 20
Le Web Usage Mining
Pourquoi analyse l’usage des sites Web ?
La connaissance sur la manière dont les visiteurs utilisent

un site Web permet :
 D’ajuster la conception des pages et des liens et d’améliorer les
performances des sites
Aider le concepteur à positionner l’information importante que les
visiteurs recherchent.
 Fournir des sites adaptatifs (personnalisation)
 Les associations de pages côté client permet d’optimiser le
cache du navigateur, d’effectuer du « prefetching »
LSI 3
Mohamed HAMMAMI 21
30%Promo
« 75% des parisiens qui achètent une raquette de tennis achètent

trois mois après des chaussures »
Modification dynamique
LSI 3
Mohamed HAMMAMI 22
Cas d’applications du Data Mining
Science : astronomie, bioinformatiques, détection de drogues, etc.

Commerce : rapport avec la clientèle, détection de fraudes,
marketing, e-commerce, risque de crédit, etc.
Web : moteurs de recherche, publicité, Web mining, text mining,
etc.
Gouvernement : surveillance, détection des crimes, profiling tax
cheaters (profilage tricheurs fiscaux), etc.
Autres domaines : production industrielle, sports,
télécommunication, transport, etc.
LSI 3
Mohamed HAMMAMI 23
Facteurs d’émergence du Data Mining
Intérêt économique : du produit aux clients.

De nos jours, la concurrence de plus en plus forte et les
clients sont de plus en plus exigeants.
On est passé d’une économie orientée produit vers une
économie orientée client on parle aujourd'hui du CRM
La connaissance du comportement du client est décisive !
Est-il possible de découvrir des associations entre

produits achetés afin de mieux les disposer sur les rayon ?
Est-il possible de proposer des produits de substitution ou
encore mieux cibler une clientèle ?
LSI 3
Mohamed HAMMAMI 24
Facteurs d’émergence du Data Mining
Technologie de l’information
 faible coût de stockage de données,
 saisie automatique de transaction (code bar, click,
données de localisation GPS, internet)
Augmentation de la puissance de calculs des

ordinateurs (loi de Moore)
Extraire de la connaissance à partir de grande bases

de données devient possible
LSI 3
Mohamed HAMMAMI 25
Le Data Mining et le KDD
Une confusion subsiste encore entre Data Mining (Fouille de

données) et Knowledge Discovery in Databases (ECD -
Extraction des Connaissances à partir des Données).
Le Data Mining est l’un des maillons de la chaîne de traitement

pour le processus de découverte des connaissances à partir
des données.
 Le Data Mining est la pierre angulaire du processus ECD !
L’ECD, par le biais du Data Mining, est alors vue comme une ingénierie
pour extraire des connaissances à partir des données.
LSI 3
Mohamed HAMMAMI 26
Le Data Mining et le KDD
LSI 3
Mohamed HAMMAMI - 27
Principaux avantages du Data Mining
Aide à la prise de décisions des dirigeants (ne les remplace
pas!)
Détecte les relations entre les données et permet de faire des
liens pertinents.
Étudie le passé dans le but de faire des prédictions dans le futur.
Augmente la satisfaction des clients grâce à une approche plus
personnalisée.
Permet de mieux cerner et connaître la clientèle.
Peut augmenter les revenus et diminuer les coûts de entreprise.
Selon le MIT (Massachussets Institute of Technology), le Data Mining est l’une

des 10 technologies émergeante qui changeront le monde au 21ème siècle.
LSI 3
Mohamed HAMMAMI 28
Chapitre 2 :
Processus ECD
LSI 3
Mohamed HAMMAMI 29
Qu’est-ce que le processus ECD ?
Fayyad et al. (1996)
"un processus non-trivial d’identification de structures inconnues, valides et

potentiellement exploitables dans les bases de données
Zighed et al. (2001)
L’ECD est un processus qui fait intervenir des méthodes et des outils issus
de différents domaines en vue de découvrir des connaissances utiles.
L’ECD vise à transformer les données en connaissances
LSI 3
Mohamed HAMMAMI 30
L’ECD est un processus qui met en oeuvre un ensemble de
techniques provenant :
 des bases de données ;  de l’analyse des données ;
 de la statistique ; des techniques de visualisation
 de l’intelligence artificielle ; des interfaces de communication

homme-machine.
LSI 3
Mohamed HAMMAMI 31
Les connaissances peuvent s’exprimer :

 sous forme d’un concept général qui enrichit le champ
sémantique de l’usager ;
 sous forme d’un rapport ou d’un graphique ;
 comme un modèle mathématique ou logique pour la prise de

décision ;
 comme modèle explicites pour alimenter un système à base
de connaissances ou un système expert.
LSI 3
Mohamed HAMMAMI 32
Définition générale de l’ECD
L’approche de l’ECD se veut la plus générale possible :

Elle ne privilégie pas une source particulière d’informations
données localement stockées
données distribuées sur plusieurs sources
Elle ne privilégie pas une nature spécifique des données

données structurées en attributs-valeurs
des textes de longueurs variables
des images
des séquences vidéo
Elle ne se limite pas à des outils d’analyse spécifiques

méthodes pour la préparation des données
méthodes pour l’analyse
méthodes pour la validation des connaissances
LSI 3
Mohamed HAMMAMI 33
Définition générale de l’ECD
L’Extraction de Connaissances à partir de

Données (ECD) est un processus complexe qui se
déroule suivant une série d’opérations:
Nous pouvons regrouper ces opérations en trois

étapes majeures.
1. la préparation des données,
2. la fouille de données à proprement parler qui est

l’étape centrale de l’ECD
3. et enfin la validation des modèles ainsi élaborés
LSI 3
Mohamed HAMMAMI 34
Processus de l’ECD
LSI 3
Mohamed HAMMAMI 35
Phase d’acquisition des données
LSI 3
Mohamed HAMMAMI 36
Préliminaires
 Bien délimiter le problème de la fouille de données.
 Ne pas se lancer dans l’ECD sans définir les objectifs.
 Avoir une idée claire sur les moyens technologiques à
disposition.
Exemple : Comprendre pourquoi certains clients d’une entreprise se sont

tournés vers une entreprise concurrente ?
 Toutes les données du système d’information de l’entreprise ne sont
certainement pas utiles dans leur intégralité pour traiter ce problème
particulier.
 Télécharger tout le contenu du Web pour en extraire des connaissances ! !
LSI 3
Mohamed HAMMAMI 37
Objectif
 La phase d’acquisition vise à cibler l’espace des données qui va être
exploré.
« Le spécialiste du Data Mining agit à l’image du géologue qui définit des zones de
prospection en étant persuadé que certaines régions seront probablement vite
abandonnées car elles ne recèlent aucun ou peu de minerais. »
Outils
 Moteurs de requêtes des bases de données comme SQL.
 Outils de requêtes spécifiques aux données non structurées
(données textuelles, images Web)
 Moteurs de recherche d’informations par le contenu.
LSI 3
Mohamed HAMMAMI 38
Nettoyage des données

 La phase d’acquisition sert généralement à nettoyer les
données qui sont rapatriées.
 Laisser tomber un attribut peu ou mal renseigné.
 Limiter le nombre d’enregistrements que l’on souhaite traiter.
 Utilisation de filtres adaptés.
 Utilisation des techniques d’échantillonnage.
Résultat
 Un stock de données contenant potentiellement l’information
ou la connaissance recherchée.
 Un échantillon de données tirées du monde réel.
 Données relatives à des événements passés.
LSI 3
Mohamed HAMMAMI 39
Phase de préparation des données
LSI 3
Mohamed HAMMAMI 40
Les techniques de Data Mining traitent généralement

des tableaux de données numériques rangées sous
forme d’individus-variables.
Certaines méthodes sont plus contraignantes que

d’autres :
 elles peuvent exiger des données binaires (premières
techniques de recherche de règles d’association)
 elles peuvent exiger des données de types particuliers
(variables qualitatives, variables quantitatives)
 effectuer une série de transformations pour obtenir des
données adaptées aux méthodes à utiliser.
LSI 3
Mohamed HAMMAMI 41
Les principales opérations de préparation sont :

 La sélection de lignes et/ou colonnes
 Le traitement des données manquantes ou aberrantes
 Les transformations d’attributs
 Le traitement des données complexes
LSI 3
Mohamed HAMMAMI 42
Exemple: préparation des données
LSI 3
Mohamed HAMMAMI 43
Doublons, erreurs de saisie
 un doublon donne plus d’importance à la donnée répétée
 Une erreur de saisi peut à l’inverse cacher une répétition
Intégrité de domaine
 Un contrôle sur les domaines de valeurs peut révéler des valeurs
aberrantes
Informations manquantes
 Données avec des champs ne contenant aucune donnée
 Parfois le manque d’information est une information
 Les valeurs des autres champs peuvent être utiles
LSI 3
Mohamed HAMMAMI 44
LSI 3
Mohamed HAMMAMI 45
LSI 3
Mohamed HAMMAMI 46
Enrichissement des données
But : enrichir nos données

 Acheter ou produire d’autres bases
Ajout de nouveaux champs en conservant le même nombre

d’enregistrements
 Faire des conversions si les données sont de formats différents
 Effectuer une nouvelle étape de nettoyage de données
Les données ajoutées peuvent contenir des erreurs, des oublis,

etc.
MastèreLSI
MRI3
Mohamed HAMMAMI 47
Enrichissement des données
MastèreLSI
MRI3
Mohamed HAMMAMI 48
Codage et normalisation
 Regroupement
 Certains attributs prennent un très grand nombre de valeurs
discrètes possibles
 Le regroupement en des sous-ensembles permet de réduire le
nombre de valeurs considérées
 Région : Tunis, Sfax / Age : jeune, adulte, vieux
 Changement de type
 Simplifier les types de données afin de faciliter les comparaisons
et les calculs de distance, etc.
 Date de naissance  Age / Date d’abonnement Durée
MastèreLSI
MRI3
Mohamed HAMMAMI 49
Sélection de variables
 Les données issues de le phase
d’acquisition ne sont pas
nécessairement toutes exploitables
par des techniques de Data Mining.
 La recherche des variables
pertinentes parmi un ensemble de
variables est le point central d’un
processus de data mining,
 c’est elle qui va conditionner la qualité
des modèles établis.
 La sélection des variables non ou

faiblement pertinentes peut réduire la
compréhension et les performances
de reconnaissance d’un modèle.
MastèreLSI
MRI3
Mohamed HAMMAMI 50
Phase de fouille de données (Apprentissage automatique)
MastèreLSI
MRI3
Mohamed HAMMAMI 51
Phase de fouille de données
Cette phase est au coeur du processus ECD.
Les méthodes de Data Mining permettent de découvrir ce que

contiennent les données préparées comme informations ou
modèles utiles.
Trois catégories de méthodes :

 Les méthodes de visualisation et de description ;
 Les méthodes de classification et de structuration ;
 Les méthodes de prédiction.
Certaines méthodes sont mieux adaptées à des données

numériques continues alors que d’autres sont plus
généralement dédiées aux traitements de tableaux de données
qualitatives.
Les méthodes de Data Mining sont, le plus souvent,

complémentaires.
MastèreLSI
MRI3
Mohamed HAMMAMI 52
Phase de validation et de mise en forme
MastèreLSI
MRI3
Mohamed HAMMAMI 53
Les modèles extraits ne peuvent être utilisés

directement en toute fiabilité.
 Il faut les évaluer, les soumettre à l’épreuve de la réalité et
apprécier leur justesse.
Estimer le taux d’erreur du modèle.
En apprentissage supervisé, le taux d’erreur est

généralement calculé à partir de la matrice de
confusion.
La matrice de confusion donne le pourcentage

d’affectation dans les différentes classes en fonction
des classes d’origine
MastèreLSI
MRI3
Mohamed HAMMAMI 54
Critères de comparaison de classifieurs :
1. Taux de précision : capacité à prédire correctement
2. Temps de calcul : temps nécessaire pour apprendre et tester f^
3. Volume de données : efficacité en présence de données de
grande taille
Taux d’erreur :
Soit la matrice de Confusion suivante:
A B
A 888 12
B 5 995
LSI 3
Mohamed HAMMAMI 55
Taux d'erreur global
 permet de savoir comment va agir un classifieur sur l’ensemble des
données
n A. A  n B. B
 globale  1
card ( M )
où card(M) est le nombre total d’individu
Taux d'erreur à priori

 c’est la probabilité qu’un individu appartenant à la classe k ne soit pas
affecté à la classe k.
 Il s’agit en effet de calculer le taux d’erreur relatif à chaque classe
 pour notre exemple et pour la classe A, le taux d’erreur à priori est
donné par l’équation suivante :
n A, k
 à priori kA
n
k
A, k
LSI 3
Mohamed HAMMAMI 56
Taux d'erreur à posteriori

 c’est la probabilité qu’un individu affecté à la classe k
appartienne effectivement à la classe k.
 pour notre exemple et pour la classe A, le taux d’erreur a
posteriori est :
n k.A
 à posteriori kA
n
k
k.A
Remarque:
 le taux d’erreur à priori est le complément du critère
classique du taux de rappel
 Le taux d’erreur à posteriori est le complément du critère
classique du taux de précision
LSI 3
Mohamed HAMMAMI 57
Récapitulation
Les données
Des bits, des symboles, des nombres, des objets que nous
collectons journalièrement
Les informations
Des données sans redondances, réduites au minimum
nécessaire pour caractériser les données
Les connaissances
La connaissance est intégrée dans l’information, elle inclut
des faits et des relations entre ces faits
Elles relient les informations entre-elles
MastèreLSI
MRI3
Mohamed HAMMAMI 58
Exemple: des données aux connaissances
MastèreLSI
MRI3
Mohamed HAMMAMI 59
Logiciels d’ECD / Data Mining
Logiciels commerciaux :
SPAD (Decisia)
SAS Enterprise Miner
• Simplicité du pilotage
• Techniques variées
SPSS Clementine
• Déploiement
STATISTICA Data Miner • Outils de “reporting”
IBM Intelligent Miner
Logiciels universitaires :
TANAGRA
• Spécifiques à certaines techniques
SIPINA
• Techniques référencées - publiées
WEKA • Outils de validation
ORANGE
MastèreLSI
MRI3
Mohamed HAMMAMI 60
Chapitre 3 :
Techniques de Data Mining
LSI 3
Mohamed HAMMAMI 61
Phase de fouille de données (Apprentissage automatique)
Cette phase est au coeur du processus ECD.
Trois catégories de méthodes :

Les techniques de visualisation et de description ;
Les techniques de classification et de structuration ;
Les techniques de prédiction.
Deux catégories d’apprentissage :

Apprentissage non-supervisé (Unsupervised Learning).
Apprentissage supervisé (Supervised Learning) ;
Procédure obtenue = "classifieur"
LSI 3
Mohamed HAMMAMI 62
Techniques de visualisation et de description
Le Data Mining descriptif

Mettre en évidence des informations présentes mais
noyées par le volume de données.
Trouver un résumé des données qui soit le plus

intelligible
Statistique descriptive
Analyse factorielle
Codage graphique
Interface Homme-Machine
LSI 3
Mohamed HAMMAMI 63
LSI 3
Mohamed HAMMAMI 64
LSI 3
Mohamed HAMMAMI 65
LSI 3
Mohamed HAMMAMI 66
LSI 3
Mohamed HAMMAMI 67
Angleterre, 1831. Un patient sur deux meurt !
À cette époque, on pensait que le choléra était transmis par

les miasmes, c'est-à-dire un mauvais air, avec la croyance que
les personnes de « mauvaise moralité » étaient plus
vulnérables !
Les observations du Docteur John Snow sont incompatibles

avec cette théorie dominante. Si le mauvais air est à l’origine
de la maladie, celle-ci doit être répartie de façon homogène et
toucher toutes les catégories sociales
il constate que la maladie apparaît surtout à la fin de l'été,

frappant presque toujours chez des patients pauvres, vivant
dans des conditions très misérable.
LSI 3
Mohamed HAMMAMI 68
Dr. John Snow suit de près l’évolution de l’épidémie et réalise

une minutieuse enquête, répertoriant le domicile de chaque
patient sur une carte. Il découvre la cause probable des cas
de choléra.  L’épicentre de l’épidémie est localisé près d’une
pompe de Broad Street
LSI 3
Mohamed HAMMAMI 69
Exemple
A partir d'un tableau individus variables, on fera dans un

premier temps une description unidimensionnelle de
chacune des variables, prise séparément.
LSI 3
Mohamed HAMMAMI 70
Exemple
Le nombre d'individus étant généralement grand, voire très grand, une

telle série brute est difficilement lisible et interprétable. Il est
indispensable de la résumer.
Pour cela, on commence par un tri à plat, décompte des modalités ou
valeurs obtenues, qui nous servira de base à la construction de
tableaux et de graphiques.
LSI 3
71
Exemple
Le but est d'obtenir des résumés clairs et concis, mais en conservant

l'essentiel de l'information contenue dans les données initiales, et en
utilisant des techniques objectives ne donnant pas une image
déformée de la réalité.
Voici quelques exemples des tableaux et graphiques à obtenir :
LSI 3
Mohamed HAMMAMI 72
Exemple
Et voici quelques exemples de ce qu'il ne faut pas faire !
LSI 3
Mohamed HAMMAMI 73
Techniques de structuration et de classification
But : détecter au sein d’un ensemble de données non

étiquetées des groupes d ’objets «similaires»
 Apprentissage non supervisé
Organisation des données en groupes (clusters) de

façon à ce que les données similaires soient dans le
même groupe
2 optimisations:
 Similarités entre les données dans un groupes aussi élevées que
possible (intra-groupe)
 Grande homogénéïté de chaque classe
 Similarités entre les données de différents groupes aussi
distinctes que possible (inter-groupe)
 Bonne séparation des classes
LSI 3
Mohamed HAMMAMI 74
Approches de regroupement (Clustering)

 Algorithmes hiérarchiques: Créer une décomposition hiérarchique
des objets selon certains critères
 Algorithmes de Partitionnement: Construire plusieurs partitions
puis les évaluer selon certains critères
 Algorithmes basés sur la densité: basés sur des notions de
connectivité et de densité
 Algorithmes à modèles: Un modèle est supposé pour chaque
cluster ensuite vérifier chaque modèle sur chaque groupe pour
choisir le meilleur
LSI 3
Mohamed HAMMAMI 75
Apprentissage non supervisé (Les classes sont
inconnues)
 Exemple:
 Segmentation de l’ensemble des clients d’une entreprise en
fonction de leurs habitudes d’achat
 Grouper des documents ou des images pour des présentations
Attributs (Caractéristiques)
y1 y2 ... yp classe
w1 a b c 1
d’apprentissage
w2
Exemples
b c a 2
.
.
.
wn c a a 4
LSI 3
Mohamed HAMMAMI 76
Exemple: regroupement de personnes
Sexe, lunettes,
sourire, chapeau
LSI 3
Mohamed HAMMAMI 77
LSI 3
Mohamed HAMMAMI 78
LSI 3
Mohamed HAMMAMI 79
Dendrogramme:
Représentation
graphique des
groupes et des
combinaisons des
groupes
LSI 3
Mohamed HAMMAMI 80
Exemple: 2 Clusters
LSI 3
Mohamed HAMMAMI 81
Exemple: 6 Clusters
LSI 3
Mohamed HAMMAMI 82
Techniques de prédiction
Le Data Mining prédictif

 Extrapoler des nouvelles informations à partir de données
existantes
 Apprentissage supervisé
 Apprendre à l’aide d’un ensemble d'entraînement des
règles qui permettent de prédire (ou « deviner »)
certaines caractéristiques de nouvelles observations
 Dans tous les cas, on utilise des données « historiques »
ou connues pour construire un modèle.
 Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations
LSI 3
Mohamed HAMMAMI 83
Apprentissage supervisé.
 Exemple : prédire la qualité d’un client (rembourse ou pas
son crédit) en fonction de ses caractéristiques.
Attributs (Caractéristiques)
y1 y2 ... yp classe
w1 a b c 1
d’apprentissage
w2 b c a 2
Exemples
.
.
.
wn c a a 4
LSI 3
Mohamed HAMMAMI 84
Exemple: Classification de documents

sport
culture
textes Moteur de santé
Catégorisation politic
economic
vacances
Principe
 Classification (par apprentissage) de textes dans 1 ou
plusieurs catégories
Application web:
 les sites tels que Yahoo constituent une exellente base
d’apprentissage, car les catégories y ont été générées
manuellement. Sert à générer un classifieur pour classer les
prochains documents.
LSI 3
Mohamed HAMMAMI 85
Exemple: Classification de documents
Site organisé par catégorie

LSI 3
Mohamed HAMMAMI 86
Méthodes et algorithmes
 Arbres de décision
 Réseaux de neurones
 Machines à vecteur de support (SVM)
 Régression en général
 Méthode des plus proches voisins
…
LSI 3
Mohamed HAMMAMI 87
LSI 3
Mohamed HAMMAMI 88
LSI 3
Mohamed HAMMAMI 89
LSI 3
Mohamed HAMMAMI 90
Chapitre 4 :
Apprentissage non-supervisé
LSI 3
Mohamed HAMMAMI 91
Données Connaissances
Acquisition Préparation des données Fouille de données Evaluation
Techniques de visualisation Techniques de classification Techniques de

et de description et de structuration prédiction
LSI 3
Mohamed HAMMAMI 92
Introduction générale
La classification automatique : produire des groupements de

lignes ou de colonnes d’un tableau.
Objets ou individus décrits par un certain nombre de variables

ou de caractères.
Une problématique en Gestion (Marketing) : Découper le marché
en sous-ensembles dont les éléments réagissent de façon
similaire aux variations des variables du marché.
 La classification a donné lieu à de nombreuses études et à des

développements théoriques et logiciels diversifiés.
LSI 3
Mohamed HAMMAMI 93
Exemples d’application :
Identifier des groupes d’individus ou de
ménages ayant un comportement
homogène vis-à-vis de :
la consommation de différents produits,
la consommation de différentes
marques ou variétés,
l’attitude par rapport à un produit,
...
 Il s’agit de problèmes souvent traités

avec les méthodes de classification
automatique.
LSI 3
Mohamed HAMMAMI 94
Données analysées :
 Un tableau individus-variables :
n individus (objets) décrits par p variables
(descripteurs) ;
un tableau à valeurs numériques
continues (valeur de la variable j pour
l’individu i) ;
un tableau de contingence (croisant deux
partition d’une même population) ;
un tableau de présence–absence (valeur
0 ou 1).
 Un tableau carré symétrique de
similarités ou de distances.
LSI 3
Mohamed HAMMAMI 95
Objectifs :
Constituer des groupes d’objets
homogènes et différenciés tels que :
 les objets soient les plus similaires possibles
au sein d’un groupe (critère de compacité) ;
 les groupes soient aussi dissemblables que
possible (critère de séparabilité).
La ressemblance ou la dissemblance

étant mesurée sur l’ensemble des
variables descriptives.
LSI 3
Mohamed HAMMAMI 96
Hypothèse :
On suppose qu’une structure de
classes existe au sein de la
population étudiée.
Le but de la classification est de la

mettre à jour ou de l’identifier.
 On suppose que la population étudiée

est séparable.
LSI 3
Mohamed HAMMAMI 97
Représentations :
La représentation synthétique peut
être :
une typologie ;
un recouvrement (classes empiétantes) ;
une partition ;
une hiérarchie de partitions (arbre
hiérarchique) ;
une hiérarchie de recouvrements
(pyramide).
LSI 3
Mohamed HAMMAMI 98
Une classification automatique obtenue sur un ensemble n’est

jamais la classification de cet ensemble . . .
 C’est une classification parmi beaucoup d’autres.
La classification fait appel à une démarche algorithmique et

non aux calculs formalisés usuels en statistique.
La définition des classes se fait à partir d’une formulation

algorithmique.
Une série d’opérations définies de façon récursive et répétitive.
La mise en oeuvre de la plupart des techniques de classification
ne nécessite que des notions mathématiques relativement
élémentaires.
LSI 3
Mohamed HAMMAMI 99
Les étapes de la classification

automatique :
1. Choix des données.
2. Calcul des dissimilarités entre les n

individus à partir du tableau initial.
3. Choix d’un algorithme de classification et
exécution.
4. L’interprétation des résultats :
évaluation de la qualité de la classification,
description des classes obtenues.
LSI 3
Mohamed HAMMAMI 100
Calcul des ressemblances :

 Variables quantitatives
 La distance euclidienne est une mesure
possible de la ressemblance.
 Dans le cas de variables hétérogènes, il
faut travailler sur les données centrées
réduites.
 Variables qualitatives
 De nombreux indices de ressemblance ont
été proposés.
 Dans le cas d’objets décrits par des
variables binaires, indice de Jaccard, indice
de Russel et Rao.
LSI 3
Mohamed HAMMAMI 101
Il existe plusieurs familles d’algorithme

de classification.
On s’intéresse d'abord aux algorithmes
hiérarchiques
 Les algorithmes ascendants (ou encore
agglomératifs) qui procèdent à la construction
des classes par agglomérations successives
des objets deux à deux, et qui fournissent une
hiérarchie de partitions des objets.
 Les algorithmes descendants (ou encore
divisifs) qui procèdent par dichotomies
successives de l’ensemble des objets, et qui
peuvent encore fournir une hiérarchie de
partitions.
LSI 3
Mohamed HAMMAMI 102
Classification Ascendante Hiérarchique (CAH)
une hiérarchie de partitions (arbre hiérarchique)
LSI 3
Mohamed HAMMAMI 103
LSI 3
Mohamed HAMMAMI 104
LSI 3
Mohamed HAMMAMI 105
LSI 3
Mohamed HAMMAMI 106
LSI 3
Mohamed HAMMAMI 107
LSI 3
Mohamed HAMMAMI 108
Première observation :
 La stratégie intuitive utilisé pour passer d’une partition
Pi à la suivante Pi+1 ne remet pas en cause les
regroupements.
 Si deux individus sont réunis dans une classe, ils
restent ensemble tout le temps.
 Les partitions ainsi construites sont emboîtées de la
plus fine à la plus grossière.
 On obtient une hiérarchie de partitions qu’on peut
représenter par un dendrogramme.
LSI 3
Mohamed HAMMAMI 109
Deuxième observation :
LSI 3
Mohamed HAMMAMI 110
Dissimilarité entre deux points
Mesures de distance :
La plupart des techniques de classification font appel à des
mesures de distance, appelé aussi métrique.
 Evaluer les degrés de dissemblance ou de ressemblance entre

deux individus ou deux groupes d’individus.
 La dissemblance entre deux d’individus est évaluée par la

notion de dissimilarité dont le sens mathématique peut se
traduire par divers critères de mesure quantitative.
LSI 3
Mohamed HAMMAMI 111
Types de dissimilarité :
 Selon la nature des données, on distingue quatre
groupes de critères de dissimilarité entre individus :
1. la dissimilarité définie sur les données quantitatives ;

2. la dissimilarité définie sur les données qualitatives,
fréquentielles, ou les données d’occurrences ;
3. la dissimilarité définie sur les données ordinales ;
4. la dissimilarité définie sur les données logiques.
LSI 3
Mohamed HAMMAMI 112
LSI 3
Mohamed HAMMAMI 113
LSI 3
Mohamed HAMMAMI 114
LSI 3
Mohamed HAMMAMI 115
LSI 3
Mohamed HAMMAMI 116
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed HAMMAMI 117
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed HAMMAMI 118
Algorithme de la CAH
Lance et William (1967)
Etape 0 : il y a n éléments à classer (n objets) ;
Etape 1 : on construit la matrice de distances entre les n éléments et

l’on cherche les deux plus proches, que l’on agrège en un nouvel
élément. On obtient une première partition à (n−1) classes ;
Etape 2 : on construit une nouvelle matrice des distances qui résultent
de l’agrégation, en calculant les distances entre le nouvel élément et les
éléments restants (mêmes conditions qu’à l’étape 1 avec (n−1)
éléments). On cherche les deux éléments les plus proches, que l’on
agrège. On obtient une deuxième partition avec (n−2) classes et qui
englobe la première ;
Etape m : on calcule les nouvelles distances, et l’on réitère le processus
jusqu’à n’avoir plus qu’un seul élément regroupant tous les objets et qui
constitue la dernière partition.
LSI 3
Mohamed HAMMAMI 119
LSI 3
Mohamed HAMMAMI 120
LSI 3
Mohamed HAMMAMI 121
LSI 3
Mohamed HAMMAMI 122
LSI 3
Mohamed HAMMAMI 123
LSI 3
Mohamed HAMMAMI 124
Choix de la meilleure partition

En apprentissage non supervisé, nous cherchons à faire
émerger des classes qui ont un sens de point de vue de
l’utilisateur.
Il semble naturel d’accepter l’idée selon laquelle, la

meilleure partition est celle où les dissimilarités entre
individus d’une même classe sont les faibles et les
dissimilarités entre individus de classes différentes sont
les plus fortes.
Pour la CAH, le digramme de la hiérarchie de partitions

va nous aider à déterminer la meilleur partition.
LSI 3
Mohamed HAMMAMI 125
Si l’indice de la hiérarchie fait un saut important par passage
de la partition Pi à la partition Pi+1
Cela signifie que les deux classes que l’on vient de réunir sont
relativement éloignées.
LSI 3
Mohamed HAMMAMI 126
Le saut le plus important a été effectué pour passer de P3 à
P4 car l’indice de la hiérarchie est passé de 3.35 à 7.07.
Comparativement aux précédentes valeurs, il s’agit d’une
variation brusque.
La meilleure partition est celle pour laquelle l’indice de la
hiérarchie h est tel que 3.35 ≤ h < 7.07
LSI 3
Mohamed HAMMAMI 127
Inconvénients des algorithmes hiérarchiques

 Difficilement utilisables avec de grosses bases de
données.
 Il est difficile de déterminer la coupure significative de

l’arbre.
 La partition retenue à une étape dépend de celle obtenue

à l’étape précédente.
LSI 3
Mohamed HAMMAMI 128
Algorithme k-means
L’algorithme k-means est le plus connu des algorithmes

non hiérarchiques. Certains auteurs nomment cette
technique « centres mobiles »
Le terme « means » dans k-means fait référence au

centroïde du cluster, c'est-à-dire un point de données
choisi arbitrairement puis affiné de manière itérative
jusqu'à ce qu'il représente la moyenne vraie de tous les
points de données dans le cluster.
La lettre « k » fait référence au nombre arbitraire de points

qui sont utilisés pour ensemencer le processus de
clustering.
LSI 3
Mohamed HAMMAMI 129
Algorithme k-means
L’algorithme k-means permet le classement des objets dans

un nombre fixe de classe (k) défini par l’utilisateur.
Cet algorithme suppose que nous connaissions le nombre de

classes voulu.
Les objets sont classés en clusters et dans chaque cluster la

distance moyenne entre les objets est la plus petite possible.
Les objets sont déplacés de clusters en clusters jusqu’à que

tout changement n’améliore plus le système.
L’algorithme minimise la variabilité au sein des clusters et

maximise la variabilité entre clusters.
LSI 3
Mohamed HAMMAMI 130
Algorithme k-means
Exemple K-moyennes, étape 1:
k1
Y
Choisir 3 k2
centres
de classes
(au hasard)
k3
X
LSI 3
Mohamed HAMMAMI 131
Algorithme k-means
k1
Y
Affecter k2
chaque point
à la classe
dont le centre
est le plus k3
proche
X
LSI 3
Mohamed HAMMAMI 132
Algorithme k-means
k1 k1
Y
Déplacer k2
chaque centre
de classe vers k3
k2
la moyenne de
chaque classe k3
X
LSI 3
Mohamed HAMMAMI 133
Algorithme k-means
Y
Réaffecter les
points qui sont k1
plus proches du
centre d'une autre
classe
Q : Quels sont les

points qui k3
changent de k2
classe?
X
LSI 3
Mohamed HAMMAMI 134
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
R : les trois
points qui
changent de k3
classe k2
X
LSI 3
Mohamed HAMMAMI 135
Algorithme k-means
k1
Y
Re-calculer les
moyennes des
classes k3
k2
X
LSI 3
Mohamed HAMMAMI 136
Algorithme k-means
k1
Y
Déplacer les k2
centres des k3
classes vers
les moyennes
X
LSI 3
Mohamed HAMMAMI 137
Algorithme k-means
Comment K-means fonctionne :

L’algorithme choisit K points aléatoirement ou “seeds”.
Assigne chacun des points restants à un cluster selon le “seed”

le plus proche.
Recalcule les centroides de chaque cluster (moyenne dans

chaque cluster)
Réassigne de nouveau les points aux clusters dont les

centroides sont les plus proches
Continue le processus jusqu’à la stabilisation des centroides.
LSI 3
Mohamed HAMMAMI 138
Algorithme k-means
Algorithme K-means
Initialisation des centroïdes avec les valeurs initiales
FIN = FAUX
TANT QUE NON FIN FAIRE
POUR chaque observation FAIRE
Trouver le centroïde le plus proche
Placer l’observation dans l’aggrégat le plus proche
FIN POUR
SI aucun changement des valeurs des centroïdes FAIRE
FIN = VRAI
SINON
Calculer les nouveaux centroïdes
FIN SI
FIN TANT QUE
LSI 3
Mohamed HAMMAMI 139
Algorithme k-means
L’algorithme k-means est en 4 étapes :
1. Choisir k objets formant ainsi k clusters
2. (Ré)affecter chaque objet O au cluster Ci de centre Mi tel

que dist(O,Mi) est minimal
3. Recalculer Mi de chaque cluster (le barycentre)
4. Aller à l’étape 2 si on vient de faire une affectation
LSI 3
Mohamed HAMMAMI 140
Algorithme k-means
K-Means :Exemple
A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A
On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3.

Ca donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3
Chaque objet O est affecté au cluster au milieu duquel, O est

le plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et
dist(M3,6)<dist(M1,6)
On a C1={1}, M1=1,
C2={2}, M2=2
C3={3, 6,7,8,13,15,17}, M3=69/7=9.86
LSI 3
Mohamed HAMMAMI 141
Algorithme k-means
K-Means :Exemple
dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne

bougent pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et
M3= 66/6=11
dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne

bougent pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67,
C3={7,8,13,15,17}, M3= 12
dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7

passe en C2. Les autres ne bougent pas. C1={1,2}, M1=1.5,
C2={3,6,7}, M2=5.34, C3= {8,13,15,17}, M3=13.25
dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe

en 2
C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15
Plus rien ne bouge

LSI 3
Mohamed HAMMAMI 142
Algorithme k-means
Exemple:
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
LSI 3
Mohamed HAMMAMI 143
Algorithme k-means
Avantages de K-means
 La grande popularité de K-means vient de :
 Sa simplicité conceptuelle.
 Sa rapidité
- on ne compare pas toutes les observations entre elles mais
par rapport aux centres de classes.
 Ses faibles exigences en taille mémoire.

- pratique quand il y a un très grand nombre d’observations
(des milliers).
LSI 3
Mohamed HAMMAMI 144
Algorithme k-means
Inconvénients de K-means
 Obligation de fixer à priori le nombre (K) de classes ou
clusters.
 Ce choix peut se faire par simple examen visuel dans le cas de
données bidimensionnelles, mais il n'en est pas de même pour
des données de dimension supérieure.
 un "mauvais choix" pour la valeur de K conduira alors à une
typologie sans rapport avec la réalité.
 Les k-means sont souvent précédées d’une ACP (Analyse en
Composantes Principales). Une autre solution consiste à
effectuer d’abord une CAH (Classification Ascendante
Hiérarchique).
Dépendance au choix des centres initiaux (seeds)
 K-means fonctionne assez bien si le nombre de classes

voulu est modéré. Dès que le nombre de classes augmente,
la solution trouvée par l’algorithme est médiocre.
LSI 3
Mohamed HAMMAMI 145
LSI 3
Mohamed HAMMAMI 146
Chapitre 5 :
Apprentissage supervisé
LSI 3
Mohamed HAMMAMI 147
Classification supervisée
Définition : Classification supervisée

 Processus à deux phases:
1. Apprentissage : construire un modèle (ou classifieur)
qui décrit un ensemble prédéterminé de classes de
données
2. Classement : utiliser le classifieur pour affecter une

classe à un nouvel objet
Principe
 On utilise des données « historiques » ou connues pour
construire un modèle.
 Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations
LSI 3
Mohamed HAMMAMI 148
Exemple introductif: Modèle de prédiction pour le diagnostic
Chaque instance est décrite par un vecteur d’ attributs/valeurs
Toux Fièvre Poids Douleur
Mariem non oui normal gorge
Farid non oui normal abdomen
Salah oui oui maigre aucune
Nizar oui non obese tête
En entrée : un ensemble d’instances et leur classe

(correctement associées par un “professeur” ou “expert”)
Toux Fièvre Poids Douleur Diagnostic
Marie non oui normal gorge rhume
Farid non oui normal abdomen appendicite
.....
L’algorithme d’apprentissage doit construire un modèle de

prédiction permettant de prédire (ou « deviner ») l’appartenance
d’un individu à une classe en fonction de ses caractéristiques .
LSI 3
Mohamed HAMMAMI 149
Apprendre, c'est trouver une fonction F …
 est la population (la « réalité »)

 X
E
E est l ’ensemble des descriptions
des éléments de la population Y F
K
K est l ’ensemble des classes
le plus souvent construite par
le jugement d’un expert
X:E
X est la fonction qui associe à tout élément de  sa description
Y:K
Y est la fonction qui associe à tout élément de  sa classe
On cherche une fonction F : E  K

LSI 3
Mohamed HAMMAMI 150
Exemple 1: Classification de sites en sites violents/sites non violents
C :  ¢={violent, non violent}
S  C (S)
X : 
S X(S) = (X1, , X2, X3..........
.Xn )

 Critères utilisés :
n_mots, n_v_mots, n_v_url , n_v_meta, n_liens, n_v_liens,
n_images, Npw …..
LSI 3
Mohamed HAMMAMI 151
Exemple 2: Classification de portrait en Gros plan/plan américain/

plan Général
Gros plan
Plan américain
C :   ¢={Gros plan, plan américain, plan général}
I  C(I )
À pieds
X :


I X(I) = Ppeau
LSI 3
Mohamed HAMMAMI 152
Exemple 3: Prédire la solvabilité d’un client
 Construction du modèle sur des individus avec la variable cible connue
X1 X2 X3 X4 X5….. Xn Y
age sexe CA 2008 matrimonial ... solvabilité
32 M 125000 Married ... Y
25 M 254000 Single ... N
37 F 265000 Married ... Y
Modèle prédictif : F(X1, .. Xn)
52 M 126000 Divorced ... N
24 F 265000 Veuf ... Y
29 F 345000 Married ... Y
36 F 362000 Married ... N
34 M 654000 Single ... N
 Application du modèle sur des individus avec la variable cible inconnue

X2 X3 X4 X5….. Xn Y
sexe CA 2008 matrimonial ... solvabilité
F 163000 Married ?
M 345000 Single ?
M 412000 Married ?
F 95000 Divorced ?
… … … …
LSI 3
Mohamed HAMMAMI 153
Autres exemples
Prédiction de
Faillite
Non remboursement de prêt
Détection de fraude
…
LSI 3
Mohamed HAMMAMI 154
Plusieurs techniques:
Arbres de décision
Réseaux de neurones
Machines à vecteur de support (SVM)
Réseaux bayésiens
Algorithmes génétiques, ….
…
LSI 3
Mohamed HAMMAMI 155
Arbres de décision
Principe
 Classer les objets en sous-classes par divisions hiérarchiques
=> construction automatique à partir d ’un échantillon de la base
 Décomposer l’espace des caractéristiques selon la variable la

plus discriminante à chaque étape
Algorithme de base :
1. Choisir le "meilleur" attribut
2. Etendre l'arbre en rajoutant une nouvelle branche pour chaque
valeur de l'attribut
3. Répartir les exemples d'app. sur les feuilles de l'arbre
4. Si aucun exemple n'est mal classé alors arrêt,
sinon repéter les étapes 1-4 pour les feuilles
LSI 3
Mohamed HAMMAMI 156
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2
LSI 3
Mohamed HAMMAMI 157
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2
LSI 3
Mohamed HAMMAMI 158
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2
LSI 3
Mohamed HAMMAMI 159
Arbres de décision
Un nœud
Une branche S
Une feuille v3
v2 v1
Un parcours
V1<Y
v3
v2
Si V3 > X
et V1 < Y
alors <Classe>
• Les arbres de décision sont des classifieurs pour des instances

représentées dans un formalisme attribut/valeur
• Un arbre de décision peut être traduit sous forme de règles de décision
LSI 3
Mohamed HAMMAMI 160
Arbres de décision
On attribut la classe majoritaire à une feuille
LSI 3
Mohamed HAMMAMI 161
Exemple introductif
N° Outlook Temperature Humidity Windy Play? Objectif :

1 Sunny hot high false No
• Prédire si un match de foot
2 Sunny hot high true No
va avoir lieu ou non.
3 overcast hot high false Yes
4 rain mild high false Yes
• Établir une relation entre le
5 Rain cool normal false Yes
fait de jouer ou pas et les
6 rain cool normal true No
conditions météorologiques.
7 overcast cool normal true Yes
8 sunny mild high false No
9 sunny cool normal false Yes
• Variable à expliquer (cible) :
10 rain mild normal false Yes
Play (2 classes yes et no).
11 sunny mild normal true Yes
12 overcast mild high true Yes • Variables explicatives :
13 Overcast hot normal false Yes Outlook, Temperature, Humidity
14 rain mild high true No et Windy
LSI 3
Mohamed HAMMAMI 162
Comment construire un arbre de décision ?
Deux phases de construction :

Construction descendante
Au début, tous les individus de la base d’apprentissage
sont affectés au nœud racine de l’arbre.
On partitionne de manière récursive en choisissant un
attribut d’éclatement à chaque nœud de l’arbre.
Construction ascendante (élagage)

Supprimer les sous-arbres ou les branches, dans une
approche ascendante de façon à améliorer la précision
estimé de nouveaux cas.
LSI 3
Mohamed HAMMAMI 163
Nœud racine de l’arbre
N° Outlook Temperature Humidity Windy Play?

1 Sunny hot high false No 9 (64,3%) Yes
2 Sunny hot high true No
3 overcast hot high false Yes 5 (36,7%) No
4 rain mild high false Yes
5 Rain cool normal false Yes
6 rain cool normal true No
Le nœud racine comprend
7 overcast cool normal true Yes
8 sunny mild high false No
tous les individus de la
9 sunny cool normal false Yes base d’apprentissage
10 rain mild normal false Yes partitionnés selon la classe
11 sunny mild normal true Yes à prédire (variable cible).
12 overcast mild high true Yes
13 Overcast hot normal false Yes
14 rain mild high true No
LSI 3
Mohamed HAMMAMI 164
Comment éclater le nœud racine ?
9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13
5 (36,7%) No J1,J2, J6,J8,J14
+
+ J4,J5,J10
J9,J11 J6,J14
- J1,J2,J8 -
+ J3,J13,J7,J12
-
LSI 3
Mohamed HAMMAMI 165
9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13
5 (36,7%) No J1,J2, J6,J8,J14
+ J3,J13 + J5,J7,J9
- J1,J2 - J6
+ J4,J10,J11,J13
- J8,J14
LSI 3
Mohamed HAMMAMI 166
9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13
5 (36,7%) No J1,J2, J6,J8,J14
+ J3,J4,J12 + J5,J7,J9,J10,J11,J13
- J1,J2, J8, J14 - J6
LSI 3
Mohamed HAMMAMI 167
9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13
5 (36,7%) No J1,J2, J6,J8,J14
+ J3,J4,J5,J9,10,J13 + J7,J11,J12
- J1,J8 - J2,J6,J14
LSI 3
Mohamed HAMMAMI 168
Quelle est la variable à choisir ?
LSI 3
Mohamed HAMMAMI 169
Il faut choisir la variable qui :
 mène aux sous-ensembles d’individus les plus homogènes

possible en fonction de la classe à prédire.
mène à la création de nœuds fils les plus purs possible.

diminue le plus possible le désordre (l’entropie) de la classe à
prédire dans les nœuds fils.
mène à une nouvelle partition d’individus qui diminue l’entropie

en cours.
LSI 3
Mohamed HAMMAMI 170
LSI 3
Mohamed HAMMAMI 171
Deuxième partition de l’arbre
9 (64,3%)
S0 5 (36,7%)
Sunny Overcast Rainy
2 (40%) 4 (100%) 3 (60%)

S1
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed HAMMAMI 172
Quel est le nœud à éclater ?
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed HAMMAMI 173
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed HAMMAMI 174
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed HAMMAMI 175
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed HAMMAMI 176
Troisième partition de l’arbre
9 (64,3%)
S0 5 (36,7%)
2 (40%) 4 (100%) 3 (60%)

S1
3 (60%) 0 (0%) 2 (40%)
High Normal
S2
0 (0%) 2 (100%)
3 (100%) 0 (0%)
LSI 3
Mohamed HAMMAMI 177
Quatrième partition de l’arbre
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
High Normal False True
0 (0%) 2 (100%) 3 (100%) 0 (0%)
3 (100%) 0 (0%) 0 (0%) 2 (100%)
S3
LSI 3
Mohamed HAMMAMI 178
Mesure d’impureté
Il y a le plus souvent de nombreux arbres de
décision possibles corrects.
Parmi toutes les hypothèses cohérentes possibles,

laquelle faut-il choisir en vue d’une bonne
généralisation ?
La réponse intuitive ...
... est-elle confirmée par la théorie ?
Impossibilité de procéder par énumération /

évaluation
 4 attributs & 3 valeurs / attribut : 55296 arbres
Nécessité d’une démarche constructive itérative

LSI 3
Mohamed HAMMAMI 179
Mesure d’impureté
Critères de choix de chaque noeud
La notion de mesure d’impureté
Cette mesure doit :

être égale à zéro pour un nœud pur de l’arbre de décision
être croissante en fonction du désordre d’un nœud. Plus le
désordre est grand, plus la valeur de la mesure est grande.
avoir des valeurs additives pour évaluer le désordre d’une
partition de l’arbre de décision.
 Entropie de Shannon
 Entropie de Boltzmann
 Index de Gini
LSI 3
Mohamed HAMMAMI 180
Entropie de Shannon
Shannon en 1949 a proposé une mesure d’entropie
valable pour les distributions discrètes de probabilité.
Elle exprime la quantité d’information, c’est à dire le

nombre de bits nécessaire pour spécifier la distribution
Pour un nœud s, l’entropie d'information est :
où pi est la probabilité de la classe Ci.
LSI 3
Mohamed HAMMAMI 181
Entropie de Shannon
9 9 5 5 9 (64,3%) Yes
I ( s0 )   log 2 ( )  log 2 ( )  0,94
14 14 14 14 5 (36,7%) No
2 (40%) 4 (100%) 3 (60%)

s11 3 (60%) s12 0 (0%) s13 2 (40%)
2 2 3 3
I ( s11 )   log 2 ( )  log 2 ( )  0,97
5 5 5 5
NB
4 4 0 0
I (s12 )   log2 ( )  log2 ( )  0 Log2(x) = Log(x) / Log(2)
4 4 4 4
3 3 2 2
I ( s13 )   log 2 ( )  log 2 ( )  0,97
5 5 5 5
LSI 3
Mohamed HAMMAMI 182
Entropie de Shannon
Pour une partition S l’entropie d'information est :
Card( s)
I (S )   I ( s)
sS Card ()
où I(s) est l’entropie d’information du nœud s
LSI 3
Mohamed HAMMAMI 183
Entropie de Shannon
9 (64,3%) Yes
5 (36,7%) No
2 (40%) 4 (100%) 3 (60%)

S1 3 (60%) 0 (0%) 2 (40%)
5 4 5
I (S )  I (s11 )  I (s12 )  I (s13 )
14 14 14
LSI 3
Mohamed HAMMAMI 184
Entropie de Shannon
Critère de partitionnement
 Gain d’incertitude:
(st1)I(St)I(St1)
Objectif : Maximiser le gain d’incertitude
 Un nœud p est terminal si : tous les éléments

associés à ce nœud sont dans une même classe
ou si aucun test n’a pu être séléctionner
LSI 3
Mohamed HAMMAMI 185
Entropie de Shannon
Pour les exemples initiaux

I(S) = - 9/14 log2(9/14) - 5/14 log2(5/14)
Entropie de l’arbre associé au test sur Outlook ?

E(Outlook) = 5/14 I(S11) + 4/14 I(S12) + 5/14 I(S13)
Gain(Outlook) = 0.940 - 0.694 = 0.246 bits
Gain(Temperature) = 0.029 bits

Gain(Humidity) = 0.151 bits
Gain(Windy) = 0.048 bits
Choix de l’attribut Outlook pour le premier test
LSI 3
Mohamed HAMMAMI 186
Arbre final obtenu
Outlook
sunny rain
overcast
Humidity Yes Windy
high normal true false
No Yes No Yes
LSI 3
Mohamed HAMMAMI 187
Algorithmes d’apprentissage
ID3 [Quinlan,1986]
C4.5 [Quinlan,1993]
CART [Briemen,1984]
SIPINA [Zighed,1992]
...
LSI 3
Mohamed HAMMAMI 188
ID3, C4.5
 Graphe arborescente n-aire

So
 Passage d’une partition St à St1 exclusivement
par segmentation
10
 Critère de sélection de variable S1 S2
20
ID3: Gain Informationnel
C4.5: Ratio de gain Xj
5 5
 Élagage d’arbre S3
20
S4
0
ID3: non
Xi
C4.5: oui
1 0 4
10 8 2
S5 S6 S7
LSI 3
Mohamed HAMMAMI 189
ID3, C4.5
- Critère de partitionnement
ID3  maximiser le gain d’incertitude entre I(St) et I(St+1)
 Utilisation de l’entropie de Shannon:
Exemple:
So
( St 1 )  I ( S1 )  I ( S3 , S 4 )
 
10
S1 S2
 10 log210  20log2 20 20
30 30 30 30 Xj
- [ - 25 ( 5 log 2 5 + 20 log 2 20) - 5 (5 log 2 5 + 0 log 2 0)]
30 25 25 25 25 30 5 5 5 5 5 5
S3 S4
20 0
Xi
= 0.9183- 0.7739
= 0.1443 1 0 4
10 8 2
S5 S6 S7
LSI 3
Mohamed HAMMAMI 190
ID3, C4.5
C4.5 I ( S j )   ( St 1 )
( S t 1 )  
nkj nkj
 log 2
k 1 n j nj
Facteur visant à pénaliser la prolifération des sommets
I ( S1 )  I ( S 3 , S 4 )
( S t 1 ) 
Sur le même exemple: 25 25 5 5
 log 2  log 2
30 30 30 30
(St 1) 0.91830.7739

 25log2 25 5 log2 5
30 30 30 30
= 0.222
LSI 3
Mohamed HAMMAMI 191
ID3, C4.5
Conditions d’arrêt:
1. Tous le sommets sont saturés
2. Contrainte d’admissibilité
3. Gain d’information minimal 
LSI 3
Mohamed HAMMAMI 192
CART
Segmentation par arbre binaire
Choisie parmi p variable, une bi-partition S1={Sg1,Sd1} So
Soit : ng  card(Sg)
Sg1 Sd1
nd  card(Sd)
nig et nid effectifs de la classe ci Sg2 Sg2
Critères utilisés
Indice de Gini : M=2
Indicateur de Towing : M>2
Élagage d’arbre
CART: oui
LSI 3
Mohamed HAMMAMI 193
CART
Indice de Gini (M=2)

ng m nig  nig  nd m
nid  nid 
I ( sg  sd )   1     1  
n i 1 ng  ng  n i 1 nd  nd 
- Maximiser la variation d’impureté J G ( sg  sd )

m nig  nid  nig  nid 
J G ( sg  sd )   1    I ( sg  sd )
i 1 n  n 
Ou encore 2
ng nd m  nig nid 
J G ( sg  sd ) 
n n
   
i 1  ng nd 
LSI 3
Mohamed HAMMAMI 194
CART
Indicateur de Towing (M > 2)
2
ng nd
 m nig n 
JT ( sg  sd ) 
n n
  id 
4  i 1 ng nd 
On cherche la bipartition qui maximise J T ( sg  sd )
LSI 3
Mohamed HAMMAMI 195
SIPINA
Avantages SIPINA ?
Exclusivement Divisif
Méthodes arborescentes
Insensibilité à l effectif
Fusion
SIPINA
Sensibilité à l’effectif
LSI 3
Mohamed HAMMAMI 196
SIPINA
Inconvénients des Méthodes Classiques
• Insensibilité à l’effectif Distributions sur les deux classes sont analogues
40 4 Deux figures sont parfaitement décrites par

20 2 Les fréquences conditionnelles
40 0 4 0
0 20 0 2
A B
Il semble clair que les règles issues de A sont

L’effectif en A est dix fois plus grand que B Statistiquement meilleures
LSI 3
Mohamed HAMMAMI 197
SIPINA
• Non décroissance du critère
S0 40
20
(S)0
20 20
S={S1,S2} S0 est équivalente à S
10 10
- En terme d’effectif, les règles issues de S1 et S2 devraient être appréciées différemment

- ils couvrent un effectif plus faible devraient être pénalisées
LSI 3
Mohamed HAMMAMI 198
SIPINA
Objectif: maximiser (Si)
Ajout d’un parametre λ
 qui contrôle le développement du graphe et pénalise
les nœuds de faible effectif
 de ce fait , favorise les fusions entre les sommets
S0
S1 S2
S3 S4 S5 S6
S9
LSI 3
Mohamed HAMMAMI 199
SIPINA
Critère de partitionnement
 maximiser le gain d’incertitude:
(SI )I(Si)I(Si1)
 Utilisation de l’entropie de Shannon:
K nj  m nij   nij   
I  (S i )     log 2 
j 1 n 
 i 1 n j  m n j  m 

 Utilisation de l’entropie quadratique :

K
nj  m
nij   nij   
I  (S i )  
j 1

n  
i 1
n j  m
(1  )
ni  m 
LSI 3
Mohamed HAMMAMI 200
SIPINA
Comment passer de Si à Si+1 ?

Partition courante de Si
S3
S1 S2
Phase 1: Passage de Si à Si+1 par regroupement

Si11s3,s1s2 ( )
 S i11 (S 'i 1 )  max  S i j 1 ( )
j 1, 2 , 3
 s1 , s 2  s3  (S )
2 2
S
Si (S ' i 1 )  0 alors Si+1=S'i+1
i 1 i 1
S i31  s 2 , s1  s3  ( )
 S i31
Repartir à la phase 1
LSI 3
Mohamed HAMMAMI 201
SIPINA
Phase 2: Passage de Si à Si+1 par regroupement-éclatement

- Supposons on a 3 variables exogènes
Éclatement du premier regroupement par les 3 variables
- Sur chacun des sommets issu d’un regroupement, on cherche par ´éclatement,
avec toutes les variables Xj la meilleure partition
LSI 3
Mohamed HAMMAMI 202
SIPINA
Phase 3: Passage de Si à Si+1 par éclatement
- Éclatement des sommets par les 3 variables
LSI 3
Mohamed HAMMAMI 203
Inconvénients des arbres de décision
Le choix d’une branche n’est plus jamais

remis en cause.
L’apprentissage nécessite un grand nombre

d’individus.
La forme des modèles obtenus ne correspond

pas forcément à celle de l’échantillon.
Le temps de calcul d’un arbre est long.
Mauvaise performance s’il y a beaucoup de

classes
LSI 3
Mohamed HAMMAMI 204

Cours Machine Learning

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Machine Learning

Transféré par

Droits d'auteur :

Formats disponibles

Machine Learning

Pré-requis : Connaissances en statistiques utiles,

Chapitre 1 : Introduction au Machine Learning

Introduction au Machine Learning

De nos jours, les entreprises accumulent

Quelques exemples concrets

Quelques exemples concrets …

Le stockage des données relatives est

Quelques chiffres concrets …

Quelques chiffres concrets …

Selon IDC study (2007) :

Les outils automatiques de collecte de données font que

Le développement du matériel informatique et la baisse

On estime que la quantité de données dans le monde

Nécessité d’exploiter ces données

Est-il possible de s’en servir pour prendre des décisions ou

Extraction d’informations intéressantes (non triviales, implicites,

Fayyad et al. (1997) :

Data Mining is a step in the KDD process that consists of applying

Le Data Mining est un processus d’extraction de connaissances

Le Data Mining a pour objet l’extraction d’un savoir ou d’une

L’expression Data Mining est apparue vers le début

Une tendance à systématiser cette approche opportuniste !

Les statisticiens trouvaient cette démarche peu scientifique et

La diffusion de l’analyse de données (Jean-Paul

L’analyse des données s’est développée en parallèle

Fin des années 1980 : Agrawal Rakesh (chercheurs en

Les algorithmes de recherche de règles d’association

Mars 1989 : Piatetsky-Shapiro proposa le terme

En 1995, la communauté de Data Mining a

En 1997, publication du premier numéro de

Plusieurs conférences on data mining

En France : EGC janvier 2001 (Nantes),

Si on baisse le prix du Coca-Cola de 5%, alors

 Le Data Mining révèle que les ventes des cacahuètes vont

Analyse des déclarations des assurés par un expert afin

Extraction de caractéristiques à partir de ces déclarations (type

Applications de méthodes statistiques pour identifier les

Créer un modèle à partir de caractérisques des clients pour

Comment les personnes naviguent-elles sur Internet ?

Information sur les chemins de navigation disponibles dans

Pourquoi analyse l’usage des sites Web ?

La connaissance sur la manière dont les visiteurs utilisent

« 75% des parisiens qui achètent une raquette de tennis achètent

Science : astronomie, bioinformatiques, détection de drogues, etc.

Intérêt économique : du produit aux clients.

La connaissance du comportement du client est décisive !

Est-il possible de découvrir des associations entre

Augmentation de la puissance de calculs des

Extraire de la connaissance à partir de grande bases

Une confusion subsiste encore entre Data Mining (Fouille de

Le Data Mining est l’un des maillons de la chaîne de traitement

 Le Data Mining est la pierre angulaire du processus ECD !

Selon le MIT (Massachussets Institute of Technology), le Data Mining est l’une

Fayyad et al. (1996)

"un processus non-trivial d’identification de structures inconnues, valides et

Zighed et al. (2001)

L’ECD vise à transformer les données en connaissances

 de la statistique ; des techniques de visualisation

 de l’intelligence artificielle ; des interfaces de communication

Les connaissances peuvent s’exprimer :

 comme un modèle mathématique ou logique pour la prise de

L’approche de l’ECD se veut la plus générale possible :

Elle ne privilégie pas une nature spécifique des données