Vous êtes sur la page 1sur 204

Machine Learning

Mohamed HAMMAMI
Professeur à la FSS – Université de Sfax
mohamed.hammami@fss.usf.tn

LSI 3
Syllabus du cours

Objectifs
 Sensibiliser les étudiants à l’importance du Machine Learning
en tant que nouvel domaine technologique;
 Positionner le Machine Learning dans le processus ECD ;
 Maîtrise des principes théoriques de quelques techniques de
Machine Learning (classification, prédiction, etc) ;
 Manipulation d’outils logiciels de Machine Learning.

Pré-requis : Connaissances en statistiques utiles,


mais pas indispensables

LSI 3
Mohamed HAMMAMI 2
Plan du Cours

Chapitre 1 : Introduction au Machine Learning


Chapitre 2 : Processus ECD
Chapitre 3 : Techniques de Machine Learning
Chapitre 4 : Apprentissage Non-supervisé
Chapitre 5 : Apprentissage supervisé

LSI 3
Mohamed HAMMAMI 3
Chapitre 1:

Introduction au Machine Learning

LSI 3
Mohamed HAMMAMI 4
Problématique de base

De plus en plus de
données sont générées :
 Banques, télécommunication,
domaines commerciaux ...
 Données scientifiques :
astronomie, biologie, etc.
 Web : texte, images, son,
vidéo, etc.
 E-commerce

De nos jours, les entreprises accumulent


au quotidien de gros volumes de données

LSI 3
Mohamed HAMMAMI 5
Problématique de base

Quelques exemples concrets



 interféromètre européen VLBI
(Very Long Baseline Interferometry)
possède 16 télescopes, dont
chacun produit 1 Go par seconde
de données astronomiques.

 Le stockage et l’analyse de
ces données constituent un
problème à part entière

LSI 3
Mohamed HAMMAMI 6
Problématique de base

Quelques exemples concrets …


 AT&T le plus grand fournisseur de
services téléphoniques à l’Etats-Unis gère
des milliards d'appels téléphoniques par
jour

Le stockage des données relatives est


très difficile
 L’analyse en temps réel de ces appels
est encore plus difficile

LSI 3
Mohamed HAMMAMI 7
Problématique de base

Quelques chiffres concrets …


 BD commerciales (selon le Winter Corp. 2003
Survey) :
AT&T ~ 26 To (1Terra Octet = 1024 Go).

France Telecom ~ 30 To

Web :
Alexa internet archive (www.alexa.com) 7 ans de
données ~ 500 To
Google searches ~ plus de 4 Milliards de pages ~
plusieurs centaines de To
WebFountain d’IBM (2003) ~ 160 To
Internet Archive (www.archive.org) ~ 300 To

LSI 3
Mohamed HAMMAMI 8
Problématique de base

Quelques chiffres concrets …


Selon UC Berkeley (2003) :
5 Eo (5 millions To) est la taille des données crées dans le
monde durant l’année 2002
Environ 40% de ces données sont produites par les Etats Unis
www.sims.berkeley.edu/research/projects/how-much-info-2003/

Selon IDC study (2007) :


161 Eo (161 millions To) est la taille des données crées dans le
monde durant l’année 2006
Pour l’année 2010, on projette la création de 988 Eo
www.usatoday.com/tech/news/2007-03-05-data_N.htm

LSI 3
Mohamed HAMMAMI 9
Problématique de base

Les outils automatiques de collecte de données font que


les Bases de Données (BD’s) contiennent énormément de
données

Le développement du matériel informatique et la baisse


des coûts ont permis à de nombreux organismes de
constituer de grandes masses de données à moindre
frais

On estime que la quantité de données dans le monde


double tous les vingt mois [Kodratoff 1997].

LSI 3
Mohamed HAMMAMI 10
Problématique de base
Malheureusement cette masse d’information souvent
sous exploitée
Beaucoup de données mais peu de connaissances !

Nécessité d’exploiter ces données


Est-il possible de valoriser ces données amassées ?

Est-il possible de s’en servir pour prendre des décisions ou


éclairer des choix pour l’entreprise ?
Quelles données sont utiles ?
L’explication se cache dans les données auxquelles on
ne pense pas
Compréhension de phénomènes complexes
 Solution: Data Mining, Machine Learning
LSI 3
Mohamed HAMMAMI 11
Qu’est-ce que le Data Mining ?

Zighed(1995)

Extraction d’informations intéressantes (non triviales, implicites,


préalablement inconnues et potentiellement utiles) à partir de
grandes bases de données

Fayyad et al. (1997) :

Data Mining is a step in the KDD process that consists of applying


data analysis and discovery algorithms that produce a particular
enumeration of patterns (or models) over the data.

LSI 3
Mohamed HAMMAMI 12
Qu’est-ce que le Data Mining ?

Wikipédia :

Le Data Mining est un processus d’extraction de connaissances


valides et exploitables à partir de grands volumes de données.

Le Data Mining a pour objet l’extraction d’un savoir ou d’une


connaissance à partir de grandes quantités de données, par des
méthodes automatiques ou semi-automatiques, et l’utilisation
industrielle ou opérationnelle de ce savoir.

Autres appellations:
- ECD (Extraction de Connaissances à partir de Données)
- KDD (Knowledge Discovery from Databases)
- Fouille de données,
- Machine Learning etc …
LSI 3
Mohamed HAMMAMI 13
Origines du Data Mining

L’expression Data Mining est apparue vers le début


des années 1960 (sens péjoratif)
L’avènement des ordinateurs a permis d’effectuer toutes
sortes de calculs qu’on ne pouvait faire manuellement.
Certains chercheurs, principalement des informaticiens, ont
commencé à traiter sans a priori statistique les tableaux de
données relatifs à des enquêtes ou à des expériences.
Les résultats obtenus sont prometteurs et loin d’être aberrants !

Une tendance à systématiser cette approche opportuniste !

Les statisticiens trouvaient cette démarche peu scientifique et


utilisèrent les termes Data Mining ou Data Fishing pour la
critiquer

LSI 3
Mohamed HAMMAMI 14
Origines du Data Mining

La diffusion de l’analyse de données (Jean-Paul


Benzecri)
 Succès de cette démarche empirique malgré les critiques des
statisticiens

L’analyse des données s’est développée en parallèle


avec la taille des BD

Fin des années 1980 : Agrawal Rakesh (chercheurs en


BD) propose l’exploitation du contenu des BD
volumineuses relatives aux tickets de caisses de
grandes surfaces
 Premiers algorithmes de recherche de règles d’association
 Ces algorithmes ont étaient critiqués par les statisticiens et les
spécialistes de l’induction en raison de leur naïveté
méthodologique

LSI 3
Mohamed HAMMAMI 15
Origines du Data Mining

Les algorithmes de recherche de règles d’association


ont été ramenés dans un cadre méthodologique plus
rigoureux faisant usage de théories reconnues
(treillis de Gallois, décomposition optimale de
relations binaires)
On a adopté l’expression Data Mining

Mars 1989 : Piatetsky-Shapiro proposa le terme


Knowledge Discovery à l’occasion d’un atelier sur la
découverte des connaissances dans les BD
Aujourd’hui, les termes Data Mining et Knowledge Discovery
in Databases (KDD) sont utilisés plus ou moins indifféremment

LSI 3
Mohamed HAMMAMI 16
Origines du Data Mining

En 1995, la communauté de Data Mining a


initié sa première conférence

En 1997, publication du premier numéro de


la revue Data Mining and Knowledge
Discovery Journal

Plusieurs conférences on data mining


PAKDD, PKDD, SIAM-Data Mining,
(IEEE) ICDM, DaWaK, SPIE-DM, etc.

En France : EGC janvier 2001 (Nantes),


janvier 2002 (Montpellier), janvier 2003
(Lyon),..., janvier 2010 (Hammamet).

LSI 3
Mohamed HAMMAMI 17
Cas d’applications: Commerce

Si on baisse le prix du Coca-Cola de 5%, alors


on va en augmenter les ventes de 15%
 On savait cette connaissance sans Data Mining !

 Le Data Mining révèle que les ventes des cacahuètes vont


augmenter dans une proportion voisine
 Association d’idées : « Puisque j’achète du Coca, il me faut
aussi des cacahuètes »
 Si la marge sur le Coca-Cola est relativement faible, et celle sur
les cacahuètes importantes . . .
 Baisser le prix du Coca-Cola est un moyen de vendre plus
de cacahuètes !

LSI 3
Mohamed HAMMAMI 18
Cas d’applications: Analyse des risques
Détection de fraudes pour les assurances

Analyse des déclarations des assurés par un expert afin


d’identifier les cas de fraudes.

Extraction de caractéristiques à partir de ces déclarations (type


d’accident, de blessures, etc...)

Applications de méthodes statistiques pour identifier les


caractéristiques des déclarations fortement corrélées à la fraude.

Prêt Bancaire
Objectif des banques : réduire le risque des prêts bancaires.

Créer un modèle à partir de caractérisques des clients pour


discriminer les clients à risque des autres.

LSI 3
Mohamed HAMMAMI 19
Cas d’applications: E-Commerce
Le Web Usage Mining

Comment les personnes naviguent-elles sur Internet ?


 Web Usage Mining (Clickstream Analysis)

Information sur les chemins de navigation disponibles dans


des fichiers logs.

Principe :
«fouiller» ces données pour
en produire de l’information
et de la connaissance

LSI 3
Mohamed HAMMAMI 20
Cas d’applications: E-Commerce
Le Web Usage Mining

Pourquoi analyse l’usage des sites Web ?

La connaissance sur la manière dont les visiteurs utilisent


un site Web permet :
 D’ajuster la conception des pages et des liens et d’améliorer les
performances des sites
Aider le concepteur à positionner l’information importante que les
visiteurs recherchent.
 Fournir des sites adaptatifs (personnalisation)
 Les associations de pages côté client permet d’optimiser le
cache du navigateur, d’effectuer du « prefetching »

LSI 3
Mohamed HAMMAMI 21
Cas d’applications: E-Commerce

30%Promo

« 75% des parisiens qui achètent une raquette de tennis achètent


trois mois après des chaussures »
Modification dynamique

LSI 3
Mohamed HAMMAMI 22
Cas d’applications du Data Mining

Science : astronomie, bioinformatiques, détection de drogues, etc.


Commerce : rapport avec la clientèle, détection de fraudes,
marketing, e-commerce, risque de crédit, etc.
Web : moteurs de recherche, publicité, Web mining, text mining,
etc.
Gouvernement : surveillance, détection des crimes, profiling tax
cheaters (profilage tricheurs fiscaux), etc.
Autres domaines : production industrielle, sports,
télécommunication, transport, etc.

LSI 3
Mohamed HAMMAMI 23
Facteurs d’émergence du Data Mining

Intérêt économique : du produit aux clients.


De nos jours, la concurrence de plus en plus forte et les
clients sont de plus en plus exigeants.
On est passé d’une économie orientée produit vers une
économie orientée client on parle aujourd'hui du CRM

La connaissance du comportement du client est décisive !

Est-il possible de découvrir des associations entre


produits achetés afin de mieux les disposer sur les rayon ?
Est-il possible de proposer des produits de substitution ou
encore mieux cibler une clientèle ?

LSI 3
Mohamed HAMMAMI 24
Facteurs d’émergence du Data Mining

Technologie de l’information
 faible coût de stockage de données,
 saisie automatique de transaction (code bar, click,
données de localisation GPS, internet)

Augmentation de la puissance de calculs des


ordinateurs (loi de Moore)

Extraire de la connaissance à partir de grande bases


de données devient possible

LSI 3
Mohamed HAMMAMI 25
Le Data Mining et le KDD

Une confusion subsiste encore entre Data Mining (Fouille de


données) et Knowledge Discovery in Databases (ECD -
Extraction des Connaissances à partir des Données).

Le Data Mining est l’un des maillons de la chaîne de traitement


pour le processus de découverte des connaissances à partir
des données.

 Le Data Mining est la pierre angulaire du processus ECD !

L’ECD, par le biais du Data Mining, est alors vue comme une ingénierie
pour extraire des connaissances à partir des données.

LSI 3
Mohamed HAMMAMI 26
Le Data Mining et le KDD

LSI 3
Mohamed HAMMAMI - 27
Principaux avantages du Data Mining
Aide à la prise de décisions des dirigeants (ne les remplace
pas!)
Détecte les relations entre les données et permet de faire des
liens pertinents.
Étudie le passé dans le but de faire des prédictions dans le futur.
Augmente la satisfaction des clients grâce à une approche plus
personnalisée.
Permet de mieux cerner et connaître la clientèle.
Peut augmenter les revenus et diminuer les coûts de entreprise.

Selon le MIT (Massachussets Institute of Technology), le Data Mining est l’une


des 10 technologies émergeante qui changeront le monde au 21ème siècle.
LSI 3
Mohamed HAMMAMI 28
Chapitre 2 :

Processus ECD

LSI 3
Mohamed HAMMAMI 29
Qu’est-ce que le processus ECD ?

Fayyad et al. (1996)

"un processus non-trivial d’identification de structures inconnues, valides et


potentiellement exploitables dans les bases de données

Zighed et al. (2001)

L’ECD est un processus qui fait intervenir des méthodes et des outils issus
de différents domaines en vue de découvrir des connaissances utiles.

L’ECD vise à transformer les données en connaissances

LSI 3
Mohamed HAMMAMI 30
Qu’est-ce que le processus ECD ?
L’ECD est un processus qui met en oeuvre un ensemble de
techniques provenant :
 des bases de données ;  de l’analyse des données ;

 de la statistique ; des techniques de visualisation

 de l’intelligence artificielle ; des interfaces de communication


homme-machine.

LSI 3
Mohamed HAMMAMI 31
Qu’est-ce que le processus ECD ?

Les connaissances peuvent s’exprimer :


 sous forme d’un concept général qui enrichit le champ
sémantique de l’usager ;
 sous forme d’un rapport ou d’un graphique ;

 comme un modèle mathématique ou logique pour la prise de


décision ;
 comme modèle explicites pour alimenter un système à base
de connaissances ou un système expert.

LSI 3
Mohamed HAMMAMI 32
Définition générale de l’ECD

L’approche de l’ECD se veut la plus générale possible :


Elle ne privilégie pas une source particulière d’informations
données localement stockées
données distribuées sur plusieurs sources

Elle ne privilégie pas une nature spécifique des données


données structurées en attributs-valeurs
des textes de longueurs variables
des images
des séquences vidéo

Elle ne se limite pas à des outils d’analyse spécifiques


méthodes pour la préparation des données
méthodes pour l’analyse
méthodes pour la validation des connaissances

LSI 3
Mohamed HAMMAMI 33
Définition générale de l’ECD

L’Extraction de Connaissances à partir de


Données (ECD) est un processus complexe qui se
déroule suivant une série d’opérations:

Nous pouvons regrouper ces opérations en trois


étapes majeures.
1. la préparation des données,

2. la fouille de données à proprement parler qui est


l’étape centrale de l’ECD
3. et enfin la validation des modèles ainsi élaborés

LSI 3
Mohamed HAMMAMI 34
Processus de l’ECD

LSI 3
Mohamed HAMMAMI 35
Phase d’acquisition des données

LSI 3
Mohamed HAMMAMI 36
Phase d’acquisition des données

Préliminaires
 Bien délimiter le problème de la fouille de données.
 Ne pas se lancer dans l’ECD sans définir les objectifs.
 Avoir une idée claire sur les moyens technologiques à
disposition.

Exemple : Comprendre pourquoi certains clients d’une entreprise se sont


tournés vers une entreprise concurrente ?
 Toutes les données du système d’information de l’entreprise ne sont
certainement pas utiles dans leur intégralité pour traiter ce problème
particulier.

 Télécharger tout le contenu du Web pour en extraire des connaissances ! !

LSI 3
Mohamed HAMMAMI 37
Phase d’acquisition des données

Objectif
 La phase d’acquisition vise à cibler l’espace des données qui va être
exploré.

« Le spécialiste du Data Mining agit à l’image du géologue qui définit des zones de
prospection en étant persuadé que certaines régions seront probablement vite
abandonnées car elles ne recèlent aucun ou peu de minerais. »

Outils
 Moteurs de requêtes des bases de données comme SQL.
 Outils de requêtes spécifiques aux données non structurées
(données textuelles, images Web)
 Moteurs de recherche d’informations par le contenu.

LSI 3
Mohamed HAMMAMI 38
Phase d’acquisition des données

Nettoyage des données


 La phase d’acquisition sert généralement à nettoyer les
données qui sont rapatriées.
 Laisser tomber un attribut peu ou mal renseigné.
 Limiter le nombre d’enregistrements que l’on souhaite traiter.
 Utilisation de filtres adaptés.
 Utilisation des techniques d’échantillonnage.

Résultat
 Un stock de données contenant potentiellement l’information
ou la connaissance recherchée.
 Un échantillon de données tirées du monde réel.
 Données relatives à des événements passés.

LSI 3
Mohamed HAMMAMI 39
Phase de préparation des données

LSI 3
Mohamed HAMMAMI 40
Phase de préparation des données

Les techniques de Data Mining traitent généralement


des tableaux de données numériques rangées sous
forme d’individus-variables.

Certaines méthodes sont plus contraignantes que


d’autres :
 elles peuvent exiger des données binaires (premières
techniques de recherche de règles d’association)
 elles peuvent exiger des données de types particuliers
(variables qualitatives, variables quantitatives)
 effectuer une série de transformations pour obtenir des
données adaptées aux méthodes à utiliser.

LSI 3
Mohamed HAMMAMI 41
Phase de préparation des données

Les principales opérations de préparation sont :


 La sélection de lignes et/ou colonnes

 Le traitement des données manquantes ou aberrantes

 Les transformations d’attributs

 Le traitement des données complexes

LSI 3
Mohamed HAMMAMI 42
Exemple: préparation des données

LSI 3
Mohamed HAMMAMI 43
Exemple: préparation des données
Nettoyage des données
Doublons, erreurs de saisie
 un doublon donne plus d’importance à la donnée répétée
 Une erreur de saisi peut à l’inverse cacher une répétition

Intégrité de domaine
 Un contrôle sur les domaines de valeurs peut révéler des valeurs
aberrantes

Informations manquantes
 Données avec des champs ne contenant aucune donnée
 Parfois le manque d’information est une information
 Les valeurs des autres champs peuvent être utiles
LSI 3
Mohamed HAMMAMI 44
Exemple: préparation des données

Nettoyage des données

LSI 3
Mohamed HAMMAMI 45
Exemple: préparation des données

Nettoyage des données

LSI 3
Mohamed HAMMAMI 46
Exemple: préparation des données

Enrichissement des données

But : enrichir nos données


 Acheter ou produire d’autres bases

Ajout de nouveaux champs en conservant le même nombre


d’enregistrements
 Faire des conversions si les données sont de formats différents

 Effectuer une nouvelle étape de nettoyage de données

Les données ajoutées peuvent contenir des erreurs, des oublis,


etc.
MastèreLSI
MRI3
Mohamed HAMMAMI 47
Exemple: préparation des données

Enrichissement des données

MastèreLSI
MRI3
Mohamed HAMMAMI 48
Exemple: préparation des données
Codage et normalisation
 Regroupement
 Certains attributs prennent un très grand nombre de valeurs
discrètes possibles
 Le regroupement en des sous-ensembles permet de réduire le
nombre de valeurs considérées
 Région : Tunis, Sfax / Age : jeune, adulte, vieux

 Changement de type
 Simplifier les types de données afin de faciliter les comparaisons
et les calculs de distance, etc.
 Date de naissance  Age / Date d’abonnement Durée

MastèreLSI
MRI3
Mohamed HAMMAMI 49
Phase de préparation des données
Sélection de variables
 Les données issues de le phase
d’acquisition ne sont pas
nécessairement toutes exploitables
par des techniques de Data Mining.
 La recherche des variables
pertinentes parmi un ensemble de
variables est le point central d’un
processus de data mining,
 c’est elle qui va conditionner la qualité
des modèles établis.

 La sélection des variables non ou


faiblement pertinentes peut réduire la
compréhension et les performances
de reconnaissance d’un modèle.

MastèreLSI
MRI3
Mohamed HAMMAMI 50
Phase de fouille de données (Apprentissage automatique)

MastèreLSI
MRI3
Mohamed HAMMAMI 51
Phase de fouille de données
Cette phase est au coeur du processus ECD.

Les méthodes de Data Mining permettent de découvrir ce que


contiennent les données préparées comme informations ou
modèles utiles.

Trois catégories de méthodes :


 Les méthodes de visualisation et de description ;
 Les méthodes de classification et de structuration ;
 Les méthodes de prédiction.

Certaines méthodes sont mieux adaptées à des données


numériques continues alors que d’autres sont plus
généralement dédiées aux traitements de tableaux de données
qualitatives.

Les méthodes de Data Mining sont, le plus souvent,


complémentaires.
MastèreLSI
MRI3
Mohamed HAMMAMI 52
Phase de validation et de mise en forme

MastèreLSI
MRI3
Mohamed HAMMAMI 53
Phase de validation et de mise en forme

Les modèles extraits ne peuvent être utilisés


directement en toute fiabilité.
 Il faut les évaluer, les soumettre à l’épreuve de la réalité et
apprécier leur justesse.
Estimer le taux d’erreur du modèle.

En apprentissage supervisé, le taux d’erreur est


généralement calculé à partir de la matrice de
confusion.

La matrice de confusion donne le pourcentage


d’affectation dans les différentes classes en fonction
des classes d’origine

MastèreLSI
MRI3
Mohamed HAMMAMI 54
Phase de validation et de mise en forme
Critères de comparaison de classifieurs :
1. Taux de précision : capacité à prédire correctement
2. Temps de calcul : temps nécessaire pour apprendre et tester f^
3. Volume de données : efficacité en présence de données de
grande taille

Taux d’erreur :
Soit la matrice de Confusion suivante:

A B
A 888 12
B 5 995
LSI 3
Mohamed HAMMAMI 55
Phase de validation et de mise en forme
Taux d'erreur global
 permet de savoir comment va agir un classifieur sur l’ensemble des
données
n A. A  n B. B
 globale  1
card ( M )
où card(M) est le nombre total d’individu

Taux d'erreur à priori


 c’est la probabilité qu’un individu appartenant à la classe k ne soit pas
affecté à la classe k.
 Il s’agit en effet de calculer le taux d’erreur relatif à chaque classe
 pour notre exemple et pour la classe A, le taux d’erreur à priori est
donné par l’équation suivante :
n A, k

 à priori kA

n
k
A, k

LSI 3
Mohamed HAMMAMI 56
Phase de validation et de mise en forme

Taux d'erreur à posteriori


 c’est la probabilité qu’un individu affecté à la classe k
appartienne effectivement à la classe k.
 pour notre exemple et pour la classe A, le taux d’erreur a
posteriori est :
n k.A

 à posteriori kA

n
k
k.A

Remarque:
 le taux d’erreur à priori est le complément du critère
classique du taux de rappel
 Le taux d’erreur à posteriori est le complément du critère
classique du taux de précision

LSI 3
Mohamed HAMMAMI 57
Récapitulation

Les données
Des bits, des symboles, des nombres, des objets que nous
collectons journalièrement

Les informations
Des données sans redondances, réduites au minimum
nécessaire pour caractériser les données

Les connaissances
La connaissance est intégrée dans l’information, elle inclut
des faits et des relations entre ces faits
Elles relient les informations entre-elles

MastèreLSI
MRI3
Mohamed HAMMAMI 58
Exemple: des données aux connaissances

MastèreLSI
MRI3
Mohamed HAMMAMI 59
Logiciels d’ECD / Data Mining

Logiciels commerciaux :
SPAD (Decisia)
SAS Enterprise Miner
• Simplicité du pilotage
• Techniques variées
SPSS Clementine
• Déploiement
STATISTICA Data Miner • Outils de “reporting”
IBM Intelligent Miner

Logiciels universitaires :
TANAGRA
• Spécifiques à certaines techniques
SIPINA
• Techniques référencées - publiées
WEKA • Outils de validation
ORANGE

MastèreLSI
MRI3
Mohamed HAMMAMI 60
Chapitre 3 :

Techniques de Data Mining

LSI 3
Mohamed HAMMAMI 61
Phase de fouille de données (Apprentissage automatique)

Cette phase est au coeur du processus ECD.

Trois catégories de méthodes :


Les techniques de visualisation et de description ;
Les techniques de classification et de structuration ;
Les techniques de prédiction.

Deux catégories d’apprentissage :


Apprentissage non-supervisé (Unsupervised Learning).
Apprentissage supervisé (Supervised Learning) ;

Procédure obtenue = "classifieur"

LSI 3
Mohamed HAMMAMI 62
Techniques de visualisation et de description

Le Data Mining descriptif


Mettre en évidence des informations présentes mais
noyées par le volume de données.

Trouver un résumé des données qui soit le plus


intelligible
Statistique descriptive
Analyse factorielle
Codage graphique
Interface Homme-Machine

LSI 3
Mohamed HAMMAMI 63
Techniques de visualisation et de description

LSI 3
Mohamed HAMMAMI 64
Techniques de visualisation et de description

LSI 3
Mohamed HAMMAMI 65
Techniques de visualisation et de description

LSI 3
Mohamed HAMMAMI 66
Techniques de visualisation et de description

LSI 3
Mohamed HAMMAMI 67
Techniques de visualisation et de description

Angleterre, 1831. Un patient sur deux meurt !

À cette époque, on pensait que le choléra était transmis par


les miasmes, c'est-à-dire un mauvais air, avec la croyance que
les personnes de « mauvaise moralité » étaient plus
vulnérables !

Les observations du Docteur John Snow sont incompatibles


avec cette théorie dominante. Si le mauvais air est à l’origine
de la maladie, celle-ci doit être répartie de façon homogène et
toucher toutes les catégories sociales

il constate que la maladie apparaît surtout à la fin de l'été,


frappant presque toujours chez des patients pauvres, vivant
dans des conditions très misérable.

LSI 3
Mohamed HAMMAMI 68
Techniques de visualisation et de description

Dr. John Snow suit de près l’évolution de l’épidémie et réalise


une minutieuse enquête, répertoriant le domicile de chaque
patient sur une carte. Il découvre la cause probable des cas
de choléra.  L’épicentre de l’épidémie est localisé près d’une
pompe de Broad Street

LSI 3
Mohamed HAMMAMI 69
Exemple

A partir d'un tableau individus variables, on fera dans un


premier temps une description unidimensionnelle de
chacune des variables, prise séparément.

LSI 3
Mohamed HAMMAMI 70
Exemple

Le nombre d'individus étant généralement grand, voire très grand, une


telle série brute est difficilement lisible et interprétable. Il est
indispensable de la résumer.
Pour cela, on commence par un tri à plat, décompte des modalités ou
valeurs obtenues, qui nous servira de base à la construction de
tableaux et de graphiques.

LSI 3
71
Exemple

Le but est d'obtenir des résumés clairs et concis, mais en conservant


l'essentiel de l'information contenue dans les données initiales, et en
utilisant des techniques objectives ne donnant pas une image
déformée de la réalité.
Voici quelques exemples des tableaux et graphiques à obtenir :

LSI 3
Mohamed HAMMAMI 72
Exemple

Et voici quelques exemples de ce qu'il ne faut pas faire !

LSI 3
Mohamed HAMMAMI 73
Techniques de structuration et de classification

But : détecter au sein d’un ensemble de données non


étiquetées des groupes d ’objets «similaires»
 Apprentissage non supervisé

Organisation des données en groupes (clusters) de


façon à ce que les données similaires soient dans le
même groupe
2 optimisations:
 Similarités entre les données dans un groupes aussi élevées que
possible (intra-groupe)
 Grande homogénéïté de chaque classe
 Similarités entre les données de différents groupes aussi
distinctes que possible (inter-groupe)
 Bonne séparation des classes

LSI 3
Mohamed HAMMAMI 74
Techniques de structuration et de classification

Approches de regroupement (Clustering)


 Algorithmes hiérarchiques: Créer une décomposition hiérarchique
des objets selon certains critères
 Algorithmes de Partitionnement: Construire plusieurs partitions
puis les évaluer selon certains critères
 Algorithmes basés sur la densité: basés sur des notions de
connectivité et de densité
 Algorithmes à modèles: Un modèle est supposé pour chaque
cluster ensuite vérifier chaque modèle sur chaque groupe pour
choisir le meilleur

LSI 3
Mohamed HAMMAMI 75
Techniques de structuration et de classification
Apprentissage non supervisé (Les classes sont
inconnues)
 Exemple:
 Segmentation de l’ensemble des clients d’une entreprise en
fonction de leurs habitudes d’achat
 Grouper des documents ou des images pour des présentations

Attributs (Caractéristiques)

y1 y2 ... yp classe
w1 a b c 1
d’apprentissage

w2
Exemples

b c a 2
.
.
.
wn c a a 4
LSI 3
Mohamed HAMMAMI 76
Techniques de structuration et de classification

Exemple: regroupement de personnes

Sexe, lunettes,
sourire, chapeau

LSI 3
Mohamed HAMMAMI 77
Techniques de structuration et de classification

LSI 3
Mohamed HAMMAMI 78
Techniques de structuration et de classification

LSI 3
Mohamed HAMMAMI 79
Techniques de structuration et de classification

Dendrogramme:
Représentation
graphique des
groupes et des
combinaisons des
groupes

LSI 3
Mohamed HAMMAMI 80
Techniques de structuration et de classification

Exemple: 2 Clusters

LSI 3
Mohamed HAMMAMI 81
Techniques de structuration et de classification

Exemple: 6 Clusters

LSI 3
Mohamed HAMMAMI 82
Techniques de prédiction

Le Data Mining prédictif


 Extrapoler des nouvelles informations à partir de données
existantes
 Apprentissage supervisé
 Apprendre à l’aide d’un ensemble d'entraînement des
règles qui permettent de prédire (ou « deviner »)
certaines caractéristiques de nouvelles observations
 Dans tous les cas, on utilise des données « historiques »
ou connues pour construire un modèle.
 Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations

LSI 3
Mohamed HAMMAMI 83
Techniques de prédiction

Apprentissage supervisé.
 Exemple : prédire la qualité d’un client (rembourse ou pas
son crédit) en fonction de ses caractéristiques.

Attributs (Caractéristiques)

y1 y2 ... yp classe
w1 a b c 1
d’apprentissage

w2 b c a 2
Exemples

.
.
.
wn c a a 4

LSI 3
Mohamed HAMMAMI 84
Techniques de prédiction

Exemple: Classification de documents


sport
culture
textes Moteur de santé
Catégorisation politic
economic
vacances
Principe
 Classification (par apprentissage) de textes dans 1 ou
plusieurs catégories
Application web:
 les sites tels que Yahoo constituent une exellente base
d’apprentissage, car les catégories y ont été générées
manuellement. Sert à générer un classifieur pour classer les
prochains documents.
LSI 3
Mohamed HAMMAMI 85
Techniques de prédiction
Exemple: Classification de documents

Site organisé par catégorie


LSI 3
Mohamed HAMMAMI 86
Techniques de prédiction

Méthodes et algorithmes
 Arbres de décision
 Réseaux de neurones
 Machines à vecteur de support (SVM)
 Régression en général
 Méthode des plus proches voisins
…

LSI 3
Mohamed HAMMAMI 87
Techniques de prédiction

LSI 3
Mohamed HAMMAMI 88
Techniques de prédiction

LSI 3
Mohamed HAMMAMI 89
Techniques de prédiction

LSI 3
Mohamed HAMMAMI 90
Chapitre 4 :

Apprentissage non-supervisé

LSI 3
Mohamed HAMMAMI 91
Données Connaissances

Acquisition Préparation des données Fouille de données Evaluation

Techniques de visualisation Techniques de classification Techniques de


et de description et de structuration prédiction

LSI 3
Mohamed HAMMAMI 92
Introduction générale

La classification automatique : produire des groupements de


lignes ou de colonnes d’un tableau.

Objets ou individus décrits par un certain nombre de variables


ou de caractères.
Une problématique en Gestion (Marketing) : Découper le marché
en sous-ensembles dont les éléments réagissent de façon
similaire aux variations des variables du marché.

 La classification a donné lieu à de nombreuses études et à des


développements théoriques et logiciels diversifiés.

LSI 3
Mohamed HAMMAMI 93
Introduction générale

Exemples d’application :
Identifier des groupes d’individus ou de
ménages ayant un comportement
homogène vis-à-vis de :
la consommation de différents produits,
la consommation de différentes
marques ou variétés,
l’attitude par rapport à un produit,
...

 Il s’agit de problèmes souvent traités


avec les méthodes de classification
automatique.

LSI 3
Mohamed HAMMAMI 94
Introduction générale

Données analysées :
 Un tableau individus-variables :
n individus (objets) décrits par p variables
(descripteurs) ;
un tableau à valeurs numériques
continues (valeur de la variable j pour
l’individu i) ;
un tableau de contingence (croisant deux
partition d’une même population) ;
un tableau de présence–absence (valeur
0 ou 1).
 Un tableau carré symétrique de
similarités ou de distances.

LSI 3
Mohamed HAMMAMI 95
Introduction générale

Objectifs :
Constituer des groupes d’objets
homogènes et différenciés tels que :
 les objets soient les plus similaires possibles
au sein d’un groupe (critère de compacité) ;
 les groupes soient aussi dissemblables que
possible (critère de séparabilité).

La ressemblance ou la dissemblance


étant mesurée sur l’ensemble des
variables descriptives.

LSI 3
Mohamed HAMMAMI 96
Introduction générale

Hypothèse :
On suppose qu’une structure de
classes existe au sein de la
population étudiée.

Le but de la classification est de la


mettre à jour ou de l’identifier.

 On suppose que la population étudiée


est séparable.

LSI 3
Mohamed HAMMAMI 97
Introduction générale

Représentations :
La représentation synthétique peut
être :
une typologie ;
un recouvrement (classes empiétantes) ;
une partition ;
une hiérarchie de partitions (arbre
hiérarchique) ;
une hiérarchie de recouvrements
(pyramide).

LSI 3
Mohamed HAMMAMI 98
Introduction générale

Une classification automatique obtenue sur un ensemble n’est


jamais la classification de cet ensemble . . .

 C’est une classification parmi beaucoup d’autres.

La classification fait appel à une démarche algorithmique et


non aux calculs formalisés usuels en statistique.

La définition des classes se fait à partir d’une formulation


algorithmique.
Une série d’opérations définies de façon récursive et répétitive.
La mise en oeuvre de la plupart des techniques de classification
ne nécessite que des notions mathématiques relativement
élémentaires.

LSI 3
Mohamed HAMMAMI 99
Introduction générale

Les étapes de la classification


automatique :
1. Choix des données.

2. Calcul des dissimilarités entre les n


individus à partir du tableau initial.
3. Choix d’un algorithme de classification et
exécution.
4. L’interprétation des résultats :
évaluation de la qualité de la classification,
description des classes obtenues.

LSI 3
Mohamed HAMMAMI 100
Introduction générale

Calcul des ressemblances :


 Variables quantitatives
 La distance euclidienne est une mesure
possible de la ressemblance.
 Dans le cas de variables hétérogènes, il
faut travailler sur les données centrées
réduites.
 Variables qualitatives
 De nombreux indices de ressemblance ont
été proposés.
 Dans le cas d’objets décrits par des
variables binaires, indice de Jaccard, indice
de Russel et Rao.

LSI 3
Mohamed HAMMAMI 101
Introduction générale

Il existe plusieurs familles d’algorithme


de classification.
On s’intéresse d'abord aux algorithmes
hiérarchiques
 Les algorithmes ascendants (ou encore
agglomératifs) qui procèdent à la construction
des classes par agglomérations successives
des objets deux à deux, et qui fournissent une
hiérarchie de partitions des objets.
 Les algorithmes descendants (ou encore
divisifs) qui procèdent par dichotomies
successives de l’ensemble des objets, et qui
peuvent encore fournir une hiérarchie de
partitions.

LSI 3
Mohamed HAMMAMI 102
Classification Ascendante Hiérarchique (CAH)

une hiérarchie de partitions (arbre hiérarchique)

LSI 3
Mohamed HAMMAMI 103
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed HAMMAMI 104
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed HAMMAMI 105
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed HAMMAMI 106
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed HAMMAMI 107
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed HAMMAMI 108
Classification Ascendante Hiérarchique (CAH)

Première observation :
 La stratégie intuitive utilisé pour passer d’une partition
Pi à la suivante Pi+1 ne remet pas en cause les
regroupements.
 Si deux individus sont réunis dans une classe, ils
restent ensemble tout le temps.
 Les partitions ainsi construites sont emboîtées de la
plus fine à la plus grossière.
 On obtient une hiérarchie de partitions qu’on peut
représenter par un dendrogramme.

LSI 3
Mohamed HAMMAMI 109
Classification Ascendante Hiérarchique (CAH)

Deuxième observation :

LSI 3
Mohamed HAMMAMI 110
Dissimilarité entre deux points

Mesures de distance :
La plupart des techniques de classification font appel à des
mesures de distance, appelé aussi métrique.

 Evaluer les degrés de dissemblance ou de ressemblance entre


deux individus ou deux groupes d’individus.

 La dissemblance entre deux d’individus est évaluée par la


notion de dissimilarité dont le sens mathématique peut se
traduire par divers critères de mesure quantitative.

LSI 3
Mohamed HAMMAMI 111
Dissimilarité entre deux points

Types de dissimilarité :
 Selon la nature des données, on distingue quatre
groupes de critères de dissimilarité entre individus :

1. la dissimilarité définie sur les données quantitatives ;


2. la dissimilarité définie sur les données qualitatives,
fréquentielles, ou les données d’occurrences ;
3. la dissimilarité définie sur les données ordinales ;
4. la dissimilarité définie sur les données logiques.

LSI 3
Mohamed HAMMAMI 112
Dissimilarité entre deux points

LSI 3
Mohamed HAMMAMI 113
Dissimilarité entre deux points

LSI 3
Mohamed HAMMAMI 114
Dissimilarité entre deux points

LSI 3
Mohamed HAMMAMI 115
Dissimilarité entre deux points

LSI 3
Mohamed HAMMAMI 116
Dissimilarité entre deux ensembles de points

LSI 3
Mohamed HAMMAMI 117
Dissimilarité entre deux ensembles de points

LSI 3
Mohamed HAMMAMI 118
Algorithme de la CAH

Lance et William (1967)

Etape 0 : il y a n éléments à classer (n objets) ;

Etape 1 : on construit la matrice de distances entre les n éléments et


l’on cherche les deux plus proches, que l’on agrège en un nouvel
élément. On obtient une première partition à (n−1) classes ;
Etape 2 : on construit une nouvelle matrice des distances qui résultent
de l’agrégation, en calculant les distances entre le nouvel élément et les
éléments restants (mêmes conditions qu’à l’étape 1 avec (n−1)
éléments). On cherche les deux éléments les plus proches, que l’on
agrège. On obtient une deuxième partition avec (n−2) classes et qui
englobe la première ;
Etape m : on calcule les nouvelles distances, et l’on réitère le processus
jusqu’à n’avoir plus qu’un seul élément regroupant tous les objets et qui
constitue la dernière partition.

LSI 3
Mohamed HAMMAMI 119
Algorithme de la CAH

LSI 3
Mohamed HAMMAMI 120
Algorithme de la CAH

LSI 3
Mohamed HAMMAMI 121
Algorithme de la CAH

LSI 3
Mohamed HAMMAMI 122
Algorithme de la CAH

LSI 3
Mohamed HAMMAMI 123
Algorithme de la CAH

LSI 3
Mohamed HAMMAMI 124
Algorithme de la CAH

Choix de la meilleure partition


En apprentissage non supervisé, nous cherchons à faire
émerger des classes qui ont un sens de point de vue de
l’utilisateur.

Il semble naturel d’accepter l’idée selon laquelle, la


meilleure partition est celle où les dissimilarités entre
individus d’une même classe sont les faibles et les
dissimilarités entre individus de classes différentes sont
les plus fortes.

Pour la CAH, le digramme de la hiérarchie de partitions


va nous aider à déterminer la meilleur partition.

LSI 3
Mohamed HAMMAMI 125
Algorithme de la CAH
Choix de la meilleure partition
Si l’indice de la hiérarchie fait un saut important par passage
de la partition Pi à la partition Pi+1
Cela signifie que les deux classes que l’on vient de réunir sont
relativement éloignées.

LSI 3
Mohamed HAMMAMI 126
Algorithme de la CAH
Choix de la meilleure partition
Le saut le plus important a été effectué pour passer de P3 à
P4 car l’indice de la hiérarchie est passé de 3.35 à 7.07.
Comparativement aux précédentes valeurs, il s’agit d’une
variation brusque.
La meilleure partition est celle pour laquelle l’indice de la
hiérarchie h est tel que 3.35 ≤ h < 7.07

LSI 3
Mohamed HAMMAMI 127
Algorithme de la CAH

Inconvénients des algorithmes hiérarchiques


 Difficilement utilisables avec de grosses bases de
données.

 Il est difficile de déterminer la coupure significative de


l’arbre.

 La partition retenue à une étape dépend de celle obtenue


à l’étape précédente.

LSI 3
Mohamed HAMMAMI 128
Algorithme k-means

L’algorithme k-means est le plus connu des algorithmes


non hiérarchiques. Certains auteurs nomment cette
technique « centres mobiles »

Le terme « means » dans k-means fait référence au


centroïde du cluster, c'est-à-dire un point de données
choisi arbitrairement puis affiné de manière itérative
jusqu'à ce qu'il représente la moyenne vraie de tous les
points de données dans le cluster.

La lettre « k » fait référence au nombre arbitraire de points


qui sont utilisés pour ensemencer le processus de
clustering.

LSI 3
Mohamed HAMMAMI 129
Algorithme k-means

L’algorithme k-means permet le classement des objets dans


un nombre fixe de classe (k) défini par l’utilisateur.

Cet algorithme suppose que nous connaissions le nombre de


classes voulu.

Les objets sont classés en clusters et dans chaque cluster la


distance moyenne entre les objets est la plus petite possible.

Les objets sont déplacés de clusters en clusters jusqu’à que


tout changement n’améliore plus le système.

L’algorithme minimise la variabilité au sein des clusters et


maximise la variabilité entre clusters.

LSI 3
Mohamed HAMMAMI 130
Algorithme k-means
Exemple K-moyennes, étape 1:

k1
Y
Choisir 3 k2
centres
de classes
(au hasard)

k3

X
LSI 3
Mohamed HAMMAMI 131
Algorithme k-means
Exemple K-moyennes, étape 2:

k1
Y

Affecter k2
chaque point
à la classe
dont le centre
est le plus k3
proche
X
LSI 3
Mohamed HAMMAMI 132
Algorithme k-means
Exemple K-moyennes, étape 3:

k1 k1
Y

Déplacer k2
chaque centre
de classe vers k3
k2
la moyenne de
chaque classe k3

X
LSI 3
Mohamed HAMMAMI 133
Algorithme k-means
Exemple K-moyennes, étape 4:

Y
Réaffecter les
points qui sont k1
plus proches du
centre d'une autre
classe

Q : Quels sont les


points qui k3
changent de k2
classe?

X
LSI 3
Mohamed HAMMAMI 134
Algorithme k-means
Exemple K-moyennes, étape 4..:

k1
Y
R : les trois
points qui
changent de k3
classe k2

X
LSI 3
Mohamed HAMMAMI 135
Algorithme k-means
Exemple K-moyennes, étape 4..:

k1
Y
Re-calculer les
moyennes des
classes k3
k2

X
LSI 3
Mohamed HAMMAMI 136
Algorithme k-means
Exemple K-moyennes, étape 4..:

k1
Y

Déplacer les k2
centres des k3
classes vers
les moyennes

X
LSI 3
Mohamed HAMMAMI 137
Algorithme k-means

Comment K-means fonctionne :


L’algorithme choisit K points aléatoirement ou “seeds”.

Assigne chacun des points restants à un cluster selon le “seed”


le plus proche.

Recalcule les centroides de chaque cluster (moyenne dans


chaque cluster)

Réassigne de nouveau les points aux clusters dont les


centroides sont les plus proches

Continue le processus jusqu’à la stabilisation des centroides.

LSI 3
Mohamed HAMMAMI 138
Algorithme k-means

Algorithme K-means
Initialisation des centroïdes avec les valeurs initiales
FIN = FAUX
TANT QUE NON FIN FAIRE
POUR chaque observation FAIRE
Trouver le centroïde le plus proche
Placer l’observation dans l’aggrégat le plus proche
FIN POUR
SI aucun changement des valeurs des centroïdes FAIRE
FIN = VRAI
SINON
Calculer les nouveaux centroïdes
FIN SI
FIN TANT QUE

LSI 3
Mohamed HAMMAMI 139
Algorithme k-means

L’algorithme k-means est en 4 étapes :

1. Choisir k objets formant ainsi k clusters

2. (Ré)affecter chaque objet O au cluster Ci de centre Mi tel


que dist(O,Mi) est minimal

3. Recalculer Mi de chaque cluster (le barycentre)

4. Aller à l’étape 2 si on vient de faire une affectation

LSI 3
Mohamed HAMMAMI 140
Algorithme k-means
K-Means :Exemple

A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A

On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3.


Ca donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3

Chaque objet O est affecté au cluster au milieu duquel, O est


le plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et
dist(M3,6)<dist(M1,6)
On a C1={1}, M1=1,
C2={2}, M2=2
C3={3, 6,7,8,13,15,17}, M3=69/7=9.86

LSI 3
Mohamed HAMMAMI 141
Algorithme k-means
K-Means :Exemple

dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne


bougent pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et
M3= 66/6=11

dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne


bougent pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67,
C3={7,8,13,15,17}, M3= 12

dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7


passe en C2. Les autres ne bougent pas. C1={1,2}, M1=1.5,
C2={3,6,7}, M2=5.34, C3= {8,13,15,17}, M3=13.25

dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe


en 2
C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15

Plus rien ne bouge


LSI 3
Mohamed HAMMAMI 142
Algorithme k-means
Exemple:
10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

10 10

9 9

8 8

7 7

6 6

5 5

4 4

3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10

LSI 3
Mohamed HAMMAMI 143
Algorithme k-means
Avantages de K-means
 La grande popularité de K-means vient de :
 Sa simplicité conceptuelle.

 Sa rapidité
- on ne compare pas toutes les observations entre elles mais
par rapport aux centres de classes.

 Ses faibles exigences en taille mémoire.


- pratique quand il y a un très grand nombre d’observations
(des milliers).

LSI 3
Mohamed HAMMAMI 144
Algorithme k-means
Inconvénients de K-means
 Obligation de fixer à priori le nombre (K) de classes ou
clusters.
 Ce choix peut se faire par simple examen visuel dans le cas de
données bidimensionnelles, mais il n'en est pas de même pour
des données de dimension supérieure.
 un "mauvais choix" pour la valeur de K conduira alors à une
typologie sans rapport avec la réalité.
 Les k-means sont souvent précédées d’une ACP (Analyse en
Composantes Principales). Une autre solution consiste à
effectuer d’abord une CAH (Classification Ascendante
Hiérarchique).

Dépendance au choix des centres initiaux (seeds)

 K-means fonctionne assez bien si le nombre de classes


voulu est modéré. Dès que le nombre de classes augmente,
la solution trouvée par l’algorithme est médiocre.

LSI 3
Mohamed HAMMAMI 145
LSI 3
Mohamed HAMMAMI 146
Chapitre 5 :

Apprentissage supervisé

LSI 3
Mohamed HAMMAMI 147
Classification supervisée

Définition : Classification supervisée


 Processus à deux phases:
1. Apprentissage : construire un modèle (ou classifieur)
qui décrit un ensemble prédéterminé de classes de
données

2. Classement : utiliser le classifieur pour affecter une


classe à un nouvel objet

Principe
 On utilise des données « historiques » ou connues pour
construire un modèle.
 Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations

LSI 3
Mohamed HAMMAMI 148
Classification supervisée
Exemple introductif: Modèle de prédiction pour le diagnostic
Chaque instance est décrite par un vecteur d’ attributs/valeurs
Toux Fièvre Poids Douleur
Mariem non oui normal gorge
Farid non oui normal abdomen
Salah oui oui maigre aucune
Nizar oui non obese tête

En entrée : un ensemble d’instances et leur classe


(correctement associées par un “professeur” ou “expert”)
Toux Fièvre Poids Douleur Diagnostic
Marie non oui normal gorge rhume
Farid non oui normal abdomen appendicite
.....

L’algorithme d’apprentissage doit construire un modèle de


prédiction permettant de prédire (ou « deviner ») l’appartenance
d’un individu à une classe en fonction de ses caractéristiques .
LSI 3
Mohamed HAMMAMI 149
Classification supervisée
Apprendre, c'est trouver une fonction F …

 est la population (la « réalité »)


 X
E
E est l ’ensemble des descriptions
des éléments de la population Y F
K
K est l ’ensemble des classes
le plus souvent construite par
le jugement d’un expert

X:E
X est la fonction qui associe à tout élément de  sa description

Y:K
Y est la fonction qui associe à tout élément de  sa classe

On cherche une fonction F : E  K


LSI 3
Mohamed HAMMAMI 150
Classification supervisée
Apprendre, c'est trouver une fonction F …

Exemple 1: Classification de sites en sites violents/sites non violents

C :  ¢={violent, non violent}

S  C (S)

X : 
S X(S) = (X1, , X2, X3..........
.Xn )

 Critères utilisés :
n_mots, n_v_mots, n_v_url , n_v_meta, n_liens, n_v_liens,
n_images, Npw …..
LSI 3
Mohamed HAMMAMI 151
Classification supervisée
Apprendre, c'est trouver une fonction F …

Exemple 2: Classification de portrait en Gros plan/plan américain/


plan Général

Gros plan

Plan américain

C :   ¢={Gros plan, plan américain, plan général}

I  C(I )
À pieds

X :


I X(I) = Ppeau
LSI 3
Mohamed HAMMAMI 152
Classification supervisée
Apprendre, c'est trouver une fonction F …
Exemple 3: Prédire la solvabilité d’un client
 Construction du modèle sur des individus avec la variable cible connue
X1 X2 X3 X4 X5….. Xn Y
age sexe CA 2008 matrimonial ... solvabilité
32 M 125000 Married ... Y
25 M 254000 Single ... N
37 F 265000 Married ... Y
Modèle prédictif : F(X1, .. Xn)
52 M 126000 Divorced ... N
24 F 265000 Veuf ... Y
29 F 345000 Married ... Y
36 F 362000 Married ... N
34 M 654000 Single ... N

 Application du modèle sur des individus avec la variable cible inconnue


X2 X3 X4 X5….. Xn Y
sexe CA 2008 matrimonial ... solvabilité
F 163000 Married ?
M 345000 Single ?
M 412000 Married ?
F 95000 Divorced ?
… … … …
LSI 3
Mohamed HAMMAMI 153
Classification supervisée

Autres exemples
Prédiction de
Faillite
Non remboursement de prêt
Détection de fraude
…

LSI 3
Mohamed HAMMAMI 154
Classification supervisée

Plusieurs techniques:
Arbres de décision
Réseaux de neurones
Machines à vecteur de support (SVM)
Réseaux bayésiens
Algorithmes génétiques, ….

LSI 3
Mohamed HAMMAMI 155
Arbres de décision

Principe
 Classer les objets en sous-classes par divisions hiérarchiques
=> construction automatique à partir d ’un échantillon de la base

 Décomposer l’espace des caractéristiques selon la variable la


plus discriminante à chaque étape

Algorithme de base :
1. Choisir le "meilleur" attribut
2. Etendre l'arbre en rajoutant une nouvelle branche pour chaque
valeur de l'attribut
3. Répartir les exemples d'app. sur les feuilles de l'arbre
4. Si aucun exemple n'est mal classé alors arrêt,
sinon repéter les étapes 1-4 pour les feuilles

LSI 3
Mohamed HAMMAMI 156
Arbres de décision

Un nœud

Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2

LSI 3
Mohamed HAMMAMI 157
Arbres de décision

Un nœud

Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2

LSI 3
Mohamed HAMMAMI 158
Arbres de décision

Un nœud

Une branche S
Une feuille v3
v1 v2 v1
Un parcours
v3
v2

LSI 3
Mohamed HAMMAMI 159
Arbres de décision

Un nœud

Une branche S
Une feuille v3
v2 v1
Un parcours
V1<Y
v3
v2
Si V3 > X
et V1 < Y
alors <Classe>

• Les arbres de décision sont des classifieurs pour des instances


représentées dans un formalisme attribut/valeur
• Un arbre de décision peut être traduit sous forme de règles de décision
LSI 3
Mohamed HAMMAMI 160
Arbres de décision

On attribut la classe majoritaire à une feuille

LSI 3
Mohamed HAMMAMI 161
Exemple introductif

N° Outlook Temperature Humidity Windy Play? Objectif :


1 Sunny hot high false No
• Prédire si un match de foot
2 Sunny hot high true No
va avoir lieu ou non.
3 overcast hot high false Yes
4 rain mild high false Yes
• Établir une relation entre le
5 Rain cool normal false Yes
fait de jouer ou pas et les
6 rain cool normal true No
conditions météorologiques.
7 overcast cool normal true Yes
8 sunny mild high false No
9 sunny cool normal false Yes
• Variable à expliquer (cible) :
10 rain mild normal false Yes
Play (2 classes yes et no).
11 sunny mild normal true Yes
12 overcast mild high true Yes • Variables explicatives :
13 Overcast hot normal false Yes Outlook, Temperature, Humidity
14 rain mild high true No et Windy

LSI 3
Mohamed HAMMAMI 162
Comment construire un arbre de décision ?

Deux phases de construction :


Construction descendante
Au début, tous les individus de la base d’apprentissage
sont affectés au nœud racine de l’arbre.
On partitionne de manière récursive en choisissant un
attribut d’éclatement à chaque nœud de l’arbre.

Construction ascendante (élagage)


Supprimer les sous-arbres ou les branches, dans une
approche ascendante de façon à améliorer la précision
estimé de nouveaux cas.

LSI 3
Mohamed HAMMAMI 163
Nœud racine de l’arbre

N° Outlook Temperature Humidity Windy Play?


1 Sunny hot high false No 9 (64,3%) Yes
2 Sunny hot high true No
3 overcast hot high false Yes 5 (36,7%) No
4 rain mild high false Yes
5 Rain cool normal false Yes
6 rain cool normal true No
Le nœud racine comprend
7 overcast cool normal true Yes
8 sunny mild high false No
tous les individus de la
9 sunny cool normal false Yes base d’apprentissage
10 rain mild normal false Yes partitionnés selon la classe
11 sunny mild normal true Yes à prédire (variable cible).
12 overcast mild high true Yes
13 Overcast hot normal false Yes
14 rain mild high true No

LSI 3
Mohamed HAMMAMI 164
Comment éclater le nœud racine ?

9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13

5 (36,7%) No J1,J2, J6,J8,J14

+
+ J4,J5,J10
J9,J11 J6,J14
- J1,J2,J8 -

+ J3,J13,J7,J12
-
LSI 3
Mohamed HAMMAMI 165
Comment éclater le nœud racine ?

9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13

5 (36,7%) No J1,J2, J6,J8,J14

+ J3,J13 + J5,J7,J9
- J1,J2 - J6

+ J4,J10,J11,J13
- J8,J14
LSI 3
Mohamed HAMMAMI 166
Comment éclater le nœud racine ?

9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13

5 (36,7%) No J1,J2, J6,J8,J14

+ J3,J4,J12 + J5,J7,J9,J10,J11,J13
- J1,J2, J8, J14 - J6

LSI 3
Mohamed HAMMAMI 167
Comment éclater le nœud racine ?

9 (64,3%) Yes J3,J4,J5,J7,J9,J10,J11,J12,J13

5 (36,7%) No J1,J2, J6,J8,J14

+ J3,J4,J5,J9,10,J13 + J7,J11,J12
- J1,J8 - J2,J6,J14

LSI 3
Mohamed HAMMAMI 168
Quelle est la variable à choisir ?

LSI 3
Mohamed HAMMAMI 169
Quelle est la variable à choisir ?

Il faut choisir la variable qui :

 mène aux sous-ensembles d’individus les plus homogènes


possible en fonction de la classe à prédire.

mène à la création de nœuds fils les plus purs possible.


diminue le plus possible le désordre (l’entropie) de la classe à
prédire dans les nœuds fils.

mène à une nouvelle partition d’individus qui diminue l’entropie


en cours.

LSI 3
Mohamed HAMMAMI 170
Quelle est la variable à choisir ?

LSI 3
Mohamed HAMMAMI 171
Deuxième partition de l’arbre

9 (64,3%)
S0 5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)


S1
3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed HAMMAMI 172
Quel est le nœud à éclater ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed HAMMAMI 173
Quelle est la variable à choisir ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed HAMMAMI 174
Quelle est la variable à choisir ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed HAMMAMI 175
Quelle est la variable à choisir ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed HAMMAMI 176
Troisième partition de l’arbre

9 (64,3%)
S0 5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)


S1
3 (60%) 0 (0%) 2 (40%)

High Normal

S2
0 (0%) 2 (100%)

3 (100%) 0 (0%)

LSI 3
Mohamed HAMMAMI 177
Quatrième partition de l’arbre

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

High Normal False True

0 (0%) 2 (100%) 3 (100%) 0 (0%)

3 (100%) 0 (0%) 0 (0%) 2 (100%)

S3
LSI 3
Mohamed HAMMAMI 178
Mesure d’impureté
Il y a le plus souvent de nombreux arbres de
décision possibles corrects.

Parmi toutes les hypothèses cohérentes possibles,


laquelle faut-il choisir en vue d’une bonne
généralisation ?
La réponse intuitive ...
... est-elle confirmée par la théorie ?

Impossibilité de procéder par énumération /


évaluation
 4 attributs & 3 valeurs / attribut : 55296 arbres

Nécessité d’une démarche constructive itérative


LSI 3
Mohamed HAMMAMI 179
Mesure d’impureté
Critères de choix de chaque noeud
La notion de mesure d’impureté

Cette mesure doit :


être égale à zéro pour un nœud pur de l’arbre de décision
être croissante en fonction du désordre d’un nœud. Plus le
désordre est grand, plus la valeur de la mesure est grande.
avoir des valeurs additives pour évaluer le désordre d’une
partition de l’arbre de décision.

 Entropie de Shannon
 Entropie de Boltzmann
 Index de Gini

LSI 3
Mohamed HAMMAMI 180
Entropie de Shannon
Shannon en 1949 a proposé une mesure d’entropie
valable pour les distributions discrètes de probabilité.

Elle exprime la quantité d’information, c’est à dire le


nombre de bits nécessaire pour spécifier la distribution

Pour un nœud s, l’entropie d'information est :

où pi est la probabilité de la classe Ci.

LSI 3
Mohamed HAMMAMI 181
Entropie de Shannon
9 9 5 5 9 (64,3%) Yes
I ( s0 )   log 2 ( )  log 2 ( )  0,94
14 14 14 14 5 (36,7%) No

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)


s11 3 (60%) s12 0 (0%) s13 2 (40%)

2 2 3 3
I ( s11 )   log 2 ( )  log 2 ( )  0,97
5 5 5 5
NB
4 4 0 0
I (s12 )   log2 ( )  log2 ( )  0 Log2(x) = Log(x) / Log(2)
4 4 4 4
3 3 2 2
I ( s13 )   log 2 ( )  log 2 ( )  0,97
5 5 5 5
LSI 3
Mohamed HAMMAMI 182
Entropie de Shannon

Pour une partition S l’entropie d'information est :

Card( s)
I (S )   I ( s)
sS Card ()

où I(s) est l’entropie d’information du nœud s

LSI 3
Mohamed HAMMAMI 183
Entropie de Shannon

9 (64,3%) Yes
5 (36,7%) No

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)


S1 3 (60%) 0 (0%) 2 (40%)

5 4 5
I (S )  I (s11 )  I (s12 )  I (s13 )
14 14 14

LSI 3
Mohamed HAMMAMI 184
Entropie de Shannon

Critère de partitionnement
 Gain d’incertitude:

(st1)I(St)I(St1)

Objectif : Maximiser le gain d’incertitude

 Un nœud p est terminal si : tous les éléments


associés à ce nœud sont dans une même classe
ou si aucun test n’a pu être séléctionner
LSI 3
Mohamed HAMMAMI 185
Entropie de Shannon

Pour les exemples initiaux


I(S) = - 9/14 log2(9/14) - 5/14 log2(5/14)

Entropie de l’arbre associé au test sur Outlook ?


E(Outlook) = 5/14 I(S11) + 4/14 I(S12) + 5/14 I(S13)
Gain(Outlook) = 0.940 - 0.694 = 0.246 bits

Gain(Temperature) = 0.029 bits


Gain(Humidity) = 0.151 bits
Gain(Windy) = 0.048 bits

Choix de l’attribut Outlook pour le premier test

LSI 3
Mohamed HAMMAMI 186
Arbre final obtenu

Outlook

sunny rain
overcast

Humidity Yes Windy

high normal true false

No Yes No Yes

LSI 3
Mohamed HAMMAMI 187
Algorithmes d’apprentissage

ID3 [Quinlan,1986]

C4.5 [Quinlan,1993]

CART [Briemen,1984]

SIPINA [Zighed,1992]

...

LSI 3
Mohamed HAMMAMI 188
ID3, C4.5

 Graphe arborescente n-aire


So
 Passage d’une partition St à St1 exclusivement
par segmentation
10
 Critère de sélection de variable S1 S2
20
ID3: Gain Informationnel
C4.5: Ratio de gain Xj
5 5
 Élagage d’arbre S3
20
S4
0
ID3: non
Xi
C4.5: oui

1 0 4
10 8 2
S5 S6 S7

LSI 3
Mohamed HAMMAMI 189
ID3, C4.5

- Critère de partitionnement
ID3  maximiser le gain d’incertitude entre I(St) et I(St+1)
 Utilisation de l’entropie de Shannon:

Exemple:
So
( St 1 )  I ( S1 )  I ( S3 , S 4 )

 
10
S1 S2
 10 log210  20log2 20 20
30 30 30 30 Xj
- [ - 25 ( 5 log 2 5 + 20 log 2 20) - 5 (5 log 2 5 + 0 log 2 0)]
30 25 25 25 25 30 5 5 5 5 5 5
S3 S4
20 0
Xi
= 0.9183- 0.7739
= 0.1443 1 0 4
10 8 2
S5 S6 S7
LSI 3
Mohamed HAMMAMI 190
ID3, C4.5

C4.5 I ( S j )   ( St 1 )
( S t 1 )  
nkj nkj
 log 2
k 1 n j nj

Facteur visant à pénaliser la prolifération des sommets

I ( S1 )  I ( S 3 , S 4 )
( S t 1 ) 
Sur le même exemple: 25 25 5 5
 log 2  log 2
30 30 30 30

(St 1) 0.91830.7739


 25log2 25 5 log2 5
30 30 30 30
= 0.222

LSI 3
Mohamed HAMMAMI 191
ID3, C4.5

Conditions d’arrêt:
1. Tous le sommets sont saturés
2. Contrainte d’admissibilité
3. Gain d’information minimal 

LSI 3
Mohamed HAMMAMI 192
CART

Segmentation par arbre binaire

Choisie parmi p variable, une bi-partition S1={Sg1,Sd1} So

Soit : ng  card(Sg)
Sg1 Sd1
nd  card(Sd)

nig et nid effectifs de la classe ci Sg2 Sg2

Critères utilisés
Indice de Gini : M=2
Indicateur de Towing : M>2
Élagage d’arbre
CART: oui
LSI 3
Mohamed HAMMAMI 193
CART

Indice de Gini (M=2)


ng m nig  nig  nd m
nid  nid 
I ( sg  sd )   1     1  
n i 1 ng  ng  n i 1 nd  nd 

- Maximiser la variation d’impureté J G ( sg  sd )


m nig  nid  nig  nid 
J G ( sg  sd )   1    I ( sg  sd )
i 1 n  n 
Ou encore 2
ng nd m  nig nid 
J G ( sg  sd ) 
n n
   
i 1  ng nd 
LSI 3
Mohamed HAMMAMI 194
CART

Indicateur de Towing (M > 2)

2
ng nd
 m nig n 
JT ( sg  sd ) 
n n
  id 
4  i 1 ng nd 

On cherche la bipartition qui maximise J T ( sg  sd )

LSI 3
Mohamed HAMMAMI 195
SIPINA

Avantages SIPINA ?

Exclusivement Divisif
Méthodes arborescentes
Insensibilité à l effectif

Fusion

SIPINA
Sensibilité à l’effectif

LSI 3
Mohamed HAMMAMI 196
SIPINA

Inconvénients des Méthodes Classiques

• Insensibilité à l’effectif Distributions sur les deux classes sont analogues

40 4 Deux figures sont parfaitement décrites par


20 2 Les fréquences conditionnelles

40 0 4 0
0 20 0 2

A B

Il semble clair que les règles issues de A sont


L’effectif en A est dix fois plus grand que B Statistiquement meilleures

LSI 3
Mohamed HAMMAMI 197
SIPINA
• Non décroissance du critère

S0 40
20
(S)0

20 20
S={S1,S2} S0 est équivalente à S
10 10

- En terme d’effectif, les règles issues de S1 et S2 devraient être appréciées différemment


- ils couvrent un effectif plus faible devraient être pénalisées

LSI 3
Mohamed HAMMAMI 198
SIPINA
Objectif: maximiser (Si)
Ajout d’un parametre λ
 qui contrôle le développement du graphe et pénalise
les nœuds de faible effectif
 de ce fait , favorise les fusions entre les sommets

S0

S1 S2

S3 S4 S5 S6

S9

LSI 3
Mohamed HAMMAMI 199
SIPINA

Critère de partitionnement
 maximiser le gain d’incertitude:

(SI )I(Si)I(Si1)
 Utilisation de l’entropie de Shannon:
K nj  m nij   nij   
I  (S i )     log 2 
j 1 n 
 i 1 n j  m n j  m 

 Utilisation de l’entropie quadratique :


K
nj  m
nij   nij   
I  (S i )  
j 1

n  
i 1
n j  m
(1  )
ni  m 

LSI 3
Mohamed HAMMAMI 200
SIPINA

Comment passer de Si à Si+1 ?


Partition courante de Si

S3

S1 S2

Phase 1: Passage de Si à Si+1 par regroupement


Si11s3,s1s2 ( )
 S i11 (S 'i 1 )  max  S i j 1 ( )
j 1, 2 , 3
 s1 , s 2  s3  (S )
2 2
S
Si (S ' i 1 )  0 alors Si+1=S'i+1
i 1 i 1

S i31  s 2 , s1  s3  ( )
 S i31
Repartir à la phase 1

LSI 3
Mohamed HAMMAMI 201
SIPINA

Phase 2: Passage de Si à Si+1 par regroupement-éclatement


- Supposons on a 3 variables exogènes

Éclatement du premier regroupement par les 3 variables

- Sur chacun des sommets issu d’un regroupement, on cherche par ´éclatement,
avec toutes les variables Xj la meilleure partition

LSI 3
Mohamed HAMMAMI 202
SIPINA

Phase 3: Passage de Si à Si+1 par éclatement

- Éclatement des sommets par les 3 variables

LSI 3
Mohamed HAMMAMI 203
Inconvénients des arbres de décision

Le choix d’une branche n’est plus jamais


remis en cause.

L’apprentissage nécessite un grand nombre


d’individus.

La forme des modèles obtenus ne correspond


pas forcément à celle de l’échantillon.

Le temps de calcul d’un arbre est long.

Mauvaise performance s’il y a beaucoup de


classes

LSI 3
Mohamed HAMMAMI 204

Vous aimerez peut-être aussi