Académique Documents
Professionnel Documents
Culture Documents
Classification supervisée
Arnaud Liefooghe
arnaud.liefooghe@univ-lille1.fr
Classification supervisée
vs. non-supervisée
• Clustering
Problèmes Vocabulaire
• Méthode d’induction du classifieur ?
• Comment utiliser le classifieur obtenu ?
• Comment évaluer la qualité du classifieur obtenu : • Classification : prévoir une classe discrète
taux d’erreur (ou de succès) ?
• Comment traiter les attributs manquants dans le
jeu d’apprentissage ? dans une donnée à classer ? • Prédiction : prévoir une valeur continue
(degré de confiance)
• Comment estimer la tolérance au bruit ?
Le bruit concerne ici la valeur des attributs de
l’exemple avec lequel on construit le classifieur
Principe Principe
• Une instance = une suite de valeurs
d’attributs et une classe (a1, a2, ..., an, c) • Modèle : découvrir la structure des
données
• À l’aide d’un ensemble d’exemples, on veut
construire un modèle des données
(classifieur, prédicteur, ...)
• Quels sont les attributs importants pour
• On demande à ce classifieur de trouver la deviner une classe ?
classe de nouveaux exemples
Mode opératoire Schéma
1 - Construction du 2 - Évaluation du
modèle modèle
• Chaque instance est supposée appartenir à une
classe prédéfinie
• La classe d’une instance est déterminée par • Estimer le taux d’erreur
l’attribut «classe» • La classe connue d’une instance test est
• L’ensemble des instances d’apprentissage est comparée avec le résultat du modèle
utilisé dans la construction du modèle
• Taux d’erreur = pourcentage de tests
• Le modèle est représenté par des règles de incorrectement classés par le modèle
classification, arbres de décision, formules
mathématiques, ...
3 - Utilisation du
Domaines d’application
modèle
• Délivrance de crédit
• Diagnostic médical
• Classification de nouvelles instances • Prédiction du cours d’une action
(inconnues)
• Optimisation d’un envoi de courrier
• ...
La classification dans le
Apprentissage
processus du data-mining
• On manipule :
• Collecte, préparation des données • Des données
• Données d’apprentissage • Des hypothèses
• Évaluation, validation • On veut trouver la meilleure hypothèse
en fonction des données disponibles
C
• B = tous positifs
Classification
•
tp-rate
bayésienne
D C = k% positifs
E
• D = conservateur
• E < aléatoire
0
A • F = class. idéal
0 1
fp-rate
Classification
Principe
bayésienne
• À chaque hypothèse :
• On doit inférer (deviner) des quantités • On associe une probabilité
gouvernées (décrites) par des probabilités : (probabilité d’être la solution)
on veut se servir de ces probabilités pour
guider l’inférence • L’observation d’une (ou de plusieurs)
instances peut modifier cette probabilité
• Cadre plus général que la classification • On peut parler de l’hypothèse la plus
probable, au vu des instances
Classification
Buts (possibles)
bayésienne
• Approche probabiliste
• Formaliser les méthodes et les intuitions
• Basée sur les probabilités conditionnelles
• Préciser la notion de ‘plus probable’ (et la règle de Bayes)
• Nouveaux algorithmes d’apprentissage • Connaissances a priori
• Analyse d’autres algorithmes ne manipulant • Prévision du futur à partir du passé
pas explicitement des probabilités
• Suppose l'indépendance des attributs
Classification
Probabilités
bayésienne
• Différente de l’approche basée sur les • La probabilité d’un événement A est notée P(A)
fréquences ! • Elle est comprise entre 0 et 1
• Fréquences : on estime la probabilité • La probabilité d’un événement certain vaut 1
d'occurrence d’un événement
• La probabilité d’un événement impossible vaut 0
• Bayésienne : on estime la probabilité
• Si A et B sont indépendants
d'occurrence d’un événement sachant
qu’une hypothèse préliminaire est vérifiée • P(A∪B) = P(A) + P(B)
(connaissance) • P(non A) = 1 - P(A)
Probabilités Probabilités
conditionnelles conditionnelles
• P(A|B) = Probabilité que l'événement A
survienne si l'événement B survient
Exemple Indépendance
• 99% des sujets atteint d’une maladie M sont • Deux événements sont indépendants si la
positifs à un test de dépistage connaissance de l’un ne modifie pas la
probabilité de l’autre
• La maladie M touche 10% de la population
• Quelle est la fraction de la population des • Si A et B sont indépendants, alors :
sujets malades positifs au test de dépistage ? • P(A|B) = P(A)
Classifieur bayésien
Problématique
optimal
• Quelle est l’hypothèse la plus probable, au • Classification optimale si les probabilités de
chaque hypothèse sont connues
vu de l’ensemble d’apprentissage ?
• Pour une instance donnée, au vu de • Pas souvent le cas :
l’ensemble d’apprentissage, quelle sera la • Trop d’hypothèses, trop de calculs, trop
classification la plus probable de cet d’estimations
exemple ?
• Simplification ?
Application à la Application à la
classification classification
• P(ck|a1,...,an) = P(a1,...,an|ck)·P(ck) / P(a1,...,an)
• P(ck|a1,...,an) = P(a1,...,an|ck)·P(ck) / P(a1,...,an)
• P(ck) ≈ proportion d’instances de la classe ck
• P(ck|a1,...,an) croît quand P(a1,...,an|ck) croît : si • Retourner la classe ayant la probabilité la plus
(a1,...,an) arrive souvent quand ck est la classe, forte après l’observation de (a1,...,an)
alors il y a des chances que ck soit la classe
• Hypothèse Maximale A Posteriori : hMAP
• P(ck|a1,...,an) décroît quand P(a1,...,an) croît : si
• hMAP = argmaxck∈C P(a1,...,an|ck)·P(ck)/P(a1,...,an)
(a1,...,an) est courant, il nous apprend peu sur ck
Qualités du classifieur
Remarques
bayésien naïf
• Prédiction : comparable aux autres algorithmes
• Lisibilité : nulle
→ P(ck)·P(a1=‘il’|ck)·P(a2=‘était’|ck) ·...
Première possibilité Première possibilité
• Remarques • Quel sens donner à P(ck|A) ? Impossible !