Vous êtes sur la page 1sur 29

Analyse et Fouille de Données

Méthodes Prédictives:
Classification supervisée
Dr. Mouna Chebbah
Introduction
Apprentissage Supervisé
Approche Inductive
Approche Inductive
Un processus en 3 ou 4 étapes :
1. Etape d'apprentissage : phase inductive permettant d’élaborer un modèle.
Données : échantillon d'individus dont on connaît le classement et qui sont tirés
aléatoirement dans la population a modéliser. C’est l’ensemble d'apprentissage.
2. Etape de test : vérification du modèle obtenu en apprentissage.
Données : autre échantillon d'individus dont on connaît le classement et qui sont
tirés aléatoirement dans la même population que l’échantillon d'apprentissage. C’est
l’ensemble de test.
3. Etape de validation (facultative) : mesure des performances du modèle, prédiction de
la qualité des résultats qui seront obtenus lors de l'application du modèle.
Données : troisième échantillon dont on connaît le classement. C’est l’ensemble
de validation.
4. Etape d'application : phase déductive pour l'application du modèle a de nouvelles
données pour en déduire un classement.
Approche Transductive
Approche Transductive
! Ne comprennent qu'une seule étape, au cours de laquelle chaque individu
est directement classé par référence aux autres individus déjà classés.
!Pas d’élaboration de modèle.
Technique Tansductive: k-plus
proche voisin
!Technique transductive la plus connue.
!Idée: si un animal marche comme un canard, fait le même bruit qu'un
canard, alors c’est probablement un canard
Technique Transductive: k-ppv
Principe
! Le classement de chaque individu s’opère en regardant, parmi les individus déjà classés, la classe des
k individus qui sont les plus proches voisins (ou en calculant la moyenne dans le voisinage de la
variable a prédire).
! La valeur de k est choisie en sorte d'obtenir le meilleur classement possible.
Technique Transductive: k-ppv
Input :
!l'ensemble des tuples déjà classés.
!Une distance ou une mesure de similarité entre les enregistrements (tuples).
!La valeur de k, principale difficulté de l'algorithme.
Classement d'un nouvel enregistrement :
1. Calcul de la distance avec les autres enregistrements (tuples).
2. Identification des k plus proches voisins.
3. Utilisation des classements des voisins pour déterminer la valeur de classement
de l'enregistrement inconnu : vote majoritaire.
Technique Transductive: k-ppv

1-plus proche voisin 2-plus proche voisin 3-plus proche voisin


k-ppv : choix de k
! k trop petit : forte sensibilité aux points bruites.
! k trop grand : le voisinage peut inclure des points d'autres classes.
Exemple
!Soit k=3.
!Quelles sont les classes de ces nouveaux objets:
Sepal.Length Sepal.Width Petal.Length Petal.Width Species

4.1 2 5 0.5 ?
4.3 3 4.3 1.2 ?
4.2 2.5 3.2 1.6 ?
6 2.3 6 2.5 ?
!Le choix de k=3 est-il optimal?
!Evaluez les résultats de la classification. Données labélisées
Approche Inductive: Arbres de
décision
Objectif: Trouver la classe d’un objet (tuple) en ayant connaissance de ses
caractéristiques (valeurs des attributs).
Input:
!Une collection d'enregistrements (ensemble d'apprentissage ): chaque enregistrement
contient un ensemble d'attributs et un de ces attributs est sa classe.
Ce qu’il faut faire:
! Trouver un modèle pour l'attribut classe comme une fonction des valeurs des autres
attributs.

Assigner une classe a des tuples dont les classes sont inconnus de manière aussi précise
que possible.
=>Un ensemble de test est utilisé pour déterminer l’éfficacité du modèle.
Approche Inductive: Arbres de
décision
Arbres de décision
Ensemble de règles de classification basant leur décision (classe) sur des
tests associés aux attributs, organisés de manière arborescente.

!Motivation
Produire des classications compréhensibles par l'utilisateur.
Arbres de décision
Principe
!Prédire la valeur d'un attribut (variable cible ou classe) à partir d'un
ensemble de valeurs d'attributs (variables prédictives).
!Une méthode simple, supervisée, et très connue de classification et de
prédiction.
!Un arbre est équivalent à un ensemble de règles de décision : un modèle
facile a comprendre.
Un arbre est composé :
!de nœuds : répartition des objets de plus en plus fines depuis la racine.
!d'arcs : prédicats de partitionnement de la classe source.
Arbres de décision
! Décider si un patient est « malade » ou « bien portant » selon sa
température et s'il a la gorge irritée.
!Arbre de décision :
!2 classes : malade ; bien portant
!2 variables : température, gorge irritée.
Arbres de décision
! Nœud interne, intermédiaire ou test (nœud de décision) : chaque nœud
intermédiaire est déni par un test construit à partir d’un attribut. Le test est
applicable à toute description d'une instance et généralement un test sur un seul
attribut.
!Nœud terminal ou feuille : étiquettes par classe.
!Arcs issus d'un nœud interne : réponses possibles au test du nœud.
!Chaque nœud interne ou feuille est repéré par sa position (i.e. liste des numéros
des arcs qui permettent d'y accéder en partant de la racine).
!Arbre de décision et apprentissage :
!Tout arbre de décision définit un classifieur.
!Le classifieur se traduit immédiatement en terme de règle de décision.
Arbres de décision: Exemple 1
Arbres de décision: Exemple 2
Arbres de décision: Application
du modèle
Résumé
!Limites des méthodes transductives:
!lazy learners.
!Ne construit pas de modèle de manière explicite.
!Manipule l'ensemble des individus déjà classés pour tout nouveau classement.
!Grande puissance de stockage et de calcul
!Méthodes inductives:
!Résume, dans un modèle, l'information contenue dans les données.
!Permet d'appliquer rapidement ce modèle a de nouvelles données.
=> Les techniques inductives sont plus utilisées que les méthodes
transductives.
Evaluation de la qualité d’un
classifieur
!Panoplie de méthodes de classification.
!Laquelle choisir ? Y-a-t-il une méthode meilleure que les autres quelque
soit le problème ?
!Comment évaluer une méthode de classification ? Quelles métriques ?
Quelles méthodes ?
!Comment comparer les méthodes de classification entre elles ?
Matrice de confusion

• True Positive = correctly identied


• False Positive = incorrectly identied
• True Negative = correctly rejected
• False Negative = incorrectly rejected
Pourcentage de Classification
Correcte (PCC)
Recall\Precision

!Recall (True positive rate sensitivity)


!"
De ceux qui existent, combien l'algorithme a pu trouver 𝑇𝑃𝑅 =
(!"$%&)
!Précision
!"
De ceux que l'algorithme a pu classer, combien sont corrects. 𝑃𝑃𝑉 = (!"$%")
F-measure
! Moyenne harmonique entre la précision et le recall :
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 2 ∗ 𝑇𝑃
𝐹1 = 2. =
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 2 ∗ 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
!Ces critères doivent toujours être estimés sur des données test.
Deux approches :
1. La méthode de l’échantillon test : partager aléatoirement les données en un
échantillon d’apprentissage (80% par exemple des données) et un échantillon
test. En effectuant plusieurs tirages aléatoires on peut obtenir plusieurs
vecteurs de prédictions et donc plusieurs estimations du critère de performance
choisi (par exemple le taux d’erreur).
2. La validation croisée (utile pour les petits échantillons).
Validation Croisée
La validation croisée K-folds :
1. Découper les données en K sous-échantillons de même taille (en
respectant si possible les proportions des classes).
2. Pour k = 1, . . . , K,
• estimer la règle sur les données privées de l’échantillon k,
• prédire les données de l’échantillon k avec cette règle.
3. Calculer le critère de performance sur ces n prédictions.
=> plusieurs vecteurs de prédictions possibles.

Vous aimerez peut-être aussi