Vous êtes sur la page 1sur 260

RECONNAISSANCE

DES FORMES
Catherine ACHARD
Institut des Systèmes Intelligents et de
Robotique

catherine.achard@upmc.fr

Cours de Reconnaissance des Formes– Catherine Achard 1


Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Cours de Reconnaissance des Formes– Catherine Achard 2


Principe

Traitement d’images Instrumentation Physique

MATHEMATIQUES RdF INFORMATIQUE

Traitement du signal (parole) Biologie

Cours de Reconnaissance des Formes– Catherine Achard 3


Principe

• On dispose d’un ensemble de formes dont la classe est


connue (base d’apprentissage ou de références)

• On met au point une méthode qui, en étudiant cette base,


sera ensuite capable de classer des formes inconnues

Cours de Reconnaissance des Formes– Catherine Achard 4


Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Cours de Reconnaissance des Formes– Catherine Achard 5


Applications

Reconnaissance de texte

isolés Variabilité entre


cursifs scripteurs
ligne de base

Cours de Reconnaissance des Formes– Catherine Achard 6


Applications
Biométrie
Signature
Iris

Visage

Empreinte
vocale

Empreinte
digitale

Cours de Reconnaissance des Formes– Catherine Achard 7


Applications
Reconnaissances d’empreintes digitales

http://www.biometrie-online.net/techno/empreintes/empreintes-
digitales.php
Cours de Reconnaissance des Formes– Catherine Achard 8
Applications
Imagerie

médicale satellitaire

Cours de Reconnaissance des Formes– Catherine Achard 9


Applications
Analyse de scène

200

400 Aide technique


600

800
800

1000
1000

1200
1200

1400
1400

200
200 400
400 600
600 800
800 1000
1000 1200
1200 1400
1400 1600
1600 1800
1800 2000
2000

Véhicules intelligents

Cours de Reconnaissance des Formes– Catherine Achard 10


Applications
Signaux audio

Reconnaissance de locuteurs
• Parmi 10 personnes, qui parle ?

Reconnaissance de parole
• Parmi ces 20 mots, lequel la personne a dit ?

Cours de Reconnaissance des Formes– Catherine Achard 11


Applications

Signaux divers : diagnostic de panne

Sur un avion, il y a plusieurs centaines de


capteurs qui donnent des signaux en
permanence.

Comment faire pour détecter


automatiquement une panne et diagnostiquer
son origine ?

Cours de Reconnaissance des Formes– Catherine Achard 12


Applications

Contrôle de qualité

Champignon Champignon
fermé véreux

Champignon Champignon
taché terreux

Cours de Reconnaissance des Formes– Catherine Achard 13


Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Cours de Reconnaissance des Formes– Catherine Achard 14


Difficultés

Problème de
résolution

Problème de
pose

Distance entre
visage?

Cours de Reconnaissance des Formes– Catherine Achard 15


Difficultés

Expressions faciales, occlusion

Cours de Reconnaissance des Formes– Catherine Achard 16


Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Cours de Reconnaissance des Formes– Catherine Achard 17


Méthode supervisée ou non supervisée

Méthode supervisée : Méthode non supervisée :

On reçoit une image binaire Un client vient d’acheter un


et on doit l’associer à une livre sur Amazon. Je souhaite
des 26 lettres de l’alphabet retrouver les personnes avec
les mêmes gouts pour
 On connait à l’avance les orienter ce client
classes possibles. La base
d’apprentissage est  On ne connait pas à
étiquetée avec ces 26 l’avance les classes possibles.
classes La base d’apprentissage est
composée de clients ayant
fait des achats. On souhaite
regrouper les clients ayant les
mêmes gouts dans une
classe

Cours de Reconnaissance des Formes– Catherine Achard 18


Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Cours de Reconnaissance des Formes– Catherine Achard 19


Cas particulier : la détection

Raisonnons sur un cas concret : comment détecter un visage dans une


image ?

Cours de Reconnaissance des Formes– Catherine Achard 20


Cas particulier : la détection
On change le problème de détection en un problème de classification
On présente une imagette (une zone de l’image) en entrée d’un
système de reconnaissance. Celui-ci nous dit si cette imagette est un
visage ou non (sortie binaire)

Problème:
 Comment savoir où rechercher dans l’image ?
 Comment détecter à plusieurs échelles ?

En testant toutes les combinaisons possibles

En chaque position, problème de reconnaissance. Est-ce un visage ou non ?

Cours de Reconnaissance des Formes– Catherine Achard 21


Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Cours de Reconnaissance des Formes– Catherine Achard 22


Exemple

Reconnaître les truites et les saumons

Cours de Reconnaissance des Formes– Catherine Achard 23


Exemple

Pré-traitement
Extraire l’objet de l’image

Cours de Reconnaissance des Formes– Catherine Achard 24


Exemple

Codage Extraire de la forme un vecteur de mesure


aussi appelé vecteur de caractéristiques
ou codage
ou features

Exemple en 1 dimension : la taille des poissons

Cours de Reconnaissance des Formes– Catherine Achard 25


Exemple
Taille des poissons
Classification
Truite Saumon

Taille des
poissons
Seuil de décision

Trop de chevauchement, décision pas robuste. Que faire ?

Cours de Reconnaissance des Formes– Catherine Achard 26


Exemple
Autre caractéristique :
Classification la teinte des poissons

Truite
Saumon

Teinte

Seuil de décision

Trop de chevauchement, décision pas robuste. Que faire ?

Cours de Reconnaissance des Formes– Catherine Achard 27


Exemple
Classification Teinte et longueur des poissons
 Vecteur de caractéristiques à 2 dimensions

Longueur

Truite Saumon

Teinte

frontière de décision

On peut ajouter d’autres caractéristiques pour améliorer la classification

Mais les données ne sont pas toujours idéales

Cours de Reconnaissance des Formes– Catherine Achard 28


Exemple
Classification Teinte et longueur des poissons
 Vecteur de caractéristiques à 2 dimensions

Longueur

Truite Saumon

Teinte

frontière de décision

Pourquoi ne pas utiliser une frontière plus complexe ?


Quelle sera l’erreur pour de nouveaux poissons ?

Cours de Reconnaissance des Formes– Catherine Achard 29


Exemple
Classification Teinte et longueur des poissons
 Vecteur de caractéristiques à 2 dimensions

Longueur
Truite Saumon

Teinte
frontière de décision

Comment trouver une frontière moins spécifique, moins bonne sur


l’ensemble d’entrainement mais certainement meilleure sur de
nouveaux poissons ? ?

Cours de Reconnaissance des Formes– Catherine Achard 30


Les étapes de la reconnaissance de formes

Espace Espace Espace


de de de
mesure représentation décision

Codage Classification

Cours de Reconnaissance des Formes– Catherine Achard 31


Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Cours de Reconnaissance des Formes– Catherine Achard 32


Références

- DUDA Richard, HART Peter STORK David, "Pattern Classification ". Wiley Sciences, 2nd
edition.
- CHRISTOPHER M. BISHOP, “Pattern Recognition and machine learning”, springer, 2006
- BELAID Abdel, BELAID Yolande, "Reconnaissance des formes : Méthodes et
applications". InterEditions, 1992.
- DEVIJVER Pierre, KITTLER J., "Pattern Recognition: a statistical approach". Prentice Hall,
1982.
- DUBUISSON Bernard, "Diagnostic et reconnaissance des formes". Hermes, 1990.
- FU King-Sun, "Syntactic Methods in Pattern Recognition". Academic Press, 1974.
- GAILLAT Gérard, "Méthodes statistiques de reconnaissance des formes". Publication
ENSTA, 1983.
- MICLET Laurent, "Méthodes structurelles pour la reconnaissance des formes". Eyrolles
et CNET - ENST, 1984.
- MILGRAM Maurice,"Reconnaissance des formes : Méthodes numériques et
connexionnistes". Armand Colin, 1993.
- PAVLIDIS T., "Structural Pattern Recognition". Springer Verlag, 1982.
- SIMON Jean-Claude, "La reconnaissance des formes par algorithmes". Masson, 1984.
- WATANABE Satosi, "Knowing and Guessing". John Wiley, 1969.

Cours de Reconnaissance des Formes– Catherine Achard 33


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 34


Prétraitements et codage

ESPACE DE ESPACE DE
MESURE REPRESENTATION

Codage

Cours de Reconnaissance des Formes– Catherine Achard 35


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 36


Caractéristique des codages

Qu’est ce qu’un bon codage ?


 Pouvoir discriminant
 Le codage doit être différent pour des exemples de classes
différentes  forte variance inter-classes
 Pouvoir unifiant
 Le codage doit être à peu près le même pour tous les
exemples d’une même classe  faible variance intra-classe
 Stabilité/invariance
 Codage le plus insensible possible au bruit
 En fonction des applications, invariance en translation,
rotation, changement d’échelle
 Faible dimension
 Plus le codage est de faible dimension, plus les temps de
calcul seront faibles
 Augmenter la dimension peut détériorer les résultats de
reconnaissance (malédiction des grandes dimension
compromis à trouver)

Cours de Reconnaissance des Formes– Catherine Achard 37


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 38


Prétraitement

But : isoler la forme à reconnaître

Exemple : isoler les lettres

Paradoxe
Il faut segmenter pour reconnaître et … reconnaître pour segmenter

Cours de Reconnaissance des Formes– Catherine Achard 39


Prétraitement

A vous de jouer, on fait comment ?

Cours de Reconnaissance des Formes– Catherine Achard 40


Prétraitement
Segmentation
Projection selon y  segmentation en lignes

Cours de Reconnaissance des Formes– Catherine Achard 41


Prétraitement

Projection selon x  segmentation en lettres

Cours de Reconnaissance des Formes– Catherine Achard 42


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 43


Codage global vs structurel

 Codage global
On code toute la forme sans en extraire d’éléments spécifiques. La
forme peut être représentée par un vecteur de paramètres
Exemple pour une personne : le poids et la taille

 Codage structurel
On extrait des éléments spécifiques de la forme et leur relation.
Exemple :
pour la personne 1 : pull rouge au dessus d’un pantalon bleu au
dessus de chaussures noires
Pour reconnaitre un ‘L’ : contour d’abord vertical puis horizontal

Cours de Reconnaissance des Formes– Catherine Achard 44


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 45


Codage rétinien

On garde toute l’information directement dans une rétine :

Problème :
-La lettre n’est pas toujours à la même position
-La résolution de l’image n’est pas toujours la même

Cours de Reconnaissance des Formes– Catherine Achard 46


Codage rétinien

-Calcul du centre de gravité


-Sélection du plus petit carré centré en G et englobant tous les pixels
-Réduction de la dimension (attention, pas binaire !!)

Rétine 10x10
après centrage
et réduction

Vecteur de
caractéristique
s de dimension
100

Cours de Reconnaissance des Formes– Catherine Achard 47


Codage rétinien

Codage quasiment neutre


 Pas de perte d’information
 Laisse le classifieur travailler
 Efficace si base d’exemples importante

Ne tolère ni les transformations ni les déformations

Cours de Reconnaissance des Formes– Catherine Achard 48


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 49


Moments géométriques

Ils codent n’importe quelle forme, même non binaire

Soit I(x,y) une image


Moment d’ordre p,q

M pq   x y I ( x , y )
p q

x y

Aire : M 00   I ( x , y )
x y

Centre de masse :

M 01   y I ( x , y ) M10   x I ( x , y )
q p

x y x y

M10 M 01
x et y
M 00 M 00

Cours de Reconnaissance des Formes– Catherine Achard 50


Moments géométriques

Orientation:
1 2 M11
  arctan( )
2 M 20  M 02

Moments centrés pour être invariant en translation

 pq   ( x  x ) p ( y  y )q I ( x , y )
x y

Moments normalisés pour être invariant en changement d’échelle

Cours de Reconnaissance des Formes– Catherine Achard 51


Moments géométriques

Moments invariants en rotation : Moment de Hu

1  20  02

2  (20  02 )2  411


2

3  (30  312 )2  (321  03 )2

4  (30  12 )2  (21  03 )2

5  (30  312 )(30  12 ) (30  12 )2  3(21  03 )2   (321  03 )(21  03 ) 3(30  12 )2  (21  03 )2 

6  (20  02 ) (30  12 )2  (21  03 )2   411 (30  12 )(21  03 )

7  (321  303 )(30  12 ) (30  12 )2  3(21  03 )2   (30  312 )(21  03 ) 3(30  12 )2  (21  03 )2 

Cours de Reconnaissance des Formes– Catherine Achard 52


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 53


Filtres de Haar

Plusieurs filtres à plusieurs échelles, plusieurs


orientations, estimés en plusieurs positions de
l’image.

On ne peu pas utiliser toutes ces valeurs, le


codage serait bien trop grand (plusieurs
dizaines d’images !

Cours de Reconnaissance des Formes– Catherine Achard 54


Filtres de Haar

En faisant des statistiques sur plusieurs


milliers d’images d’une même classe, on
détermine quelles sont les tailles,
orientations et positions pertinents pour
faire le codage.

moyenne pour
plusieurs images

Cours de Reconnaissance des Formes– Catherine Achard 55


Filtres de Haar

On en déduit, sur une grande base de données (apprentissage) quels sont les
filtres à utiliser et où.

Le code de l’image (vecteur de caractéristiques) est composé de la sortie de


tous ces filtres locaux
Vecteur de caractéristiques

Cours de Reconnaissance des Formes– Catherine Achard 56


Filtres de Haar

Même chose pour un visage

Un visage est représenté par la


réponse de plusieurs filtres en
différentes positions

Cours de Reconnaissance des Formes– Catherine Achard 57


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 58


Local Binary Patterns (LBP)

Idée : obtenir un descripteur complètement invariant à l’éclairage


Solution : codage des relations d’ordre

Comparaison du niveau de gris d’un point avec ses voisins


Chaque comparaison renvoie un nombre binaire
Le mot binaire obtenu avec les 8 voisins est codé en décimal
L’histogramme de cette valeur pour tous les points d’une zone forme le
descripteur

Exemple
Une portion d’image :
un pixel et ses 8 voisins Le résultat de comparaison Le code binaire
1*20+
26
2+ 1*21 +
25 1*22 +
1*23 +
24 20 0*24 + = 15
0*25 +
0*26 +
23 21 0*27 +
22

Cours de Reconnaissance des Formes– Catherine Achard 59


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 60


Codage des contours de freeman

On code les contours à partir d’une liste chainée d’angles discrétisés


Exemple :

234456670012

2
3 1

4 0

5 7
6

Cours de Reconnaissance des Formes– Catherine Achard 61


Codage de Freeman

Quels sont les descripteurs obtenus pour ces deux images


avec un code de Freeman à 8 états?
A quoi ce codage est invariant ?
Peut-on le rendre plus invariant ?

Cours de Reconnaissance des Formes– Catherine Achard 62


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 63


Histogrammes des orientations de gradients

On peut observer les probabilités des orientations du gradient dans


différentes zones de l’image
Pour un piéton :

I |Ix| |Iy|

Cours de Reconnaissance des Formes– Catherine Achard 64


Histogrammes des orientations de gradients

Plusieurs étapes:
- Calcul des gradients horizontaux et verticaux Gx et Gy avec

[-1 0 1] et [-1 0 1]T

- Calcul de l’orientation du gradient


  atan Gy Gx    0,  

-Construction de l’histogramme d’orientation de gradient pour différentes


zones (souvent 8 bins)

-Concaténation des différents histogrammes

-Variante : pondération des votes par l’amplitude du gradient

Cours de Reconnaissance des Formes– Catherine Achard 65


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 66


Descripteurs de Fourier

Le contour est décrit par la liste chaînée des points qui le constitue. Les
coordonnées {xi,yi} des points de cette liste sont transformées en un
complexe ui=xi+jyi

u0=x0+jy0

Cours de Reconnaissance des Formes– Catherine Achard 67


Descripteurs de Fourier

TFD de la liste de points :

j 2 ni

an   ui e N

La majorité des informations est contenue dans les basses fréquences


les premières valeurs de an suffisent à caractériser le signal et
composent le vecteur de caractéristiques

Propriétés:
Translation : modification de a0 seulement
Rotation : modification de la phase
Changement d’échelle : multiplication des an par une constante

Cours de Reconnaissance des Formes– Catherine Achard 68


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 69


Comment trouver un bon codage ?

 Méthodes empiriques
 Choix des caractéristiques pertinentes

 Méthodes exploratoires
 Algorithmes génétiques

 Méthodes statistiques pour réduire la dimension ou la


taille des données
 Analyse en composantes principales
 Analyse discriminante linéaire
 Sélection/extraction de caractéristiques

Cours de Reconnaissance des Formes– Catherine Achard 70


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 71


Problème des grandes dimensions

La dimension des données n est la dimension du code les représentant


Ex : n = 100

Rétine 10 X 10:
(après centrage
et réduction)

Complexité algorithmique linéaire f(n2) ou f(n3) ou même,


exponentielle

Cours de Reconnaissance des Formes– Catherine Achard 72


Problème des grandes dimensions

Plus la dimension n est grande, plus la base de données devra être de grande
dimension

Ex : avec deux exemples par dimension


Si n = 2, 22=4 données
Si n = 3, 23=8 données
Si n = 4 , 24=16 données
Si n = 20, 220=1.048.576 données

Considérons un nombre fixé N de points uniformément répartis dans un hyper-


cube de dimension n.

Plus n augmente, plus la variance des distances entre points diminue

En grande dimension, le voisinage immédiat d'une donnée est très peu


occupé tandis que la plupart des autres données se trouvent à des distances
très comparables de cette dernière.

D'une manière générale, les distances entre données de grande dimension


sont très concentrées autour de leur moyenne.

Cours de Reconnaissance des Formes– Catherine Achard 73


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 74


Matrice de covariance
Rappel sur les matrices de covariance

Si on dispose de N vecteurs de données Xi de dimension n, leur matrice de covariance


est estimée par :

1
Σ= 𝑁−1
𝑖=1 𝑋𝑖 − 𝜇 𝑋𝑖 − 𝜇 𝑇
où 𝜇 est le vecteur moyen des données Xi
𝑁−1

La matrice de covariance est de dimension n x n et est symétrique.

Exemple en dimension 2
On peut représenter chaque point Xi dans le plan.

La matrice de covariance est de dimension 2x2

𝜎𝑥𝑥 𝜎𝑥𝑦
Σ= 𝜎 𝜎𝑦𝑦
𝑥𝑦

La matrice de covariance est symétrique. Ses


valeurs codent la forme du nuage de point.

Cours de Reconnaissance des Formes– Catherine Achard 75


Matrice de covariance
Rappel sur les matrices de covariance

1.01 -0.01
-0.01 0.99

1 -0.02
-0.02 9.46

Démo
Bayes 2D

1 3
3 9

Cours de Reconnaissance des Formes– Catherine Achard 76


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 77


Analyse en composantes principales

Supposons que l’on dispose de plusieurs exemples (N exemples) dont


le vecteur de caractéristiques est de dimension élevée (n).

Garder toutes ces dimensions est très couteux en temps de calcul et


met à mal certains algorithmes de classification sujet au phénomène
de malédiction des grandes dimensions.

 On souhaite réduire la dimension du vecteur de caractéristiques


pour qu’il n’ait plus qu’une dimension d<<n

Comment faire ?

Dans un premier temps, il va falloir prétraiter les données.

Cours de Reconnaissance des Formes– Catherine Achard 78


Analyse en composantes principales

Prétraitement des données

Les données Xj sont rangées dans un tableau X


(N=4 exemples de dimension n=5)

Mesure 1 Mesure 2 Mesure 3 Mesure 4 Mesure 5

Donnée 1

Donnée 2

Donnée 3

Donnée 4

Le tableau contient des informations de natures différentes.


Il est nécessaire de centrer les données : on soustrait la valeur de la
moyenne de la colonne à chaque valeur. La nouvelle moyenne de la
colonne va être 0.
Il est aussi nécessaire de normaliser les données : on divise chaque
valeur par l'écart type de sa colonne. Le nouvel écart type de la
colonne va être 1.

Cours de Reconnaissance des Formes– Catherine Achard 79


Analyse en composantes principales

L’idée va être de changer le système d’axe de manière à ce que le


maximum d'informations soit contenu sur les premiers axes.

Exemple : pour des données en dimension deux (x1,x2) dans le repère


(i1,i2), l’ACP va donner un nouveau repère (u1,u2) tel que le maximum
d’information soit porté par u1. u1 correspondra à l’élongation maximale
du nuage de point. Les nouvelles coordonnées des points seront (y1,y2)
et la réduction de dimension consistera à ne garder que y1.

i2 u1
u2 Axe principal

i1

Cours de Reconnaissance des Formes– Catherine Achard 80


Analyse en composantes principales

De manière plus formelle, chaque point 𝑋𝑖 s’exprime dans le repère initial


par:
𝑋𝑖 = 𝑥𝑖1 𝑖1 +𝑥𝑖2 𝑖2 +…+𝑥𝑖𝑛 𝑖𝑛
Et est représentée sous forme vectorielle:
𝑥𝑖1
𝑋𝑖 = ⋮
𝑥𝑖𝑛
L’ACP consiste à rechercher dans un premier temps l’axe 𝑢1 tq la
projection des données sur cet axe maximise la variance des données.

La projection des données sur l’axe 𝑢1 donne la nouvelle coordonnée des


points:
𝑦𝑖1 = 𝑋𝑖 𝑇 𝑢1 et 𝑢1 𝑇 𝑢1 = 1

Et la variance des données sur cet axe sera:


𝑁 𝑁 𝑁
1 2 1 𝑇 1
𝜎= 𝑦𝑖1 = 𝑦𝑖1 𝑦𝑖1 = 𝑢1 𝑇 𝑋𝑖 𝑋𝑖 𝑇 𝑢1
𝑁 𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1

𝜎 = 𝑢1 𝑇 Σ 𝑢1 et 𝑢1 𝑇 𝑢1 = 1

1 𝑇
Où Σ est la matrice de covariance des données tq Σ = 𝑁
𝑖=1 𝑋𝑖 𝑋𝑖
𝑁

Cours de Reconnaissance des Formes– Catherine Achard 81


Analyse en composantes principales

Il s’agit d’un problème classique de maximisation sous contrainte que l’on


résout à partir du lagrangien:
L=𝑢1 𝑇 Σ 𝑢1 - 𝜆 𝑢1 𝑇 𝑢1 − 1

En annulant la dérivée de L par rapport à 𝑢1 , on obtient:


𝜕𝐿
= 0  Σ 𝑢1 = 𝜆 𝑢1
𝜕𝑢1

On reconnait l’équation des valeurs propres et des vecteurs propres de la


matrice de covariance Σ.

Le second axe correspondra au second vecteur propre de la matrice,…

Rmq:
La matrice de covariance est par construction symétrique et au moins
positive semi-définie. Ceci implique que les valeurs propres et les vecteurs
propres seront réels, que les valeurs propres seront positives ou nulles et que
les vecteurs propres seront orthogonaux entre eux.

Cours de Reconnaissance des Formes– Catherine Achard 82


Analyse en composantes principales

Chaque donnée Xi peut s’exprimer dans la base des vecteurs propres:

Xi= yi1 u1 + yi2 u2 + ….+yin un

Avec yi1=XiT. u1 (y1 scalaire)

Et sera représentée par le nouveau vecteur:


𝑦𝑖1
𝑋𝑖 = ⋮
𝑦𝑖𝑛

La réduction de dimension consiste à ne garder que les première


composantes de ce vecteur pour représenter Xi:
𝑦𝑖1
𝑋𝑖 = ⋮ avec d << n
𝑦𝑖𝑑
On définit l’inertie portée par les d premiers axes par

1  2  ...  d
avec d  n
1  2  3  ...  n

Cours de Reconnaissance des Formes– Catherine Achard 83


Analyse en composantes principales

Comment connaître le nombre d’axes à conserver ?

1. Avec un pourcentage d’inertie souhaité a priori


2. On divise l’inertie totale par la dimension initiale pour connaître l’inertie
moyenne par variable. On conserve tous les axes ayant une inertie
supérieure à cette moyenne
3. On observe l’évolution des valeurs propres:

4. Par validation sur une base de validation

Cours de Reconnaissance des Formes– Catherine Achard 84


Analyse en composantes principales
Exemples d’ACP sur des images de visages

On dispose d’une base de références de 270 visages,


Chaque visage a pour dimension 38x38=1444 pixels  n=1444

On range tous ces visages dans une matrice de dimension 270x1444.


Chaque visage est considéré comme un exemple de dimension 1444.

On prétraite les données puis on calcule la matrice de covariance de


cette grosse matrice. Elle est de dimension 1444x1444.

On calcule les valeurs propres et les vecteurs propres de cette matrice.


Chaque vecteur propre a pour dimension 1x1444. On peut remettre
chacun d’eux sous la forme d’une matrice de dimension 38*38.

Les 5 premiers vecteurs propres (eigen image) :

Cours de Reconnaissance des Formes– Catherine Achard 85


Analyse en composantes principales

Si on ne conserve que ces 5 dimensions, chaque visage Xj de la base


s’exprime comme une combinaison linéaire de ces 5 ‘eigen-image’
Xi= yi1 u1 + yi2 u2 + yi3 u3 + yi4 u4 + yi5 u5

Ainsi, tous les exemples ne seront plus représentés que par un vecteur de
dimension 5.

A partir de ce vecteur, on peut :


 Reconstruire les visages, on aura alors fait de la compression
 Reconnaitre les visages

Cours de Reconnaissance des Formes– Catherine Achard 86


Analyse en composantes principales

Reconstruction avec 5 ‘eigen images’


Compression = 288%

Reconstruction avec 49 ‘eigen images’


Compression = 32%

Reconstruction avec 144 ‘eigen images’


Compression = 10%

Cours de Reconnaissance des Formes– Catherine Achard 87


Analyse en composantes principales

Problème de l’ACP (voir démo)

Démo
Acp_visage \ACP_VISAGE\ACP_face
Eigen_image

Démo
acp

Cours de Reconnaissance des Formes– Catherine Achard 88


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 89


Analyse discriminante linéaire

Analyse discriminante linéaire.

Cette méthode tient compte de la répartition des points dans les


classes et essaye de maximiser le ratio entre la variance
inter classe des données et la variance intra classe.

 Supposons que l’on ait un problème à K classes, et les


ensembles de points X1 et X2… XN correspondant, et
X={Xi} i=1…N

 moyenne de chaque ensemble de points et moyenne


totale :
 1, 2, …, K,
  = p1*1 + p2*2+…+ pK*K
Où p1, p2,… pK sont les probabilités de chaque classe

Cours de Reconnaissance des Formes– Catherine Achard 90


Analyse discriminante linéaire

Analyse discriminante linéaire.

Dispersion intra classe:


intra=p1*  1 + p2*  2+…+ + pK*  K
où  1,  2,…  K sont les matrices de covariance des classes

Dispersion inter classe


 inter = p1(1-) (1-)T + p2(2-) (2-)T+…+ pK(K-) (K-)T
On recherche l’axe 𝑢1 tel que la projection des données sur cet axe
maximise le rapport entre la variance inter classe et la variance intra
classe.

La projection des points Xi selon le vecteur 𝑢1 s’exprime par :


𝑦𝑖1 = 𝑋𝑖 𝑇 𝑢1 et 𝑢1 𝑇 𝑢1 = 1

Si la matrice de covariance des données de départ est


 =E{XiT Xi}

dans le nouveau repère, on a


new = E{𝑦𝑖1
𝑇
𝑦𝑖1 }=𝑢1 𝑇 Σ 𝑢1

Cours de Reconnaissance des Formes– Catherine Achard 91


Analyse discriminante linéaire

On recherche l’axe qui maximise le rapport entre la variance inter classe


et la variance intra classe et donc :
𝑢1 𝑇 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1
𝑢1 𝑇 Σ𝑖𝑛𝑡𝑟𝑎 𝑢1

Ceci revient à maximiser 𝑢1 𝑇 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 sous la contrainte 𝑢1 𝑇 Σ𝑖𝑛𝑡𝑟𝑎 𝑢1 = 1 (car


peu importe la norme de 𝑢1 )

Pour cela, on forme le lagrangien dont on annule la dérivée:


L=𝑢1 𝑇 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 − 𝜆 𝑢1 𝑇 Σ𝑖𝑛𝑡𝑟𝑎 𝑢1 − 1

𝜕𝐿 −1
=0 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 = 𝜆Σ𝑖𝑛𝑡𝑟𝑎 𝑢1  Σ𝑖𝑛𝑡𝑟𝑎 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 = 𝜆𝑢1
𝜕𝑢1

On se ramène de nouveau à un problème aux valeurs/vecteurs propres


et on choisit pour 𝑢1 le premier vecteur propre de Σ𝑖𝑛𝑡𝑟𝑎
−1
Σ𝑖𝑛𝑡𝑒𝑟 .

Les autres axes de projection correspondent aux autres vecteurs propres


de Σ𝑖𝑛𝑡𝑟𝑎
−1
Σ𝑖𝑛𝑡𝑒𝑟

Cours de Reconnaissance des Formes– Catherine Achard 92


Analyse discriminante linéaire

De la même manière que l’ACP, on garde les axes


correspondant aux d premiers vecteurs propres de Σ𝑖𝑛𝑡𝑟𝑎
−1
Σ𝑖𝑛𝑡𝑒𝑟
qui correspondent aux d plus grandes valeurs propres.

Avantage et inconvénient dans démo

Démo
lda

Cours de Reconnaissance des Formes– Catherine Achard 93


Introduction
Prétraitements et codage
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

Cours de Reconnaissance des Formes– Catherine Achard 94


Sélection/extraction de caractéristiques

Les méthodes de sélection de caractéristiques peuvent


être classées en trois catégories principales :
• Filter
• Wrapper
• Embedded

Cours de Reconnaissance des Formes– Catherine Achard 95


Sélection/extraction de caractéristiques
Les méthodes filter travaillent en amont de la classification : on
étudie les n dimensions (ou caractéristiques) et on en sélectionne
d en fonction d’un critère donné.
Par exemple, on garde les caractéristiques qui ont la plus forte
corrélation possible avec les étiquettes.

x1

x2
x3
x3
x5

Filter x9 classifieur



x40

xn
d caractéristiques
d<<n
n caractéristiques

Cours de Reconnaissance des Formes– Catherine Achard 96


Sélection/extraction de caractéristiques

Avantage des méthodes de type filter


• efficacité calculatoire

Inconvénient des méthodes de type filter

• ne tiennent pas compte des interactions entre caractéristiques et


tendent a sélectionner des caractéristiques redondantes plutôt que
complémentaires.
• ne tiennent pas compte de la performance des méthodes de
classification

Cours de Reconnaissance des Formes– Catherine Achard 97


Sélection/extraction de caractéristiques

Les méthodes wrapper évaluent un sous-ensemble de


caractéristiques par sa performance de classification en utilisant
un algorithme d'apprentissage
x1

x2
Wrapper x3
x3
Algo de x5

recherche x9 classifieur



classification x40

xn
d caractéristiques
d<<n
n caractéristiques

La complexité de l'algorithme d'apprentissage rend les méthodes


"wrapper" très coûteuses en temps de calcul  stratégie de
recherche exhaustive impossible

Cours de Reconnaissance des Formes– Catherine Achard 98


Sélection/extraction de caractéristiques

Exemple :
on commence par un ensemble vide de caractéristiques.
A chaque itération, la meilleure caractéristique parmi celles qui restent
est sélectionnée

Avantage des méthodes de type wrapper


Capable de sélectionner des sous-ensembles de caractéristiques de
petite taille qui sont performants pour le classificateur

Inconvénient des méthodes de type filter

• Très longues en temps de calcul car beaucoup d’apprentissages


nécessaires pour sélectionner le bon sous-ensemble de
caractéristiques
• Sous-ensemble dépendant du classificateur choisi

Cours de Reconnaissance des Formes– Catherine Achard 99


Sélection/extraction de caractéristiques

Les méthodes Embedded ou intégrées incorporent la sélection de


variables lors du processus d'apprentissage (boosting, arbre de
décision),

Ces méthodes seront vues dans la suite du cours

Cours de Reconnaissance des Formes– Catherine Achard 100


Introduction
Prétraitements et Codage
Classification
Introduction
Définition
Généralisation
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 101


Introduction

ESPACE DE ESPACE DE
REPRESENTATION DECISION

Reconnaissance des formes


et apprentissage

Cours de Reconnaissance des Formes– Catherine Achard 102


Introduction

Classifier - Estimer
=

associer une classe C ou une valeur


à un vecteur de caractéristiques X=[x1, x2,… xn ] de dimension n

Vecteur de caractéristique X = forme + variabilité + bruit de mesure

Cours de Reconnaissance des Formes– Catherine Achard 103


Introduction

Connaissances disponibles

 Informations fournies par un « expert »

 Modèles explicites (méthode structurelle)

 Cas le plus général : base de données étiquetées ou non

Cours de Reconnaissance des Formes– Catherine Achard 104


Introduction
Prétraitements et Codage
Classification
Introduction
Définition
Généralisation
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 105


Généralisation

Condition requise

 Bonne généralisation :

Capacité du classificateur/estimateur à reconnaître/estimer des


exemples qu’il n’a pas appris

Ne pas apprendre par cœur…

Cours de Reconnaissance des Formes– Catherine Achard 106


Généralisation

 Bonne généralisation, où est la frontière ?

Cours de Reconnaissance des Formes– Catherine Achard 107


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Probabilité, probabilités jointes, probabilités conditionnelles
Règle de Bayes
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 108


Rappels sur les probabilités

Il existe deux types de probabilités

 Probabilités discrètes : A est un événement


 0 < P(A) < 1

 p(A) + p(B) + p(C) + … + p(Z) = 1

 p(AB)= p(A|B)*p(B) (probabilité conditionnelle)

 Probabilités continues (densité de probabilité) :


 Ne sont pas majorées par 1 (mais l’aire vaut 1)
 Intégrale au lieu d’une somme

Cours de Reconnaissance des Formes– Catherine Achard 109


Rappels sur les probabilités

Probabilités jointes

Pour 2 variables x et y, certaines instances de ces


deux variables sont plus fréquentes que d’autres.

Cette information est donnée par la densité de


probabilité jointe de x et y : P(x,y)
y

x
-3
x 10

x y 1.5

1
y x 0.5

0
60
50
40 40
30
20 20

x
110
10
0 0

Cours de Reconnaissance des Formes– Catherine Achard


Rappels sur les probabilités

Marginalisation

On peut retrouver la densité de probabilité d’une


seule variable à partir de la densité de probabilité
jointe par intégration.
Pour les variables continues,

Pour les variables discrètes,

Cours de Reconnaissance des Formes– Catherine Achard 111


Rappels sur les probabilités

Probabilités Conditionnelles

P(x/y=y*) : probabilité de x sachant que y vaut y*

Cette probabilité conditionnelle peut être estimée


à partir des probabilités jointes :
y
y1

y2
P(x/y=y1)

P(x/y=y2)

Cours de Reconnaissance des Formes– Catherine Achard 112


Rappels sur les probabilités

Probabilités Conditionnelles

P(x/y=y*) : probabilité de x sachant que y vaut y*

Cette probabilité conditionnelle peut être estimée


à partir des probabilités jointes :

Souvent, on ne spécifie pas la valeur de y* et:

Ceci peut être étendu avec plus de variables :

Cours de Reconnaissance des Formes– Catherine Achard 113


Rappels sur les probabilités

Indépendance

Si les variables x et y sont indépendantes, alors

Cours de Reconnaissance des Formes– Catherine Achard 114


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Probabilité, probabilités jointes, probabilités conditionnelles
Règle de Bayes
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 115


Règle de Bayes

Les équations précédentes nous conduisent à :

Qui peut se mettre sous la forme :

Pb : comment estimer des probabilités


connaissant des échantillons ?

Cours de Reconnaissance des Formes– Catherine Achard 116


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 117
Estimation des probabilités

Connaissant un ensemble de N échantillons 𝑥𝑖 générés selon la loi


de probabilité 𝑝(𝑥), comment estimer la densité de probabilité
𝑝(𝑥) ?

Il existe deux grands types d’approches :

• les méthodes non paramétriques


• les méthodes paramétriques (la loi est fixée a priori et on en
recherche les paramètres)

Cours de Reconnaissance des Formes– Catherine Achard 118


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 119
Estimation non paramétrique

Histogramme (non paramétrique)

Une des méthodes les plus simples consiste à estimer


l’histogramme de l’ensemble de données.

• On divise chaque dimension en cases (bins) de largeur 𝒉


• On compte le nombre d’échantillons 𝑥𝑖 par case

Cours de Reconnaissance des Formes– Catherine Achard 120


Estimation non paramétrique
Histogramme (non paramétrique)

Pb:
- le choix de l’origine peut changer l’estimation de 𝑝(𝑥)
- Comment choisir ℎ ?

𝒑(𝒙) réel

𝒑(𝒙) estimé

Image issue de Pattern Recognition and machine learning – M. Bishop - 2007

Cours de Reconnaissance des Formes– Catherine Achard 121


Estimation non paramétrique
Histogramme (non paramétrique)

En deux dimensions
On peut reprendre la même formulation que précédemment
étendue à une dimension 2 puis 𝑛 dans le cas général,

Cours de Reconnaissance des Formes– Catherine Achard 122


Estimation non paramétrique

Problème de l’origine

Problème du choix de h (discrétisation)

Problème des grandes dimensions pour les estimations non


paramétriques

Supposons que l’on ait des données de dimension 20 et que


chaque dimension puisse prendre 5 valeurs, L’histogramme
aura en tout 520=9.1013 cases.

 Il faudra une base de donnée énorme pour estimer


correctement 𝑝 𝑥 . Si la dimension est plus grande, le
problème devient encore plus difficile

Cours de Reconnaissance des Formes– Catherine Achard 123


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 124
Estimation non paramétrique
Estimation par noyau (non paramétrique)

Pour remédier au problème de l’origine,

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑′ é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛𝑠 𝑑𝑎𝑛𝑠 [𝑥 − ℎ, 𝑥 + ℎ]


𝑝 𝑥 =
𝑁2ℎ

Où N est le nombre d’échantillons total

Ceci s’exprime mathématiquement en 1D par :

𝑁
1 𝑥 − 𝑥𝑖
𝑝 𝑥 = 𝐾
𝑁2ℎ ℎ
𝑖=1

1 𝑠𝑖 𝑢 < 1
Avec 𝐾 𝑢 =
0 𝑠𝑖𝑛𝑜𝑛

Ceci revient à compter le nombre d’échantillons tombant dans


un hyper-cube de largeur ℎ centré en 𝑥
Cette estimation est continue, elle est faite pour tout x

Cours de Reconnaissance des Formes– Catherine Achard 125


Estimation non paramétrique
Kernel Density Estimation (non paramétrique)

Pour remédier aux discontinuités liées à la discrétisation : fenêtres de


Parzen. On estime toujours la densité de probabilité avec:
𝑁
1 𝑥 − 𝑥𝑖
𝑝 𝑥 = 𝐾
𝑁ℎ ℎ
𝑖=1

Mais K() peut être un noyau quelconque,

Exemple avec un noyau gaussien en 2D :

𝑁 2
1 1 𝑥 − 𝑥𝑖
𝑝 𝑥 = 𝑒𝑥𝑝 −
𝑁 2𝜋 1/2 ℎ 2ℎ2
𝑖=1

Ceci revient à placer une gaussienne autour de chaque point et à


sommer leur contribution

Cours de Reconnaissance des Formes– Catherine Achard 126


Estimation non paramétrique
Kernel Density Estimation (non paramétrique)

Estimation de la densité de probabilité sur les mêmes données


que pour l’histogramme
- h trop petit  estimation très bruitée
- h trop grand  estimation trop lisse

𝒑(𝒙) réel

𝒑(𝒙) estimé

Démo
Parzen.m

Image issue de Pattern Recognition and machine learning – M. Bishop - 2007

Cours de Reconnaissance des Formes– Catherine Achard 127


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 128
Estimation paramétrique

On souhaite comme précédemment estimer la densité de


probabilité 𝑝 𝑥 à partir d’une réalisation de N échantillons,

Le problème est très difficile quand on a un faible nombre


d’échantillons de dimension élevée.

La difficulté du problème est réduite si on connait a priori une


forme paramétrique de la loi. Dans ce cas, il n’y a plus qu’à
estimer les paramètres de la loi.

Ce problème est soluble par l’estimation du maximum de


vraisemblance.

Cours de Reconnaissance des Formes– Catherine Achard 129


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classificationgénératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 130
Estimation paramétrique

Estimation du maximum de vraisemblance


(Estimation paramétrique)

Nous disposons de N échantillons 𝑥𝑖 tirés à partir de la loi


𝑝 𝑥 . D’autre part, 𝑝 𝑥 a une forme connue, dépendant de
paramètres 𝜃 : 𝑝 𝑥 = 𝑓(𝑥, 𝜃)

Nous recherchons les paramètres 𝜃 qui maximise la


vraisemblance des observations définie par:
𝑁 𝑁

𝐿 𝜃 𝑥 = 𝑝(𝑥𝑖 ) = 𝑓(𝑥𝑖 , 𝜃)
𝑖=1 𝑖=1

Il est souvent plus simple de travailler avec le logarithme de


cette vraisemblance appelée log-vraisemblance:
𝑁 𝑁 𝑁

𝑙 𝜃 𝑥 = 𝑙𝑛 𝑝(𝑥𝑖 ) = 𝑙𝑛 𝑝(𝑥𝑖 ) = ln(𝑓 𝑥𝑖 , 𝜃 )


𝑖=1 𝑖=1 𝑖=1

Cours de Reconnaissance des Formes– Catherine Achard 131


Estimation paramétrique

Estimation du maximum de vraisemblance


(Estimation paramétrique)

T
Si 𝜃 = 𝜃1 , 𝜃2 , … , 𝜃𝑝 est un vecteur de dimension p et que △𝜃 =
𝑇
𝜕 𝜕
,…, est l’opérateur gradient, l’estimation de 𝜃 est telle
𝜕𝜃1 𝜕𝜃𝑝
que:

△𝜃 𝑙 = 0

L’estimation du maximum de vraisemblance consiste ainsi à

- Définir la vraisemblance : 𝐿 𝜃 𝑥 = 𝑁
𝑖=1 𝑓(𝑥𝑖 , 𝜃)

- Estimer 𝜃 tq : 𝜃 = max 𝐿 𝜃 𝑥
𝜃

Cours de Reconnaissance des Formes– Catherine Achard 132


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classificationgénératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 133
Estimation paramétrique
Loi de Bernouilli (estimation paramétrique)

Si 𝑥 est une variable binaire, alors

𝐵𝑒𝑟𝑛 𝑥 = 1 = 𝜇 et 𝐵𝑒𝑟𝑛 𝑥 = 0 = 1 − 𝜇

Ou encore

𝐵𝑒𝑟𝑛 𝑥 = 𝜇 𝑥 (1 − 𝜇) 1−𝑥

On montre que :

𝔼𝑥 =𝜇 et 𝑣𝑎𝑟 𝑥 = 𝜇(1 − 𝜇)

Et, avec l’estimation du maximum de vraisemblance:

𝑁
1
𝜇= 𝑥𝑖
𝑁
𝑖=1
Ces résultats peuvent être retrouvés par le calcul

Cours de Reconnaissance des Formes– Catherine Achard 134


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classificationgénératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 135
Estimation paramétrique

Loi binomiale (estimation paramétrique)

Supposons que l’on tire 𝑁 échantillons binaires selon la


loi de Bernouilli. La variable aléatoire 𝑥 qui compte le
nombre de réalisations de 1 parmi ces 𝑁 échantillons
suit une loi binomiale de paramètres 𝑁 et 𝜆 .
𝑥 peut donc prendre toutes les valeurs entières de 0 à
𝑁 et

𝑁!
𝑝 𝑥 = 𝜆𝑥 (1 − 𝜆)𝑛−𝑥
𝑁 − 𝑥 ! 𝑥!

On montre alors que :

𝔼 𝑥 = Nλ et 𝑣𝑎𝑟 𝑥 = 𝑁𝜆 1 − 𝜆

Ces résultats peuvent être retrouvés par le calcul

Cours de Reconnaissance des Formes– Catherine Achard 136


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classificationgénératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 137
Estimation paramétrique

Loi uniforme (estimation paramétrique)

La variable aléatoire continue 𝑥 suit une loi uniforme


sur l’intervalle [a,b] si:
1
𝑝 𝑥 =
𝑏−𝑎

On a alors

𝑏−𝑎 𝑏−𝑎 2
𝔼𝑥 = et 𝑣𝑎𝑟 𝑥 =
2 12

Cours de Reconnaissance des Formes– Catherine Achard 138


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classificationgénératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 139
Estimation paramétrique

Loi normale mono variable (estimation paramétrique)

Elle est définie par :


1 − 𝑥−𝜇 2
𝑝 𝑥 = 𝒩(𝑥 𝜇, 𝜎) = 𝑒 2𝜎2
2𝜋𝜎

Et : 𝔼𝑥 =𝜇 et 𝑣𝑎𝑟 𝑥 = 𝜎 2

L’estimation du maximum de vraisemblance conduit à:


1 𝑁 1 𝑁
𝜇= 𝑖=1 𝑥𝑖 et 𝜎 2 = 𝑖=1 𝑥𝑖 − 𝜇
2
𝑁 𝑁

Cours de Reconnaissance des Formes– Catherine Achard 140


Estimation paramétrique

Loi normale multi variables (estimation paramétrique)

Pour des données x de dimension n , elle est définie par :

1 12
− 𝑥−𝜇 𝑇 Σ−1 𝑥−𝜇
𝑝 𝑥 = 𝒩(𝑥 𝜇, Σ) = 𝑒 2
2𝜋 𝑛/2 Σ 1/2
Où 𝜇 est un vecteur de dimension 𝑛 et Σ une matrice de
dimension 𝑛x 𝑛.

On a alors :

𝑇
𝔼𝑥 =𝜇 et cov 𝑥 = 𝔼 𝑥 − 𝔼 𝑥 𝑥−𝔼 𝑥 =Σ

L’estimation du maximum de vraisemblance conduit à:

1 𝑁 1 𝑁 𝑇
𝜇= 𝑖=1 𝑥𝑖 et Σ = 𝑖=1 𝑥𝑖 − 𝜇 𝑥𝑖 − 𝜇
𝑁 𝑁

Σ est la matrice de covariance. Mais que représente-t-elle

Cours de Reconnaissance des Formes– Catherine Achard 141


Estimation paramétrique

Cours de Reconnaissance des Formes– Catherine Achard 142


Estimation paramétrique

Cours de Reconnaissance des Formes– Catherine Achard 143


Estimation paramétrique

Cours de Reconnaissance des Formes– Catherine Achard 144


Estimation paramétrique

Cours de Reconnaissance des Formes– Catherine Achard 145


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Qualité de la base de données
Performance d’un classificateur
Méthodes de classificationgénératives/discriminatives
Méthode de régression
Cours de Reconnaissance des Formes– Catherine Achard 146
Estimation paramétrique

Mixture de gaussiennes (estimation paramétrique)

Centaines densités de probabilités ne peuvent pas


être modélisées par une gaussienne. On peut alors
utiliser une mixture de gaussiennes (somme
pondérée de gaussiennes)

Images issue de Pattern Recognition and machine learning – M. Bishop - 2007

Cours de Reconnaissance des Formes– Catherine Achard 147


Estimation paramétrique

Mixture de gaussiennes (estimation paramétrique)

De manière plus formelle,

𝐾
𝑝 𝑥 = 𝑘=1 𝜋𝑘 𝒩(𝑥 𝜇𝑘 , Σ𝑘 )

Avec 0 ≤ 𝜋𝑘 ≤ 1 et 𝐾
𝑘=1 𝜋𝑘 =1

Mais comment, à partir d’un ensemble d’échantillons générés à


partir de , 𝑝 𝑥 estimer les paramètres 𝜋𝑘 , 𝜇𝑘 𝑒𝑡 Σ𝑘 ?

Habituellement, on utilise le maximum de vraisemblance. Ici,


cette méthode n’aboutit pas à une formulation analytique  on
utilise une approche numérique appelée ‘Expectation
Maximization’ ou ‘EM’

Cours de Reconnaissance des Formes– Catherine Achard 148


Estimation paramétrique

Mixture de gaussiennes (estimation paramétrique)

Idée : ajouter une variable cachée ℎ𝒊𝒌 (non observable) précisant la


probabilité d’appartenance de l’exemple 𝒙𝒊 à la gaussienne 𝒌.

Initialisation : Initialiser de manière aléatoire les paramètres 𝜋𝑘 , 𝜇𝑘 𝑒𝑡 Σ𝑘


Étape E : On utilise les paramètres courants des gaussiennes pour
estimer l’appartenance de chaque exemple 𝑥𝑖 à chaque
gaussienne 𝐺𝑘 :
𝒩(𝑥𝑖 𝜇𝑘 , Σ𝑘 )𝜋𝑘
ℎ𝑖𝑘 =
𝑗 𝒩(𝑥𝑖 𝜇𝑗 , Σ𝑗 )𝜋𝑗
 Étape M : connaissant la variable cachée (appartenance), ré-
estimer les paramètres du modèle afin de maximiser la
vraisemblance:
𝑖 ℎ𝑖𝑘 𝑥𝑖 𝑖 ℎ𝑖𝑘 𝑥𝑖 −𝜇𝑘 𝑥𝑖 −𝜇𝑘 𝑇
𝜇𝑘= Σ𝑘= 𝜋𝑘= 𝑖 ℎ𝑖𝑘 et 𝑘𝜋 𝑘 =1
𝑖 ℎ𝑖𝑘 𝑖 ℎ𝑖𝑘

Démo
 Itérer E+M jusqu’à convergence
EMclassique.m

Cours de Reconnaissance des Formes– Catherine Achard 149


Estimation paramétrique

Mixture de gaussiennes (estimation paramétrique)

Comment déterminer le nombre de gaussiennes


On va rechercher à avoir une vraisemblance très grande :
𝑁 𝑁 𝐾

𝐿 𝜃 𝑥 = 𝑝(𝑥𝑖 ) = 𝜋𝑘 𝒩(𝑥 𝜇𝑘 , Σ𝑘 )
𝑖=1 𝑖=1 𝑘=1
Problème :
Plus il y aura de gaussiennes, plus la vraisemblance sera grande
 Pénalisation par la complexité (nombre de gaussiennes 𝑲)
 Plus il y aura de données ( 𝑵 ), plus on peut se permettre de
gaussiennes
 Bayesian Information Criterion (BIC) à minimiser :

𝐾
𝐵𝐼𝐶 𝐾 = − ln 𝐿 𝜃 𝑥 + ln(N)
2

Cours de Reconnaissance des Formes– Catherine Achard 150


Estimation paramétrique

Mixture de gaussiennes (estimation


paramétrique)

Critère BIC

données Critère BIC

Nombre de lois

Cours de Reconnaissance des Formes– Catherine Achard 151


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classificationgénératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 152


Qualité de la base de données

Plusieurs problèmes apparaissent:

Données inadaptées

Données aberrantes (outliers)

Données manquantes

Cours de Reconnaissance des Formes– Catherine Achard 153


Qualité de la base de données

Données inadaptées: aucune cohérence n’apparaît

Classe A

Classe B

Cours de Reconnaissance des Formes– Catherine Achard 154


Qualité de la base de données

Données aberrantes

Cours de Reconnaissance des Formes– Catherine Achard 155


Qualité de la base de données

Données manquantes : les données ne recouvrent pas


l’ensemble des configurations

Classe A
Classe B
Données à classer

Cours de Reconnaissance des Formes– Catherine Achard 156


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Matrice de confusion
Taux de bonne classification avec et sans cout
Courbe ROC
Méthodes de classificationgénératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 157


Performances d’un classificateur

En RdF, 3 bases :

-Une base de référence ou d’apprentissage utilisée pour


apprendre le classificateur

-Une base de validation pour déterminer les paramètres du


classifieur

-Une base de test : exemples jamais vus au préalable pour


évaluer le classificateur

Pourquoi ?

Cours de Reconnaissance des Formes– Catherine Achard 158


Performances d’un classificateur

En fonction des statistiques sur la base de test, on va pourvoir


définir:

facteur de
qualité
% formes bien classées
% formes mal classées étude des
% formes non classées confusions

critères de rejet

Cours de Reconnaissance des Formes– Catherine Achard 159


Performances d’un classificateur

Matrice de confusion :

décision
étiquette 1 2

e11 = Nb d’exemples e12 = Nb d’exemples


1 réellement 1 réellement 1
étiquetés 1 étiquetés 2

e21 = Nb d’exemples e22 = Nb d’exemples


2 réellement 2 réellement 2
étiquetés 1 étiquetés 2

Cours de Reconnaissance des Formes– Catherine Achard 160


Performances d’un classificateur

décision 1 2

étiquette
1 90 6

2 20 104

Exercice
Quel est le nombre d’exemples de la base de test ?
Que représente le chiffre 20 ?
Que représente le chiffre 104 ?
Quel est le taux de bonne reconnaissance?

Cours de Reconnaissance des Formes– Catherine Achard 161


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Matrice de confusion
Taux de bonne classification avec et sans cout
Courbe ROC
Méthodes de classificationgénératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 162


Performances d’un classificateur

Taux de bonne classification sans coûts

Sans rejet

Nb d'exemples bien classés


Taux de bonne classification Tbs 
Nb d'exemples

Taux d’erreur Tes  1  Tbs

Avec rejet
Nb d'exemples non classés
Taux de rejet Tr 
Nb d'exemples

Taux de bonne classification Nb exemples bien classés


𝑇𝑏𝑎 = =
Nb exemples

Taux d’erreur
Tea  1  Tba  Tr

Cours de Reconnaissance des Formes– Catherine Achard 163


Performances d’un classificateur

Taux de bonne classification

Problème :
Il s’agit d’une mesure faible qui ne tient pas compte de
la distribution des classes

Exemple :
En diagnostic médical, très peu de personnes sont
malades (5%?). On a donc des taux très bons en disant
que la personne est saine. Or, ce que l’on souhaite, c’est
ne pas rater ces 5% et donc, associer un mauvais taux
au classificateur qui dirait toujours ‘personne saine’.
Exemple sur 100 personnes

malade sain
malade 0 5
Tbs=95%
sain 0 95

Cours de Reconnaissance des Formes– Catherine Achard 164


Performances d’un classificateur
Taux de bonne classification

Solution :
On tient compte de la répartition des classes et on construit une
matrice de confusion normalisée

décision 1 2
étiquette

1 e11/N1 e12/N1

2 e21/N2 e22/N2

N1 : Nombre d’exemples de la classe 1


N2 : Nombre d’exemples de la classe 2

Cours de Reconnaissance des Formes– Catherine Achard 165


Performances d’un classificateur
Taux de bonne classification sans coûts

Le nouveau taux de bonne classification devient


 Nc eii 
tb     / Nc
 i 1 N i 

Où eii est le nombre d’exemple de la classe i classés i et Nc est le


nombre de classes

Et le nouveau taux d’erreur :


 Nc 1  eii 
te     / Nc  1  tb  tr
 i 1 N i 

Exemple du médecin :
Matrice de confusion normalisée
e12/N1
malade sain tb=0.5
malade 0 1 e22/N2 te=0.5
sain 0 1

Cours de Reconnaissance des Formes– Catherine Achard 166


Performances d’un classificateur

Problème 2 : Les performances dépendent des applications.

Exemple : en surveillance médicale, on préfère détecter à tort


des maladies plutôt que de risquer d’en laisser passer  on
admet beaucoup de fausses alarmes mais pas de manque de
détection

 On introduit une matrice des coûts

Cours de Reconnaissance des Formes– Catherine Achard 167


Performances d’un classificateur

Taux de bonne classification avec coûts


Matrice des coûts:

décision 1 2
étiquette
1 Coût 1,1 Coût 1,2

2 Coût 2,1 Coût 2,2

Le taux de classification devient : Problème :


Comment définir les coûts
  ???
 c ii e Coutii   eij Coutij 

tb    i j
 / Nc
 i 1 Ni 
 
 

Certains coûts peuvent (et doivent être négatifs)

Cours de Reconnaissance des Formes– Catherine Achard 168


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Matrice de confusion
Taux de bonne classification avec et sans cout
Courbe ROC
Méthodes de classificationgénératives/discriminatives
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 169


Performances d’un classificateur

Comment comparer plusieurs classificateurs indépendamment du seuil ?


Problèmes à 2 classes

On définit les :
Vrai Positif (True Positive)
Vrai Négatif (True Négatif)
Faux Négatif (False Négatif)
Faux Positif (False Positif)

Trouvé par le classificateur

+ -

réel + TP FN

- FP TN

Cours de Reconnaissance des Formes– Catherine Achard 170


Performances d’un classificateur

Comment comparer plusieurs classificateurs indépendamment du seuil ?


Problèmes à 2 classes

Négatifs

Positifs
TN

TP
FN FP

Cours de Reconnaissance des Formes– Catherine Achard 171


Performances d’un classificateur

Courbe ROC (Receiver Operating Characteristic )


Pour des problèmes binaires

décision + - Vrai Positif (TP)


Vrai Négatif (TN)
étiquette Faux Négatif (FN)
+ TP FN Faux Positif (FP)

- FP TN

TP
Sensibilité   Parmi les positifs de la base, % de corrects
TP  FN
TN
Spécificité   parmi les négatifs de la base, % de corrects
FP  TN
Un bon classificateur devra être
sensible : détecter les positifs
spécifique : ne pas détecter aussi les négatifs

Généralement, plus un classificateur est sensible, moins il est


spécifique et vice versa

Cours de Reconnaissance des Formes– Catherine Achard 172


Performances d’un classificateur
Courbe ROC (Receiver Operating Characteristic ) :

Sensibilité = f(1-spécificité)
TP
Sensibilité   Parmi les positifs de la base, % de corrects
TP  FN

TN
Spécificité   parmi les négatifs de la base, % de corrects
FP  TN

Courbe Roc Toutes les courbes ROC


passent par l’origine et
Point par le point (1,1)
idéal
Sensibilité

1-spécificité
Cours de Reconnaissance des Formes– Catherine Achard 173
Performances d’un classificateur
Cas multi-classes
Matrice de confusion:

Trouvé par le classificateur

réel C0 C1 C2

C0 70 11 35

C1 17 73 8

C2 45 5 53

Somme des éléments sur la diagonale


Taux de reconnaissance=
Somme des éléments

Cours de Reconnaissance des Formes– Catherine Achard 174


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 175


Méthodes génératives/discriminatives

3 approches différentes (Bishop 2007):

• Approche générative

• Approche discriminative

• Fonction discriminante

Cours de Reconnaissance des Formes– Catherine Achard 176


Méthodes génératives/discriminatives

Introduction

Approche générative : déterminer les densités de probabilités


conditionnelles 𝑝(𝑥|𝐶𝑘 ) et les densités de probabilités a priori 𝑝(𝐶𝑘 ) pour
chaque classe individuellement. Puis utiliser le théorème de Bayes :
𝑝(𝑥|𝐶𝑘 )𝑝(𝐶𝑘 )
𝑝(𝐶𝑘 |𝑥) =
𝑝(𝑥)
Où le dénominateur est un terme de normalisation :

𝑝(𝑥) = 𝑝(𝑥|𝐶𝑘 )𝑝(𝐶𝑘 )


𝑘
Connaissant 𝑝(𝐶𝑘 |𝑥) , il est facile de trouver la classe de 𝑥.
Cette approche est dite générative car, connaissant 𝑝(𝑥|𝐶𝑘 ), il est facile de
générer des données dans l’espace des paramètres

Approche discriminative : Déterminer directement 𝑝(𝐶𝑘 |𝑥) et décider de la


classe

Fonction discriminante: trouver une fonction 𝑓(𝑥) reliant directement les


données aux classes. Ex : pour un problème a deux classes, 𝑓(𝑥) est une
fonction à valeur binaire tq 𝑓(𝑥) = 0 pour la première classe et 𝑓(𝑥) =
1 pour la seconde (aucune notion de probabilité)

Cours de Reconnaissance des Formes– Catherine Achard 177


Méthodes génératives/discriminatives

Raisonnons sur un exemple : on souhaite déterminer la langue parlée par


une personne.

Approche générative : on apprend chaque langage puis on détermine à quel langage la


parole appartient (peut fonctionner avec une seule langue pour savoir si la personne parle
français ou non).

Approche discriminative: on apprend les différences linguistiques entre les langages,


sans apprendre le langage. Beaucoup plus simple !

Cours de Reconnaissance des Formes– Catherine Achard 178


Méthodes génératives/discriminatives

Avantage/inconvénient des 3 approches

Approche générative
• 𝑝(𝑥) est estimée. On peut considéré 𝑝(𝑥) comme la probabilité que 𝑥
soit bien modélisé par le modèle. Ceci permet de faire du rejet.
• 𝑝(𝑥|𝐶𝑘 ) peut être utilisée pour générer des données
• Permet à un système d’utiliser une seule classe. Ex : la teinte chaire

• Trouver 𝑝(𝑥|𝐶𝑘 ) pour chaque classe est très couteux en temps de calcul,
surtout quand 𝑥 est de grande dimension
• Nécessite une grande base de données, surtout quand 𝑥 est de grande
dimension

Approche discriminative
• Il est beaucoup plus rapide de déterminer 𝑝(𝐶𝑘 |𝑥) car la dimension de
𝐶𝑘 est bien souvent beaucoup plus faible que celle de x

Fonction discriminante
• Modélisation et décision sont combinées dans un seul apprentissage
• 𝑝(𝐶𝑘 |𝑥) n’est pas estimé. On ne pourra donc (i) ni faire du rejet; (ii) ni
combiner plusieurs classificateurs; (iii) ni compenser différentes
probabilités a priori des classes

Cours de Reconnaissance des Formes– Catherine Achard 179


Méthodes génératives/discriminatives

Méthodes génératives Méthodes discriminatives


Classification bayésienne K plus proches voisins
Modélisation gaussienne Arbres de décision
GMM (Gaussian Mixture Régression linéaire
Model)
HMM (Hidden Markov Model) SVM (Support Vector Machine

Réseaux bayésiens RVM (Relevance Vector


Machine)
MRF (Markov Random Fields) Réseaux de neurones
CRF (Conditional Random
fields )

Cours de Reconnaissance des Formes– Catherine Achard 180


Méthodes génératives/discriminatives
Exemple : classification binaire
(Computer vision: models, learning and inference, Simon J.D. Prince 2012)
On souhaite estimer la teinte chaire (0/1) à partir de la quantité de rouge
𝑥 est une variable continue (quantité de rouge)
2 classes : teinte chaire ou non

Approche générative :
• On modélise 𝑝(𝑥|𝐶0 ) et 𝑝(𝑥|𝐶1 ) par des gaussiennes (𝜇0 , 𝜎0 , 𝜇1 , 𝜎1 )
• On modélise 𝑝(𝑥|𝐶0 ) par une loi de Bernouilli de paramètre 𝜆
• On utilise les données d’apprentissage ( 𝑥𝑖 , 𝐶𝑖 ) pour estimer les
paramètres (𝜇0 , 𝜎0 , 𝜇1 , 𝜎1 , 𝜆)
• On estime 𝑝(𝐶0 |𝑥) et 𝑝(𝐶1 |𝑥) en utilisant Bayes

Approche discriminative:
• On modélise 𝑝(C|𝑥) par une loi de Bernouilli dont le paramètre 𝜆
1
dépend de x. Comme 0 < 𝜆 < 1 , on pose 𝜆 = et donc,
1+exp(−Φ0 −Φ1 𝑥)
1
𝑝 C 𝑥 = Bern
1+exp (−Φ0 −Φ1 𝑥)
• On utilise les données d’apprentissage ( 𝑥𝑖 , 𝐶𝑖 ) pour estimer les
paramètres (Φ0 , Φ1 ) de 𝑝(𝐶0 |𝑥) et 𝑝(𝐶1 |𝑥) (4 paramètres)
• Pour un 𝑥 donné, on estime directement 𝑝(𝐶0 |𝑥) et 𝑝(𝐶1 |𝑥)

Cours de Reconnaissance des Formes– Catherine Achard 181


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 182


Méthode discriminative : 1ppv

 Données de départ :
Base de référence : ensemble de vecteurs de caractéristiques Xi et leur
classe Ci

 Objectif :
Base de test : pour un nouveau vecteur X, trouver sa classe

 Méthode :
 Calculer la distance entre X et tous les exemples de la base de
référence
 Déterminer le vecteur le plus proche.
 Affecter à X la classe de ce vecteur

Cours de Reconnaissance des Formes– Catherine Achard 183


Méthode discriminative : 1ppv

Calcul de distance
En dimension 2, chaque exemple 𝑥𝑖 est caractérisé par un
vecteur de dimension 2 [𝑥 𝑦]𝑇 et est donc représenté dans le
plan :

Vecteurs de la
𝑥? classe C2

Vecteurs de la
classe C1
𝑥

Cours de Reconnaissance des Formes– Catherine Achard 184


Méthode discriminative : 1ppv

Calcul de distance

En dimension 3, chaque exemple 𝑥𝑖 est caractérisé par un vecteur de dimension


3 : [𝑥 𝑦 𝑧]𝑇 et est donc représenté dans l’espace :

𝑥?
Vecteurs de la
classe C2
Vecteurs de la
classe C1

Cours de Reconnaissance des Formes– Catherine Achard 185


Méthode discriminative : 1ppv
Calcul de distance
En dimension n, chaque exemple 𝑥𝑖 est caractérisé par un vecteur de
dimension n et peut être représenté dans un système de dimension 𝑛 :

Forme

Vecteur de
caractéristiques
de dimension 𝑛

Cours de Reconnaissance des Formes– Catherine Achard 186


Méthode discriminative : 1ppv
Signification géométrique

Les classes sont définies par


la réunion des domaines
d’influence des références

La résolution spatiale des


frontières est liée au nombre
de références et à leur
densité

Cours de Reconnaissance des Formes– Catherine Achard 187


Méthode discriminative : 1ppv

 Avantages :
 Pas d’hypothèses
 Simple à mettre en œuvre
 Incrémental
 tend vers l’erreur optimale

 Inconvénients :
 Quantité de calculs quasi-proportionnelle au
nombre d’exemples
 Pas d’extraction d’information utile

Cours de Reconnaissance des Formes– Catherine Achard 188


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 189


Méthode discriminative : Kppv

Algorithme des k ppv (plus proches voisins)

1. Calculer la distance entre 𝑥 et tous les exemples de la


base de référence

2. Déterminer les 𝑘 vecteurs les plus proches


Puis classe majoritaire
 on peut faire du rejet

Cours de Reconnaissance des Formes– Catherine Achard 190


Méthode discriminative : Kppv

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0

-1 -1
-1 0 1 2 3 4 5 6 7 -1 0 1 2 3 4 5 6 7

k = 1, disp = 0.3 k = 1, disp = 0.7

Cours de Reconnaissance des Formes– Catherine Achard 191


Méthode discriminative : Kppv

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0

-1 -1
-1 0 1 2 3 4 5 6 7 -1 0 1 2 3 4 5 6 7

k = 11 k= 21
disp = 0.7 disp = 0.7

Cours de Reconnaissance des Formes– Catherine Achard 192


Méthode discriminative : Kppv
Dilemme biais/variance

k faible k grand

Bonne résolution des frontières Mauvaise résolution des


entre classe frontières entre classe : lissage
des frontières

Très sensible au bruit sur les


échantillons de la base de Peu sensible au bruit sur les
référence échantillons de la base de
référence

Cours de Reconnaissance des Formes– Catherine Achard 193


Méthode discriminative : Kppv

Comment choisir k ?

En testant, il faut alors utiliser une nouvelle base : une base de


validation pour ne pas employer la base de référence pour
mettre au point le classificateur

3 bases :

-Base de référence où sont stockés les exemples utilisés dans


l’algorithme des k-ppv

-Base de validation qui sera utilisée pour optimiser le paramètre


k

-Base de test qui évaluera sur des données jamais observées au


préalable les performances du classificateur

Cours de Reconnaissance des Formes– Catherine Achard 194


Méthode discriminative : Kppv
Démo

Démo

D\Donnees\Doc-word\Enseignement\Rdf\codes
rdf\codes\demo_ecrit

ppv_char.m

Démo
Ppv.m

Cours de Reconnaissance des Formes– Catherine Achard 195


Méthode discriminative : Kppv
Exercice

Noir : base de référence


Blanc : base de test

Donner la matrice de confusion


avec l’algorithme du 1ppv

Cours de Reconnaissance des Formes– Catherine Achard 196


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 197


Méthode par discrimination : Kppv

Lorsque les exemples sont codés de manière structurelle, par une suite
de symbole, la distance euclidienne n’a aucun sens.

On fait alors appel à la distance d’édition.

Par exemple, pour un codage de Freeman : 8 états

2
3 1

4 0

3
5 7
23445667001 234 5667 01 6

Comment calculer la distance entre les deux chaines constituées de


suites de symboles de longueur différentes ?

Cours de Reconnaissance des Formes– Catherine Achard 198


Méthode par discrimination : Kppv

Comparaison de chaînes de longueurs éventuellement


différentes

Exemple : x = aabcb y = aababd


Déterminer la suite des transformations élémentaires pour
passer de x à y

Supprimer un symbole
Insérer un symbole
Changer un symbole ( S + I)

- affecter un coût à chaque transformation

 distance = somme des coûts

Cours de Reconnaissance des Formes– Catherine Achard 199


Méthode par discrimination : Kppv

aabcb C
S poids de l’arc
aabab
I
abcb I
aabcbd C
C
aababd
I
I
abab
ababd

arcs sommets

Plusieurs chemins pour passer d’une chaîne à l’autre


 Graphe orienté et valué
 Choix : chemin de coût minimum

Cours de Reconnaissance des Formes– Catherine Achard 200


Méthode par discrimination : Kppv

On note C(u,v) le coût pour changer u en v et $ l’élément


neutre

- x.$ = $.x = x pour tout mot x

- Insertion de u = substitution de $ par u  C($,u)

- Suppression de u = substitution de u par $  C(u,$)

- Changement
Matrice des coûts : C(u,u) = 0 et C(u,v) > 0
(permet de corriger les problèmes de segmentation si la
différence de coût est faible pour une erreur donnée)

Cours de Reconnaissance des Formes– Catherine Achard 201


Méthode par discrimination : Kppv

Calcul par récurrence des distances cumulées D(i,j)


Matrice des coûts C() à initialiser a priori

X = a1a2a3…an
Y = b1b2b3…bm

X(i) = a1a2a3…ai
Y(j) = b1b2b3…bj

x(0) = y(0) = $
D(0,0) = d($,$) = 0

D(i-1,j) + C(ai,$)
D(i,j) = min D(i,j-1) + C($,bj)
D(i-1,j-1) + C(ai,bj)

Cours de Reconnaissance des Formes– Catherine Achard 202


Méthode par discrimination : Kppv

On peut aussi avoir des suites de caractères numériques :

Discrétisation Poids du codage Amplification du


(ex : 8 directions) très important bruit par le codage
Codage
des vecteurs

Attributs Approche moins Plus grande


numériques structurelle complexité

 programmation dynamique

D(i-1, j) + C(ai,bj)
D(i,j) = min D(i, j-1) + C(ai,bj) C(ai,bj) = || bj – ai ||
D(i-1, j-1) + 2C(ai,bj)

Cours de Reconnaissance des Formes– Catherine Achard 203


Méthode par discrimination : Kppv

Application à la saisie de mot sur les téléphones portables :

semaine ?

Drmain demain ?
Quelle matrice de
cout ?
demains ?

Cours de Reconnaissance des Formes– Catherine Achard 204


Méthode discriminative : Kppv
Accélération des k-PPV

2 solutions

 Réduction de la dimension de chaque exemple


 ACP
 LDA
 Réduction de taille de la base de référence
 On ne représente plus chaque classe que par sa
moyenne
 Génération de prototypes : LVQ, K-moyennes
 Dendrogramme

 Dilemme robustesse/accélération

Cours de Reconnaissance des Formes– Catherine Achard 205


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 206


Méthode par discrimination : Kppv

Les classes sont représentées par leur moyenne

2 solutions :

• On ne conserve que les moyennes (centres) 𝜇𝑐 des classes


 On calcule les distances euclidiennes de(𝑥𝑖 , 𝜇𝑐 ) entre l’exemple
𝑥𝑖 et tous les centres 𝜇𝑐
 L’exemple est classé à la classe de la distance la plus faible

• On conserve les moyennes 𝜇𝑐 et les matrices de covariance Σ𝑐 de chaque


classe
 On calcule les distances de Mahalanobis dM(𝑥𝑖 , c) entre l’exemple
𝑥𝑖 exemple et les classes c avec

𝒅𝑴 𝒙𝒊 , 𝒄 = (𝒙𝒊 − 𝝁𝒄 )𝑻 𝜮−𝟏
𝒄 (𝒙𝒊 − 𝝁𝒄 )

 L’exemple est classé à la classe cde la distance la plus faible

 Rq : Si Σ=Identité, on retrouve la distance euclidienne

Cours de Reconnaissance des Formes– Catherine Achard 207


Méthode par discrimination : Kppv
Comparaison – distance euclidienne – distance de Mahalanobis

Les deux points A et B


sont à la même distance
euclidienne de O
Pas logique

Les deux points A et B


sont à la même distance
de Mahalanobis de O

Démo
mahal.M

http://www.aiaccess.net/French/Glossaires
Cours de Reconnaissance des Formes– Catherine Achard 208
Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 209


Méthode par discrimination : Kppv

Sélection des références LVQ

LVQ : Learning Vector Quantization

 Méthode supervisée, itérative :


 Génération d’un ensemble de prototypes quasi optimaux
Minimise la variance intra-classe
Maximise variance inter-classe

1.Initialisation aléatoire des prototypes (noyau)


2.Pour chaque vecteur x, trouver le prototype p le plus proche
 Si p et X sont de la même classe, rapprocher p de x
 sinon, éloigner p de X
p(t+1) = p(t)  a(t)[X – p(t)]
où a(t) : pas d’apprentissage
3.Retour en 2 ou arrêt

Cours de Reconnaissance des Formes– Catherine Achard 210


Méthode par discrimination : Kppv
LVQ, Itération 1 LVQ, Itération 2

LVQ, Itération 3 LVQ, Itération 10

Cours de Reconnaissance des Formes– Catherine Achard 211


Méthode par discrimination : Kppv
LVQ, Itération 1 LVQ, Itération 2

LVQ, Itération 10

Cours de Reconnaissance des Formes– Catherine Achard 212


Méthode par discrimination : Kppv
LVQ, Itération 1

LVQ, Itération 10

Cours de Reconnaissance des Formes– Catherine Achard 213


Méthode par discrimination : Kppv
LVQ, Itération 1 LVQ, Itération 2

LVQ, Itération 3 LVQ, Itération 10

Cours de Reconnaissance des Formes– Catherine Achard 214


Méthode par discrimination : Kppv

Sélection des références LVQ


Démo
Lvq.m

Initialisation aléatoire :
Pb n°1 : Nombre de prototypes
 performances

Pb n°2 : Position des prototypes


 convergence

Cours de Reconnaissance des Formes– Catherine Achard 215


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 216


Méthode par discrimination : Kppv

Génération de prototypes: k-moyennes (k-means)


Démo
Kmeans.m
 Méthode non supervisée, itérative. Travaille
indépendamment sur chaque classe :

 Initialisation aléatoire des prototypes p1,…, pk

 Affecter chaque exemple x au prototype pi le plus


proche

 Calculer les nouveaux prototypes : moyenne des


exemples de « leur » groupe

 Retour en 2 si pas idempotence

 Pb : nombre de prototypes optimaux ?

Cours de Reconnaissance des Formes– Catherine Achard 217


Méthode par discrimination : Kppv

Génération de prototypes: k-moyennes (k-means)

it=0 it=1

it=2 it=3

Cours de Reconnaissance des Formes– Catherine Achard 218


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 219


Méthode par discrimination : Kppv

Dendrogramme
Méthode non supervisée.
Travaille indépendamment sur chaque classe

Classification ascendante hiérarchique


 Regroupement des données suivant un
critère de distance

Cours de Reconnaissance des Formes– Catherine Achard 220


Méthode par discrimination : Kppv
Dendrogramme

Cours de Reconnaissance des Formes– Catherine Achard 221


Méthode par discrimination : Kppv
Dendrogramme

 Détermination des prototypes : coupure dans la


hiérarchie

3 prototypes

7 prototypes

Cours de Reconnaissance des Formes– Catherine Achard 222


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 223


Méthode discriminative (arbre de décision)

Exemple : arbre de décision pour décider si on regarde la TV ou si on va


se promener

Quel temps ?

couvert soleil
pluie

Température ? Voisin présent ?

<10 >10 non TV


oui

TV Promenade TV Promenade

Cours de Reconnaissance des Formes– Catherine Achard 224


Méthode discriminative (arbre de décision)

Un arbre de décision permet de classer chaque exemple avec un


ensemble de règles.
Manipulation facile de données symboliques.
Une suite de décisions permet de partitionner l’espace en régions
homogènes en terme de classe

La difficulté consiste à créer l’arbre à partir de la base d’exemple


étiquetée

Cours de Reconnaissance des Formes– Catherine Achard 225


Méthode discriminative (arbre de décision)

On dispose d’une base de références composée:


- des réponses au questions : vecteurs de paramètres
- de la classe associée à chaque exemple

Problème :
Trouver l’ordre le plus cohérent dans l’agencement des
questions: il n’y a pas forcement besoin de tester tous les
paramètres à chaque fois

Cours de Reconnaissance des Formes– Catherine Achard 226


Méthode discriminative (arbre de décision)

Initialisation : tous les exemples sont dans le même nœud X


Procédure construit_arbre(X)
Si X est une feuille Pb1
o Affecter une classe à X Pb2

Sinon
o Choisir la meilleure question et partitionner X en X1 et X2 Pb3

o Construit_arbre(X1)
o Construit_arbre(X2)
Fin si

Cours de Reconnaissance des Formes– Catherine Achard 227


Méthode discriminative (arbre de décision)

Cet algorithme est très général. Plusieurs algorithmes vont en


découler en fonction :

1. De la façon de décider quand un nœud constitue une


feuille (Pb1)

2. De la façon d’affecter une classe à une feuille (Pb2)

3. De la façon de choisir la meilleure question (Pb3)

Cours de Reconnaissance des Formes– Catherine Achard 228


Méthode discriminative (arbre de décision)

Problème 1:
On décide qu’un nœud constitue une feuille :
 Quand tous les exemples du nœud appartiennent à la
même classe

 Quand tous les exemples du nœud ont le même vecteur


de paramètre

 Quand le nombre d’exemples du nœud est inférieur à un


seuil

 Quand une classe est largement majoritaire dans le nœud

 En contrôlant les performances en généralisation sur une


base de validation

Cours de Reconnaissance des Formes– Catherine Achard 229


Méthode discriminative (arbre de décision)

Problème 2:
On affecte au nœud la classe majoritaire de ses exemples

Cours de Reconnaissance des Formes– Catherine Achard 230


Méthode discriminative (arbre de décision)

Problème 3:

Comment choisir la meilleure question pour partitionner X ?


On utilise la théorie de l’information.
Entropie sur X conditionnée par q
H ( X / q)   p( X  u, q  v )log2 ( p( X  u / a  v ))
u ,v

H(X/q) : quantité d’information contenue dans X si on


connaît q.

On va rechercher la question q qui minimise cette quantité


d’information (on voudrait que q nous amène toutes les
connaissances)

Cours de Reconnaissance des Formes– Catherine Achard 231


Méthode discriminative (arbre de décision)

Dans le cas de données discrètes multi-variées pouvant


prendre plus de 2 valeurs (rouge, vert bleu, jaune,…), on
étend le calcul de l’entropie conditionnelle. On pourra
alors être amené à avoir des nœuds non binaires

Dans le cas de variables continues, on va estimer pour


chaque variable le seuil qui sépare au mieux les
exemples. On se ramène ainsi à un cas binaire.

Cours de Reconnaissance des Formes– Catherine Achard 232


Méthode discriminative (arbre de décision)

Branches peu représentatives qui nuisent à la généralisation


générées par des exemples atypiques

On essaie de les supprimer par élagage en utilisant une


base de validation

Construction d’une forêt d’arbre aléatoire

Cours de Reconnaissance des Formes– Catherine Achard 233


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 234


Méthode générative : classification bayésienne

On dispose d’un exemple 𝑥 que l’on souhaite classer dans une des classes 𝐶𝑘

𝑃 𝑥|𝐶𝑘 𝑃(𝐶𝑘 )
𝑝 𝐶𝑘 𝑥 =
𝑃(𝑥)

 𝑝(𝐶𝑘) : probabilité a priori (probabilité de la classe 𝐶𝑘 avant


d’observer x)
 𝑝(𝑥|𝐶𝑘) : vraisemblance des observations
 𝑝(𝑥) : constante de normalisation: 𝑝(𝑥) = Σ 𝑝(𝑥|𝐶𝑘) 𝑝(𝐶𝑘)
 𝑝(𝐶𝑘|𝑥) : probabilité a posteriori

Si le but est de minimiser la chance d’affecter 𝑥 à une mauvaise


classe, intuitivement, on choisit la classe avec la plus grande
probabilité a posteriori 𝑝(𝐶𝑘|𝑥). Cette décision est correcte mais
d’autres décisions peuvent être prises

Cours de Reconnaissance des Formes– Catherine Achard 235


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 236


Méthode générative : classification bayésienne

Décision par minimisation de l’erreur de classification

Dans un problème à 𝐾 classes, l’erreur de classification est donnée


par:

𝑃𝑒𝑟𝑟𝑒𝑢𝑟 = 1 − 𝐾
𝑘=1 𝑝(𝑑é𝑐𝑖𝑑𝑒𝑟 𝑥 ∈ 𝐶𝑘 , 𝑥 ∈ 𝐶𝑘 )dx
=1- 𝑘=1 𝑥 𝑎𝑓𝑓𝑒𝑐𝑡é à𝐶𝑘 𝑝(𝑥, 𝐶𝑘 )dx
𝐾

Pour minimiser 𝑃𝑒𝑟𝑟𝑒𝑢𝑟 il faut maximiser le second terme et donc


maximiser la valeur intégrée. On classera donc chaque exemple 𝑥
à la classe avec le plus grand 𝑝(𝑥, 𝐶𝑘 )

Or, 𝑝(𝑥, 𝐶𝑘 )=𝑝(𝐶𝑘 |𝑥)p(x)

Et comme 𝑝(𝑥) ne dépend pas de 𝑘,

on affecte 𝒙 à la classe qui maximise 𝒑(𝑪𝒌 |𝒙)

Cours de Reconnaissance des Formes– Catherine Achard 237


Méthode générative : classification bayésienne

Décision par minimisation d’un coût

Considérons une application médicale de détection de


cancer.
• Si un patient sain est diagnostiqué cancéreux, un stress et
d’autres examens complémentaires vont apparaitre
• Si un patient malade n’est pas diagnostiqué, les
conséquences sont beaucoup plus graves car la maladie
va continuer à évoluer
 Les conséquences des erreurs ne sont pas les mêmes
 Introduction d’une matrice de coûts avec 𝐿𝑘𝑗 , le coût
d’affecter un exemple de la classe 𝑗 à la classe 𝑘

 Le coût total à minimiser va être donné par:


𝐶= 𝑘 𝑗 𝑥 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é à𝐶𝑘 𝐿𝑘𝑗 𝑝(𝑥, 𝐶𝑘 ) 𝑑𝑥

Or, comme précédemment, 𝑝(𝑥, 𝐶𝑘 )=𝑝(𝐶𝑘 |𝑥)p(x). Pour minimiser


𝐶, il faut minimiser 𝑘 𝐿𝑘𝑗 𝑝(𝑥, 𝐶𝑘 ) pour tout 𝑥

On affecte x à la classe qui minimise 𝐤 𝐋𝐤𝐣 𝐩(𝐱, 𝐂𝐤 )

Cours de Reconnaissance des Formes– Catherine Achard 238


Méthode générative : classification bayésienne

Décision avec rejet

Comme 𝑝(𝐶𝑘 |𝑥) est connu, nous pouvons rejeter :

• les exemples tq la valeur maximale de 𝑝(𝐶𝑘 |𝑥)<seuil

• les exemples qui ont leur deux plus grandes probabilités a


posteriori similaires

Cours de Reconnaissance des Formes– Catherine Achard 239


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision
Estimation des probabilités
Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 240


Méthode générative : classification bayésienne

Classification

Une fois la règle de décision choisie, il reste à estimer


 les vraisemblances de chaque classe p(x/Ck)
 les probabilités a priori P(Ck)

Cours de Reconnaissance des Formes– Catherine Achard 241


Méthode générative : classification bayésienne

Estimation des densités a priori


 En l’absence d’informations particulières, les supposer
égales :

1
𝑝 𝐶𝑘 = où 𝐾 est le nombre de classes
𝐾

 Si l’échantillon d’apprentissage est représentatif, utiliser un


estimateur fréquentiel :

𝑁𝑘
𝑝 𝐶𝑘 = où 𝑁𝑘 est le nombre d’exemples de la classe 𝑘
𝑁

et 𝑁 le nombre d’exemple total

Cours de Reconnaissance des Formes– Catherine Achard 242


Méthode générative : classification bayésienne

Estimation de la vraisemblance

La vraisemblance de chaque classe Ck p(x/Ck) peut être estimée par


une des méthodes d’estimation de densité de probabilité introduite
précédemment (estimation paramétrique ou non paramétrique)

Cours de Reconnaissance des Formes– Catherine Achard 243


Reconnaissance des formes et apprentissage
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression
Méthode discriminative utilisant les KppV
Méthode générative

Cours de Reconnaissance des Formes– Catherine Achard 244


Méthode de régression

Reconnaissance vs estimation

étiquette Variable continue

Exemples

Reconnaître des Estimer la position de la tête


visages Θ, ϕ

Cours de Reconnaissance des Formes– Catherine Achard 245


Méthode de régression

ESPACE DE
REPRESENTATION ESPACE DE DECISION
OU CONTINU
ESPACE DES PARAMETRES

Estimation

Cours de Reconnaissance des Formes– Catherine Achard 246


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression
Méthode discriminative utilisant les KppV
Méthode générative

Cours de Reconnaissance des Formes– Catherine Achard 247


Méthode de régression

Méthode discriminative utilisant les KppV

Entrée :
Une base de référence (vecteur de codage) associé à une variable
continue e (décision)

Sortie :
Pour un exemple X inconnu, estimer la variable e.

Pour retrouver une estimation, on compare le descripteur de la forme


inconnue à ceux des exemples de la base.

L’estimation est faite en prenant la valeur e de l’exemple le plus


proche.

On peut aussi choisir de garder les K exemples les plus proches, puis
interpoler avec une moyenne ou une médiane des valeurs de e de
ces exemples

Cours de Reconnaissance des Formes– Catherine Achard 248


Méthode de régression

Méthode discriminative utilisant les KppV

e=0.9 e=???
e=1.0

e=1.3
e=1.3

e=1.6
e=1.4

e=1.3
e=1.6

e=1.7

Cours de Reconnaissance des Formes– Catherine Achard 249


Méthode de régression

Méthode discriminative utilisant les KppV

Exemple : Estimation de la courbure de la route à 18m


devant un véhicule

Cours de Reconnaissance des Formes– Catherine Achard 250


Méthode de régression

Méthode discriminative utilisant les KppV

Orientation
indésirable Orientation
gardée

Ligne de fuite

26 mètres

Bande utile

10 mètres

Cours de Reconnaissance des Formes– Catherine Achard 251


Méthode de régression

Méthode discriminative utilisant les KppV

Votes coté Votes coté


gauche droit

Ligne de fuite

26 mètres

10 mètres

Cours de Reconnaissance des Formes– Catherine Achard 252


Méthode de régression

Cours de Reconnaissance des Formes– Catherine Achard 253


Méthode de régression

Méthode discriminative utilisant les KppV

Angle au volant

Numéro d’image

Cours de Reconnaissance des Formes– Catherine Achard 254


Méthode de régression

Base de 4900 images acquises sur un circuit

On partage la base en 2 : base de références et base de test

Pour chaque image test  codage  recherche des K codes les plus proches
dans la base de références  K angles au volant

Puis moyenne ou médiane de ces valeurs


moyenne
Erreur

Taille du codage
Cours de Reconnaissance des Formes– Catherine Achard 255
Méthode de régression

Angle au volant réel et estimé à chaque image

Numéro d’image

Cours de Reconnaissance des Formes– Catherine Achard 256


Introduction
Prétraitements et Codage
Classification
Introduction
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression
Méthode discriminative utilisant les KppV
Méthode générative

Cours de Reconnaissance des Formes– Catherine Achard 257


Méthode de régression
Apprentissage sur la base d’exemple pour construire une fonction e=f(X) qui
prédit les valeurs de e en des points arbitraires X non présents dans la base
d’entrainement.

Les données d’entrée X sont les vecteurs de paramètres (code) de dimension n.


La variable de sortie e est continue, de dimension n1<<n

Pour les modèles linéaires, la fonction est modélisée par une combinaison de
fonctions de base, et l’apprentissage sert à déterminer les coefficients de cette
combinaison.

Autre apprentissage : réseau de neurones

Attention à la complexité des modèles et au sur-apprentissage !

Cours de Reconnaissance des Formes– Catherine Achard 258


Méthode de régression

e( X )  0  11 ( X )  22 ( X )  ...  K  K ( X )

Cette équation n’implique pas que e est une combinaison linéaire


des données d’entrée X mais que e est une fonction linéaire des
paramètres que l’on veut estimer ωi

L’emploi des fonctions de base Φi introduit une non linéarité entre X


et e

Plusieurs fonctions de base possible.


Le plus classique : gaussiennes centrées sur les points
d’apprentissage (autant de fonctions de base que de points
d’apprentissage)

2
X  Xi

i ( X )  e 2 2

Cours de Reconnaissance des Formes– Catherine Achard 259


Méthode de régression

L’apprentissage consiste à rechercher les poids (ω) qui minimisent l’erreur au sens
des moindres carrés sur les données d’apprentissage :

N K
E ( w)   e j   wk  k ( X j )
j 1 k 0

En notant e=(e1, e2,…,eN)T

  0 ( X 1 ) 1 ( X 1 )  K ( X1) 
et   (X )  (X ) K ( X 2 ) 
Φ 0 2 1 2 
 
 
  0 ( X N ) 1 ( X N ) K ( X N ) 

Le système peut s’écrire


E( w)  e  Φw
Et a pour solution

w  Φ†e où Φ†  T (T ) 1 est la pseudo inverse de 


Des solutions non linéaires plus complexes existent:
-RVM
-…
Cours de Reconnaissance des Formes– Catherine Achard 260

Vous aimerez peut-être aussi