RDF Slides

RECONNAISSANCE
DES FORMES
Catherine ACHARD
Institut des Systèmes Intelligents et de
Robotique
catherine.achard@upmc.fr
Cours de Reconnaissance des Formes– Catherine Achard 1

Introduction
Principe
Applications
Difficultés
Méthode supervisée ou non supervisée
Cas particulier de la détection
Raisonnons sur un exemple
Références
Prétraitements et codage
Classification

Principe
Traitement d’images Instrumentation Physique
MATHEMATIQUES RdF INFORMATIQUE
Traitement du signal (parole) Biologie

Principe
• On dispose d’un ensemble de formes dont la classe est

connue (base d’apprentissage ou de références)
• On met au point une méthode qui, en étudiant cette base,

sera ensuite capable de classer des formes inconnues

Introduction
Principe
Applications
Difficultés
Références
Classification

Applications
Reconnaissance de texte
isolés Variabilité entre

cursifs scripteurs
ligne de base

Applications
Biométrie
Signature
Iris
Visage
Empreinte
vocale
Empreinte
digitale

Applications
Reconnaissances d’empreintes digitales
http://www.biometrie-online.net/techno/empreintes/empreintes-
digitales.php
Applications
Imagerie
médicale satellitaire

Applications
Analyse de scène
200
400 Aide technique

600
800
800
1000
1000
1200
1200
1400
1400
200
200 400
400 600
600 800
800 1000
1000 1200
1200 1400
1400 1600
1600 1800
1800 2000
2000
Véhicules intelligents

Applications
Signaux audio
Reconnaissance de locuteurs
• Parmi 10 personnes, qui parle ?
Reconnaissance de parole
• Parmi ces 20 mots, lequel la personne a dit ?

Applications
Signaux divers : diagnostic de panne
Sur un avion, il y a plusieurs centaines de

capteurs qui donnent des signaux en
permanence.
Comment faire pour détecter

automatiquement une panne et diagnostiquer
son origine ?

Applications
Contrôle de qualité
Champignon Champignon
fermé véreux
Champignon Champignon
taché terreux

Introduction
Principe
Applications
Difficultés
Références
Classification

Difficultés
Problème de
résolution
Problème de
pose
Distance entre
visage?

Difficultés
Expressions faciales, occlusion

Introduction
Principe
Applications
Difficultés
Références
Classification

Méthode supervisée ou non supervisée
Méthode supervisée : Méthode non supervisée :
On reçoit une image binaire Un client vient d’acheter un

et on doit l’associer à une livre sur Amazon. Je souhaite
des 26 lettres de l’alphabet retrouver les personnes avec
les mêmes gouts pour
 On connait à l’avance les orienter ce client
classes possibles. La base
d’apprentissage est  On ne connait pas à
étiquetée avec ces 26 l’avance les classes possibles.
classes La base d’apprentissage est
composée de clients ayant
fait des achats. On souhaite
regrouper les clients ayant les
mêmes gouts dans une
classe

Introduction
Principe
Applications
Difficultés
Références
Classification

Cas particulier : la détection
Raisonnons sur un cas concret : comment détecter un visage dans une

image ?

Cas particulier : la détection
On change le problème de détection en un problème de classification
On présente une imagette (une zone de l’image) en entrée d’un
système de reconnaissance. Celui-ci nous dit si cette imagette est un
visage ou non (sortie binaire)
Problème:
 Comment savoir où rechercher dans l’image ?
 Comment détecter à plusieurs échelles ?
En testant toutes les combinaisons possibles
En chaque position, problème de reconnaissance. Est-ce un visage ou non ?

Introduction
Principe
Applications
Difficultés
Références
Classification

Exemple
Reconnaître les truites et les saumons

Exemple
Pré-traitement
Extraire l’objet de l’image

Exemple
Codage Extraire de la forme un vecteur de mesure

aussi appelé vecteur de caractéristiques
ou codage
ou features
Exemple en 1 dimension : la taille des poissons

Exemple
Taille des poissons
Classification
Truite Saumon
Taille des
poissons
Seuil de décision
Trop de chevauchement, décision pas robuste. Que faire ?

Exemple
Autre caractéristique :
Classification la teinte des poissons
Truite
Saumon
Teinte
Seuil de décision
Trop de chevauchement, décision pas robuste. Que faire ?

Exemple
Classification Teinte et longueur des poissons
 Vecteur de caractéristiques à 2 dimensions
Longueur
Truite Saumon
Teinte
frontière de décision
On peut ajouter d’autres caractéristiques pour améliorer la classification
Mais les données ne sont pas toujours idéales

Exemple
Longueur
Truite Saumon
Teinte
Pourquoi ne pas utiliser une frontière plus complexe ?

Quelle sera l’erreur pour de nouveaux poissons ?

Exemple
Longueur
Truite Saumon
Teinte
Comment trouver une frontière moins spécifique, moins bonne sur

l’ensemble d’entrainement mais certainement meilleure sur de
nouveaux poissons ? ?

Les étapes de la reconnaissance de formes
Espace Espace Espace

de de de
mesure représentation décision
Codage Classification

Introduction
Principe
Applications
Difficultés
Références
Classification

Références
- DUDA Richard, HART Peter STORK David, "Pattern Classification ". Wiley Sciences, 2nd
edition.
- CHRISTOPHER M. BISHOP, “Pattern Recognition and machine learning”, springer, 2006
- BELAID Abdel, BELAID Yolande, "Reconnaissance des formes : Méthodes et
applications". InterEditions, 1992.
- DEVIJVER Pierre, KITTLER J., "Pattern Recognition: a statistical approach". Prentice Hall,
1982.
- DUBUISSON Bernard, "Diagnostic et reconnaissance des formes". Hermes, 1990.
- FU King-Sun, "Syntactic Methods in Pattern Recognition". Academic Press, 1974.
- GAILLAT Gérard, "Méthodes statistiques de reconnaissance des formes". Publication
ENSTA, 1983.
- MICLET Laurent, "Méthodes structurelles pour la reconnaissance des formes". Eyrolles
et CNET - ENST, 1984.
- MILGRAM Maurice,"Reconnaissance des formes : Méthodes numériques et
connexionnistes". Armand Colin, 1993.
- PAVLIDIS T., "Structural Pattern Recognition". Springer Verlag, 1982.
- SIMON Jean-Claude, "La reconnaissance des formes par algorithmes". Masson, 1984.
- WATANABE Satosi, "Knowing and Guessing". John Wiley, 1969.

Introduction
Caractéristiques des codages
Prétraitements: extraire la forme
Codage global vs structurel
Codage de régions
Codage rétinien
Moments géométriques
Filtres de Haar
Local Binary Patterns (LBP)
Codage de contours
Codage de Freeman
Histogramme des orientations de contours
Descripteurs de Fourier
Comment trouver un bon codage ?
Problème des grandes dimensions
Rappel sur les matrices de covariances
Analyse en composantes principales
Analyse discriminante linéaire
Sélection/extraction de caractéristiques
Classification

ESPACE DE ESPACE DE
MESURE REPRESENTATION
Codage

Introduction
Codage rétinien
Filtres de Haar
Classification

Caractéristique des codages
Qu’est ce qu’un bon codage ?

 Pouvoir discriminant
 Le codage doit être différent pour des exemples de classes
différentes  forte variance inter-classes
 Pouvoir unifiant
 Le codage doit être à peu près le même pour tous les
exemples d’une même classe  faible variance intra-classe
 Stabilité/invariance
 Codage le plus insensible possible au bruit
 En fonction des applications, invariance en translation,
rotation, changement d’échelle
 Faible dimension
 Plus le codage est de faible dimension, plus les temps de
calcul seront faibles
 Augmenter la dimension peut détériorer les résultats de
reconnaissance (malédiction des grandes dimension
compromis à trouver)

Introduction
Codage rétinien
Filtres de Haar
Classification

Prétraitement
But : isoler la forme à reconnaître
Exemple : isoler les lettres
Paradoxe
Il faut segmenter pour reconnaître et … reconnaître pour segmenter

Prétraitement
A vous de jouer, on fait comment ?

Prétraitement
Segmentation
Projection selon y  segmentation en lignes

Prétraitement
Projection selon x  segmentation en lettres

Introduction
Codage rétinien
Filtres de Haar
Classification

Codage global vs structurel
 Codage global
On code toute la forme sans en extraire d’éléments spécifiques. La
forme peut être représentée par un vecteur de paramètres
Exemple pour une personne : le poids et la taille
 Codage structurel
On extrait des éléments spécifiques de la forme et leur relation.
Exemple :
pour la personne 1 : pull rouge au dessus d’un pantalon bleu au
dessus de chaussures noires
Pour reconnaitre un ‘L’ : contour d’abord vertical puis horizontal

Introduction
Codage rétinien
Filtres de Haar
Classification

Codage rétinien
On garde toute l’information directement dans une rétine :
Problème :
-La lettre n’est pas toujours à la même position
-La résolution de l’image n’est pas toujours la même

Codage rétinien
-Calcul du centre de gravité

-Sélection du plus petit carré centré en G et englobant tous les pixels
-Réduction de la dimension (attention, pas binaire !!)
Rétine 10x10
après centrage
et réduction

Vecteur de
caractéristique
s de dimension
100

Codage rétinien
Codage quasiment neutre

 Pas de perte d’information
 Laisse le classifieur travailler
 Efficace si base d’exemples importante
Ne tolère ni les transformations ni les déformations

Introduction
Codage rétinien
Filtres de Haar
Classification

Moments géométriques
Ils codent n’importe quelle forme, même non binaire
Soit I(x,y) une image

Moment d’ordre p,q
M pq   x y I ( x , y )
p q
x y
Aire : M 00   I ( x , y )
x y
Centre de masse :
M 01   y I ( x , y ) M10   x I ( x , y )
q p
x y x y
M10 M 01
x et y
M 00 M 00

Orientation:
1 2 M11
  arctan( )
2 M 20  M 02
Moments centrés pour être invariant en translation
 pq   ( x  x ) p ( y  y )q I ( x , y )
x y
Moments normalisés pour être invariant en changement d’échelle

Moments invariants en rotation : Moment de Hu
1  20  02
2  (20  02 )2  411

2
3  (30  312 )2  (321  03 )2
4  (30  12 )2  (21  03 )2
5  (30  312 )(30  12 ) (30  12 )2  3(21  03 )2   (321  03 )(21  03 ) 3(30  12 )2  (21  03 )2 
6  (20  02 ) (30  12 )2  (21  03 )2   411 (30  12 )(21  03 )
7  (321  303 )(30  12 ) (30  12 )2  3(21  03 )2   (30  312 )(21  03 ) 3(30  12 )2  (21  03 )2 

Introduction
Codage rétinien
Filtres de Haar
Classification

Filtres de Haar
Plusieurs filtres à plusieurs échelles, plusieurs

orientations, estimés en plusieurs positions de
l’image.
On ne peu pas utiliser toutes ces valeurs, le

codage serait bien trop grand (plusieurs
dizaines d’images !

Filtres de Haar
En faisant des statistiques sur plusieurs

milliers d’images d’une même classe, on
détermine quelles sont les tailles,
orientations et positions pertinents pour
faire le codage.
moyenne pour
plusieurs images

Filtres de Haar
On en déduit, sur une grande base de données (apprentissage) quels sont les
filtres à utiliser et où.
Le code de l’image (vecteur de caractéristiques) est composé de la sortie de

tous ces filtres locaux
Vecteur de caractéristiques

Filtres de Haar
Même chose pour un visage
Un visage est représenté par la

réponse de plusieurs filtres en
différentes positions

Introduction
Codage rétinien
Filtres de Haar
Classification

Local Binary Patterns (LBP)
Idée : obtenir un descripteur complètement invariant à l’éclairage

Solution : codage des relations d’ordre
Comparaison du niveau de gris d’un point avec ses voisins

Chaque comparaison renvoie un nombre binaire
Le mot binaire obtenu avec les 8 voisins est codé en décimal
L’histogramme de cette valeur pour tous les points d’une zone forme le
descripteur
Exemple
Une portion d’image :
un pixel et ses 8 voisins Le résultat de comparaison Le code binaire
1*20+
26
2+ 1*21 +
25 1*22 +
1*23 +
24 20 0*24 + = 15
0*25 +
0*26 +
23 21 0*27 +
22

Introduction
Codage rétinien
Filtres de Haar
Classification

Codage des contours de freeman
On code les contours à partir d’une liste chainée d’angles discrétisés

Exemple :
234456670012
2
3 1
4 0
5 7
6

Codage de Freeman
Quels sont les descripteurs obtenus pour ces deux images

avec un code de Freeman à 8 états?
A quoi ce codage est invariant ?
Peut-on le rendre plus invariant ?

Introduction
Codage rétinien
Filtres de Haar
Classification

Histogrammes des orientations de gradients
On peut observer les probabilités des orientations du gradient dans

différentes zones de l’image
Pour un piéton :
I |Ix| |Iy|

Histogrammes des orientations de gradients
Plusieurs étapes:
- Calcul des gradients horizontaux et verticaux Gx et Gy avec
[-1 0 1] et [-1 0 1]T
- Calcul de l’orientation du gradient

  atan Gy Gx    0,  
-Construction de l’histogramme d’orientation de gradient pour différentes

zones (souvent 8 bins)
-Concaténation des différents histogrammes
-Variante : pondération des votes par l’amplitude du gradient

Introduction
Codage rétinien
Filtres de Haar
Classification

Descripteurs de Fourier
Le contour est décrit par la liste chaînée des points qui le constitue. Les
coordonnées {xi,yi} des points de cette liste sont transformées en un
complexe ui=xi+jyi
u0=x0+jy0

Descripteurs de Fourier
TFD de la liste de points :
j 2 ni

an   ui e N
La majorité des informations est contenue dans les basses fréquences

les premières valeurs de an suffisent à caractériser le signal et
composent le vecteur de caractéristiques
Propriétés:
Translation : modification de a0 seulement
Rotation : modification de la phase
Changement d’échelle : multiplication des an par une constante

Introduction
Codage rétinien
Filtres de Haar
Classification

Comment trouver un bon codage ?
 Méthodes empiriques
 Choix des caractéristiques pertinentes
 Méthodes exploratoires
 Algorithmes génétiques
 Méthodes statistiques pour réduire la dimension ou la

taille des données
 Analyse en composantes principales
 Analyse discriminante linéaire
 Sélection/extraction de caractéristiques

Introduction
Codage rétinien
Filtres de Haar
Classification

Problème des grandes dimensions
La dimension des données n est la dimension du code les représentant

Ex : n = 100
Rétine 10 X 10:
(après centrage
et réduction)
Complexité algorithmique linéaire f(n2) ou f(n3) ou même,

exponentielle

Problème des grandes dimensions
Plus la dimension n est grande, plus la base de données devra être de grande
dimension
Ex : avec deux exemples par dimension

Si n = 2, 22=4 données
Si n = 3, 23=8 données
Si n = 4 , 24=16 données
Si n = 20, 220=1.048.576 données
Considérons un nombre fixé N de points uniformément répartis dans un hyper-

cube de dimension n.
Plus n augmente, plus la variance des distances entre points diminue
En grande dimension, le voisinage immédiat d'une donnée est très peu

occupé tandis que la plupart des autres données se trouvent à des distances
très comparables de cette dernière.
D'une manière générale, les distances entre données de grande dimension

sont très concentrées autour de leur moyenne.

Introduction
Codage rétinien
Filtres de Haar
Classification

Matrice de covariance
Rappel sur les matrices de covariance
Si on dispose de N vecteurs de données Xi de dimension n, leur matrice de covariance

est estimée par :
1
Σ= 𝑁−1
𝑖=1 𝑋𝑖 − 𝜇 𝑋𝑖 − 𝜇 𝑇
où 𝜇 est le vecteur moyen des données Xi
𝑁−1
La matrice de covariance est de dimension n x n et est symétrique.
Exemple en dimension 2
On peut représenter chaque point Xi dans le plan.
La matrice de covariance est de dimension 2x2
𝜎𝑥𝑥 𝜎𝑥𝑦
Σ= 𝜎 𝜎𝑦𝑦
𝑥𝑦
La matrice de covariance est symétrique. Ses

valeurs codent la forme du nuage de point.

Matrice de covariance
Rappel sur les matrices de covariance
1.01 -0.01
-0.01 0.99
1 -0.02
-0.02 9.46
Démo
Bayes 2D
1 3
3 9

Introduction
Codage rétinien
Filtres de Haar
Classification

Analyse en composantes principales
Supposons que l’on dispose de plusieurs exemples (N exemples) dont

le vecteur de caractéristiques est de dimension élevée (n).
Garder toutes ces dimensions est très couteux en temps de calcul et

met à mal certains algorithmes de classification sujet au phénomène
de malédiction des grandes dimensions.
 On souhaite réduire la dimension du vecteur de caractéristiques

pour qu’il n’ait plus qu’une dimension d<<n
Comment faire ?
Dans un premier temps, il va falloir prétraiter les données.

Prétraitement des données
Les données Xj sont rangées dans un tableau X

(N=4 exemples de dimension n=5)
Mesure 1 Mesure 2 Mesure 3 Mesure 4 Mesure 5
Donnée 1
Donnée 2
Donnée 3
Donnée 4
Le tableau contient des informations de natures différentes.

Il est nécessaire de centrer les données : on soustrait la valeur de la
moyenne de la colonne à chaque valeur. La nouvelle moyenne de la
colonne va être 0.
Il est aussi nécessaire de normaliser les données : on divise chaque
valeur par l'écart type de sa colonne. Le nouvel écart type de la
colonne va être 1.

L’idée va être de changer le système d’axe de manière à ce que le

maximum d'informations soit contenu sur les premiers axes.
Exemple : pour des données en dimension deux (x1,x2) dans le repère

(i1,i2), l’ACP va donner un nouveau repère (u1,u2) tel que le maximum
d’information soit porté par u1. u1 correspondra à l’élongation maximale
du nuage de point. Les nouvelles coordonnées des points seront (y1,y2)
et la réduction de dimension consistera à ne garder que y1.
i2 u1
u2 Axe principal
i1

De manière plus formelle, chaque point 𝑋𝑖 s’exprime dans le repère initial

par:
𝑋𝑖 = 𝑥𝑖1 𝑖1 +𝑥𝑖2 𝑖2 +…+𝑥𝑖𝑛 𝑖𝑛
Et est représentée sous forme vectorielle:
𝑥𝑖1
𝑋𝑖 = ⋮
𝑥𝑖𝑛
L’ACP consiste à rechercher dans un premier temps l’axe 𝑢1 tq la
projection des données sur cet axe maximise la variance des données.
La projection des données sur l’axe 𝑢1 donne la nouvelle coordonnée des

points:
𝑦𝑖1 = 𝑋𝑖 𝑇 𝑢1 et 𝑢1 𝑇 𝑢1 = 1
Et la variance des données sur cet axe sera:

𝑁 𝑁 𝑁
1 2 1 𝑇 1
𝜎= 𝑦𝑖1 = 𝑦𝑖1 𝑦𝑖1 = 𝑢1 𝑇 𝑋𝑖 𝑋𝑖 𝑇 𝑢1
𝑁 𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1
𝜎 = 𝑢1 𝑇 Σ 𝑢1 et 𝑢1 𝑇 𝑢1 = 1
1 𝑇
Où Σ est la matrice de covariance des données tq Σ = 𝑁
𝑖=1 𝑋𝑖 𝑋𝑖
𝑁

Il s’agit d’un problème classique de maximisation sous contrainte que l’on

résout à partir du lagrangien:
L=𝑢1 𝑇 Σ 𝑢1 - 𝜆 𝑢1 𝑇 𝑢1 − 1
En annulant la dérivée de L par rapport à 𝑢1 , on obtient:

𝜕𝐿
= 0  Σ 𝑢1 = 𝜆 𝑢1
𝜕𝑢1
On reconnait l’équation des valeurs propres et des vecteurs propres de la

matrice de covariance Σ.
Le second axe correspondra au second vecteur propre de la matrice,…
Rmq:
La matrice de covariance est par construction symétrique et au moins
positive semi-définie. Ceci implique que les valeurs propres et les vecteurs
propres seront réels, que les valeurs propres seront positives ou nulles et que
les vecteurs propres seront orthogonaux entre eux.

Chaque donnée Xi peut s’exprimer dans la base des vecteurs propres:
Xi= yi1 u1 + yi2 u2 + ….+yin un
Avec yi1=XiT. u1 (y1 scalaire)
Et sera représentée par le nouveau vecteur:

𝑦𝑖1
𝑋𝑖 = ⋮
𝑦𝑖𝑛
La réduction de dimension consiste à ne garder que les première

composantes de ce vecteur pour représenter Xi:
𝑦𝑖1
𝑋𝑖 = ⋮ avec d << n
𝑦𝑖𝑑
On définit l’inertie portée par les d premiers axes par
1  2  ...  d
avec d  n
1  2  3  ...  n

Comment connaître le nombre d’axes à conserver ?
1. Avec un pourcentage d’inertie souhaité a priori

2. On divise l’inertie totale par la dimension initiale pour connaître l’inertie
moyenne par variable. On conserve tous les axes ayant une inertie
supérieure à cette moyenne
3. On observe l’évolution des valeurs propres:
4. Par validation sur une base de validation

Exemples d’ACP sur des images de visages
On dispose d’une base de références de 270 visages,

Chaque visage a pour dimension 38x38=1444 pixels  n=1444
On range tous ces visages dans une matrice de dimension 270x1444.

Chaque visage est considéré comme un exemple de dimension 1444.
On prétraite les données puis on calcule la matrice de covariance de

cette grosse matrice. Elle est de dimension 1444x1444.
On calcule les valeurs propres et les vecteurs propres de cette matrice.

Chaque vecteur propre a pour dimension 1x1444. On peut remettre
chacun d’eux sous la forme d’une matrice de dimension 38*38.
Les 5 premiers vecteurs propres (eigen image) :

Si on ne conserve que ces 5 dimensions, chaque visage Xj de la base

s’exprime comme une combinaison linéaire de ces 5 ‘eigen-image’
Xi= yi1 u1 + yi2 u2 + yi3 u3 + yi4 u4 + yi5 u5
Ainsi, tous les exemples ne seront plus représentés que par un vecteur de
dimension 5.
A partir de ce vecteur, on peut :

 Reconstruire les visages, on aura alors fait de la compression
 Reconnaitre les visages

Reconstruction avec 5 ‘eigen images’

Compression = 288%

Compression = 32%

Compression = 10%

Problème de l’ACP (voir démo)
Démo
Acp_visage \ACP_VISAGE\ACP_face
Eigen_image
Démo
acp

Introduction
Codage rétinien
Filtres de Haar
Classification

Analyse discriminante linéaire
Analyse discriminante linéaire.
Cette méthode tient compte de la répartition des points dans les

classes et essaye de maximiser le ratio entre la variance
inter classe des données et la variance intra classe.
 Supposons que l’on ait un problème à K classes, et les

ensembles de points X1 et X2… XN correspondant, et
X={Xi} i=1…N
 moyenne de chaque ensemble de points et moyenne

totale :
 1, 2, …, K,
  = p1*1 + p2*2+…+ pK*K
Où p1, p2,… pK sont les probabilités de chaque classe

Analyse discriminante linéaire.
Dispersion intra classe:

intra=p1*  1 + p2*  2+…+ + pK*  K
où  1,  2,…  K sont les matrices de covariance des classes
Dispersion inter classe

 inter = p1(1-) (1-)T + p2(2-) (2-)T+…+ pK(K-) (K-)T
On recherche l’axe 𝑢1 tel que la projection des données sur cet axe
maximise le rapport entre la variance inter classe et la variance intra
classe.
La projection des points Xi selon le vecteur 𝑢1 s’exprime par :

𝑦𝑖1 = 𝑋𝑖 𝑇 𝑢1 et 𝑢1 𝑇 𝑢1 = 1
Si la matrice de covariance des données de départ est

 =E{XiT Xi}
dans le nouveau repère, on a

new = E{𝑦𝑖1
𝑇
𝑦𝑖1 }=𝑢1 𝑇 Σ 𝑢1

On recherche l’axe qui maximise le rapport entre la variance inter classe

et la variance intra classe et donc :
𝑢1 𝑇 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1
𝑢1 𝑇 Σ𝑖𝑛𝑡𝑟𝑎 𝑢1
Ceci revient à maximiser 𝑢1 𝑇 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 sous la contrainte 𝑢1 𝑇 Σ𝑖𝑛𝑡𝑟𝑎 𝑢1 = 1 (car

peu importe la norme de 𝑢1 )
Pour cela, on forme le lagrangien dont on annule la dérivée:

L=𝑢1 𝑇 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 − 𝜆 𝑢1 𝑇 Σ𝑖𝑛𝑡𝑟𝑎 𝑢1 − 1
𝜕𝐿 −1
=0 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 = 𝜆Σ𝑖𝑛𝑡𝑟𝑎 𝑢1  Σ𝑖𝑛𝑡𝑟𝑎 Σ𝑖𝑛𝑡𝑒𝑟 𝑢1 = 𝜆𝑢1
𝜕𝑢1
On se ramène de nouveau à un problème aux valeurs/vecteurs propres

et on choisit pour 𝑢1 le premier vecteur propre de Σ𝑖𝑛𝑡𝑟𝑎
−1
Σ𝑖𝑛𝑡𝑒𝑟 .
Les autres axes de projection correspondent aux autres vecteurs propres

de Σ𝑖𝑛𝑡𝑟𝑎
−1
Σ𝑖𝑛𝑡𝑒𝑟

De la même manière que l’ACP, on garde les axes

correspondant aux d premiers vecteurs propres de Σ𝑖𝑛𝑡𝑟𝑎
−1
Σ𝑖𝑛𝑡𝑒𝑟
qui correspondent aux d plus grandes valeurs propres.
Avantage et inconvénient dans démo
Démo
lda

Introduction
Codage rétinien
Filtres de Haar
Classification

Sélection/extraction de caractéristiques
Les méthodes de sélection de caractéristiques peuvent

être classées en trois catégories principales :
• Filter
• Wrapper
• Embedded

Les méthodes filter travaillent en amont de la classification : on
étudie les n dimensions (ou caractéristiques) et on en sélectionne
d en fonction d’un critère donné.
Par exemple, on garde les caractéristiques qui ont la plus forte
corrélation possible avec les étiquettes.
x1
x2
x3
x3
x5
⁞
Filter x9 classifieur
⁞
⁞
⁞
x40
⁞
xn
d caractéristiques
d<<n
n caractéristiques

Avantage des méthodes de type filter

• efficacité calculatoire
Inconvénient des méthodes de type filter
• ne tiennent pas compte des interactions entre caractéristiques et

tendent a sélectionner des caractéristiques redondantes plutôt que
complémentaires.
• ne tiennent pas compte de la performance des méthodes de
classification

Les méthodes wrapper évaluent un sous-ensemble de

caractéristiques par sa performance de classification en utilisant
un algorithme d'apprentissage
x1
x2
Wrapper x3
x3
Algo de x5
⁞
recherche x9 classifieur
⁞
⁞
⁞
classification x40
⁞
xn
d caractéristiques
d<<n
n caractéristiques
La complexité de l'algorithme d'apprentissage rend les méthodes

"wrapper" très coûteuses en temps de calcul  stratégie de
recherche exhaustive impossible

Exemple :
on commence par un ensemble vide de caractéristiques.
A chaque itération, la meilleure caractéristique parmi celles qui restent
est sélectionnée
Avantage des méthodes de type wrapper

Capable de sélectionner des sous-ensembles de caractéristiques de
petite taille qui sont performants pour le classificateur
Inconvénient des méthodes de type filter
• Très longues en temps de calcul car beaucoup d’apprentissages

nécessaires pour sélectionner le bon sous-ensemble de
caractéristiques
• Sous-ensemble dépendant du classificateur choisi

Les méthodes Embedded ou intégrées incorporent la sélection de

variables lors du processus d'apprentissage (boosting, arbre de
décision),
Ces méthodes seront vues dans la suite du cours

Introduction
Prétraitements et Codage
Classification
Introduction
Définition
Généralisation
Rappel sur les probabilités
Estimation des probabilités
Qualité de la base de données
Performance d’un classificateur
Méthodes de classification génératives/discriminatives
Méthode de régression

Introduction
ESPACE DE ESPACE DE
REPRESENTATION DECISION
Reconnaissance des formes

et apprentissage

Introduction
Classifier - Estimer
=
associer une classe C ou une valeur

à un vecteur de caractéristiques X=[x1, x2,… xn ] de dimension n
Vecteur de caractéristique X = forme + variabilité + bruit de mesure

Introduction
Connaissances disponibles
 Informations fournies par un « expert »
 Modèles explicites (méthode structurelle)
 Cas le plus général : base de données étiquetées ou non

Introduction
Classification
Introduction
Définition
Généralisation

Généralisation
Condition requise
 Bonne généralisation :
Capacité du classificateur/estimateur à reconnaître/estimer des

exemples qu’il n’a pas appris
Ne pas apprendre par cœur…

Généralisation
 Bonne généralisation, où est la frontière ?

Introduction
Classification
Introduction
Probabilité, probabilités jointes, probabilités conditionnelles
Règle de Bayes

Rappels sur les probabilités
Il existe deux types de probabilités
 Probabilités discrètes : A est un événement

 0 < P(A) < 1
 p(A) + p(B) + p(C) + … + p(Z) = 1
 p(AB)= p(A|B)*p(B) (probabilité conditionnelle)
 Probabilités continues (densité de probabilité) :

 Ne sont pas majorées par 1 (mais l’aire vaut 1)
 Intégrale au lieu d’une somme

Probabilités jointes
Pour 2 variables x et y, certaines instances de ces

deux variables sont plus fréquentes que d’autres.
Cette information est donnée par la densité de

probabilité jointe de x et y : P(x,y)
y
x
-3
x 10
x y 1.5
1
y x 0.5
0
60
50
40 40
30
20 20
x
110
10
0 0
Cours de Reconnaissance des Formes– Catherine Achard

Marginalisation
On peut retrouver la densité de probabilité d’une

seule variable à partir de la densité de probabilité
jointe par intégration.
Pour les variables continues,
Pour les variables discrètes,

Probabilités Conditionnelles
P(x/y=y*) : probabilité de x sachant que y vaut y*
Cette probabilité conditionnelle peut être estimée

à partir des probabilités jointes :
y
y1
y2
P(x/y=y1)
P(x/y=y2)

Probabilités Conditionnelles
P(x/y=y*) : probabilité de x sachant que y vaut y*
Cette probabilité conditionnelle peut être estimée

à partir des probabilités jointes :
Souvent, on ne spécifie pas la valeur de y* et:
Ceci peut être étendu avec plus de variables :

Indépendance
Si les variables x et y sont indépendantes, alors

Introduction
Classification
Introduction
Probabilité, probabilités jointes, probabilités conditionnelles
Règle de Bayes

Règle de Bayes
Les équations précédentes nous conduisent à :
Qui peut se mettre sous la forme :
Pb : comment estimer des probabilités

connaissant des échantillons ?

Introduction
Classification
Introduction
Introduction
Estimation non paramétriques des probabilités
Histogrammes
Estimation par noyaux
Estimation paramétrique des probabilités
Estimation du maximum de vraisemblance
Loi de Bernouilli
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes, algorithme E.M
Estimation des probabilités
Connaissant un ensemble de N échantillons 𝑥𝑖 générés selon la loi

de probabilité 𝑝(𝑥), comment estimer la densité de probabilité
𝑝(𝑥) ?
Il existe deux grands types d’approches :
• les méthodes non paramétriques

• les méthodes paramétriques (la loi est fixée a priori et on en
recherche les paramètres)

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Estimation non paramétrique
Histogramme (non paramétrique)
Une des méthodes les plus simples consiste à estimer

l’histogramme de l’ensemble de données.
• On divise chaque dimension en cases (bins) de largeur 𝒉

• On compte le nombre d’échantillons 𝑥𝑖 par case

Pb:
- le choix de l’origine peut changer l’estimation de 𝑝(𝑥)
- Comment choisir ℎ ?
𝒑(𝒙) réel
𝒑(𝒙) estimé
Image issue de Pattern Recognition and machine learning – M. Bishop - 2007

En deux dimensions
On peut reprendre la même formulation que précédemment
étendue à une dimension 2 puis 𝑛 dans le cas général,

Problème de l’origine
Problème du choix de h (discrétisation)
Problème des grandes dimensions pour les estimations non

paramétriques
Supposons que l’on ait des données de dimension 20 et que

chaque dimension puisse prendre 5 valeurs, L’histogramme
aura en tout 520=9.1013 cases.
 Il faudra une base de donnée énorme pour estimer

correctement 𝑝 𝑥 . Si la dimension est plus grande, le
problème devient encore plus difficile

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Estimation par noyau (non paramétrique)
Pour remédier au problème de l’origine,
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑′ é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛𝑠 𝑑𝑎𝑛𝑠 [𝑥 − ℎ, 𝑥 + ℎ]

𝑝 𝑥 =
𝑁2ℎ
Où N est le nombre d’échantillons total
Ceci s’exprime mathématiquement en 1D par :
𝑁
1 𝑥 − 𝑥𝑖
𝑝 𝑥 = 𝐾
𝑁2ℎ ℎ
𝑖=1
1 𝑠𝑖 𝑢 < 1
Avec 𝐾 𝑢 =
0 𝑠𝑖𝑛𝑜𝑛
Ceci revient à compter le nombre d’échantillons tombant dans

un hyper-cube de largeur ℎ centré en 𝑥
Cette estimation est continue, elle est faite pour tout x

Kernel Density Estimation (non paramétrique)
Pour remédier aux discontinuités liées à la discrétisation : fenêtres de

Parzen. On estime toujours la densité de probabilité avec:
𝑁
1 𝑥 − 𝑥𝑖
𝑝 𝑥 = 𝐾
𝑁ℎ ℎ
𝑖=1
Mais K() peut être un noyau quelconque,
Exemple avec un noyau gaussien en 2D :
𝑁 2
1 1 𝑥 − 𝑥𝑖
𝑝 𝑥 = 𝑒𝑥𝑝 −
𝑁 2𝜋 1/2 ℎ 2ℎ2
𝑖=1
Ceci revient à placer une gaussienne autour de chaque point et à

sommer leur contribution

Kernel Density Estimation (non paramétrique)
Estimation de la densité de probabilité sur les mêmes données

que pour l’histogramme
- h trop petit  estimation très bruitée
- h trop grand  estimation trop lisse
𝒑(𝒙) réel
𝒑(𝒙) estimé
Démo
Parzen.m
Image issue de Pattern Recognition and machine learning – M. Bishop - 2007

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Estimation paramétrique
On souhaite comme précédemment estimer la densité de

probabilité 𝑝 𝑥 à partir d’une réalisation de N échantillons,
Le problème est très difficile quand on a un faible nombre

d’échantillons de dimension élevée.
La difficulté du problème est réduite si on connait a priori une

forme paramétrique de la loi. Dans ce cas, il n’y a plus qu’à
estimer les paramètres de la loi.
Ce problème est soluble par l’estimation du maximum de

vraisemblance.

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Méthodes de classificationgénératives/discriminatives
Estimation du maximum de vraisemblance

(Estimation paramétrique)
Nous disposons de N échantillons 𝑥𝑖 tirés à partir de la loi

𝑝 𝑥 . D’autre part, 𝑝 𝑥 a une forme connue, dépendant de
paramètres 𝜃 : 𝑝 𝑥 = 𝑓(𝑥, 𝜃)
Nous recherchons les paramètres 𝜃 qui maximise la

vraisemblance des observations définie par:
𝑁 𝑁
𝐿 𝜃 𝑥 = 𝑝(𝑥𝑖 ) = 𝑓(𝑥𝑖 , 𝜃)
𝑖=1 𝑖=1
Il est souvent plus simple de travailler avec le logarithme de

cette vraisemblance appelée log-vraisemblance:
𝑁 𝑁 𝑁
𝑙 𝜃 𝑥 = 𝑙𝑛 𝑝(𝑥𝑖 ) = 𝑙𝑛 𝑝(𝑥𝑖 ) = ln(𝑓 𝑥𝑖 , 𝜃 )

𝑖=1 𝑖=1 𝑖=1

Estimation du maximum de vraisemblance

(Estimation paramétrique)
T
Si 𝜃 = 𝜃1 , 𝜃2 , … , 𝜃𝑝 est un vecteur de dimension p et que △𝜃 =
𝑇
𝜕 𝜕
,…, est l’opérateur gradient, l’estimation de 𝜃 est telle
𝜕𝜃1 𝜕𝜃𝑝
que:
△𝜃 𝑙 = 0
L’estimation du maximum de vraisemblance consiste ainsi à
- Définir la vraisemblance : 𝐿 𝜃 𝑥 = 𝑁
𝑖=1 𝑓(𝑥𝑖 , 𝜃)
- Estimer 𝜃 tq : 𝜃 = max 𝐿 𝜃 𝑥
𝜃

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Loi de Bernouilli (estimation paramétrique)
Si 𝑥 est une variable binaire, alors
𝐵𝑒𝑟𝑛 𝑥 = 1 = 𝜇 et 𝐵𝑒𝑟𝑛 𝑥 = 0 = 1 − 𝜇
Ou encore
𝐵𝑒𝑟𝑛 𝑥 = 𝜇 𝑥 (1 − 𝜇) 1−𝑥
On montre que :
𝔼𝑥 =𝜇 et 𝑣𝑎𝑟 𝑥 = 𝜇(1 − 𝜇)
Et, avec l’estimation du maximum de vraisemblance:
𝑁
1
𝜇= 𝑥𝑖
𝑁
𝑖=1
Ces résultats peuvent être retrouvés par le calcul

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Loi binomiale (estimation paramétrique)
Supposons que l’on tire 𝑁 échantillons binaires selon la

loi de Bernouilli. La variable aléatoire 𝑥 qui compte le
nombre de réalisations de 1 parmi ces 𝑁 échantillons
suit une loi binomiale de paramètres 𝑁 et 𝜆 .
𝑥 peut donc prendre toutes les valeurs entières de 0 à
𝑁 et
𝑁!
𝑝 𝑥 = 𝜆𝑥 (1 − 𝜆)𝑛−𝑥
𝑁 − 𝑥 ! 𝑥!
On montre alors que :
𝔼 𝑥 = Nλ et 𝑣𝑎𝑟 𝑥 = 𝑁𝜆 1 − 𝜆
Ces résultats peuvent être retrouvés par le calcul

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Loi uniforme (estimation paramétrique)
La variable aléatoire continue 𝑥 suit une loi uniforme

sur l’intervalle [a,b] si:
1
𝑝 𝑥 =
𝑏−𝑎
On a alors
𝑏−𝑎 𝑏−𝑎 2
𝔼𝑥 = et 𝑣𝑎𝑟 𝑥 =
2 12

Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Loi normale mono variable (estimation paramétrique)
Elle est définie par :

1 − 𝑥−𝜇 2
𝑝 𝑥 = 𝒩(𝑥 𝜇, 𝜎) = 𝑒 2𝜎2
2𝜋𝜎
Et : 𝔼𝑥 =𝜇 et 𝑣𝑎𝑟 𝑥 = 𝜎 2
L’estimation du maximum de vraisemblance conduit à:

1 𝑁 1 𝑁
𝜇= 𝑖=1 𝑥𝑖 et 𝜎 2 = 𝑖=1 𝑥𝑖 − 𝜇
2
𝑁 𝑁

Loi normale multi variables (estimation paramétrique)
Pour des données x de dimension n , elle est définie par :
1 12
− 𝑥−𝜇 𝑇 Σ−1 𝑥−𝜇
𝑝 𝑥 = 𝒩(𝑥 𝜇, Σ) = 𝑒 2
2𝜋 𝑛/2 Σ 1/2
Où 𝜇 est un vecteur de dimension 𝑛 et Σ une matrice de
dimension 𝑛x 𝑛.
On a alors :
𝑇
𝔼𝑥 =𝜇 et cov 𝑥 = 𝔼 𝑥 − 𝔼 𝑥 𝑥−𝔼 𝑥 =Σ
L’estimation du maximum de vraisemblance conduit à:
1 𝑁 1 𝑁 𝑇
𝜇= 𝑖=1 𝑥𝑖 et Σ = 𝑖=1 𝑥𝑖 − 𝜇 𝑥𝑖 − 𝜇
𝑁 𝑁
Σ est la matrice de covariance. Mais que représente-t-elle





Introduction
Classification
Introduction
Introduction
Histogrammes
Loi binomiale
Loi uniforme
Loi normale
Mixture de gaussiennes (estimation paramétrique)
Centaines densités de probabilités ne peuvent pas

être modélisées par une gaussienne. On peut alors
utiliser une mixture de gaussiennes (somme
pondérée de gaussiennes)
Images issue de Pattern Recognition and machine learning – M. Bishop - 2007

De manière plus formelle,
𝐾
𝑝 𝑥 = 𝑘=1 𝜋𝑘 𝒩(𝑥 𝜇𝑘 , Σ𝑘 )
Avec 0 ≤ 𝜋𝑘 ≤ 1 et 𝐾
𝑘=1 𝜋𝑘 =1
Mais comment, à partir d’un ensemble d’échantillons générés à

partir de , 𝑝 𝑥 estimer les paramètres 𝜋𝑘 , 𝜇𝑘 𝑒𝑡 Σ𝑘 ?
Habituellement, on utilise le maximum de vraisemblance. Ici,

cette méthode n’aboutit pas à une formulation analytique  on
utilise une approche numérique appelée ‘Expectation
Maximization’ ou ‘EM’

Idée : ajouter une variable cachée ℎ𝒊𝒌 (non observable) précisant la

probabilité d’appartenance de l’exemple 𝒙𝒊 à la gaussienne 𝒌.
Initialisation : Initialiser de manière aléatoire les paramètres 𝜋𝑘 , 𝜇𝑘 𝑒𝑡 Σ𝑘

Étape E : On utilise les paramètres courants des gaussiennes pour
estimer l’appartenance de chaque exemple 𝑥𝑖 à chaque
gaussienne 𝐺𝑘 :
𝒩(𝑥𝑖 𝜇𝑘 , Σ𝑘 )𝜋𝑘
ℎ𝑖𝑘 =
𝑗 𝒩(𝑥𝑖 𝜇𝑗 , Σ𝑗 )𝜋𝑗
 Étape M : connaissant la variable cachée (appartenance), ré-
estimer les paramètres du modèle afin de maximiser la
vraisemblance:
𝑖 ℎ𝑖𝑘 𝑥𝑖 𝑖 ℎ𝑖𝑘 𝑥𝑖 −𝜇𝑘 𝑥𝑖 −𝜇𝑘 𝑇
𝜇𝑘= Σ𝑘= 𝜋𝑘= 𝑖 ℎ𝑖𝑘 et 𝑘𝜋 𝑘 =1
𝑖 ℎ𝑖𝑘 𝑖 ℎ𝑖𝑘
Démo
 Itérer E+M jusqu’à convergence
EMclassique.m

Comment déterminer le nombre de gaussiennes

On va rechercher à avoir une vraisemblance très grande :
𝑁 𝑁 𝐾
𝐿 𝜃 𝑥 = 𝑝(𝑥𝑖 ) = 𝜋𝑘 𝒩(𝑥 𝜇𝑘 , Σ𝑘 )
𝑖=1 𝑖=1 𝑘=1
Problème :
Plus il y aura de gaussiennes, plus la vraisemblance sera grande
 Pénalisation par la complexité (nombre de gaussiennes 𝑲)
 Plus il y aura de données ( 𝑵 ), plus on peut se permettre de
gaussiennes
 Bayesian Information Criterion (BIC) à minimiser :
𝐾
𝐵𝐼𝐶 𝐾 = − ln 𝐿 𝜃 𝑥 + ln(N)
2

Mixture de gaussiennes (estimation

paramétrique)
Critère BIC
données Critère BIC
Nombre de lois

Introduction
Classification
Introduction

Qualité de la base de données
Plusieurs problèmes apparaissent:
Données inadaptées
Données aberrantes (outliers)
Données manquantes

Données inadaptées: aucune cohérence n’apparaît
Classe A
Classe B

Données aberrantes

Données manquantes : les données ne recouvrent pas

l’ensemble des configurations
Classe A
Classe B
Données à classer

Introduction
Classification
Introduction
Matrice de confusion
Taux de bonne classification avec et sans cout
Courbe ROC

Performances d’un classificateur
En RdF, 3 bases :
-Une base de référence ou d’apprentissage utilisée pour

apprendre le classificateur
-Une base de validation pour déterminer les paramètres du

classifieur
-Une base de test : exemples jamais vus au préalable pour

évaluer le classificateur
Pourquoi ?

En fonction des statistiques sur la base de test, on va pourvoir

définir:
facteur de
qualité
% formes bien classées
% formes mal classées étude des
% formes non classées confusions
critères de rejet

Matrice de confusion :
décision
étiquette 1 2
e11 = Nb d’exemples e12 = Nb d’exemples

1 réellement 1 réellement 1
étiquetés 1 étiquetés 2
e21 = Nb d’exemples e22 = Nb d’exemples

2 réellement 2 réellement 2
étiquetés 1 étiquetés 2

décision 1 2
étiquette
1 90 6
2 20 104
Exercice
Quel est le nombre d’exemples de la base de test ?
Que représente le chiffre 20 ?
Que représente le chiffre 104 ?
Quel est le taux de bonne reconnaissance?

Introduction
Classification
Introduction
Courbe ROC

Taux de bonne classification sans coûts
Sans rejet
Nb d'exemples bien classés

Taux de bonne classification Tbs 
Nb d'exemples
Taux d’erreur Tes  1  Tbs
Avec rejet
Nb d'exemples non classés
Taux de rejet Tr 
Nb d'exemples
Taux de bonne classification Nb exemples bien classés

𝑇𝑏𝑎 = =
Nb exemples
Taux d’erreur
Tea  1  Tba  Tr

Taux de bonne classification
Problème :
Il s’agit d’une mesure faible qui ne tient pas compte de
la distribution des classes
Exemple :
En diagnostic médical, très peu de personnes sont
malades (5%?). On a donc des taux très bons en disant
que la personne est saine. Or, ce que l’on souhaite, c’est
ne pas rater ces 5% et donc, associer un mauvais taux
au classificateur qui dirait toujours ‘personne saine’.
Exemple sur 100 personnes
malade sain
malade 0 5
Tbs=95%
sain 0 95

Taux de bonne classification
Solution :
On tient compte de la répartition des classes et on construit une
matrice de confusion normalisée
décision 1 2
étiquette
1 e11/N1 e12/N1
2 e21/N2 e22/N2
N1 : Nombre d’exemples de la classe 1

N2 : Nombre d’exemples de la classe 2

Taux de bonne classification sans coûts
Le nouveau taux de bonne classification devient

 Nc eii 
tb     / Nc
 i 1 N i 
Où eii est le nombre d’exemple de la classe i classés i et Nc est le

nombre de classes
Et le nouveau taux d’erreur :

 Nc 1  eii 
te     / Nc  1  tb  tr
 i 1 N i 
Exemple du médecin :
Matrice de confusion normalisée
e12/N1
malade sain tb=0.5
malade 0 1 e22/N2 te=0.5
sain 0 1

Problème 2 : Les performances dépendent des applications.
Exemple : en surveillance médicale, on préfère détecter à tort

des maladies plutôt que de risquer d’en laisser passer  on
admet beaucoup de fausses alarmes mais pas de manque de
détection
 On introduit une matrice des coûts

Taux de bonne classification avec coûts

Matrice des coûts:
décision 1 2
étiquette
1 Coût 1,1 Coût 1,2
2 Coût 2,1 Coût 2,2
Le taux de classification devient : Problème :

Comment définir les coûts
  ???
 c ii e Coutii   eij Coutij 
tb    i j
 / Nc
 i 1 Ni 
 
 
Certains coûts peuvent (et doivent être négatifs)

Introduction
Classification
Introduction
Courbe ROC

Comment comparer plusieurs classificateurs indépendamment du seuil ?

Problèmes à 2 classes
On définit les :
Vrai Positif (True Positive)
Vrai Négatif (True Négatif)
Faux Négatif (False Négatif)
Faux Positif (False Positif)
Trouvé par le classificateur
+ -
réel + TP FN
- FP TN

Comment comparer plusieurs classificateurs indépendamment du seuil ?

Problèmes à 2 classes
Négatifs
Positifs
TN
TP
FN FP

Courbe ROC (Receiver Operating Characteristic )

Pour des problèmes binaires
décision + - Vrai Positif (TP)

Vrai Négatif (TN)
étiquette Faux Négatif (FN)
+ TP FN Faux Positif (FP)
- FP TN
TP
Sensibilité   Parmi les positifs de la base, % de corrects
TP  FN
TN
Spécificité   parmi les négatifs de la base, % de corrects
FP  TN
Un bon classificateur devra être
sensible : détecter les positifs
spécifique : ne pas détecter aussi les négatifs
Généralement, plus un classificateur est sensible, moins il est

spécifique et vice versa

Courbe ROC (Receiver Operating Characteristic ) :
Sensibilité = f(1-spécificité)
TP
Sensibilité   Parmi les positifs de la base, % de corrects
TP  FN
TN
Spécificité   parmi les négatifs de la base, % de corrects
FP  TN
Courbe Roc Toutes les courbes ROC

passent par l’origine et
Point par le point (1,1)
idéal
Sensibilité
1-spécificité
Cas multi-classes
Matrice de confusion:
Trouvé par le classificateur
réel C0 C1 C2
C0 70 11 35
C1 17 73 8
C2 45 5 53
Somme des éléments sur la diagonale

Taux de reconnaissance=
Somme des éléments

Introduction
Classification
Introduction
Introduction
Méthode discriminative (K-ppv)
1ppv
Kppv
Kppv et distance d’édition
Distance euclidienne et distance de Mahalanobis au centre
des classes
LVQ
K-moyennes
Dendrogramme
Méthode discriminative (arbre de décision)
Méthode générative : classification bayésienne
Introduction
Théorie de la décision

Méthodes génératives/discriminatives
3 approches différentes (Bishop 2007):
• Approche générative
• Approche discriminative
• Fonction discriminante

Introduction
Approche générative : déterminer les densités de probabilités

conditionnelles 𝑝(𝑥|𝐶𝑘 ) et les densités de probabilités a priori 𝑝(𝐶𝑘 ) pour
chaque classe individuellement. Puis utiliser le théorème de Bayes :
𝑝(𝑥|𝐶𝑘 )𝑝(𝐶𝑘 )
𝑝(𝐶𝑘 |𝑥) =
𝑝(𝑥)
Où le dénominateur est un terme de normalisation :
𝑝(𝑥) = 𝑝(𝑥|𝐶𝑘 )𝑝(𝐶𝑘 )

𝑘
Connaissant 𝑝(𝐶𝑘 |𝑥) , il est facile de trouver la classe de 𝑥.
Cette approche est dite générative car, connaissant 𝑝(𝑥|𝐶𝑘 ), il est facile de
générer des données dans l’espace des paramètres
Approche discriminative : Déterminer directement 𝑝(𝐶𝑘 |𝑥) et décider de la

classe
Fonction discriminante: trouver une fonction 𝑓(𝑥) reliant directement les

données aux classes. Ex : pour un problème a deux classes, 𝑓(𝑥) est une
fonction à valeur binaire tq 𝑓(𝑥) = 0 pour la première classe et 𝑓(𝑥) =
1 pour la seconde (aucune notion de probabilité)

Raisonnons sur un exemple : on souhaite déterminer la langue parlée par

une personne.
Approche générative : on apprend chaque langage puis on détermine à quel langage la

parole appartient (peut fonctionner avec une seule langue pour savoir si la personne parle
français ou non).
Approche discriminative: on apprend les différences linguistiques entre les langages,

sans apprendre le langage. Beaucoup plus simple !

Avantage/inconvénient des 3 approches
Approche générative
• 𝑝(𝑥) est estimée. On peut considéré 𝑝(𝑥) comme la probabilité que 𝑥
soit bien modélisé par le modèle. Ceci permet de faire du rejet.
• 𝑝(𝑥|𝐶𝑘 ) peut être utilisée pour générer des données
• Permet à un système d’utiliser une seule classe. Ex : la teinte chaire
• Trouver 𝑝(𝑥|𝐶𝑘 ) pour chaque classe est très couteux en temps de calcul,
surtout quand 𝑥 est de grande dimension
• Nécessite une grande base de données, surtout quand 𝑥 est de grande
dimension
Approche discriminative
• Il est beaucoup plus rapide de déterminer 𝑝(𝐶𝑘 |𝑥) car la dimension de
𝐶𝑘 est bien souvent beaucoup plus faible que celle de x
Fonction discriminante
• Modélisation et décision sont combinées dans un seul apprentissage
• 𝑝(𝐶𝑘 |𝑥) n’est pas estimé. On ne pourra donc (i) ni faire du rejet; (ii) ni
combiner plusieurs classificateurs; (iii) ni compenser différentes
probabilités a priori des classes

Méthodes génératives Méthodes discriminatives

Classification bayésienne K plus proches voisins
Modélisation gaussienne Arbres de décision
GMM (Gaussian Mixture Régression linéaire
Model)
HMM (Hidden Markov Model) SVM (Support Vector Machine
Réseaux bayésiens RVM (Relevance Vector

Machine)
MRF (Markov Random Fields) Réseaux de neurones
CRF (Conditional Random
fields )

Exemple : classification binaire
(Computer vision: models, learning and inference, Simon J.D. Prince 2012)
On souhaite estimer la teinte chaire (0/1) à partir de la quantité de rouge
𝑥 est une variable continue (quantité de rouge)
2 classes : teinte chaire ou non
Approche générative :
• On modélise 𝑝(𝑥|𝐶0 ) et 𝑝(𝑥|𝐶1 ) par des gaussiennes (𝜇0 , 𝜎0 , 𝜇1 , 𝜎1 )
• On modélise 𝑝(𝑥|𝐶0 ) par une loi de Bernouilli de paramètre 𝜆
• On utilise les données d’apprentissage ( 𝑥𝑖 , 𝐶𝑖 ) pour estimer les
paramètres (𝜇0 , 𝜎0 , 𝜇1 , 𝜎1 , 𝜆)
• On estime 𝑝(𝐶0 |𝑥) et 𝑝(𝐶1 |𝑥) en utilisant Bayes
Approche discriminative:
• On modélise 𝑝(C|𝑥) par une loi de Bernouilli dont le paramètre 𝜆
1
dépend de x. Comme 0 < 𝜆 < 1 , on pose 𝜆 = et donc,
1+exp(−Φ0 −Φ1 𝑥)
1
𝑝 C 𝑥 = Bern
1+exp (−Φ0 −Φ1 𝑥)
• On utilise les données d’apprentissage ( 𝑥𝑖 , 𝐶𝑖 ) pour estimer les
paramètres (Φ0 , Φ1 ) de 𝑝(𝐶0 |𝑥) et 𝑝(𝐶1 |𝑥) (4 paramètres)
• Pour un 𝑥 donné, on estime directement 𝑝(𝐶0 |𝑥) et 𝑝(𝐶1 |𝑥)

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Méthode discriminative : 1ppv
 Données de départ :
Base de référence : ensemble de vecteurs de caractéristiques Xi et leur
classe Ci
 Objectif :
Base de test : pour un nouveau vecteur X, trouver sa classe
 Méthode :
 Calculer la distance entre X et tous les exemples de la base de
référence
 Déterminer le vecteur le plus proche.
 Affecter à X la classe de ce vecteur

Calcul de distance
En dimension 2, chaque exemple 𝑥𝑖 est caractérisé par un
vecteur de dimension 2 [𝑥 𝑦]𝑇 et est donc représenté dans le
plan :
Vecteurs de la
𝑥? classe C2
Vecteurs de la
classe C1
𝑥

Calcul de distance
En dimension 3, chaque exemple 𝑥𝑖 est caractérisé par un vecteur de dimension

3 : [𝑥 𝑦 𝑧]𝑇 et est donc représenté dans l’espace :
𝑥?
Vecteurs de la
classe C2
Vecteurs de la
classe C1

Calcul de distance
En dimension n, chaque exemple 𝑥𝑖 est caractérisé par un vecteur de
dimension n et peut être représenté dans un système de dimension 𝑛 :
Forme
Vecteur de
caractéristiques
de dimension 𝑛

Signification géométrique
Les classes sont définies par

la réunion des domaines
d’influence des références
La résolution spatiale des

frontières est liée au nombre
de références et à leur
densité

 Avantages :
 Pas d’hypothèses
 Simple à mettre en œuvre
 Incrémental
 tend vers l’erreur optimale
 Inconvénients :
 Quantité de calculs quasi-proportionnelle au
nombre d’exemples
 Pas d’extraction d’information utile

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Méthode discriminative : Kppv
Algorithme des k ppv (plus proches voisins)
1. Calculer la distance entre 𝑥 et tous les exemples de la

base de référence
2. Déterminer les 𝑘 vecteurs les plus proches

Puis classe majoritaire
 on peut faire du rejet

7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
-1 -1
-1 0 1 2 3 4 5 6 7 -1 0 1 2 3 4 5 6 7
k = 1, disp = 0.3 k = 1, disp = 0.7

7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
-1 -1
-1 0 1 2 3 4 5 6 7 -1 0 1 2 3 4 5 6 7
k = 11 k= 21
disp = 0.7 disp = 0.7

Dilemme biais/variance
k faible k grand
Bonne résolution des frontières Mauvaise résolution des

entre classe frontières entre classe : lissage
des frontières
Très sensible au bruit sur les

échantillons de la base de Peu sensible au bruit sur les
référence échantillons de la base de
référence

Comment choisir k ?
En testant, il faut alors utiliser une nouvelle base : une base de

validation pour ne pas employer la base de référence pour
mettre au point le classificateur
3 bases :
-Base de référence où sont stockés les exemples utilisés dans

l’algorithme des k-ppv
-Base de validation qui sera utilisée pour optimiser le paramètre

k
-Base de test qui évaluera sur des données jamais observées au

préalable les performances du classificateur

Démo
Démo
D\Donnees\Doc-word\Enseignement\Rdf\codes
rdf\codes\demo_ecrit
ppv_char.m
Démo
Ppv.m

Exercice
Noir : base de référence

Blanc : base de test
Donner la matrice de confusion

avec l’algorithme du 1ppv

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Méthode par discrimination : Kppv
Lorsque les exemples sont codés de manière structurelle, par une suite
de symbole, la distance euclidienne n’a aucun sens.
On fait alors appel à la distance d’édition.
Par exemple, pour un codage de Freeman : 8 états
2
3 1
4 0
3
5 7
23445667001 234 5667 01 6
Comment calculer la distance entre les deux chaines constituées de

suites de symboles de longueur différentes ?

Comparaison de chaînes de longueurs éventuellement

différentes
Exemple : x = aabcb y = aababd

Déterminer la suite des transformations élémentaires pour
passer de x à y
Supprimer un symbole
Insérer un symbole
Changer un symbole ( S + I)
- affecter un coût à chaque transformation
 distance = somme des coûts

aabcb C
S poids de l’arc
aabab
I
abcb I
aabcbd C
C
aababd
I
I
abab
ababd
arcs sommets
Plusieurs chemins pour passer d’une chaîne à l’autre

 Graphe orienté et valué
 Choix : chemin de coût minimum

On note C(u,v) le coût pour changer u en v et $ l’élément

neutre
- x.$ = $.x = x pour tout mot x
- Insertion de u = substitution de $ par u  C($,u)
- Suppression de u = substitution de u par $  C(u,$)
- Changement
Matrice des coûts : C(u,u) = 0 et C(u,v) > 0
(permet de corriger les problèmes de segmentation si la
différence de coût est faible pour une erreur donnée)

Calcul par récurrence des distances cumulées D(i,j)

Matrice des coûts C() à initialiser a priori
X = a1a2a3…an
Y = b1b2b3…bm
X(i) = a1a2a3…ai
Y(j) = b1b2b3…bj
x(0) = y(0) = $
D(0,0) = d($,$) = 0
D(i-1,j) + C(ai,$)
D(i,j) = min D(i,j-1) + C($,bj)
D(i-1,j-1) + C(ai,bj)

On peut aussi avoir des suites de caractères numériques :
Discrétisation Poids du codage Amplification du

(ex : 8 directions) très important bruit par le codage
Codage
des vecteurs
Attributs Approche moins Plus grande

numériques structurelle complexité
 programmation dynamique
D(i-1, j) + C(ai,bj)
D(i,j) = min D(i, j-1) + C(ai,bj) C(ai,bj) = || bj – ai ||
D(i-1, j-1) + 2C(ai,bj)

Application à la saisie de mot sur les téléphones portables :
semaine ?
Drmain demain ?
Quelle matrice de
cout ?
demains ?

Accélération des k-PPV
2 solutions
 Réduction de la dimension de chaque exemple

 ACP
 LDA
 Réduction de taille de la base de référence
 On ne représente plus chaque classe que par sa
moyenne
 Génération de prototypes : LVQ, K-moyennes
 Dendrogramme
 Dilemme robustesse/accélération

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Les classes sont représentées par leur moyenne
2 solutions :
• On ne conserve que les moyennes (centres) 𝜇𝑐 des classes

 On calcule les distances euclidiennes de(𝑥𝑖 , 𝜇𝑐 ) entre l’exemple
𝑥𝑖 et tous les centres 𝜇𝑐
 L’exemple est classé à la classe de la distance la plus faible
• On conserve les moyennes 𝜇𝑐 et les matrices de covariance Σ𝑐 de chaque

classe
 On calcule les distances de Mahalanobis dM(𝑥𝑖 , c) entre l’exemple
𝑥𝑖 exemple et les classes c avec
𝒅𝑴 𝒙𝒊 , 𝒄 = (𝒙𝒊 − 𝝁𝒄 )𝑻 𝜮−𝟏
𝒄 (𝒙𝒊 − 𝝁𝒄 )
 L’exemple est classé à la classe cde la distance la plus faible
 Rq : Si Σ=Identité, on retrouve la distance euclidienne

Comparaison – distance euclidienne – distance de Mahalanobis
Les deux points A et B

sont à la même distance
euclidienne de O
Pas logique
Les deux points A et B

sont à la même distance
de Mahalanobis de O
Démo
mahal.M
http://www.aiaccess.net/French/Glossaires
Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Sélection des références LVQ
LVQ : Learning Vector Quantization
 Méthode supervisée, itérative :

 Génération d’un ensemble de prototypes quasi optimaux
Minimise la variance intra-classe
Maximise variance inter-classe
1.Initialisation aléatoire des prototypes (noyau)

2.Pour chaque vecteur x, trouver le prototype p le plus proche
 Si p et X sont de la même classe, rapprocher p de x
 sinon, éloigner p de X
p(t+1) = p(t)  a(t)[X – p(t)]
où a(t) : pas d’apprentissage
3.Retour en 2 ou arrêt

LVQ, Itération 1 LVQ, Itération 2

LVQ, Itération 10

LVQ, Itération 1
LVQ, Itération 10


Sélection des références LVQ

Démo
Lvq.m
Initialisation aléatoire :
Pb n°1 : Nombre de prototypes
 performances
Pb n°2 : Position des prototypes

 convergence

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Génération de prototypes: k-moyennes (k-means)

Démo
Kmeans.m
 Méthode non supervisée, itérative. Travaille
indépendamment sur chaque classe :
 Initialisation aléatoire des prototypes p1,…, pk
 Affecter chaque exemple x au prototype pi le plus

proche
 Calculer les nouveaux prototypes : moyenne des

exemples de « leur » groupe
 Retour en 2 si pas idempotence
 Pb : nombre de prototypes optimaux ?

Génération de prototypes: k-moyennes (k-means)
it=0 it=1
it=2 it=3

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Dendrogramme
Méthode non supervisée.
Travaille indépendamment sur chaque classe
Classification ascendante hiérarchique

 Regroupement des données suivant un
critère de distance

Dendrogramme

Dendrogramme
 Détermination des prototypes : coupure dans la

hiérarchie
3 prototypes
7 prototypes

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Méthode discriminative (arbre de décision)
Exemple : arbre de décision pour décider si on regarde la TV ou si on va

se promener
Quel temps ?
couvert soleil
pluie
Température ? Voisin présent ?
<10 >10 non TV

oui
TV Promenade TV Promenade

Un arbre de décision permet de classer chaque exemple avec un

ensemble de règles.
Manipulation facile de données symboliques.
Une suite de décisions permet de partitionner l’espace en régions
homogènes en terme de classe
La difficulté consiste à créer l’arbre à partir de la base d’exemple

étiquetée

On dispose d’une base de références composée:

- des réponses au questions : vecteurs de paramètres
- de la classe associée à chaque exemple
Problème :
Trouver l’ordre le plus cohérent dans l’agencement des
questions: il n’y a pas forcement besoin de tester tous les
paramètres à chaque fois

Initialisation : tous les exemples sont dans le même nœud X

Procédure construit_arbre(X)
Si X est une feuille Pb1
o Affecter une classe à X Pb2
Sinon
o Choisir la meilleure question et partitionner X en X1 et X2 Pb3
o Construit_arbre(X1)
o Construit_arbre(X2)
Fin si

Cet algorithme est très général. Plusieurs algorithmes vont en

découler en fonction :
1. De la façon de décider quand un nœud constitue une

feuille (Pb1)
2. De la façon d’affecter une classe à une feuille (Pb2)
3. De la façon de choisir la meilleure question (Pb3)

Problème 1:
On décide qu’un nœud constitue une feuille :
 Quand tous les exemples du nœud appartiennent à la
même classe
 Quand tous les exemples du nœud ont le même vecteur

de paramètre
 Quand le nombre d’exemples du nœud est inférieur à un

seuil
 Quand une classe est largement majoritaire dans le nœud
 En contrôlant les performances en généralisation sur une

base de validation

Problème 2:
On affecte au nœud la classe majoritaire de ses exemples

Problème 3:
Comment choisir la meilleure question pour partitionner X ?

On utilise la théorie de l’information.
Entropie sur X conditionnée par q
H ( X / q)   p( X  u, q  v )log2 ( p( X  u / a  v ))
u ,v
H(X/q) : quantité d’information contenue dans X si on

connaît q.
On va rechercher la question q qui minimise cette quantité

d’information (on voudrait que q nous amène toutes les
connaissances)

Dans le cas de données discrètes multi-variées pouvant

prendre plus de 2 valeurs (rouge, vert bleu, jaune,…), on
étend le calcul de l’entropie conditionnelle. On pourra
alors être amené à avoir des nœuds non binaires
Dans le cas de variables continues, on va estimer pour

chaque variable le seuil qui sépare au mieux les
exemples. On se ramène ainsi à un cas binaire.

Branches peu représentatives qui nuisent à la généralisation

générées par des exemples atypiques
On essaie de les supprimer par élagage en utilisant une

base de validation
Construction d’une forêt d’arbre aléatoire

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Méthode générative : classification bayésienne
On dispose d’un exemple 𝑥 que l’on souhaite classer dans une des classes 𝐶𝑘
𝑃 𝑥|𝐶𝑘 𝑃(𝐶𝑘 )
𝑝 𝐶𝑘 𝑥 =
𝑃(𝑥)
 𝑝(𝐶𝑘) : probabilité a priori (probabilité de la classe 𝐶𝑘 avant

d’observer x)
 𝑝(𝑥|𝐶𝑘) : vraisemblance des observations
 𝑝(𝑥) : constante de normalisation: 𝑝(𝑥) = Σ 𝑝(𝑥|𝐶𝑘) 𝑝(𝐶𝑘)
 𝑝(𝐶𝑘|𝑥) : probabilité a posteriori
Si le but est de minimiser la chance d’affecter 𝑥 à une mauvaise

classe, intuitivement, on choisit la classe avec la plus grande
probabilité a posteriori 𝑝(𝐶𝑘|𝑥). Cette décision est correcte mais
d’autres décisions peuvent être prises

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Décision par minimisation de l’erreur de classification
Dans un problème à 𝐾 classes, l’erreur de classification est donnée

par:
𝑃𝑒𝑟𝑟𝑒𝑢𝑟 = 1 − 𝐾
𝑘=1 𝑝(𝑑é𝑐𝑖𝑑𝑒𝑟 𝑥 ∈ 𝐶𝑘 , 𝑥 ∈ 𝐶𝑘 )dx
=1- 𝑘=1 𝑥 𝑎𝑓𝑓𝑒𝑐𝑡é à𝐶𝑘 𝑝(𝑥, 𝐶𝑘 )dx
𝐾
Pour minimiser 𝑃𝑒𝑟𝑟𝑒𝑢𝑟 il faut maximiser le second terme et donc

maximiser la valeur intégrée. On classera donc chaque exemple 𝑥
à la classe avec le plus grand 𝑝(𝑥, 𝐶𝑘 )
Or, 𝑝(𝑥, 𝐶𝑘 )=𝑝(𝐶𝑘 |𝑥)p(x)
Et comme 𝑝(𝑥) ne dépend pas de 𝑘,
on affecte 𝒙 à la classe qui maximise 𝒑(𝑪𝒌 |𝒙)

Décision par minimisation d’un coût
Considérons une application médicale de détection de

cancer.
• Si un patient sain est diagnostiqué cancéreux, un stress et
d’autres examens complémentaires vont apparaitre
• Si un patient malade n’est pas diagnostiqué, les
conséquences sont beaucoup plus graves car la maladie
va continuer à évoluer
 Les conséquences des erreurs ne sont pas les mêmes
 Introduction d’une matrice de coûts avec 𝐿𝑘𝑗 , le coût
d’affecter un exemple de la classe 𝑗 à la classe 𝑘
 Le coût total à minimiser va être donné par:

𝐶= 𝑘 𝑗 𝑥 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é à𝐶𝑘 𝐿𝑘𝑗 𝑝(𝑥, 𝐶𝑘 ) 𝑑𝑥
Or, comme précédemment, 𝑝(𝑥, 𝐶𝑘 )=𝑝(𝐶𝑘 |𝑥)p(x). Pour minimiser

𝐶, il faut minimiser 𝑘 𝐿𝑘𝑗 𝑝(𝑥, 𝐶𝑘 ) pour tout 𝑥
On affecte x à la classe qui minimise 𝐤 𝐋𝐤𝐣 𝐩(𝐱, 𝐂𝐤 )

Décision avec rejet
Comme 𝑝(𝐶𝑘 |𝑥) est connu, nous pouvons rejeter :
• les exemples tq la valeur maximale de 𝑝(𝐶𝑘 |𝑥)<seuil
• les exemples qui ont leur deux plus grandes probabilités a

posteriori similaires

Introduction
Classification
Introduction
Introduction
1ppv
Kppv
des classes
LVQ
K-moyennes
Dendrogramme
Introduction

Classification
Une fois la règle de décision choisie, il reste à estimer

 les vraisemblances de chaque classe p(x/Ck)
 les probabilités a priori P(Ck)

Estimation des densités a priori

 En l’absence d’informations particulières, les supposer
égales :
1
𝑝 𝐶𝑘 = où 𝐾 est le nombre de classes
𝐾
 Si l’échantillon d’apprentissage est représentatif, utiliser un

estimateur fréquentiel :
𝑁𝑘
𝑝 𝐶𝑘 = où 𝑁𝑘 est le nombre d’exemples de la classe 𝑘
𝑁
et 𝑁 le nombre d’exemple total

Estimation de la vraisemblance
La vraisemblance de chaque classe Ck p(x/Ck) peut être estimée par

une des méthodes d’estimation de densité de probabilité introduite
précédemment (estimation paramétrique ou non paramétrique)

Reconnaissance des formes et apprentissage
Introduction
Méthode discriminative utilisant les KppV
Méthode générative

Méthode de régression
Reconnaissance vs estimation
étiquette Variable continue
Exemples
Reconnaître des Estimer la position de la tête

visages Θ, ϕ

ESPACE DE
REPRESENTATION ESPACE DE DECISION
OU CONTINU
ESPACE DES PARAMETRES
Estimation

Introduction
Classification
Introduction

Méthode discriminative utilisant les KppV
Entrée :
Une base de référence (vecteur de codage) associé à une variable
continue e (décision)
Sortie :
Pour un exemple X inconnu, estimer la variable e.
Pour retrouver une estimation, on compare le descripteur de la forme

inconnue à ceux des exemples de la base.
L’estimation est faite en prenant la valeur e de l’exemple le plus

proche.
On peut aussi choisir de garder les K exemples les plus proches, puis
interpoler avec une moyenne ou une médiane des valeurs de e de
ces exemples

e=0.9 e=???
e=1.0
e=1.3
e=1.3
e=1.6
e=1.4
e=1.3
e=1.6
e=1.7

Exemple : Estimation de la courbure de la route à 18m

devant un véhicule

Orientation
indésirable Orientation
gardée
Ligne de fuite
26 mètres
Bande utile
10 mètres

Votes coté Votes coté

gauche droit
Ligne de fuite
26 mètres
10 mètres


Angle au volant
Numéro d’image

Base de 4900 images acquises sur un circuit
On partage la base en 2 : base de références et base de test
Pour chaque image test  codage  recherche des K codes les plus proches
dans la base de références  K angles au volant
Puis moyenne ou médiane de ces valeurs

moyenne
Erreur
Taille du codage
Angle au volant réel et estimé à chaque image
Numéro d’image

Introduction
Classification
Introduction

Apprentissage sur la base d’exemple pour construire une fonction e=f(X) qui
prédit les valeurs de e en des points arbitraires X non présents dans la base
d’entrainement.
Les données d’entrée X sont les vecteurs de paramètres (code) de dimension n.

La variable de sortie e est continue, de dimension n1<<n
Pour les modèles linéaires, la fonction est modélisée par une combinaison de
fonctions de base, et l’apprentissage sert à déterminer les coefficients de cette
combinaison.
Autre apprentissage : réseau de neurones
Attention à la complexité des modèles et au sur-apprentissage !

e( X )  0  11 ( X )  22 ( X )  ...  K  K ( X )
Cette équation n’implique pas que e est une combinaison linéaire

des données d’entrée X mais que e est une fonction linéaire des
paramètres que l’on veut estimer ωi
L’emploi des fonctions de base Φi introduit une non linéarité entre X

et e
Plusieurs fonctions de base possible.

Le plus classique : gaussiennes centrées sur les points
d’apprentissage (autant de fonctions de base que de points
d’apprentissage)
2
X  Xi

i ( X )  e 2 2

L’apprentissage consiste à rechercher les poids (ω) qui minimisent l’erreur au sens
des moindres carrés sur les données d’apprentissage :
N K
E ( w)   e j   wk  k ( X j )
j 1 k 0
En notant e=(e1, e2,…,eN)T
  0 ( X 1 ) 1 ( X 1 )  K ( X1) 
et   (X )  (X ) K ( X 2 ) 
Φ 0 2 1 2 
 
 
  0 ( X N ) 1 ( X N ) K ( X N ) 
Le système peut s’écrire

E( w)  e  Φw
Et a pour solution
w  Φ†e où Φ†  T (T ) 1 est la pseudo inverse de 

Des solutions non linéaires plus complexes existent:
-RVM
-…

RDF Slides

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

RDF Slides

Transféré par

Droits d'auteur :

Formats disponibles

RECONNAISSANCE

Cours de Reconnaissance des Formes– Catherine Achard 1

Cours de Reconnaissance des Formes– Catherine Achard 2

Traitement d’images Instrumentation Physique

MATHEMATIQUES RdF INFORMATIQUE

Traitement du signal (parole) Biologie

Cours de Reconnaissance des Formes– Catherine Achard 3

• On dispose d’un ensemble de formes dont la classe est

• On met au point une méthode qui, en étudiant cette base,

Cours de Reconnaissance des Formes– Catherine Achard 4

Cours de Reconnaissance des Formes– Catherine Achard 5

isolés Variabilité entre

Cours de Reconnaissance des Formes– Catherine Achard 6

Cours de Reconnaissance des Formes– Catherine Achard 7

Cours de Reconnaissance des Formes– Catherine Achard 9

400 Aide technique

Cours de Reconnaissance des Formes– Catherine Achard 10

Cours de Reconnaissance des Formes– Catherine Achard 11

Signaux divers : diagnostic de panne

Sur un avion, il y a plusieurs centaines de

Comment faire pour détecter

Cours de Reconnaissance des Formes– Catherine Achard 12

Cours de Reconnaissance des Formes– Catherine Achard 13

Cours de Reconnaissance des Formes– Catherine Achard 14

Cours de Reconnaissance des Formes– Catherine Achard 15

Expressions faciales, occlusion

Cours de Reconnaissance des Formes– Catherine Achard 16

Cours de Reconnaissance des Formes– Catherine Achard 17

Méthode supervisée : Méthode non supervisée :

On reçoit une image binaire Un client vient d’acheter un

Cours de Reconnaissance des Formes– Catherine Achard 18

Cours de Reconnaissance des Formes– Catherine Achard 19

Raisonnons sur un cas concret : comment détecter un visage dans une

Cours de Reconnaissance des Formes– Catherine Achard 20

En testant toutes les combinaisons possibles

En chaque position, problème de reconnaissance. Est-ce un visage ou non ?

Cours de Reconnaissance des Formes– Catherine Achard 21

Cours de Reconnaissance des Formes– Catherine Achard 22

Reconnaître les truites et les saumons

Cours de Reconnaissance des Formes– Catherine Achard 23

Cours de Reconnaissance des Formes– Catherine Achard 24

Codage Extraire de la forme un vecteur de mesure

Exemple en 1 dimension : la taille des poissons

Cours de Reconnaissance des Formes– Catherine Achard 25

Trop de chevauchement, décision pas robuste. Que faire ?

Cours de Reconnaissance des Formes– Catherine Achard 26

Trop de chevauchement, décision pas robuste. Que faire ?

Cours de Reconnaissance des Formes– Catherine Achard 27

On peut ajouter d’autres caractéristiques pour améliorer la classification

Mais les données ne sont pas toujours idéales

Cours de Reconnaissance des Formes– Catherine Achard 28

Pourquoi ne pas utiliser une frontière plus complexe ?

Cours de Reconnaissance des Formes– Catherine Achard 29

Comment trouver une frontière moins spécifique, moins bonne sur

Cours de Reconnaissance des Formes– Catherine Achard 30

Espace Espace Espace

Cours de Reconnaissance des Formes– Catherine Achard 31

Cours de Reconnaissance des Formes– Catherine Achard 32

Cours de Reconnaissance des Formes– Catherine Achard 33

Cours de Reconnaissance des Formes– Catherine Achard 34

Cours de Reconnaissance des Formes– Catherine Achard 35

Cours de Reconnaissance des Formes– Catherine Achard 36

Qu’est ce qu’un bon codage ?