Vous êtes sur la page 1sur 4

Chp 4 - Mesures de similarité :

Besoin d’avoir des mesures de similarité :

Différents algorithmes ont besoin de fonctions pour mesurer la similarité (ou la dissimilarité) entre objets :

- L’algorithme KMeans a besoin de mesurer la similarité entre une donnée et les centres des clusters, afin d’affecter la donnée au cluster dont le centre est le plus proche.

- L’algorithme KNN a besoin de trouver les K voisins les plus proches d’une donnée.

- Les moteurs de recherche d’images calculent la similarité entre la requête et chaque image du dataset (collection d’images).

Illustration .

- Les outils de reconnaissance d’images ont besoin de mesurer la similarité entre l’objet à reconnaitre et les images dont la classe est connue déjà.

Cheval et/ou Herbe Requête
Cheval
et/ou
Herbe
Requête
Moteur de recherche dataset ou WWW
Moteur de
recherche
dataset ou
WWW
images dont la classe est connue déjà. Cheval et/ou Herbe Requête Moteur de recherche dataset ou

Résultats

Notion de similarité vs. dissimilarité : Une mesure est une similarité si elle est :

Notion de similarité vs. dissimilarité :

Une mesure est une similarité si elle est :

grande lorsque les deux objets se ressemblent

et petite lorsque les deux objets ne se ressemblent pas

Une mesure est une dissimilarité dans le cas opposé, c'est-à-dire qu’elle est :

grande lorsque les deux objets ne se ressemblent pas

et petite lorsque les deux objets se ressemblent

Exemples

Notion de distance (métrique) :

On dit qu’une mesure est une distance (ou une métrique) si elle vérifie les propriétés suivantes :

- Positivité : D(x,y) 0

- Identité des indiscernables : D(x,x) = 0

- Symétrie : D(x,y) = D(y,x)

- Inégalité triangulaire : D(x,y) D(x,z) + D(z,y)

Quelques métriques :

Distance de Manhattan (ou distance de l’échiquier ou L1) :

1 ,

=

=1

| |

Distance Euclidienne (ou L2) :

 

2 ,

=

2

 

=1

Distance de Minkowski (ou Lq) :

,

=

=1

Distance de Mahalanobis :

,

=

1

Si = on obtient la distance Euclidienne

Si est diagonale, on obtient une distance Euclidienne

normalisée , =

2

=1

2

Quelques non distances :

Similarité Cosinus : Soient deux vecteurs 1

( 1 , 2 ) = cos =

1 | 1 |×| 2 | où

.

2

1

1

et 2

2

2

est l’angle entre 1 et 2 et 1 . 2 est le produit scalaire des deux vecteurs

Intersection d’histogrammes : L’intersection entre deux histogrammes H et G est

éléments de G .

la

|H |

est

,

somme

=

=1

min ( , )

min ( ,||)

des

éléments de

Illustration

H

et

| G |

est la somme des

G R Le nombre de pixels dans le sous-espace B Histogramme de la couleur
G
R
Le nombre de pixels
dans le sous-espace
B
Histogramme de la couleur

Application :

Application des mesures de similarité à la recherche du texte sur le Web :

Illustration

Collecter des pages Web

Compter la fréquence de chaque mot

Constituer le vecteur représentatif de chaque page

Comparer entre ces vecteurs en utilisant les différentes mesures de similarités. Ex la cosinus.