Vous êtes sur la page 1sur 5

Résumé : Distances et Métriques

Marc-Olivier LaBarre Juillet 2002

L’utilité des métriques et des distances est de pouvoir comparer les ressemblances et
différences entre deux vecteurs. Cette opération est importante, par exemple, dans le
domaine de la classification. Il est plus probable que deux vecteurs semblables soient
dans une même classe que deux vecteurs dissemblables. De fait, l’utilisation de
métriques pour mesurer des distances est presque toujours une étape essentielle à la
classification automatique.

MÉTRIQUE

Une métrique est une fonction binaire qui décrit la distance entre deux points d’un
ensemble E. Cette distance est un application de E  E  � telle que, i, j , k  E :
1) d  i, j   d  j , i  symmétrie
2) d  i, j   0
3) d  i, j   0  i  j
4) d  i, j   d  i, k   d  k , j  inégalité du triangle

Si toutes ces propriétés sont respectées, on se trouve en présence d’une distance métrique.
Si l’inégalité du triangle n’est pas respectée, on parle plutôt d’une distance semi-
métrique. Un ensemble possédant une métrique est appelé un ensemble métrique. Dans
un espace métrique, muni d’une distance d, on appelle boule fermée de centre j  E et de
rayon r l’ensemble B  j , r    x  E d  j, x   r  . Une boule ouverte, pour d  j , x   r .

On peut rajouter une cinquième propriété, l’ultramétricité (donne une distance


ultramétrique) :
5) d  x, y   max  d  x, z  , d  y, z  
Cette propriété donne que les deux plus grandes distances entre trois points sont égales.
De cette façon, tout triangle formé à partir de trois points est un triangle isocèle. Cette
caractéristique est particulièrement utilisée dans le cas des méthodes hiérarchiques de
classification. Elles ne seront cependant pas discutées ici.

TYPES DE DISTANCES

La distance la plus connue est la distance Euclidienne, qui définit l’espace cartésien.
n

 x  y 
2
d ( x, y )  i i (pour des vecteurs de dimension n). La distance Euclidienne est
i 1

souvent utilisée au carré.


Cette distance, n’est qu’un cas particulier pour p = 2 de la distance de Minkowsky :
1 p
 n p 
d ( x, y )    xi  yi 
 i 1 

Pour p = 1, on obtient la distance de Manhattan (aussi appelée distance « city-block » ou


métrique absolue) :
n
d ( x, y )   xi  yi
i 1

et pour p   , la distance de Chebychev (aussi appelée distance « Queen-wise »ou


encore métrique maximum) :
n
d  x, y   max xi  yi
i 1

Un généralisation de la distance de Minkowsky nous donne la distance de puissance :


1r
 n p
d ( x, y )    xi  yi 
 i 1 
Dans le cas spécial où p = r, on retrouve la distance de Minkowsky. Cette distance
permet de jouer indépendamment sur les deux puissances présentes dans l’équation, pour
trouver l’équilibre voulu entre l’importance du nombre d’éléments différents et
l’importance de la différence elle-même.

figure 1 : Boules de centre + et de même rayon pour différentes distances de Minkowsky


pour un vecteur de deux dimensions.

p=1 p = 21 p=3 p=4 p = 20

Le calcul du pourcentage de différence (ang. percent disagreement) est une autre mesure
de distance qui permet de savoir quel pourcentage des n éléments des deux vecteurs sont
différents. Cette distance ne tient pas compte de l’importance de la différence entre les
éléments homologues. Cette distance est utile dans les cas où les valeurs des éléments
représentent des variables nominales non ordonnées; où 1 et 2 sont aussi différents que 0
et 15. Il s’agit d’une certaine généralisation de la distance de Hamming (celle-ci
uniquement pour des vecteurs binaires)
x y
d  x, y  
n

1
La distance Euclidienne représente notre perception intuitionniste du principe de boule. Cependant, étant
donné que la boule dépend d’un rayon et que le rayon dépend de la métrique de distance utilisée, une boule
peut prendre plusieurs formes étranges.
Distance de Canberra2 :
n
x  yi
d  x, y    i
i 1 xi  yi

Distance des corde carrées (squarred chords distance) :

 
n 2
d  x, y    xi  yi
i 1

Distance du Khi-carré3 :
 xi  yi 
2
n
d  x, y   
i 1 xi  yi

Distance de Mahalanobis :
d  x, y    x  y  gCov  D   g x  y  
où Cov(D) est la matrice de covariance. Si les éléments de x et de y sont indépendants, la
matrice de Covariance sera l’identité et la distance de Mahalanobis serait égale à la
distance Euclidienne. La boule associée à une distance de Mahalanobis est de forme
elliptique, alors que la boule d’une distance Euclidienne est un cercle (en deux
dimensions).

Entropie Relative, distance de Kullback-Liebler :


p  x
d  p q    p  x  log
x X q  x
Cette distance est utilisée pour p et q des distributions de probabilités, la formule donne
l’entropie relative de p selon q. Bien qu’elle porte le nom de distance, la mesure
d’entropie relative de Kullback-Liebler n’est pas une métrique. Elle n’est pas symétrique
et ne satisfait pas l’inégalité du triangle. Elle respecte cependant les conditions 2) et 3).

Distances binaires :

La distance de Hamming calcule le nombre d’éléments différents dans les vecteurs


bianires :
d ( x, y )  x xor y

La « distance4 » de Jaccard, ou encore score de Jaccard :

2
Il est préférable de « normaliser » ses vecteurs à des valeurs non-négatives avant d’utiliser la distance de
Canberra ou la distance du Khi-carré
3
Voir note 2
4
Ce n’est pas vraiment une distance puisqu’elle ne respecte pas la condition 3). Elle est toutefois utilisée
dans plusieurs cas.
x y
d  x, y  
x y

Distance de Tanimoto :
x xor y
d  x, y  
x y  x  y

SIMILARITÉ

Une autre méthode de comparer deux vecteurs est de tester leur similarité. Alors que la
distance mesure le degré de « différence » entre deux vecteurs, un indice de similarité
mesure le degré de « ressemblance » entre deux vecteurs. L’action d’un indice (ou
coefficient) de similarité est environ l’inverse de l’action d’une distance : deux vecteurs
ayant une grande similarité seront rapprochés (selon la distance) et vice versa. Une
similarité est un application de E  E  � telle que, i, j  E :
1) s  i, j   s  j , i  symmétrie
2) s  i, j   0
3) s  i, i   s  i, j 

Dans le cas d’une distance, on cherche habituellement les éléments les plus proches,
c’est-à-dire qu’on cherche la distance minimale. Dans le cas d’une similarité, on cherche
les éléments les plus similaires, c’est-à-dire l’indice de similarité maximal.

Les différents coefficients de corrélation peuvent être associés à des mesures de


similarité.
BIBLIOGRAPHIE

1. Sites Internet
Data Mining Group (DMG.org). PMML 2.0 – Cluster Models.
http://www.dmg.org/v2-0/ClusteringModel.html
LUKE Brian T. Distances in Clustering.
http://fconyx.ncifcrf.gov/~lukeb/clusdis.html
PlanetMath.org PlanetMath : Relative Entropy.
http://planetmath.org/encyclopedia/KullbackLieblerDistance.html
SANCHEZ-MAZAS, Alicia. Cours VIII : Distances Génétiques.
http://anthro.unige.ch/GMDP/Alicia/GMDP_dist.htm
StarSoft Inc. Cluster Analysis. http://www.statsoftinc.com/textbook/stcluan.html
ThermoGalactic.com Discriminant Analysis, The Mahalanobis Distance.
http://www.galactic.com/Algorithms/discrim_mahaldist.htm
U.S.Geological Survey.Sample difference metrics used in ANALOG
http://geochange.er.usgs.gov/pub/tools/analog/doc/distance.html
Von LAERHOVEN, Kristof. Basic Statistics and Metrics for Sensor Analysis
http://www.comp.lancs.ac.uk/~kristof/notes/basicstat/
Wolfram Research (MathWorld). Metrics – from MathWorld.
http://mathworld.wolfram.com/Metric.html

Vous aimerez peut-être aussi