Vous êtes sur la page 1sur 9

Structures de données

• Matrice de données  x11 ... x1f ... x1p 


 
 ... ... ... ... ... 
x ... xif ... x ip 
 i1 
 ... ... ... ... ... 
x ... xnf ... x np 
• Matrice de similarité  n1 
 0 
 d(2,1) 0 
 
 d(3,1) d ( 3, 2 ) 0 
 
 : : : 
d ( n,1) d ( n, 2 ) ... ... 0
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
Distances, similarités

• Avant de calculer les similarités (dissimilarités)


standardiser les données

mesures de similrités/dissimilrités FD1/M1BIO_INFO


FEV2024 Dr S. Baba Ali
pour des mesures continues

Pour Standardiser les données


• Calculer l’écart absolu moyen:

s f  1n (| x1 f  m f |  | x2 f  m f | ... | xnf  m f |)

m f  1n (x1 f  x2 f  ...  xnf ).

• Calculer la mesure standardisée (z-score)


xif  m f
zif  sf
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
Moyenne ecart absolu moyen
Age Salaire
Personne1 50 11000
M Age  60 S Age  5
Personne2 70 11100
Personne3 60 11122 M salaire  11074 S salaire  148
Personne4 60 11074
Age Salaire
Personne1 -2 -0,5
Personne2 2 0,175
Personne3 0 0,324
Personne4 0 2

mesures de similrités/dissimilrités FD1/M1BIO_INFO


FEV2024 Dr S. Baba Ali
• Une table de contingence pour données
binaires
1 0 sum
1 a b a b a= nombre de positions où
0 c d cd objet i a 1 et objet j a 1
sum a  c b  d p
• Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
a=1, b=2, c=1, d=1
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
La dissimilarité est definie par:

d (i, j)  b  c
a bc  d

Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)


d(oi, oj)=3/5 (dissimilarité)
Coefficient de Jaccard= d (i, j )  bc
a  b  FD1/M1BIO_INFO
mesures de similrités/dissimilrités c
d(oi, oj)=3/4 FEV2024 Dr S. Baba Ali
Varibles nominles
m: nbre d’appariements,
p: nbre total de variables

d (i, j)  p 
p
m

Méthode 2: utiliser un grand nombre de


variables binaires
Créer une variable binaire pour chaque
modalité (ex: variable rouge qui prend les
valeurs vrai ou faux)
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
En Présence de Variables de différents Types
• Pour chaque type de variables utiliser une mesure adéquate.
Problèmes: les clusters obtenus peuvent être différents
• On utilise une formule pondérée pour faire la combinaison
 pf  1 ij( f ) dij( f )
d (i, j ) 
 pf  1 ij( f )
– f est binaire ou nominale:
dij(f) = 0 si xif = xjf , sinon dij(f) = 1
– f est de type intervalle: utiliser une distance normalisée

mesures de similrités/dissimilrités FD1/M1BIO_INFO


FEV2024 Dr S. Baba Ali
Les distances expriment une similarité
Ex: la distance de Minkowski :
d (i, j)  q (| x  x |q  | x  x |q ... | x  x |q )
i1 j1 i2 j2 ip jp

où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets p-


dimensionnels et q un entier positif
Si q = 1, d est la distance de Manhattan
d (i, j) | x  x |  | x  x | ... | x  x |
i1 j1 i2 j 2 ip jp

Si q=2 c’est l distnce euclidienne


mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali

Vous aimerez peut-être aussi