Vous êtes sur la page 1sur 5

Faculté des Sciences Exactes et informatique

Département de Mathématiques et Informatique


Filière Informatique

1ièr année Master

Matière : Analyse des données


Chapitres 1 : codage (tableau des distances)
1- Tableau de données et mesure de similarité :

Nous avons 2 types de tableau :

a) tableau individu /variable

b) tableau variable/variable

Tableau ind/var :

Poids Taille Couleur des yeux Age


I1 10 5 Noir 15
I2 10 5 Bleu 10
I3 5 10 Noir 15
I4 5 10 Bleu 10
I5 12 10 Noir 10
I6 12 10 Bleu 15
Tableau var/var : tableau de contingence ou tableau de fréquence

Poids\ taille 5 10
5 0 2
10 2 0
12 0 2
Pour le tableau ind/var les entrées des lignes sont les individus et les entrées sont les variables
par contre pour le tableau var\var les lignes et les colonnes ont un rôle symétrique

Type de données :

Nous avons essentiellement 2 types de données

-Variable quantitatives (Mesure, quantité)

Nominale (Nomination)

-Variable qualitatif

Ordinale (notion d’ordre)

Les variables qualitatives contenant une relation d’ordre est dite Variable qualitative ordinale.
S’il n’existe aucune relation d’ordre la variable est dite variable qualitatif nominale.

Analyse des données Page 1/5


Couleur des yeux Taille
I1 Noir T. Petit
I2 Bleu Petit
I3 Noir Grand
I4 Bleu T. Grand
I5 Noir T. Petit
I6 Bleu Petit
Couleur des yeux : variable qualitatif nominale

Taille : Variable qualitative ordinale.

Codage des données nominales :

N : N → 0,1
k
Soit la fonction N : variable qualitatif nominale

Tel que k : est le nombre de max de réponse que peut prendre la variable nominale :

Exemple : Couleur : bleu, noir donc k=2

1 0
N (noir ) =   , N (bleu ) =  
0 1

Soit la fonction O : O → 0,1 O : variable qualitatif ordinale


k

Taille (T. Petit, petit, grand, T. Grand) donc k=4

1 1 1  1


       
 0  1  1 1
O (T . petit ) = , O ( petit ) = , O ( grand ) = , O (T .grand ) =  
0 0 1  1
       
0 0 0  1

Tableau obtenu après codage : c’est le tableau de codage disjonctif

C.y Taille
I1 10 1000
I2 01 1100
I3 10 1110
I4 01 1111
I5 10 1000
I6 01 1000
Remarque : si toutes les variables qualitatives sont de type nominal alors le tableau de
codage est sous forme disjonctif complet.

2- Distance et mesure de similarité :

L’utilité des métriques et des distances est de pouvoir comparer les ressemblances et
différences entre deux vecteurs. Cette opération est importante, par exemple, dans le domaine
de la classification.

Analyse des données Page 2/5


Soit I, I’ deux vecteur :

 x  x'
   
I  y , I ' y '
z  z'
   

Distances entre deux vecteurs vérifie les conditions suivantes :

1) d ( i, j ) = d ( j, i ) symmétrie
2) d ( i, j )  0
3) d ( i, j ) = 0  i = j
4) d ( i, j )  d ( i, k ) + d ( k , j ) inégalité du triangle

Si toutes ces propriétés sont respectées, on se trouve en présence d’une distance métrique.
Si l’inégalité du triangle n’est pas respectée, on parle plutôt d’une distance semi-métrique.
Un ensemble possédant une métrique est appelé un ensemble métrique.
La distance la plus connue est
La distance Euclidienne :

d ( I , I ') = ( x − x ') 2 + ( y − y ') 2 + ( z − z ') 2


La distance de Minkowsky
1
 n
  
d ( xI , xI ' ) =   xI − xI ' 
 i =1 
La distance de chebychev

d ( xI , xI ' ) = max xI − xI '


La distance Manhattan
n
d ( xI , xI ' ) =  xI − y I ' ²
i =1

Données Qualitatives

Soit xI , xI ' deux vecteurs binaires :

a = le nombre de fois ou xij = 1etxi ' j = 1

b=le nombre de fois ou xij = 0etxi ' j = 1

Analyse des données Page 3/5


c=le nombre de fois ou xij = 1etxi ' j = 0

d=le nombre de fois ou xij = 0etxi ' j = 0

x I \ xI ' 1 0

1 a b
0 c d
Exemple :
1  0
   
0 1
1 1
xI =   , xI ' =   a=2 c=1 b=2 d=1
0 1
0 0
   
1 1

a+d
❖ d ( xI , x I ' ) = (Similarité) exemple précédent d ( xI , xI ' ) =
1
a+b+c+d 2
b+c
❖ d ( xI , x I ' ) =
a+b+c+d (Dissimilarité)

a
❖ d ( xI , x I ' ) =
a+b+c+d (Russel et Rao)

a
❖ d ( xI , x I ' ) =
a+b+c (Jaccard et Needhan)

a.d − b.c
❖ d ( xI , xI ' ) =
a.d + b.c (Yule)

Exemple précédent :
Tableau de distance similarité
I1 I2 I3 I4 I5 I6
I1 1
I2 3/6=1/2 1
I3 4/6=2/3 3/6=1/2 1
I4 1/6 4/6=2/3 3/6=1/3 1
I5 1 1/6 4/6=2/3 1/6 1
I6 4/6=2/3 3/6=1/3 2/6=1/3 3/6=1/3 4/6=2/3 1

Analyse des données Page 4/5


3- Distance entre groupe d’individus

Soit A, B deux sous ensemble non vide de  soit d’une mesure de similarité (distance)
❖ La distance de saut Minimum :

D( A, B) = Min(d ( I A , I B )), I A  A, I B  B
❖ La distance de saut Maximum :

D( A, B) = Max(d ( I A , I B )), I A  A, I B  B
❖ La distance des centres de gravité :

D( A, B) = d ( g A , g B ), avec
g A : centre de gravité de A
g B : centre de gravité de B

Analyse des données Page 5/5

Vous aimerez peut-être aussi