DIANA Avril2022

USTHB, FEI, Département d’informatique
LMD Master 1 « Bio-informatique » 2021/2022
Module « Data-Mining » FD1
L’algorithme Diana
Initiallement (Step 0), il y a un seul large cluster contenant les n objects.

1. Trouver l’objet, qui a la plus grande dissimilarité moyenne par rapport a tous les autres objets. Cet objet
initialise un nouveau cluster (a sort of a splinter group).
2. Pour chaque object i en dehors du “splinter group” calculer
3. Di = [average d(i,j) j ∉Rsplinter group ] - [average d(i,j) j ∈ Rsplinter group]
4. Trouver un objet h pour lequel la difference Dh est la plus grande. If Dh est positive, alors h est en
moyenne proche du “splinter group”.
5. Repeter 2 et 3 jusqu’a ce que toutes les differences Dh sont negatives. le data set est alors partagé en
deux clusters.
6. Selectionner le cluster qui possede le diametre le plus large. le diametre d’un cluster est la plus grande
dissimilarité entre n’importe quels deux de ses objets. Diviser alors ce cluster, en suivant les etapes 1-4.
7. Repeter 5 jusqu’à ce que tous les clusters contiennent un seul objet.
Déroulement de l’algorithme DIANA
Les Données :
DATASET :
DataSet d’une multitude de séquence ADN :
S1=CCAGCTGCATCACA
S2=AGACCCGCCGGGAG
S3=GAGGTGAAGGACGT
S4=GGGCTGCGTTGCTG
S5=GCTCAGCCCCCAGG
Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022

Page 1
S6=CAGACTGGGTGGAC
S7=CCTTTGAGGACAGC
S8=CCCTCGTGCGGTCC
S9=TGGCGACTACGGCG
S10=AAGCTGACAGTGGA
Formule de Distance :
X et Y deux chaines (avec i l’élément de d’une chaine), Distance la distance entre les deux
chaines :
Distance(X,Y)=+1 si Xi != Yi
Distance(X,Y)=0 si Xi == Yi
Distance(X,Y)=0,5 si Xi ==’-’ ou bien Yi == ’-’
Distance(X,Y)=0,25 si Xi ==’-’ et Yi == ‘-’
NOTE : Tous les calculs ont été calculés avec des fonction python, pour avoir des
résultats justes et rapidement.

Page 2
DIANA :
Notre matrice de dissimilarité :
S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
S1 0
S2 10 0
S3 13 13 0
S4 13 10 9 0
S5 10 10 11 9 0
S6 9 9 11 10 14 0
S7 10 10 9 11 8 10 0
S8 10 10 12 11 11 9 8 0
S9 12 9 13 8 10 11 14 12 0
S10 11 9 7 10 10 11 10 12 10 0
On prend la distance maximale qui est égale à 14, et représenter par : {S5, S6}
C1 {S5}
C2 {S6}
Dist{S1, S6} < Dist{S1, S5} => 9 < 10
Donc, S1 est plus proche de S6 que de S5, cela implique qu’on aura :
C1 {S5}
C2 {S6,S1}
Dist{S2, S6} < Dist{S2, S5} => 9 < 10

Page 3
C1 {S5}
C2 {S6, S1, S2}
Dist{S3, S1} = Dist{S3, S2} = 13
Dist{S3, S6} = Dist{S3, S5} = 11
Dans le cas de S3, il est entre S5 et S6, cela implique qu’on va choisir l’emplacement comme
on le souhaite :
C1 {S5, S3}
C2 {S6, S1, S2}
Donc, S4 est plus proche de S5 avec une distance de que de S6, cela implique qu’on aura :
C1 {S5, S3, S4}
C2 {S6, S1, S2}
Donc, S7 est plus proche de S5, avec une distance de 8, que des autres, cela implique qu’on
aura :
C1 {S5, S3, S4, S7}
C2 {S6, S1, S2}
Donc, S8 est plus proche de S5, avec une distance de 9 , cela implique qu’on aura :
C1 {S5, S3, S4, S7, S8}
C2 {S6, S1, S2}
aura : //on recherche la distance minimale sur la ligne et on affecte l’element au cluster
contenant cet élément//
C1 {S5, S3, S4, S7, S8, S9}
C2 {S6, S1, S2}
aura :
C1 {S5, S3, S4, S7, S8, S9, S10}
C2 {S6, S1, S2}
On vient de finir de former nos 2 Cluster (C1, C2), on obtient l’arbre suivant :

Page 4
• Cluster 2 :
On procède de la même manière que précédemment :
Dist{S6,S1}= 9, Dist{S6,S2}= 9, Dist{S1,S2}= 10.
Donc, on obtient :
{S6, S1} et {S2}
On suite, on fragmente {S6, S1} pour avoir {S1} et {S6}, on obtient un résultat final
(Cluster2) comme sur le dendrogramme suivant :
On travaille avec la nouvelle matrice du

cluster 2 :
S1 S2 S6
S1 0
S2 10 0
S6 9 9 0

Page 5
On travaille avec la nouvelle matrice du cluster 1 :
S3 S4 S5 S7 S8 S9 S10
S3 0
S4 9 0
S5 11 9 0
S7 9 11 8 0
S8 12 11 11 8 0
S9 13 8 10 14 12 0
S10 7 10 10 10 12 10 0
C1.1 {S9}
C1.2 {S7}
C1.1 {S9}
C1.2 {S7, S3}
Donc, S4 est plus proche de S9, avec une distance de 8, que de S7, cela implique qu’on aura :
C1.1 {S9, S4}
C1.2 {S7, S3}
aura :
C1.1 {S9, S4, S5}
C1.2 {S7, S3}
Donc, S8 est à équidistance avec S5 et S4, avec une distance de 11, cela implique qu’on aura :
Page 6
C1.1 {S9, S4, S5, S8}
C1.2 {S7, S3}
aura :
C1.1 {S9, S4, S5, S8}, C1.2 {S7, S3, S10}
• Cluster C1.2 :
Dist{S7, S3}= 9, Dist{S7,S10}= 10, Dist{S10,S3}= 7.
Donc, on obtient : {S10, S3} et {S7}
On suite, on fragmente {S10, S3} pour avoir {S10} et {S3}, on obtient un résultat final
(Cluster 1.2) comme sur le dendrogramme suivant :

Page 7
cluster 1.2 :
S3 S7 S10
S3 0
S7 9 0
S10 7 10 0
• Cluster 1.1 :
On travaille avec la nouvelle matrice du cluster 1.1 :
S4 S5 S8 S9
S4 0
S5 9 0
S8 11 11 0
S9 8 10 12 0
C1.1.1 {S8}
C1.1.2 {S9}
Donc, S4 est plus proche de S9, avec une distance de 8, que de S8, cela implique qu’on aura :
C1.1.1 {S8}
C1.1.2 {S9, S4}
aura :
C1.1.1 {S8}, C1.1.2 {S9, S4, S5}

Page 8
aura :
C1.1.1 {S8}, C1.1.2 {S9, S4, S5}
• Cluster 1.1.2 :
Dist{S9, S4}= 8, Dist{S9,S5}= 10, Dist{S4,S5}= 9.
Donc, on obtient : {S9, S4} et {S5}
On suite, on fragmente {S9, S4} pour avoir {S9} et {S4}, on obtient un résultat final (Cluster
1.1.2) comme sur le dendrogramme suivant :

cluster 1.1.2 :
S4 S5 S9
S4 0
S5 9 0
S9 8 10 0
Au finale le dendrogramme, obtenue suite au déroulement de l’algorithme de Diana :

Page 9
Page 10

DIANA Avril2022

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

DIANA Avril2022

Transféré par

Droits d'auteur :

Formats disponibles

USTHB, FEI, Département d’informatique

LMD Master 1 « Bio-informatique » 2021/2022

Module « Data-Mining » FD1

Initiallement (Step 0), il y a un seul large cluster contenant les n objects.

Déroulement de l’algorithme DIANA

DataSet d’une multitude de séquence ADN :

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022

Distance(X,Y)=0,5 si Xi ==’-’ ou bien Yi == ’-’

Distance(X,Y)=0,25 si Xi ==’-’ et Yi == ‘-’

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022

Dist{S1, S6} < Dist{S1, S5} => 9 < 10

Dist{S2, S6} < Dist{S2, S5} => 9 < 10

C2 {S6, S1, S2}

Dist{S3, S1} = Dist{S3, S2} = 13

Dist{S3, S6} = Dist{S3, S5} = 11

C2 {S6, S1, S2}

C1 {S5, S3, S4}

C2 {S6, S1, S2}

C1 {S5, S3, S4, S7}

C2 {S6, S1, S2}

C1 {S5, S3, S4, S7, S8}

C2 {S6, S1, S2}

C1 {S5, S3, S4, S7, S8, S9}

C2 {S6, S1, S2}

C1 {S5, S3, S4, S7, S8, S9, S10}

C2 {S6, S1, S2}

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022

On procède de la même manière que précédemment :

Dist{S6,S1}= 9, Dist{S6,S2}= 9, Dist{S1,S2}= 10.

{S6, S1} et {S2}

On travaille avec la nouvelle matrice du

On procède de la même manière que précédemment :

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022

C1.2 {S7, S3}

C1.1 {S9, S4}

C1.2 {S7, S3}

C1.1 {S9, S4, S5}

C1.2 {S7, S3}

C1.2 {S7, S3}

C1.1 {S9, S4, S5, S8}, C1.2 {S7, S3, S10}

On procède de la même manière que précédemment :

Dist{S7, S3}= 9, Dist{S7,S10}= 10, Dist{S10,S3}= 7.

Donc, on obtient : {S10, S3} et {S7}

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022

On travaille avec la nouvelle matrice du cluster 1.1 :

C1.1.2 {S9, S4}

C1.1.1 {S8}, C1.1.2 {S9, S4, S5}

C1.1.1 {S8}, C1.1.2 {S9, S4, S5}

On procède de la même manière que précédemment :

Dist{S9, S4}= 8, Dist{S9,S5}= 10, Dist{S4,S5}= 9.

Donc, on obtient : {S9, S4} et {S5}

On travaille avec la nouvelle matrice du

Au finale le dendrogramme, obtenue suite au déroulement de l’algorithme de Diana :

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022

Vous aimerez peut-être aussi