Vous êtes sur la page 1sur 10

USTHB, FEI, Département d’informatique

LMD Master 1 « Bio-informatique » 2021/2022

Module « Data-Mining » FD1

L’algorithme Diana

Initiallement (Step 0), il y a un seul large cluster contenant les n objects.


1. Trouver l’objet, qui a la plus grande dissimilarité moyenne par rapport a tous les autres objets. Cet objet
initialise un nouveau cluster (a sort of a splinter group).
2. Pour chaque object i en dehors du “splinter group” calculer
3. Di = [average d(i,j) j ∉Rsplinter group ] - [average d(i,j) j ∈ Rsplinter group]

4. Trouver un objet h pour lequel la difference Dh est la plus grande. If Dh est positive, alors h est en
moyenne proche du “splinter group”.
5. Repeter 2 et 3 jusqu’a ce que toutes les differences Dh sont negatives. le data set est alors partagé en
deux clusters.
6. Selectionner le cluster qui possede le diametre le plus large. le diametre d’un cluster est la plus grande
dissimilarité entre n’importe quels deux de ses objets. Diviser alors ce cluster, en suivant les etapes 1-4.
7. Repeter 5 jusqu’à ce que tous les clusters contiennent un seul objet.

Déroulement de l’algorithme DIANA

Les Données :

DATASET :

DataSet d’une multitude de séquence ADN :

S1=CCAGCTGCATCACA

S2=AGACCCGCCGGGAG

S3=GAGGTGAAGGACGT

S4=GGGCTGCGTTGCTG

S5=GCTCAGCCCCCAGG

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022


Page 1
S6=CAGACTGGGTGGAC

S7=CCTTTGAGGACAGC

S8=CCCTCGTGCGGTCC

S9=TGGCGACTACGGCG

S10=AAGCTGACAGTGGA

Formule de Distance :

X et Y deux chaines (avec i l’élément de d’une chaine), Distance la distance entre les deux
chaines :

Distance(X,Y)=+1 si Xi != Yi

Distance(X,Y)=0 si Xi == Yi

Distance(X,Y)=0,5 si Xi ==’-’ ou bien Yi == ’-’

Distance(X,Y)=0,25 si Xi ==’-’ et Yi == ‘-’

NOTE : Tous les calculs ont été calculés avec des fonction python, pour avoir des
résultats justes et rapidement.

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022


Page 2
DIANA :
Notre matrice de dissimilarité :

S1 S2 S3 S4 S5 S6 S7 S8 S9 S10

S1 0

S2 10 0

S3 13 13 0

S4 13 10 9 0

S5 10 10 11 9 0

S6 9 9 11 10 14 0

S7 10 10 9 11 8 10 0

S8 10 10 12 11 11 9 8 0

S9 12 9 13 8 10 11 14 12 0

S10 11 9 7 10 10 11 10 12 10 0

On prend la distance maximale qui est égale à 14, et représenter par : {S5, S6}

C1 {S5}

C2 {S6}

Dist{S1, S6} < Dist{S1, S5} => 9 < 10

Donc, S1 est plus proche de S6 que de S5, cela implique qu’on aura :

C1 {S5}

C2 {S6,S1}

Dist{S2, S6} < Dist{S2, S5} => 9 < 10


Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022
Page 3
Donc, S2 est plus proche de S6 que de S5, cela implique qu’on aura :

C1 {S5}

C2 {S6, S1, S2}

Dist{S3, S1} = Dist{S3, S2} = 13

Dist{S3, S6} = Dist{S3, S5} = 11

Dans le cas de S3, il est entre S5 et S6, cela implique qu’on va choisir l’emplacement comme
on le souhaite :

C1 {S5, S3}

C2 {S6, S1, S2}

Donc, S4 est plus proche de S5 avec une distance de que de S6, cela implique qu’on aura :

C1 {S5, S3, S4}

C2 {S6, S1, S2}

Donc, S7 est plus proche de S5, avec une distance de 8, que des autres, cela implique qu’on
aura :

C1 {S5, S3, S4, S7}

C2 {S6, S1, S2}

Donc, S8 est plus proche de S5, avec une distance de 9 , cela implique qu’on aura :

C1 {S5, S3, S4, S7, S8}

C2 {S6, S1, S2}

Donc, S9 est plus proche de S4, avec une distance de 8, que des autres, cela implique qu’on
aura : //on recherche la distance minimale sur la ligne et on affecte l’element au cluster
contenant cet élément//

C1 {S5, S3, S4, S7, S8, S9}

C2 {S6, S1, S2}

Donc, S10 est plus proche de S3, avec une distance de 7, que des autres, cela implique qu’on
aura :

C1 {S5, S3, S4, S7, S8, S9, S10}

C2 {S6, S1, S2}

On vient de finir de former nos 2 Cluster (C1, C2), on obtient l’arbre suivant :

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022


Page 4
• Cluster 2 :

On procède de la même manière que précédemment :

Dist{S6,S1}= 9, Dist{S6,S2}= 9, Dist{S1,S2}= 10.

Donc, on obtient :

{S6, S1} et {S2}

On suite, on fragmente {S6, S1} pour avoir {S1} et {S6}, on obtient un résultat final
(Cluster2) comme sur le dendrogramme suivant :

On travaille avec la nouvelle matrice du


cluster 2 :

S1 S2 S6

S1 0

S2 10 0

S6 9 9 0

On procède de la même manière que précédemment :

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022


Page 5
On travaille avec la nouvelle matrice du cluster 1 :

S3 S4 S5 S7 S8 S9 S10

S3 0

S4 9 0

S5 11 9 0

S7 9 11 8 0

S8 12 11 11 8 0

S9 13 8 10 14 12 0

S10 7 10 10 10 12 10 0

On prend la distance maximale qui est égale à 14, et représenter par : {S9, S7}

C1.1 {S9}

C1.2 {S7}

Donc, S3 est plus proche de S7 que de S9, cela implique qu’on aura :

C1.1 {S9}

C1.2 {S7, S3}

Donc, S4 est plus proche de S9, avec une distance de 8, que de S7, cela implique qu’on aura :

C1.1 {S9, S4}

C1.2 {S7, S3}

Donc, S5 est plus proche de S4, avec une distance de 9, que des autres, cela implique qu’on
aura :

C1.1 {S9, S4, S5}

C1.2 {S7, S3}

Donc, S8 est à équidistance avec S5 et S4, avec une distance de 11, cela implique qu’on aura :
Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022
Page 6
C1.1 {S9, S4, S5, S8}

C1.2 {S7, S3}

Donc, S10 est plus proche de S3, avec une distance de 7, que des autres, cela implique qu’on
aura :

C1.1 {S9, S4, S5, S8}, C1.2 {S7, S3, S10}

• Cluster C1.2 :

On procède de la même manière que précédemment :

Dist{S7, S3}= 9, Dist{S7,S10}= 10, Dist{S10,S3}= 7.

Donc, on obtient : {S10, S3} et {S7}

On suite, on fragmente {S10, S3} pour avoir {S10} et {S3}, on obtient un résultat final
(Cluster 1.2) comme sur le dendrogramme suivant :

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022


Page 7
On travaille avec la nouvelle matrice du
cluster 1.2 :

S3 S7 S10

S3 0

S7 9 0

S10 7 10 0

• Cluster 1.1 :

On travaille avec la nouvelle matrice du cluster 1.1 :

S4 S5 S8 S9

S4 0

S5 9 0

S8 11 11 0

S9 8 10 12 0

On prend la distance maximale qui est égale à 12, et représenter par : {S9, S8}

C1.1.1 {S8}

C1.1.2 {S9}

Donc, S4 est plus proche de S9, avec une distance de 8, que de S8, cela implique qu’on aura :

C1.1.1 {S8}

C1.1.2 {S9, S4}

Donc, S5 est plus proche de S4, avec une distance de 9, que des autres, cela implique qu’on
aura :

C1.1.1 {S8}, C1.1.2 {S9, S4, S5}


Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022
Page 8
Donc, S5 est plus proche de S4, avec une distance de 9, que des autres, cela implique qu’on
aura :

C1.1.1 {S8}, C1.1.2 {S9, S4, S5}

• Cluster 1.1.2 :

On procède de la même manière que précédemment :

Dist{S9, S4}= 8, Dist{S9,S5}= 10, Dist{S4,S5}= 9.

Donc, on obtient : {S9, S4} et {S5}

On suite, on fragmente {S9, S4} pour avoir {S9} et {S4}, on obtient un résultat final (Cluster
1.1.2) comme sur le dendrogramme suivant :

On travaille avec la nouvelle matrice du


cluster 1.1.2 :

S4 S5 S9

S4 0

S5 9 0

S9 8 10 0

Au finale le dendrogramme, obtenue suite au déroulement de l’algorithme de Diana :

Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022


Page 9
Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022
Page 10

Vous aimerez peut-être aussi