Académique Documents
Professionnel Documents
Culture Documents
DIANA Avril2022
DIANA Avril2022
L’algorithme Diana
4. Trouver un objet h pour lequel la difference Dh est la plus grande. If Dh est positive, alors h est en
moyenne proche du “splinter group”.
5. Repeter 2 et 3 jusqu’a ce que toutes les differences Dh sont negatives. le data set est alors partagé en
deux clusters.
6. Selectionner le cluster qui possede le diametre le plus large. le diametre d’un cluster est la plus grande
dissimilarité entre n’importe quels deux de ses objets. Diviser alors ce cluster, en suivant les etapes 1-4.
7. Repeter 5 jusqu’à ce que tous les clusters contiennent un seul objet.
Les Données :
DATASET :
S1=CCAGCTGCATCACA
S2=AGACCCGCCGGGAG
S3=GAGGTGAAGGACGT
S4=GGGCTGCGTTGCTG
S5=GCTCAGCCCCCAGG
S7=CCTTTGAGGACAGC
S8=CCCTCGTGCGGTCC
S9=TGGCGACTACGGCG
S10=AAGCTGACAGTGGA
Formule de Distance :
X et Y deux chaines (avec i l’élément de d’une chaine), Distance la distance entre les deux
chaines :
Distance(X,Y)=+1 si Xi != Yi
Distance(X,Y)=0 si Xi == Yi
NOTE : Tous les calculs ont été calculés avec des fonction python, pour avoir des
résultats justes et rapidement.
S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
S1 0
S2 10 0
S3 13 13 0
S4 13 10 9 0
S5 10 10 11 9 0
S6 9 9 11 10 14 0
S7 10 10 9 11 8 10 0
S8 10 10 12 11 11 9 8 0
S9 12 9 13 8 10 11 14 12 0
S10 11 9 7 10 10 11 10 12 10 0
On prend la distance maximale qui est égale à 14, et représenter par : {S5, S6}
C1 {S5}
C2 {S6}
Donc, S1 est plus proche de S6 que de S5, cela implique qu’on aura :
C1 {S5}
C2 {S6,S1}
C1 {S5}
Dans le cas de S3, il est entre S5 et S6, cela implique qu’on va choisir l’emplacement comme
on le souhaite :
C1 {S5, S3}
Donc, S4 est plus proche de S5 avec une distance de que de S6, cela implique qu’on aura :
Donc, S7 est plus proche de S5, avec une distance de 8, que des autres, cela implique qu’on
aura :
Donc, S8 est plus proche de S5, avec une distance de 9 , cela implique qu’on aura :
Donc, S9 est plus proche de S4, avec une distance de 8, que des autres, cela implique qu’on
aura : //on recherche la distance minimale sur la ligne et on affecte l’element au cluster
contenant cet élément//
Donc, S10 est plus proche de S3, avec une distance de 7, que des autres, cela implique qu’on
aura :
On vient de finir de former nos 2 Cluster (C1, C2), on obtient l’arbre suivant :
Donc, on obtient :
On suite, on fragmente {S6, S1} pour avoir {S1} et {S6}, on obtient un résultat final
(Cluster2) comme sur le dendrogramme suivant :
S1 S2 S6
S1 0
S2 10 0
S6 9 9 0
S3 S4 S5 S7 S8 S9 S10
S3 0
S4 9 0
S5 11 9 0
S7 9 11 8 0
S8 12 11 11 8 0
S9 13 8 10 14 12 0
S10 7 10 10 10 12 10 0
On prend la distance maximale qui est égale à 14, et représenter par : {S9, S7}
C1.1 {S9}
C1.2 {S7}
Donc, S3 est plus proche de S7 que de S9, cela implique qu’on aura :
C1.1 {S9}
Donc, S4 est plus proche de S9, avec une distance de 8, que de S7, cela implique qu’on aura :
Donc, S5 est plus proche de S4, avec une distance de 9, que des autres, cela implique qu’on
aura :
Donc, S8 est à équidistance avec S5 et S4, avec une distance de 11, cela implique qu’on aura :
Dr S. Baba-Ali Fac INFO Dep IA & SD USTHB M1bioINFO 2022
Page 6
C1.1 {S9, S4, S5, S8}
Donc, S10 est plus proche de S3, avec une distance de 7, que des autres, cela implique qu’on
aura :
• Cluster C1.2 :
On suite, on fragmente {S10, S3} pour avoir {S10} et {S3}, on obtient un résultat final
(Cluster 1.2) comme sur le dendrogramme suivant :
S3 S7 S10
S3 0
S7 9 0
S10 7 10 0
• Cluster 1.1 :
S4 S5 S8 S9
S4 0
S5 9 0
S8 11 11 0
S9 8 10 12 0
On prend la distance maximale qui est égale à 12, et représenter par : {S9, S8}
C1.1.1 {S8}
C1.1.2 {S9}
Donc, S4 est plus proche de S9, avec une distance de 8, que de S8, cela implique qu’on aura :
C1.1.1 {S8}
Donc, S5 est plus proche de S4, avec une distance de 9, que des autres, cela implique qu’on
aura :
• Cluster 1.1.2 :
On suite, on fragmente {S9, S4} pour avoir {S9} et {S4}, on obtient un résultat final (Cluster
1.1.2) comme sur le dendrogramme suivant :
S4 S5 S9
S4 0
S5 9 0
S9 8 10 0