Vous êtes sur la page 1sur 5

BIO6: Bioinformatique applique

Correction du TD3
Exercice 1 : programmation dynamique
voir le site web indiqu dans le TD pour corriger l'exercice
Exercice 2 : similarit de squence et distance volutive
es squences sont classes par score dcroissant: on voit donc que la similarit et l'identit dcroissent dans
ce cas avec le score! et les gaps ont tendance " augmenter# On remarque que I$%&'($)( *insuline du c+ien,
et I$%&(OTT- *insuline du singe, ont le m.me pourcentage de similarit#
On va maintenant regarder la rpartition des esp/ces sont nous venons de comparer les insulines sur un arbre
p+0logntique#
On remarque que globalement une distance volutive plus proc!e correspond " une plus grande
similarit de squence# 1ar exemple! l'insuline de l'esp/ce la plus proc+e de l'+omme! '+lorocebus aet+iops
*une esp/ce de singe, prsente la plus forte similarit avec l'insuline +umaine# Inversement! celle du ver '#
elegans prsente la plus faible similarit! cette esp/ce tant galement la plus loigne de l'+omme dans la
liste#
INS_CERAE
INS_CANFA
INS_AOTTR
INS_SHEEP
INS_CAVPO
INS_OCTDE
INS_CHICK
INS_XENLA
INS_MYXGL
INS_CAEEL
0
20
40
60
80
100
120
simil!i"#
i$%&"i"#
'(s
'ependant! il 0 galement des cas o2 ce principe n'est pas
respect# e c+ien *'anis lupus, est volutivement plus
loign de l'+omme que le signe (otus trivirgatus! mais nous
avons remarqu tout " l'+eure que leurs insulines ont " peu
pr/s la m.me similarit avec l'insuline +umaine# On peut
penser que d'autres facteurs entrent en 3eu! par exemple le
rgime alimentaire#
(lignement multiple
es rgions correspondant aux 4 c+a5nes *violet, sont plus conserves volutivement *plus de rsidus
conservs dans les colonnes 6 plus d'toiles dans la ligne du bas,# 1ar contre! la rgion correspondant au
propeptide *rgion rouge, montre plus de variabilit 7 cette rgion sera clive et ne correspond pas " la partie
fonctionnelle de l'insuline#
Exercice 3 :$lastp
a# in%luence de la banque de donnes
(lignement de la squence 189:8; contre nr *gauc+e, et %wissprot *droite,# On a plus d'alignement de score
lev dans nr! car cette banque de donnes est environ 48 " :8 fois plus grande que %wiss1rot# a probabilit
d'avoir des +omologues proc+es est donc plus forte#
(lignement 189:86 contre 16<=<:
dans la banque de donnes nr :
dans la banque de donnes %wiss1rot
Tout est rigoureusement identique entre ces deux alignements! " l'exception de l'evalue! qui est plus lev
dans le premier cas *>e?4:, que dans le second *9e?4>,# " encore! la taille plus importante de $- explique
cette diffrence : la probabilit que cet alignement soit un faux?positif *i#e# ne refl/te pas une vraie
+omologie, est plus grande contre $- que contre %wiss1rot#
b# restriction " certains organismes
-estriction aux bactries : le meilleur evalue est 9e?@! au del" du seuil de confiance de 9e?98 7 en regardant
l'alignement et la description de la protine aligne! on conclut qu'il s'agit d'un faux positif : il n'0 a donc pas
de protines +omologues aux insulines dans les bactries# 1ar contre! on en trouve trois dans les plantes#
Exercice &: utilisation de $'()Tx
(-$m en +oriAontal
(D$ gnomique en vertical
'+aque ligne blanc+e reprsente un exon *commun entre les 4
squences,#
'es exons sont interrompus par des introns *que l'on trouve uniquement
dans la squence d'(D$ gnomique,
(ux extrmits @' et :'! l'(D$ gnomique est plus long que l'(-$
messager:
l'(*+ messager reprsente un transcrit particulier! qui a un site
d'initiation de la transcription dcal par rapport au site standard#
1ar contre! on voit aussi *cercle rouge, que la squence d'(-$
messager contient une partie que l'on trouve pas dans l'(D$
gnomique: c'est la queue
poly,( *la ligne blanc+e ne va pas 3usqu'au bord droit,
e navigateur de gnome d'Bnsembl
montre les diffrents transcrits alternatifs
du g/ne en question7 le transcrit le plus
long est %':=(<?88: *fl/c+e bleue,!
mais certains transcrits commencent apr/s
*fl/c+e rouge par exemple,
e dotlet ne permet pas de rpondre " la question de la prsence ou non d'CT-: rien ne distingue les CT-
des parties traduites dans la squence d'(-$m#
1our reprer les CT-! il faut comparer la protine " l'(-$m: c'est ce que permet B(%TD
B(%TD traduit naEvement l'(-$m en protine *dans les 6 cadres de lectures possibles,!
et compare le rsultat " une banque de donnes
protique *ici nr,
e diagramme indique que les parties @' et :' de
l'(-$ messager! traduite dans les 6 cadres de lecture
possibles! ne ressemblent " aucune protine connue
*pas d'alignement,#
1ar contre! la partie centrale *entre les positions :>@ et 9<@9 de l'(-$m, a une tr/s forte similarit avec des
protines! notamment la protine code par le g/ne %':=(< +umain *==F identit,# Il est probable que
l'(-$m corresponde " ce g/ne#
b# *ec!erc!e de rgions codantes:
Blastx d'un fragment d'(D$ inconnu contre nr:
la traduction de ce fragment dans le cadre de lecture ?9 ressemble
" des protines connues! mais uniquement pour la partie $
terminale#
e fragment semble donc contenir un g/ne sur le brin reverse
complmentaire entre les positions 8 et G 688#
e g/ne est incomplet: en effet! la protine +omologue fait :69
((! alors que l'alignement s'arr.te au bout de 9=4 ((! simplement
parce qu'on est arriv au dbut du fragment d'(D$ position >#