Vous êtes sur la page 1sur 8

Recherche ORF

PROTOCOLE:
Comme indiqu dans le cours, pour chercher des ORF on suit les tapes suivantes:
> Recherche d'ORF
> ORF finder
> copier la squence polynuclotidique (forme fasta) dans "the text area"
> autoriser le choix de n'importe quel codon pour l'initiation (any codon)
> choisir 3 cadres de lecture (1, 2 et 3);
> fixer le nombre minimal de codons 60 (les orf proposes doivent coder pour des polypeptides d'au moins 60 acides
amins).
> on choisit le sens direct > submit puis le sens REVERS > submit
ANALYSE DES RSULTATS:
Le but est de trouver une squence susceptible de coder pour une protine ou un polypeptide.
1/ SENS DIRECT /
aucune ORF n'a t trouve dans ce sens avec les diffrents cadres de lecture :
==> on suppose qu'aucune squence nuclotidique n'est susceptible de s'exprimer dans ce sens.
2/ SENS INDIRECT
a- Aucune ORF n'a t trouve dans les cadre de lecture 1 et 3 ;
b- Deux ORF ont t trouves dans le cadre de lecture 2 :
la 1re : de la base 2 187
la seconde: de la base 188 994 (elle se trouve juste aprs la 1re)
Pour choisir l'ORF la plus intressante des 02, on se base sur le principe que l'ORF la plus longue est la plus significative:
==> l'ORF que je choisit d'tudier est la seconde ; elle est nettement plus longue que la 1re
sa taille est de : 994 - 188 + 1 = 807 Nuclotides, donc 269 codons.
TRADUCTION /
Aprs traduction, je remarque que ma squence est complte : elle commence par un codon d'initiation
(mthionine) et se termine par un codon stop. On peut donc calculer sa masse molculaire toujours avec le logiciel
SMS> Protein Molecular Weight

Rsultat : PM = 30.33 kD (kilo Dalton).

Modlisation 3D
Un gne code pour une structure 3D prcise: les aa la stabilisent par leurs proprits physico-chimiques particulires.
On peut donc prdire l'alignement (la structure tri dimensionnelle) d'une protine (ou polypeptide) partir des aa qui
la forment comme un pur modle physico-chimique.
C'est sur ce principe que se basent les logiciels de prdiction des structure 3D pour les squences inconnues.

Le logiciel que j'ai utilis dans ce cas est "LOOP-3D".

Pour mieux visualiser la structure 3D, j'ai utilis le logiciel RasMol ; j'ai pu constater que :

* ma protine n'est forme que par des hlices (11 hlices) et 15 coudes. Les hlices sont stabilises par des liaisons
Hydrogne et les Forces de VAN DER WAALS;

* Ma molcule ne comporte aucune Cystine
(en tapant SELECT CYS dans la fentre de texte ===> no atoms selected)

Comme sa prsence dans les protines est trs importante, notamment parce qu'elle permet la formation des ponts
disulfures, j'ai suppos que ma protine ne possde aucun pont disulfure
Chose que j'ai confirme (ssbonds >>>> nombre de ponts.....0).

D'aprs un cours de biochimie de l'universit d'ANGERS : """Les ponts disulfures sont forms dans un environnement
cellulaire oxydant. Le cytoplasme n'tant pas un milieu oxydant, il y a trs peu de protines intracellulaires qui
possdent des ponts disulfure"""" il est donc possible que ma protine soit intracellulaire.
Domaines Protiques
PROTOCOLE:
> INTERPRO
> copier coller la traduction
> submit ........ attendre quelques instants
> summary table
> noter dans le tableau les domaines protiques les plus significatifs

ANALYSE DES RSULTATS:
Sur le plan structural et fonctionnel, chaque partie d'un gne peut assurer une fonction indpendante du reste du
gne. Cest le cas par exemple de certains gnes qui codent pour diffrentes sous-units dun mme complexe ou pour
des enzymes multi-fonctionnelles.
Ces parties du gne qui constituent des units dvolution part entire et qui ont une structure et une fonction propre
sont appeles modules ou domaines.
La plupart des protines sont modulaires, cest dire constitues de domaines et cette modularit fausse les rsultats
de nombreuses mthodes en gnomique comparative.
Il est donc prfrable d'utiliser comme unit non plus le gne mais le domaine.
En d'autres termes : un domaine protique est une unit structurale (et fonctionnelle) indpendante, volutivement
conserve. Une famille protique est un ensemble de protines relies; elles ont un ou plusieurs domaines protiques
communs.
le logiciel INTERPRO permet justement de trouver des domaines protiques dans la squence propose et de prdire
quelle famille ils appartiennent.
Dans notre cas, il n'a trouv qu'un seul domaine protique, dans la base de donne PFAM, commenant de l'AA n
139 L'AA 237. Notre ORF coderait, probabement, pour une protase " CAAX amino terminal protease" aussi dite "
CAAX protease self-immunity "avec un risque d'erreur minime (4.1E-14). Son rle est peu connu chez les procaryotes,
elle aurait un rle dans l'immunit bactrienne, elle protgerait les bactries des bactriocines.
Elle appartiendrait la famille "abi", les membres de cette famille sont des protases.
Remarque:
deux domaines protiques ont t trouvs dans "unintegrated" ==> ils ne sont pas pris en considration.
GO terms : 00016020 membrane (domaine galement retrouv chez les champignons "Aspergillus, Candida" et chez les
plantes.
Analyse Blast
PROTOCOLE:
> blast
> protein blast
> copier puis coller la squence fasta de la protine
> Algorithm parameters
> fixer "max target sequences" 500
> Blast

ANALYSE DES RSULTATS:
L'objectif est de rechercher des homologues ma protines afin de prdire sa fonction et son origine.
Ce logiciel va comparer ma squence avec chacune des squences de sa banque de donnes(une par une), et va calculer
un score de similitude et le E-value , le risque d'erreur, pour chacune d'entre-elles.
Rsultat :
* La premire chose que j'ai remarqu est que plus de la moiti des bandes sont de couleur rouge (score> 200) et le
reste en rose (score de 80-200). Ma squence prsente donc de nombreux homologues avec des scores levs et des
probabilits d'erreurs ngligeables.
En regardant plus bas dans le tableau, je remarque que les homologues classs en 1er (les plus significatifs, ou les plus
proches de ma squence) appartiennent la famille des Flavobacteriaceae (Flavobacterium,
Leeuwenhoekiella,Gramella, Zobellia,...).
les Flavobactriaces sont des bacilles Gram ngatif, non sporuls. Leur habitat est trs vaste : sol, eau douce et
sdiments des lacs et des rivires, eau de mer et environnement marin, boues actives, biofilms, plantes, aliments ,
cavit buccale de l'homme ou des animaux, ponges, holothuries, oursins...
Dans le milieu extrieur, ces bactries joueraient un rle important dans la dgradation de multiples substrats
organiques.
De manire gnrale ,les scores varient de 293 (avec E-value= 2e-95,risque d'erreur presque nul) 40 (avec e-value
0.2):
* "1" la protine qui a le meilleur score et le e-value le plus significatif est : Abortive infection protein, c'est une CAAX
amino terminal( CAAX protease self-immunity protease ) retrouve chez les : Flavobacteria bacterium MS024-2A;
* "2" la squence qui a le score le plus bas (40) et le E-value le plus lev (0.2 => un grand risque d'erreur) est aussi une
CAAX amino terminal protease mais appartenant une autre famille de bactrie , les bacillaceae[Bacillus cereus biovar
anthracis str. CI].
On peut donc supposer que ces squences (1, 2 et ma squence) proviennent d'un mme anctre, la "2" a peut tre
subi plusieurs mutations , seul le site actif a t pargn.C'est pourquoi elle a gard la mme fonction protolytique ,
avec un score de similitude bas.
Ces rsultats correspondent ceux trouvs par Interpro.
Rapport Taxonomique
PROTOCOLE:
> NCBI
> blastp
> taxonomy repport
> slectionner un groupe d'tude et un groupe externe, les cocher sur les rsultats Blast
ANALYSE DES RSULTATS:
Le but de cette tape est de trouver les hits qui synthtisent presque la mme protine traduite (des squences
protiques similaires), toujours pour deviner la fonction de ma protine et choisir les homologues avec lesquels on va la
comparer pour construire son arbre phylognique.
************ Groupe d'tude **************
Ce groupe n'est constitu que par des espces du phylum [CFB group bacteria], avec des scores allant de 293 - 218 ; 13
squences ont 2 hits, et une seule a 1 hit.
1/ Flavobacteria bacterium MS024-2A -------------------- 293 2 hits [CFB group bacteria] Abortive infection protein
[Flavobacteria bacterium MS024-2
2/ Flavobacterium branchiophilum FL-15 ------------------- 253 2 hits [CFB group bacteria] yyaK gene product
[Flavobacterium branchiophilum FL-15] >gi
3/ Flavobacterium columnare ATCC 49512 ................... 247 2 hits [CFB group bacteria] unnamed protein product
[Flavobacterium columnare ATCC 4951
4/ Joostella marina DSM 19592 ............................ 247 2 hits [CFB group bacteria] putative metal-dependent
membrane protease [Joostella marin
5/ Flavobacterium psychrophilum JIP02/86 ................. 240 2 hits [CFB group bacteria] yyaK gene product
[Flavobacterium psychrophilum JIP02/86] >
6/ Flavobacteriaceae bacterium HQM9 ...................... 239 1 hit [CFB group bacteria] hypothetical protein
FbacHQ_12479 [Flavobacteriaceae bacter
7/ Flavobacterium frigoris PS1 ........................... 236 2 hits [CFB group bacteria] hypothetical protein HJ01_02781
[Flavobacterium frigoris PS
8/ Flavobacterium johnsoniae UW101 ....................... 236 2 hits [CFB group bacteria] unnamed protein product
[Flavobacterium johnsoniae UW101] >
9/ Leeuwenhoekiella blandensis MED217 .................... 228 2 hits [CFB group bacteria] hypothetical protein
MED217_14260 [Leeuwenhoekiella blanden
10/ Zobellia galactanivorans .............................. 227 2 hits [CFB group bacteria] unnamed protein product [Zobellia
galactanivorans] >gi|3397
11/ Polaribacter sp. MED152 ............................... 226 2 hits [CFB group bacteria] CAAX amino terminal protease
family [Polaribacter sp. MED15
12/ Cellulophaga algicola DSM 14237 ....................... 226 2 hits [CFB group bacteria] unnamed protein product
[Cellulophaga algicola DSM 14237] >
13/ Flavobacteriales bacterium ALC-1 ...................... 223 2 hits [CFB group bacteria] hypothetical protein
FBALC1_07538 [Flavobacteriales bacteri
14/ Maribacter sp. HTCC2170 ............................... 218 2 hits [CFB group bacteria] hypothetical protein FB2170_12846
[Maribacter sp. HTCC2170]
*****************Groupe externe**********************
Il est constitu de bactries appartenant diffrents groupes (Firmicutes,Cyanobacteria et GNS bacteria " Phylum des
Chlorobactries"). Ce sont des squences 2 hits, leurs scores vont de 122 95.
1/ Clostridium clariflavum DSM 19732 --------------------------- 122 2 hits [firmicutes] unnamed protein product
[Clostridium clariflavum DSM 19732]
2/ Clostridium sp. BNL1100 ..................................... 105 2 hits [firmicutes] unnamed protein product [Clostridium
sp. BNL1100] >gi|37394
3/ Bacillus megaterium WSH-002 ................................. 99 2 hits [firmicutes] yyaK gene product [Bacillus
megaterium WSH-002] >gi|3454433

4/ Nostoc sp. PCC 7120 ......................................... 96 2 hits [cyanobacteria] unnamed protein product [Nostoc sp.
PCC 7120] >gi|17131232|
5/ Roseiflexus sp. RS-1 ........................................ 93 2 hits [GNS bacteria] abortive infection protein [Roseiflexus
sp. RS-1] >gi|14857
6/ Anaerolinea thermophila UNI-1 ............................... 95 2 hits [GNS bacteria] putative hydrolase [Anaerolinea
thermophila UNI-1] >gi|3199
Alignement Mulitiple
PROTOCOLE:
> CLUSTALw
> copier coller les homologues choisis avec ma squence
> submit
ANALYSE DES RSULTATS:
Lalignement multiple permet de comparer, contrairement au blast, PLUSIEURS SEQUENCES EN MME TEMPS. Il
permet surtout d'identifier les rgions conserves par ma squence et les homologues (dtecter les rgions
conserves):
* ----- rsidu parfaitement conserv
: ----- substitution conservative
. ----- substitution semi-conservative
* le dbut de ma squence correspond au dbut de la plupart des autre squences; en revanche on peut remarquer
que Chloro1(786 aa) est beaucoup plus grande que toutes les autres squences.
* le dbut de ma squence ne ressemble aucune autre squence (trs peu d'toiles et de points qui sont en plus
loigns les uns des autres); il n'y a pas de similarit entre cette rgion et les 20 autres.
* on remarque que les toiles et les points (avec quelques petits vides) apparaissent partir de l'aa 148 et jusqu' l'aa
255 .
Il s'agit donc d'une seule rgion conserve (c'est ce qui a t prdit par INTERPRO).
********************Remarque*******************
En revoyant les "petits vides" de la rgion conserve; on remarque que pour le vide :
220 225 : les aa sont presque les mmes pour ma squence et les homologue du groupe d'tude, mais ils diffrent de
ceux des membres du groupe externe , c'est ce qui explique l'absence d'toiles dans cette rgion.
Mme remarque pour la rgion 239-246.

Arbre Phylognique
PROTOCOLE:
> Phylogenie
> Protdist/FastDist + Neighbor
> Step by step
> Create workflow
> Copier coller les homologues dbarrasss des surplus des tiquettes (ne garder que les noms quon leur a attribus et
la traduction)
> Submit > Next step > Submit
> Phylogeny set.
> Submit > Next step > Submit
> Text
> Copier puis coller le rsultat dans le champ rsultat brut.
ANALYSE DES RSULTATS:
Le principe est le suivant : les protines aux squences similaires ont souvent un anctre commun .
Le but de cette tape est de chercher l'origine de ma protine et son "degr de parent" avec les membres des deux
groupes choisis.
* Je remarque la prsence de trois "bloc" :
1er -> form par BACILLUS et Nostoc (cyanobactrie) ;
2e -> form par toutes les flavobactries auxquelles s'intgre ma protine ;
3e -> form par les Clostridium et les chlorobactries.
* Je remarque aussi que contrairement mes prdictions (et malgr un risque d'erreur presque nul pour flavo1) ; mon
inconnue est plus proche de Flavo2 (qui a donn une score de 253) que de Flavo1 (293).
* Comme prvu, les membres du groupe externe sont les plus loigns de mon inconnue.
* On peut supposer que la squence tudie est issue d'une Flavobactrie de l'espce Flavobacterium branchiophilum ;
ou d'une espce trs proche.
Conclusion
Lobjectif de ce travail est la prdiction de la structure, la fonction et lorigine volutive de squences
biologiques prleves dans des milieux marins et stockes dans Genbank sans aucune annotation. La
squence que jai tent dannoter est forme de 1012 pb. Elle provient de Cabo Marshall, Isabella Island. La
date du prlvement et la profondeur do il a t pris ne sont pas mentionnes. Mon travail sest fait en
plusieurs tapes successives (le protocole et lanalyse des rsultats sont dtaills dans chaque tape). En
utilisant les outils mis ma disposition, jai trouv les rsultats suivants : * La phase de lecture ouverte ou ORF
la plus significative, a t trouve (avec le logiciel SMS) dans le sens indirect, cadre de lecture 2. Sa taille est
de 807 Nuclotides (269 codons). * Aprs traduction, jai remarqu que la protine code par mon ORF est
une squence complte, elle commence par un codon dinitiation et se termine par un codon stop, jai donc
calcul son poids molculaire (PM = 30.33 kD). * Le logiciel RasMol ma permis de visualiser la structure
tridimensionnelle de ma protine, elle est forme de 11 hlices et 15 coudes. * Un seul domaine protique
(avec un risque d'erreur minime de 4.1E-14) a t identifi par le logiciel INTERPRO, dans la base de donnes
PFAM. Ce domaine commence de lacide amin n 139 laa n 237. Il sagirait dune peptidase ou protase
(la famille Abi) : " CAAX amino terminal protease" aussi dite " CAAX protease self-immunity " correspondant
au terme GO : 00016020 membrane. Ce rsultat a t par la suite confirm par lanalyse Blast et lalignement
multiple. En effet, La rgion conserve et son rle fonctionnel concordent parfaitement avec les rsultats
dINTERPRO. Selon ces mmes sources, le rle de cette enzyme est peu connu chez les procaryotes, elle aurait
un rle dans l'immunit bactrienne : elle protgerait les bactries des antimicrobiens et mme de leurs
propres bactriocines. Lanalyse Blast et lalignement multiple mont aussi permis de trouver des homologues
ma squence et de construire un arbre phylogntique. Les rsultats de ces dernires tapes me laissent
supposer que mon polypeptide provient, ventuellement, dune Flavobactrie : Flavobacterium
branchiophilum. C'est l'homologue qui a prsent le second meilleur score en analyse Blast (253 ; e-value =
7e-80). Mon enzyme serait cod par le gne yyaK de cette espce. Les flavobactries appartiennent au
phylum des Cytophaga-Flavobacteria-Bacteroides (CFB), sous groupe des Cytophagales. Daprs le site
Genoscope (*), ces bactries sont principalement des chimio-organo-htrotrophes arobies spcialiss dans
la dgradation des polymres. Des tudes ont montr leur abondance dans les SYSTEMES MARINS (ce qui
renforce mon hypothse, ma squence t prleve dun milieu marin, il est donc fort possible quelle soit
issue de ces bactries). Les Cytophagales nont quune faible importance dans le cadre de la sant humaine,
mais suscitent des inquitudes en matire de dtrioration des aliments et de pathognicit pour les
poissons.En effet, Flavobacterium branchiophilum est le principal responsable de la maladie des branchies
; une pathologie affectant principalement les salmonids. Depuis la premire description de cette bactrie au
Japon, F. branchiophilum a t dtect dans de nombreuses rgions pratiquant la salmoniculture (Etats-Unis,
Hongrie, Canada, Core). La synthse de protases (dont, probablement la " CAAX amino terminal protease")
est voque comme tant un lment du pouvoir pathogne et pourrait expliquer les lsions de ncrose des
cellules pithliales. Pour rcapituler ; la squence sur laquelle jai travaill proviendrait de lespce
Flavobacterium branchiophilum . Elle coderait pour une protase. Cette enzyme jouerait un rle dans la
protection de ces bactries des bactriocines et serait implique dans leur pathognicit. (*)Genoscope :
Centre National de Squenage. Institut de gnomique, Direction des Sciences du vivant, 91 057 Evry Cedex,
France. > http://www.genoscope.cns.fr/spip/-Flavobacterium-branchiophilum,424-.html (consult le
15/05/2012).