Vous êtes sur la page 1sur 8

Recherche ORF

PROTOCOLE:
Comme indiqu dans le cours, pour chercher des ORF on suit les tapes suivantes:
> Recherche d'ORF
> ORF finder
> copier la squence polynuclotidique (forme fasta) dans "the text area"
> autoriser le choix de n'importe quel codon pour l'initiation (any codon)
> choisir 3 cadres de lecture (1, 2 et 3);
> fixer le nombre minimal de codons 60 (les orf proposes doivent coder pour des
polypeptides d'au moins 60 acides amins).
> on choisit le sens direct > submit puis le sens REVERS > submit
ANALYSE DES R SULTATS:
Le but est de trouver une squence susceptible de coder pour une protine ou un
polypeptide.
1/ SENS DIRECT /
aucune ORF n'a t trouve dans ce sens avec les diffrents cadres de lecture :
==> on suppose qu'aucune squence nuclotidique n'est susceptible de s'exprimer dans ce
sens.
2/ SENS INDIRECT
a- Aucune ORF n'a t trouve dans les cadre de lecture 1 et 3 ;
b- Deux ORF ont t trouves dans le cadre de lecture 2 :
la 1re :

de la base 2 187

la seconde: de la base 188 994 (elle se trouve juste aprs la

1re)

Pour choisir l'ORF la plus intressante des 02, on se base sur le principe que l'ORF la plus longue
est la plus significative:
==> l'ORF que je choisit d'tudier est la seconde ; elle est nettement plus longue que la 1re
sa taille est de : 994 - 188 + 1 = 807 Nuclotides, donc 269 codons.
TRADUCTION /
Aprs traduction, je remarque que ma squence est complte : elle commence par un codon
d'initiation (mthionine) et se termine par un codon stop. On peut donc calculer sa masse
molculaire toujours avec le logiciel SMS> Protein Molecular Weight

Rsultat : PM = 30.33 kD (kilo Dalton).

Modlisation 3D
Un gne code pour une structure 3D prcise: les aa la stabilisent par leurs proprits physicochimiques particulires.
On peut donc prdire l'alignement (la structure tri dimensionnelle) d'une protine (ou
polypeptide) partir des aa qui la forment comme un pur modle physico-chimique.
C'est sur ce principe que se basent les logiciels de prdiction des structure 3D pour les
squences inconnues.

Le logiciel que j'ai utilis dans ce cas est "LOOP-3D".

Pour mieux visualiser la structure 3D, j'ai utilis le logiciel RasMol ; j'ai pu constater que :

* ma protine n'est forme que par des hlices (11 hlices) et 15 coudes. Les hlices sont
stabilises par des liaisons Hydrogne et les Forces de VAN DER WAALS;

* Ma molcule ne comporte aucune Cystine


(en tapant SELECT CYS dans la fentre de texte ===> no atoms selected)

Comme sa prsence dans les protines est trs importante, notamment parce qu'elle permet la
formation des ponts disulfures, j'ai suppos que ma protine ne possde aucun pont disulfure
Chose que j'ai confirme (ssbonds >>>> nombre de ponts.....0).

D'aprs un cours de biochimie de l'universit d'ANGERS : """Les ponts disulfures sont forms
dans un environnement cellulaire oxydant. Le cytoplasme n'tant pas un milieu oxydant, il y a
trs peu de protines intracellulaires qui possdent des ponts disulfure"""" il est donc possible
que ma protine soit intracellulaire.

Domaines Protiques
PROTOCOLE:
> INTERPRO
> copier coller la traduction
> submit ........ attendre quelques instants
> summary table
> noter dans le tableau les domaines protiques les plus significatifs

ANALYSE DES R SULTATS:

Sur le plan structural et fonctionnel, chaque partie d'un gne peut assurer une fonction
indpendante du reste du gne. Cest le cas par exemple de certains gnes qui codent pour
diffrentes sous-units dun mme complexe ou pour des enzymes multi-fonctionnelles.
Ces parties du gne qui constituent des units dvolution part entire et qui ont une structure
et une fonction propre sont appeles modules ou domaines.
La plupart des protines sont modulaires, cest dire constitues de domaines et cette
modularit fausse les rsultats de nombreuses mthodes en gnomique comparative.
Il est donc prfrable d'utiliser comme unit non plus le gne mais le domaine.
En d'autres termes : un domaine protique est une unit structurale (et fonctionnelle)
indpendante, volutivement conserve. Une famille protique est un ensemble de protines
relies; elles ont un ou plusieurs domaines protiques communs.
le logiciel INTERPRO permet justement de trouver des domaines protiques dans la squence
propose et de prdire quelle famille ils appartiennent.
Dans notre cas, il n'a trouv qu'un seul domaine protique, dans la base de donne PFAM,
commenant de l'AA n 139 L'AA 237. Notre ORF coderait, probabement, pour une protase "
CAAX amino terminal protease" aussi dite " CAAX protease self-immunity "avec un risque
d'erreur minime (4.1E-14). Son rle est peu connu chez les procaryotes, elle aurait un rle dans
l'immunit bactrienne, elle protgerait les bactries des bactriocines.
Elle appartiendrait la famille "abi", les membres de cette famille sont des protases.
Remarque:
deux domaines protiques ont t trouvs dans "unintegrated" ==> ils ne sont pas pris en
considration.
GO terms : 00016020 membrane (domaine galement retrouv chez les champignons
"Aspergillus, Candida" et chez les plantes.

Analyse Blast
PROTOCOLE:
> blast
> protein blast
> copier puis coller la squence fasta de la protine
> Algorithm parameters
> fixer "max target sequences" 500
> Blast

ANALYSE DES R SULTATS:


L'objectif est de rechercher des homologues ma protines afin de prdire sa fonction et son
origine.
Ce logiciel va comparer ma squence avec chacune des squences de sa banque de
donnes(une par une), et va calculer un score de similitude et le E-value , le risque d'erreur,
pour chacune d'entre-elles.

Rsultat :
* La premire chose que j'ai remarqu est que plus de la moiti des bandes sont de couleur
rouge (score> 200) et le reste en rose (score de 80-200). Ma squence prsente donc de
nombreux homologues avec des scores levs et des probabilits d'erreurs ngligeables.
En regardant plus bas dans le tableau, je remarque que les homologues classs en 1er (les plus
significatifs, ou les plus proches de ma squence) appartiennent la famille des
Flavobacteriaceae (Flavobacterium, Leeuwenhoekiella,Gramella, Zobellia,...).
les Flavobactriaces sont des bacilles Gram ngatif, non sporuls. Leur habitat est trs vaste
: sol, eau douce et sdiments des lacs et des rivires, eau de mer et environnement marin,
boues actives, biofilms, plantes, aliments , cavit buccale de l'homme ou des animaux,
ponges, holothuries, oursins...
Dans le milieu extrieur, ces bactries joueraient un rle important dans la dgradation de
multiples substrats organiques.
De manire gnrale ,les scores varient de 293 (avec E-value= 2e-95,risque d'erreur presque
nul) 40 (avec e-value 0.2):
* "1" la protine qui a le meilleur score et le e-value le plus significatif est : Abortive infection
protein, c'est une CAAX amino terminal( CAAX protease self-immunity protease ) retrouve chez
les : Flavobacteria bacterium MS024-2A;
* "2" la squence qui a le score le plus bas (40) et le E-value le plus lev (0.2 => un grand
risque d'erreur) est aussi une CAAX amino terminal protease mais appartenant une autre
famille de bactrie , les bacillaceae[Bacillus cereus biovar anthracis str. CI].
On peut donc supposer que ces squences (1, 2 et ma squence) proviennent d'un mme
anctre, la "2" a peut tre subi plusieurs mutations , seul le site actif a t pargn.C'est
pourquoi elle a gard la mme fonction protolytique , avec un score de similitude bas.
Ces rsultats correspondent ceux trouvs par Interpro.

Rapport Taxonomique
PROTOCOLE:
> NCBI
> blastp
> taxonomy repport
> slectionner un groupe d'tude et un groupe externe, les cocher sur les rsultats Blast
ANALYSE DES R SULTATS:
Le but de cette tape est de trouver les hits qui synthtisent presque la mme protine
traduite (des squences protiques similaires), toujours pour deviner la fonction de ma protine
et choisir les homologues avec lesquels on va la comparer pour construire son arbre
phylognique.
************ Groupe d'tude **************
Ce groupe n'est constitu que par des espces du phylum [CFB group bacteria], avec des scores
allant de 293 - 218 ; 13 squences ont 2 hits, et une seule a 1 hit.
1/ Flavobacteria bacterium MS024-2A -------------------- 293 2 hits [CFB group bacteria]
infection protein [Flavobacteria bacterium MS024-2

Abortive

2/ Flavobacterium branchiophilum FL-15 ------------------- 253 2 hits [CFB group bacteria]


gene product [Flavobacterium branchiophilum FL-15] >gi

yyaK

3/ Flavobacterium columnare ATCC 49512 ................... 247 2 hits [CFB group bacteria]
unnamed protein product [Flavobacterium columnare ATCC 4951
4/ Joostella marina DSM 19592 ............................ 247 2 hits [CFB group bacteria]
metal-dependent membrane protease [Joostella marin

putative

5/ Flavobacterium psychrophilum JIP02/86 ................. 240 2 hits [CFB group bacteria]


gene product [Flavobacterium psychrophilum JIP02/86] >

yyaK

6/ Flavobacteriaceae bacterium HQM9 ...................... 239 1 hit [CFB group bacteria]


hypothetical protein FbacHQ_12479 [Flavobacteriaceae bacter
7/ Flavobacterium frigoris PS1 ........................... 236 2 hits [CFB group bacteria]
protein HJ01_02781 [Flavobacterium frigoris PS

hypothetical

8/ Flavobacterium johnsoniae UW101 ....................... 236 2 hits [CFB group bacteria]


unnamed protein product [Flavobacterium johnsoniae UW101] >
9/ Leeuwenhoekiella blandensis MED217 .................... 228 2 hits [CFB group bacteria]
hypothetical protein MED217_14260 [Leeuwenhoekiella blanden
10/ Zobellia galactanivorans .............................. 227 2 hits [CFB group bacteria]
protein product [Zobellia

unnamed

galactanivorans] >gi|3397
11/ Polaribacter sp. MED152 ............................... 226 2 hits [CFB group bacteria]
terminal protease family [Polaribacter sp. MED15

CAAX amino

12/ Cellulophaga algicola DSM 14237 ....................... 226 2 hits [CFB group bacteria]
unnamed protein product [Cellulophaga algicola DSM 14237] >
13/ Flavobacteriales bacterium ALC-1 ...................... 223 2 hits [CFB group bacteria]
hypothetical protein FBALC1_07538 [Flavobacteriales bacteri
14/ Maribacter sp. HTCC2170 ............................... 218 2 hits [CFB group bacteria]
hypothetical protein FB2170_12846 [Maribacter sp. HTCC2170]
*****************Groupe externe**********************
Il est constitu de bactries appartenant diffrents groupes (Firmicutes,Cyanobacteria et GNS
bacteria " Phylum des Chlorobactries"). Ce sont des squences 2 hits, leurs scores vont de
122 95.
1/ Clostridium clariflavum DSM 19732 --------------------------- 122 2 hits [firmicutes]
unnamed protein product [Clostridium clariflavum DSM 19732]
2/ Clostridium sp. BNL1100 ..................................... 105 2 hits [firmicutes]
protein product [Clostridium sp. BNL1100] >gi|37394
3/ Bacillus megaterium WSH-002 ................................. 99 2 hits [firmicutes]
product [Bacillus megaterium WSH-002] >gi|3454433

4/ Nostoc sp. PCC 7120 ......................................... 96 2 hits [cyanobacteria]


protein product [Nostoc sp. PCC 7120] >gi|17131232|

unnamed
yyaK gene

unnamed

5/ Roseiflexus sp. RS-1 ........................................ 93 2 hits [GNS bacteria]


infection protein [Roseiflexus sp. RS-1] >gi|14857

abortive

6/ Anaerolinea thermophila UNI-1 ............................... 95 2 hits [GNS bacteria]


hydrolase [Anaerolinea thermophila UNI-1] >gi|3199

putative

Alignement Mulitiple
PROTOCOLE:
> CLUSTALw
> copier coller les homologues choisis avec ma squence
> submit
ANALYSE DES R SULTATS:
Lalignement multiple permet de comparer, contrairement au blast, PLUSIEURS SEQUENCES
EN M ME TEMPS. Il permet surtout d'identifier les rgions conserves par ma squence et les
homologues (dtecter les rgions conserves):
* ----- rsidu parfaitement conserv
: ----- substitution conservative
. ----- substitution semi-conservative
* le dbut de ma squence correspond au dbut de la plupart des autre squences; en revanche
on peut remarquer que Chloro1(786 aa) est beaucoup plus grande que toutes les autres
squences.
* le dbut de ma squence ne ressemble aucune autre squence (trs peu d'toiles et de
points qui sont en plus loigns les uns des autres); il n'y a pas de similarit entre cette rgion
et les 20 autres.
* on remarque que les toiles et les points (avec quelques petits vides) apparaissent partir de
l'aa 148 et jusqu' l'aa 255 .
Il s'agit donc d'une seule rgion conserve (c'est ce qui a t prdit par INTERPRO).
********************Remarque*******************
En revoyant les "petits vides" de la rgion conserve; on remarque que pour le vide :
220 225 : les aa sont presque les mmes pour ma squence et les homologue du groupe
d'tude, mais ils diffrent de ceux des membres du groupe externe , c'est ce qui explique
l'absence d'toiles dans cette rgion.
Mme remarque pour la rgion 239-246.

Arbre Phylognique
PROTOCOLE:
> Phylogenie
> Protdist/FastDist + Neighbor
> Step by step
> Create workflow
> Copier coller les homologues dbarrasss des surplus des tiquettes (ne garder que les noms
quon leur a attribus et la traduction)
> Submit > Next step > Submit
> Phylogeny set.
> Submit > Next step > Submit
> Text
> Copier puis coller le rsultat dans le champ rsultat brut.
ANALYSE DES R SULTATS:
Le principe est le suivant : les protines aux squences similaires ont souvent un anctre
commun .
Le but de cette tape est de chercher l'origine de ma protine et son "degr de parent" avec
les membres des deux groupes choisis.
* Je remarque la prsence de trois "bloc" :
1er -> form par BACILLUS et Nostoc (cyanobactrie) ;
2e -> form par toutes les flavobactries auxquelles s'intgre ma protine ;
3e -> form par les Clostridium et les chlorobactries.
* Je remarque aussi que contrairement mes prdictions (et malgr un risque d'erreur presque
nul pour flavo1) ; mon inconnue est plus proche de Flavo2 (qui a donn une score de 253) que
de Flavo1 (293).
* Comme prvu, les membres du groupe externe sont les plus loigns de mon inconnue.
* On peut supposer que la squence tudie est issue d'une Flavobactrie de l'espce
Flavobacterium branchiophilum ; ou d'une espce trs proche.

Conclusion
Lobjectif de ce travail est la prdiction de la structure, la fonction et lorigine volutive
de squences biologiques prleves dans des milieux marins et stockes dans Genbank
sans aucune annotation. La squence que jai tent dannoter est forme de 1012 pb.
Elle provient de Cabo Marshall, Isabella Island. La date du prlvement et la profondeur
do il a t pris ne sont pas mentionnes. Mon travail sest fait en plusieurs tapes
successives (le protocole et lanalyse des rsultats sont dtaills dans chaque tape). En
utilisant les outils mis ma disposition, jai trouv les rsultats suivants : * La phase de
lecture ouverte ou ORF la plus significative, a t trouve (avec le logiciel SMS) dans le

sens indirect, cadre de lecture 2. Sa taille est de 807 Nuclotides (269 codons). * Aprs
traduction, jai remarqu que la protine code par mon ORF est une squence
complte, elle commence par un codon dinitiation et se termine par un codon stop, jai
donc calcul son poids molculaire (PM = 30.33 kD). * Le logiciel RasMol ma permis de
visualiser la structure tridimensionnelle de ma protine, elle est forme de 11 hlices et
15 coudes. * Un seul domaine protique (avec un risque d'erreur minime de 4.1E-14) a
t identifi par le logiciel INTERPRO, dans la base de donnes PFAM. Ce domaine
commence de lacide amin n 139 laa n 237. Il sagirait dune peptidase ou
protase (la famille Abi) : " CAAX amino terminal protease" aussi dite " CAAX protease
self-immunity " correspondant au terme GO : 00016020 membrane. Ce rsultat a t par
la suite confirm par lanalyse Blast et lalignement multiple. En effet, La rgion
conserve et son rle fonctionnel concordent parfaitement avec les rsultats
dINTERPRO. Selon ces mmes sources, le rle de cette enzyme est peu connu chez les
procaryotes, elle aurait un rle dans l'immunit bactrienne : elle protgerait les
bactries des antimicrobiens et mme de leurs propres bactriocines. Lanalyse Blast et
lalignement multiple mont aussi permis de trouver des homologues ma squence et
de construire un arbre phylogntique. Les rsultats de ces dernires tapes me laissent
supposer que mon polypeptide provient, ventuellement, dune Flavobactrie :
Flavobacterium branchiophilum. C'est l'homologue qui a prsent le second meilleur
score en analyse Blast (253 ; e-value = 7e-80). Mon enzyme serait cod par le gne
yyaK de cette espce. Les flavobactries appartiennent au phylum des CytophagaFlavobacteria-Bacteroides (CFB), sous groupe des Cytophagales. Daprs le site
Genoscope (*), ces bactries sont principalement des chimio-organo-htrotrophes
arobies spcialiss dans la dgradation des polymres. Des tudes ont montr leur
abondance dans les SYSTEMES MARINS (ce qui renforce mon hypothse, ma squence
t prleve dun milieu marin, il est donc fort possible quelle soit issue de ces
bactries). Les Cytophagales nont quune faible importance dans le cadre de la sant
humaine, mais suscitent des inquitudes en matire de dtrioration des aliments et de
pathognicit pour les poissons.En effet, Flavobacterium branchiophilum est le principal
responsable de la maladie des branchies ; une pathologie affectant principalement
les salmonids. Depuis la premire description de cette bactrie au Japon, F.
branchiophilum a t dtect dans de nombreuses rgions pratiquant la salmoniculture
(Etats-Unis, Hongrie, Canada, Core). La synthse de protases (dont, probablement la "
CAAX amino terminal protease") est voque comme tant un lment du pouvoir
pathogne et pourrait expliquer les lsions de ncrose des cellules pithliales. Pour
rcapituler ; la squence sur laquelle jai travaill proviendrait de lespce
Flavobacterium branchiophilum . Elle coderait pour une protase. Cette enzyme jouerait
un rle dans la protection de ces bactries des bactriocines et serait implique dans
leur pathognicit. (*)Genoscope : Centre National de Squenage. Institut de
gnomique, Direction des Sciences du vivant, 91 057 Evry Cedex, France. >
http://www.genoscope.cns.fr/spip/-Flavobacterium-branchiophilum,424-.html (consult le
15/05/2012).

Vous aimerez peut-être aussi