Vous êtes sur la page 1sur 29

UFR BIOSCIENCES 22 BP 582 Abidjan 22 Tl.

/Fax : 22 44 44 73

Cours : Gnomique fonctionnelle et structurale


Niveau : Master 1 de Gntique Nombre de crdits : 4 Session : 1er Semestre Horaire : Mardi et Jeudi 8h 12h et 14 h 18h Locaux : Plateau de Mdecine Enseignants : Dr GONEDELE BI Sery Ernest Dr TIAN BI T. Yves Nathan

BUTS DU COURS

Le cours de gnomique fonctionnelle et structurale est conu de faon atteindre les principaux buts suivants : 1. Permettre aux tudiants dacqurir de bases thoriques et pratiques en gnomique; 2. Sensibiliser les tudiants aux recherches de pointe dans le domaine de la gnomique; 3. Permettre aux tudiants d'obtenir les connaissances ncessaires pour tre autonomes dans le traitement de donnes en gnomique.

1. La gnomique : prsentation gnrale Depuis la dcouverte de son rle comme support de l''hrdit, l'ADN est sans doute devenue la molcule la plus tudie au monde. L'information qu'elle renferme est scrute lettre lettre pour emplir de gigantesques banques de donnes. Mais la recherche fondamentale n'est pas la seule s'y intresser. De nombreuses applications technologiques se servent de cette "molcule de la vie", compltant l'attirail des biotechnologies. Aprs la gntique est donc venu le temps de la gnomique. Lavnement de la gnomique en tant que nouvelle discipline biologique repose essentiellement sur des progrs techniques importants raliss au cours des annes 90. Ces techniques comblent, en effet, en grande partie un foss qui sparait ce quon pouvait identifier au niveau gntique, de ce quon pouvait analyser au niveau molculaire. Classiquement, on savait dun ct identifier et localiser des caractres gntiques sur les cartes chromosomiques, et de lautre tudier et modifier des gnes in vitro. Au cours des dix ou quinze dernires annes, sont apparues des mthodologies qui permettent de relier ces deux niveaux danalyse : on peut par exemple plus facilement isoler les gnes la base des caractres localiss sur les cartes gntiques. Un aspect important des approches de gnomique est lobjectif dexhaustivit quelles affichent. Si lambition de la gnomique structurale est de dcrire lorganisation des chromosomes et dresser linventaire des gnes quils contiennent, celle de la gnomique fonctionnelle est dattribuer un rle biologique ces gnes, de dterminer la faon dont ils sont rguls et leurs interactions. La gnomique nest donc quune faon diffrente daborder la gntique, avec des ambitions nouvelles quant aux questions que lon pose et aux outils quon met en place pour y rpondre.

ECUE 1 : Gnomique fonctionnelle


La gntique fonctionnelle sintresse lexpression des gnes, et surtout aux ARN messagers (ARNm), premire tape de la cascade conduisant des gnes aux protines puis aux caractres phnotypiques, par lintermdiaire des diffrents mtabolismes. Ces dernires annes, il est apparu ncessaire d'accder des analyses systmatiques de tous les gnes exprims dans un type cellulaire ou un tissu donn, un tat biologique prcis ; ces analyses constituent la gnomique fonctionnelle. Elles ont conduit la notion de transcriptome ou ensemble des ARNm exprims par un type cellulaire ou un tissu, et par extension, dans tout l'organisme d'une espce donne. Cette approche est dautant plus intressante que les tudes cibles sur des gnes identifis participant des mtabolismes spcifis ont montr leurs limites. Lobjectif de telles recherches est didentifier les gnes qui interviennent dans lexpression dune fonction, dun caractre et de comprendre les mcanismes de rgulation mis en oeuvre par lanimal dans les diverses situations physiopathologiques auxquelles il est soumis.

CHAPITRE 1 : Outils de la gnomique fonctionnelle

Introduction Depuis les annes 1980, les biologistes tudient finement l'expression de certains gnes qu'ils ont pu identifier. Cette approche artisanale va s'amplifier et venir complter la ncessaire description systmatique des gnes des organismes vivants. Les squences de gnes identifis peuvent tre utilises comme des sondes molculaires pour dterminer quelles priodes de la vie de l'organisme et dans quels organes ces gnes sont exprims. Cette approche systmatique est devenue ncessaire. Un nombre croissant de gnes dont les fonctions taient totalement inconnues deviendra disponible. Il reste tablir les patrons d'expression de tous ces gnes pour tenter de dfinir leur rle. En pratique, l'opration consiste valuer systmatiquement dans quels types cellulaires sont exprims les 25 000 gnes humains par exemple. Le patron d'expression d'un gnome est appel le transcriptome. Avec la fin du xxe sicle, le gnie gntique est entr dans sa maturit. Les techniques de base, dfinies dans le courant des annes 1960, se sont perfectionnes, simplifies et en partie automatises. Les plus importantes sont : le clonage de gnes, l'amplification de gnes (PCR, pour Polymerase Chain Reaction), la dtermination de la squence des bases (nuclotides) des gnes, la synthse chimique des fragments de gne ou de gnes entiers, la mutation des gnes isols, la construction de gnes fonctionnels et le transfert de gnes dans des cellules, ou des organismes entiers, pour observer les effets produits ou pour exploiter les organismes modifis de la sorte. Ainsi, la gnomique, c'est--dire l'tude des ensembles de gnes qui caractrisent les diffrentes espces et dfinissent leur gnome, est passe d'une phase descriptive une phase d'exprimentation fonctionnelle. Les tudes de gnomique fonctionnelle reposent sur les mthodologies de mesure des niveaux dexpression de lensemble des gnes dun tissu ou dun type cellulaire, en rponse diffrentes situations biologiques, pathologiques ou non , ou pour diffrents gnotypes. 1. Les puces ADN (microarray) Cette technologie a t dveloppe dans le laboratoire de Pat Brown lUniversit de Stanford (Schena, Shalon et al. 1995; Eisen and Brown 1999) et consiste dposer les sondes sur une lame de verre recouverte dune substance interagissant de faon stable avec lADN. Le support en verre permet de raliser, grce un robot, des dpts trs rapprochs lorigine dune densit leve (6.000 sondes diffrentes sur moins de 2 cm2 pour une puce du gnome de la levure). Les cibles sont marques le plus souvent par des molcules fluorescentes qui mettent dans des longueurs dondes diffrentes, permettant de comparer directement les expressions de deux populations de cellules, en une seule hybridation. Au final, une mesure dexpression diffrentielle pour chacun des gnes est obtenue (Figure 1).

Figure 1 : Principe de la technologie des puces lame de verre. (A) Les sondes sont dposes par un robot sur une lame de verre selon un ordre bien dfini. (B) Les ARNm sont extraits des chantillons biologiques comparer. Ils sont ensuite marqus par des fluorochromes diffrents (Cy3 et Cy5) puis mlangs avant hybridation. (C) La lecture de la lame est ralise par un laser coupl un photomultiplicateur (PMT). Les canaux de lecture correspondant aux longueurs donde 635 nm et 532 nm sont utiliss pour lire respectivement la fluorescence du Cy5 et celle du Cy3. (D) Limage est ensuite analyse de manire quantifier les signaux mis. Historiquement, il existe plusieurs types de puces ADN qui se distinguent par le support utilis, le mode de fabrication, le dpt des sondes ou encore le marquage des cibles. Les trois principaux, majoritairement utiliss dans les laboratoires de biologie, sont les puces Affymetrix, les filtres haute densit ( macroarrays ), et bien sr les puces sur lame de verre ( microarrays ) (Figure 2). Aujourdhui, les distinctions entre ces diffrentes techniques sont de plus en plus floues. Elles sont parfois utilises de faon croise, comme le montre lexemple des puces ADN utilisant un double marquage radioactif des cibles.

Figure 2 : Les trois principaux types de puces ADN, majoritairement utiliss dans les laboratoires. Ces diffrentes puces se distinguent par la nature du support utilis, le mode de fabrication et de dpt des sondes ou encore le marquage des cibles.

I.2. Les EST (Expressed Sequence Tag) La technique de squenage d'EST est apparue au dbut des annes 90 chez l'humain et a ensuite t applique un grand nombre d'espces. On dnombre 44 actuellement, plus de 22 millions d'EST sur 740 espces au NCBI (dbEST). Les EST sont des squences gnres automatiquement et en simple lecture, partir de banques d'ADNc (molcule d'ADN rtrotranscrite partir d'une population d'ARNm). Les banques d'ADNc contiennent des dizaines de milliers de clones reprsentant une photographie instantane de l'expression des gnes d'un tissu dans une condition physiologique prcise. Le faible relatif cot du squenage d'EST en fait le moyen le plus attractif pour avoir une description du ranscriptome. Le squenage d'EST partir de l'extrmit 5' des ADNc clons directionnellement a initialement t favoris. En effet, les squences 5' sont mme de contenir plus de rgion codante que celles obtenues partir de l'extrmit 3' qui contient une partie significative de rgion non traduite (UTR). A l'heure actuelle, le squenage partir de l'extrmit 3' est galement pris en compte car il permet d'obtenir plus de squences uniques et peut tre utilis pour distinguer les gnes paralogues. 3. Le squenage haut dbit La mthode de Sanger automatise est considre comme tant la stratgie de squenage haut-dbit de premire gnration. Depuis cinq ans, de nouvelles mthodes ont t mises au point parmi lesquelles le pyrosquenage haut-dbit, les techniques de terminaison cyclique rversible (par Solexa/Illumina et Helicos) ou encore le squenage par ligation (SOliD).
6

Elles ont pour point commun de fournir un grand nombre de donnes une vitesse telle que des projets de squenage demandant plusieurs annes avec la technique de Sanger peuvent thoriquement tre achevs en quelques semaines. De plus le cot requis pour squencer un gnome est nettement plus rduit. Malgr tous ces avantages, les nouvelles technologies de squenage prsentent certains biais qui rendent leur utilisation complexe. a) Le pyrosquenage haut-dbit Le pyrosquenage est une technique de squenage base sur la dtection du pyrophosphate relch lors de la raction de polymrisation de lADN. Les nuclotides sont ajouts les uns aprs les autres dans un ordre dfini. Lorsquun nouveau nuclotide est ajout, lATP sulfurylase va utiliser le pyrophosphate relch lors de la polymrisation pour gnrer de lATP. Cet ATP sera utilis par la lucifrase pour oxyder la lucifrine en oxylucifrine et mettre de la lumire (Figure 2). Cest ce signal lumineux qui est dtect par une camra puis traduit en chromatogramme. A laide de cette technique, il est possible de squencer 500 millions de bases en 10 heures environ, ce qui en fait la technique de squenage haut-dbit commercialise la plus rapide. Cette vitesse de squenage peut tre atteinte grce des amliorations constantes de la processivit des enzymes utilises lors de la raction. La grande quantit de squences gnres par cette technique vient en partie de la prparation des chantillons. Chaque fragment est isol puis amplifi par PCR sur une microbille qui sera ensuite dpose dans le puits dune plaque de microtitration (il est possible de charger 1 2 millions de billes sur une mme plaque) (Figure 3). La rapidit de chaque cycle de squenage permet dobtenir des lectures dune taille moyenne de 400 pb. Si un mme nuclotide est incorpor dans le mme cycle, un signal lumineux proportionnel au nombre de nuclotides est dcel. Au-del de 4 5 nuclotides, le caractre proportionnel du signal est perdu. Ces squences homopolymriques reprsentent la source majeure derreurs de squenage par cette mthode, comme lont estim Huse et al. (2007). Ils attribuent 39% des erreurs de type insertions/dltions ce contexte nuclotidique spcifique.

Figure 2 : Principe du pyrosquenage haut-dbit. LADN polymrase, la Bst polymrase de Bacillus stearothermophilus, synthtise le brin complmentaire du fragment dADN fix sur la bille. A chaque cycle de raction, un nuclotide diffrent est apport. Si le nuclotide est incorpor dans le fragment en longation, le pyrophosphate relch est utilis par la sulphurylase pour recrer de lATP en prsence dAdnosine 5 phosphosulfate (APS). Cet ATP est ensuite utilise par la lucifrase avec de la lucifrine pour produire un signal lumineux.

Figure 3 : Prparation des fragments dADN pour le pyrosquenage haut-dbit. A : LADN squencer est physiquement cass par nbulisation en fragments de 400 1000 pb. B : Des squences adaptatrices sont ajoutes aux extrmits de chaque fragment obtenu. C : Lamplification des fragments se fait par une PCR en mulsion (le milieu est compos deau et dhuile). Chaque bille est isole dans une micelle (qui va agir comme un microracteur) avec un unique fragment dADN. D : Les fragments possdant un adaptateur sont immobiliss ltat simple brin sur une bille pour tre amplifis. Chaque bille porte le mme fragment dADN en plusieurs millions de copies.

b) Le squenage par terminaison cyclique rversible dIllumina/Solexa Dans le principe de squenage dADN commercialis par Illumina/Solexa, une ADN polymrase ajoute un nuclotide modifi porteur dune molcule fluorescente et dun terminateur labile (figure 4). Chaque nuclotide est porteur dun fluorochrome spcifique. Suite lincorporation, le milieu ractionnel est nettoy pour supprimer les nuclotides nonincorpors qui sont en excs. Les fluorochromes sont ensuite excits, les missions lumineuses sont dtectes par le squenceur puis traduites en une squence. A la fin de

chacun des cycles, le fluorochrome et le terminateur en 3 sont clivs pour que la raction de squenage puisse continuer. Par cette mthode, il est possible de squencer 18 35 milliards de bases en 4 9 jours. La grande quantit de donnes gnres par cette mthode est due la prparation des fragments. Chaque fragment est isol sur une plaque de verre puis amplifi par une raction de PCR (figure 5). Par cette mthode, il est possible de produire 100 200 millions de matrices pouvant tre squences sur une mme lame. Bien que cette technique de squenage soit lheure actuelle lune des plus utilises, elle prsente plusieurs biais notables. Le principal problme de cette technique est la taille relativement faible des lectures gnres, entre 35 et 100 pb, compares celles gnres par le pyrosquenage, jusqu 400 pb, et de la mthode Sanger, jusqu 1 kb. Lautre biais de cette technique est la diminution de la fiabilit du squenage aux extrmits des lectures. Dohm et al. (2008) ont mis lhypothse que laccumulation derreurs lextrmit 3 des lectures tait due au phnomne de dphasage, qui correspond lextension incomplte ou laddition de multiples nuclotides au fragment squenc. Ainsi, plus le nombre de cycles augmente, plus les dcalages dans la squence saccumulent conduisant ainsi une augmentation du bruit de fluorescence et une interprtation errone des signaux lumineux.

Figure 4 : Principe du squenage Illumina/Solexa.

10

A : Des nuclotides marqus laide de fluorochromes diffrents sont apports au mlange ractionnel. Une ADN polymrase va les insrer dans le brin complmentaire du fragment squenc. La prsence en 3 des nuclotides ne permet lincorporation que dun seul nuclotide. B : Les fluorochromes sont excits grce des lasers permettant lmission dun signal lumineux, spcifique chaque nuclotide, qui sera dtect par une camra. C : Exemple de signaux dtects par la camra du squenceur. Des programmes informatiques vont traduire les signaux en squence nuclotidique. D : Aprs dtection, le fluorochrome et le terminateur de chaque nuclotides sont retirs pour permettre linitiation dun nouveau cycle.

Figure 5 : Prparation des fragments dADN pour le squenage Solexa/Illumina. A : LADN squencer est fragment par nbulisation en fragments denviron 400 500 pb. B : Des squences adaptatrices sont ajoutes aux extrmits des fragments. C : Les fragments squencer sous forme simple brin sont immobiliss sur une plaque de verre laide damorces shybridant avec un des adaptateurs. D : Lamplification des fragments se fait par pontage laide de lADN polymrase. Cela permet lamplification localise dun fragment unique en plusieurs centaines de millions de fragments identiques, appels polonie .

11

Liens Internet et rfrences bibliographiques Adams et al. 1991. Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252, 1651 - 1656 Boguski et al. 1993. dbEST-database for expressed sequence tags. Nat. Genet. 4, 332 333. Diehl et al. 2001. Manufacturing DNA microarrays of high spot homogeneity and reduced background signal. Nuc. Acids Res. 29, e38 Gibson & Muse. 2004. Prcis de gnomique", Glaser P. 2005. Les puces ADN vont-elles rvolutionner lidentification des bactries? Mdecine/Sciences 21 :539-544 Metzker ML. 2010. Sequencing technologies - the next generation. Nat Rev Genet. Jan;11(1):31-46. Nagaraj et al. 2007. A hitchhiker's guide to expressed sequence tag (EST) analysis. Brief Bioinform. 8, 6 - 21 Pontius et al. 2003. UniGene : a unified view of the transcriptome. The NCBI Handbook Bethesda (MD) - National Center for Biotechnology Information dbEST: http://www.ncbi.nlm.nih.gov/dbEST/index.html

12

Chapitre 2 : Annotations fonctionnelles et familles de gne

Introduction Dans ce chapitre, nous abordons le problme de lidentication de rgions codantes. Historiquement, cest lun des premiers problmes sur lequel sest penche la communaut bioinformatique. Ce problme constitue une partie importante de lannotation structurale des gnomes : o se trouvent les gnes codant pour des protines ? Quelle est leur structure ? Pour rpondre ces questions, les informations utilises peuvent tre de nature dirente : la prsence de signaux qui balisent et concourent la structure du gne et son expression, le contenu de la squence codante qui peut comporter des biais de composition, ou la similarit avec dautres molcules connues. Nous regroupons ces informations en deux groupes : les informations intrinsques, cest--dire les informations contenues dans la squence nuclique considre, et les informations extrinsques, cest--dire les informations obtenues par comparaison de la squence nuclique dintrt avec des squences dj connues. Cela donne lieu deux types dapproche de prdiction : les approches ab initio et les approches par homologie de squences. I. Prdiction de gnes : mthodes ab initio

Les approches ab initio ont pour objectif de prdire lensemble des gnes prsents dans une squence nuclique sans autre connaissance extrieure. Pour cela, elles tirent parti des signaux prsents dans la squence et des biais de composition des squences codantes. 1) Le cadre ouvert de lecture Le premier signal qui peut tre exploit provient simplement des bornes des gnes, en particulier pour les organismes procaryotes. Un lment essentiel dun gne codant est son cadre ouvert de lecture, dbutant par un codon START suivi dun enchanement ininterrompu de codons et termin par un codon STOP. Cette information est souvent susante pour identier une bonne partie des gnes au niveau gnomique quand le cadre ouvert de lecture est signicativement long. Labsence de codon STOP peut cependant tre statistiquement peu signicative pour des squences courtes ou lorsque la frquence de ces codons est localement fortement rduite. A cause de lpissage chez les eucaryotes et certaines bactries, rechercher au niveau gnomique un codon STOP aprs un codon START dans le mme cadre de lecture na pas de sens cause de la prsence des introns. 2) Les autres signaux lis la structure du gne Des signaux plus ns que la dtection dun cadre ouvert de lecture peuvent tre utiliss pour identier les squences codantes. plusieurs signaux balisent et concourent la structuration dun gne, que celui-ci soit dorigine eucaryote ou procaryote. Ces signaux interviennent dans les processus mis en uvre lors de lexpression du gne. Les rgions en amont et en aval de la rgion codante des gnes contiennent ainsi des sites de xation de facteurs de transcription, le
13

site dinitiation de la transcription, le signal de poly-adnylation, etc. Chez les eucaryotes, dautres signaux sont prsents dans la rgion codante des gnes et servent guider lpissage des introns. La grande majorit de ces signaux sont des motifs relativement courts, dont la longueur est infrieure une vingtaine de nuclotides. Ce sont des motifs approchs, tablis partir dun certain nombre dobservations. Ils doivent donc tre dcrits au moyen dune reprsentation plus exible quune simple squence. Cela pose la question du modle choisi pour les reprsenter. 3) Les biais de composition de la squence codante A ct des signaux lis la structure dun gne, on peut utiliser la composition de la squence codante elle-mme. De faon gnrale, les rgions codantes ont des asymtries et priodicits qui facilitent leur distinction des autres rgions. Ces caractristiques sont propres chaque espce. Les premires analyses de rgions codantes ont rvl chez certaines bactries un biais dans lusage des codons. Du fait de la redondance du code gntique, des codons dirents codent pour le mme acide amin. Pour coder un acide amin, plusieurs organismes achent une prfrence marque pour un ou plusieurs codons. Pour un organisme, cette prfrence est en partie corrle `a labondance de copies des gnes dARN de transfert correspondants dans son gnome. Plusieurs autres mesures ont par la suite t testes pour caractriser les rgions codantes : la frquence dapparition des nuclotides, des hexamers, la priodicit doccurrence des nuclotides, etc. Ltude mene par Fickett [FT92] a permis de mettre en vidence que la frquence dapparition des hexamers est la mesure qui discrimine le mieux les rgions codantes. II. Les approches par homologie de squence

Les mthodes par homologie de squences utilisent comme premire et principale source dinformation la similarit avec des squences connues et dj annotes. Lhypothse de travail est la suivante : deux squences signicativement similaires ont gnralement une fonction identique ou proche. En eet, durant levolution, les squences fonctionnelles, a fortiori les squences codantes, sont soumises `a une contrainte fonctionnelle. Sous cette contrainte, les squences codantes tendent tre plus conserves entre les espces que les squences non fonctionnelles. Daprs cette assertion, les informations disponibles propos dune squence connue peuvent tre transfres toute squence signicativement similaire. Au moins trois types de squences sont susceptibles dapporter de linformation pour dtecter des rgions codantes dans une squence nuclique : des squences de protines, des squences dARN ou dEST et des sequences gnomiques annotes.

14

Analyse comparative des gnes de -actine de l'homme et de la carpe 1) Similarit avec des squences peptidiques La manire la plus simple et la plus utilise pour dterminer si une squence nuclique est codante est de chercher identier la protine quelle code, si celle-ci est connue, ou une protine homologue dans le cas contraire. Les banques de donnes les plus utilises pour eectuer ce type de recherche sont SwissProt et PIR, car elles contiennent exclusivement des squences de protines vries exprimentalement. En complment, dautres banques proposent des TrEMBL contient ainsi uniquement les traductions automatiques des squences annotes codantes du projet Ensembl o toutes les squences dj prsentes dans SwissProt sont exclues. An de simplier les recherches, UniProt runit les banques SwissProt et TrEMBL. Au mme titre quUniProt, RefSeq propose des squences vries exprimentalement et des squences issues de lannotation automatique base sur les donnes et lexpertise des membres du NCBI. Pour eectuer la recherche dans toutes ces banques, on a recours en premire approche `a des algorithmes dalignement deux deux, tels que Fasta et Blast. Il existe plusieurs dclinaisons de ces mthodes qui permettent de fouiller une banque de squences protiques `a partir dune squence nuclique, telles que FastX, FastY et BlastX. Lide est de comparer indpendamment les six traductions potentielles dune squence nuclique contre toutes les squences dacides amins contenues dune banque. 2) Similarit avec des squences transcrites Le second type de squences auquel on peut faire appel pour identier des rgions codantes sont les squences dARN matures, ou des fragments dARN matures. Pour des raisons exprimentales de squenage, la majorit des squences dARN prsentes dans les banques de donnes comme RefSeq ou dbEST se trouvent sous forme dADN complmentaires. Ces
15

ADN complmentaires, nots ADNc, sont obtenus par transcription inverse dARN matures. Il existe plusieurs protocoles pour obtenir les squences dADNc rtrotranscrits. Le squenage classique dun ADNc permet den obtenir la squence complte et ce de manire able. Avant que soit mis au point ce protocole, le squenage des ARN messagers se faisait par un protocole haut dbit moins able. Ce protocole consiste squencer quelques centaines de nuclotides en une seule fois chaque extrmit dun ADNc. Ces fragments nomms des EST, acronyme pour Expressed Sequence Tags, ne reprsentent donc quune information partielle par rapport la taille de certains ADNc qui peuvent atteindre plusieurs milliers de nuclotides. 3) Similarit avec des squences gnomiques La similarit avec des squences gnomiques peut galement permettre lidentication de rgions codantes, mme si ces gnomes ne sont pas annots. Lide est que sous la pression de slection (section 1.4) les squences codantes prsentent un niveau de conservation plus lev que les rgions non fonctionnelles. Plusieurs protocoles de recherche peuvent tre envisags : une comparaison intra-gnomique la recherche de squences paralogues, cest-dire de squences homologues au sein du mme gnome, ou une comparaison intergnomique pour trouver des squences orthologues, cest--dire des squences homologues chez dautres organismes. Les comparaisons de squences peuvent tre ralises au niveau nuclotidique ou au niveau peptidique, en traduisant la vole selon les six cadres de lecture possibles. Quelque soit le niveau de comparaison utilis, lexploitation des rsultats est relativement plus laborieuse que la comparaison avec des banques de protines ou dARN messagers. En eet, les rsultats sont ici bruites par la prsence dautres types de squences conserves dans les gnomes que des squences codantes : des squences non codantes fonctionnelles telles que des gnes ARN non-codants ou des lments rpts, des squences rgulatrices, etc. De plus, la dtection dune ou plusieurs squences signicativement similaires une squence nuclique dintrt dpend essentiellement des gnomes utiliss pour les comparaisons. Dans les faits, les rsultats que lon peut esprer obtenir de comparaisons inter-gnomiques varient selon les distances volutives qui sparent les organismes dont les squences sont compares. Entre deux espces distantes, il est plus facile de discriminer les rgions codantes car celles-ci seront signicativement plus conserves que le reste des squences gnomiques. Inversement sur deux espces proches dont les squences gnomiques compltes sont globalement ressemblantes, il est plus dicile de distinguer les rgions plus conserves. Enn, plus la distance volutive entre les espces compares est leve, plus la recherche de squences similaires dpend de la sensibilit de la mthode dalignement utilise. Le choix de la mthode dalignement et son paramtrage sont donc des critres importants qui inuencent la qualit des rsultats obtenus lorsquon compare des espces spares par une distance volutive leve. III. Les approches par analyse comparative

Les approches de prdiction de gnes codants par analyse comparative travaillent sur des alignements de deux ou plusieurs squences. Loriginalit de ces mthodes est de caractriser des biais lis lvolution des squences codantes observables entre un couple ou une famille
16

de squences. Ces biais peuvent tre de plusieurs nature : la syntnie, cest--dire la conservation de lordre des gnes entre gnomes, un biais de conservation de certaines rgions ou encore la caractrisation dun biais dans les mutations entre des squences codantes homologues. Syncod est la premire mthode qui exploite rellement les biais de mutations entre des squences codantes homologues. La mthode calcule un ratio entre les mutations silencieuses et les mutations faux-sens observables entre deux cadres ouverts de lecture aligns avec Blast. Les squences correspondantes sont identies comme des squences codantes homologues si ce ratio est signicativement plus lev que ce quon pourrait observer par hasard sur des squences ayant le mme pourcentage didentit.

Liens Internet et rfrences bibliographiques Velculescu VE, Zhang L, Vogelstein B, Kinzler KW. 1995. Serial analysis of gene expression. Science, 270(5235):484-487. NCBI : http://www.ncbi.nlm.nih.gov/projects/mapview/. Ensembl : http://www.ensembl.org. SwissProt http://www.ebi.ac.uk/uniprot/ TrEMBL UniProt : http://www.uniprot.org/ RefSeq : https://www.ncbi.nlm.nih.gov/refseq/rsg/

17

ECUE 2 : Gnomique structurale


Chapitre 1 : Structure des protines et bases de donnes structurales
I. Structure des protines Les protines peuvent tre dcrites selon quatre niveaux dorganisation structurale. Une squence linaire dacides amins, formant une chane polypeptidique, constitue la structure primaire de la protine. Cette structure qui ressemble un chapelet de perles dacides amins, est le squelette de la molcule de protine. Ce squelette se tord et se repli sur luimme pour donner des niveaux dorganisation molculaires plus complexes (structures secondaire, tertiaire et quaternaire). 1. Structure primaire et variabilit des protines La structure primaire des protines est reprsente par la squence dacides amins qui se lient de manire former une chane polypeptidique. Les proprits uniques de chaque protine dpendent des types dacides amins qui la composent et de leur squence. On peut considrer les 20 acides amins comme un alphabet de 20 lettres, utilis pour construire des mots (les protines). De mme, quon peut changer le sens dun mot en remplaant une lettre par une autre (faire -- foire), on peut crer une nouvelle protine de fonction diffrente en remplaant un acide amin ou en changeant sa position. Parfois, le nouveau mot na aucun sens (faire -- faore), tout comme il arrive que les changements de la combinaison des acides amins donnent des protines non fonctionnelles. Exemple : les hmoglobines pathologiques humaines (hmoglobines falciforme S et anmiante C) ne diffrent de lhmoglobine normale quau niveau du sixime rsidu de la chane (remplacement de lacide glutamique respectivement par la valine et la lysine). Les tres vivants renferment des milliers de protines diffrentes, aux proprits fonctionnelles distinctes, toutes construites partir dune vingtaine dacides amins. 2. Structure tridimensionnelle des protines a) Structure secondaire Les protines n'existent pas sous forme de chanes linaires d'acides amins : elles se tordent et se replient sur elles-mmes. C'est leur structure secondaire. La structure secondaire la plus courante est celle de lhlice alpha (). Dans l'hlice alpha, la chane primaire s'enroule sur ellemme puis est stabilise par des liaisons hydrogne entre les groupes NH et CO, tous les quatre acides amins environ. Le feuillet pliss bta () est une autre structure secondaire, o les chanes polypeptidiques primaires ne s'enroulent pas mais se lient cte cte au moyen de liaisons hydrogne et forment une sorte d'chelle pliante. Dans ce type de structure secondaire, les liaisons hydrogne peuvent unir diffrentes parties d'une mme chane qui s'est replie sur elle-mme en accordon ou encore diffrentes chanes polypeptidiques. Dans les hlices alpha, les
18

liaisons hydrogne unissent toujours diffrentes parties d'une mme chane. Une chane polypeptidique peut prsenter les deux types de structure secondaire.

b) Structures tertiaire et quaternaire Un grand nombre de protines se complexifient jusqu' la structure tertiaire, une structure trs spcifique forme partir de la structure secondaire. Dans une structure tertiaire, des rgions hlicodales ou plisses de la chane polypeptidique se replient les unes sur les autres et forment une molcule en forme de boule, ou molcule globulaire. La structure tertiaire est maintenue par des liaisons (covalentes, hydrogne ...) entre des acides amins souvent trs loigns sur la chane primaire. La structure quaternaire correspond lassociation spcifique de plusieurs chanes peptidiques en une unit dordre suprieur seule capable dassurer compltement les fonctions biologiques. L'hmoglobine (fig. 3) possde ce niveau d'organisation structurale dans lequel deux chanes sont associes deux chanes .

19

Figure 3: Structure quaternaire de lhmoglobine

II. Les bases de donnes structurales 1) PDB : Protein Data Bank Les structures des protines dtermines exprimentalement sont regroupes dans la Protein Data Bank (PDB ; http://www.rcsb.org/PDB/), banque de donnes cre en 1971. Depuis, sa croissance a t exponentielle, et elle compte actuellement plus de 30 000 structures. De nombreuses protines de la PDB prsentent des taux didentit de squence levs lorsquelles sont alignes deux deux. Lorsque ce taux didentit est suprieur un seuil de 25% 30%, les protines ont une forte probabilit dadopter une mme structure 3D. Cette redondance est trs gnante pour certaines analyses car elle engendre un biais. En ne considrant que les protines prsentant moins de 25% didentit de squence, la banque rsultante, alors dite non redondante, ne contient plus quenviron 2500 structures protiques. Enfin, bien que lvolution du nombre dentres dans la PDB soit considrable, elle reste cependant nettement infrieure celle des banques de donnes de squences. Les difficults de mise en uvre des mthodes exprimentales de dtermination des structures protiques sont responsables de ce constat, malgr les diffrents progrs techniques et les tentatives dautomatisation. 2) Classifications des structures protiques connues Diffrentes bases de donnes ont t dveloppes autour de la PDB tablissant une classification des structures protiques. Les deux principales, SCOP et CATH, sont dcrites ci-dessous. Ces classifications visent rendre compte des relations volutives entre les protines. Deux protines homologues peuvent tre identifies par une forte similitude de squence, laquelle est gnralement associe une forte similitude de structure. Toutefois, lorsque la similitude de squence nest plus dtectable entre deux protines homologues, elles peuvent nanmoins conserver un repliement similaire. En effet, les protines prsentant une relation volutive distante ont gnralement une structure mieux conserve que la squence.
20

a) SCOP La base de donnes SCOP (Structural Classification of Proteins) est une classification hirarchique des protines base sur les ressemblances de leurs structures 3D et sur leurs relations volutives. SCOP repose essentiellement sur une inspection visuelle des structures protiques, la classification est ralise manuellement. Les structures peuvent tre constitues dun ou de plusieurs domaines structurellement indpendants : lunit de classification utilise dans SCOP est le domaine. SCOP prsente quatre niveaux hirarchiques majeurs : (i) famille, (ii) super-famille, (iii) repliement, et (iv) classe. Une famille correspond un ensemble de domaines protiques prsentant un fort taux didentit de squence (suprieur 30%) ou des structures et fonctions extrmement proches, et donc pour lesquels une origine volutive commune est fortement suppose. Une super-famille regroupe des familles dont les protines prsentent des structures et des fonctions similaires, suggrant une origine volutive commune plus distante entre les diffrentes familles. Un repliement correspond des super-familles ayant une mme structure de cur : les mmes lments de structure secondaire, arrangs et connects de manire similaire. Enfin, en fonction de la composition en structures secondaires, quatre principales classes de domaines protiques sont distingues : tout alpha (domaines constitus majoritairement dhlices ), tout bta (domaines constitus majoritairement de brins ), alpha et bta (not / ; domaines constitus dune alternance dhlices et de brins ), et enfin alpha plus bta (not + ; domaines constitus de rgions spares en hlices et en brins ). SCOP est accessible ladresse suivante : http://scop.mrc-lmb.cam.ac.uk/scop. b) CATH CATH (Class, Architecture, Topology, Homologous superfamily) correspond galement une classification hirarchique des domaines protiques sur la base de leurs similitudes structurales et de leurs relations volutives. Contrairement SCOP, elle est ralise de manire semi-automatique et regroupe les domaines protiques en quatre niveaux majeurs : (i) Classe protique, (ii) Architecture, (iii) Topologie, (iv) Homologie (Figure 1-17). La classe protique dpend de la composition en lments de structure secondaire et de leur arrangement. Larchitecture dcrit lorientation des structures secondaires dans lespace. La topologie prend en compte la manire dont sont connects les lments de structure secondaire. Le dernier niveau, correspondant celui des super-familles homologues, regroupe des domaines protiques pour lesquels un anctre commun est fortement suppos. La base de donnes CATH est accessible ladresse suivante : http://www.biochem.ucl.ac.uk/bsm/cath_new/

Liens Internet et rfrences bibliographiques Anfinsen et al. 1961. Proc. Natl. Acad. Sci. USA 47, 1309 - 1314

21

Branden C. & Tooze J. 1996. Introduction la structure des protines - - ed. De Boeck Universit Carl-Ivar Brndn & John Tooze. 1996. Introduction la structure des protines, De Boeck Universit, Bruxelles. Koga et al. 2012. Principles for designing ideal protein structures. Nature 491, 222 - 227 Lubert Stryer, Jeremy Mark Berg, John L. Tymoczko. 2003. Biochimie, Flammarion, Mdecine-Sciences , Paris, 5e d. Ramachandran & Sassiekharan. 1968. Conformation of polypeptides and proteins. Adv. Prot.Chem. 28, p 283 - 437 PDB : Protein Data Bank : http://www.rcsb.org/pdb/home/home.do SCOP : Structural Classification of Proteins : http://scop.mrc-lmb.cam.ac.uk/scop/

22

Chapitre 2 : Prdiction de la structure des protines

Introduction La fonction biologique d'une protine est intimement lie aux conformations que peut adopter la macromolcule. Par contraste avec la plupart des polymres synthtiques comme le plastique, une protine n'existe gnralement qu'en un seul tat natif (autrement dit, de plus basse nergie). Ces tats natifs sont atteints dans des conditions typiquement trouves dans les cellules des tres vivants (pH quasi-neutre, des tempratures de 20 40 C., en solution aqueuse). Les protines peuvent tre dnatures (autrement dit, perdre leur structure tridimensionnelle native) en les plaant dans des conditions sortant de ce cadre. Toutefois, ce processus est souvent rversible, et de telles molcules peuvent retrouver leur tat natif sous des conditions contrles. Le rle pratique de la prdiction de la structure tertiaire de protines devient de plus en plus important, car nous sommes arrivs un point o la Science dcouvre bien plus rapidement de nouvelles structures primaires de protines (notamment dans le cadre du Projet Gnome Humain) qu'elle n'est capable d'en dterminer les structures tertiaires respectives de manire exprimentale (principalement par cristallographie rayons X et spectroscopie rsonance magntique nuclaire). 1) Prdiction de la structure dune protine partir de sa squence Face aux limites des mthodes exprimentales de dtermination des structures protiques, les mthodes bioinformatiques de prdiction constituent une alternative particulirement intressante. Elles reposent sur lhypothse dAnfinsen qui stipule que la structure 3D dune protine devrait tre dtermine par sa squence en acides amins. Avant daborder les diffrentes mthodes de prdiction des structures tertiaires, il convient de sintresser aux trs nombreuses mthodes dveloppes pour prdire les structures secondaires des protines partir de la squence. Ce type de prdiction apporte des informations structurales importantes et est souvent considr comme une premire tape vers la prdiction de la structure tertiaire. 2) Prdiction de la structure secondaire Les mthodes de prdiction des structures secondaires reposent principalement sur lobservation que les diffrents acides amins ont des prfrences pour certaines structures secondaires. Pour une squence cible, lobjectif va donc tre de prdire pour chaque rsidu son tat conformationnel. Le taux de prdiction calcul est gnralement not Q3 (3 tats possibles : hlice , brin ou boucle). Les premires mthodes de prdiction des structures secondaires dveloppes sont des mthodes statistiques. Il convient ici de rappeler la mthode de Chou et Fasman reposant sur le calcul pour chaque acide amin dune probabilit pour chacun des tats de structure secondaire. Un taux de prdiction de lordre de 52% tait obtenu.
23

Diffrentes amliorations ont ensuite t proposes par des mthodes prenant en compte diverses informations, par exemple sur les rsidus environnants), la classe structurale prdite, ou sur des peptides similaires. Les valeurs de Q3 augmentrent alors jusqu environ 65%. Par la suite, des progrs considrables ont t raliss par des mthodes ne reposant plus sur la seule squence cible mais utilisant un alignement multiple de squences similaires. De mme, lutilisation de mthodes dapprentissage comme les rseaux de neurones a fortement contribu laugmentation des taux de prdiction. Ainsi, il convient de citer des mthodes comme PHD, PSIPRED, ou encore SSpro. Les taux de prdiction actuels atteignent des valeurs de lordre de 75-80%. Des consensus de plusieurs mthodes peuvent tre utiliss et contribuent gnralement laugmentation des taux de prdiction. 3) Prdiction de la structure tertiaire Lorsquil sagit de prdire la structure tertiaire dune protine partir de sa squence en acides amins, la tche est beaucoup plus difficile que pour les structures secondaires, et les performances ralises loin dtre aussi satisfaisantes. Les mthodes de prdiction in silico de la structure 3D des protines partir de la squence en acides amins sont gnralement regroupes en trois grandes catgories : la modlisation par homologie (ou comparative), les mthodes de reconnaissance de repliement (ou denfilage) et les mthodes ab initio / de novo. Le choix de la mthode dpend de lexistence ou non dans la PDB dune protine de squence similaire celle de la protine modliser (ou protine homologue), et du taux didentit de squences entre ces protines (homologie plus ou moins distante). Des problmes majeurs sont lis lvaluation des performances des mthodes de prdiction dveloppes et leur comparaison. Une solution ces problmes a t la mise en place dune runion nomme CASP (Critical Assessment of Structure Prediction) qui a lieu tous les deux ans. Cette dernire est ne dune volont de tester la fiabilit des mthodes dveloppes en valuant leurs performances sur un mme jeu de protines, et avec les mmes critres. Elle consiste proposer aux diffrents groupes de recherche dappliquer leurs mthodes sur des protines dont la structure vient dtre dtermine exprimentalement mais nest pas encore dpose dans la PDB, ni publie. Les mthodes sont donc appliques en aveugle. A la fin de la comptition, les diffrents modles proposs sont valus par rapport la vraie structure 3D. La premire comptition CASP (ou CASP1) date de 1994. Les rsultats publis les plus rcents sont ceux de CASP10 qui a eu lieu en 2012. Cette comptition permet dvaluer les progrs raliss au cours des annes dans les diffrentes catgories de mthodes de prdiction de structure. Liens Internet et rfrences bibliographiques Bairoch A. and Apweiler,R. (2000) The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res., 28, 4548. Jones D.T. (1999) Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol., 292, 195202. Rost B. (2001) Protein secondary structure prediction continues to rise. J. Struct. Biol., 134, 204218.
24

CASP : http://predictioncenter.org/ ExPASy (Portail de ressources bioinformatiques sur les protines): http://www.expasy.org/tools/

25

TD-TP de Gnomique fonctionnelle et structurale

Bases de donnes gnomiques Exercice 1 1. Rechercher une squence de mRNA par mot-cl dans Genbank nuclique, via Entrez (visualisez la fiche genbank et les annotations: numro GI? numro d'accession?). 2. Recherchez le produit de ce gne dans Swissprot via SRS. 3. Comparez les fiches dans ces 2 banques de donnes. Vrifiez consistence (traduction Genbank = squence Swissprot) Exemples: (facteur de transcription TFIIB de C. elegans). Exercice 2 1. Rendez-vous sur le site du NCBI. 2. Retrouvez les gnomes bactriens squencs, avec leur classification phylogntique 3. Choisissez E.coli K-12. Cliquez sur le lien "refseq" (numro commenant par NC) et cherchez dans la carte gnomique la rgion de l'opron lactose (lacA, lacY, lacZ,..) 4. A quelle position dans le gnome se trouve l'opron? Quels sont les gnes en amont et en aval de l'opron? Exercice 3 1. Recherchez dans la base Ensembl Human toutes les entres ayant un rapport avec la maladie d'Alzheimer. 2. Notez les gnes impliqus (combien?) ainsi que les liens OMIM (Base de donnes de gnes humains associs des maladies) 3. Retrouvez sur le gnome le gne d'apolipoprotine. Affichez le fragment gnomique. Quelle est la longueur du gne? Combien a-t-il d'exons? 4. Rcuprez la squence gnomique de 10kb en 5' du gne ("flat file" avec annotations "gene information"). Regardez le fichier produit. Un gne doit se trouver annot dans cette rgion. Recherche dans les banques par similitude de squence Exercice 4 Sur le serveur du NCBI, trouvez l'outil BLAST (option basic blast)
o

Choisissez le programme blastp contre la banque SWISSPROT

26

Copiez collez la squence du prion humain anormal (CJD) puis excutez la recherche o Quelles famille (s) de protines trouvez-vous? o Quelle est l'tendue des pourcentages d'identits rapports par BLAST? 2. Rptez la recherche contre la banque nr (non-redondante) o Diffrence entre nr et SWISSPROT?
o

Alignement multiple de squences Exercice 5

Dans les rsultats du BLAST du prion contre SWISSPROT, slectionnez 10 protines prions, allant des plus proches aux plus loignes Obtenez chaque squence au format FASTA (dans la fiche ENTREZ d'une squence, changez le format en haut gauche de Default FASTA puis cliquez sur Display) o Ajoutez au fur et mesure chaque squence dans un fichier texte (par exemple dans Notepad) o Sauvez votre liste de squence au format FASTA 2. Sur le serveur du PBIL, trouvez l'outil CLUSTALW 3. Copiez-collez les 10 squences au format FASTA du fichier texte o Alignez les 10 squences o Reprez les rgions conserves/divergentes o Comment trouver une explication fonctionnelle/structurale aux rgions conserves? 4. Sauvegardez cet alignement sur votre disque. Imprimez le si possible
o

Annotations Exercice 6

a. Extraire linformation concernant la protine P36914. Entrez cet identifiant dans la bote de requte et cliquez Search . b. Ouvrez la fiche correspondante (http://www.uniprot.org/uniprot/P36914) c. Consultez les annotations pour comprendre la fonction de la protine. d. Prtez une attention particulire la rubrique Sequence annotation (features) , qui vous indique les positions des domaines fonctionnels. e. Dans la section rfrences croises ( cross-references ), vous trouverez des liens vers la description du domaine CBM20 dans deux bases de donnes de domaines protiques (Prosite et Cazy), qui vous indiqueront la fonction de ce domaine.

27

Projet Etudiant 1. Analysez la squence inconnue suivante: >cDNA inconnu AATGCAAGTGCATGCATGCATGCATCGGATCGTACGGATTGCAGTTCGGA TTCATAATAA ATGCGTAAAAACAGTAGTTTCACTAGTTTCAAAAGTTGCATAATACTTGCT GTTCTTCTT GTTTACCCTAACAGTATGGCTGTTTTCGCTGTTGCTGCTGACGGTATACCTT TCCCTTAC CACGCTAAATACAGTAACGGTGCTATAAGTCCTCTTCACGTTACTCAAAGT AGTGGTAAC AGTAGTGTTAAAGCTGAATGGGAACAATGGAAAAGTGCTCACATAACTAG TGACCTTAAC GGTGCTGGTGGTTACAAATACGTTCAACGTGACATAAACGGTAACACTGA CGGTGTTAGT GAAGGTCTTGGTTACGGTCTTATAGCTACTGTTTGCTTCAACGGTGCTGAC AGTAACGCT CAAACTCTTTACGACGGTCTTTACAAATACGTTAAAAGTTTCCCTAGTGCT AACAACCCT AACCTTATGGGTTGGCACATAAACAGTAGTAACAACATAACTGAAAAAGA CGACGGTATA GGTGCTGCTACTGACGCTGACGAAGACATAGCTGTTAGTCTTATACTTGCT CACAAAAAA TGGGGTACTAGTGGTAAAATAAACTACCTTAAAGCTGCTCGTGACTACATA AACAAAAAC ATATACGCTAAAATGGTTGAACCTAACAACTACACTCTTAAACTTGGTGAC ATGTGGGGT GGTAACGACTTCAAAAACGCTACTCGTCCTAGTTACTTCGCTCCTGCTCAC CTTCGTATA TTCTACGCTTACACTGGTGACAAAGGTTGGATAAACGTTGCTAACAAACTT TACACTACT GTTAACGAAGTTCGTAACAAATACGCTCCTAAAACTGGTCTTCTTCCTGAC TGGTGCGCT GCTAACGGTACTCCTGAAAGTGGTCAAAGTTTCGACTACGACTACGACGCT TGCCGTGTT CAACTTCGTACTGCTATAGACTACAGTTGGTACGGTGACGCTCGTGCTGCT GCTCAAAGT GACAAAATGAACAGTTTCATAGCTGCTGACACTGCTAAAAACCCTAGTAA CATAAAAGAC GGTTACACTCTTAACGGTAGTAAAATAAGTAGTAACCACAGTGCTAGTTTC TACAGTCCT

28

GCTGCTGCTGCTGCTATGACTGGTACTAACACTGCTTTCGCTAAATGGATA AACAGTGGT TGGGACAAAGTTAAAGACAGTAAAAAATACGGTTACTACGGTGACAGTCT TAAAATGCTT ATAATGCTTTACATAACTGGTAACTTCCCTAACCCTCTTAGTGACCTTAGT AGTCAACCT AGTCCTGGTGACCTTAACGGTGACGGTGAAATAGACGAACTTGACATAGC TGCTCTTAAA AAAGCTATACTTAAACAAAGTACTAGTAACATAAACCTTACTAACGCTGA CATGAACCGT GACGGTGCTATAGACGCTAGTGACTTCGCTATACTTAAAGTTTACCTTTAAT Rdigez un rapport de synthse (1 page max) rassemblant les rsultats principaux des analyses ainsi que vos hypothses et conclusions sur la fonction possible de la squence inconnue

29