Vous êtes sur la page 1sur 31

COURS

DANALYSE DES GENOMES


ANNEE UNIVERSITAIRE

2013-2014
******
Codirecteurs du Cours :

Bernard DUJON et Stphane LE CROM


Chef de Travaux :

Lionel FRANGEUL

******
LE COURS SE DEROULE DU 4 NOVEMBRE AU 20 DECEMBRE 2013
AU CENTRE DENSEIGNEMENT DE LINSTITUT PASTEUR (PAVILLON LOUIS MARTIN, BATIMENT 09)

28, RUE DU DOCTEUR ROUX, 75724 PARIS CEDEX 15

CONFERENCES ET COURS :
- DU 4 AU 8 NOVEMBRE 2013 :
- DU 12 NOV. AU 13 DEC.2013 :
- DU 16 AU 20 DECEMBRE 2013 :

SALLE DE COURS 2 (CENTRE DENSEIGNEMENT, PLM, BATIMENT 09)


SALLE DE COURS 4 (BATIMENT SOCIAL 06)
SALLE DE COURS 2 (CENTRE DENSEIGNEMENT, PLM, BATIMENT 09)

TRAVAUX PRATIQUES : SALLE DE TP 2EME ETAGE DU CENTRE DENSEIGNEMENT (PLM, BATIMENT 09)

PRESENTATION DU COURS

Prambule au cours dAnalyse des Gnomes 2013-2014

La Gntique est la Science qui tudie lhrdit. Or, quiconque sinterroge sur les
diffrences entre un objet physique, par exemple un nuage, et un organisme vivant, par
exemple une souris, arrivera tt ou tard la conclusion invitable quil ny en a quune:
lhrdit. Car, comme les nuages, les organismes vivants suivent les lois de la physicochimie (voir Schrdinger, 1944). Ils sont constitus des mmes atomes. Mais, alors quun
nuage se forme une date et en un lieu donns comme la consquence dun ensemble de
valeurs prcises dhumidit, de pression et de temprature sans souvenir de la prsence
ventuelle dun autre nuage, similaire ou non, une date antrieure, une souris nat partir de
deux autres souris prexistantes qui, elles-mmes, avaient des parents, etc Pour sa
formation partir des atomes et des molcules qui la constitueront, une souris hrite, ds
loeuf, du fruit de lvolution de tous ses anctres, proches et lointains, tandis que le nuage part
de zro. Les tres vivants ont donc, en plus de la physique, une histoire porte de gnration
en gnration par le matriel hrditaire. Connatre ce matriel hrditaire et son
fonctionnement cest donc lire lhistoire des tres vivants, comprendre leur complexit et,
finalement, apprhender ce qui les distingue du monde inanim. C'tait toujours lobjet mme
de la Gntique depuis son origine mme si les mthodes danalyse nont longtemps permis de
lever que quelques pans du voile. Avec lanalyse des gnomes, notre connaissance du
matriel hrditaire devient exhaustive et, sloignant progressivement des systmes modles
qui furent si prcieux la Gntique, la Gnomique explore maintenant le monde vivant dans
son intgralit et, progrs techniques aidant, travers tout le spectre d'chelles qui relie les
molcules lmentaires aux populations naturelles. Des horizons insouponns se dcouvrent.
Les notions classiques font place des visions nouvelles qui nous permettent mme
dimaginer des mondes que la Biologie synthtique essai de construire. Pour bien apprhender
ces ides, un bref retour en arrire simpose.

La Gntique, science des gnomes

Les bases de la gntique molculaire


Au cours du sicle dernier, nos connaissances sur le matriel hrditaire ont progress
dune manire considrable. Depuis les chromosomes eucaryotes, corpuscules observables
au microscope au cours des divisions cellulaires dont le comportement trahissait leur rle dans
lhrdit pour ceux qui connaissaient les lois de Mendel, on est pass lADN grce aux
bactries (Avery et al., 1944, Watson et Crick, 1953). Puis, on a dcrit la structure fine du gne
grce aux bactriophages (Benzer, 1961) et dchiffr le code gntique grce
essentiellement la Biochimie (Crick et al., 1961, Nirenberg et al., 1961, Nishimura et
al.,1965). Avec les oprons bactriens, on dcouvrait des principes de rgulation de
l'expression des gnes qui semblaient universels (Jacob et Monod, 1961). On savait, grce aux
champignons, qu chaque gne correspondait une protine (Beadle et Tatum, 1941). Et le
dogme central de la Biologie molculaire (datant de 1953, voir figure) nous indiquait comment
les ARNs, jouant le rle d'intermdiaires, taient impliqus dans l'expression des gnes pour
former ces protines. Nul ne doutait alors que ces principes taient universels et certains,
pensant que l'on avait compris l'essentiel, se dtournrent ce moment de la biologie
molculaire des gnes pour s'intresser au dveloppement des organismes, au
fonctionnement du systme nerveux ou d'autres problmatiques juges plus complexes.

Les ARNs
Pourtant, la Gntique molculaire devait rvler encore bien d'autres surprises sans
lesquelles lanalyse des gnomes aujourdhui serait incomprhensible. D'abord, on dcouvrit
que les ARNs peuvent tre retrotranscrits sous forme d'ADN pouvant tre intgr au matriel
gntique et donc transmis la descendance (Temin et Mizutani, 1970, Baltimore, 1970). Ds
lors, les ARNs n'taient plus seulement des intermdiaires de l'expression des gnes, ils
pouvaient donner naissance au matriel hrditaire. Ensuite, ds que l'on a pu tudier
directement la structure molculaire des gnes, grce aux techniques de lADN recombinant et
du Gnie gntique (dveloppes partir de 1973), celle-ci est immdiatement apparue
beaucoup plus complexe qu'on ne l'imaginait. Et mme surprenante. On dcouvrit les introns,
squences internes des ARNs transcrites de l'ADN mais limines des molcules d'ARN
finales par pissage des squences qui les entourent, les exons (Berget et al. 1977, Chow et
al., 1977, Glover et Hogness, 1977, Jeffreys et Flavell, 1977, Gilbert, 1978). On parlait de
gnes mosaques que lon commenait squencer en essayant dinterprter les rsultats
selon les principes du dogme central de la biologie molculaire.

Figure 1 : Evolution du dogme central de la biologie molculaire. De simples intermdiaires de l'expression des
gnes en 1953, les ARN sont progressivement devenus "le cur du gnome fonctionnel", l'ADN n'tant que la
forme chimiquement stable de l'information gntique qui passe les gnrations et est donc le vhicule de l'hrdit
des organismes modernes. L'histoire de la biologie molculaire et les technologies disponibles font que ce sont les
squences d'ADN qui sont dtermines et stockes dans les bases de donnes, avec celles des protines dduites.
Ce nest que depuis lapplication des nouvelles techniques de squenage aux ARN (par intermdiaire de copies
ADN) que lon peut enfin tudier en profondeur la varit des molcules dARN dans les cellules, y compris celles
de courte dure de vie, et que l'on a compris que la quasi-totalit du gnome est transcrit en un trs grand nombre
de molcules d'ARNs partiellement chevauchantes et dont l'immense majorit sont non-codantes.

En ralit, on tait en train de mettre en lumire le rle central des ARNs, les gnes
nen tant que le reflet. On sait maintenant qu'il existe plusieurs catgories d'introns et les
diffrents mcanismes de l'pissage des ARNs ont t identifis. On dcouvrit que, dans la
plupart des cas, ce sont les ARNs eux-mmes qui catalysent ces ractions dpissage (voir
plus loin) mme si, pour ce faire, ils sont parfois associs des protines. Sans entrer dans les
dtails pourtant trs significatifs, l'ide importante ici est qu'entre le gne et son produit
s'intercalent une srie de ractions qui modifient, souvent considrablement, les squences
des populations de molcules d'ARNs prsentes dans la cellule. Or, cest le squenage de
lADN qui sest dvelopp en donnant naissance la gnomique, les molcules dARNs, elles,
sont chimiquement trs ractives, et leur squenage direct (sans faire une copie ADN) reste,
pour linstant, inaccessible une chelle globale (voir plus loin).

Les dbuts du squenage de lADN


Les premires mthodes qui permirent de dterminer rapidement l'ordre de succession
des nuclotides le long des molcules d'ADN (squencer l'ADN) datent de 1977 (Sanger et al.,
1977, Maxam et Gilbert, 1977). Cest une date critique. Avant, on savait conceptuellement ce
que devait tre un gne et ses mutations, mais sans espoir den connatre rellement le
contenu informatif prcis. Aprs, on allait pouvoir dchiffrer ce contenu, vieux rve de tous les
gnticiens. Ces mthodes sont aujourd'hui relgues aux muses (voir plus loin), mais il
s'agissait alors d'un progrs considrable qui faisait suite des annes de recherches au cours
desquelles avaient t explores diffrentes pistes permettant de dterminer des squences
courtes dADN comme, par exemple, les oprateurs bactriens. Ce nest donc qu partir de
1977 que lon a commenc connatre l'information gntique contenue dans les gnes. Une
acclration considrable des dcouvertes de la gntique molculaire s'ensuivit. Les
mutations n'taient plus uniquement des signatures conceptuelles associes des phnotypes
particuliers dans des conditions dfinies du laboratoire. On en dcouvrait maintenant la nature
chimique et, en consquence, on allait pouvoir les crer chimiquement de faon dtermine.
Toute l'histoire de la mutagnse dirige dbutait, suivie plus tard de celle de la synthse
chimique des gnes et maintenant de celle des gnomes entiers (voir plus loin).
Comme le dogme central de la biologie molculaire associ au code gntique
permettent de prdire les squences des protines partir de celles des gnes (aux
modifications prs introduites au niveau des ARNs), au dbut des annes 1980s on squenait
les gnes pour avoir la squence des protines. Mais le squenage dADN restait laborieux et
le souci tait dviter la duplication des efforts. Naissaient alors les premires bases de
donnes permettant de mettre la disposition de la communaut scientifique les squences
d'ADN et celles, dduites, de protines. Peu peu, comme ces rpertoires s'enrichissaient, les
comparaisons de squences devenaient possibles. Graduellement, elles allaient prendre le pas
sur les expriences. En mme temps, on s'intressait aux squences rgulatrices de
l'expression des gnes que l'on pouvait maintenant manipuler dans des systmes artificiels
d'expression gntique. On s'intressait videmment aussi aux premiers gnes morbides
identifis chez l'homme. On esprait en tirer rapidement des traitements (et des retombes
financires !). On s'intressait aux gnomes des organelles, des plasmides et des virus dont
les tailles limites permettaient d'obtenir les squences compltes en seulement . quelques
annes de travail ! Ctait lpoque du Gnie gntique triomphant. Certains, pensant alors que
lon avait tout compris, ne rvaient que dapplications. Elles furent dcevantes pour la plupart
car trs prmatures.

Figure 2 : Une brve histoire de la biologie molculaire jusqu' la gnomique actuelle.

Lingnierie gnomique
C'est pourtant cette poque que furent dcouverts les premiers outils d'ingnierie des
gnomes. Des endonuclases dont la spcificit de squence permettait d'envisager cibler un
site unique dans un gnome entier. La premire catgorie d'enzymes de cette nature, appele
maintenant homing endonucleases, avait t dcouverte partir d' un intron mobile d'un gne
mitochondrial de levure prsentant des anomalies de transmission hrditaire lors des
croisements (Jacquier et Dujon., 1985, Colleaux et al., 1986, Colleaux et al. 1988, Dujon,
2005a). Tout sauf le chemin direct souhait par les tenants actuels de la recherche sur projets
prdfinis ! De trs nombreuses homing endonucleases sont connues actuellement issues
d'une varit d'organismes ou synthtises artificiellement pour des applications prcises. Une
deuxime catgorie d'endonuclases site-spcifiques est reprsente par les protines doigt
de zinc et, plus rcemment, une troisime catgorie a t fabrique artificiellement par
ingnierie de molcules naturelles et synthtiques, les TALLE nucleases ou TALLEN. Avec ces
outils, et tout ce que l'on a appris sur les gnomes (voir plus loin), on peut raisonnablement
esprer maintenant qu'une vritable re de Gnie gnomique s'ouvre nous.

Les multiples fonctions des ARNs


Pendant ce temps, les ARNs continurent de nous surprendre. D'abord, on dcouvrit
qu'ils subissent des ditions, c'est--dire que leur squence est modifie de faon prcise et
dtermine, changeant ainsi l'information gntique qu'ils taient censs vhiculer. On

connat maintenant beaucoup de mcanismes diffrents d'dition. Dans certains cas, l'dition
peut tre tellement massive qu'elle cre des messagers traduits en protines l o il n'y a pas
de gne reconnaissable correspondant. Cest le cas des mitochondries dans le grand groupe
eucaryote des Excavates (voir figure). Mais surtout on dcouvrit que les ARNs sont capables
de catalyser des ractions chimiques (Cech et al., 1981, Altman, 1981). Dabord celles
concernant leur propre structure (transesterifications permettant l'pissage des introns,
hydrolyse des liaisons phosphodiester permettant la maturation des ARNs prcurseurs). Mais
aussi toute une varit d'autres ractions biochimiques. Aujourd'hui on sait que les ARNs sont
impliqus, comme catalyseurs ou comme co-facteurs, dans une varit de ractions
essentielles la vie cellulaire telles que la synthse protique au niveau du ribosome,
l'longation des tlomres (Greider and Blackburn, 1989), le transport des protines, les
processus de maturation ou de modifications chimiques d'autres ARNs et, bien sr, le contrle
de lexpression dautres gnes ainsi que des lments mobiles, des squencs virales ou des
squences rptes dans les gnomes. On dcouvrit des machineries complexes chez les
eucaryotes, impliquant des petits ARNs, pour ces dernirs types dactivits (Fire et al., 1998).
Le nombre des petits ARNs et la varit de leurs proprits ont augment trs vite grce, en
particulier, aux nouvelles mthodes de squenage.

Le squenage des gnomes et le dveloppement de la Gnomique


Les motifs
Au milieu des annes 1980s, les applications potentielles du gnie gntique et
dautres considrations plus stratgiques, voire politiques, allaient motiver le squenage des
gnomes entiers, commencer par celui de l'homme. Plusieurs annes s'ensuivirent au cours
desquelles hsitations, conflits et rebondissements ne furent pas rares. Contrairement aux
ides simples, les progrs les plus dcisifs ne vinrent pas toujours de l o on les attendait.
Comme dans toute recherche vritable d'ailleurs. Des bactries (comme Haemophilus
influenzae), la levure de boulangerie Saccharomyces cerevisiae et le nmatode Caenorhabditis
elegans devaient jouer, chacun leur manire, des rles essentiels dans le programme
"gnome humain" alors qu'ils taient des initiatives indpendantes (lire, par exemple, Vassarotti
et al.,1995, Goujon, 2001, Brown, 2003). Ironiquement, alors que certains ne voyaient dans ces
gnomes que des tremplins technologiques pour le gnome humain, cest sur le plan
conceptuel que les choses commenaient bouger.
Les surprises
Les premiers gnomes squencs (Fleischmann et al. 1995, Goffeau et al. 1996) nous
rappelrent rapidement quel point des connaissances fondamentales nous manquaient. Avec
le gnome de la levure, trois surprises majeures attendaient les gnticiens. Dabord, il y avait
dans le gnome beaucoup plus de gnes pour chaque fonction que ce que la gntique laissait
prvoir. En dautres termes, les cribles gntiques classiques mmes les plus
systmatiquement appliqus narrivaient jamais lexhaustivit. Ensuite, beaucoup de gnes
avaient des squences entirement nouvelles, sans similarit dans les bases de donnes
existantes. Une explication triviale tait que ces bases de donnes taient trs incompltes, ce
qui ntait pas faux. Mais mme aujourdhui chaque nouveau gnome squenc fait apparatre
une fraction non nulle de tels gnes quon dsigne donc comme orphelins . Une autre
explication commune lpoque tait que ces gnes orphelins ntaient pas des vrais gnes.
Ce qui nest pas ncessairement faux non plus pour certain dentre eux. Mais leur nombre
lev exclu la gnralisation de cette hypothse. Une ralit plus intressante, comprise
seulement maintenant, est que certains des gnes orphelins sont en ralit des gnes crs
de novo dans les diffrentes lignes volutives. Enfin, la troisime surprise tait que nombre
de gnes taient dupliqus. Ceci tait incomprhensible dans la vision classique de mutations
alatoires soumises la slection naturelle. On sait maintenant que cette redondance est
vraie pour tous les gnomes, mme si le cas de la levure tait particulier. En d'autres termes,
la nature ne connat pas les gnomes minimums dont rvent les ingnieurs. La raison est
rechercher dans la dynamique volutive perptuelle des gnomes (voir plus loin).

Les chiffres
Actuellement, de nombreux gnomes bactriens ont t squencs entirement ou
partiellement (plus de 26.000 projets sont mentionns sur le site GOLD
(http://www.genomesonline.org/). Il en va de mme d'environ six cents gnomes d'Archaea (un
dficit important compar aux bactries) et d'un nombre rapidement croissant deucaryotes
(environ 4.000 sont termins ou en cours). Historiquement, ce fut la levure Saccharomyces
cerevisiae avec son gnome d'environ 13 millions de nuclotides (Mb) le premier eucaryote
squenc (Goffeau et al. 1996, 1997). Puis, alors que le nombre de gnomes bactriens
augmentait, on a vu apparatre successivement les squences de gnomes eucaryotes plus
grands tels que ceux de Caenorhabditis elegans, (97 Mb, Sulston, Waterston et Consortium,
1978), un nmatode servant de modle exprimental, et d'Arabidopsis thaliana (115 Mb,
Arabidopsis Genome Initiative, 2000), une crucifre modle. Ces dbuts taient trs laborieux.
Ils ncessitaient plusieurs annes de travail de consortiums de laboratoires qui tablissaient
d'abord une cartographie dtaille des gnomes avant un squenage ordonn des segments
par la mthode de Sanger. Chacun de ces projets marquait une tape importante de la
gnomique naissante.
Le gnome humain
Au tournant de l'an 2000, un premier assemblage du gnome de Drosophila
melanogaster (160 Mb) tait publi, dmontrant la faisabilit d'un squenage alatoire total,
dit shotgun (Adams et al., 2000). Il s'agissait d'une tape importante dans la course au gnome
humain. Celui-ci (environ 3100 Mb) a t dclar termin dans une premire version en 2001
(Collins et al., 2001, Venter et al., 2001). C'tait un travail considrable qui avait impliqu pour
l'International Human genome Consortium, le squenage chromosome par chromosome, par
l'intermdiaire de clones BAC ancrs sur une cartographie gntique, et qui s'est termin par
une comptition contre un groupe priv travaillant par squenage total alatoire (shotgun).
Comptition biaise car, alors que les squences chromosome par chromosome du
Consortium international taient rendues immdiatement publiques, celles du groupe priv
restaient confidentielles. Une version plus complte et rvise du gnome humain fut publie
par l'International Human genome Sequencing Consortium (2004). Il s'agissait toujours d'un
"gnome thorique", c'est--dire d'un quivalent haplode de plusieurs individus. Aujourd'hui,
les gnomes de plusieurs personnes vivantes sont squencs et certains scientifiques connus
ont souhait voir leurs gnomes publis les premiers. Aprs plusieurs autres gnomes de
reprsentants de diffrentes populations ayant permis les premires comparaisons, un vaste
projet d'tude du polymorphisme a t lanc impliquant le squenage de plus d'un millier
d'individus appartenant 14 populations (1000 genomes international initiative). Avec les
gnomes individuels, on dcouvre qu'au-del des SNPs et indels, le polymorphisme gntique
entre les individus implique de grandes variations structurales dont l'importance tait sousestime, telles que de larges dltions, duplications ou inversions (Korbel et al., 2007) et des
rarrangements balancs (Chen et al., 2008). Les variations du nombre de copies de segments
de chromosomes (CNVs) sont maintenant reconnues comme une source majeure de
polymorphisme des gnomes. L'analyse des donnes de polymorphisme est en train de nous
apporter de nombreuses informations sur les variations entre individus (Abecassis et al., 2012),
l'origine des indels (Montgomery et al., 2013), les vnements de rtroduplications (Abyzov et
al., 2013) ou encore les variations fonctionnelle d'expression des gnes (Lappalainen et al.,
2013) pour ne citer que quelques exemples. Des espoirs considrables apparaissent dans le
domaine des cancers (Khurana et al., 2013) en particulier grce la possibilit d'identifier des
allles faible pntrance Whiffin et al., 2013).

Les grands gnomes


Aprs la premire version du gnome humain apparurent les gnomes d'autres
vertbrs qui devaient jouer un rle fondamental dans l'interprtation du gnome humain. Il
s'agit du Fugu (365 Mb, Aparicio et al., 2002), un poisson tlosten, et de son cousin
Tetraodon negroviridis (Jaillon et al., 2004). C'est avec ce dernier que, par comparaison
dtaille, l'on russit dduire que le gnome humain devait compter seulement 23.000 gnes
environ. Vinrent aussi les gnomes du riz (420-466 Mb, Goff et al. 2002, Yu et al., 2002, Yu et
al., 2005), dAnopheles gambiae (278 Mb, Holt et al., 2002), un moustique vecteur de la
malaria, d'autres nmatodes (Stein et al., 2003, Mitreva et al., 2005), de la souris (Waterston et
al., 2002, Mouse genome consortium, 2002), du rat (Gibbs et al., 2004), du poulet (Hillier et al.,
2004, du chimpanz (Mikkelsen et al., 2005) et d'autres grands primates. Ensuite, apparurent
les gnomes du peuplier, du chien, de la vigne, du cheval, du bananier, de l'ornithorhynque, du
concombre, de la papaye, du ver soie pour ne citer que quelques exemples. Il est devenu
impossible de suivre cette acclration. Malgr cette abondance, chaque nouveau gnome
continue de nous rvler des surprises. Tous ces gnomes ne sont pas ncessairement
squencs de manire complte. cause de leur taille mme, ou des difficults inhrentes
leur complexit, on ralise le squenage un certain niveau de couverture moyenne 1,
variable selon les besoins. Il reste des trous ou des zones de basse qualit dans les
squences dposes dans les bases de donnes. Il faut s'en souvenir mme si les progrs de
la Gnomique comparative permettent de s'en accommoder. Et surtout les mthodes de
squenage ayant considrablement volu (voir plus loin), les problmes se posent
aujourdhui de manire totalement diffrente pour les nouveaux gnomes tudis.
La gnomique volutive
En parallle des grands gnomes cits, le squenage total ou partiel de beaucoup
d'autres gnomes eucaryotes de taille plus modeste tait devenue chose courante au dbut
des annes 2000 en utilisant la mthode Sanger. Ceci a ouvert la voie un nouveau champ de
recherches dans lequel la dimension volutive prenait de plus en plus de place par rapport la
dimension fonctionnelle. Plusieurs dizaines d'espces de levures ont t squences, (Souciet
et al., 2000, Wood et al., 2002, Cliften et al., 2003, Kellis et al., 2003, Jones et al., 2004, Dujon
et al., 2004, Dietrich et al, 2004, Kellis et al., 2004, Loftus et al., 2005, Dujon, 2005b, 2006,
Novo et al, 2009, Dujon, 2010), et autant de champignons divers (Galagan et al., 2003, 2005,
Machida et al., 2005, Nierman et al., 2005, Dean et al., 2005, Kaiper et al., 2006, Martin et al.,
2008, 2010, Ma et al., 2009,). On a squenc des microsporidies (la premire tait
Encephalitozoon cuniculi, Katinka et al., 2001), des parasites comme le Plasmodium falciparum
(Gardner et al, 2002), agent de la malaria et son cousin P. yoelii yoelii (Carlton et al., 2002) et
d'autres Apicomplexes comme Cryptosporidium hominis (Xu et al., 2004), les trypanosomes
Trypanosma brucei (Berriman et al., 2005) et T. cruzi (El-Sayed et al., 2005), la leishmanie
Leshmania major (Ivens et al., 2005), des amibes comme Entamoeba histolytica (Loftus et al.,
2005) ou Dictyostelium discoideum (Eichinger et al., 2005) etc ... A mesure que lefficacit de
squenage augmentait, la gnomique volutive a pu galement sadresser aux organismes
pluricellulaires. Douze espces de Drosophiles ont t squences et compares pour
comprendre l'volution de ce groupe d'insectes (Drosophila 12 genomes consortium, 2007). Le
point critique tait lexistence de centres de squenage capables de gnrer et de traiter des
grands volumes de donnes.

1 Dans un squenage alatoire, la couverture est donne par le nombre de nuclotides totaux squencs rapport la taille du gnome. Si
L est la longeur moyenne (en nuclotides) de chaque lecture, N le nombre total de lectures effectues et G la taille du gnome (en
nuclotides), la couverture C s'exprime par C= NL/G). On a l'habitude d'exprimer ce rapport par un nombre de X (ex. 3X: couverture typique
d'un squenage exploratoire, 6X: couverture typique d'un brouillon assembl de squence (draft), 10 -12 X: couverture standard d'une
squence qui sera soumise finition). Tous ces chiffres correspondent aux squenages gnomiques raliss selon la mthode de Sanger
jusquen 2007 environ. Avec l'arrive des nouvelles technologies, des couvertures beaucoup plus leves sont obtenues et le problme des
finitions est abandonn faute de pouvoir le traiter (voir chapitre).

Le Gnoscope
En France, le Gnoscope d'Evry, qui n'est pourtant que d'une taille modeste vis--vis
de ses concurrents trangers, a ralis le squenage complet du chromosome 14 humain
(Heilig et al., 2003), du poisson Tetraodon (Jaillon et al., 2004), de la Paramcie (Aury et al.,
2006), de la vigne (Jaillon et al., 2007), d'une algue brune Ectocarpus silicosus (Cock et al.,
2010), de l'urochord Oikopleura, pour ne citer que les plus grands projets. Depuis une dizaine
dannes, il a ralis plusieurs centaines de projets gnomes au service de la communaut
scientifique franaise et europenne, en plus du squenage de rgions gnomiques d'intrt
particulier, de la recherche de mutations, de banques d'ADN complmentaires etc ...
Les curiosits biologiques
Avec les gnomes, la Biologie traditionnelle redevient d'actualit. Par exemple, on a
squenc les nuclomorphes de symbiontes rcents tels que Guillardia thta, une Cryptophyte
considre tort comme une algue rouge (Douglas et al., 2001) et Bigelowiella natans, un
Chlorarachniophyte considr tort comme une algue verte (Gilson et al., 2006). Ces
nuclomorphes reprsentent en ralit les restes des noyaux dune algue rouge ou verte,
respectivement, aprs leur absorption par dautres eucaryotes unicellulaires ayant ainsi acquis
la photosynthse de manire endosymbiotique (Curtis et al., 2012). De la mme faon, on a
squenc le gnome d'une ascidie, Ciona intestinalis pour explorer la base volutive des
Chords (Dehal et al., 2002). On s'intresse aussi aux annlides et aux mollusques car ce sont
des Lophotrochozoaires, une branche animale longtemps inexplore au niveau gnomique et
qui prsente de nombreuses caractristiques intressantes dans le plan de formation du corps.
Loin d'tre une activit rductionniste l'extrme comme certains l'imaginent, l'tude des
gnomes ouvre des voies nouvelles, d'une efficacit inconnue auparavant, pour tous ceux qui
connaissent l'Histoire naturelle et ses remarquables observations. On s'intresse aux
symbioses, au parasitisme, et toutes les interactions des organismes dans la nature.
Gnomique populationnelle et mtagnomique
De plus, pour un nombre croissant dorganismes on squence, pour les comparer, de
nombreux individus dune mme espce. On parle de resquenage. Cest videmment le cas
pour lhomme, mais aussi pour de nombreux microorganismes (voir par exemple Liti et al.,
2009). Avec cette stratgie, la gnomique rejoint la gntique des populations, en
l'enrichissant d'une quantit de donnes que cette dernire ne pouvait pas obtenir par les
mthodes traditionnelles. C'est l, l'un des dfis majeurs de l'enseignement de la Biologie
moderne, tant ces disciplines sont restes trop longtemps spares (voir Lynch, 2007). De
mme, l'analyse des gnomes nous affranchit de la ncessit d'isoler les organismes tudis,
ce qui n'est pas toujours possible. Au contraire, on peut s'intresser directement des
populations naturelles, ou mme des cosystmes. On parle de mtagnomique.
Actuellement, on dcouvre plus d'espces nouvelles par le squenage mtagnomique que
par les mthodes traditionnelles. L'tendue de la biodiversit des espces devient accessible
aux nouvelles mthodes de squenage (Sogin et al., 2006). Les ocans deviennent des
champs d'exploration systmatique. Un projet pilot par des quipes franaises et le
Gnoscope (Tara Ocans) a t lanc pour cataloguer des virus, des bactries et des
eucaryotes unicellulaires des ocans du monde entier (Karsenti et al., 2011). Plusieurs
centaines de prlvements ont t effectus et les chantillons sont caractriss par le
squenage et lanalyse des morphologies cellulaires (Karsenti, 2012). Les chantillons
ocaniques montre de nombreux virus dont limportance cologique est probablement grande
(Hingamp et al., 2013 ). Les sols aussi sont videmment tudis pour leur importance
agronomique ou forestire mais galement pour suivre les effets de diverses pollutions (Monier,
et al., 2011). Au fur et mesure que les rsultats arrivent, on mesure l'ampleur de ce qui nous
reste dcouvrir, mme dans des systmes limits comme les flores intestinales de l'homme
ou des animaux pour lesquels des programmes internationaux ont dj livrs leurs

premiers rsultats (Qin et al., 2010). On parle maintenant couramment de microbiome pour
dsigner les flores microbiennes dont les compositions peuvent maintenant tre intgralement
dcrites par la mtagnomique sans nous limiter aux micro-organismes cultivables.

La phylognomique
Enfin, c'est tout l'arbre du vivant qui est revu (et souvent corrig) avec les donnes des
gnomes. Il suffit pour s'en convaincre de regarder l'arbre actuel des eucaryotes (Baldauf et al.,
2003, Keeling et al., 2005, voir figure) et de le comparer avec les versions antrieures, mme
relativement rcentes. A la phylogntique succde une phylognomique dont les principes
sont encore objet d'actives recherches, vu la complexit du problme. La congruence des
topologies des arbres devient un problme trs compliqu si l'on souhaite y intgrer toutes les
donnes des gnomes. Les arbres obtenus dpendent du lot de gnes utilis pour tablir la
phylognie. Les raisons de ce phnomne sont complexes et encore mal comprises. Les
hybrides naturels et les transferts gntiques horizontaux sont probablement beaucoup plus
frquents qu'on ne l'imagine.

Figure 3 : L'arbre phylogntique des eucaryotes compte neuf lignes principales regroupes ici en cinq branches
majeures (Keeling et al, 2005). Le nombre de gnomes squencs compltement ou partiellement (rouge gras)
montre un fort dsquilibre entre les cinq principales branches (GOLD octobre 2011). La gnomique a encore
faire un long travail dexploration avant quune description quilibre du monde vivant devienne disponible.

Chez les bactries, on constate que de nombreux segments de gnomes varient entre isolats
d'une mme espce, reflets d'intenses changes gnomiques au sein des populations. La
notion mme d'espce s'estompe. On en vient considrer un gnome bactrien en deux
parties, le "cur" form des gnes transmission verticale (donc propre la phylognie) et les
"ajouts" reflet d'une intense dynamique horizontale, les proprits biologiques de l'organisme,
ses capacits s'adapter des niches cologiques ou, par exemple, devenir pathognes,
tant la rsultante finale des deux parties (Danchin et al., 2007). videmment, certains
organismes, dont l'homme, ont une reproduction sexue obligatoire, structurant les
populations selon les lois de la gntique classique. Mais beaucoup d'autres, surtout les
microorganismes ou les champignons mais aussi les plantes ou mme certains animaux, ont
des phases d'expansion clonale considrable dont on retrouve la signature dans les
gnomes. Avec la perte frquente de la sexualit dans de nombreuses lignes de
microorganismes eucaryotes, la notion d'espce s'estompe encore plus.

Le problme de lchantillonage taxonomique


A mesure que se prcise l'arbre du vivant, on ralise quel point nos connaissances
actuelles sur les gnomes sont biaises. Si l'on reporte les nombres de gnomes connus sur
les diffrentes branches volutives des eucaryotes, on s'aperoit que l'essentiel des donnes
correspond deux grandes divisions volutives, celle des Opistokontes qui rassemble tous les
animaux et les champignons et celle des Viridiplantae cest--dire les plantes et les algues
vertes. Si un nombre raisonnable de donnes existent pour le complexe des Chromalveolata
regroupant les Apicomplexes, les Cilis, les Algues brunes, les Oomyctes et qulque autres
lignes, en revanche pratiquement rien n'est connu des gnomes des deux autres grands
groupes, Excavata et Rhizaria, alors que les rares donnes disponibles suggrent que
beaucoup de surprises nous attendent. Les modes de financement de la recherche ne sont pas
trangers ces biais de nos connaissances. Mais la curiosit des chercheurs est galement en
cause. Si l'on ne peut enseigner que ce que l'on connat, la recherche elle, consiste
tudier ce que lon ne connat pas dj !

Les nouvelles mthodes de squenage


La priode Sanger (1977-2007)
La mthode de Sanger tait base sur la synthse in vitro de copies d'ADN
complmentaire un brin matrice par les polymrases. La mthode de Maxam et Gilbert tait
base sur la dgradation chimique des molcules d'ADN. Les deux mthodes impliquaient le
marquage terminal des molcules et leur sparation selon leur taille par lectrophorse haute
rsolution, toutes les molcules d'une mme raction de squenage ayant une extrmit
commune (origine) et l'autre dpendant de la nature du nuclotide terminal. Malgr leur apport
considrable la Biologie, les mthodes initiales de squenage ne permettaient pas une
augmentation d'chelle significative car elles ncessitaient trop d'interventions manuelles.
Plusieurs perfectionnements techniques, coupls aux progrs parallles de l'informatique,
allaient graduellement changer le paysage jusquau milieu des annes 2000. On peut citer la
mise au point, puis l'utilisation de nuclotides fluorescents qui, couple l'lectrophorse
capillaire, allait permettre la construction de toute une gnration d'automates (squenceurs)
existant encore aujourd'hui bien que de moins en moins utiliss. Avec les machines les plus
puissantes de cette gnration technologique, on pouvait dterminer en parallle 96
squences d'environ 750 nuclotides de long chacune, soit environ 70 000 nuclotides par
"run" de deux trois heures. Ce sont ces mthodes de squenage appliquant les principes
fondamentaux de la mthode Sanger qui, associes des dveloppements informatiques
adapts permettant d'assembler, finaliser et annoter de trs grands gnomes, ont permis
l'extraordinaire dveloppement de la gnomique jusqu il y a quelques annes.

Les nouvelles mthodes de squenage


Mais la situation a radicalement change au milieu des annes 2000 (voir par exemple,
Seo et al., 2005, Margulis et al., 2005, Shendure et al., 2005) avec l'arrive de nouvelles
mthodes de squenage souvent appeles NGS (pour Next Generation Sequencing).
Contrairement aux perfectionnements techniques prcdents ces nouvelles mthodes
appliquent des principes diffrents de ceux des mthodes historiques. Elles ont t rendues
possibles autant par les progrs de la biologie molculaire (nouvelles molcules, nouvelles
ractions) que par ceux de l'ingnierie (miniaturisation, traitement des images). Avec le NGS,
la Biologie est entre dans une nouvelle re pour plusieurs raisons. Dabord, les quantits de
squences produites sont beaucoup plus leves que celles obtenues par la mthode Sanger.
Par exemple, un "run" sur une machine utilisant le pyrosquenage produit environ un million
de squences de longueur moyenne 500 nuclotides, soit un total de plus de 500 millions de
nuclotides ( comparer aux 70.000 nuclotides des mthodes prcdentes). Autre exemple,
un "run" sur une machine utilisant la synthse en phase solide peut produire plusieurs milliards
de lectures de longueur de 100 nuclotides ou plus, soit un total de plusieurs centaines de
milliards de nuclotides. Cest actuellement cette dernire technologie qui est la plus utilise
dans le monde. Sa puissance est telle que, souvent, plusieurs chantillons sont mlangs,
aprs tiquetage molculaire, pour tre soumis un squenage unique. Les squences
lmentaires sont ensuite aisment tries en utilisant les tiquettes avant dtre traites. Les
techniques encore en dveloppement bases sur l'analyse de molcules uniques ont des
rendements un peu plus faible mais permettent d'envisager d'allonger la longueur de chaque
lecture, ce qui est un point essentiel pour l'assemblage de novo de gnomes inconnus.
La profondeur de lecture, lment critique
Avec ces nouvelles techniques, on entend souvent que le cot du squenage a chut
en quelques annes de plus de 5 ordres de grandeur. Une performance rarement atteinte.
Cest ce qui a permis au squenage dADN une devenir une technologie centrale pour de
nombreuses applications (agronomie, environnement, cancer, gntique mdicale, recherche
dempreintes, criminologie etc ). On parle mme de son application en routine dans les
simples laboratoires danalyse mdicale. Mais ce nest pas cet aspect conomique qui est le
plus intressant. Avec les nouvelles techniques de squenage, la multiplication des lectures
est telle quelle permet enfin datteindre des nombres comparables ceux des molcules
dARN dans une cellule ou au nombre de molcules dADN dun organisme pluricellulaire ou
dune population de microorganismes. Ltude exhaustive se substitue lchantillonnage
alatoire. Ensuite, les mthodes NGS n'utilisent plus le clonage de l'ADN dans des vecteurs
d'E. coli qui fut la signature universelle du gnie gntique depuis plus de 35 ans et celle de la
gnomique pendant une quinzaine d'annes. La sparation des molcules d'ADN squencer
et leur amplification se fait maintenant entirement in vitro par PCR dans des micelles ou sur
des supports solides. Avec les nouvelles technologies molcules uniques, il n'y a mme plus
d'amplification par PCR. Ce sont les molcules d'ADN prsentes dans l'organisme tudi qui
sont directement squences. Avec l'norme avantage de pouvoir identifier, en plus de la
squence des 4 nuclotides fondamentaux, les modifications chimiques que ces molcules
peuvent porter et qui sont effaces par l'amplification par PCR.
Une rvolution pistmologique
Evidemment, les bases de donnes et les logiciels danalyse doivent s'adapter aux
normes quantits de donnes produites par ces nouvelles mthodes. Il n'est plus
envisageable de stocker les donnes brutes de manire prenne. Ces mthodes ont dplac
les limites des problmes techniques vers des problmes d'informatique. Dans cette nouvelle
Biologie qui merge, la composition des quipes de recherche et la formation de leurs
membres, donc des tudiants, changent totalement. Leffort danalyse des donnes surpasse
celui de la production des donnes. Mais les vritables changements ne se limitent pas au
volume des donnes traiter. Le changement d'chelle induit un changement de nature des
questions tudies. Les systmes modles traditionnels des laboratoires (bactries, levures,

drosophile, souris, etc ) perdent de leur importance. Tous les organismes existants
deviennent tudiables. Ce sont leurs particularits biologiques qui font le degr d'intrt de leur
tude. Les populations naturelles elles-mmes deviennent accessibles l'tude gnomique,
sans se limiter aux espces cultivables. L'volution, les structures des populations, leur
histoire, les forces de slection auxquelles elles ont t soumises deviennent lisibles dans les
gnomes. La gnomique de la biodiversit rvolutionne notre connaissance des cosystmes
et des relations entre organismes au sein de ces derniers. La mtagnomique dpasse le
catalogue existant d'espces dj identifies (trs incomplet) pour nous ouvrir des mondes
entirement inconnus. Les ADN fossiles deviennent analysables sans avoir besoin, d'abord, de
les recopier en ADN moderne. En rsum, le changement quantitatif a induit un
changement qualitatif dans nos faons daborder la Biologie.

Retour sur les bases du systme gntique


Avec le nouveau squenage, la transcriptomique cesse d'tre essentiellement
quantitative (mesure des quantits de transcrits par hybridation sur des arrays ou par
squenage d'tiquettes) pour devenir analytique (les molcules d'ARN prsentes dans une
cellule sont squences directement et quantitativement). Au lieu de se contenter de
considrer les ARNs comme de simples intermdiaires de l'expression des gnes, ce sont les
multiples formes de ceux-ci qui deviennent analysables, y compris celles courte dure de vie
(Jacquier, 2009, Pelechano et al., 2013) qui correspondent au fait que la transcription des
gnomes eucaryotes est gnrale et non limite aux gnes que l'on sait dfinir. Le squenage
massif d'ARN (par l'intermdiaire d'ADN complmentaire soumis squenage massif) devient
donc l'outil de choix pour annoter les gnomes (Denoeud et al., 2008). De nouveaux petits
ARNs non codants sont dcouverts. Et mme les variations stochastiques intercellulaires
deviennent analysables grce aux nouvelles mthodes de squenage. (Newman et al., 2006).

La gnomique fonctionnelle
Le problme
Si dterminer les squences des gnomes devient de plus en plus facile, il ne s'agit
toujours que du point de dpart d'une recherche, pas de son but. Dans la plupart des cas, on
aura besoin de relier ces squences des fonctions biologiques, domaine plus complexe parce
que moins bien dfini. Eliminons ici tout de suite toutes les recherches qui s'adressent la
fonction d'un gne ou d'un petit groupe de gnes dans un systme exprimental particulier.
C'est le domaine de la gntique classique, pas celui de la gnomique. Aujourd'hui on dispose,
si on le veut, de tous les gnes. Le problme n'est donc plus de connatre les fonctions de
certains gnes, ni mme de chacun, mais de comprendre comment, ensemble, ils dterminent
un phnotype. On entre dans une nouvelle science (en ralit le cur historique de la
Gntique, savoir comment le gnotype dtermine le phnotype) que l'on tend maintenant
appeler "Systems Biology" et dans laquelle on essaie de reconstituer toutes les interactions
fonctionnelles tous les niveaux de complexit hirarchiques, du gne l'organisme. Ceci
implique naturellement un effort de modlisation thorique pour intgrer des donnes de
nature, de complexit, de prcision et fiabilit diffrente. La gnomique fonctionnelle est la
partie exprimentale ncessaire pour l'acquisition de ces donnes. Elle est trs diversifie et
s'applique, selon les modles tudis, avec plus ou moins de facilit et de succs.

Transcriptome classique
Parce qu'elle tait le premier eucaryote squenc compltement, mais aussi et surtout
parce qu'elle permet des expriences plus aises qu'ailleurs, la levure Saccharomyces
cerevisiae a jou un rle important dans l'mergence des nouvelles mthodes de gnomique
fonctionnelle. C'est avec cette levure que l'on a d'abord valid la mthode SAGE (Velculescu et
al., 1995, 1997) puis les "microarrays" (DeRisi et al., 1997, Laskari et al., 1997), utiliss pour
quantifier les transcrits, mais aussi maintenant pour les hybridations gnomiques comparatives
(CGH) qui permettent d'identifier les variations du nombre de copies de gnes qui sont un
lment essentiel de l'volution et du polymorphisme entre individus (Lage et al., 2003). Les
"microarrays" permettent aussi l'tude des squences de rgulation ou la slection (ChIpCHIP) de squences fixes des protines (Harismendy et al., 2003) ou encore, avec les
"tiling arrays", de dterminer tous les polymorphismes de squences entre individus. En
combinant ces mthodes avec la gntique classique (croisement et tude des descendants),
on obtient ce que l'on dsigne par "genetical genomics", la stratgie la plus puissante
actuellement pour identifier les dterminants des caractres complexes tellement important
pour l'agronomie, les biotechnologies ou la mdecine, sans oublier l'tude des processus
essentiels de la vie cellulaire (miose, rplication, recombinaison, conversion, rparation).
Interactome et mutants systmatiques
C'est encore avec la levure que les premires cartes d'interactions de protines ont t
tablies (Fromont-Racine et al., 1997, Uetz et al., 2000, Ito et al., 2000, 2001, Zhong et al.
2003) partir de la technique de double-hybride (Fields et Song, 1989) ou en utilisant de
nouvelles mthodes de marquage et de purification des protines et des complexes (Gavin et
al., 2002, Ho et al., 2002). Pour ces raisons, et d'autres, tous les gnes de levure ont t
clons dans des vecteurs d'expression qui permettent, avec des marquages fluorescents
d'examiner la localisation intracellulaire des protines, ou de dvelopper des matrices ("protein
chips") de toutes les protines (Zhu et al., 2001, Kumar et al., 2002a, Michaud et al., 2002,
2003, Ghaemmaghami et al., 2003,). La levure tait le premier organisme pour lequel on a
dispos d'une collection quasi-complte de mutants de dltion de chaque gnes. Des
collections quivalentes existent maintenant pour certaines bactries et d autres levure. Dans
ces collections, chaque mutant est marqu molculairement, permettant ainsi de le repcher
partir de populations (Shoemaker et al., 1996, Winzeler et al., 1999, Giaever, 2002). La
collection de mutants de levure a t utilise directement pour cribler des phnotypes divers
(Birrel et al., 2001, Aburatani et al., 2003) y compris ceux qui sont importants pour rechercher
des gnes morbides chez l'homme (Steinmetz et al., 2002). De plus, d'astucieuses
constructions molculaires faites partir de transposons permettent des expriences de
mutagense alatoire partir desquelles les gnes muts et les protines correspondantes
deviennent immdiatement identifiables car marqus molculairement (Ross-Macdonald et al.,
1999, Bidlingmaier et al., 2002). Chez les autres eucaryotes pour lesquels de telles collections
sont difficiles construire, on a construit des collections d'ARN interfrant qui permettent de
cribler tout un gnome en teignant les gnes un un sans avoir besoin de les dlter.
Interactions gntiques
C'est toujours avec la levure, grce la puissance de sa gntique, que l'on a
dvelopp les cribles de phnotypes synthtiques les plus perfectionns, c'est--dire des
cribles nous permettant de rechercher toutes les interactions fonctionnelles entre un gne mut
donn et tous les autres gnes de la cellule (Tong et al., 2001). Grce l'accumulation de
larges collections de donnes sur les rseaux transcriptionnels, les interactions protiques, les
complexes macromolculaires ou les interactions gntiques, la levure permet maintenant
d'envisager la modlisation des interactions dynamiques qui ont lieu dans une cellule
eucaryote et d'imaginer leur volution (voir, par exemple, Tavazoie et al., 1999, Friedman et al.,
2000, Schwikowski et al., 2000, Ideker et al., 2001, Edwards et al., 2002, Harrison et al.,
2002a, Jansen et al., 2002, Tong et al., 2002, Werner-Washburne et al., 2002, Bar-Joseph et
al., 2003, Famili et al., 2003, Forster et al., 2003, Herrgard et al., 2003, Kelley et al., 2003,

Milo et al., 2002, Qian et al., 2003, Ranish et al., 2003, Segal et al., 2003, Stuart et al., 2003,
Vasquez et al., 2003, Wagner, 2003, Wuchty et al., 2003, Yu et al., 2003). Cette liste, qui n'est
pas exhaustive et qui ne tient pas compte des rsultats les plus rcents, suffit illustrer
l'ampleur des changements en cours de la Biologie (voir par ex. Costanzo et al., 2010).
Le cur du problme
Ce bref tableau ne doit cependant pas nous faire croire qu'il ne reste plus qu'
assembler les lments. Plus on approfondi l'tude et plus on s'aperoit que les lments euxmmes sont plus complexes qu'on ne le pensait. Mme le gne devient difficile cerner. Avec
le projet d'analyse fonctionnelle du gnome humain (ENCODE Project Consortium, 2007), on
s'est immdiatement aperu quel point la complexit des transcrits fait qu'il devient
impossible de dfinir les limites des gnes (Gerstein et al. 2007). Chez lhomme comme chez
la levure, on voit maintenant que, loin du concept initial un gne un produit, les gnomes sont
transcrits en une multitude disoformes dARN partiellement chevauchants et de dure de vie
extrmement variable (Pelechano et al., 2013). Les molcules dARN qui, finalement, serviront
dintermdiaires pour la synthse protique (le premier dogme central de la Biologie
molculaire) ne reprsentent quune infime partie de la population de molcules dARN
produites dans la cellule. En dautres termes coder des protines nest pas le rle principal des
gnes ! Et dailleurs dans notre propre gnome, seules 2% des squences servent cette
fonction, nous laissant 98 % mieux comprendre.

Quest-ce quun gnome ?


Le texte des gnomes
Quand on a squenc un gnome, on dispose du texte intgral qui dtermine lordre, la
complexit et le fonctionnement de lorganisme qui le porte. Ce texte contient de plus en trace
lhistoire de ses anctres et les limites de ses possibilits volutives futures. Les variations
dexpression dites pigntiques ne changent rien ce dterminisme fondamental: les
mcanismes pigntiques sont eux-mmes dtermins gntiquement. Ce quil est important
de comprendre est que le dterminisme gntique nest pas ncessairement simple et direct et
encore moins monognique. Il nous reste interprter le texte des gnomes en termes
fonctionnels et ceci est loin d'tre rsolu. La difficult est encore accrue par les variations entre
individus dune mme population. Croire que lon dispose du gnome dune espce parce
quon a squenc lun de ses reprsentants est une erreur commune. Combien de gens ont
clam quaprs lannonce du gnome humain, on allait (enfin) passer la post-gnomique et
se sont videmment retrouvs frustrs par labsence de retombes immdiate. Mais que
pouvait-on conclure dune rfrence ? Sauf de jouer son rle de rfrence comme on le voit
maintenant que lon dispose des variations individuelles.
Combien de gnes ?
De plus, la simple question: combien de gnes dans un gnome particulier squenc
avec le plus grand soin, la rponse est rarement prcise. Chez l'homme, le dbat fut mme vif
il y a quelques annes (Roest-Crollius et al. 2000) avant que l'on comprenne que le
dterminisme gntique n'est pas une relation simple et univoque entre un gne et sa fonction.
Mais mme chez la levure, plus de quinze ans aprs la premire squence intgrale et malgr
l'intensit des tudes fonctionnelles, on en est encore modifier le nombre de gnes car on en
avait oubli quelques centaines, surtout les plus courts, et annots quelques centaines d'autres
qui, aprs analyse, se sont rvls ne pas exister (Blandin et al., 2000, Zhang et Wang, 2000,
Harrison et al., 2002b, Kumar et al., 2002b, Oshiro et al., 2002, Kessler et al., 2003, Kellis et
al., 2003). Une partie de ces problmes est relier au fait que la limite est floue entre un gne,
un pseudogne et un proto-gne (Carvunis et al., 2012). Quelques mutations peuvent suffire
pour passer de lun lautre. Chez la levure, on estime prs de 1900 (un tiers du gnome
environ)
le
nombre
de
proto-gnes
capables
en
quelques
mutations

de donner naissance des nouveaux gnes fonctionnels. On voit que les projets de Biologie
synthtique, pourtant extrmement prometteurs en termes de possibilit de synthse de
gnomes (Dymond et al., 2011, Cooper et al., 2012), ont peut-tre encore des progrs faire
avant dtre comptitifs avec la nature. Mais sil est si difficile de dfinir les modles de gnes,
il ne faut pas oublier quen dfinitive chaque gnome nest en ralit que linstantan dun
processus de changements permanents. Et cette dynamique volutive devra tre prise en
compte pour interprter les gnomes.
Des rfrences revoir
Actuellement, beaucoup des gnomes entirement squencs sont mal annots. C'est
l'un des problmes importants que l'on doit rsoudre. L'augmentation trs rapide du nombre de
squences disponibles, due aux nouvelles technologies devrait nous y aider en mettant la
gnomique comparative l'chelle ncessaire pour tudier le monde vivant rel et non plus
seulement les systmes modles. La gnralisation du "RNA seq" devrait aussi
considrablement aider. En mme temps, ce sont les ordinateurs qui, seuls, seront capables
d'interprter les textes des gnomes tant ils seront nombreux dans le futur. Les utilisateurs,
eux, ne pourront qu'interroger ces derniers, qui ne pourront rpondre que dans un vocabulaire
standardis, condition qu'on leur en ait donn un. Quand on parle de fonctions, les efforts
actuels de standardisation du vocabulaire sont donc indispensables (Reference Genome
Group of the Gene Ontology Consortium, 2009). Mais on reste loin du compte car la notion
mme de fonction est imprcise. En Biologie, elle reprsente souvent davantage lide que lon
se fait dun phnomne que le phnomne lui-mme.
Le gne
Si, force de mieux connatre les gnes, on ne sait plus trs bien ce qu'ils sont, c'est
peut-tre qu'en ralit, ils n'existent pas. Du moins pas comme objet molculaire prcisment
dfinissable. A ce sujet, ltudiant pourra consulter utilement un rcent ouvrage qui retrace la
notion de gne au cours du dveloppement de la Gntique (Deutsch, 2012). Aprs tout,
comme le disait Johanssen lui-mme quand il proposa le terme en 1906, le gne nest rien
dautre quun petit mot facile utiliser . Cest lintgration physique des gnes le long des
chromosomes et leur intgration fonctionnelle au sein des gnomes, cest dire la gnomique,
qui fait leur intrt. On notera dailleurs que, contrairement ce que lusage actuel tend
suggrer, le mot gnome nest pas rcent. Il a t propos pour la premire fois par H.
Winckler en 1920 pour dsigner le lot complet de tous les facteurs hrditaires dun organisme
vivant, observable lpoque sous la forme des chromosomes qui les portent (Winckler, 1920).
Plus que dans les avances technologiques indniables de la gnomique, cest dans ce
caractre intgr quil faut rechercher la vritable dimension nouvelle de la gnomique.

Le cours dAnalyse des Gnomes


Le bref historique ci-dessus na pour but que dessayer de mieux faire comprendre aux
tudiants lorigine et la signification des concepts quils seront appels manipuler. Le cours a
pour finalit damener les tudiants comprendre les principes fondamentaux de la
gnomique, dcouvrir ses mthodes et rflchir ses implications dans tous les aspects de
la Biologie. Pour des raisons pratiques, seules quelques unes des technologies modernes de la
gnomique pourront tre abordes exprimentalement. Les nouvelles technologies qui mettent
l'accent sur les volumes de rsultats obtenus se prtent malheureusement mal des
dmonstrations de salles de travaux pratiques et il est possible que certains tudiants attirs
par les expriences en prouvent une frustration. Plusieurs systmes biologiques distincts ont
t choisis pour illustrer ces principes et mthodes. Dans tous les cas, on insistera sur les
bases fondamentales des stratgies mises en jeu. Le traitement des rsultats servira illustrer
lutilisation des mthodes de linformatique sans lesquelles aucune analyse des gnomes ne
pourrait tre possible. tant donn la spcificit de ce domaine, des notions de

bases en Informatique elle-mme seront donnes aux tudiants. Les confrences thoriques
ont t choisies pour illustrer diffrentes facettes de la gnomique appliques des questions
biologiques fondamentales et pour complter les thmes qui ne pourront pas tre abords
exprimentalement. Elles seront donnes par des spcialistes renomms du domaine que je
voudrais remercier vivement ici de bien vouloir consacrer un peu de leur temps et de leur talent
cet enseignement.

Figure 4 : Une vision hypothtique du futur de la gnomique, inspire de ce que l'on entrevoit
des dveloppements actuels. Mais n'oublions pas ce que disait Jean Dutourd "La seule chose

dont on soit sr, en ce qui concerne l'avenir, c'est qu'il n'est jamais conforme nos
prvisions".

Abecassis, G.R., et al., 2012) An integrated map of genetic variation from 1092 human genomes. Nature 491 : 5665.
Aburatani S, et al., (2003) Discovery of novel transcription control relationships with gene regulatory networks
generated from multiple-disruption full genome expression libraries. DNA Res. 10, 1-8.
Abyzov, A. et al., (2013) Analysis of variable retroduplications in human populations suggests coupling of
retrotransposition to cell division. Genome Res. Epuc ahead of print.
Adams M. D., et al., (2000) The genome sequence of Drosophila melanogaster. Science 287, 2185-2195
Altman, S. (1981) Transfer RNA processing enzymes. Cell, 23: 3-4.
Aparicio, S. et al., (2002), Whole-genome shutgun assembly and analysis of the genome of Fugu rubripes. Science
297, 1301-1310
Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the flowering plant Arabidopsis thaliana.
Nature 408, 796-815
Aury, J-M. et al., (2006) Global trends of whole-genome duplications revealed by the ciliate Paramecium tetraurelia.
Nature 444: 171-178.
Avery, O. T., Mac Leod, C. M. , McCarthy, M. (1944) Studies on the chemical nature of the substance inducing
transformation of pneumococcal types. J. Exp. Med. 98, 451-460.
Baldauf, S.L. (2003) The deep roots of eukaryotes. Science, 300: 1703-1706.
Baltimore, D. (1970) RNA-dependent DNA polymerase in virions of RNA tumor viruses. Nature 226, 1209-1211.
Bar-Joseph Z, Gerber GK, Lee TI, Rinaldi NJ, Yoo JY, Robert F, Gordon DB, Fraenkel E, Jaakkola TS, Young RA,
Gifford DK. (2003) Computational discovery of gene modules and regulatory networks. Nat Biotechnol. 21,
1337-1342
Beadle, G.W., Tatum, E.L. (1941) Genetic control of biochemical reactions in Neurospora. PNAS 15: 499-506.
Benzer, S. (1961) On the topography of the genetic fine structure. Proc. Natl. Acad. Sci. USA. 47, 403-415.
Berget, S.M., Moore, C., Sharp, P (1977) Spliced segments at the 5 terminus of adenovirus 2 late mRNA. P.N.A.S.
74, 3171-3175.
Berriman, M., et al., (2005) The genome of the african trrypanosome Trypanosoma brucei. Science 309, 416-422
Bidlingmaier S, Snyder M. (2002) Large-scale identification of genes important for apical growth in Saccharomyces
cerevisiae by directed allele replacement technology (DART) screening. Funct Integr Genomics. 1, 345-356
Birrell GW, et al., (2001) A genome-wide screen in Saccharomyces cerevisiae for genes affecting UV radiation
sensitivity. Proc. Natl. Acad. Sci. USA. 98, 12608-12613
Blandin, G. et al., (2000) Genomic exploration of the Hemiascomycetous yeasts: 4- The Genome of Saccharomyces
cerevisiae revisited. FEBS Letters 487, 31-36.
Brown, A. (2003) In the beginning was the worm. Columbia University Press, New York 244pp.
Carlton, J.M. et al., (2002) Genome sequence and comparative analysis of the model rodent malaria parasite
Plasmodium yoelii yoelii. Nature 419, 512-519
Carvunis, A. R.. et al. (2012) Proto-genes and de novo gene birth. Nature 487: 370-374.
Cech, T.R. Zaug, A.J., Grabowski, P.J. (1981) In vitro splicing of the ribosomal RNA precursor of Tetrahymena:
involvement of a guanosine nucleotide in the excsision of the intervening sequence. Cell, 27: 487-496.
Chen, W. et al. (2008) Mapping translocation breakpoints by next-generation sequencing. Genome Res. 18: 11431149.
Chow, L.T., Gelinas, R.E., Broker, T.R. Roberts, R.J. (1977) An amazing sequence arrangement at the 5 ends of
adenovirus 2 mRNA. Cell 12, 1-8.
Cliften, P., et al., (2003) Finding functional features in Saccharomyces genomes by phylogenetic footprinting.
Science 301, 71-76.
Cock, J.M. et al., (2010) The Ectocarpus genome and the independent evolution of multicellularity in brown algae.
Nature 465: 617-621.
Colleaux, L. et al (1985) Universal code equivalent of a yeast mitochondrial intron reading frame is expressed into E.
coli as a specific double strand endonuclease. Cell 44: 521-533.
Colleaux, L. et al. (1988) Recognition and cleavage site of the intron-encoded omega transposase. PNAS 85: 60226026.
Collins, F., and the International Human Genome Consortium (2001) The human genome. Nature 409, 813-958.
Cooper, E. M. et al., (2012) The build-a-genome course. Methods Mol. Biol. 852: 273-2783.
Costanzo M. et al., (2010) The genetic landscape of a cell. Science 327: 425-431.
Crick, F. H. C. et al., (1961) General nature of the genetic code for proteins. Nature 192, 1227-1232.
Curtis, B.A. et al. (2012) Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs. Nature 492:
59-65.
Danchin, A., Fang, G., Noria, S. (2007) The extant core bacterial proteome is an archive of the origin of life.
Proteomics 7: 875- 889.
Dean R.A. et al., (2005) The genome sequence of the rice blast fungus Magnaporthe grisea. Nature 434: 980-986.
Dehal, P., et al., (2002) The draft genome of Ciona intestinalis: insights into chordate and vertebrate origins.
Science, 298, 2157-2167.
Denoeud, F. et al., (2008) Annotating genomes with massive-scale RNA sequencing. Genome Biol. 9: R175
DeRisi JL, Iyer VR, Brown PO. (1997) Exploring the metabolic and genetic control of gene expression on a genomic
scale. Science. 278, 680-686.
Deutsch, J. (2012) Le gene. Un concept en evolution. Editions du Seuil.
Dietrich et al., (2004) The Ashbya gossypii genome as a tool for mapping the ancient Saccharomyces cerevisiae
genome. Science 304, 304-307
Douglas, S., et al., (2001) The highly reduced genome of an enslaved algal nucleus. Nature 410, 1091-1096.
Drosophila 12 genome Consortium (2007) Evolution of genes and genomes on the Drosophila phylogeny. Nature,
450:203-218
Dujon B., et al., (2004) Genome evolution in yeasts. Nature 430, 35-44.

Dujon, B. (2005a) Homing endonucleases and the yeast mitochondrial omega locus A historical prespective. In
"Homing endonucleases and inteins". (Belfort et al. Eds) Springer Berlin Heidelberg. pp. 11- 31
Dujon, B. (2005b) Hemiascomycetous yeasts at the forefront of comparative genomics. Curr Opin Genet Dev. 2005,
6, 614-20
Dujon, B., (2006) Yeasts illustrate the molecular mechanisms of eukaryotic genome evolution. Trends in Genetics
22, 375-387
Dujon, B, (2010) Yeast evolutionary genomics. Nature Genetics reviews 11: 512-524.
Dymond, J.S. et al. (2011) Synthetic chromosme arms function in yeast and generate phenotypic diversity by design.
Nature 477: 471-476.
Edwards AM, et al. (2002) Bridging structural biology and genomics: assessing protein interaction data with known
complexes. Trends Genet. 18, 529-536.
Eichinger, L. et al., (2005) The genome of the social amoeba Dictyostelium discoideum. Nature 435, 43-57
El-Sayed, N. M., et al., (2005) The genome sequence of Trypanosoma cruzi, etiologic agent of Chagas diseases.
Science 309, 409-415
ENCODE Project Consortium (2007) Identification and analysis of functional elements in 1% of the human genome
by the ENCODE pilot project. Nature. 447: 799816.
Famili I, Forster J, Nielsen J, Palsson BO. (2003) Saccharomyces cerevisiae phenotypes can be predicted by using
constraint-based analysis of a genome-scale reconstructed metabolic network. Proc Natl Acad Sci U S A.
100, 13134-13139.
Fields S, Song O. (1989) A novel genetic system to detect protein-protein interactions. Nature. 340, 245-246.
Fire A, et al. (1998) Potent and specific genetic interference by double-stranded RNA in Caenorhabditis elegans.
Nature 391, 806-811
Fleischmann, R.D. et al., (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd,
Science 269, 496-512
Forster J, Famili I, Fu P, Palsson BO, Nielsen J. (2003) Genome-scale reconstruction of the Saccharomyces
cerevisiae metabolic network. Genome Res. 13, 244-253
Friedman N, Linial M, Nachman I, Pe'er D. (2000) Using Bayesian networks to analyze expression data. J Comput
Biol. 7, 601-620.
Fromont-Racine M, Rain JC, Legrain P. (1997) Toward a functional analysis of the yeast genome through exhaustive
two-hybrid screens. Nat Genet. 16, 277-282.
Galagan, J.E. et al. (2003) The genome sequence of the filamentous fungus Neurospora crassa. Nature 422, 859868.
Galagan, J.E. et al. (2005) Sequencing of Aspergillus nidulans and comparative analysis with A. fumigatus and A.
oryzae. Nature 438: 1105-1115.
Gardner, M.J. et al., (2002) Genome sequence of the human malaria parasite Plasmodium falciparum Nature 419,
498-511
Gavin AC, et al. (2002) Functional organization of the yeast proteome by systematic analysis of protein complexes.
Nature. 415, 141-147
Gerstein MB, et al. (2007) What is a gene, post-ENCODE? History and updated definition. Genome Res. 6, 669-81
Ghaemmaghami S, et al. (2003) Global analysis of protein expression in yeast. Nature. 425, 737-741
Giaever G, et al ., (2002) Functional profiling of the Saccharomyces cerevisiae genome. Nature. 418, 387-391
Gibbs, R.A. et al., (2004) Genome sequence of the brown norway rat yields insights into mammalian evolution.
Nature 428, 493-521
Gilbert, W. (1978) Why genes in pieces ? Nature 271, 501
Gilson, P.R. et al., (2006) Complete nucleotide sequence of the chlorarachniophyte nucleomorph: natures smallest
nucleus. PNAS 103: 9566-9571.
Goff, S.A., et al., (2002) A draft sequence of the rice genome (Oryza sativa L. ssp. japonica). Science 296, 92-100
Glover, D.M., Hogness, D.S. (1977) A novel arrangement of the 18S and 28S sequences in a repeating unit of D.
melanogaster rDNA. Cell 10, 167-176.
Goffeau, A., et al. (1996) Life with 6000 genes. Science 274, 546-567.
Goffeau A. et al., (1997) The yeast genome directory. Nature 387 suppl. 5-105.
Goujon, P. (2001) From Biotechnology to Genomes: the meaning of the double helix. World Scientific Publishing Co.
PTE. Ltd. Singapore, 782 pp.
Greider CW, Blackburn EH. (1989) A telomeric sequence in the RNA of Tetrahymena telomerase required for
telomere repeat synthesis. Nature 337: 331-337
Harismendy O, et al. (2003) Genome-wide location of yeast RNA polymerase III transcription machinery. EMBO J.
22, 4738-4747.
Harrison PM, et al. (2002a) A question of size: the eukaryotic proteome and the problems in defining it. Nucleic Acids
Res. 30, 1083-1090
Harrison P, et al. (2002b) A small reservoir of disabled ORFs in the yeast genome and its implications for the
dynamics of proteome evolution. J Mol Biol. 316, 409-419
Heilig, R., et al., (2003) The DNA sequence and analysis of human chromosome 14. Nature 421, 601-607
Herrgard MJ, Covert MW, Palsson BO. (2003) Reconciling gene expression data with known genome-scale
regulatory network structures. Genome Res. 13, 2423-2434
Hillier, L.W. et al., Sequence and comparative analysis of the chicken genome provide unique perspectives on
vertebrate evolution. Nature 432, 695-716
Hingamp, P. et al. (2013) Exploring nucleo-cytoplasmic large DNA viruses in Tara Oceans microbial metagenomes.
ISME 7: 1678-1695.
Ho,Y, et al. (2002) Systematic identification of protein complexes in Saccharomyces cerevisiae by mass
spectrometry. Nature. 415, 180-183
Holt, R.A., et al., (2002) The genome of the malaria mosquito Anopheles gambiae. Science 298, 129-149.

Ideker T, et al. (2001) Integrated genomic and proteomic analyses of a systematically perturbed metabolic network.
Science. 292, 929-934.
International Human Genome Sequencing Consortium (2004) Finishing the euchromatic sequence of the human
genome. Nature 431, 931-945
Ito T, et al. (2000) Toward a protein-protein interaction map of the budding yeast: A comprehensive system to
examine two-hybrid interactions in all possible combinations between the yeast proteins. Proc Natl Acad Sci
U S A. 97, 1143-1147.
Ito T, et al. (2001) A comprehensive two-hybrid analysis to explore the yeast protein interactome. Proc Natl Acad Sci
U S A. 98, 4569-4574.
Ivens, A.C., et al., (2005) The genome of the kinetoplastid parasite Leishmanaia major. Science 309, 436-442
Jacob, F, Monod, J. (1961) Genetic regulatory mechanisms in the synthesis of proteins, J. Mol. Biol. 3: 318-356
Jacquier, A, Dujon, B.. (1985) An intron encoded protein is active in a gene conversion process that spreads an
intron into a mitochondrial gene. Cell 41: 383-394.
Jacquier, A. (2009) The complex eukaryotic transcriptome: unexpected pervasive transcription and novel small
RNAs. Nat Rev Genet. 10: 833-844.
Jaillon, O. et al., (2004) Genome duplication in the teleost fish Tetraodon nibroviridis reveals the early vertebrate
prot-karyotype. Nature 431, 946-957
Jaillon, O. et al., (2007) The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm
phyla. Nature 449: 463-467.
Jansen R, Lan N, Qian J, Gerstein M. (2002) Integration of genomic datasets to predict protein complexes in yeast. J
Struct Funct Genomics. 2, 71-81
Jeffreys, A.J., Flavell, R.A. (1977) The rabbit beta-globin gene contains a large insert in the coding sequence. Cell
12, 1097-1108.
Jones T., et al., (2004) The diploid genome sequence of Candida albicans. Proc. Nat. Acad. Sc. USA 101, 73297334.
Kaiper, J. et al. (2006) Insight from the genome of the biotrophic fungal plant pathogen Ustilago maydis. Nature 444:
97-101.
Karsenti, E. et al. (2011) A holistic approach to marine eco-systems biology. PLoS Biol. E1001177.
Karsenti, E. (2012) A journey from reductionist to systemic cell biology aboard the schooner Tara. Mol. Biol. Cell. 23:
2403-2406.
Katinka M. D., et al., Genome sequence and gene compaction of the eukaryote parasite Encephalitozoon cuniciuli.
Nature 414, 45(2001) 0-453.
Keeling P. et al., 2005 Trends in Ecology and Evolution, 20: 670-676
Kelley BP, Sharan R, Karp RM, Sittler T, Root DE, Stockwell BR, Ideker T. (2003) Conserved pathways within
bacteria and yeast as revealed by global protein network alignment. Proc Natl Acad Sci U S A. 100, 1139411399
Kellis, M. et al. (2003) Sequencing and comparison of yeast species to identify genes and regulatory elements.
Nature 423, 241-254
Kellis, M. et al. (2004) Proof and evolutionary analysis of ancient genome duplication in the yeast Saccharomyces
cerevisiae. Nature 428, 617-624
Kessler MM, et al. (2003) Systematic discovery of new genes in the Saccharomyces cerevisiae genome. Genome
Res. 13, 264-271.
Khurana, E., et al. (2013) Integrative annotation of variants from 1092 humans: application to cancer genomics.
Sciene 342: Epub ahead of print.
Korbel, J.O., et al (2007) Paired-end mapping reveals extensive structural variation in the human genome. Science
318: 420-426.
Kumar A, et al. (2002a) Subcellular localization of the yeast proteome. Genes Dev. 16, 707-719.
Kumar A, et al. (2002b) An integrated approach for finding overlooked genes in yeast. Nat Biotechnol. 20, 58-63.
Lage JM, et al. (2003) Whole genome analysis of genetic alterations in small DNA samples using hyperbranched
strand displacement amplification and array-CGH. Genome Res. 13, 294-307
Lappalainen, T., et al., (2013) Transcriptome and genome sequencing uncovers functional variation in humans.
Nature 501: 506-511.
Lashkari DA, et al. (1997) Yeast microarrays for genome wide parallel genetic and gene expression analysis. Proc
Natl Acad Sci U S A. 94, 13057-13062.
Liti, G. et al. (2009) Population genomics of domestic and wild yeasts. Nature 458: 337-341.
Loftus B.J. et al., (2005) The gernome of the basidiomycetous yeast and human pathogen Cryptococcus
neoformans. Science 307, 1321-1324.
Loftus B.J. et al., (2005) The genome of the protist parasite Entamaoba histolytica. Nature 433, 865-868.
Lynch, M. (2007) The Origins of Genome Architecture (Sinauer Associates, Sunderland, Massachusetts)
Ma, L-J. et al. (2009) Genomic analysis of the basal lineage fungus Rhizopus oryzae reveals a whole genome
duplication. PLoS Genetics 5:7 e1000549
Machida, M. et al. (2005) Genome sequencing and analysis of Aspergillus oryzae. Nature 438: 1157-1161.
Margulies, M. et al., (2005) Genome sequencing in microfabricated high-density picolitre reactors. Nature 437, 376380
Martin, F. et al. (2008) The genome of Laccaria bicolor provides insight into mycorrhizal symbiosis. Nature 452: 8892
Martin, F. et al. (2010) Prigord black truffle genome uncovers evolutionary origins and mechanisms of symbiosis.
Nature 464: 1033-1038.
Maxam A.M., Gilbert, W. (1977) A new method for sequencing DNA. P.N.A.S. 74, 560-564.
Michaud GA, Snyder M. (2002) Proteomic approaches for the global analysis of proteins. Biotechniques. 33, 13081316.

Michaud GA, et al. (2003) Analyzing antibody specificity with whole proteome microarrays. Nat Biotechnol. 21: 15091512.
Mikkelsen, T.S. et al., (2005) Initial sequence of the chimpanzee genome and comparison with the human genome.
Nature 437, 69-87
Milo, R., et al. (2002) Network motifs: simple building blocks of complex networks. Science. 298, 824-827.
Mitreva, M. et al., (2005) Comparative genomics of nematodes. Trends in Genetics 21, 573-581
Monier, J.M. et al., (2011) Metagenomic exploration of antibiotic resistance in soil. Curr. Opin. Microbiol. 14: 229235.
Montgomery, S.B. et al. (2012) the origin, evolution, and functional impact of short insertion-deletion variants
identified in 179 human genomes. Genome Res. 23: 749-761.
Mouse Genome sequencing Consortium (2002) Initial sequencing and comparative analysis of the mouse genome.
Nature 420, 520-562
Newman JR, et al. (2006) Single-cell proteomic analysis of S. cerevisiae reveals the architecture of biological noise.
Nature 441, 840-846.
Nierman W.C. et al., (2005) Genomic sequence of the pathogene and allergenic filamentous fungus Aspergillus
fumogatus. Nature 438: 1151-1156.
Nirenberg, M., W., Matthaei, J. H. (1961) The dependence of cell-free protein synthesis in E. coli upon naturally
occuring or synthetic polyribonucleotides P.N.A.S. 47, 1588-1602.
Nishimura, S., Jones, D.S., Khorana, H.G. (1965) The in vitro synthesis of copolypeptides containing two aminoacids in alternating sequence dependant upon a DNA-like polymer containing two nucleotides in alternating
sequence. J. Mol. Biol. 13, 302-324.
Novo M, et al. (2009) Eukaryote-to-eukaryote gene transfer events revealed by the genome sequence of the wine
yeast Saccharomyces cerevisiae EC1118. Proc Natl Acad Sci USA. 106: 16333-16338.
Oshiro G, et al. (2002) Parallel identification of new genes in Saccharomyces cerevisiae. Genome Res. 12, 12101020.
Pelechano, V, Wei, W., Steinmetz, L. M. (2013) Extensive transcriptional heterogeneity recealed by isoform profiling.
Nature 497: 127-131.
Qian J, et al. (2003) Prediction of regulatory networks: genome-wide identification of transcription factor targets from
gene expression data. Bioinformatics. 19, 1917-1926
Qin J. et al. (2010) A human gut microbial gene catalogue established by metagenomic sequencing. Nature 464:
59-67.
Ranish JA, et al. (2003) The study of macromolecular complexes by quantitative proteomics. Nat Genet. 33, 349355.
Reference Genome Group of the Gene Ontology Consortium (2009) The Gene Ontologys Reference Genome
Project: A Unified Framework for Functional Annotation across Species. PLoS Computational Biology 5:7
e1000431.
Roest Crollius H, et al. (2000) Estimate of human gene number provided by genome-wide analysis using Tetraodon
nigroviridis DNA sequence Nat Genet. 25, 235-238.
Ross-Macdonald P, et al. (1999) Large-scale analysis of the yeast genome by transposon tagging and gene
disruption. Nature. 402, 413-418
Sanger, F., Nicklen, S., Coulson, A.R. (1977) DNA sequence with chain terminating inhibitors. P.N.A.S. 74, 54635467.
Schrdinger, E. (1944) What is Life ? Cambridge University Press.
Schwikowski B, Uetz P, Fields S. (2000) A network of protein-protein interactions in yeast. Nat Biotechnol. 18, 12571261.
Segal E, et al. (2003) Module networks: identifying regulatory modules and their condition-specific regulators from
gene expression data. Nat Genet. 34, 166-176
Seo, T.S. et al., (2005) Four-color DNA sequencing by synthesis on a chip using photocleavable fluorescent
nucleotides. Proc. Nat. Acad. Sc. USA 102, 5926-5931
Shendure J., et al. (2005) Accurate multiplex polony sequencing of an evolved bacterial genome. Science , 309,
1728-1732
Shoemaker DD, et al. (1996) Quantitative phenotypic analysis of yeast deletion mutants using a highly parallel
molecular bar-coding strategy. Nat Genet. 14:450-456
Sogin ML, et al. (2006) Microbial diversity in the deep sea and the underexplored "rare biosphere". Proc Natl Acad
Sci U S A. 103, 12115-12120.
Souciet , J.L. et al., (2000) Genomic exploration of the Hemiascomycetous yeasts: 1- A set of yeast species for
molecular evolution studies. FEBS Letters 487, 3-149.
Stein, L. D. et al., (2003) The genome sequence of Caenorhabditis briggsae: a platform for comparative geneomics.
PLoS Biol. E45.
Steinmetz LM, et al., (2002) Systematic screen for human disease genes in yeast. Nat Genet. 31, 400-404.
Stuart JM, Segal E, Koller D, Kim SK. (2003) A gene-coexpression network for global discovery of conserved genetic
modules. Science. 302, 249-255
Sulston, J., Waterston, R., and Consortium (1998) Genome sequence of the nematode C. elegans: a platform for
investigating biology. Science 282, 2012- 2018
Tavazoie S, et al., (1999) Systematic determination of genetic network architecture. Nat Genet. 22, 281-285
Temin, H., and Mizutani, S. (1970) RNA-dependent DNA polymerase in virions of Rous sarcoma virus. Nature 226,
1211-1213.
Tong AH, et al., (2001) Systematic genetic analysis with ordered arrays of yeast deletion mutants. Science. 294,
2364-2368.
Tong AH, et al., (2002) A combined experimental and computational strategy to define protein interaction networks
for peptide recognition modules. Science. 295, 321-324.

Uetz P, et al. (2000) A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae. Nature.
403, 623-627
Vassarotti, A. et al., (1995) Structure and organization of the European Yeast Genome Sequencing Network. Journal
of Biotechnology 41, 131-137
Vazquez A, Flammini A, Maritan A, Vespignani A. (2003) Global protein function prediction from protein-protein
interaction networks. Nat Biotechnol. 21, 697-700
Velculescu VE, Zhang L, Vogelstein B, Kinzler KW. (1995) Serial analysis of gene expression. Science. 270, 484487
Velculescu VE, et al., (1997) Characterization of the yeast transcriptome. Cell. 88, 243-251.
Venter, C., and Consortium (2001) The human genome. Science 291, 1153-1351
Wagner A. (2003) How the global structure of protein interaction networks evolves. Proc R Soc Lond B Biol Sci. 270,
457-466.
Waterston, R. et al., (2002) Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
Watson, J..D., Crick, F. H. C. (1953) A structure for deoxyribonucleic acid. Nature 171, 737-738.
Werner-Washburne M, et al., (2002) Comparative analysis of multiple genome-scale data sets. Genome Res. 12,
1564-1573.
Whiffin, N., et al. (2013) Deciphering the genetic architecture of low-penetrance susceptibility to colorectal cancer.
Hum. Mol. Genet. (Epub ahead of print).
Winckler H. (1920) Vererbung und Ursache der Parthenogenese im Pflanzen- und Tierreich. Fischer, Jena,
Allemagne.
Winzeler EA, et al. (1999) Functional characterization of the S. cerevisiae genome by gene deletion and parallel
analysis. Science. 285, 901-906
Wood V, et al., (2002) The genome sequence of Schizosaccharomyces pombe. Nature. 415, 871-880
Wuchty S, Oltvai ZN, Barabasi AL. (2003) Evolutionary conservation of motif constituents in the yeast protein
interaction network. Nat Genet. 35, 176-179.
Xu, P. et al., (2004) The genome of Cryptosporidium hominis. Nature 431, 1107-1112
Yu, J. et al., (2002) A draft sequence of the rice genome (Oryza sativa L. ssp indica). Science 296, 79-91
Yu, J. et al., (2005) The genomes of Ozyza sativa: a history of duplications. PLoS Biology 3, E38
Yu H, Luscombe NM, Qian J, Gerstein M. (2003) Genomic analysis of gene expression relationships in
transcriptional regulatory networks. Trends Genet. 19,422-427.
Zhang CT, Wang J. (2000) Recognition of protein coding genes in the yeast genome at better than 95% accuracy
based on the Z curve. Nucleic Acids Res. 28, 2804-2814.
Zhong J, et al., (2003) A Strategy for Constructing Large Protein Interaction Maps Using the Yeast Two-Hybrid
System: Regulated Expression Arrays and Two-Phase Mating. Genome Res. 13; 2691-2699.
Zhu H, et al.,. (2001) Global analysis of protein activities using proteome chips. Science. 293, 2101-2105

_____________________
Paris, 15 Octobre 2013

Bernard Dujon

COURS D'ANALYSE DES GENOMES 2013-2014


1re SEMAINE
Travaux Pratiques 1 : Initiation de la transcription chez la bactrie Streptococcus agalactiae
Elisabeth SAUVAGE, Isabelle ROSINSKI-CHUPIN

Lundi 4 novembre 2013


9h00-10h00

Accueil des lves


Prsentation gnrale du Cours

10h00-12h00

Introduction l'tude des gnomes

13h30-17h30

Introduction la bioinformatique

Secrtariat de la Scolarit
Bernard DUJON & Stphane Le CROM (codirecteurs)
Lionel FRANGEUL (chef de travaux)
Bernard DUJON

(Institut Pasteur)

Lionel FRANGEUL

(Institut Pasteur)

Mardi 5 novembre 2013


9h00-10h30

Confrence : Les technologies de squenage de lADN

10h45-12h00

Prsentation des Travaux Pratiques :

13h30-14h30

Prsentation des conditions de manipulation


et traitement des dchets dans la salle de TP

14h30-17h30

Travaux Pratiques S. agalactiae:


- Purification des ARNs bactriens, traitement la Dnase

Stphane Le CROM

(Universit Pierre et Marie Curie)

Isabelle ROSINSKI-CHUPIN

Initiation de la transcription chez Streptococcus agalactiae

(Institut Pasteur)

Corinne FAYOLLE, Isabelle LEQUEUTRE

(Institut Pasteur)

Mercredi 6 novembre 2013


9h00-12h00
13h30-17h30

Travaux pratiques S. agalactiae :


- Dpltion des ARNs ribosomiques, prcipitation lthanol
Cours : Unix 1
Cours : Les bases de donnes relationnelles

Lionel FRANGEUL

(Institut Pasteur)

Jeudi 7 novembre 2013


9h00-12h00
13h30-17h30

Travaux pratiques S. agalactiae :


- Contrle de la qualit des ARN sur bioanalyseur Agilent et visite de la Gnopole
Cours : Unix 2
Cours : Les bases de donnes biologiques

Lionel FRANGEUL

(Institut Pasteur)

Corinne MAUFRAIS

(Institut Pasteur)

Vendredi 8 novembre 2013


9h00-10h00

Travaux pratiques S. agalactiae :

- Traitement par la TAP

10h00-11h30

Cours : Transcription chez les Procaryotes

11h45-12h30

Travaux pratiques S. agalactiae :

14h00-18h00

Isabelle ROSINSKI-CHUPIN

(Institut Pasteur)

- Extraction au phnol chloroforme et prcipitation lthanol


Cours : Unix 3
Travaux pratiques bioinformatique :

- Recherche multicritre dans les banques de donnes biologiques

Lionel FRANGEUL

(Institut Pasteur)

2me SEMAINE
Travaux Pratiques 1 : Initiation de la transcription chez la bactrie Streptococcus agalactiae
Elisabeth SAUVAGE, Isabelle ROSINSKICHUPIN

Bio-informatique et traitement des donnes issues du squenage gnomique


Lionel FRANGEUL, Corinne MAUFRAIS, Christophe RUSNIOK, Stphane LE CROM

Lundi 11 novembre 2013


Fri

Mardi 12 novembre 2013


9h00-10h30

Confrence : Introduction aux virus de plante et mtagnomique phytovirale

10h45-12h00

Travaux pratiques S. agalactiae :


- Fabrication des banques (Ligation de ladaptateur 5)

13h30-17h30

Cours : Alignement de 2 squences


Cours : Blast
Travaux pratiques bioinformatique :

Thierry CANDRESSE

(INRA, Universit de Bordeaux)

Corinne MAUFRAIS

(Institut Pasteur)

- Exercices pratiques Unix

Mercredi 13 novembre 2013


9h00-17h30

Travaux pratiques S. agalactiae :

- Fabrication des banques

Jeudi 14 novembre 2013


9h00-13h00
14h30-17h30

Travaux pratiques S. agalactiae:


- Analyse sur bioanalyseur Agilent et contrles sur gel dagarose
Cours : Unix 4
Travaux pratiques bioinformatique :

- Exercices pratiques Unix

Vendredi 15 novembre 2013


9h00-12h00
13h30-17h30

Travaux pratiques bioinformatique :

- Blast

Travaux Pratiques bioinformatique :

- Annotations IPF (1re partie)

Lionel FRANGEUL

(Institut Pasteur)

3me SEMAINE
Travaux Pratiques 1 : Initiation de la transcription chez la bactrie Streptococcus agalactiae
Elisabeth SAUVAGE, Isabelle ROSINSKI-CHUPIN

Bio-informatique et traitement des donnes issues du squenage gnomique


Lionel FRANGEUL, Corinne MAUFRAIS, Christophe RUSNIOK, Stphane LE CROM

Lundi 18 novembre 2013


9h00-10h30

Confrence : Annotation syntaxique et fonctionnelle de gnomes bactriens

dans un contexte de gnomique comparative

10h45-12h15

Confrence : Les gnomes des virus - une richesse sans prcdent

13h45-17h30

Travaux Pratiques bioinformatique :

Claudine MEDIGUE
(Gnoscope, Evry)

Simon WAIN-HOBSON

(Institut Pasteur)

- Annotations IPF (2me partie)

Mardi 19 novembre 2013


9h00-10h30

Confrence : Plasticit du gnome bactrien

10h45-12h15

Confrence : Gnomique comparative dune espce bactrienne modle :

13h45-17h30

Travaux Pratiques bioinformatique :

Escherichia coli

Didier MAZEL

(Institut Pasteur)

Marie TOUCHON

(Institut Pasteur)

- Exercices Unix appliqus la biologie

Mercredi 20 novembre 2013


9h00-12h00
13h30-17h30

Cours : Alignements multiples, recherche de motifs, HMM

Corinne MAUFRAIS

(Institut Pasteur)

Travaux Pratiques bioinformatique :

- Alignements, recherche de motifs

Jeudi 21 novembre 2013


9h00-10h30

Confrence : Les lments transposables chez les Eucaryotes

10h45-12h00

Prsentations des thmes scientifiques pour lexamen oral

13h30-15h15

Travaux pratiques bioinformatique :


- Comparaison de gnomes annots

15h30-17h30

Travaux Pratiques bioinformatique :

Ccile NEUVEGLISE

(INRA, Thiverval Grignon)

- Exercices Unix appliqus la biologie

Vendredi 22 novembre 2013


9h00-10h30

Confrence : The Transcriptome of Entamoeba histolytica

10h45-12h15

Confrence : Impact des transposons sur la dynamique et l'organisation du

13h45-17h30

Cours : Annotations relationnelles


Travaux Pratiques bioinformatique :

gnome de la paramcie

- Dotter

Chung-Chau HON
(Institut Pasteur)

Mireille BETERMIER

(CNRS, Gif-sur-Yvette)

Lionel FRANGEUL

(Institut Pasteur)

4me SEMAINE
Travaux Pratiques 1 : Initiation de la transcription chez la bactrie Streptococcus agalactiae
Lionel FRANGEUL, Isabelle ROSINSKI-CHUPIN

Bio-informatique et traitement des donnes issues du squenage gnomique


Lionel FRANGEUL, Corinne MAUFRAIS, Christophe RUSNIOK, Stphane LE CROM

Lundi 25 novembre 2013


9h00-12h00
13h30-17h30

Travaux pratiques bioinformatique :


- Annotation des squences eucaryotes
Travaux pratiques bioinformatique S. agalactiae:
- Analyse des rsultats du mapping des transcrits chez Streptococcus agalactiae

Mardi 26 novembre 2013


9h00-10h30

Confrence : Analyse de donnes ChIP-seq

Morgane THOMAS-CHOLLIER

(ENS, Paris)

10h45-12h15

Confrence : La transcription dite "pervasive" chez les eucaryotes :

Alain JACQUIER

13h30-17h30

Travaux pratiques bioinformatique S. agalactiae :


- Analyse des rsultats du mapping des transcrits chez Streptococcus agalactiae

l'exemple de la levure

(URA 2171 CNRS, Institut Pasteur)

Mercredi 27 novembre 2013


9h00-10h30

Confrence : La fidlit de la traduction chez les eucaryotes : approche

Olivier NAMY
(IGM, Universit Paris-sud, Orsay)

par ribosome profiling

10h45-12h00

Cours :

13h30-17h30

Travaux Pratiques bioinformatique :

Lionel FRANGEUL
(Institut Pasteur)

- Usage du code, ACP

- Usage du code, ACP

Jeudi 28 novembre 2013


9h00-10h30

Confrence : Genome analysis of malaria parasites: A pathogens perspective

10h45-12h15

Confrence : Palognomique des lignes humaines teintes

13h30-17h30

Travaux pratiques bioinformatique S. agalactiae :


- Analyse des rsultats du mapping des transcrits chez Streptococcus agalactiae

13h30-17h30

Eva-Maria GEIGL

(Institut J. Monod, Universit Paris-Diderot)

Vendredi 29 novembre 2013


9h00-12h00

Artur SCHERF
(Institut Pasteur)

Travaux pratiques bioinformatique :


- Annotation des squences eucaryotes
Travaux pratiques bioinformatique S. agalactiae :
- Analyse des rsultats du mapping des transcrits chez Streptococcus agalactiae

5me SEMAINE
Travaux Pratiques 2 : Analyse dun paysage pignomique par ChIP-seq chez la drosophile
Sbastien BLOYER, Laure TEYSSET

Bio-informatique et traitement des donnes issues du squenage gnomique


Lionel FRANGEUL, Corinne MAUFRAIS, Christophe RUSNIOK, Stphane LE CROM

Lundi 2 dcembre 2013


9h00-11h00
11h15-12h00
13h30-18h00

Prsentation des Travaux Pratiques :


Analyse dun paysage pignomique par ChIP-seq chez la drosophile

Sbastien BLOYER et Laure TEYSSET


(UPMC, Paris)

Travaux Pratiques pignomique :

- Fixation de lanticorps sur billes

Travaux Pratiques pignomique :


- Fixation des anticorps sur la chromatine

Mardi 3 dcembre 2013


9h00-18h00

Travaux Pratiques pignomique :


- Lavage, lution et immunoprcipitations

Mercredi 4 dcembre 2013


9h00-12h00

Travaux Pratiques pignomique :


- Purification de lADN immunoprcipit

13h30-15h00

Confrence : Insights on chromosome organization: can simple

15h15-17h15

Confrence : PCR quantitative

principles explain structural diversity?

Romain KOSZUL

(Institut Pasteur)

Emmanule MOUCHEL-VIELH

(CNRS, UPMC, Paris)

Jeudi 5 dcembre 2013


9h00-12h00
13h30-17h30

Travaux Pratiques pignomique :


- Test de ChIP par PCR quantitative
Travaux Pratiques pignomique :

- Assemblage et mapping

Vendredi 6 dcembre 2013


9h00-10h30

Confrence : RNAi-based antiviral immunity

10h45-12h15

Confrence : Les petits ARN de plantes

13h45-15h15

Visite du Muse Pasteur

15h30-17h30

Travaux Pratiques pignomique :

- Clustering

Carla SALEH

(Institut Pasteur)

Herv VAUCHERET

(INRA-AgroParisTech, Versailles)

6me SEMAINE
Travaux Pratiques 2 : Analyse dun paysage pignomique par ChIP-seq chez la drosophile
Sbastien BLOYER, Laure TEYSSET, Stphane LE CROM, Lionel FRANGEUL

Lundi 9 dcembre 2013


10h45-12h15

Confrence : Partenariat hte-microbe et symbiose

13h45-17h30

Travaux Pratiques bioinformatique pignomique :

Grard EBERL

(Institut Pasteur)

- Analyse des rsultats des PCR quantitatives

Mardi 10 dcembre 2013


10h30-12h00

Confrence : Organisation fonctionnelle et dynamique dveloppementale

13h30-17h30

Travaux Pratiques bioinformatique pignomique :

de lpignome dArabidopsie

Franois ROUDIER

(ENS, Paris)

- Mapping et peak calling du ChIP-Seq

Mercredi 11 dcembre 2013


10h30-12h00

Confrence : Diatome et mtagnomique TARA Ocan

13h30-17h30

Travaux pratiques bioinformatique pignomique :

Chris BOWLER

(ENS, Paris)

- Analyse globale et corrlation ENCODE

Jeudi 12 dcembre 2013


10h00-12h00

Confrence : le projet ENCODE

13h30-15h30

Travaux pratiques pignomique :

15h45-16h45

Bilan final du Cours

- Bilan des analyses des rsultats

Vendredi 13 dcembre 2013


Libre

Sarah DJEBALI

(Center for Genomic Regulation Barcelone, Espagne)

7me SEMAINE

MODALITES DES EXAMENS


Examen crit de bio-informatique : (salle de cours 2, PLM)
Lundi 16 dcembre 2013 10 heures, dure : 1h30 (Note sur 20, coefficient 1)
Contrle continu concernant les Travaux Pratiques laboratoire : Note attribue par les deux quipes de Travaux Pratiques
Initiation de la transcription chez Streptococcus agalactiae et Analyse dun paysage pignomique par ChIP-seq chez la
drosophile (Note sur 20, coefficient 1)
Examen oral : (salle de cours 2, PLM)
Mercredi 18 dcembre et Jeudi 19 dcembre 2013 :
-1. Prsentation dune des parties exprimentales des travaux pratiques Mapping des transcrits chez Streptococcus agalactiae
ou Analyse dun paysage pignomique par ChIP-seq chez la drosophile :
introduction, rsultats exprimentaux, discussion, conclusions
Dure : 10 mn et questions du jury : 5 mn (Note sur 20, coefficient 1)
-2. Prsentation dun sujet choisi parmi les thmes ci-dessous.
Dure : 10 mn et questions du jury : 5 mn (Note sur 20, coefficient 1)
Organisation de la prsentation orale
- Expos non public de chaque tudiant devant le jury
- Diapositives (PDF uniquement)
- Photocopies des diapositives (4 diapositives par page) prvoir pour chacun des membres du jury
Thmes pour lexamen oral de Dcembre 2013
N
1
2
3
4
5
6
7
8
9

Elments mobiles dans les gnomes


Evolution des gnomes
Gnomique des bactries
Gnomique des eucaryotes
Epignomique
Gnomique virale
La transcription et ses produits
Mthodes de squenage
Mtagnomique

Thmes

Les thmes dfinis ici sont volontairement larges. Chaque tudiant prsentera un sujet prcis du thme choisi. Ltudiant fera une
prsentation de 10 mn (plus 5 mn de questions) en sappuyant sur les informations donnes pendant les travaux pratiques, les
confrences et par la bibliographie.
Les questions du jury pourront porter sur tous les thmes.
Directives :
Il faut :
- Prsenter un sujet prcis du thme choisi
Il ne faut pas :
- Faire une prsentation gnrale du thme
- Refaire une confrence qui a t donne pendant le cours
- Utiliser les diapositives dun confrencier
Le jury apprciera :
- Loriginalit du sujet trait,
- La pertinence et la prcision des informations,
- La rigueur du plan de la prsentation,
- La qualit de la prsentation orale et des diapositives,
- Les rponses aux questions du jury.