Séquençage – Assemblage de Génomes…

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Crédits: François Denizot, LCB-IBSM, CNRS

Projet de séquençage d’un génome
Séquençage aléatoire
Library construction Colony picking Template preparation Ordered contig set Sequencing reactions Base calling Sequence files
Sample tracking

Assemblage
Assembler Genome scaffold Combinatorial PCR

Annotation
Gene finding Homology searches Initial role assignments Metabolic pathways Gene families Comparative genomics Transcriptional/ translational regularory elements Repetitive sequences

Data Release
Publication

Gap closure sequence editing Re-assembly ONE ASSEMBLY!

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Technologie de séquençage
Malgré de nombreuses tentatives de mise au point de nouvelles méthodologies de séquençage d’ADN, c’est toujours la technique développée par F. Sanger qui est la plus utilisée:
Sanger F, Nicklen S, Coulson AR. (1977) DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74: 5463-7.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Principe:
Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée Utilisation d’un oligonucléotide qui après hybridation à sa matrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

html Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Quelques rappels et illustrations Cold Spring Harbor Laboratory Dolan DNA learning Center http://www.org/ddnalc/resources/sangerseq. Aix Marseille II .dnalc.

Aix Marseille II .ddNTP fluorescents Primers fluorescents Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Séparation et détection des fragments Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Automatisation de toutes les étapes Préparation des matrices Réactions de séquence Séparation et détection des fragments Intégration des éléments dans une chaîne de production Analyse informatique… Eviter les goulots d’étranglement dans le processus Multiplier les éléments en parallèle USINE Permettant le séquençage d’ADN à haut débit Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Cependant ! Limitation importante de la technique! Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Les contraintes Nécessité de fragmenter le DNA génomique Clonage des fragments en vue de leur amplification Séquençage (souvent partiel) des fragments ou sous-fragments Reconstitution de la séquence d’origine Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

DNA fragmentation (mécanique ou enzymatique) « shotgun » clonage des différents fragments dans un vecteur Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

mais –M1 (2007-2008): Assemblage des Génomes réarrangements fréquents) – Emmanuel Talla. Aix Marseille II . pUC (insert jusqu’à 10 Kb) (insert jusqu’à 45 Kb) (insert jusqu’à 100 Kb) (insert ∼ 300 Kb) Génomique 1 (insert jusqu’à 1 Mb.Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs.

Aix Marseille II .Stratégies de séquençage des génomes… Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Petits génomes peu complexes Grands génomes Forte complexité Mixage des deux approches Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

jp/en/award/takeda/2001/fact/02.pdf Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.View.nhgri.gov/books/bv.fcgi?call=bv.Quelques illustrations et idées empruntées à différents sites http://www.TOC&depth=1 Ce site fait référence à un livre: Human Molecular Genetic 2.snv.fr/ http://www. Tom stachan and Andrew P.univ-lille1.ncbi.nih.gov/educationkit/video..fr/vie/dossiers/genomes/index. Read.htm http://www.nih. Bios Scientific Publisher.jussieu.html http://www.nlm.takeda-foundation.ShowTOC&rid=hmg. Aix Marseille II .fr/pdv/labo/figdea.genoscope.html http://www. Ltd http://www.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Assemblage des génomes Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Difficultés et résolution Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Outils d’assemblage Ordered contig set Gap closure sequence editing Re-assembly ONE ASSEMBLY! .Etapes de finition .Assemblage Assembler Genome scaffold Combinatorial PCR . Aix Marseille II .Théorie du contigage .

Aix Marseille II .Procédure ATCGATGCGTAGCAGACTACCGTTACGATGCCTT… TAGCTACGCATCGTCTGATGGCAATGCTACGGAA… TAGCTACGCATCGT A CG T TG A A GT C GC TAGC AGAC TACC GTT GTTACGATGCCTT Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Procédure ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT TGCTACGCATCG (sequence inv-compl) CGATGCGTAGCA CGATGCGTAGCA ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT Régions de chevauchements ……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…… Contig ou Consensus Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II . Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.La couverture d’un contig: un exemple Couverture 6 5 4 3 2 1 Contig Reads Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage. il existe une méthode statistique (LanderWaterman) permettant de determiner le nombre de clones à séquencer. le nombre de contigs prévisibles.

Aix Marseille II .(Lander-Waterman statistics) E(#ilôts) = Ne-cσ E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ L = longueur de la lecture T = chevauchement minimum G = Taille du génome N = Nombre de lectures c = couverture (NL / G) σ = 1 – T/L contig = ilôts d’au moins 2 lectures Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Chromobacterium violaceum genome project Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Outils et programmes d’Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

bien sur !!!!!! Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Le Defi !!!! Image original Pièces du puzzle Reconstruction de l’image La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine. Aix Marseille II .

Aix Marseille II .Comment s’y prendre ? Chromatogramme Programmes d’assemblage Sequence complète Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Sequençage automatique Analyse informatique des images du gel: .“lane profiling“ – Creation du profile (trace) de chaque chromatogramme .“base-calling“ – Transformation des profiles de bases (sequence) Le programme Phred est devenu quasi-standard pour le “base calling“ Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.“lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond) . Aix Marseille II .

de l‘électrophorèse. ou du “trace processing“ Qualité faible – confiance faible Extremités de la trace Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Base calling .Phred Taux d’erreurs varient de 1-17% Trace idéale consiste en: Qualité supérieure – Aucune ambiguité -pics espacés et non chevauchantes Traces généralement obtenues different de l‘idéal Qualité moyenne à cause des: – quelques ambiguités -imperfections des réactions de séquençage. Aix Marseille II .

10 × log10 (p) avec: q . Aix Marseille II .estimated probability error for a base call Examples: q = 20 means p = 10-2 (1 error in 100 bases) q = 40 means p = 10-4 (1 error in 10.quality value p .Phred quality values q = .000 bases) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

b. ESD (MegaBACE) and LI-COR. ABI (373/377/3700). “Base Calling” c. d. Créer un fichier de séquence et un fichier qualité e. Aix Marseille II . Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard).Phred Taches effectués par Phred: a. Modifier trimming”) les chromatogrammes (“vector Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Assigne une valeur qualité à chaque base.

b ACTGCATGTTCGATCGTAGC . >a112a1.000925.. Aix Marseille II .fasta >a112a1.. phd2fasta Projet. 10 12 15 12 17 20 25 30 33 31 32 ...1 BEGIN_SEQUENCE a112e211b.b .b BEGIN_COMMENT CHROMAT_FILE: a112e211b. >a112a2.b .b ABI_THUMBPRINT: 0 PHRED_VERSION: 0..0500 CHEM: term DYE: big END_COMMENT BEGIN_DNA n 0 5 t 4 24 t 6 35 g 6 44 a 6 71 g 6 92 t 6 100 t 15 114 .. >a112a2.Phred phred . Projet.... ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC..c CALL_METHOD: phred QUALITY_LEVELS: 99 TIME: Mon Jan 15 11:27:01 2001 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 10499 TRIM: 96 494 0..qual Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla...phd.b 7 8 5 11 15 19 20 ..fasta.

Crossmatch XXXXXXXXXXXXGTGTG ACTGCTAGCTAGCTAGTC. >a112a2..fasta.b ...Phred >a112a1.fasta Séquences de vecteurs Projet..fasta..b .fasta. >a112a2. ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC.qual Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.screen Projet. >a112a1.....b ACTGCATGTTCGATCGTAGC ... Projet. Aix Marseille II .b ACTGCATGTTCGATCGTAGC .qual Projet.screen..

on effectue également une codification de ces séquences Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. SCF – Les séquences du même clone ont le même prefix – L’orientation des séquences est matérialisée par g ou b / f ou r • Longueur des clones sequencés doit etre définis Taille du clone KT000234. Aix Marseille II .g.SCF KT000234.Formats et Codification des séquences • Nommage des séquences – Format des sequences ABI.b.SCF Si séquences provenant des BACs.

000) • Reverse complemente toutes les séquences (double le # de séquences à aligner) • Alignement multiple de ces séquences afin d’obtenir une séquence unique Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .Le système Phred-Phrap-Consed • Lire tous les fichiers de séquences (10-10.

Aix Marseille II .Phrap 1) Rechercher les pairs de séquences chevauchantes 2) Construire l’alignement multiple 3) Améliorer l’alignement multiple Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

and minimum repeat length. Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Paramètres importants: minimum overlap length. Aix Marseille II .1) Rechercher les paires de séquences chevauchantes -Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences -Génère une liste des régions ayant certains critères de similarités de séquences. stringency (% of bases identiques).

Chevauchement entre deux séquences overlap (19 bases) overhang (6 bases) …AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT… overhang % identity = 18/19 % = 94. Aix Marseille II .7% overlap . Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.un-aligned ends of the sequences Formation des paires de séquences chevauchantes basée sur: • length of overlap • % identity in overlap region • maximum overhang size.region of similarity between regions overhang .

Aix Marseille II .Phrap 1) Rechercher les paires de séquences chevauchantes Une séquence peut avoir plusieurs régions chevauchantes 1 3 6 8 5 7 9 2 4 5 3 8 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .1) Rechercher les paires de séquences chevauchantes 1 6 5 3 4 8 3 8 7 5 2 9 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 1 6 5 1 3 4 8 3 8 7 5 2 9 8 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 3 4 7 9 8 5 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 6 3 3 4 7 9 8 5 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 3 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 2 5 4 3 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 7 1 6 3 9 8 5 2 4 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

• Paramètres: • gap creation penalty (default 2.1) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.0) • gap extension penalty (default (0.3) Améliorer l’alignement multiple • Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements. Aix Marseille II .

Au final Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Menus de navigation Consed Séquence du contig Mismatch en rouge Outils de navigation Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Consed Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Création des Scaffolds (SuperContigs) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Contraintes sur les lectures -Les extrémités des lectures doivent avoir une orientation en miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale) clone length F sequenced ends R Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Création des scaffolds “Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome” Assembly Scaffolding Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II Clone/Bac reads reference genome physical map .Linking informations • Overlaps • Mate-pair links • Similarity links • Physical markers • Gene synteny Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .PCR combinatoire B A D E F H G C A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H B--D E--H C--F Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Reads 500-800 base-pairs Contigs 5000-25000 bp Assembly Scaffolding Scaffolds 50000-300000 bp Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Finition Fermeture des gaps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .physical gap Shotgun scaffold A scaffold B Finition sequencing gaps Shotgun FINITION : -Correction des zones de basse qualité -Ordonnancement des contigs -Séquençage des parties manquantes -gap de séquence -gap de clonage -Réorganisation des séquences répétées Finition Temps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

ACGT or TGCA??? •Erreurs de séquençage •Séquences repétées Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Problèmes associés à l’assemblage •Banques Biaisées === Assemblage foireux L’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer •Tailles incorrects des Inserts •Faible couverture •Orientation inconnue des reads. Aix Marseille II .

Assemble in isolation STEP 3.Other assemblers: use repeat consensus as input to the assembler Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.TIGR Assembler can hold together previously assembled contigs . Isolate repeat copies STEP 2. Aix Marseille II . Incorporate assembled repeats into rest of assembly .Finishing repeats RPT A RPT B clones or PCR walks STEP 1.

14Kb) from Streptococcus Pneumoniae . Aix Marseille II .SASA repeat (4776 AA.likely involved in cell adhesion MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATE ATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSI YNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASA SASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTS TSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSAST SASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSA SASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTS ASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESAST SASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASAS ASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISA SESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASE SASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTS ASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSAS ESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSA SASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESAS TSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSAS ASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASA STSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTST SASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASAS ASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSA SASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSAS ASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESAST SASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASA SASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTS ASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

uk/Software/analysis/SSAHA/ Euler (Eulerian path) www.org/softlab/assembler/ The Staden Package (UNIX) http://www.microbial genomes (UNIX) http://www.edu/sunkim/AMASS/ Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90 www.html Stroll http://genetics.edu/groups/bioinformatics/software.harvard.ac.cs.edu/wga/ Celera Assembler Paracel Genome Assembler www.mit.indiana. Aix Marseille II .ucsd.org/ TIGR Assembler .informatics.uk/pubseq/ GeneTool/ChromaTool/Sequencher (PC/Mac) Arachne www-genome.edu/~tchen/STROLL Amass (Pattern Matching) bio.tigr.Programmes d’Assemblage des Séquences • • • • • • • • • • • • • Phrap .sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed http://www.paracel.mrc-lmb.html#euler AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.com/products/pga.phrap.sanger.cam.med.ac.wi.

Le problème de la qualité des génomes : deux écoles La séquence d’un génome doit être complète et de très haute qualité Approche de type recherche fondamentale • C'est la stratégie initialement adoptée pour les microorganismes. dans le cas de régions difficile à séquencer. cette exigence est très coûteuse en temps. • C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. y compris la levure. voire plusieurs mois. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote. Aix Marseille II . plusieurs semaines.  copies dites "de brouillon" (draft genome). La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée Approche de type recherche appliquée • C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. • Cependant. seront nécessaires pour obtenir les 5-10% restants. Ces données génomiques ne seront généralement pas publiées.

Aix Marseille II .Exemple de pipeline de séquençage/assemblage Consed A B I 3 7 0 0 vector_dir chromat_dir preTA phd_dir phd2fasta .qual runTA arachne2gbrowse Gbrowser .bases/.ace base calling quality trimming vector trimming preArachne .details .dot toArachne .seq.reads .repeats .fasta/..mates Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.stats .ps .xml .contigs goBambus repeatFinder .asm Arachne .links .contig phrap ta2ace ace2contig .

Quelques Succès Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

221 bp. 5800 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.937 bp.069.252 bp. 4293 ORFs Sacchoromyces cerevisae completed in 1996 12. 59 coded proteins Escherichia coli completed in 1998 4. Aix Marseille II .Sequencing Successes T7 bacteriophage completed in 1983 39.639.

078.296 bp.099 genes Drosophila melanogaster completed in 2000 116.Sequencing Successes Caenorhabditis elegans completed in 1998 95.160. 31. Aix Marseille II . 13.000 bp.226 bp.079. 19.601 genes Homo sapiens 1st draft completed in 2001 3.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.117.

000 bp.160.079.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Homo sapiens 1st draft completed in 2001 3. 31. Aix Marseille II .

The Genome Sequencing Era
18 microbial genomes 40 microbial genomes mouse First eukaryote genome Yeast 1996 1997 1998 1999 First higher plant Arabidopsis 2000 First fish Fugu 2001 2002

First microbial genome H. influenzae

E. coli
First multicellular animal C. elegans

Fruit fly First mammal Homo sapiens

malaria: mosquito and parasite

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

567 microbial genomes

Situation au 31/08/2007
• Génomes terminés • 521 Bactéries
• • 46 Archaea 25 Eucaryotes

592

• Génomes en cours • 808 Bactéries
• 33 Archaea • 397 Eucaryotes

1238

• Génomes attendus dans le (proche) futur • 1329 Bactéries
• 79 Archaea • 422 Eucaryotes

1830

Avalanche de génomes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes • la variété dans la répétition :
• souches différentes appartenant à la même espèce

 7 souches differentes de E. coli  5 ……de Staphylococcus aureus  etc …
• espèces différentes appartenant au même genre

 8 Pseudomonas  3 Chlamydia  19 Streptococcus  etc …

Mise en évidence d'une variabilité insoupçonnée

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes 2. Une plus grande diversité biologique et phylogénétique
A. moins de pathogènes • La proportion relative est passée en 2003 de 90% à 50% (reste stable) • Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.

B. représentants d’embranchements peu ou pas étudiés
Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia
C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour faire de la photosynthèse en conditions anaérobies

Intérêts : mieux comprendre

les grands cycles énergétiques à l’échelle planétaire

comment est apparue la photosynthèse

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances C. source d’enzymes faciles à purifier et très efficaces Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds • Geobacter produit en plus de l'électricité Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux Pseudomonas putida croît dans la rhizosphère et dépollue les sols intérêt industriel Nombreux organismes thermophiles. Plus de bactéries “utiles” dépollution commensaux intérêt agricole • Shewanella oneidensis. Aix Marseille II .

moins de pathogènes B. 8317 protéines) contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. la variété dans la répétition : • • souches différentes appartenant à la même espèce espèces différentes appartenant au même genre 2. 7769 protéines) Bradyrhizobium japonicum (9. Aix Marseille II .Tendances Chez les procaryotes 1. une plus grande diversité biologique et phylogénétique A. représentants d’embranchements peu ou pas étudiés C.05 Mb. plus de bactéries « utiles » : • des génomes de plus en plus gros (qui sont faits de plus en plus vite) : Streptomyces coelicolor (9.1 Mb.

intérêt médical ou agronomique Magnaporthe grisea Candida albicans Oryza sativa Encephalitozoon cuniculi Microsporidie. pathogène des voies respiratoires Saccharomyces cerevisiae Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans Drosophila melanogaster Fugu rubripes Tetrahodon souris. rat chimpanzé Homo sapiens Anopheles gambiae (Malaria) Plasmodium falciparum Plasmodium yoelii yoelii Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Tendances Chez les eucaryotes 1. Aix Marseille II . Objectifs primaires • • Grands organismes modèles et les organismes proches pouvant aider à l’annotation de leurs génomes Pathogènes.

pomme de terre. Xenope. kangourou. algues. bœuf.Tendances Chez les eucaryotes 2. eucalyptus. cheval. tomate. canne à sucre. bombyx. dinde. poulet. haricot. mollusques. maïs. nombreux protozoaires. chien. porc. chat. nématodes. chêne Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II . etc… • pins (3). oursin • plusieurs poissons. mouton. sorgho. etc… • Chou. Une ambition incroyable (due à une accélération technologique impressionnante) • microsporidies. ). blé. coton. Chlamydomonas • nombreux champignons (40) • plusieurs insectes (abeille. café.

l’assemblage des contigs avait demandé 11 jours de temps de calcul Aujourd’hui. Jusqu’ici cette « loi » a été parfaitement respectée Depuis 2 ans. la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. le même type de travail demande quelques minutes La génomique va plus vite que l’informatique En 1965.Les progrès technologiques Une révolution majeure dans les techniques de séquençage Progrès impressionnant dans le temps nécessaire pour réaliser un projet : • au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie. Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans. il ne faut plus que 2-3 jours • le séquençage du génome de la souris a été réalisé en un temps incroyablement court. Aix Marseille II . influenzae. et le chimpanzé vient d'être fini en moins d'un an Progrès énormes dans les temps de calcul En 1995. pour H.

. D. Green. 1995.G. Kurtz. PHRAP documentation: ALGORITHMS. 8:175-194. et al. 1998. 15(5):426-427 Multiplex PCR Tettelin. P. 2002. ARACHNE: a whole-genome shotgun assembler. A whole-genome assembly of Drosophila. Optimized Multiplex PCR: Efficiently Closing a WholeGenome Shotgun Sequencing Project. C.References TIGR Assembler Sutton. D. REPuter S.. et al. Basecalling of automated sequencer traces using phred..org. Genome Research. Hillier L. 62:500-507. Fast Computation of Maximal Repeats in Complete Genomes. Aix Marseille II ..... 1998. 2003. Consed: A graphical tool for sequence finishing.phrap. Genome Res 13: 91-96. et al. phred Ewing B. 1999. Genome Science and Technology. Schleiermacher. 8:195-202. Genomics. 2000. Jaffe.. 1994 http://www.. P. G. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. et al. Bioinformatics. Science 287: 2196-2204.B. 1:9-19. Green P. E. Abajian. Wendl M. H. Arachne Batzoglou. phrap Green. Whole-genome sequence assembly for Mammalian genomes: arachne 2. 1999. Celera Assembler Myers. et al. S. TIGR Assembler: A New Tool for Assembling Large Shotgun Sequencing Projects. Genome Res 12: 177-189..W. C. consed Gordon. Genome Research.