Séquençage – Assemblage de Génomes…

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Crédits: François Denizot, LCB-IBSM, CNRS

Projet de séquençage d’un génome
Séquençage aléatoire
Library construction Colony picking Template preparation Ordered contig set Sequencing reactions Base calling Sequence files
Sample tracking

Assemblage
Assembler Genome scaffold Combinatorial PCR

Annotation
Gene finding Homology searches Initial role assignments Metabolic pathways Gene families Comparative genomics Transcriptional/ translational regularory elements Repetitive sequences

Data Release
Publication

Gap closure sequence editing Re-assembly ONE ASSEMBLY!

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Technologie de séquençage
Malgré de nombreuses tentatives de mise au point de nouvelles méthodologies de séquençage d’ADN, c’est toujours la technique développée par F. Sanger qui est la plus utilisée:
Sanger F, Nicklen S, Coulson AR. (1977) DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74: 5463-7.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Principe:
Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée Utilisation d’un oligonucléotide qui après hybridation à sa matrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Quelques rappels et illustrations Cold Spring Harbor Laboratory Dolan DNA learning Center http://www. Aix Marseille II .html Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.org/ddnalc/resources/sangerseq.dnalc.

ddNTP fluorescents Primers fluorescents Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Séparation et détection des fragments Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Automatisation de toutes les étapes Préparation des matrices Réactions de séquence Séparation et détection des fragments Intégration des éléments dans une chaîne de production Analyse informatique… Eviter les goulots d’étranglement dans le processus Multiplier les éléments en parallèle USINE Permettant le séquençage d’ADN à haut débit Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Cependant ! Limitation importante de la technique! Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Les contraintes Nécessité de fragmenter le DNA génomique Clonage des fragments en vue de leur amplification Séquençage (souvent partiel) des fragments ou sous-fragments Reconstitution de la séquence d’origine Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .DNA fragmentation (mécanique ou enzymatique) « shotgun » clonage des différents fragments dans un vecteur Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II . pUC (insert jusqu’à 10 Kb) (insert jusqu’à 45 Kb) (insert jusqu’à 100 Kb) (insert ∼ 300 Kb) Génomique 1 (insert jusqu’à 1 Mb.Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs. mais –M1 (2007-2008): Assemblage des Génomes réarrangements fréquents) – Emmanuel Talla.

Stratégies de séquençage des génomes… Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Petits génomes peu complexes Grands génomes Forte complexité Mixage des deux approches Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Ltd http://www.nih.genoscope.htm http://www.fcgi?call=bv..View.ncbi.pdf Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.nlm.fr/pdv/labo/figdea.snv.html http://www. Aix Marseille II . Read.jussieu.jp/en/award/takeda/2001/fact/02.Quelques illustrations et idées empruntées à différents sites http://www.fr/ http://www.ShowTOC&rid=hmg.gov/books/bv.fr/vie/dossiers/genomes/index. Tom stachan and Andrew P.html http://www.nhgri.takeda-foundation.gov/educationkit/video.TOC&depth=1 Ce site fait référence à un livre: Human Molecular Genetic 2.univ-lille1. Bios Scientific Publisher.nih.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Assemblage des génomes Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Outils d’assemblage Ordered contig set Gap closure sequence editing Re-assembly ONE ASSEMBLY! .Assemblage Assembler Genome scaffold Combinatorial PCR .Théorie du contigage .Difficultés et résolution Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .Etapes de finition .

Aix Marseille II .Procédure ATCGATGCGTAGCAGACTACCGTTACGATGCCTT… TAGCTACGCATCGTCTGATGGCAATGCTACGGAA… TAGCTACGCATCGT A CG T TG A A GT C GC TAGC AGAC TACC GTT GTTACGATGCCTT Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Procédure ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT TGCTACGCATCG (sequence inv-compl) CGATGCGTAGCA CGATGCGTAGCA ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT Régions de chevauchements ……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…… Contig ou Consensus Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. il existe une méthode statistique (LanderWaterman) permettant de determiner le nombre de clones à séquencer.La couverture d’un contig: un exemple Couverture 6 5 4 3 2 1 Contig Reads Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage. Aix Marseille II . le nombre de contigs prévisibles.

Aix Marseille II .(Lander-Waterman statistics) E(#ilôts) = Ne-cσ E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ L = longueur de la lecture T = chevauchement minimum G = Taille du génome N = Nombre de lectures c = couverture (NL / G) σ = 1 – T/L contig = ilôts d’au moins 2 lectures Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Chromobacterium violaceum genome project Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Outils et programmes d’Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

bien sur !!!!!! Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .Le Defi !!!! Image original Pièces du puzzle Reconstruction de l’image La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine.

Aix Marseille II .Comment s’y prendre ? Chromatogramme Programmes d’assemblage Sequence complète Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Sequençage automatique Analyse informatique des images du gel: . Aix Marseille II .“base-calling“ – Transformation des profiles de bases (sequence) Le programme Phred est devenu quasi-standard pour le “base calling“ Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.“lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond) .“lane profiling“ – Creation du profile (trace) de chaque chromatogramme .

Aix Marseille II . de l‘électrophorèse.Base calling . ou du “trace processing“ Qualité faible – confiance faible Extremités de la trace Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Phred Taux d’erreurs varient de 1-17% Trace idéale consiste en: Qualité supérieure – Aucune ambiguité -pics espacés et non chevauchantes Traces généralement obtenues different de l‘idéal Qualité moyenne à cause des: – quelques ambiguités -imperfections des réactions de séquençage.

estimated probability error for a base call Examples: q = 20 means p = 10-2 (1 error in 100 bases) q = 40 means p = 10-4 (1 error in 10.000 bases) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.quality value p . Aix Marseille II .Phred quality values q = .10 × log10 (p) avec: q .

ESD (MegaBACE) and LI-COR. b. d. Modifier trimming”) les chromatogrammes (“vector Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. ABI (373/377/3700). “Base Calling” c. Aix Marseille II .Phred Taches effectués par Phred: a. Assigne une valeur qualité à chaque base. Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard). Créer un fichier de séquence et un fichier qualité e.

phd.. >a112a1.fasta >a112a1.....000925..1 BEGIN_SEQUENCE a112e211b.c CALL_METHOD: phred QUALITY_LEVELS: 99 TIME: Mon Jan 15 11:27:01 2001 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 10499 TRIM: 96 494 0... >a112a2. Projet. Aix Marseille II .. 10 12 15 12 17 20 25 30 33 31 32 .b .b BEGIN_COMMENT CHROMAT_FILE: a112e211b...0500 CHEM: term DYE: big END_COMMENT BEGIN_DNA n 0 5 t 4 24 t 6 35 g 6 44 a 6 71 g 6 92 t 6 100 t 15 114 .Phred phred . >a112a2.qual Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.fasta.. phd2fasta Projet. ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC.b 7 8 5 11 15 19 20 .b ACTGCATGTTCGATCGTAGC .b ..b ABI_THUMBPRINT: 0 PHRED_VERSION: 0..

.. >a112a2.Phred >a112a1.. Aix Marseille II . Projet.fasta.b ACTGCATGTTCGATCGTAGC ... >a112a2.fasta.b . >a112a1.qual Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Crossmatch XXXXXXXXXXXXGTGTG ACTGCTAGCTAGCTAGTC...fasta Séquences de vecteurs Projet.b ACTGCATGTTCGATCGTAGC .fasta.screen. ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC..qual Projet.screen Projet.....b .

SCF – Les séquences du même clone ont le même prefix – L’orientation des séquences est matérialisée par g ou b / f ou r • Longueur des clones sequencés doit etre définis Taille du clone KT000234. Aix Marseille II .Formats et Codification des séquences • Nommage des séquences – Format des sequences ABI. on effectue également une codification de ces séquences Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.SCF Si séquences provenant des BACs.g.SCF KT000234.b.

Aix Marseille II .Le système Phred-Phrap-Consed • Lire tous les fichiers de séquences (10-10.000) • Reverse complemente toutes les séquences (double le # de séquences à aligner) • Alignement multiple de ces séquences afin d’obtenir une séquence unique Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Phrap 1) Rechercher les pairs de séquences chevauchantes 2) Construire l’alignement multiple 3) Améliorer l’alignement multiple Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Paramètres importants: minimum overlap length. Aix Marseille II . stringency (% of bases identiques).1) Rechercher les paires de séquences chevauchantes -Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences -Génère une liste des régions ayant certains critères de similarités de séquences. and minimum repeat length. Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

un-aligned ends of the sequences Formation des paires de séquences chevauchantes basée sur: • length of overlap • % identity in overlap region • maximum overhang size. Aix Marseille II . Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Chevauchement entre deux séquences overlap (19 bases) overhang (6 bases) …AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT… overhang % identity = 18/19 % = 94.region of similarity between regions overhang .7% overlap .

Aix Marseille II .Phrap 1) Rechercher les paires de séquences chevauchantes Une séquence peut avoir plusieurs régions chevauchantes 1 3 6 8 5 7 9 2 4 5 3 8 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .1) Rechercher les paires de séquences chevauchantes 1 6 5 3 4 8 3 8 7 5 2 9 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 1 6 5 1 3 4 8 3 8 7 5 2 9 8 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 3 4 7 9 8 5 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 6 3 3 4 7 9 8 5 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 3 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 2 5 4 3 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 7 1 6 3 9 8 5 2 4 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

3) Améliorer l’alignement multiple • Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements. • Paramètres: • gap creation penalty (default 2.0) • gap extension penalty (default (0. Aix Marseille II .1) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Au final Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Menus de navigation Consed Séquence du contig Mismatch en rouge Outils de navigation Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Consed Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Création des Scaffolds (SuperContigs) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Contraintes sur les lectures -Les extrémités des lectures doivent avoir une orientation en miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale) clone length F sequenced ends R Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Création des scaffolds “Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome” Assembly Scaffolding Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II Clone/Bac reads reference genome physical map .Linking informations • Overlaps • Mate-pair links • Similarity links • Physical markers • Gene synteny Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .PCR combinatoire B A D E F H G C A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H B--D E--H C--F Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Reads 500-800 base-pairs Contigs 5000-25000 bp Assembly Scaffolding Scaffolds 50000-300000 bp Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Finition Fermeture des gaps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

physical gap Shotgun scaffold A scaffold B Finition sequencing gaps Shotgun FINITION : -Correction des zones de basse qualité -Ordonnancement des contigs -Séquençage des parties manquantes -gap de séquence -gap de clonage -Réorganisation des séquences répétées Finition Temps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II . ACGT or TGCA??? •Erreurs de séquençage •Séquences repétées Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Problèmes associés à l’assemblage •Banques Biaisées === Assemblage foireux L’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer •Tailles incorrects des Inserts •Faible couverture •Orientation inconnue des reads.

Incorporate assembled repeats into rest of assembly .TIGR Assembler can hold together previously assembled contigs .Other assemblers: use repeat consensus as input to the assembler Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Isolate repeat copies STEP 2. Assemble in isolation STEP 3. Aix Marseille II .Finishing repeats RPT A RPT B clones or PCR walks STEP 1.

Aix Marseille II .likely involved in cell adhesion MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATE ATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSI YNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASA SASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTS TSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSAST SASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSA SASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTS ASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESAST SASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASAS ASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISA SESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASE SASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTS ASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSAS ESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSA SASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESAS TSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSAS ASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASA STSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTST SASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASAS ASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSA SASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSAS ASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESAST SASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASA SASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTS ASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. 14Kb) from Streptococcus Pneumoniae .SASA repeat (4776 AA.

ac.edu/~tchen/STROLL Amass (Pattern Matching) bio.edu/groups/bioinformatics/software.med.harvard.informatics.Programmes d’Assemblage des Séquences • • • • • • • • • • • • • Phrap .org/softlab/assembler/ The Staden Package (UNIX) http://www.uk/Software/analysis/SSAHA/ Euler (Eulerian path) www.tigr.cs.microbial genomes (UNIX) http://www.html#euler AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.phrap.edu/sunkim/AMASS/ Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90 www.edu/wga/ Celera Assembler Paracel Genome Assembler www.cam.paracel.mit.html Stroll http://genetics.ucsd.org/ TIGR Assembler .indiana.mrc-lmb.sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed http://www. Aix Marseille II .ac.com/products/pga.sanger.uk/pubseq/ GeneTool/ChromaTool/Sequencher (PC/Mac) Arachne www-genome.wi.

Aix Marseille II .  copies dites "de brouillon" (draft genome). • C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes. Ces données génomiques ne seront généralement pas publiées. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote. cette exigence est très coûteuse en temps. seront nécessaires pour obtenir les 5-10% restants. voire plusieurs mois.Le problème de la qualité des génomes : deux écoles La séquence d’un génome doit être complète et de très haute qualité Approche de type recherche fondamentale • C'est la stratégie initialement adoptée pour les microorganismes. La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée Approche de type recherche appliquée • C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. y compris la levure. plusieurs semaines. dans le cas de régions difficile à séquencer. • Cependant.

xml .ace base calling quality trimming vector trimming preArachne .fasta/.asm Arachne .ps .qual runTA arachne2gbrowse Gbrowser ..dot toArachne .contig phrap ta2ace ace2contig .mates Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.links .Exemple de pipeline de séquençage/assemblage Consed A B I 3 7 0 0 vector_dir chromat_dir preTA phd_dir phd2fasta .seq.details . Aix Marseille II .stats .repeats .reads .bases/.contigs goBambus repeatFinder .

Aix Marseille II .Quelques Succès Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

252 bp.937 bp. 4293 ORFs Sacchoromyces cerevisae completed in 1996 12.Sequencing Successes T7 bacteriophage completed in 1983 39.069. 59 coded proteins Escherichia coli completed in 1998 4. Aix Marseille II . 5800 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.639.221 bp.

13.079. 31.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.601 genes Homo sapiens 1st draft completed in 2001 3.000 bp.Sequencing Successes Caenorhabditis elegans completed in 1998 95.226 bp.117.099 genes Drosophila melanogaster completed in 2000 116. 19. Aix Marseille II .078.160.296 bp.

31.160.079.000 bp.Homo sapiens 1st draft completed in 2001 3.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

The Genome Sequencing Era
18 microbial genomes 40 microbial genomes mouse First eukaryote genome Yeast 1996 1997 1998 1999 First higher plant Arabidopsis 2000 First fish Fugu 2001 2002

First microbial genome H. influenzae

E. coli
First multicellular animal C. elegans

Fruit fly First mammal Homo sapiens

malaria: mosquito and parasite

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

567 microbial genomes

Situation au 31/08/2007
• Génomes terminés • 521 Bactéries
• • 46 Archaea 25 Eucaryotes

592

• Génomes en cours • 808 Bactéries
• 33 Archaea • 397 Eucaryotes

1238

• Génomes attendus dans le (proche) futur • 1329 Bactéries
• 79 Archaea • 422 Eucaryotes

1830

Avalanche de génomes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes • la variété dans la répétition :
• souches différentes appartenant à la même espèce

 7 souches differentes de E. coli  5 ……de Staphylococcus aureus  etc …
• espèces différentes appartenant au même genre

 8 Pseudomonas  3 Chlamydia  19 Streptococcus  etc …

Mise en évidence d'une variabilité insoupçonnée

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes 2. Une plus grande diversité biologique et phylogénétique
A. moins de pathogènes • La proportion relative est passée en 2003 de 90% à 50% (reste stable) • Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.

B. représentants d’embranchements peu ou pas étudiés
Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia
C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour faire de la photosynthèse en conditions anaérobies

Intérêts : mieux comprendre

les grands cycles énergétiques à l’échelle planétaire

comment est apparue la photosynthèse

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances C. Aix Marseille II . Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds • Geobacter produit en plus de l'électricité Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux Pseudomonas putida croît dans la rhizosphère et dépollue les sols intérêt industriel Nombreux organismes thermophiles. source d’enzymes faciles à purifier et très efficaces Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Plus de bactéries “utiles” dépollution commensaux intérêt agricole • Shewanella oneidensis.

7769 protéines) Bradyrhizobium japonicum (9. plus de bactéries « utiles » : • des génomes de plus en plus gros (qui sont faits de plus en plus vite) : Streptomyces coelicolor (9.1 Mb. une plus grande diversité biologique et phylogénétique A. 8317 protéines) contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. la variété dans la répétition : • • souches différentes appartenant à la même espèce espèces différentes appartenant au même genre 2.Tendances Chez les procaryotes 1. moins de pathogènes B. représentants d’embranchements peu ou pas étudiés C.05 Mb. Aix Marseille II .

pathogène des voies respiratoires Saccharomyces cerevisiae Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans Drosophila melanogaster Fugu rubripes Tetrahodon souris. intérêt médical ou agronomique Magnaporthe grisea Candida albicans Oryza sativa Encephalitozoon cuniculi Microsporidie. Aix Marseille II . Objectifs primaires • • Grands organismes modèles et les organismes proches pouvant aider à l’annotation de leurs génomes Pathogènes. rat chimpanzé Homo sapiens Anopheles gambiae (Malaria) Plasmodium falciparum Plasmodium yoelii yoelii Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Tendances Chez les eucaryotes 1.

chien. eucalyptus. dinde. cheval. Une ambition incroyable (due à une accélération technologique impressionnante) • microsporidies. oursin • plusieurs poissons. Chlamydomonas • nombreux champignons (40) • plusieurs insectes (abeille. nématodes. coton. chat. Xenope. haricot. poulet. etc… • pins (3). ). blé. tomate. nombreux protozoaires. bombyx. café. pomme de terre. canne à sucre. kangourou. porc.Tendances Chez les eucaryotes 2. algues. mouton. mollusques. chêne Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. maïs. bœuf. etc… • Chou. Aix Marseille II . sorgho.

Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée Depuis 2 ans. l’assemblage des contigs avait demandé 11 jours de temps de calcul Aujourd’hui. et le chimpanzé vient d'être fini en moins d'un an Progrès énormes dans les temps de calcul En 1995. influenzae.Les progrès technologiques Une révolution majeure dans les techniques de séquençage Progrès impressionnant dans le temps nécessaire pour réaliser un projet : • au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie. il ne faut plus que 2-3 jours • le séquençage du génome de la souris a été réalisé en un temps incroyablement court. le même type de travail demande quelques minutes La génomique va plus vite que l’informatique En 1965. la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. pour H. Aix Marseille II .

Arachne Batzoglou. H. ARACHNE: a whole-genome shotgun assembler. PHRAP documentation: ALGORITHMS. Celera Assembler Myers. 1998. 2002. Genomics. D.. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla..References TIGR Assembler Sutton.phrap. Basecalling of automated sequencer traces using phred. 1994 http://www.. et al.G. Fast Computation of Maximal Repeats in Complete Genomes. Kurtz. Wendl M. Whole-genome sequence assembly for Mammalian genomes: arachne 2.. 1999. Genome Res 13: 91-96. Hillier L. 62:500-507. A whole-genome assembly of Drosophila. C. E. Consed: A graphical tool for sequence finishing.. C. Genome Science and Technology. TIGR Assembler: A New Tool for Assembling Large Shotgun Sequencing Projects. Abajian. S.. Bioinformatics.org. Jaffe.. D. 8:195-202. et al. consed Gordon. REPuter S. et al. 2000.. Green. Genome Research.. 1998. P. 1:9-19. phrap Green. 8:175-194.W. Aix Marseille II . Optimized Multiplex PCR: Efficiently Closing a WholeGenome Shotgun Sequencing Project. Science 287: 2196-2204. et al. P.. 15(5):426-427 Multiplex PCR Tettelin. G. 2003. Genome Res 12: 177-189. Genome Research. 1999. 1995. Schleiermacher.B. Green P. phred Ewing B. et al.

Sign up to vote on this title
UsefulNot useful