Séquençage – Assemblage de Génomes…

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Crédits: François Denizot, LCB-IBSM, CNRS

Projet de séquençage d’un génome
Séquençage aléatoire
Library construction Colony picking Template preparation Ordered contig set Sequencing reactions Base calling Sequence files
Sample tracking

Assemblage
Assembler Genome scaffold Combinatorial PCR

Annotation
Gene finding Homology searches Initial role assignments Metabolic pathways Gene families Comparative genomics Transcriptional/ translational regularory elements Repetitive sequences

Data Release
Publication

Gap closure sequence editing Re-assembly ONE ASSEMBLY!

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Technologie de séquençage
Malgré de nombreuses tentatives de mise au point de nouvelles méthodologies de séquençage d’ADN, c’est toujours la technique développée par F. Sanger qui est la plus utilisée:
Sanger F, Nicklen S, Coulson AR. (1977) DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74: 5463-7.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Principe:
Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée Utilisation d’un oligonucléotide qui après hybridation à sa matrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

dnalc. Aix Marseille II .Quelques rappels et illustrations Cold Spring Harbor Laboratory Dolan DNA learning Center http://www.org/ddnalc/resources/sangerseq.html Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .ddNTP fluorescents Primers fluorescents Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Séparation et détection des fragments Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Automatisation de toutes les étapes Préparation des matrices Réactions de séquence Séparation et détection des fragments Intégration des éléments dans une chaîne de production Analyse informatique… Eviter les goulots d’étranglement dans le processus Multiplier les éléments en parallèle USINE Permettant le séquençage d’ADN à haut débit Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Cependant ! Limitation importante de la technique! Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Les contraintes Nécessité de fragmenter le DNA génomique Clonage des fragments en vue de leur amplification Séquençage (souvent partiel) des fragments ou sous-fragments Reconstitution de la séquence d’origine Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

DNA fragmentation (mécanique ou enzymatique) « shotgun » clonage des différents fragments dans un vecteur Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs. mais –M1 (2007-2008): Assemblage des Génomes réarrangements fréquents) – Emmanuel Talla. Aix Marseille II . pUC (insert jusqu’à 10 Kb) (insert jusqu’à 45 Kb) (insert jusqu’à 100 Kb) (insert ∼ 300 Kb) Génomique 1 (insert jusqu’à 1 Mb.

Aix Marseille II .Stratégies de séquençage des génomes… Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Petits génomes peu complexes Grands génomes Forte complexité Mixage des deux approches Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Bios Scientific Publisher.ncbi.html http://www.pdf Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.nih. Aix Marseille II .html http://www..gov/books/bv. Tom stachan and Andrew P.jussieu.fr/vie/dossiers/genomes/index.genoscope. Ltd http://www.nlm.univ-lille1.fr/pdv/labo/figdea.fcgi?call=bv.jp/en/award/takeda/2001/fact/02.nhgri.gov/educationkit/video.View.ShowTOC&rid=hmg.TOC&depth=1 Ce site fait référence à un livre: Human Molecular Genetic 2.nih.htm http://www.snv. Read.fr/ http://www.takeda-foundation.Quelques illustrations et idées empruntées à différents sites http://www.

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Assemblage des génomes Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Assemblage Assembler Genome scaffold Combinatorial PCR .Théorie du contigage .Etapes de finition .Difficultés et résolution Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .Outils d’assemblage Ordered contig set Gap closure sequence editing Re-assembly ONE ASSEMBLY! .

Aix Marseille II .Procédure ATCGATGCGTAGCAGACTACCGTTACGATGCCTT… TAGCTACGCATCGTCTGATGGCAATGCTACGGAA… TAGCTACGCATCGT A CG T TG A A GT C GC TAGC AGAC TACC GTT GTTACGATGCCTT Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Procédure ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT TGCTACGCATCG (sequence inv-compl) CGATGCGTAGCA CGATGCGTAGCA ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT Régions de chevauchements ……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…… Contig ou Consensus Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

le nombre de contigs prévisibles.La couverture d’un contig: un exemple Couverture 6 5 4 3 2 1 Contig Reads Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage. Aix Marseille II . Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. il existe une méthode statistique (LanderWaterman) permettant de determiner le nombre de clones à séquencer.

Aix Marseille II .(Lander-Waterman statistics) E(#ilôts) = Ne-cσ E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ L = longueur de la lecture T = chevauchement minimum G = Taille du génome N = Nombre de lectures c = couverture (NL / G) σ = 1 – T/L contig = ilôts d’au moins 2 lectures Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Chromobacterium violaceum genome project Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Outils et programmes d’Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Le Defi !!!! Image original Pièces du puzzle Reconstruction de l’image La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine. bien sur !!!!!! Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Comment s’y prendre ? Chromatogramme Programmes d’assemblage Sequence complète Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

“lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond) . Aix Marseille II .Sequençage automatique Analyse informatique des images du gel: .“base-calling“ – Transformation des profiles de bases (sequence) Le programme Phred est devenu quasi-standard pour le “base calling“ Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.“lane profiling“ – Creation du profile (trace) de chaque chromatogramme .

Base calling . de l‘électrophorèse. Aix Marseille II .Phred Taux d’erreurs varient de 1-17% Trace idéale consiste en: Qualité supérieure – Aucune ambiguité -pics espacés et non chevauchantes Traces généralement obtenues different de l‘idéal Qualité moyenne à cause des: – quelques ambiguités -imperfections des réactions de séquençage. ou du “trace processing“ Qualité faible – confiance faible Extremités de la trace Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

estimated probability error for a base call Examples: q = 20 means p = 10-2 (1 error in 100 bases) q = 40 means p = 10-4 (1 error in 10.quality value p .000 bases) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .10 × log10 (p) avec: q .Phred quality values q = .

ABI (373/377/3700). Aix Marseille II . ESD (MegaBACE) and LI-COR. Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard). “Base Calling” c. Assigne une valeur qualité à chaque base. Créer un fichier de séquence et un fichier qualité e. b. Modifier trimming”) les chromatogrammes (“vector Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. d.Phred Taches effectués par Phred: a.

Phred phred .b ACTGCATGTTCGATCGTAGC . ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC.fasta >a112a1...b ABI_THUMBPRINT: 0 PHRED_VERSION: 0.. phd2fasta Projet...b .fasta..b BEGIN_COMMENT CHROMAT_FILE: a112e211b.000925.. >a112a2. Projet.c CALL_METHOD: phred QUALITY_LEVELS: 99 TIME: Mon Jan 15 11:27:01 2001 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 10499 TRIM: 96 494 0.. Aix Marseille II ... 10 12 15 12 17 20 25 30 33 31 32 .qual Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. >a112a1..phd..b . >a112a2.1 BEGIN_SEQUENCE a112e211b.0500 CHEM: term DYE: big END_COMMENT BEGIN_DNA n 0 5 t 4 24 t 6 35 g 6 44 a 6 71 g 6 92 t 6 100 t 15 114 .b 7 8 5 11 15 19 20 ...

>a112a2.Phred >a112a1.. >a112a1.fasta.fasta Séquences de vecteurs Projet. Projet.qual Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.screen Projet...b ACTGCATGTTCGATCGTAGC . Crossmatch XXXXXXXXXXXXGTGTG ACTGCTAGCTAGCTAGTC...b ..b .fasta. ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC.b ACTGCATGTTCGATCGTAGC ...screen. Aix Marseille II .qual Projet. >a112a2.fasta.....

Aix Marseille II .Formats et Codification des séquences • Nommage des séquences – Format des sequences ABI.SCF Si séquences provenant des BACs. on effectue également une codification de ces séquences Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.b.g. SCF – Les séquences du même clone ont le même prefix – L’orientation des séquences est matérialisée par g ou b / f ou r • Longueur des clones sequencés doit etre définis Taille du clone KT000234.SCF KT000234.

Le système Phred-Phrap-Consed • Lire tous les fichiers de séquences (10-10.000) • Reverse complemente toutes les séquences (double le # de séquences à aligner) • Alignement multiple de ces séquences afin d’obtenir une séquence unique Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Phrap 1) Rechercher les pairs de séquences chevauchantes 2) Construire l’alignement multiple 3) Améliorer l’alignement multiple Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.1) Rechercher les paires de séquences chevauchantes -Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences -Génère une liste des régions ayant certains critères de similarités de séquences. Aix Marseille II . stringency (% of bases identiques). and minimum repeat length. Paramètres importants: minimum overlap length.

7% overlap .Chevauchement entre deux séquences overlap (19 bases) overhang (6 bases) …AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT… overhang % identity = 18/19 % = 94. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .region of similarity between regions overhang .un-aligned ends of the sequences Formation des paires de séquences chevauchantes basée sur: • length of overlap • % identity in overlap region • maximum overhang size.

Aix Marseille II .Phrap 1) Rechercher les paires de séquences chevauchantes Une séquence peut avoir plusieurs régions chevauchantes 1 3 6 8 5 7 9 2 4 5 3 8 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

1) Rechercher les paires de séquences chevauchantes 1 6 5 3 4 8 3 8 7 5 2 9 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 1 6 5 1 3 4 8 3 8 7 5 2 9 8 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 3 4 7 9 8 5 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 6 3 3 4 7 9 8 5 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 3 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 2 5 4 3 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 7 1 6 3 9 8 5 2 4 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

0) • gap extension penalty (default (0. Aix Marseille II . • Paramètres: • gap creation penalty (default 2.3) Améliorer l’alignement multiple • Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements.1) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Au final Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Menus de navigation Consed Séquence du contig Mismatch en rouge Outils de navigation Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Consed Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Création des Scaffolds (SuperContigs) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Contraintes sur les lectures -Les extrémités des lectures doivent avoir une orientation en miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale) clone length F sequenced ends R Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Création des scaffolds “Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome” Assembly Scaffolding Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II Clone/Bac reads reference genome physical map .Linking informations • Overlaps • Mate-pair links • Similarity links • Physical markers • Gene synteny Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

PCR combinatoire B A D E F H G C A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H B--D E--H C--F Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Reads 500-800 base-pairs Contigs 5000-25000 bp Assembly Scaffolding Scaffolds 50000-300000 bp Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Finition Fermeture des gaps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

physical gap Shotgun scaffold A scaffold B Finition sequencing gaps Shotgun FINITION : -Correction des zones de basse qualité -Ordonnancement des contigs -Séquençage des parties manquantes -gap de séquence -gap de clonage -Réorganisation des séquences répétées Finition Temps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

ACGT or TGCA??? •Erreurs de séquençage •Séquences repétées Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Problèmes associés à l’assemblage •Banques Biaisées === Assemblage foireux L’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer •Tailles incorrects des Inserts •Faible couverture •Orientation inconnue des reads. Aix Marseille II .

TIGR Assembler can hold together previously assembled contigs . Isolate repeat copies STEP 2. Assemble in isolation STEP 3. Incorporate assembled repeats into rest of assembly .Finishing repeats RPT A RPT B clones or PCR walks STEP 1. Aix Marseille II .Other assemblers: use repeat consensus as input to the assembler Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .SASA repeat (4776 AA.likely involved in cell adhesion MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATE ATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSI YNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASA SASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTS TSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSAST SASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSA SASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTS ASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESAST SASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASAS ASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISA SESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASE SASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTS ASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSAS ESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSA SASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESAS TSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSAS ASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASA STSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTST SASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASAS ASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSA SASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSAS ASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESAST SASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASA SASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTS ASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. 14Kb) from Streptococcus Pneumoniae .

microbial genomes (UNIX) http://www.html Stroll http://genetics.sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed http://www.com/products/pga.ac.org/ TIGR Assembler .cam.indiana.phrap.uk/pubseq/ GeneTool/ChromaTool/Sequencher (PC/Mac) Arachne www-genome.informatics.edu/~tchen/STROLL Amass (Pattern Matching) bio.tigr.cs.org/softlab/assembler/ The Staden Package (UNIX) http://www.html#euler AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.ac.mrc-lmb.harvard.ucsd.wi.med.edu/sunkim/AMASS/ Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90 www.uk/Software/analysis/SSAHA/ Euler (Eulerian path) www.paracel.edu/groups/bioinformatics/software.mit.edu/wga/ Celera Assembler Paracel Genome Assembler www.Programmes d’Assemblage des Séquences • • • • • • • • • • • • • Phrap .sanger. Aix Marseille II .

• Cependant. voire plusieurs mois. y compris la levure. plusieurs semaines.  copies dites "de brouillon" (draft genome). dans le cas de régions difficile à séquencer. cette exigence est très coûteuse en temps.Le problème de la qualité des génomes : deux écoles La séquence d’un génome doit être complète et de très haute qualité Approche de type recherche fondamentale • C'est la stratégie initialement adoptée pour les microorganismes. seront nécessaires pour obtenir les 5-10% restants. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. • C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes. La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée Approche de type recherche appliquée • C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote. Aix Marseille II . Ces données génomiques ne seront généralement pas publiées.

asm Arachne .bases/..contig phrap ta2ace ace2contig .dot toArachne .stats .ace base calling quality trimming vector trimming preArachne .repeats . Aix Marseille II .Exemple de pipeline de séquençage/assemblage Consed A B I 3 7 0 0 vector_dir chromat_dir preTA phd_dir phd2fasta .contigs goBambus repeatFinder .xml .fasta/.details .ps .mates Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.qual runTA arachne2gbrowse Gbrowser .seq.links .reads .

Aix Marseille II .Quelques Succès Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

937 bp.639. Aix Marseille II .Sequencing Successes T7 bacteriophage completed in 1983 39. 5800 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. 4293 ORFs Sacchoromyces cerevisae completed in 1996 12.252 bp. 59 coded proteins Escherichia coli completed in 1998 4.069.221 bp.

079.117.099 genes Drosophila melanogaster completed in 2000 116.078.Sequencing Successes Caenorhabditis elegans completed in 1998 95.226 bp.296 bp. 19.601 genes Homo sapiens 1st draft completed in 2001 3. Aix Marseille II .000 bp.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.160. 31. 13.

Homo sapiens 1st draft completed in 2001 3.160.000 bp.079. 31.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

The Genome Sequencing Era
18 microbial genomes 40 microbial genomes mouse First eukaryote genome Yeast 1996 1997 1998 1999 First higher plant Arabidopsis 2000 First fish Fugu 2001 2002

First microbial genome H. influenzae

E. coli
First multicellular animal C. elegans

Fruit fly First mammal Homo sapiens

malaria: mosquito and parasite

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

567 microbial genomes

Situation au 31/08/2007
• Génomes terminés • 521 Bactéries
• • 46 Archaea 25 Eucaryotes

592

• Génomes en cours • 808 Bactéries
• 33 Archaea • 397 Eucaryotes

1238

• Génomes attendus dans le (proche) futur • 1329 Bactéries
• 79 Archaea • 422 Eucaryotes

1830

Avalanche de génomes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes • la variété dans la répétition :
• souches différentes appartenant à la même espèce

 7 souches differentes de E. coli  5 ……de Staphylococcus aureus  etc …
• espèces différentes appartenant au même genre

 8 Pseudomonas  3 Chlamydia  19 Streptococcus  etc …

Mise en évidence d'une variabilité insoupçonnée

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes 2. Une plus grande diversité biologique et phylogénétique
A. moins de pathogènes • La proportion relative est passée en 2003 de 90% à 50% (reste stable) • Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.

B. représentants d’embranchements peu ou pas étudiés
Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia
C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour faire de la photosynthèse en conditions anaérobies

Intérêts : mieux comprendre

les grands cycles énergétiques à l’échelle planétaire

comment est apparue la photosynthèse

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

source d’enzymes faciles à purifier et très efficaces Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Plus de bactéries “utiles” dépollution commensaux intérêt agricole • Shewanella oneidensis.Tendances C. Aix Marseille II . Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds • Geobacter produit en plus de l'électricité Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux Pseudomonas putida croît dans la rhizosphère et dépollue les sols intérêt industriel Nombreux organismes thermophiles.

plus de bactéries « utiles » : • des génomes de plus en plus gros (qui sont faits de plus en plus vite) : Streptomyces coelicolor (9. 7769 protéines) Bradyrhizobium japonicum (9. moins de pathogènes B.1 Mb.05 Mb. la variété dans la répétition : • • souches différentes appartenant à la même espèce espèces différentes appartenant au même genre 2. Aix Marseille II .Tendances Chez les procaryotes 1. 8317 protéines) contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. une plus grande diversité biologique et phylogénétique A. représentants d’embranchements peu ou pas étudiés C.

intérêt médical ou agronomique Magnaporthe grisea Candida albicans Oryza sativa Encephalitozoon cuniculi Microsporidie. rat chimpanzé Homo sapiens Anopheles gambiae (Malaria) Plasmodium falciparum Plasmodium yoelii yoelii Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Tendances Chez les eucaryotes 1. pathogène des voies respiratoires Saccharomyces cerevisiae Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans Drosophila melanogaster Fugu rubripes Tetrahodon souris. Objectifs primaires • • Grands organismes modèles et les organismes proches pouvant aider à l’annotation de leurs génomes Pathogènes. Aix Marseille II .

café. chêne Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. pomme de terre. coton. mollusques. bombyx. bœuf. etc… • Chou. ). kangourou. algues. eucalyptus. cheval. poulet. canne à sucre. dinde. blé. nématodes. mouton. etc… • pins (3). oursin • plusieurs poissons. nombreux protozoaires. Aix Marseille II . Xenope. chat. sorgho. tomate. Une ambition incroyable (due à une accélération technologique impressionnante) • microsporidies. porc.Tendances Chez les eucaryotes 2. chien. maïs. Chlamydomonas • nombreux champignons (40) • plusieurs insectes (abeille. haricot.

et le chimpanzé vient d'être fini en moins d'un an Progrès énormes dans les temps de calcul En 1995. la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. il ne faut plus que 2-3 jours • le séquençage du génome de la souris a été réalisé en un temps incroyablement court. le même type de travail demande quelques minutes La génomique va plus vite que l’informatique En 1965. Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée Depuis 2 ans. influenzae. l’assemblage des contigs avait demandé 11 jours de temps de calcul Aujourd’hui. pour H.Les progrès technologiques Une révolution majeure dans les techniques de séquençage Progrès impressionnant dans le temps nécessaire pour réaliser un projet : • au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie. Aix Marseille II .

8:175-194. Hillier L. C. P. et al. Green P. 1:9-19.G. Green..W.. Whole-genome sequence assembly for Mammalian genomes: arachne 2. Genome Research. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla... Bioinformatics. Consed: A graphical tool for sequence finishing. PHRAP documentation: ALGORITHMS.. Aix Marseille II . D. Jaffe. 8:195-202.B. Fast Computation of Maximal Repeats in Complete Genomes. E. G. H. et al. Kurtz. 1999.phrap. Basecalling of automated sequencer traces using phred. Abajian. Genome Science and Technology. phred Ewing B. 62:500-507. Arachne Batzoglou.org. 2000.. Celera Assembler Myers. REPuter S. P. C. phrap Green. S. ARACHNE: a whole-genome shotgun assembler.. 1999. Genome Res 13: 91-96. A whole-genome assembly of Drosophila. Genomics. et al. consed Gordon. D. 1994 http://www.References TIGR Assembler Sutton. 2003.. 1995... Wendl M. Genome Res 12: 177-189. Genome Research. et al. et al. Schleiermacher. TIGR Assembler: A New Tool for Assembling Large Shotgun Sequencing Projects. Science 287: 2196-2204. 1998. 1998. Optimized Multiplex PCR: Efficiently Closing a WholeGenome Shotgun Sequencing Project. 15(5):426-427 Multiplex PCR Tettelin. 2002.

Sign up to vote on this title
UsefulNot useful