Séquençage – Assemblage de Génomes…

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Crédits: François Denizot, LCB-IBSM, CNRS

Projet de séquençage d’un génome
Séquençage aléatoire
Library construction Colony picking Template preparation Ordered contig set Sequencing reactions Base calling Sequence files
Sample tracking

Assemblage
Assembler Genome scaffold Combinatorial PCR

Annotation
Gene finding Homology searches Initial role assignments Metabolic pathways Gene families Comparative genomics Transcriptional/ translational regularory elements Repetitive sequences

Data Release
Publication

Gap closure sequence editing Re-assembly ONE ASSEMBLY!

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Technologie de séquençage
Malgré de nombreuses tentatives de mise au point de nouvelles méthodologies de séquençage d’ADN, c’est toujours la technique développée par F. Sanger qui est la plus utilisée:
Sanger F, Nicklen S, Coulson AR. (1977) DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74: 5463-7.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Principe:
Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée Utilisation d’un oligonucléotide qui après hybridation à sa matrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Quelques rappels et illustrations Cold Spring Harbor Laboratory Dolan DNA learning Center http://www. Aix Marseille II .dnalc.html Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.org/ddnalc/resources/sangerseq.

ddNTP fluorescents Primers fluorescents Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Séparation et détection des fragments Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Automatisation de toutes les étapes Préparation des matrices Réactions de séquence Séparation et détection des fragments Intégration des éléments dans une chaîne de production Analyse informatique… Eviter les goulots d’étranglement dans le processus Multiplier les éléments en parallèle USINE Permettant le séquençage d’ADN à haut débit Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Cependant ! Limitation importante de la technique! Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Les contraintes Nécessité de fragmenter le DNA génomique Clonage des fragments en vue de leur amplification Séquençage (souvent partiel) des fragments ou sous-fragments Reconstitution de la séquence d’origine Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .DNA fragmentation (mécanique ou enzymatique) « shotgun » clonage des différents fragments dans un vecteur Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

pUC (insert jusqu’à 10 Kb) (insert jusqu’à 45 Kb) (insert jusqu’à 100 Kb) (insert ∼ 300 Kb) Génomique 1 (insert jusqu’à 1 Mb. Aix Marseille II .Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs. mais –M1 (2007-2008): Assemblage des Génomes réarrangements fréquents) – Emmanuel Talla.

Aix Marseille II .Stratégies de séquençage des génomes… Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Petits génomes peu complexes Grands génomes Forte complexité Mixage des deux approches Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

nih. Read. Ltd http://www.takeda-foundation.gov/books/bv.fr/vie/dossiers/genomes/index.gov/educationkit/video.fr/pdv/labo/figdea.fr/ http://www.View.htm http://www.jp/en/award/takeda/2001/fact/02.ncbi.TOC&depth=1 Ce site fait référence à un livre: Human Molecular Genetic 2.ShowTOC&rid=hmg. Tom stachan and Andrew P.univ-lille1.jussieu.nih. Bios Scientific Publisher.html http://www. Aix Marseille II .genoscope..snv.fcgi?call=bv.nhgri.Quelques illustrations et idées empruntées à différents sites http://www.pdf Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.html http://www.nlm.

Aix Marseille II .Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Assemblage des génomes Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Outils d’assemblage Ordered contig set Gap closure sequence editing Re-assembly ONE ASSEMBLY! . Aix Marseille II .Difficultés et résolution Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Théorie du contigage .Etapes de finition .Assemblage Assembler Genome scaffold Combinatorial PCR .

Procédure ATCGATGCGTAGCAGACTACCGTTACGATGCCTT… TAGCTACGCATCGTCTGATGGCAATGCTACGGAA… TAGCTACGCATCGT A CG T TG A A GT C GC TAGC AGAC TACC GTT GTTACGATGCCTT Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Procédure ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT TGCTACGCATCG (sequence inv-compl) CGATGCGTAGCA CGATGCGTAGCA ATCGATGCGTAGC TAGCAGACTACCGTT GTTACGATGCCTT Régions de chevauchements ……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…… Contig ou Consensus Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

le nombre de contigs prévisibles. il existe une méthode statistique (LanderWaterman) permettant de determiner le nombre de clones à séquencer. Aix Marseille II .La couverture d’un contig: un exemple Couverture 6 5 4 3 2 1 Contig Reads Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .(Lander-Waterman statistics) E(#ilôts) = Ne-cσ E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ L = longueur de la lecture T = chevauchement minimum G = Taille du génome N = Nombre de lectures c = couverture (NL / G) σ = 1 – T/L contig = ilôts d’au moins 2 lectures Théorie du contigage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Chromobacterium violaceum genome project Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Outils et programmes d’Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Le Defi !!!! Image original Pièces du puzzle Reconstruction de l’image La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine. bien sur !!!!!! Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Comment s’y prendre ? Chromatogramme Programmes d’assemblage Sequence complète Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

“lane profiling“ – Creation du profile (trace) de chaque chromatogramme .“base-calling“ – Transformation des profiles de bases (sequence) Le programme Phred est devenu quasi-standard pour le “base calling“ Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .“lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond) .Sequençage automatique Analyse informatique des images du gel: .

ou du “trace processing“ Qualité faible – confiance faible Extremités de la trace Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Phred Taux d’erreurs varient de 1-17% Trace idéale consiste en: Qualité supérieure – Aucune ambiguité -pics espacés et non chevauchantes Traces généralement obtenues different de l‘idéal Qualité moyenne à cause des: – quelques ambiguités -imperfections des réactions de séquençage.Base calling . Aix Marseille II . de l‘électrophorèse.

000 bases) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .estimated probability error for a base call Examples: q = 20 means p = 10-2 (1 error in 100 bases) q = 40 means p = 10-4 (1 error in 10.Phred quality values q = .quality value p .10 × log10 (p) avec: q .

d. ESD (MegaBACE) and LI-COR. b. Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard). ABI (373/377/3700). Modifier trimming”) les chromatogrammes (“vector Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Créer un fichier de séquence et un fichier qualité e. Aix Marseille II . “Base Calling” c. Assigne une valeur qualité à chaque base.Phred Taches effectués par Phred: a.

1 BEGIN_SEQUENCE a112e211b.phd. >a112a1. 10 12 15 12 17 20 25 30 33 31 32 ..fasta >a112a1....Phred phred .fasta.b BEGIN_COMMENT CHROMAT_FILE: a112e211b.....b .0500 CHEM: term DYE: big END_COMMENT BEGIN_DNA n 0 5 t 4 24 t 6 35 g 6 44 a 6 71 g 6 92 t 6 100 t 15 114 .000925.c CALL_METHOD: phred QUALITY_LEVELS: 99 TIME: Mon Jan 15 11:27:01 2001 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 10499 TRIM: 96 494 0... Projet.b ABI_THUMBPRINT: 0 PHRED_VERSION: 0. Aix Marseille II ....b . phd2fasta Projet. >a112a2.b 7 8 5 11 15 19 20 .qual Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. >a112a2. ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC.b ACTGCATGTTCGATCGTAGC ..

fasta Séquences de vecteurs Projet... >a112a2.fasta.b ACTGCATGTTCGATCGTAGC ..b .....fasta.screen Projet. >a112a2.screen...fasta. Projet..b ACTGCATGTTCGATCGTAGC ..b .. Crossmatch XXXXXXXXXXXXGTGTG ACTGCTAGCTAGCTAGTC. Aix Marseille II .Phred >a112a1. >a112a1.qual Assemblage Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.qual Projet. ACTGCTCGATGTGTGTG ACTGCTAGCTAGCTAGTC.

b.SCF KT000234. Aix Marseille II .SCF Si séquences provenant des BACs.Formats et Codification des séquences • Nommage des séquences – Format des sequences ABI. on effectue également une codification de ces séquences Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.g. SCF – Les séquences du même clone ont le même prefix – L’orientation des séquences est matérialisée par g ou b / f ou r • Longueur des clones sequencés doit etre définis Taille du clone KT000234.

Le système Phred-Phrap-Consed • Lire tous les fichiers de séquences (10-10.000) • Reverse complemente toutes les séquences (double le # de séquences à aligner) • Alignement multiple de ces séquences afin d’obtenir une séquence unique Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Phrap 1) Rechercher les pairs de séquences chevauchantes 2) Construire l’alignement multiple 3) Améliorer l’alignement multiple Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Paramètres importants: minimum overlap length. Aix Marseille II . and minimum repeat length. stringency (% of bases identiques).1) Rechercher les paires de séquences chevauchantes -Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences -Génère une liste des régions ayant certains critères de similarités de séquences. Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.un-aligned ends of the sequences Formation des paires de séquences chevauchantes basée sur: • length of overlap • % identity in overlap region • maximum overhang size.7% overlap .Chevauchement entre deux séquences overlap (19 bases) overhang (6 bases) …AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT… overhang % identity = 18/19 % = 94.region of similarity between regions overhang . Aix Marseille II .

Aix Marseille II .Phrap 1) Rechercher les paires de séquences chevauchantes Une séquence peut avoir plusieurs régions chevauchantes 1 3 6 8 5 7 9 2 4 5 3 8 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

1) Rechercher les paires de séquences chevauchantes 1 6 5 3 4 8 3 8 7 5 2 9 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 1 6 5 1 3 4 8 3 8 7 5 2 9 8 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 3 4 7 9 8 5 2 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 3 6 5 1 6 3 3 4 7 9 8 5 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 3 2 5 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 5 1 6 4 7 9 8 2 5 4 3 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

2) Construire l’alignement multiple Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences 7 1 6 3 9 8 5 2 4 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

1) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. • Paramètres: • gap creation penalty (default 2.0) • gap extension penalty (default (0.3) Améliorer l’alignement multiple • Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements. Aix Marseille II .

Au final Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Menus de navigation Consed Séquence du contig Mismatch en rouge Outils de navigation Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Consed Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Création des Scaffolds (SuperContigs) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Contraintes sur les lectures -Les extrémités des lectures doivent avoir une orientation en miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale) clone length F sequenced ends R Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .Création des scaffolds “Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome” Assembly Scaffolding Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II Clone/Bac reads reference genome physical map .Linking informations • Overlaps • Mate-pair links • Similarity links • Physical markers • Gene synteny Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II .PCR combinatoire B A D E F H G C A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H A B C D E F G H B--D E--H C--F Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Reads 500-800 base-pairs Contigs 5000-25000 bp Assembly Scaffolding Scaffolds 50000-300000 bp Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

Aix Marseille II .Finition Fermeture des gaps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

physical gap Shotgun scaffold A scaffold B Finition sequencing gaps Shotgun FINITION : -Correction des zones de basse qualité -Ordonnancement des contigs -Séquençage des parties manquantes -gap de séquence -gap de clonage -Réorganisation des séquences répétées Finition Temps Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

ACGT or TGCA??? •Erreurs de séquençage •Séquences repétées Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.Problèmes associés à l’assemblage •Banques Biaisées === Assemblage foireux L’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer •Tailles incorrects des Inserts •Faible couverture •Orientation inconnue des reads. Aix Marseille II .

Assemble in isolation STEP 3.Other assemblers: use repeat consensus as input to the assembler Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.TIGR Assembler can hold together previously assembled contigs .Finishing repeats RPT A RPT B clones or PCR walks STEP 1. Isolate repeat copies STEP 2. Incorporate assembled repeats into rest of assembly . Aix Marseille II .

SASA repeat (4776 AA. 14Kb) from Streptococcus Pneumoniae .likely involved in cell adhesion MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATE ATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSI YNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASA SASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTS TSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSAST SASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSA SASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTS ASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESAST SASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASAS ASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISA SESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASE SASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTS ASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSAS ESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSA SASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESAS TSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSAS ASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASA STSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASAS ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTST SASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASAS ASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSA SASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTS ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSAS ASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESAST SASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASAS TSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASA SASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTS ASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

cam.microbial genomes (UNIX) http://www.edu/~tchen/STROLL Amass (Pattern Matching) bio.uk/Software/analysis/SSAHA/ Euler (Eulerian path) www.tigr.Programmes d’Assemblage des Séquences • • • • • • • • • • • • • Phrap .ac.mrc-lmb. Aix Marseille II .html#euler AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29 Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.com/products/pga.ac.org/ TIGR Assembler .mit.edu/groups/bioinformatics/software.edu/wga/ Celera Assembler Paracel Genome Assembler www.cs.edu/sunkim/AMASS/ Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90 www.ucsd.uk/pubseq/ GeneTool/ChromaTool/Sequencher (PC/Mac) Arachne www-genome.paracel.sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed http://www.informatics.html Stroll http://genetics.phrap.med.sanger.harvard.indiana.wi.org/softlab/assembler/ The Staden Package (UNIX) http://www.

Aix Marseille II . y compris la levure. Ces données génomiques ne seront généralement pas publiées. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. voire plusieurs mois. • C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes.  copies dites "de brouillon" (draft genome). La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée Approche de type recherche appliquée • C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote. plusieurs semaines. • Cependant. cette exigence est très coûteuse en temps.Le problème de la qualité des génomes : deux écoles La séquence d’un génome doit être complète et de très haute qualité Approche de type recherche fondamentale • C'est la stratégie initialement adoptée pour les microorganismes. seront nécessaires pour obtenir les 5-10% restants. dans le cas de régions difficile à séquencer.

ps .qual runTA arachne2gbrowse Gbrowser .contigs goBambus repeatFinder .repeats .asm Arachne .fasta/.stats .mates Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.seq.ace base calling quality trimming vector trimming preArachne ..details . Aix Marseille II .contig phrap ta2ace ace2contig .dot toArachne .links .xml .Exemple de pipeline de séquençage/assemblage Consed A B I 3 7 0 0 vector_dir chromat_dir preTA phd_dir phd2fasta .bases/.reads .

Aix Marseille II .Quelques Succès Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

59 coded proteins Escherichia coli completed in 1998 4.221 bp. 4293 ORFs Sacchoromyces cerevisae completed in 1996 12.937 bp. Aix Marseille II .069.Sequencing Successes T7 bacteriophage completed in 1983 39.252 bp.639. 5800 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

601 genes Homo sapiens 1st draft completed in 2001 3.078. 31. Aix Marseille II .Sequencing Successes Caenorhabditis elegans completed in 1998 95.079. 13.099 genes Drosophila melanogaster completed in 2000 116. 19.296 bp.117.160.226 bp.000 bp.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

31.Homo sapiens 1st draft completed in 2001 3.079.160.000 bp.780 genes Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Aix Marseille II .

The Genome Sequencing Era
18 microbial genomes 40 microbial genomes mouse First eukaryote genome Yeast 1996 1997 1998 1999 First higher plant Arabidopsis 2000 First fish Fugu 2001 2002

First microbial genome H. influenzae

E. coli
First multicellular animal C. elegans

Fruit fly First mammal Homo sapiens

malaria: mosquito and parasite

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

567 microbial genomes

Situation au 31/08/2007
• Génomes terminés • 521 Bactéries
• • 46 Archaea 25 Eucaryotes

592

• Génomes en cours • 808 Bactéries
• 33 Archaea • 397 Eucaryotes

1238

• Génomes attendus dans le (proche) futur • 1329 Bactéries
• 79 Archaea • 422 Eucaryotes

1830

Avalanche de génomes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes • la variété dans la répétition :
• souches différentes appartenant à la même espèce

 7 souches differentes de E. coli  5 ……de Staphylococcus aureus  etc …
• espèces différentes appartenant au même genre

 8 Pseudomonas  3 Chlamydia  19 Streptococcus  etc …

Mise en évidence d'une variabilité insoupçonnée

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances
Chez les procaryotes 2. Une plus grande diversité biologique et phylogénétique
A. moins de pathogènes • La proportion relative est passée en 2003 de 90% à 50% (reste stable) • Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.

B. représentants d’embranchements peu ou pas étudiés
Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia
C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour faire de la photosynthèse en conditions anaérobies

Intérêts : mieux comprendre

les grands cycles énergétiques à l’échelle planétaire

comment est apparue la photosynthèse

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Tendances C. Aix Marseille II . source d’enzymes faciles à purifier et très efficaces Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds • Geobacter produit en plus de l'électricité Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux Pseudomonas putida croît dans la rhizosphère et dépollue les sols intérêt industriel Nombreux organismes thermophiles. Plus de bactéries “utiles” dépollution commensaux intérêt agricole • Shewanella oneidensis.

05 Mb.Tendances Chez les procaryotes 1. plus de bactéries « utiles » : • des génomes de plus en plus gros (qui sont faits de plus en plus vite) : Streptomyces coelicolor (9.1 Mb. 8317 protéines) contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines) Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. la variété dans la répétition : • • souches différentes appartenant à la même espèce espèces différentes appartenant au même genre 2. moins de pathogènes B. 7769 protéines) Bradyrhizobium japonicum (9. représentants d’embranchements peu ou pas étudiés C. une plus grande diversité biologique et phylogénétique A. Aix Marseille II .

intérêt médical ou agronomique Magnaporthe grisea Candida albicans Oryza sativa Encephalitozoon cuniculi Microsporidie. Aix Marseille II . rat chimpanzé Homo sapiens Anopheles gambiae (Malaria) Plasmodium falciparum Plasmodium yoelii yoelii Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. Objectifs primaires • • Grands organismes modèles et les organismes proches pouvant aider à l’annotation de leurs génomes Pathogènes. pathogène des voies respiratoires Saccharomyces cerevisiae Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans Drosophila melanogaster Fugu rubripes Tetrahodon souris.Tendances Chez les eucaryotes 1.

etc… • pins (3). cheval. canne à sucre. sorgho. tomate. nématodes. bombyx.Tendances Chez les eucaryotes 2. etc… • Chou. chien. mollusques. poulet. café. haricot. Aix Marseille II . blé. bœuf. porc. chêne Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla. oursin • plusieurs poissons. mouton. eucalyptus. ). pomme de terre. kangourou. algues. dinde. Xenope. maïs. coton. chat. nombreux protozoaires. Chlamydomonas • nombreux champignons (40) • plusieurs insectes (abeille. Une ambition incroyable (due à une accélération technologique impressionnante) • microsporidies.

et le chimpanzé vient d'être fini en moins d'un an Progrès énormes dans les temps de calcul En 1995. influenzae. il ne faut plus que 2-3 jours • le séquençage du génome de la souris a été réalisé en un temps incroyablement court. Jusqu’ici cette « loi » a été parfaitement respectée Depuis 2 ans. pour H. Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans.Les progrès technologiques Une révolution majeure dans les techniques de séquençage Progrès impressionnant dans le temps nécessaire pour réaliser un projet : • au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie. Aix Marseille II . l’assemblage des contigs avait demandé 11 jours de temps de calcul Aujourd’hui. le même type de travail demande quelques minutes La génomique va plus vite que l’informatique En 1965. la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Aix Marseille II . Basecalling of automated sequencer traces using phred.org. Schleiermacher. 62:500-507. 8:175-194. P. Consed: A graphical tool for sequence finishing. 1995. 1:9-19. Hillier L. phred Ewing B. Whole-genome sequence assembly for Mammalian genomes: arachne 2. 1999. Genome Science and Technology. 1998. 15(5):426-427 Multiplex PCR Tettelin. 1999. 2003. C. 2000. 1998.phrap. Genome Research. Bioinformatics. D. Wendl M. Science 287: 2196-2204. H. Green P.W. PHRAP documentation: ALGORITHMS. Abajian. C. Arachne Batzoglou.References TIGR Assembler Sutton. Genome Res 12: 177-189. REPuter S. 8:195-202. E.. P.. et al. Genomics.... 2002. Optimized Multiplex PCR: Efficiently Closing a WholeGenome Shotgun Sequencing Project. G. et al. Jaffe. ARACHNE: a whole-genome shotgun assembler.B.. et al.. Genome Research. phrap Green. S.. 1994 http://www. A whole-genome assembly of Drosophila. D. Genome Res 13: 91-96. Green... et al. et al. consed Gordon. Kurtz. Celera Assembler Myers. TIGR Assembler: A New Tool for Assembling Large Shotgun Sequencing Projects. Fast Computation of Maximal Repeats in Complete Genomes.G. Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla.

Sign up to vote on this title
UsefulNot useful