Vous êtes sur la page 1sur 81

Séquençage – Assemblage

de Génomes…

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Crédits: François Denizot, LCB-IBSM, CNRS
Projet de séquençage d’un génome
Séquençage aléatoire Assemblage Annotation Data Release

Library construction Assembler Gene finding Publication


Genome scaffold
Colony picking Homology searches
Combinatorial PCR

Template preparation Initial role assignments

Ordered contig set


Sequencing reactions Metabolic pathways
Gene families
Gap closure
Base calling sequence editing
Comparative genomics

Sequence files Re-assembly


Transcriptional/
translational
Sample tracking ONE ASSEMBLY! regularory elements
Repetitive sequences

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Technologie de séquençage

Malgré de nombreuses tentatives de mise au point


de nouvelles méthodologies de séquençage d’ADN,
c’est toujours la technique développée par F. Sanger
qui est la plus utilisée:

Sanger F, Nicklen S, Coulson AR. (1977)


DNA sequencing with chain-terminating inhibitors.
Proc Natl Acad Sci U S A. 74: 5463-7.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Principe:

Générer à partir d’une extrémité fixe tous les fragments


d’ADN se terminant par une base donnée

Utilisation d’un oligonucléotide qui après hybridation à sa


matrice simple brin, sert d’amorce à une réaction de
polymérisation enzymatique

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Quelques rappels et illustrations

Cold Spring Harbor Laboratory


Dolan DNA learning Center
http://www.dnalc.org/ddnalc/resources/sangerseq.html

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ddNTP fluorescents

Primers fluorescents

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Séparation et détection des fragments

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Automatisation de toutes les étapes
Préparation des matrices

Réactions de séquence

Séparation et détection des fragments

Intégration des éléments Analyse informatique…


dans une chaîne de production
Eviter les goulots d’étranglement
dans le processus
Multiplier les éléments en parallèle

USINE
Permettant le séquençage d’ADN à haut débit
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Cependant !

Limitation importante de la technique!

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Les contraintes

Nécessité de fragmenter le DNA génomique

Clonage des fragments en vue de leur amplification

Séquençage (souvent partiel) des


fragments ou sous-fragments

Reconstitution de la séquence d’origine

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
DNA

fragmentation (mécanique ou enzymatique)

« shotgun »

clonage des différents fragments dans un vecteur

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs.

pUC

(insert jusqu’à 10 Kb) (insert jusqu’à 45 Kb) (insert jusqu’à 100 Kb)

(insert ∼ 300 Kb) (insert jusqu’à 1 Mb, mais


Génomique 1 –M1 (2007-2008): Assemblage des Génomes réarrangements fréquents)
– Emmanuel Talla, Aix Marseille II
Stratégies de séquençage des
génomes…

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Petits génomes Grands génomes
peu complexes Forte complexité

Mixage des deux approches

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Quelques illustrations et idées empruntées à différents sites

http://www.snv.jussieu.fr/vie/dossiers/genomes/index.htm

http://www.genoscope.fr/

http://www.takeda-foundation.jp/en/award/takeda/2001/fact/02.html

http://www.nhgri.nih.gov/educationkit/video.html

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=hmg.TOC&depth=1
Ce site fait référence à un livre:
Human Molecular Genetic 2, Tom stachan and Andrew P. Read, Bios Scientific Publisher, Ltd

http://www.univ-lille1.fr/pdv/labo/figdea.pdf

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Assemblage des génomes

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Assemblage

Assembler - Théorie du contigage


Genome scaffold - Outils d’assemblage

Combinatorial PCR

Ordered contig set - Etapes de finition


- Difficultés et résolution
Gap closure
sequence editing

Re-assembly

ONE ASSEMBLY!

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Procédure

ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…
TAGCTACGCATCGTCTGATGGCAATGCTACGGAA…

TAGC
TAGCTACGCATCGT AGAC
GC TACC
GTA GTT
G C
A T
C G GTTACGATGCCTT
A T

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Procédure
ATCGATGCGTAGC
TAGCAGACTACCGTT
GTTACGATGCCTT
TGCTACGCATCG CGATGCGTAGCA
(sequence inv-compl)

CGATGCGTAGCA
ATCGATGCGTAGC
TAGCAGACTACCGTT
Régions de chevauchements GTTACGATGCCTT

……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT……
Contig ou Consensus

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Théorie du contigage

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


La couverture d’un contig: un exemple

Couverture
6
5
4
3
2
1

Contig

Reads

Pour prévoir une assez bonne couverture de ces contigs lors de


l’assemblage, il existe une méthode statistique (Lander-
Waterman) permettant de determiner le nombre de clones à
séquencer, le nombre de contigs prévisibles.
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Théorie du contigage
(Lander-Waterman statistics)

E(#ilôts) = Ne-cσ

E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ

L = longueur de la lecture
T = chevauchement minimum
G = Taille du génome
N = Nombre de lectures
c = couverture (NL / G)
σ = 1 – T/L
contig = ilôts d’au moins 2 lectures

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Chromobacterium violaceum genome project

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Outils et programmes
d’Assemblage

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Le Defi !!!!
Image original

Pièces du puzzle

Reconstruction de l’image

La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines


de milliers (voire des millions) de pieces et sans l’image d’origine, bien sur !!!!!!
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Comment s’y prendre ?

Chromatogramme Programmes d’assemblage Sequence complète

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Sequençage automatique

Analyse informatique des images du gel:


- “lane tracking“ – identifier chaque ligne
-“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond)
- “lane profiling“ – Creation du profile (trace) de chaque chromatogramme
- “base-calling“ – Transformation des profiles de bases (sequence)
Le programme Phred est devenu quasi-standard pour le “base calling“

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Base calling - Phred
Taux d’erreurs varient de 1-17%

Trace idéale consiste en: Qualité supérieure


-pics espacés et non – Aucune ambiguité
chevauchantes

Traces généralement
obtenues different de l‘idéal
Qualité moyenne
à cause des: – quelques
-imperfections des ambiguités
réactions de séquençage,
de l‘électrophorèse, ou du
“trace processing“
Qualité faible
– confiance faible
Extremités de la trace

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Phred quality values
q = - 10 × log10 (p)

avec:
q - quality value
p - estimated probability error for a base call

Examples:

q = 20 means p = 10-2 (1 error in 100 bases)


q = 40 means p = 10-4 (1 error in 10,000 bases)

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Phred
Taches effectués par Phred:
a. Lire les traces – compatible avec la plupart des formats
de sequences: SCF (standard), ABI (373/377/3700), ESD
(MegaBACE) and LI-COR.
b. “Base Calling”
c. Assigne une valeur qualité à chaque base.
d. Créer un fichier de séquence et un fichier qualité
e. Modifier les chromatogrammes (“vector
trimming”)

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Phred BEGIN_SEQUENCE a112e211b.b

BEGIN_COMMENT

.phd.1 CHROMAT_FILE: a112e211b.b


phred ABI_THUMBPRINT: 0
PHRED_VERSION: 0.000925.c
CALL_METHOD: phred
QUALITY_LEVELS: 99
TIME: Mon Jan 15 11:27:01 2001
TRACE_ARRAY_MIN_INDEX: 0
Projet.fasta TRACE_ARRAY_MAX_INDEX: 10499
TRIM: 96 494 0.0500
CHEM: term
>a112a1.b ... DYE: big
ACTGCTCGATGTGTGTG
ACTGCTAGCTAGCTAGTC... END_COMMENT
phd2fasta >a112a2.b
ACTGCATGTTCGATCGTAGC BEGIN_DNA
... n 0 5
t 4 24
>a112a1.b ... t 6 35
10 12 15 12 17 20 g 6 44
25 30 33 31 32 ... a 6 71
>a112a2.b g 6 92
7 8 5 11 15 19 20 t 6 100
... t 15 114
...
Projet.fasta.qual

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Phred
>a112a1.b ... >a112a1.b ...
ACTGCTCGATGTGTGTG XXXXXXXXXXXXGTGTG
ACTGCTAGCTAGCTAGTC...
Crossmatch
ACTGCTAGCTAGCTAGTC...
>a112a2.b >a112a2.b
ACTGCATGTTCGATCGTAGC ACTGCATGTTCGATCGTAGC
... ...

Projet.fasta
Séquences Projet.fasta.screen
de vecteurs

Projet.fasta.qual Projet.fasta.screen.qual

Assemblage

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Formats et Codification des séquences

• Nommage des séquences


– Format des sequences ABI, SCF
– Les séquences du même clone ont le même prefix
– L’orientation des séquences est matérialisée par g ou b / f ou r

• Longueur des clones sequencés doit etre définis

Taille du clone

KT000234.g.SCF KT000234.b.SCF

Si séquences provenant des BACs, on effectue également


une codification de ces séquences

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Le système Phred-Phrap-Consed

• Lire tous les fichiers de séquences (10-10,000)


• Reverse complemente toutes les séquences
(double le # de séquences à aligner)
• Alignement multiple de ces séquences afin
d’obtenir une séquence unique

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Phrap

1) Rechercher les pairs de séquences chevauchantes

2) Construire l’alignement multiple

3) Améliorer l’alignement multiple

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


1) Rechercher les paires de séquences chevauchantes

-Compare chaque séquence (et son reverse-complement)


avec chacune des autres séquences

-Génère une liste des régions ayant certains critères de


similarités de séquences.

Paramètres importants: minimum overlap length,


stringency (% of bases identiques), and minimum
repeat length.

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Chevauchement entre deux séquences

overlap (19 bases) overhang (6 bases)


…AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC
CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT…
overhang % identity = 18/19 % = 94.7%
overlap - region of similarity between regions
overhang - un-aligned ends of the sequences

Formation des paires de séquences chevauchantes basée sur:


• length of overlap
• % identity in overlap region
• maximum overhang size.

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Phrap
1) Rechercher les paires de séquences chevauchantes

Une séquence peut avoir plusieurs régions chevauchantes

1
8
3
5
6
3
8
2
5
4
7
9
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
1) Rechercher les paires de séquences chevauchantes

1 3
8 5
6 8
3 2

5 7
4 9

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour


construire des grands fragments de séquences

1 3
8 5
6 8
3 2

5 7
4 9

1
8
2

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour


construire des grands fragments de séquences

3
5
6
3

5 7
4 9

1
8
2

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour


construire des grands fragments de séquences

3
5
6
3

5 7
4 9

1
8
2
6
3
5
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour


construire des grands fragments de séquences

5 7
4 9

1
8
2
6
3
5
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour


construire des grands fragments de séquences

5 7
4 9

1
8
2
6
3
5
4
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour


construire des grands fragments de séquences

7
9

1
8
2
6
3
5
4
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
3) Améliorer l’alignement multiple

• Introduction de gaps dans les alignements de séquences


si cela doit ameliorer les alignements.
• Paramètres:
• gap creation penalty (default 2.0)
• gap extension penalty (default (0.1)

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Au final

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Menus de navigation Consed Séquence
du contig

Mismatch en rouge

Outils de navigation

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Consed

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Création des Scaffolds
(SuperContigs)

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Contraintes sur les lectures
-Les extrémités des lectures doivent avoir une orientation en
miroir l’un par rapport à l’autre

-La distance entre deux lectures est connue


(avec une certaine erreur expérimentale)

clone length

F R

sequenced ends

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Création des scaffolds
“Ordonner et Orienter les contigs (non-chevauchants) le long du
chromosome”

Assembly

Scaffolding

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Linking informations

• Overlaps

• Mate-pair links Clone/Bac reads

reference genome
• Similarity links

physical map
• Physical markers

• Gene synteny

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


PCR combinatoire
B
A A A A A A A A
A B B B B B B B B
C
D C C C C C C C C
E D D D D D D D D
F E E E E E E E E
G F F F F F F F F
H G G G G G G G G
H H H H H H H H

B--D E--H
C--F

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Reads 500-800 base-pairs

Assembly
Contigs 5000-25000 bp

Scaffolding
Scaffolds 50000-300000 bp

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Finition
Fermeture des gaps

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


physical gap

scaffold A scaffold B
Shotgun

Finition
sequencing gaps

Shotgun
FINITION :
-Correction des zones de basse qualité
-Ordonnancement des contigs
-Séquençage des parties manquantes
-gap de séquence
Finition
-gap de clonage
-Réorganisation des séquences répétées

Temps
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Problèmes associés à l’assemblage

•Banques Biaisées === Assemblage foireux


L’ensemble des clones des différentes banques utilisées doivent
couvrir la presque totalité du génome à séquencer

•Tailles incorrects des Inserts

•Faible couverture

•Orientation inconnue des reads. ACGT or TGCA???

•Erreurs de séquençage

•Séquences repétées
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Finishing repeats

RPT A RPT B

clones or PCR walks

STEP 1. Isolate repeat copies


STEP 2. Assemble in isolation
STEP 3. Incorporate assembled repeats into rest of assembly
- TIGR Assembler can hold together previously assembled
contigs
- Other assemblers: use repeat consensus as input to the
assembler

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


SASA repeat (4776 AA, 14Kb)
from Streptococcus Pneumoniae - likely involved in cell adhesion
MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATE
ATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSI
YNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASA
SASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTS
TSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSAST
SASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASAS
ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSA
SASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTS
ASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESAST
SASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASAS
ASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISA
SESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASAS
TSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASE
SASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTS
ASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASA
STSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSAS
ESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSA
SASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESAS
TSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA
STSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSAS
ASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASA
STSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASAS
ASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTST
SASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTS
ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASA
STSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASAS
ASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSA
SASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTS
ASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASA
STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSAS
ASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESAST
SASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASAS
TSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASA
SASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTS
ASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASA
STSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Programmes d’Assemblage des Séquences
• Phrap - sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed
http://www.phrap.org/
• TIGR Assembler - microbial genomes (UNIX) http://www.tigr.org/softlab/assembler/
• The Staden Package (UNIX)
http://www.mrc-lmb.cam.ac.uk/pubseq/
• GeneTool/ChromaTool/Sequencher (PC/Mac)
• Arachne www-genome.wi.mit.edu/wga/
• Celera Assembler
• Paracel Genome Assembler www.paracel.com/products/pga.html
• Stroll http://genetics.med.harvard.edu/~tchen/STROLL
• Amass (Pattern Matching) bio.informatics.indiana.edu/sunkim/AMASS/
• Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90
• www.sanger.ac.uk/Software/analysis/SSAHA/
• Euler (Eulerian path)
www.cs.ucsd.edu/groups/bioinformatics/software.html#euler
• AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Le problème de la qualité des génomes : deux écoles

La séquence d’un génome doit être complète et Approche de type


de très haute qualité recherche fondamentale
• C'est la stratégie initialement adoptée pour les microorganismes, y compris la
levure.
• Cependant, dans le cas de régions difficile à séquencer, cette exigence est très
coûteuse en temps. Si quelques jours sont suffisants pour avoir un recouvrement
de haute qualité de 90-95% d'un génome de procaryote, plusieurs semaines, voire
plusieurs mois, seront nécessaires pour obtenir les 5-10% restants.

La séquence du génome peut rester incomplète Approche de type


si une majorité des gènes a été trouvée recherche appliquée
• C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels
qui recherchent avant tout de nouvelles molécules. Ces données génomiques ne
seront généralement pas publiées.
• C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas
de l'hétérochromatine ou des régions trop répétées et apparemment vides de
gènes.  copies dites "de brouillon" (draft genome).

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Exemple de pipeline de séquençage/assemblage

Consed
A vector_dir
B
I
3 chromat_dir preTA phd_dir phd2fasta
7 base calling
0 quality trimming .seq,.qual .contig ace2contig
0
vector trimming

arachne2gbrowse preArachne runTA phrap .ace


ta2ace
.xml
.links .asm
Gbrowser .reads Arachne .bases/.fasta/.contigs
.ps goBambus .mates
repeatFinder
.repeats
.stats .details .dot
toArachne
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Quelques Succès

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Sequencing Successes
T7 bacteriophage
completed in 1983
39,937 bp, 59 coded proteins

Escherichia coli
completed in 1998
4,639,221 bp, 4293 ORFs

Sacchoromyces cerevisae
completed in 1996
12,069,252 bp, 5800 genes

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Sequencing Successes
Caenorhabditis elegans
completed in 1998
95,078,296 bp, 19,099 genes

Drosophila melanogaster
completed in 2000
116,117,226 bp, 13,601 genes

Homo sapiens
1st draft completed in 2001
3,160,079,000 bp, 31,780 genes

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Homo sapiens
1st draft completed in 2001
3,160,079,000 bp, 31,780 genes

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


The Genome Sequencing Era
18 microbial genomes 40 microbial genomes

mouse

First eukaryote genome First higher plant


Arabidopsis First fish
Yeast
Fugu
1996 1997 1998 1999 2000 2001 2002

First microbial genome


H. influenzae
E. coli

First multicellular animal


C. elegans malaria:
Fruit fly mosquito
and
First mammal parasite
Homo sapiens

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II 567 microbial genomes
Situation au 31/08/2007
• Génomes terminés 592
• 521 Bactéries
• 46 Archaea
• 25 Eucaryotes

• Génomes en cours 1238


• 808 Bactéries
• 33 Archaea
• 397 Eucaryotes

• Génomes attendus dans le (proche) futur 1830


• 1329 Bactéries
• 79 Archaea
• 422 Eucaryotes

Avalanche de génomes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Tendances
Chez les procaryotes
• la variété dans la répétition :
• souches différentes appartenant à la même espèce
 7 souches differentes de E. coli
 5 ……de Staphylococcus aureus
 etc …
• espèces différentes appartenant au même genre
Mise en évidence d'une
 8 Pseudomonas variabilité insoupçonnée
 3 Chlamydia
 19 Streptococcus
 etc …

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Tendances
Chez les procaryotes
2. Une plus grande diversité biologique et phylogénétique
A. moins de pathogènes
• La proportion relative est passée en 2003 de 90% à 50% (reste
stable)
• Cependant, beaucoup de compagnies privées continuent à séquencer
beaucoup de génomes mais sans les publier. Par example, on estime
que 14 souches différentes de Bacillus anthracis auraient été
séquencées en 2002 aux Etats-Unis.
B. représentants d’embranchements peu ou pas étudiés

Example : Chlorobium tepidum, bactérie modèle du Intérêts : mieux comprendre


phylum Chlorobia

C’est un thermophile qui fixe l’azote atmosphérique et qui les grands cycles comment est
réduit des composés soufrés comme source d’énergie pour énergétiques à apparue la
faire de la photosynthèse en conditions anaérobies l’échelle planétaire photosynthèse

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Tendances

C. Plus de bactéries “utiles”

• Shewanella oneidensis, Geobacter metallidurens


dépollution métabolise l’uranium et de nombreux autres métaux lourds
• Geobacter produit en plus de l'électricité

commensaux Bifidobacterium longum bactérie intestinale


hydrolysant des polymères végétaux

Pseudomonas putida croît dans la rhizosphère et


intérêt agricole dépollue les sols

Nombreux organismes thermophiles, source


intérêt industriel d’enzymes faciles à purifier et très efficaces

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Tendances
Chez les procaryotes
1. la variété dans la répétition :
• souches différentes appartenant à la même espèce
• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétique
A. moins de pathogènes
B. représentants d’embranchements peu ou pas étudiés
C. plus de bactéries « utiles » :
• des génomes de plus en plus gros (qui sont faits de plus en
plus vite) :
Streptomyces coelicolor Bradyrhizobium japonicum
(9,05 Mb, 7769 protéines) (9,1 Mb, 8317 protéines)

contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes


simples comme les levures (12 Mb mais moins de 6000 protéines)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Tendances
Chez les eucaryotes
1. Objectifs primaires
• Grands organismes modèles et les organismes proches pouvant aider à
l’annotation de leurs génomes
• Pathogènes, intérêt médical ou agronomique

Saccharomyces cerevisiae Magnaporthe grisea


Schizosaccharomyces pombe Candida albicans
Arabidopsis thaliana Oryza sativa
Caenorhabditis elegans Encephalitozoon cuniculi
Microsporidie, pathogène des
Drosophila melanogaster voies respiratoires

Fugu rubripes
Plasmodium falciparum
Tetrahodon Anopheles gambiae Plasmodium yoelii yoelii
Homo sapiens
(Malaria)
souris, rat
chimpanzé

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Tendances
Chez les eucaryotes
2. Une ambition incroyable (due à une accélération technologique impressionnante)
• microsporidies, nématodes, nombreux protozoaires, algues, Chlamydomonas
• nombreux champignons (40)
• plusieurs insectes (abeille, bombyx, ), mollusques, oursin
• plusieurs poissons, Xenope, poulet, dinde, bœuf, porc, chien, chat, cheval, mouton,
kangourou, etc…
• Chou, café, blé, maïs, sorgho, coton, tomate, pomme de terre, haricot, canne à sucre,
etc…
• pins (3), eucalyptus, chêne

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II


Les progrès technologiques
Une révolution majeure dans les techniques de séquençage
Progrès impressionnant dans le temps nécessaire pour réaliser un projet :
• au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie, il ne
faut plus que 2-3 jours
• le séquençage du génome de la souris a été réalisé en un temps incroyablement court,
et le chimpanzé vient d'être fini en moins d'un an

Progrès énormes dans les temps de calcul


En 1995, pour H. influenzae, l’assemblage des contigs avait demandé 11 jours de
temps de calcul
Aujourd’hui, le même type de travail demande quelques minutes

La génomique va plus vite que l’informatique


En 1965, Moore avait prédit que la puissance des ordinateurs doublerait tous les
deux ans. Jusqu’ici cette « loi » a été parfaitement respectée
Depuis 2 ans, la croissance de l’information contenue dans les séquences
génomiques a pris une vitesse de doublement bien supérieure et semble même
encore s’accélerer
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
References
TIGR Assembler Sutton, G.G., et al., TIGR Assembler: A New Tool for Assembling Large
Shotgun Sequencing Projects. Genome Science and Technology, 1995. 1:9-19.
phrap Green, P., PHRAP documentation: ALGORITHMS. 1994
http://www.phrap.org.
phred Ewing B., Hillier L, Wendl M, Green P., Basecalling of automated
sequencer traces using phred. Genome Research, 1998, 8:175-194.
consed Gordon, D., C. Abajian, P. Green. Consed: A graphical tool for sequence
finishing. Genome Research, 1998, 8:195-202.
REPuter S. Kurtz, C. Schleiermacher, Fast Computation of Maximal Repeats in
Complete Genomes, Bioinformatics, 1999, 15(5):426-427
Multiplex PCR Tettelin, H., et al., Optimized Multiplex PCR: Efficiently Closing a Whole-
Genome Shotgun Sequencing Project. Genomics, 1999. 62:500-507.
Celera Assembler Myers, E.W. et al. 2000. A whole-genome assembly of Drosophila.
Science 287: 2196-2204.
Arachne Batzoglou, S., et al. 2002. ARACHNE: a whole-genome shotgun
assembler. Genome Res 12: 177-189.
Jaffe, D.B., et al. 2003. Whole-genome sequence assembly for
Mammalian genomes: arachne 2. Genome Res 13: 91-96.

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II