Académique Documents
Professionnel Documents
Culture Documents
QCsequencing Fastq
QCsequencing Fastq
2
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Plan
• Introduc7on
– Rappel
:
séquençage
– Exemple
de
contrôles
qualités
du
séquençage
• Données
brutes
:
Le
format
FastQ
• Qualité
des
données
brutes
• Ne2oyage
des
données
brutes
3
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
RAPPEL : SEQUENÇAGE
4
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Séquençage
haut
débit
• 3
étapes
principales
• Prépara7on
des
libraries
• Généra7on
des
clusters
• Séquençage
• Analyse
primaire
5
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Prépara7on
des
librairies
6
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Généra7on
des
clusters
7
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Séquençage
8
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Analyse
primaire
• Pipeline
Illumina
• Analyse
d’image
(
extrac7on
des
intensités
)
• Appel
de
base
• Iden7fica7on
des
nucléo7des
• Calcul
d’un
score
de
qualité
rela7f
à
la
probabilité
d’erreur
du
nucléo7de
(0
<=
Q
<=
41)
9
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
QC
pendant
le
séquençage
• L’analyse
primaire
est
réalisée
pendant
le
séquençage.
On
peut
donc
suivre
en
temps
réel
les
sta7s7ques
du
séquençage
10
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
QC
pendant
le
séquençage
11
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
QC
pendant
le
séquençage
12
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Les
biais
du
séquençage
Illumina
13
08/12/2014
PlateForMe Comment
obtenir
des
données
de
SHD
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
14
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
DONNÉES
BRUTES
:
LE
FORMAT
FASTQ
15
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Le
format
FastQ
• Extension
*.fastq
• Fichier
texte
:
peut
être
ouvert
avec
un
simple
éditeur
de
texte
(!
taille)
• Con7ent
des
séquences
nucléo7diques
+
valeurs
de
qualité
(fasta
+
Qualité)
• Aucune
informa7on
rela7ve
à
un
génome
Iden7fiant
Séquence
Qualité
16
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Significa7on
de
l’iden7fiant
• @HWI-‐ST1136:117:HS055:3:1101:1134:2244
1:N:0:GCCAAT
– HWI-‐ST1136
:
Nom
du
séquenceur
– 117
:
iden7fiant
du
run
– HS055
:
iden7fiant
de
la
flowcell
– 3
:
numéro
de
ligne
– 1101
:
numéro
du
7le
– 1134
:
coordonnée
X
– 2244
:
coordonnée
Y
17
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Exemple
de
données
pairées
LCD-‐01_1_ATCACG_L007_R1_045.fastq.gz LCD-‐01_1_ATCACG_L007_R2_045.fastq.gz
• Conven7on
:
Les
lectures
sens
1
et
sens
2
du
même
cluster
sont
à
la
même
ligne
entre
les
deux
fichiers
(R1
et
R2)
18
08/12/2014
PlateForMe
L’encodage
de
la
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
qualité
19
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Exemple
– 1er
nucléo7de
:
G
– Qualité
associée
:
@
– Par7e
Pra7que
:
Déterminez
la
valeur
de
qualité
associée
• Score
Phred
=
64
–
33
=
31
• -‐10
log10
p
=
31
• p
=
10^(-‐31/10)
=
7,9x10-‐3
20
08/12/2014
PlateForMe Exemple
:
Graphe
de
qualité
moyenne
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
p = 10-‐4
p = 10-‐3
p = 10-‐2
p = 10-‐1
22
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
23
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Syndrome
Bardet-‐Biedl
• Redin
et
al.,
2012
• Gene7que
–
Autosomique
recessive
–
hautement
hétérogène
:
16
gènes
BBS
(274
exons,
~45kb)
–
Rare
~1/100000
-‐
~1/150000
• Phenotype
Main
Features
Minor
features
Hypogonadism/
Cardiopathy,
liver
fibrosis
Hydrometrocolpos
Renal
Obesity
anomalies
Hypogonadism
Hypertension
Ataxias
Beales
et
al
1999
24
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Ciliopathies
•
Toughness
of
differenDal
clinical
diagnosDc:
very
overlapping/similar
phenotypes
25
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Diagnos7c
BBS
26
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Design
expérimental
• Design
de
la
capture
(à
la
carte):
exons
de
30
genes
(16
gènes
BBS
+
14
gènes
d’autres
ciliopathies)
• 52
pa7ents:
– Cohort
de
preuve
de
principe:
14
pa7ents
dont
les
muta7on
sont
connues
(iden7fiées
en
Sanger)
– 1
cohort:
38
pa7ents
avec
muta7on
inconnue
• Le
pa7ent
provient
d’une
autre
cohorte
analysée
après
la
valida7on
de
la
preuve
de
principe
et
après
les
bons
résultats
sur
la
première
cohorte
27
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
28
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Prépara7on
• Créer
un
répertoire
pour
les
analyses
réalisées
aujourd’hui
$ mkdir
coursQC_Mapping
29
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
30
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
1122032 CRN-107_11-R1.fastq
1122032 CRN-107_11-R2.fastq
– Il
y
a
donc
1122032/4
=
280508
lectures
31
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
32
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus
Données
brutes
33
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
34
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus
Données
brutes
35
08/12/2014
PlateForMe Evalua7on
de
la
qualité
des
données
brutes
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
36
08/12/2014
PlateForMe Evalua7on
de
la
qualité
des
données
brutes
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
37
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
38
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
39
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
40
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
41
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
42
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
43
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
44
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
45
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
46
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
47
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
48
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
49
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
50
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
51
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
52
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
53
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
54
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
55
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
56
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Données
biaisées
57
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
58
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
59
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus
Données
brutes
60
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Enlèvement
de
la
dernière
base
61
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastX
toolkit
• Par7e
pra7que
n°3a
– Objec7f
:
Enlever
la
dernière
base
des
lectures
– Fichiers
d’entrée:
• CRN-‐107_11-‐R1.fastq
• CRN-‐107_11-‐R2.fastq
– Fichiers
de
sor7e
• CRN-‐107_11-‐R1_shorter.fastq
• CRN-‐107_11-‐R2_shorter.fastq
– Ou7l
à
u7liser
:
• Fastx
toolkit
:
fastx_trimmer
– Aide:
• On
souhaite
obtenir
des
lectures
de
taille
100
• On
souhaite
enlever
la
dernière
base.
62
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
63
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastX
toolkit
• Par7e
pra7que
n°3b
– Objec7f
:
Vérifier
que
les
séquences
font
bien
100nt
à
présent
– Fichiers
d’entrée:
• CRN-‐107_11-‐R1_shorter.fastq
• CRN-‐107_11-‐R2_shorter.fastq
– Ou7l
à
u7liser
:
• Bash
:
head
• Bash
:
tail
• Bash
:
wc
– Aide
• Il
y
a
un
caractère
caché
qui
est
comptabilisé
• Le
faire
également
sur
les
fichiers
non
tronqués
64
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
65
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus
Données
brutes
66
08/12/2014
PlateForMe Elimina7on
des
séquences
contaminantes
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
67
08/12/2014
PlateForMe Elimina7on
des
séquences
contaminantes
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
69
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Comprendre
les
adaptateurs
h2p://tucf-‐genomics.tu‚s.edu/documents/protocols/TUCF_Understanding_Illumina_TruSeq_Adapters.pdf
70
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
71
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Cutadapt
:
sens
1
72
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Cutadapt
:
sens
2
73
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus
Données
brutes
74
08/12/2014
Elimina7on
des
par7es
de
lectures
de
mauvaise
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
qualité
• Pourquoi
est
ce
que
la
fin
des
lectures
est
de
moins
bonne
qualité?
– Problème
de
chimie
• Quelle
conséquence?
– Les
suites
de
nucléo7des
de
mauvaise
qualité
à
la
fin
des
lectures
peuvent
induire
des
variants
détectés
à
tord
lors
de
la
détec7on
des
variants.
• Comment
corriger
le
problème?
– Enlever
les
nucléo7des
de
mauvaise
qualité
– A2en7on
aux
données
pairées!
• Ou7l
:
Fastqx
toolkit,
SolexaQA…
75
08/12/2014
Elimina7on
des
par7es
de
lectures
de
mauvaise
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
qualité
76
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
77
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
SolexaQA
78
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
79
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
80
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
81
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
$ mv CRN-107_11-R1_trimmed.fastq.gz CRN-107_11-
R2_trimmed.fastq.gz intermedFastqFiles
82
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
83
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
$ mkdir Fastqc_final
84
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
(avant)
85
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
(après)
86
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
(avant)
87
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC
(après)
88
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus
Données
brutes
89
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Références
• FastQC
(
h2p://www.bioinforma7cs.babraham.ac.uk/
projects/fastqc/)
•
Murray
P.
Cox,
Daniel
A.
Peterson,
and
Patrick
J.
Biggs.
SolexaQA:
at-‐a-‐glance
quality
assessment
of
illumina
second-‐genera7on
sequencing
data.
BMC
Bioinforma7cs
,
11(1):485,
September
2010.
PMID:20875133.
• Cutadapt
(h2p://code.google.com/p/cutadapt/)
• Fastx-‐toolkit
(
h2p://hannonlab.cshl.edu/fastx_toolkit/)
90
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
91
08/12/2014
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Analyse
primaire
Ligne 1, tile 1101, cycle 1
•
Chaque
cluster
est
localisé
sur
la
flowcell
par
ses
coordonnées
X
et
Y
(X,Y)
•
A
chaque
posi7on
où
un
cluster
est
détecté,
les
intensités
des
4
A
C
G
T
bases
sont
extraites.
92
08/12/2014
Analyse
primaire
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
A C G T
93 08/12/2014