Vous êtes sur la page 1sur 93

PlateForMe

InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

Control  qualité  des  données  brutes,  


ne2oyage  des  données  
Manipula7on  des  fichiers  FASTQ  
 
 
Stéphanie  Le  Gras  
DU  Dijon  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Objec7fs  
• Comprendre  ce  que  sont  les  données  brutes  de  
séquençage  haut  débit  (type  Illumina)  
• Comprendre  comment  elles  sont  obtenues  
• Comprendre  d’où  peuvent  provenir  les  biais  du  
Séquençage  Haut  débit  (SHD)  
• Apprendre  à  préparer  les  données  de  SHD  pour  
l’analyse  secondaire  des  données  
– Vérifier  la  qualité  des  données  et  si  nécessaire  les  ne2oyer  
(enlever  ce  qui  pourrait  bruiter  le  signal  i.e  générer  la  
détec7on  de  faux  variants)  

2   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Plan  
• Introduc7on    
– Rappel  :  séquençage  
– Exemple  de  contrôles  qualités  du  séquençage  
• Données  brutes  :  Le  format  FastQ  
• Qualité  des  données  brutes  
• Ne2oyage  des  données  brutes  

3   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

RAPPEL  :  SEQUENÇAGE  

4   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Séquençage  haut  débit  

• 3  étapes  principales  
• Prépara7on  des  libraries  
• Généra7on  des  clusters  
• Séquençage  
• Analyse  primaire  

5   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Prépara7on  des  librairies  

6   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Généra7on  des  clusters  

• Un  cluster  :  ~1000  fois  la  même  séquence  d’ADN  


• Nécessaire  pour  détecter  la  fluorescence  pendant  le  séquençage  

7   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Séquençage  

• Séquençage  Illumina  :  Séquençage  massivement  parallèle  

8   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Analyse  primaire  

• Pipeline  Illumina  
• Analyse  d’image      
(  extrac7on  des  intensités  )  
• Appel  de  base  
• Iden7fica7on  des  nucléo7des  
• Calcul  d’un  score  de  qualité  
rela7f  à  la  probabilité  d’erreur  
du  nucléo7de  (0  <=  Q  <=  41)  

9   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
QC  pendant  le  séquençage  
• L’analyse  primaire  est  réalisée  pendant  le  séquençage.  On  peut  donc  suivre  en  temps  
réel  les  sta7s7ques  du  séquençage    

10   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
QC  pendant  le  séquençage  

11   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
QC  pendant  le  séquençage  

12   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Les  biais  du  séquençage  Illumina  

• (données  du  CNS)  


• 98,5%  de  lecture  alignées  
• Taux  d‘erreur  moyen  :  0,38%  
• 3%  dele7ons,  2%  inser7ons,  95%  subs7tu7ons  
• Biais  dans  la  couverture  des  régions  riches  en  
AT  

13   08/12/2014  
PlateForMe Comment  obtenir  des  données  de  SHD  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• En  produisant  vos  propres  données  de  séquençage  


– Centre  Na7onal  de  Séquençage/Génotypage  
– Plateforme  technologique  
– Compagnie  privée  
• En  u7lisant  des  données  publiques  
– SRA  :  NCBI  Sequence  Read  Archive  
– ENA  :  EMBL/EBI  European  Nucleo7de  Archive  

14   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

DONNÉES  BRUTES  :    
LE  FORMAT  FASTQ  

15   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Le  format  FastQ  

• Extension  *.fastq  
• Fichier  texte  :  peut  être  ouvert  avec  un  simple  éditeur  de  texte  (!  taille)  
• Con7ent  des  séquences  nucléo7diques  +  valeurs  de  qualité  (fasta  +  Qualité)  
• Aucune  informa7on  rela7ve  à  un  génome  
Iden7fiant  
Séquence  
Qualité    

16   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Significa7on  de  l’iden7fiant  
• @HWI-­‐ST1136:117:HS055:3:1101:1134:2244  1:N:0:GCCAAT  
– HWI-­‐ST1136  :  Nom  du  séquenceur  
– 117  :  iden7fiant  du  run  
– HS055  :  iden7fiant  de  la  flowcell  
– 3  :  numéro  de  ligne  
– 1101  :  numéro  du  7le  
– 1134  :  coordonnée  X  
– 2244  :  coordonnée  Y  

– 1  :  Numéro  de  la  paire  (1  ou  2)    


– N  :  booléen  indiquant  le  passage  du  filtre  qualité    
• Y  :  La  séquence  est  de  mauvaise  qualité  
• N  :  la  séquence  a  passé  le  filtre  de  qualité  
– 0  :  0  lorsque  aucun  des  bit  contrôles  n'est  ac7vé,  sinon  c'est  un  nombre  
– GCCAAT  :  Index  de  la  librairie  (en  cas  de  mul7plexage)  

17   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Exemple  de  données  pairées  

LCD-­‐01_1_ATCACG_L007_R1_045.fastq.gz   LCD-­‐01_1_ATCACG_L007_R2_045.fastq.gz  

• Conven7on  :  Les  lectures  sens  1  et  sens  2  du  même  cluster  sont  à  la  même  ligne  entre  
les  deux  fichiers  (R1  et  R2)  

18   08/12/2014  
PlateForMe
L’encodage  de  la  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
qualité  

• Score  de  qualité  =  Score  Phred    


• Score  de  qualité  donné  par  le  
séquenceur  
• 1  symbole  ASCII  =  1  valeur  de  qualité  
• ASCII  :  Norme  de  codage  de  
caractère  en  informa7que  
• Score  Phred  (Sanger)  :  ASCII  –  33  
– 0  <=  p  <=  41  

• Score  Phred  =  -­‐10  log10  p  


• p  :  probabilité  d’avoir  une  erreur  de  
séquençage  

19   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Exemple  

– 1er  nucléo7de  :  G  
– Qualité  associée  :  @  
– Par7e  Pra7que  :  Déterminez  la  valeur  de  
qualité  associée    
• Score  Phred  =  64  –  33  =  31  
• -­‐10  log10  p  =  31  
• p  =    10^(-­‐31/10)  =  7,9x10-­‐3  

20   08/12/2014  
PlateForMe Exemple  :  Graphe  de  qualité  moyenne  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

p  =  10-­‐4  

p  =  10-­‐3  

p  =  10-­‐2  

p  =  10-­‐1  

Q30  =  propor7on  de  nucléo7des  ayant  une  qualité  supérieure  à  30  


21   08/12/2014  
A2en7on  à  la  version  de  l’encodage  des  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
qualités  (Illumina)  

22   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

NOS  DONNÉES  TESTS  

23   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Syndrome  Bardet-­‐Biedl    
• Redin  et  al.,  2012  
• Gene7que  
–   Autosomique  recessive  
–   hautement  hétérogène  :    16  gènes  BBS  (274  exons,  ~45kb)  
–   Rare  ~1/100000  -­‐  ~1/150000  
• Phenotype  
Main  Features   Minor  features  

Myopia,  cataract,  as7gma7sm,  


Re7nal  dystrophy  
strabism  
ReDnopathy  
Polydactyly   CogniDve  defects   Postaxial  Polydactyly   Syndactyly,  Brachydactyly  
Intellectual  disability,  
Hearing  defects,  Smell  defects  
Developmental  delay  

Renal  dysfunc7on   Diabetes,  glucidic  intolerance  

Hypogonadism/  
 Cardiopathy,  liver  fibrosis  
Hydrometrocolpos  
Renal  
Obesity   anomalies   Hypogonadism   Hypertension   Ataxias  
Beales  et  al  1999  

24   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Ciliopathies  
•      Toughness  of  differenDal  clinical  diagnosDc:  
very  overlapping/similar  phenotypes    

25   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Diagnos7c  BBS  

• Séquençage  Sanger  exhaus7f  


– Couteux  
– Beaucoup  de  gènes  impliqués  
• Screening  des  muta7on  récurrentes  et  des  gènes  
fréquemment  mutés  (BBS1,  BBS10,  BBS12)  
combinés  à  de  l’alignement  hétérozygote  
• Screening  systéma7que  et  automa7que  de  tous  
les  gènes  BBS  
– Capture  +  NGS  

26   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Design  expérimental  

• Design  de  la  capture  (à  la  carte):  exons  de  30  
genes  (16  gènes  BBS  +  14  gènes  d’autres  
ciliopathies)  
• 52  pa7ents:  
– Cohort  de  preuve  de  principe:  14  pa7ents  dont  les  
muta7on  sont  connues  (iden7fiées  en  Sanger)  
– 1  cohort:  38  pa7ents  avec  muta7on  inconnue  
• Le  pa7ent  provient  d’une  autre  cohorte  
analysée  après  la  valida7on  de  la  preuve  de  
principe  et  après  les  bons  résultats  sur  la  
première  cohorte  

27   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

QUALITÉ  DES  DONNÉES  BRUTES  


 

28   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Prépara7on  
• Créer  un  répertoire  pour  les  analyses  réalisées  
aujourd’hui  
$ mkdir  coursQC_Mapping

• Aller  dans  le  répertoire  préalablement  créé  


$ cd coursQC_Mapping
• Copier  les  données  de  travail  dans  votre  répertoire  
de  travail  
$ cp /user2/c-shd/shared/data/module_2/coursQC_Mapping/
Data/CRN-107_11-R*.fastq.gz.
• Décompresser  les  fichiers  fastq  
$ gunzip CRN-107_11-R1.fastq.gz
$ gunzip CRN-107_11-R2.fastq.gz

29   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Par7e  pra7que  n°1    


– Objec7f  :  Nous  venons  de  recevoir  les  données  du  
séquenceur  et  nous  voulons  savoir  combien  de  lectures  
ont  été  séquencées  
– Fichiers  :  
• CRN-­‐107_11-­‐R1.fastq  
• CRN-­‐107_11-­‐R2.fastq  
– Ou7l  à  u7liser  :  
• Command  bash  :  wc    
– Aide  :    
• Il  faut  compter  le  nombre  de  ligne  
• Combien  de  lignes  y  a-­‐t’il  dans  un  fichier  fastq  par  lecture  
séquencée?  

30   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Solu7on  :  par7e  pra7que  1  


 
$ wc -l CRN-107_11-R1.fastq CRN-107_11-R2.fastq

1122032 CRN-107_11-R1.fastq
1122032 CRN-107_11-R2.fastq

 
– Il  y  a  donc  1122032/4  =  280508  lectures  

31   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Il  existe  plusieurs  ou7ls  développés  pour  la  ges7on  


des  données  brutes  issues  du  séquenceur  :    
– Evaluer  la  qualité  des  données  
– Corriger  les  problèmes  de  qualité  
– Manipuler  les  fichiers  (transforma7on  de  formats).    
• Toujours  penser  à  lire  les  spécifica7ons  pour  être  sûr  
que  l’ou7l  fait  ce  que  vous  souhaitez  (A2en7on  aux  
surprises!)  

32   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus  
Données  brutes  

Evalua7on  de  la  qualité  des  


données  brutes  

Enlèvement  de  bases  

Enlèvement  des  séquences  


d’adaptateurs  

Enlèvement  des  par7es  de  


lectures  de  mauvaise  
qualité  

33   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

34   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus  
Données  brutes  

Evalua7on  de  la  qualité  des  


données  brutes  

Enlèvement  de  bases  

Enlèvement  des  séquences  


d’adaptateurs  

Enlèvement  des  par7es  de  


lectures  de  mauvaise  
qualité  

35   08/12/2014  
PlateForMe Evalua7on  de  la  qualité  des  données  brutes  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Ou7ls  :  FastQC,  SolexaQA,  Fastx-­‐toolkit,  NGS  QC  


toolkit…  
• FastQC  (Babraham  Ins7tute)  
– Import  de  fichiers  BAM,  SAM,  FastQ  (tous  les  encodages  
de  qualité  sont  supportés)  
– Lancement  en  ligne  de  commande  ou  via  une  interface  
– Fournit  un  rapport  sur  la  qualité  des  données    
– Permet  d’évaluer  les  problèmes    
– Rapport  con7ent  des  tableaux  et  des  graphes  
– HTML  
– Fonc7onne  sur  des  fichiers  compressés  
– Es7ma7on  sur  un  échan7llon  du  fichier  d’entrée  pour  
accélérer  le  temps  de  calcul  

36   08/12/2014  
PlateForMe Evalua7on  de  la  qualité  des  données  brutes  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Par7e  pra7que  n°2  


– Objec7f  :  Nous  venons  de  recevoir  les  données  du  
séquenceur  et  nous  voulons  évaluer  la  qualité  des  
données.  
– Fichiers  :  
• CRN-­‐107_11-­‐R1.fastq  
• CRN-­‐107_11-­‐R2.fastq  
– Ou7l  à  u7liser  :  
• FastQC  
– Aide:  
• On  souhaite  voir  la  qualité  pour  toutes  les  bases  
• Me2re  les  résultats  dans  le  répertoire  fastqc  

37   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Solu7on  :  par7e  pra7que  2  


– Créer  le  répertoire  de  sor7e  
$ mkdir Fastqc

– Lancer  la  commande  fastqc  sur  les  deux  fichiers  fastq  


$ fastqc --nogroup CRN-107_11-R1.fastq --outdir Fastqc
$ fastqc --nogroup CRN-107_11-R2.fastq --outdir Fastqc

– Regarder  les  résultats  


$ firefox Fastqc/CRN-107_11-R1_fastqc/fastqc_report.html
$ firefox Fastqc/CRN-107_11-R2_fastqc/fastqc_report.html

 
 
38   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Solu7on  :  par7e  pra7que  2  


– Créer  le  répertoire  de  sor7e  
$ mkdir Fastqc

– Copier  les  données  analysées  


$ cp -r /user2/c-shd/shared/data/module_2/
coursQC_Mapping/Data/Fastqc/* .

39   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

40   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

41   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

42   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

Données  de  bonne  qualité   Données  de  mauvaise  qualité  

43   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

44   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

Données  de  bonne  qualité   Données  de  mauvaise  qualité  

45   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

46   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

Données  de  bonne  qualité   Données  de  mauvaise  qualité  

47   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

48   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

Données  de  bonne  qualité   Données  de  mauvaise  qualité  

49   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

50   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

Données  de  bonne  qualité   Données  de  mauvaise  qualité  

51   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

52   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

Données  de  bonne  qualité   Données  de  mauvaise  qualité  

53   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

54   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

55   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

56   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

Données  
biaisées  

57   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  

58   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

NETTOYAGE  DES  DONNÉES  BRUTES  

59   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus  
Données  brutes  

Evalua7on  de  la  qualité  des  


données  brutes  

Enlèvement  de  bases  

Enlèvement  des  séquences  


d’adaptateurs  

Enlèvement  des  par7es  de  


lectures  de  mauvaise  
qualité  

60   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Enlèvement  de  la  dernière  base  

• La  taille  des  lectures  a2endue  est  2x100  et  


non  pas  2x101  
• Lorsque  l’on  séquence,  nous  séquençons  
toujours  une  base  de  plus  car  les  bases  n+1  
sont  u7lisées  pour  calculer  les  sta7s7ques  des  
bases  à  la  posi7on  n  
• La  dernière  base  doit  être  enlevée  

61   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastX  toolkit  
• Par7e  pra7que  n°3a  
– Objec7f  :  Enlever  la  dernière  base  des  lectures    
– Fichiers  d’entrée:  
• CRN-­‐107_11-­‐R1.fastq  
• CRN-­‐107_11-­‐R2.fastq  
– Fichiers  de  sor7e  
• CRN-­‐107_11-­‐R1_shorter.fastq  
• CRN-­‐107_11-­‐R2_shorter.fastq  
– Ou7l  à  u7liser  :  
• Fastx  toolkit  :  fastx_trimmer  
– Aide:  
• On  souhaite  obtenir  des  lectures  de  taille  100  
• On  souhaite  enlever  la  dernière  base.  

62   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Lancer  fastx  trimmer  


$ fastx_trimmer  -f 1 -l 100 -Q 33 -i CRN-107_11-
R1.fastq -o CRN-107_11-R1_shorter.fastq

$ fastx_trimmer -f 1 -l 100 -Q 33 -i CRN-107_11-


R2.fastq -o CRN-107_11-R2_shorter.fastq

63   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastX  toolkit  
• Par7e  pra7que  n°3b  
– Objec7f  :  Vérifier  que  les  séquences  font  bien  100nt  à  
présent  
– Fichiers  d’entrée:  
• CRN-­‐107_11-­‐R1_shorter.fastq  
• CRN-­‐107_11-­‐R2_shorter.fastq  
– Ou7l  à  u7liser  :  
• Bash  :  head  
• Bash  :  tail  
• Bash  :  wc    
– Aide  
• Il  y  a  un  caractère  caché  qui  est  comptabilisé  
• Le  faire  également  sur  les  fichiers  non  tronqués  

64   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Compter  le  nombre  de  caractères  dans  le  fichier  


tronqué  
$ head -2 CRN-107_11-R1_shorter.fastq | tail -1 | wc –c

• Compter  le  nombre  de  caractère  dans  le  fichier  non  


tronqué  
$ head -2 CRN-107_11-R1.fastq | tail -1 | wc –c

65   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus  
Données  brutes  

Evalua7on  de  la  qualité  des  


données  brutes  

Enlèvement  de  bases  

Enlèvement  des  séquences  


d’adaptateurs  

Enlèvement  des  par7es  de  


lectures  de  mauvaise  
qualité  

66   08/12/2014  
PlateForMe Elimina7on  des  séquences  contaminantes  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Quel  type  de  contamina7on?  


– Adaptateurs  
– Primer  de  séquençage  
– Autres…  
• Pourquoi  ces  contaminants?  
– Les  fragments  d’ADN  séquencés  sont  plus  pe7ts  que  
la  taille  des  lectures  
– Des  dimers  d’adaptateurs  se  sont  formés  lors  de  la  
prépara7on  de  la  librairies.  
• Pourquoi  les  enlever?  
– Ces  séquences  non  génomiques  peuvent  poser  un  
problème  lors  de  l’alignement.  

67   08/12/2014  
PlateForMe Elimina7on  des  séquences  contaminantes  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• A  quoi  dois-­‐je  faire  a2en7on  ?  


– Certains  ou7ls  n’enlèvent  la  séquence  d’adaptateur  que  si  
les  lectures  con7ennent  exactement  la  séquence  
d’adaptateur  (pas  de  ges7on  des  erreurs  de  séquençage).  
– A2en7on  aux  données  pairées!  On  ne  peut  pas  enlever  
une  lecture  d’un  sens  sans  enlever  la  lecture  de  l’autre  
sens.  Il  faut  donc  analyser  les  deux  fichiers  fastq  en  même  
temps.  
– Certains  ou7ls  ne  fonc7onnent  pas  sur  des  données  
pairées    
• Ou7ls:  ClipReads  (GATK),  fastx-­‐toolkit,  homerTools,  
Trimmoma7c  Cutadapt…  
68   08/12/2014  
PlateForMe Elimina7on  des  séquences  contaminantes  
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Par7e  pra7que  n°4  


– Objec7f  :  Nous  voulons  enlever  les  séquences  
d’adaptateurs  se  trouvant  dans  les  lectures  
– Fichiers  d’entrée  :  
• CRN-­‐107_11-­‐R1_shorter.fastq  
• CRN-­‐107_11-­‐R2_shorter.fastq  
• Séquence  d’adaptateur  :  adapterSeq.fa  
– Fichiers  de  sor7e  :    
• CRN-­‐107_11-­‐R1_trimmed.fastq  
• CRN-­‐107_11-­‐R2_trimmed.fastq  
– Ou7l  à  u7liser  :  
• Cutadapt  
– La  séquence  d’adaptateur  est:  AGATCGGAAGAGC  

69   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Comprendre  les  adaptateurs  

h2p://tucf-­‐genomics.tu‚s.edu/documents/protocols/TUCF_Understanding_Illumina_TruSeq_Adapters.pdf  
70   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Lancer  une  première  fois  cutadapt  :    


$ cutadapt -a AGATCGGAAGAGC --minimum-length 30 --
paired-output tmp.2.fastq -o tmp.1.fastq CRN-107_11-
R1_shorter.fastq CRN-107_11-R2_shorter.fastq

• Lancer  une  seconde  fois  cutadapt  :    


$ cutadapt -a AGATCGGAAGAGC --minimum-length 30 --
paired-output CRN-107_11-R1_trimmed.fastq -o
CRN-107_11-R2_trimmed.fastq tmp.2.fastq tmp.1.fastq

• Enlèvement  des  fichiers  temporaires  


$ rm tmp.2.fastq tmp.1.fastq

71   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Cutadapt  :  sens  1  

72   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Cutadapt  :  sens  2  

73   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus  
Données  brutes  

Evalua7on  de  la  qualité  des  


données  brutes  

Enlèvement  de  bases  

Enlèvement  des  séquences  


d’adaptateurs  

Enlèvement  des  par7es  de  


lectures  de  mauvaise  
qualité  

74   08/12/2014  
Elimina7on  des  par7es  de  lectures  de  mauvaise  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
qualité  

• Pourquoi  est  ce  que  la  fin  des  lectures  est  de  moins  
bonne  qualité?  
– Problème  de  chimie  
• Quelle  conséquence?  
– Les  suites  de  nucléo7des  de  mauvaise  qualité  à  la  fin  des  
lectures  peuvent  induire  des  variants  détectés  à  tord  lors  
de  la  détec7on  des  variants.  
• Comment  corriger  le  problème?  
– Enlever  les  nucléo7des  de  mauvaise  qualité  
– A2en7on  aux  données  pairées!    
• Ou7l  :  Fastqx  toolkit,  SolexaQA…  
75   08/12/2014  
Elimina7on  des  par7es  de  lectures  de  mauvaise  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
qualité  

• Par7e  pra7que  n°5  


– Objec7f  :  Eliminer  les  par7es  de  lecture  de  mauvaise  
qualité  sur  les  fichiers  fastq  générés  après  avoir  re7rer  les  
séquences  d’adaptateurs.  
– Fichiers  d’entrée  :  
• CRN-­‐107_11-­‐R1_trimmed.fastq  
• CRN-­‐107_11-­‐R2_trimmed.fastq  
– Ou7l  à  u7liser  :  
• SolexaQA  :  le  script  DynamicTrim.pl    
– Paramètres  :    
• Seuil  de  qualité  :  Score  Phred  >  10  
• A2en7on  à  l’encodage  de  la  qualité  

76   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Créer  un  répertoire  de  sor7e  des  résultats  


$ mkdir SolexaQA
 
• Lancer  l’ou7l  DynamicTrim  
$ DynamicTrim.pl -h 10 -d SolexaQA CRN-107_11-
R1_trimmed.fastq CRN-107_11-R2_trimmed.fastq
 
• Renommer  les  fichiers    
$ mv SolexaQA/CRN-107_11-
R1_trimmed.fastq.trimmed CRN-107_R1.fastq
$ mv SolexaQA/CRN-107_11-
R2_trimmed.fastq.trimmed CRN-107_R2.fastq

77   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
SolexaQA  

78   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Par7e  pra7que  n°6  


– Objec7f  :  Compressez  tous  les  fichiers  générés  
– Fichiers  d’entrée  :  
• CRN-­‐107_11-­‐R1.fastq  CRN-­‐107_11-­‐R2.fastq  
• CRN-­‐107_11-­‐R1_shorter.fastq  CRN-­‐107_11-­‐R2_shorter.fastq  
• CRN-­‐107_11-­‐R1_trimmed.fastq  CRN-­‐107_11-­‐R2_trimmed.fastq  
• CRN-­‐107_R1.fastq  CRN-­‐107_R2.fastq  
– Ou7l  à  u7liser  :  
• gzip  

79   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

$ gzip CRN-107_11-R1.fastq CRN-107_11-R2.fastq

$ gzip CRN-107_11-R1_shorter.fastq CRN-107_11-


R2_shorter.fastq

$ gzip CRN-107_11-R1_trimmed.fastq CRN-107_11-


R2_trimmed.fastq

$ gzip CRN-107_R1.fastq CRN-107_R2.fastq

80   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Par7e  pra7que  n°7  


– Objec7f  :  Me2re  tous  les  fichiers  temporaires  dans  le  
répertoire  intermedFastqFiles  
– Fichiers  d’entrée  :  
• CRN-­‐107_11-­‐R1_shorter.fastq.gz  CRN-­‐107_11-­‐R2_shorter.fastq.gz  
• CRN-­‐107_11-­‐R1_trimmed.fastq.gz  CRN-­‐107_11-­‐
R2_trimmed.fastq.gz  
– Ou7l  à  u7liser  :  
• bash:  mkdir  
• bash  :  mv  

81   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Crea7on  du  répertoire  


$ mkdir intermedFastqFiles

• Déplacement  des  fichiers  compressés  


$ mv CRN-107_11-R1_shorter.fastq.gz CRN-107_11-
R2_shorter.fastq.gz intermedFastqFiles

$ mv CRN-107_11-R1_trimmed.fastq.gz CRN-107_11-
R2_trimmed.fastq.gz intermedFastqFiles

82   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

• Par7e  pra7que  n°8  


– Objec7f  :  Relancer  FastQC  sur  les  fichiers  finaux  (sens  1)  
– Fichiers  d’entrée  :  
• CRN-­‐107_R1.fastq.gz    
– Ou7l  à  u7liser  :  
• bash:  fastqc  
– Me2re  les  résultats  dans  le  répertoire  Fastqc_final  
 

83   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

$ mkdir Fastqc_final

• Lancement  de  FastQC  sur  les  données  fastQ  finales  


$ fastqc --nogroup CRN-107_R1.fastq.gz --outdir
Fastqc_final

• Copier  les  résultats  de  FastQC  


$ cp -r /user2/c-shd/shared/data/module_2/
coursQC_Mapping/Data/Fastqc_final .

84   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  (avant)  

85   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  (après)  

86   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  (avant)  

87   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
FastQC  (après)  

88   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Processus  
Données  brutes  

Evalua7on  de  la  qualité  des  


données  brutes  

Enlèvement  de  bases  

Enlèvement  des  séquences  


d’adaptateurs  

Enlèvement  des  par7es  de  


lectures  de  mauvaise  
qualité  

89   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Références  
• FastQC  (
h2p://www.bioinforma7cs.babraham.ac.uk/
projects/fastqc/)  
•  Murray  P.  Cox,  Daniel  A.  Peterson,  and  Patrick  J.  
Biggs.  SolexaQA:  at-­‐a-­‐glance  quality  assessment  
of  illumina  second-­‐genera7on  sequencing  data.  
BMC  Bioinforma7cs  ,  11(1):485,  September  2010.  
PMID:20875133.  
• Cutadapt  (h2p://code.google.com/p/cutadapt/)  
• Fastx-­‐toolkit  (
h2p://hannonlab.cshl.edu/fastx_toolkit/)  
90   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

Brief  Bioinform  (2013)  doi:  10.1093/bib/


bbs086    

91   08/12/2014  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre
Analyse  primaire  
Ligne 1, tile 1101, cycle 1
•  Chaque  cluster  est  localisé  sur  
la  flowcell  par  ses  coordonnées  
X  et  Y  
(X,Y)  
•  A  chaque  posi7on  où  un  cluster  
est  détecté,  les  intensités  des  4  
A   C   G   T   bases  sont  extraites.  

92   08/12/2014
Analyse  primaire  
PlateForMe
InstItut de GénétIque et de BIoloGIe MoléculaIre et cellulaIre

Ligne 1, tile 1101, cycle 1

A   C   G   T  

168.9            347.7              739.1                24966.8    

• Le  nucleo7de  conservé  sera  un  T  


• Un  score  est  calculée  pour  es7mer  les  chances  de  s’être  trompé  en  appelant  
un  nucléo7de  plutot  qu’un  autre  (0  <=  Score  <=  41)  
• Extrac7on  des  intensités  pour  chaque  image  de  chaque  ligne,  7le  et  chaque  
cycle  (1  cycle  par  base)  

93   08/12/2014  

Vous aimerez peut-être aussi