2022 RNAseq CM SLS

RNA-seq
Solena Le Scouarnec
solena.lescouarnec@univ-nantes.fr
UE Bioinformatique appliquée 1
10 octobre 2022
Transcriptome
Génome Protéome
https://nccr-rna-and-disease.ch/about/
Partie 1 :
La révolution RNA-seq
RNA-Seq
U5lisa5on des technologies de séquençage haut-débit (« NGS ») pour

séquencer les molécules d’ARN d’un échan5llon
https://www.khanacademy.org/science/biology/gene-expression-central-dogma/central-dogma-transcription/a/nucleic-acids
RNA-Seq
Objectif : Déterminer la séquence et l’abondance des ARN
http://girke.bioinformatics.ucr.edu/CSHL_RNAseq/
RNA-Seq
Quantifie le transcriptome à un temps t
Le transcriptome varie en fonction du stade de développement, des conditions

physiologiques, de l’environnement...
Puces vs NGS
Puces vs NGS
+ Sensibilité
+ Nouveaux transcrits
+ Espèces
- Matériel
PMID 19015660
Questions scientifiques
• Effet de différents traitements ?
• Développement embryonnaire ?
• Spécificité des tissus ?
• Fusions de gènes dans les tumeurs ?
• Rôle des ARN non-codants dans les maladies ?
• ...
Annotation des génomes
Single-cell
Structure
mRNA
Interactions
(poly-A)
...
RNA-
seq
Long non-
Small RNA
coding RNA
Méthodes pour le séquençage d’ARN
Transcription ARN
RNA-seq, GRO-seq...
Interactions ARN-Protéine
Ribo-Seq, CLIP-Seq...
Modifications ARN
MeRIP-Seq, PSI-Seq...
Stucture ARN
SHAPE-Seq...
https://www.illumina.com/content/dam/illumina-marketing/documents/products/research_reviews/rna-sequencing-methods-review-web.pdf / PMID: 23439116

Stark R, Grzelak M, Hadfield J.
Nat Rev Genet. 2019 Jul 24. doi: 10.1038/s41576-019-0150-2. [Epub ahead of print] Review.
PMID: 31341269
Transcriptome
1-2 %
majoritaire
50% des transcrits > 2 500 pb

(186 pb DEFB133 chr6 – 109 kb TTN chr2)
5-6 transcrits par gène en moyenne
PMID: 28486418
mRNA-Seq
Cold Spring Harb Protoc; doi:10.1101/pdb.top084970

Partie 2 :
« mRNA »-seq
Workflow
Extrac'on Contrôle Préparation Analyse de

Séquençage
d'ARN qualité (QC) de librairie données
Applications du mRNA-Seq
Découverte de nouveaux transcrits

Profils d’expression des gènes
Découverte de muta'ons (SNVs...)


Profils d’expression des gènes
Découverte de mutations (SNVs...)
Détection d’isoformes (épissage alternatif)
https://slideplayer.com/slide/3419847/

Profils d’expression des gènes
Découverte de mutations (SNVs...)
Fusion de gènes (cancer)

Détection d’isoformes (épissage alternatif)
https://slideplayer.com/slide/3419847/ PMID: 22032724

Réplicats : biologiques vs techniques
hPps://www.ebi.ac.uk/training/online/course/funcQonal-genomics-ii-common-technologies-and-data-analysis-methods/number-replicates
Réplicats biologiques
Design de l’étude
Quelle est la question biologique ?
biologiques INDISPENSABLE !!!

techniques
Nombre de reads
Dündar et al. (2015)

Design de l’étude
Il est indispensable de discuter de la ques'on biologique et du plan expérimental

avec des Bioinforma'ciens/Biosta's'ciens AVANT de commencer l’étude
hPps://slideplayer.com/slide/4835310/
Contrôle qualité des ARN
• Concentration et contamination par les protéines/sels (Nanodrop)
260/280 > 1,8
260/230 > 1,8
• Etat de dégradation (BioAnalyzer)
RIN (RNA Integrity Number) > 8
28S/18S > 1,8
https://www.gene-quantification.de/rna-integrity.html
• Quantité requise : 50 ng – 4 µg (200 ng)
1. Electropherogram of a good quality RNA 2. Electropherogram of a degraded RNA 3. Electropherogram of a RNA sample with
sample sample DNA contamination
Préparation de librairie
• Lors de la préparaYon des librairies, plusieurs traitements sont

recommandés :
- DépléYon en ARN ribosomal (<=> majorité de l’ARN)
- Traitement DNAse
• Le plus souvent, l’ARN est converY en ADNc (simple brin puis

double brin) avant d’être séquencé
• Différents fournisseurs pour les kits

Exemple
SureSelect Strand-Specific RNA Library Prep for Illumina Multiplexed Sequencing
mRNA Library Preparation Protocol (Agilent, p/n G9691A)
Exemple ·1h
• Sélection des ARN poly(A) avec des billes

magnétiques oligo(dT)
Exemple ·3h30
• Fragmentation des ARN poly(A)
• Synthèse cDNA (1st strand)
• Synthèse cDNA (2nd strand)
• Réparation et phosphorylation
• A-tailing P
P
A A
P
Exemple ·3h15
• Liga\on des adaptateurs de séquençage
-P5 and P7 : hybrida\on flowcell

-SP : primers de séquençage
-Index : unique à chaque échan\llon
• PCR : amplifica\on des fragments d’ADN

Exemple
Tape Station : Qualité
• Kit DNA1000
• Expected peak between 200 to 600 bp (maj. ≈ 260 bp)
qPCR : Quantification
Validation de la librairie (> 4 nM)

Exemple
• Standardisation des librairies à 10 nM
Multiplexage : 4 échantillons par lane

One lane (4 samples-lib) · 5h00
Reagents
• Génération des clusters (+/- cBOT) Samples (Libraries)
FlowCell
cBOT
• Séquençage · 10jrs
Paired-end, 2x100 pb
HiSeq2500
32
Analyse RNA-Seq
hPps://www.ebi.ac.uk/training/online/course/funcQonal-
genomics-ii-common-technologies-and-data-analysis-
methods/performing-rna-seq
Analyse RNA-Seq (plateforme GenoBiRD)
R1
Fastq
R1 • FastQC : qualité des fastq et du séquençage
Quality Check Data cleaning
(FastQC) (cutadapt, prinseq) • Prinseq : élimine les reads de mauvaise qualité (seuil
R1 bad 30)
R1
Fastq
R2 good
• Cutadapt : coupe les fragments d'adaptateurs
illumina séquencés
Mapping .bam
(STAR) • STAR : aligne les reads sur le génome de référence
• HTSeq-count : décompte des reads par gène
Abundance estimation
• DESeq2 : normalisation et calcul de l'expression
(HTSeq) différentielle des gènes
List of differentially
Differential Gene Expression expressed genes
(DESeq2) (DEG)
https://www.youtube.com/watch?v=tlf6wYJrwKY
Ancienne méthode : (F/R)PKM
Fragments/Reads Per Kilobase of transcript per Million mapped reads
hPps://home.cc.umanitoba.ca/~frist/PLNT3140/l17/l17.4.html
Autre méthode : TPM
Transcripts per Million
TPM : on commence par une normalisation par la longueur du transcrit/gène

=> Comparaison sample par sample possible
https://home.cc.umanitoba.ca/~frist/PLNT3140/l17/l17.4.html
TPM vs RPKM
RPKM
TPM
h+ps://rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/
Volcano Plot
Un volcano plot est un type de

diagramme qui montre la signification
statistique (p-valeur) par rapport à
l'ampleur du changement (fold
change).
Il permet d'identifier rapidement et

visuellement les gènes dont les
changements sont importants et
statistiquement significatifs.
→ enrichissement fonctionnel
Biais possibles
• Design de l’étude
Nombre de réplicats
Nombre et longueur des reads (gènes faiblement exprimés)
• Préparation des librairies

- synthèse de l’ADNc avec des randoms primers (uniformité)
- amplification par PCR
- sélection poly-A : pas de vision complète du transcriptome
• Différents outils d’analyse

...
ParYe 3 :
ApplicaYons
Exemple 1 : GTEx project
Septembre 2020
2017
PMID 29022597
GTEx
Genotype-Tissue Expression
Objectif : caractériser les variations des niveaux

d’expression des gènes
Ø inter-individus et inter-tissus humains
Ø 49 tissus humains (v8)
Ø RNA-seq et génotypage
GTEx consortium, Nature volume 550, (12 October 2017)

GTEx
• Transcriptome : niveaux d’expression des gènes dans différents tissus
Transcripts per Million (TPM)
SCN5A
nt : nombre de read pour le

transcrit/gène t
lt : longueur normalisée du
transcrit/gène t
T : set de tous les
transcrits/gènes
eQTL
Expression Quan'ta've Trait Loci
PMID 24798236
GTEx
• Transcriptome : niveaux d’expression des gènes dans différents tissus
• Identification d’eQTL humains

Exemple 2
RNA-Seq et diagnosYc
PMID 28424332
RNA-Seq et diagnostic
PMID 28424332
PMID 28424332
dystrophine
PMID 28424332
Exemple 3
PMID 29093270
ParYe 4 :
AlternaYves au mRNA-seq
Coûts
mRNA-seq : ~500 euros par échantillon
UMI (Unique Molecular Identifier) ou « 3’SRP » : ~50 euros par échantillon

Préparation de librairie UMI
R1 R2
Adapter P5 UMI 3’ Gene seq Adapter P7

Sample
10 bases 57 bases
Index
6 bases
Unique Molecular Iden3fier
RNA-seq UMI
Le comptage des reads Le comptage des reads =

dépend de la quantité de nombre de molécules d’ARNm
reads total (taille de la présentes dans l’échantillon
librairie) et de la taille du gène (UMI)
=> Abondance relative => Abondance réelle

Analyse UMI
R1
Fastq
R1 By
Demultiplexing R1 sample
R1
Fastq
R1
R1
Fastq
R2
(output HiSeq) Mapping .bam

(bwa)
Expression
UMI counts
Matrix
List of differentially
Differential Gene Expression expressed genes
(DESeq2) (DEG)
Liens
https://www.rna-seqblog.com/tag/kegg/
https://rnaseq.uoregon.edu/
hpps://www.illumina.com/science/sequencing-method-explorer.html

2022 RNAseq CM SLS

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2022 RNAseq CM SLS

Transféré par

Droits d'auteur :

Formats disponibles

RNA-seq

U5lisa5on des technologies de séquençage haut-débit (« NGS ») pour

Objectif : Déterminer la séquence et l’abondance des ARN

Quantifie le transcriptome à un temps t

Le transcriptome varie en fonction du stade de développement, des conditions

• Effet de différents traitements ?

• Spécificité des tissus ?

• Fusions de gènes dans les tumeurs ?

• Rôle des ARN non-codants dans les maladies ?

https://www.illumina.com/content/dam/illumina-marketing/documents/products/research_reviews/rna-sequencing-methods-review-web.pdf / PMID: 23439116

50% des transcrits > 2 500 pb

5-6 transcrits par gène en moyenne

Cold Spring Harb Protoc; doi:10.1101/pdb.top084970

Extrac'on Contrôle Préparation Analyse de

Découverte de nouveaux transcrits

Découverte de muta'ons (SNVs...)

Découverte de nouveaux transcrits

Découverte de mutations (SNVs...)

Détection d’isoformes (épissage alternatif)

Découverte de nouveaux transcrits

Découverte de mutations (SNVs...)

Fusion de gènes (cancer)

https://slideplayer.com/slide/3419847/ PMID: 22032724

biologiques INDISPENSABLE !!!

Dündar et al. (2015)

Il est indispensable de discuter de la ques'on biologique et du plan expérimental

• Lors de la préparaYon des librairies, plusieurs traitements sont

• Le plus souvent, l’ARN est converY en ADNc (simple brin puis

• Diﬀérents fournisseurs pour les kits

• Sélection des ARN poly(A) avec des billes

• Fragmentation des ARN poly(A)

• Synthèse cDNA (1st strand)

• Synthèse cDNA (2nd strand)

-P5 and P7 : hybrida\on ﬂowcell

• PCR : ampliﬁca\on des fragments d’ADN

Tape Station : Qualité

• Expected peak between 200 to 600 bp (maj. ≈ 260 bp)

Validation de la librairie (> 4 nM)

• Standardisation des librairies à 10 nM

Multiplexage : 4 échantillons par lane

• Génération des clusters (+/- cBOT) Samples (Libraries)

• HTSeq-count : décompte des reads par gène

TPM : on commence par une normalisation par la longueur du transcrit/gène

Un volcano plot est un type de

Il permet d'identifier rapidement et

• Préparation des librairies

• Différents outils d’analyse

Objectif : caractériser les variations des niveaux

Ø inter-individus et inter-tissus humains

Ø 49 tissus humains (v8)

GTEx consortium, Nature volume 550, (12 October 2017)

• Transcriptome : niveaux d’expression des gènes dans différents tissus

Transcripts per Million (TPM)

nt : nombre de read pour le

• Transcriptome : niveaux d’expression des gènes dans différents tissus

• Identification d’eQTL humains

mRNA-seq : ~500 euros par échantillon

UMI (Unique Molecular Identifier) ou « 3’SRP » : ~50 euros par échantillon

Adapter P5 UMI 3’ Gene seq Adapter P7

Le comptage des reads Le comptage des reads =

=> Abondance relative => Abondance réelle

(output HiSeq) Mapping .bam

Vous aimerez peut-être aussi