Vous êtes sur la page 1sur 58

RNA-seq

Solena Le Scouarnec
solena.lescouarnec@univ-nantes.fr
UE Bioinformatique appliquée 1

10 octobre 2022
Transcriptome
Génome Protéome

https://nccr-rna-and-disease.ch/about/
Partie 1 :
La révolution RNA-seq
RNA-Seq

U5lisa5on des technologies de séquençage haut-débit (« NGS ») pour


séquencer les molécules d’ARN d’un échan5llon

https://www.khanacademy.org/science/biology/gene-expression-central-dogma/central-dogma-transcription/a/nucleic-acids
RNA-Seq

Objectif : Déterminer la séquence et l’abondance des ARN

http://girke.bioinformatics.ucr.edu/CSHL_RNAseq/
RNA-Seq

Quantifie le transcriptome à un temps t

Le transcriptome varie en fonction du stade de développement, des conditions


physiologiques, de l’environnement...
Puces vs NGS
Puces vs NGS

+ Sensibilité

+ Nouveaux transcrits

+ Espèces

- Matériel

PMID 19015660
Questions scientifiques

• Effet de différents traitements ?

• Développement embryonnaire ?

• Spécificité des tissus ?

• Fusions de gènes dans les tumeurs ?

• Rôle des ARN non-codants dans les maladies ?

• ...
Annotation des génomes
Single-cell

Structure
mRNA
Interactions
(poly-A)
...
RNA-
seq

Long non-
Small RNA
coding RNA
Méthodes pour le séquençage d’ARN

Transcription ARN
RNA-seq, GRO-seq...

Interactions ARN-Protéine
Ribo-Seq, CLIP-Seq...

Modifications ARN
MeRIP-Seq, PSI-Seq...

Stucture ARN
SHAPE-Seq...

https://www.illumina.com/content/dam/illumina-marketing/documents/products/research_reviews/rna-sequencing-methods-review-web.pdf / PMID: 23439116


Stark R, Grzelak M, Hadfield J.
Nat Rev Genet. 2019 Jul 24. doi: 10.1038/s41576-019-0150-2. [Epub ahead of print] Review.
PMID: 31341269
Transcriptome

1-2 %

majoritaire

50% des transcrits > 2 500 pb


(186 pb DEFB133 chr6 – 109 kb TTN chr2)

5-6 transcrits par gène en moyenne

PMID: 28486418
mRNA-Seq

Cold Spring Harb Protoc; doi:10.1101/pdb.top084970


Partie 2 :
« mRNA »-seq
Workflow

Extrac'on Contrôle Préparation Analyse de


Séquençage
d'ARN qualité (QC) de librairie données
Applications du mRNA-Seq

Découverte de nouveaux transcrits


Profils d’expression des gènes

Découverte de muta'ons (SNVs...)


Applications du mRNA-Seq

Découverte de nouveaux transcrits


Profils d’expression des gènes

Découverte de mutations (SNVs...)

Détection d’isoformes (épissage alternatif)

https://slideplayer.com/slide/3419847/
Applications du mRNA-Seq

Découverte de nouveaux transcrits


Profils d’expression des gènes

Découverte de mutations (SNVs...)

Fusion de gènes (cancer)


Détection d’isoformes (épissage alternatif)

https://slideplayer.com/slide/3419847/ PMID: 22032724


Réplicats : biologiques vs techniques

hPps://www.ebi.ac.uk/training/online/course/funcQonal-genomics-ii-common-technologies-and-data-analysis-methods/number-replicates
Réplicats biologiques
Design de l’étude
Quelle est la question biologique ?

biologiques INDISPENSABLE !!!


techniques

Nombre de reads

Dündar et al. (2015)


Design de l’étude

Il est indispensable de discuter de la ques'on biologique et du plan expérimental


avec des Bioinforma'ciens/Biosta's'ciens AVANT de commencer l’étude

hPps://slideplayer.com/slide/4835310/
Contrôle qualité des ARN
• Concentration et contamination par les protéines/sels (Nanodrop)
260/280 > 1,8
260/230 > 1,8
• Etat de dégradation (BioAnalyzer)
RIN (RNA Integrity Number) > 8
28S/18S > 1,8
https://www.gene-quantification.de/rna-integrity.html
• Quantité requise : 50 ng – 4 µg (200 ng)

1. Electropherogram of a good quality RNA 2. Electropherogram of a degraded RNA 3. Electropherogram of a RNA sample with
sample sample DNA contamination
Préparation de librairie

• Lors de la préparaYon des librairies, plusieurs traitements sont


recommandés :
- DépléYon en ARN ribosomal (<=> majorité de l’ARN)
- Traitement DNAse

• Le plus souvent, l’ARN est converY en ADNc (simple brin puis


double brin) avant d’être séquencé

• Différents fournisseurs pour les kits


Exemple
SureSelect Strand-Specific RNA Library Prep for Illumina Multiplexed Sequencing
mRNA Library Preparation Protocol (Agilent, p/n G9691A)
Exemple ·1h

• Sélection des ARN poly(A) avec des billes


magnétiques oligo(dT)
Exemple ·3h30

• Fragmentation des ARN poly(A)

• Synthèse cDNA (1st strand)

• Synthèse cDNA (2nd strand)

• Réparation et phosphorylation

• A-tailing P
P
A A
P
Exemple ·3h15
• Liga\on des adaptateurs de séquençage

-P5 and P7 : hybrida\on flowcell


-SP : primers de séquençage
-Index : unique à chaque échan\llon

• PCR : amplifica\on des fragments d’ADN


Exemple

Tape Station : Qualité

• Kit DNA1000

• Expected peak between 200 to 600 bp (maj. ≈ 260 bp)

qPCR : Quantification

Validation de la librairie (> 4 nM)


Exemple

• Standardisation des librairies à 10 nM

Multiplexage : 4 échantillons par lane


One lane (4 samples-lib) · 5h00

Reagents

• Génération des clusters (+/- cBOT) Samples (Libraries)

FlowCell
cBOT

• Séquençage · 10jrs

Paired-end, 2x100 pb

HiSeq2500
32
Analyse RNA-Seq

hPps://www.ebi.ac.uk/training/online/course/funcQonal-
genomics-ii-common-technologies-and-data-analysis-
methods/performing-rna-seq
Analyse RNA-Seq (plateforme GenoBiRD)

R1
Fastq
R1 • FastQC : qualité des fastq et du séquençage
Quality Check Data cleaning
(FastQC) (cutadapt, prinseq) • Prinseq : élimine les reads de mauvaise qualité (seuil
R1 bad 30)
R1
Fastq
R2 good
• Cutadapt : coupe les fragments d'adaptateurs
illumina séquencés
Mapping .bam
(STAR) • STAR : aligne les reads sur le génome de référence

• HTSeq-count : décompte des reads par gène

Abundance estimation
• DESeq2 : normalisation et calcul de l'expression
(HTSeq) différentielle des gènes

List of differentially
Differential Gene Expression expressed genes
(DESeq2) (DEG)
https://www.youtube.com/watch?v=tlf6wYJrwKY
Ancienne méthode : (F/R)PKM
Fragments/Reads Per Kilobase of transcript per Million mapped reads

hPps://home.cc.umanitoba.ca/~frist/PLNT3140/l17/l17.4.html
Autre méthode : TPM
Transcripts per Million

TPM : on commence par une normalisation par la longueur du transcrit/gène


=> Comparaison sample par sample possible

https://home.cc.umanitoba.ca/~frist/PLNT3140/l17/l17.4.html
TPM vs RPKM

RPKM

TPM

h+ps://rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/
Volcano Plot

Un volcano plot est un type de


diagramme qui montre la signification
statistique (p-valeur) par rapport à
l'ampleur du changement (fold
change).

Il permet d'identifier rapidement et


visuellement les gènes dont les
changements sont importants et
statistiquement significatifs.

→ enrichissement fonctionnel
Biais possibles

• Design de l’étude
Nombre de réplicats
Nombre et longueur des reads (gènes faiblement exprimés)

• Préparation des librairies


- synthèse de l’ADNc avec des randoms primers (uniformité)
- amplification par PCR
- sélection poly-A : pas de vision complète du transcriptome

• Différents outils d’analyse


...
ParYe 3 :
ApplicaYons
Exemple 1 : GTEx project
Septembre 2020

2017

PMID 29022597
GTEx
Genotype-Tissue Expression

Objectif : caractériser les variations des niveaux


d’expression des gènes

Ø inter-individus et inter-tissus humains

Ø 49 tissus humains (v8)

Ø RNA-seq et génotypage

GTEx consortium, Nature volume 550, (12 October 2017)


GTEx
Genotype-Tissue Expression

• Transcriptome : niveaux d’expression des gènes dans différents tissus

Transcripts per Million (TPM)

SCN5A

nt : nombre de read pour le


transcrit/gène t
lt : longueur normalisée du
transcrit/gène t
T : set de tous les
transcrits/gènes
eQTL
Expression Quan'ta've Trait Loci

PMID 24798236
GTEx
Genotype-Tissue Expression

• Transcriptome : niveaux d’expression des gènes dans différents tissus

• Identification d’eQTL humains


Exemple 2
RNA-Seq et diagnosYc

PMID 28424332
RNA-Seq et diagnostic

PMID 28424332
RNA-Seq et diagnostic

PMID 28424332
RNA-Seq et diagnostic

dystrophine
PMID 28424332
Exemple 3

PMID 29093270
ParYe 4 :
AlternaYves au mRNA-seq
Coûts

mRNA-seq : ~500 euros par échantillon

UMI (Unique Molecular Identifier) ou « 3’SRP » : ~50 euros par échantillon


Préparation de librairie UMI

R1 R2

Adapter P5 UMI 3’ Gene seq Adapter P7


Sample
10 bases 57 bases
Index
6 bases
Unique Molecular Iden3fier

RNA-seq UMI

Le comptage des reads Le comptage des reads =


dépend de la quantité de nombre de molécules d’ARNm
reads total (taille de la présentes dans l’échantillon
librairie) et de la taille du gène (UMI)

=> Abondance relative => Abondance réelle


Analyse UMI

R1
Fastq
R1 By
Demultiplexing R1 sample
R1
Fastq
R1
R1
Fastq
R2

(output HiSeq) Mapping .bam


(bwa)

Expression
UMI counts
Matrix

List of differentially
Differential Gene Expression expressed genes
(DESeq2) (DEG)
Liens
https://www.rna-seqblog.com/tag/kegg/

https://rnaseq.uoregon.edu/

hpps://www.illumina.com/science/sequencing-method-explorer.html

Vous aimerez peut-être aussi