Vous êtes sur la page 1sur 31

FastQC

FastQC a pour but de fournir un moyen simple d'effectuer des contrôles


de qualité sur des données brutes de séquences provenant de pipelines de
séquençage à haut débit. Il fournit un ensemble modulaire d'analyses que vous
pouvez utiliser pour donner une impression rapide de vos données et déterminer
si elles présentent des problèmes dont vous devez être conscient avant
d'effectuer toute autre analyse.

Les principales fonctions de FastQC sont

 Importation de données à partir de fichiers BAM, SAM ou FastQ (toute


variante)
 Fournir une vue d'ensemble rapide pour vous indiquer dans quels
domaines il peut y avoir des problèmes
 Graphiques et tableaux de synthèse pour évaluer rapidement vos
données
 Exportation des résultats vers un rapport permanent au format
HTML
 Fonctionnement hors ligne pour permettre la génération
automatisée de rapports sans exécuter l'application interactive

Qu'est-ce que FastQC

Les séquenceurs modernes à haut débit peuvent générer des centaines de


millions de séquences en un seul passage. Avant d'analyser cette séquence pour
en tirer des conclusions biologiques, vous devez toujours effectuer quelques
contrôles de qualité simples pour vous assurer que les données brutes sont
bonnes et qu'il n'y a pas de problèmes ou de biais dans vos données qui
pourraient affecter la façon dont vous pouvez les utiliser.

La plupart des séquenceurs génèrent un rapport de contrôle de la qualité


dans le cadre de leur pipeline d'analyse, mais celui-ci est généralement axé sur
l'identification des problèmes générés par le séquenceur lui-même. FastQC a
pour but de fournir un rapport de contrôle de qualité qui permet de repérer les
problèmes qui proviennent soit du séquenceur, soit de la bibliothèque de départ.

FastQC peut être exécuté dans l'un des deux modes suivants. Il peut être
exécuté en tant qu'application interactive autonome pour l'analyse immédiate
d'un petit nombre de fichiers FastQ, ou en mode non interactif pour être intégré
dans un pipeline d'analyse plus important pour le traitement systématique d'un
grand nombre de fichiers.
Ouverture d'un fichier Séquence

Pour ouvrir un ou plusieurs fichiers Séquence de manière interactive, il


suffit de lancer le programme et de sélectionner Fichier > Ouvrir. Vous pouvez
ensuite sélectionner les fichiers que vous souhaitez analyser.

Les fichiers nouvellement ouverts apparaissent immédiatement dans la


série d'onglets en haut de l'écran. En raison de la taille de ces fichiers, cela peut
prendre quelques minutes pour les ouvrir. FastQC utilise un système de file
d'attente où un seul fichier est ouvert à la fois, et les nouveaux fichiers
attendront jusqu'à ce que les fichiers existants aient été traités.

FastQC supporte les fichiers dans les formats suivants


FastQ (toutes les variantes d'encodage de qualité)
Fichiers Casava FastQ
Colorspace FastQ
GZip compressé FastQ
SAM
BAM
SAM/BAM mappé uniquement (normalement utilisé pour les données
d'espace colorimétrique)
* Le format Casava fastq est le même que le format fastq normal, sauf que
les données sont généralement réparties sur plusieurs fichiers pour un seul
échantillon. Dans ce mode, le programme fusionnera les fichiers dans un groupe
d'échantillons et présentera un seul rapport pour chaque échantillon. Les fichiers
fastq Casava contiennent également des séquences de mauvaise qualité qui ont
été marquées pour être supprimées. Dans le mode Casava, le programme exclura
ces séquences marquées du rapport.

Par défaut, FastQC essaiera de deviner le format du fichier à partir du


nom du fichier d'entrée. Tout ce qui se termine par .sam ou .bam sera ouvert
comme un fichier SAM/BAM (en utilisant toutes les séquences, mappées et non
mappées), et tout le reste sera traité comme un format FastQ.
Si vous voulez passer outre cette détection et spécifier le format de fichier
manuellement, vous pouvez utiliser le filtre de fichier déroulant dans le sélecteur
de fichier pour sélectionner le type de fichier que vous allez charger. Vous devez
utiliser le sélecteur déroulant pour que le programme utilise les modes de
fichiers Mapped BAM ou Casava, car ceux-ci ne seront pas sélectionnés
automatiquement.
Evaluation des résultats

L'analyse dans FastQC est effectuée par une série de modules d'analyse.
La partie gauche de l'écran interactif principal ou le haut du rapport HTML
affiche un résumé des modules qui ont été exécutés, et une évaluation rapide
indiquant si les résultats du module semblent tout à fait normaux (coche verte),
légèrement anormaux (triangle orange) ou très inhabituels (croix rouge).

Il est important de souligner que, bien que les résultats de l'analyse


semblent donner un résultat de type réussite/échec, ces évaluations doivent être
prises dans le contexte de ce que vous attendez de votre bibliothèque. Un
échantillon "normal", en ce qui concerne FastQC, est aléatoire et diversifié.
Certaines expériences peuvent produire des bibliothèques qui sont biaisées de
manière particulière. Vous devez donc considérer les évaluations sommaires
comme des indications sur les points sur lesquels vous devez concentrer votre
attention et comprendre pourquoi votre bibliothèque ne semble pas aléatoire et
diverse.

Vous trouverez des conseils spécifiques sur la façon d'interpréter les


résultats de chaque module dans la section des modules de l'aide.

Sauvegarder un rapport

En plus de fournir un rapport interactif, FastQC a également la possibilité


de créer une version HTML de ce rapport pour un enregistrement plus
permanent. Ce rapport HTML peut également être généré directement en
exécutant FastQC en mode non-interactif.

Pour créer un rapport, sélectionnez simplement Fichier > Enregistrer le


rapport dans le menu principal. Par défaut, un rapport sera créé en utilisant le
nom du fichier fastq avec _fastqc.html ajouté à la fin. Le rapport sera créé pour
l'onglet du fichier qui était actif lorsque l'option de menu a été sélectionnée.

Le fichier HTML qui est sauvegardé est un document autonome avec tous
les graphiques incorporés, vous pouvez donc distribuer ce fichier unique. Le
fichier HTML est accompagné d'un fichier zip (avec le même nom que le fichier
HTML, mais avec .zip ajouté à la fin). Ce fichier contient les graphiques du
rapport sous forme de fichiers séparés, mais aussi des fichiers de données
conçus pour être facilement analysés afin de permettre une évaluation plus
détaillée et automatisée des données brutes sur lesquelles le rapport CQ est
construit.
1-Statistiques de base (Basic Statistics)

Résumé

Le module Statistiques de base génère quelques statistiques de


composition simples pour le fichier analysé.

Nom de fichier : Le nom de fichier original du fichier qui a été analysé.


Type de fichier : Indique si le fichier semble contenir des appels de base
réels ou des données d'espace couleur qui ont dû être converties en appels de
base.
Encodage : Indique quel encodage ASCII des valeurs de qualité a été
trouvé dans ce fichier.
Séquences totales : Un compte du nombre total de séquences traitées.
Deux valeurs sont indiquées, réelle et estimée. Pour l'instant, elles sont toujours
les mêmes. À l'avenir, il sera peut-être possible d'analyser un sous-ensemble de
séquences et d'estimer le nombre total, afin d'accélérer l'analyse, mais comme
nous avons constaté que les séquences problématiques ne sont pas réparties
uniformément dans un fichier, nous avons désactivé cette fonction pour le
moment.
Séquences filtrées : Si vous utilisez le mode Casava, les séquences
marquées comme étant filtrées seront retirées de toutes les analyses. Le nombre
de ces séquences retirées sera indiqué ici. Le nombre total de séquences ci-
dessus ne comprendra pas ces séquences filtrées et correspondra au nombre de
séquences effectivement utilisées pour le reste de l'analyse.
Longueur de la séquence : Fournit la longueur de la séquence la plus
courte et la plus longue de l'ensemble. Si toutes les séquences ont la même
longueur, une seule valeur est indiquée.
%GC : Le %GC global de toutes les bases dans toutes les séquences.

Avertissement

Basic Statistics ne déclenche jamais d'avertissement.

Échec

Les statistiques de base ne génèrent jamais d'erreur.

Raisons courantes des avertissements


Ce module ne génère jamais d'avertissement ou d'erreur
2-Qualité des séquences par base (Per Base Sequence Quality)

Résumé

Cette vue montre une vue d'ensemble de la gamme des valeurs de qualité
à travers toutes les bases à chaque position dans le fichier FastQ.

Pour chaque position, un graphique de type BoxWhisker est dessiné. Les


éléments du graphique sont les suivants :

La ligne rouge centrale est la valeur médiane


La boîte jaune représente l'écart inter-quartile (25-75%)
Les moustaches supérieure et inférieure représentent les points de 10% et 90%.
La ligne bleue représente la qualité moyenne
L'axe des y du graphique indique les scores de qualité. Plus le score est élevé,
meilleur est l'appel de base. L'arrière-plan du graphique divise l'axe des y en
appels de très bonne qualité (vert), appels de qualité raisonnable (orange) et
appels de mauvaise qualité (rouge). La qualité des appels sur la plupart des
plates-formes se dégrade au fur et à mesure de la lecture, il est donc fréquent de
voir les appels de base tomber dans la zone orange vers la fin d'une lecture.

Il convient de mentionner qu'il existe plusieurs façons d'encoder un score


de qualité dans un fichier FastQ. FastQC tente de déterminer automatiquement
quelle méthode d'encodage a été utilisée, mais dans certains jeux de données très
limités, il est possible qu'il le devine de manière incorrecte (ironiquement,
seulement lorsque vos données sont universellement très bonnes !) Le titre du
graphique décrira l'encodage que FastQC pense que votre fichier a utilisé.

Les résultats de ce module ne seront pas affichés si votre entrée est un


fichier BAM/SAM dans lequel les scores de qualité n'ont pas été enregistrés.

Avertissement

Un avertissement sera émis si le quartile inférieur d'une base est inférieur


à 10, ou si la médiane d'une base est inférieure à 25.

Échec

Ce module génère un échec si le quartile inférieur d'une base est inférieur


à 5 ou si la médiane d'une base est inférieure à 20.

Raisons courantes des avertissements

La raison la plus courante des avertissements et des échecs dans ce


module est une dégradation générale de la qualité sur la durée des longues
séries. En général, la chimie du séquençage se dégrade avec l'augmentation de la
longueur de lecture et pour les longues séries, vous pouvez constater que la
qualité générale de la série tombe à un niveau où un avertissement ou une erreur
est déclenché.

Si la qualité de la bibliothèque tombe à un niveau bas, le remède le plus


courant est d'effectuer un détourage de qualité où les lectures sont tronquées en
fonction de leur qualité moyenne. Pour la plupart des bibliothèques où ce type
de dégradation s'est produit, vous serez souvent confronté simultanément au
problème de la lecture de l'adaptateur, de sorte qu'une étape combinée
d'adaptateur et d'ajustement de la qualité est souvent employée.

Une autre possibilité est qu'un avertissement/une erreur soit déclenché(e)


en raison d'une courte perte de qualité au début de l'analyse, qui se rétablit
ensuite pour produire une séquence de bonne qualité. Cela peut se produire s'il y
a un problème transitoire dans la séquence (des bulles traversant une cellule
d'écoulement par exemple). Vous pouvez normalement voir ce type d'erreur en
regardant le graphique de qualité par carreau (si disponible pour votre
plateforme). Dans ces cas, l'élagage n'est pas conseillé car il supprimera
ultérieurement une bonne séquence, mais vous pouvez envisager de masquer des
bases lors de la cartographie ou de l'assemblage ultérieurs.

Si votre bibliothèque comporte des lectures de longueur variable, il se


peut qu'un avertissement ou une erreur soit déclenché par ce module en raison
d'une couverture très faible pour une plage de bases donnée. Avant de vous
engager dans une action, vérifiez combien de séquences ont été responsables du
déclenchement d'une erreur en examinant les résultats du module de distribution
de la longueur des séquences.

3-Scores de qualité par séquence (Per Sequence Quality Scores)

Résumé

Le rapport sur le score de qualité par séquence vous permet de voir si un


sous-ensemble de vos séquences a des valeurs de qualité universellement
faibles. Il est fréquent qu'un sous-ensemble de séquences ait une qualité
universellement faible, souvent parce qu'elles sont mal représentées (en bordure
du champ de vision, etc.), mais elles ne devraient représenter qu'un faible
pourcentage du total des séquences.

Si une proportion importante des séquences d'une série a une qualité


globalement faible, cela peut indiquer un problème systématique,
éventuellement sur une partie seulement de la série (par exemple une extrémité
d'une cellule).
Les résultats de ce module ne seront pas affichés si votre entrée est un
fichier BAM/SAM dans lequel les scores de qualité n'ont pas été enregistrés.

Avertissement

Un avertissement est émis si la qualité moyenne la plus fréquemment


observée est inférieure à 27 - ce qui équivaut à un taux d'erreur de 0,2%.

Échec

Une erreur est signalée si la qualité moyenne la plus fréquemment


observée est inférieure à 20, ce qui équivaut à un taux d'erreur de 1 %.
Raisons courantes des avertissements

Ce module est généralement assez robuste et les erreurs indiquent


généralement une perte de qualité générale dans une série. Pour les longues
séries, cela peut être atténué par l'ajustement de la qualité. Si une distribution
bimodale ou complexe est observée, les résultats doivent être évalués de concert
avec les qualités partile (si disponibles), car cela peut indiquer la raison de la
perte de qualité d'un sous-ensemble de séquences.

4-Contenu des séquences par base (Per Base Sequence Content)

Résumé

Per Base Sequence Content trace la proportion de chaque position de base


dans un fichier pour laquelle chacune des quatre bases normales de l'ADN a été
appelée.
Dans une bibliothèque aléatoire, on peut s'attendre à ce qu'il y ait peu ou
pas de différence entre les différentes bases d'une séquence, de sorte que les
lignes de ce graphique devraient être parallèles les unes aux autres. La quantité
relative de chaque base devrait refléter la quantité globale de ces bases dans
votre génome, mais dans tous les cas, elles ne devraient pas être très
déséquilibrées les unes par rapport aux autres.

Il convient de noter que certains types de bibliothèques produiront


toujours une composition de séquence biaisée, normalement au début de la
lecture. Les bibliothèques produites par amorçage à l'aide d'hexamères aléatoires
(y compris presque toutes les bibliothèques d'ARN-Seq) et celles qui ont été
fragmentées à l'aide de transposases héritent d'un biais intrinsèque dans les
positions de départ des lectures. Ce biais ne concerne pas une séquence absolue,
mais fournit plutôt un enrichissement d'un certain nombre de différents K-mers à
l'extrémité 5' des lectures. Bien qu'il s'agisse d'un véritable biais technique, il ne
peut pas être corrigé par l'ajustement et, dans la plupart des cas, il ne semble pas
avoir d'incidence négative sur l'analyse en aval. Il produira cependant un
avertissement ou une erreur dans ce module.
Avertissement

Ce module émet un avertissement si la différence entre A et T, ou G et C,


est supérieure à 10 % dans n'importe quelle position.

Échec

Ce module échoue si la différence entre A et T, ou G et C, est supérieure à


20 % dans n'importe quelle position.

Raisons courantes des avertissements

Il existe un certain nombre de scénarios courants qui peuvent donner lieu


à un avertissement ou à une erreur dans ce module.

Séquences surreprésentées : S'il existe des preuves de séquences


surreprésentées telles que les dimères adaptateurs ou l'ARNr dans un
échantillon, ces séquences peuvent biaiser la composition globale et leur
séquence apparaîtra dans ce graphique.

Fragmentation biaisée : Toute bibliothèque générée à partir de la ligature


d'hexamères aléatoires ou par marquage devrait théoriquement présenter une
bonne diversité dans la séquence, mais l'expérience a montré que ces
bibliothèques présentent toujours un biais de sélection dans les 12 premiers pb
de chaque série. Cela est dû à une sélection biaisée d'amorces aléatoires, mais ne
représente aucune séquence biaisée individuellement. Presque toutes les
bibliothèques d'ARN-Seq échoueront à ce module en raison de ce biais, mais ce
n'est pas un problème qui peut être résolu par le traitement et il ne semble pas
affecter négativement la capacité à mesurer l'expression.
Bibliothèques à composition biaisée : Certaines bibliothèques sont
intrinsèquement biaisées dans la composition de leurs séquences. L'exemple le
plus évident est celui d'une bibliothèque traitée au bisulfite de sodium qui aura
converti la plupart des cytosines en thymines, ce qui signifie que la composition
des bases sera presque dépourvue de cytosines et déclenchera donc une erreur,
même si cela est tout à fait normal pour ce type de bibliothèque.
Si vous analysez une bibliothèque qui a été découpée agressivement en
adaptateurs, vous introduisez naturellement un biais de composition à la fin des
lectures, car les séquences qui correspondent à de courts tronçons d'adaptateur
sont supprimées, ne laissant que les séquences qui ne correspondent pas. Les
déviations soudaines de la composition à la fin des bibliothèques qui ont subi un
détourage agressif sont donc susceptibles d'être fausses.
5- Contenu GC par séquence (Per Sequence GC Content)

Résumé

Ce module mesure le contenu GC sur toute la longueur de chaque


séquence dans un fichier et le compare à une distribution normale modélisée du
contenu GC.
Dans une bibliothèque aléatoire normale, on s'attendrait à voir une
distribution à peu près normale du contenu en GC où le pic central correspond
au contenu global en GC du génome sous-jacent. Comme nous ne connaissons
pas le contenu GC du génome, le contenu GC modal est calculé à partir des
données observées et utilisé pour construire une distribution de référence.

Une distribution de forme inhabituelle pourrait indiquer une bibliothèque


contaminée ou un autre type de sous-ensemble biaisé. Une distribution normale
qui est décalée indique un biais systématique indépendant de la position des
bases. S'il y a un biais systématique qui crée une distribution normale décalée,
cela ne sera pas signalé comme une erreur par le module puisqu'il ne sait pas ce
que le contenu GC de votre génome devrait être.

Avertissement

Un avertissement est émis si la somme des déviations de la distribution


normale représente plus de 15% des lectures.

Échec

Ce module indique un échec si la somme des déviations de la distribution


normale représente plus de 30% des lectures.

Raisons courantes des avertissements

Les avertissements de ce module indiquent généralement un problème


avec la bibliothèque. Des pics aigus sur une distribution par ailleurs lisse sont
normalement le résultat d'un contaminant spécifique (dimères d'adaptateur par
exemple), qui peut très bien être détecté par le module des séquences
surreprésentées. Des pics plus larges peuvent représenter une contamination par
une espèce différente.
6- Contenu de la base N (Per Base N Content)

Résumé

Si un séquenceur est incapable de faire un appel de base avec


suffisamment de confiance, il substituera normalement un N plutôt qu'un appel
de base conventionnel.

Ce module indique le pourcentage d'appels de base à chaque position pour


laquelle un N a été appelé.
Il n'est pas inhabituel de voir une très faible proportion de Ns apparaître
dans une séquence, surtout vers la fin de celle-ci. Toutefois, si cette proportion
dépasse quelques pour cent, cela suggère que le pipeline d'analyse n'a pas été en
mesure d'interpréter les données suffisamment bien pour effectuer des appels de
bases valides.

Avertissement

Ce module émet un avertissement si une position quelconque présente une


teneur en N >5%.

Échec

Ce module déclenche une erreur si l'une des positions présente une teneur
en N >20%.

Raisons courantes des avertissements

La raison la plus courante de l'inclusion de proportions significatives de


Ns est une perte générale de qualité. Les résultats de ce module doivent donc
être évalués de concert avec ceux des différents modules de qualité. Vous
devriez vérifier la couverture d'un bac spécifique, car il est possible que le
dernier bac de cette analyse contienne très peu de séquences, et une erreur
pourrait être déclenchée prématurément dans ce cas.

Un autre scénario courant est l'incidence d'une forte proportion de N à un


petit nombre de positions au début de la bibliothèque, dans un contexte de
qualité généralement bonne. De tels écarts peuvent se produire lorsque la
composition des séquences de la bibliothèque est très biaisée, au point que les
appelants de bases peuvent être désorientés et faire de mauvais appels. Ce type
de problème est apparent lorsqu'on examine les résultats du contenu de la
séquence par base.

7- Distribution de la longueur des séquences (Sequence Length


Distribution)

Résumé

Certains séquenceurs à haut débit génèrent des fragments de séquence de


longueur uniforme, mais d'autres peuvent contenir des lectures de longueurs très
variables. Même dans les bibliothèques de longueur uniforme, certains pipelines
coupent les séquences pour éliminer les appels de base de mauvaise qualité à la
fin.
Ce module génère un graphique montrant la distribution des tailles de
fragments dans le fichier qui a été analysé.
Dans de nombreux cas, cela produira un graphique simple montrant un pic
à une seule taille, mais pour les fichiers FastQ de longueur variable, cela
montrera les quantités relatives de chaque taille différente de fragment de
séquence.

Avertissement

Ce module émet un avertissement si toutes les séquences ne sont pas de la


même longueur.

Échec

Ce module génère une erreur si l'une des séquences a une longueur nulle.

Raisons courantes des avertissements

Pour certaines plateformes de séquençage, il est tout à fait normal d'avoir


des longueurs de lecture différentes. Les avertissements peuvent donc être
ignorés.
8- Séquences dupliquées (Duplicate Sequences)

Résumé

Dans une bibliothèque diversifiée, la plupart des séquences n'apparaîtront


qu'une seule fois dans l'ensemble final. Un faible niveau de duplication peut
indiquer un niveau très élevé de couverture de la séquence cible, mais un niveau
élevé de duplication est plus susceptible d'indiquer une sorte de biais
d'enrichissement (par exemple une suramplification par PCR).

Ce module compte le degré de duplication pour chaque séquence dans une


bibliothèque et crée un graphique montrant le nombre relatif de séquences avec
différents degrés de duplication.

Pour réduire les besoins en mémoire de ce module, seules les séquences


qui apparaissent pour la première fois dans les 100 000 premières séquences de
chaque fichier sont analysées, mais cela devrait suffire pour obtenir une bonne
impression des niveaux de duplication dans l'ensemble du fichier. Chaque
séquence est suivie jusqu'à la fin du fichier pour donner un compte représentatif
du niveau global de duplication. Pour réduire la quantité d'informations dans le
graphique final, toutes les séquences comportant plus de 10 doublons sont
placées dans des groupes afin de donner une impression claire du niveau global
de doublons sans avoir à montrer chaque valeur de doublon individuelle.

La détection des duplications exigeant une correspondance exacte de la


séquence sur toute sa longueur, toute lecture de plus de 75 pb est tronquée à 50
pb aux fins de cette analyse. Même ainsi, les lectures plus longues sont plus
susceptibles de contenir des erreurs de séquençage qui augmenteront
artificiellement la diversité observée et auront tendance à sous-représenter les
séquences hautement dupliquées.

Le graphique montre la proportion de la bibliothèque qui est constituée de


séquences dans chacune des différentes catégories de niveaux de duplication. Il
y a deux lignes sur le graphique. La ligne bleue prend l'ensemble complet de
séquences et montre comment ses niveaux de duplication sont distribués. Dans
le graphique rouge, les séquences sont dédupliquées et les proportions indiquées
sont les proportions de l'ensemble dédupliqué qui proviennent de différents
niveaux de duplication dans les données originales.

Dans une bibliothèque correctement diversifiée, la plupart des séquences


devraient se trouver à l'extrême gauche du graphique, tant dans la ligne rouge
que dans la ligne bleue. Un niveau général d'enrichissement, indiquant un
suréquençage important dans la bibliothèque, aura tendance à aplatir les lignes,
en abaissant l'extrémité inférieure et en relevant généralement les autres
catégories. Des enrichissements plus spécifiques de sous-ensembles, ou la
présence de contaminants de faible complexité, auront tendance à produire des
pics vers la droite du graphique. Ces pics de duplication élevés apparaîtront le
plus souvent dans la trace bleue car ils constituent une proportion élevée de la
bibliothèque originale, mais disparaissent généralement dans la trace rouge car
ils constituent une proportion insignifiante de l'ensemble dédupliqué. Si les pics
persistent dans la trace bleue, cela suggère qu'il y a un grand nombre de
séquences différentes hautement dupliquées, ce qui pourrait indiquer soit un
ensemble contaminant, soit une duplication technique très sévère.

Le module calcule également la perte globale de séquence attendue si la


bibliothèque est dédupliquée. Ce chiffre global est affiché en haut du graphique
et donne une impression raisonnable du niveau global potentiel de perte.

Avertissement

Ce module émet un avertissement si les séquences non uniques


représentent plus de 20% du total.
Échec

Ce module émettra une erreur si les séquences non uniques représentent


plus de 50 % du total.

Raisons courantes des avertissements

L'hypothèse sous-jacente de ce module est celle d'une bibliothèque


diverse et non enrichie. Tout écart par rapport à cette hypothèse génère
naturellement des doublons et peut entraîner des avertissements ou des erreurs
de ce module.

En général, il y a deux types potentiels de doublons dans une


bibliothèque, les doublons techniques résultant d'artefacts de PCR, ou les
doublons biologiques qui sont des collisions naturelles où différentes copies
d'exactement la même séquence sont sélectionnées au hasard. Au niveau de la
séquence, il n'y a aucun moyen de faire la distinction entre ces deux types et les
deux seront signalés comme des doublons ici.

Un avertissement ou une erreur dans ce module indique simplement que


vous avez épuisé la diversité dans au moins une partie de votre bibliothèque et
que vous reséquencez les mêmes séquences. Dans une bibliothèque supposée
diverse, cela suggère que la diversité a été partiellement ou totalement épuisée et
que vous gaspillez donc la capacité de séquençage. Cependant, dans certains
types de librairies, vous aurez naturellement tendance à sur-séquencer certaines
parties de la librairie et donc à générer des duplications et vous vous attendrez
donc à voir des avertissements ou des erreurs de ce module.

Dans les bibliothèques RNA-Seq, les séquences de différents transcrits


seront présentes à des niveaux très différents dans la population de départ. Afin
d'être en mesure d'observer les transcrits faiblement exprimés, il est donc
courant de sur-séquencer les transcrits fortement exprimés, ce qui peut créer un
grand nombre de doublons. Il en résultera une duplication globale élevée dans ce
test, et produira souvent des pics dans les bacs de duplication les plus élevés.
Cette duplication proviendra de régions physiquement connectées, et un examen
de la distribution des duplications dans une région génomique spécifique
permettra de distinguer le sur-séquençage de la duplication technique générale,
mais ces distinctions ne sont pas possibles à partir des fichiers fastq bruts. Une
situation similaire peut se produire dans les bibliothèques ChIP-Seq hautement
enrichies, bien que la duplication y soit moins prononcée. Enfin, si vous
disposez d'une bibliothèque où les points de départ de la séquence sont
contraints (une bibliothèque construite autour de sites de restriction, par
exemple, ou une bibliothèque de petits ARN non fragmentés), les sites de départ
contraints génèreront des niveaux de duplication énormes qui ne doivent pas être
traités comme un problème, ni éliminés par la déduplication. Dans ces types de
bibliothèques, vous devriez envisager d'utiliser un système tel que le codage à
barres aléatoire pour permettre la distinction des doublons techniques et
biologiques.

9- Séquences surreprésentées (Overrepresented Sequences)

Résumé

Une bibliothèque normale à haut débit contient un ensemble diversifié de


séquences, aucune séquence individuelle ne représentant une fraction minuscule
de l'ensemble. Le fait de constater qu'une seule séquence est très surreprésentée
dans l'ensemble signifie soit qu'elle est hautement significative sur le plan
biologique, soit que la bibliothèque est contaminée, soit qu'elle n'est pas aussi
diversifiée que vous le pensiez.

Ce module liste toutes les séquences qui représentent plus de 0,1% du


total. Pour conserver la mémoire, seules les séquences qui apparaissent dans les
100 000 premières séquences sont suivies jusqu'à la fin du fichier. Il est donc
possible qu'une séquence qui est surreprésentée mais qui n'apparaît pas au début
du fichier pour une raison quelconque soit manquée par ce module.

Pour chaque séquence surreprésentée, le programme cherchera des


correspondances dans une base de données de contaminants communs et
signalera la meilleure correspondance trouvée. Les correspondances doivent
avoir une longueur d'au moins 20 pb et ne pas comporter plus d'une erreur
d'appariement. Le fait de trouver une correspondance ne signifie pas
nécessairement qu'il s'agit de la source de la contamination, mais peut vous
orienter dans la bonne direction. Il convient également de souligner que de
nombreuses séquences d'adaptateurs sont très similaires les unes aux autres. Il se
peut donc que vous obteniez un résultat positif qui n'est pas techniquement
correct, mais dont la séquence est très similaire à la correspondance réelle.

Étant donné que la détection de la duplication exige une correspondance


exacte de la séquence sur toute sa longueur, les lectures de plus de 75 pb de
longueur sont tronquées à 50 pb aux fins de cette analyse. Même ainsi, les
lectures plus longues sont plus susceptibles de contenir des erreurs de
séquençage qui augmenteront artificiellement la diversité observée et auront
tendance à sous-représenter les séquences hautement dupliquées.
Avertissement

Ce module émet un avertissement si une séquence représente plus de


0,1% du total.

Échec

Ce module émettra une erreur si une séquence représente plus de 1% du


total.

Raisons courantes des avertissements

Ce module est souvent déclenché lorsqu'il est utilisé pour analyser des
bibliothèques de petits ARN où les séquences ne sont pas soumises à une
fragmentation aléatoire, et la même séquence peut naturellement être présente
dans une proportion significative de la bibliothèque.

10- Contenu de l'adaptateur (Adapter Content)

Résumé

Le module Kmer Content effectue une analyse générique de tous les


Kmers de votre bibliothèque pour trouver ceux qui n'ont pas une couverture
uniforme sur toute la longueur de vos lectures. Cela peut permettre de trouver un
certain nombre de sources différentes de biais dans la bibliothèque qui peuvent
inclure la présence de séquences adaptatrices de lecture qui s'accumulent à la fin
de vos séquences.

Vous pouvez cependant constater que la présence de toute séquence


surreprésentée dans votre bibliothèque (comme les dimères d'adaptateur) fera
que le tracé de Kmer sera dominé par les Kmers que ces séquences contiennent,
et qu'il n'est pas toujours facile de voir s'il y a d'autres biais présents qui
pourraient vous intéresser.

Une classe évidente de séquences que vous pourriez vouloir analyser sont
les séquences adaptatrices. Il est utile de savoir si votre bibliothèque contient
une quantité significative d'adaptateurs afin de pouvoir évaluer si vous devez ou
non procéder à un découpage des adaptateurs. Bien que l'analyse Kmer puisse
théoriquement repérer ce type de contamination, ce n'est pas toujours évident.
Ce module effectue donc une recherche spécifique pour un ensemble de Kmers
définis séparément et vous donnera un aperçu de la proportion totale de votre
bibliothèque qui contient ces Kmers. Une trace des résultats sera toujours
générée pour toutes les séquences présentes dans le fichier de configuration des
adaptateurs afin que vous puissiez voir le contenu en adaptateurs de votre
bibliothèque, même s'il est faible.

Le tracé lui-même montre un pourcentage cumulé de la proportion de


votre bibliothèque qui a vu chacune des séquences adaptatrices à chaque
position. Une fois qu'une séquence a été vue dans une lecture, elle est comptée
comme étant présente jusqu'à la fin de la lecture, donc les pourcentages que vous
voyez ne feront qu'augmenter avec la longueur de la lecture.

Avertissement

Ce module émet un avertissement si une séquence est présente dans plus


de 5% de toutes les lectures.

Échec

Ce module émet un avertissement si une séquence est présente dans plus


de 10 % de toutes les lectures.

Raisons courantes des avertissements

Toute bibliothèque dans laquelle une proportion raisonnable des tailles


d'insertion est plus courte que la longueur de lecture déclenchera ce module.
Cela n'indique pas un problème en tant que tel, mais simplement que les
séquences devront être coupées par adaptateur avant de procéder à toute analyse
en aval.

11- Contenu de Kmer (Kmer Content)

Résumé

L'analyse des séquences surreprésentées permet de repérer une


augmentation des séquences exactement dupliquées, mais il existe un sous-
ensemble différent de problèmes pour lesquels cela ne fonctionnera pas.

Si vous avez de très longues séquences de mauvaise qualité, des erreurs de


séquençage aléatoires réduiront considérablement le nombre de séquences
exactement dupliquées.
Si vous avez une séquence partielle qui apparaît à différents endroits dans
votre séquence, elle ne sera pas visible, ni par le tracé du contenu en bases, ni
par l'analyse des séquences dupliquées.
Le module Kmer part de l'hypothèse qu'un petit fragment de séquence ne
devrait pas avoir de biais positionnel dans son apparition au sein d'une
bibliothèque diversifiée. Il peut y avoir des raisons biologiques pour lesquelles
certains Kmers sont globalement enrichis ou appauvris, mais ces biais devraient
affecter toutes les positions d'une séquence de manière égale. Ce module mesure
donc le nombre de chaque 7-mer à chaque position dans votre bibliothèque et
utilise ensuite un test binomial pour rechercher les déviations significatives par
rapport à une couverture égale à toutes les positions. Tous les Kmer avec un
enrichissement biaisé en position sont signalés. Les 6 Kmer les plus biaisés sont
en outre représentés graphiquement pour montrer leur distribution.

Pour permettre à ce module de fonctionner dans un temps raisonnable,


seulement 2% de la bibliothèque entière est analysée et les résultats sont
extrapolés au reste de la bibliothèque. Les séquences de plus de 500 pb sont
tronquées à 500 pb pour cette analyse.

Avertissement

Ce module émet un avertissement si un k-mer est déséquilibré avec une


valeur p binomiale <0.01.
Échec

Ce module émettra un avertissement si un k-mer est déséquilibré avec une


p-value binomiale < 10^-5.

Raisons courantes pour les avertissements

Toute séquence surreprésentée individuellement, même si elle n'est pas


présente à un seuil suffisamment élevé pour déclencher le module des séquences
surreprésentées, fera que les Kmers de ces séquences seront fortement enrichis
dans ce module. Cela apparaîtra normalement comme des pics d'enrichissement
en un seul point de la séquence, plutôt que comme un enrichissement progressif
ou large.

Les bibliothèques qui dérivent de l'amorçage aléatoire montreront presque


toujours un biais de Kmer au début de la bibliothèque en raison d'un
échantillonnage incomplet des amorces aléatoires possibles.

12- Qualité de la séquence par carreau (Per Tile Sequence Quality)

Résumé

Ce graphique n'apparaîtra dans vos résultats d'analyse que si vous utilisez


une bibliothèque Illumina qui conserve ses identifiants de séquence originaux.
Ces identifiants codent le carreau de la cellule d'écoulement d'où provient
chaque lecture. Le graphique vous permet d'examiner les scores de qualité de
chaque carreau pour l'ensemble de vos bases afin de déterminer si une perte de
qualité a été associée à une seule partie du flowcell.

Le graphique montre l'écart par rapport à la qualité moyenne pour chaque


tuile. Les couleurs sont sur une échelle de froid à chaud, les couleurs froides
étant les positions où la qualité était égale ou supérieure à la moyenne pour cette
base dans la manche, et les couleurs plus chaudes indiquant qu'une tuile avait de
moins bonnes qualités que les autres tuiles pour cette base. Dans l'exemple ci-
dessous, vous pouvez voir que certaines tuiles présentent une qualité
constamment faible. Un bon tracé devrait être bleu sur toute sa surface.
Les raisons pour lesquelles des avertissements ou des erreurs apparaissent
sur ce graphique peuvent être des problèmes transitoires tels que des bulles
traversant le capteur, ou des problèmes plus permanents tels que des taches sur
le capteur ou des débris à l'intérieur du couloir du capteur.

Avertissement

Ce module émettra un avertissement si une tuile présente un score Phred


moyen inférieur de plus de 2 à la moyenne de cette base pour toutes les tuiles.

Échec

Ce module émet un avertissement si une tuile présente un score Phred


moyen inférieur de plus de 5 à la moyenne de cette base pour toutes les tuiles.

Raisons courantes des avertissements

Alors que les avertissements de ce module peuvent être déclenchés par


des événements individuels spécifiques, nous avons également observé qu'une
plus grande variation dans les scores Phred attribués aux tuiles peut également
apparaître lorsqu'une cellule de débit est généralement surchargée. Dans ce cas,
les événements apparaissent partout dans le flowcell plutôt que d'être confinés à
une zone spécifique ou à une gamme de cycles. Nous ignorons généralement les
erreurs qui affectent légèrement un petit nombre de tuiles pendant seulement 1
ou 2 cycles, mais nous recherchons les effets plus importants qui présentent une
forte déviation des scores, ou qui persistent pendant plusieurs cycles.

Vous aimerez peut-être aussi