Académique Documents
Professionnel Documents
Culture Documents
1. Introduction
1. Introduction
Préambule : les nouvelles technologies de séquençage à trés hauts débits vont-elles rendre
caduques les approches telles que les puces à ADN, "Chip on Chip" ou EST ?
Il y a des arguments pour (à long terme) et contre (l'acquis via les puces à ADN ou EST et la
précision de cet acquis). Voir le chapitre "Comparaison puces à ADN et RNA-seq".
A titre historique et conceptuel, il est malgré tout important de connaître les principes des
études du transcriptome par la technique des puces à ADN.
Diverses techniques permettaient à cette époque d'aborder l'étude de l'expression des gènes :
Cependant la principale avancée des puces à ADN a été de changer d'échelle : l'analyse
simultanée de l'ensemble de tous les transcrits d'un génome.
La technologie des puces à ADN a permis de générer des "images" de l'état de l'expression des
gènes d'une cellule.
aperçu
Les puces à ADN sont des lames de verre activées sur lesquelles sont déposées de nombreuses
copies d'une séquence d'ADN spécifique d'un gène donné (figure ci-dessous).
Figure ci-contre, une description de la technologie de synthèse des oligonucléotides sur les
puces ultra-haute densité.
Source : Agilent microarray technology
Elle contient 30 886 GSTs (étiquettes spécifiques de gènes - "Gene-specific Sequence Tags")
étiquetant la majorité des gènes prédits chez Arabidopsis thaliana. Les GSTs sont des
fragments génomiques de 150 à 500 paires de base amplifiés par réaction de polymérisation en
chaîne (voir la position des GST).
Au maxium, 50% de ces paires de base doivent être des séquences d'introns. Par ailleurs, elles
ont été sélectionnées de sorte que leurs séquences ne présentent pas plus de 70% d'identité
avec n'importe quelle autre séquence du génome d'Arabidopsis thaliana.
La puce CATMA est complétée par 615 sondes spécifiques des génomes chloroplastique et
mitochondrial. Cette puce permet :
Elle est constituée de 20 500 produits PCR (taille moyenne 1 Kb) choisis pour couvrir
l'intégralité des 17 millions de paires de base séquencées du chromosome IV
d'Arabidopsis thaliana sans a priori sur son annotation.
Elle sert à établir des cartes transcriptionnelles et épigénétiques de ce chromosome
(notamment par la technique d'immunoprécipitation de la chromatine dans le cas de
cartes épigénétiques).
Epigénétique et épigénomique : étude de l'influence de l'environnement et de l'histoire
individuelle sur les modifications de l'expression des gènes d'une génération à l'autre.
Le préfixe "épi" signifie "sur, au-dessus, ...".
Cette puce a été conçue en collaboration avec le TIGR et contient plus de 22,500 sondes
oligonucléotidiques (25-mer) représentant environ 24,000 gènes d'Arabidopsis thaliana.
L'interface "NetAffx Analysis Center" contient les données ATH1-12150 du TIGR et permet
l'analyse des données.
Voir une comparaison des caractéristiques de la puce CATMA et d'autres puces Affymetrix
("TAIR Microarray Elements Statistics").
Tableau ci-dessous : survol des puces les plus utilisées pour l'étude de la transcription des
gènes chez diverses plantes et nombre d'expériences stockées dans la base de données
ArrayExpress / EBI. La puce ATH1 et la puce CATMA sont les plus utilisées et plusieurs
centaines d'expériences concernant Arabidopsis ont été publiées.
Source : Baginsky et al. (2010)
Schématiquement, les deux grandes étapes de l'ADN aux ARN messagers puis des ARN
messagers aux protéines sont :
Les puces à ADN sont des lames de verre activées sur lesquelles sont déposés plusieurs
milliers de "spot" d'acides nucléiques : les acides nucléiques fixés sur les puces à ADN sont
appelés sondes ("probes").
Les sondes peuvent être de l'ADN génomique (l'ensemble des gènes) ou des gènes
transcrits (Expressed Sequence Tags ou EST).
Un spot correspond à de nombreuses sondes, c'est-à-dire à de nombreuses copies d'une
séquence d'ADN spécifique d'un gène donné.
Avant l'hybridation avec les cibles (voir ci-dessous) , les sondes sont dénaturées : elles
sont sous forme simple brin et peuvent ainsi s'hybrider avec le brin complémentaire
d'une cible.
Les cibles
Les acides nucléiques qui sont hybridés avec ces sondes sont appelés cibles ("targets").
Pour une exprérience donnée, une condition expérimentale (stress, pathologie, état de
différenciation cellulaire, ...) est comparée à une condition de référence : les ARN messagers
(les cibles) sont donc extraits des 2 types de cellules que l'on veut comparer.
Les ARN messagers sont rétro-transcrits en ADNc par une transcriptase inverse (figure ci-
contre). C'est une DNA polymérase qui synthétise un brin d'ADN complémentaire (ADNc) en
utilisant un brin d'ARN comme matrice.
Un hybride [premier brin d'ADNc - brin d'ARN] est ainsi formé dans un premier temps. Après
synthèse du premier brin d'ADNc, le brin d'ARN matrice est hydrolysé par la RNAse H. Le
second brin d'ADNc est ensuite synthétisé.
les ADNc d'un type de cellule sont marqués par une molécule fluorescente
les ADNc de l'autre type de cellule sont marqués par une autre molécule fluorescente
indodicarbocyanine
3-1-O-(2-
cyanoethyl)- (N,N-
cyanine
diisopropyl)- 563 - 570 nm vert
3 (Cy3)
phosphoramidite
indodicarbocyanine
5-1-O-(2-
cyanoethyl)- (N,N-
cyanine
diisopropyl)- 662 - 670 nm rouge
5 (Cy5)
phosphoramidite
S'il existe un brin d'ADN sonde complémentaire d'un brin d'ADNc cible, ils s'hybrident pour
former de l'ADN double brin fluorescent.
Cette hybridation est compétitive : plus la concentration d'un ADNc cible (donc celle de
l'ARN messager qui en est l'origine) est élevée, plus l'ADNc cible s'hybridera sur la sonde.
Le rapport des intensités de fluorescence traduit donc la concentration relative des ARN
messagers dans chaque condition. Ceux-ci sont soit sur-exprimés, soit exprimés de la même
manière, soit sous-exprimés.
Source : Vulgariz
Malgré tout, la diversité des applications des puces à ADN et des problèmatiques biologiques
auxquelles elles contribuent à apporter une réponse, a nécessité le développement
d'algorithmes et de logiciels spécifiques à cette technologie.
Lors de la lecture, chaque spot est excité par un laser et l'émission de fluorescence est mesurée.
On obtient 2 images en niveaux de gris qui correspondent au mélange des fluorescences
respectives des 2 fluorophores.
On remplace les niveaux de gris par :
verts : seul l'ADNc cible de la condition de référence s'est hybridé aux sondes
rouges : seul l'ADNc cible de la condition pathologique s'est hybridé aux sondes
jaunes : les ADNc cibles des deux conditions sont hybridés aux sondes en quantités
égales
Ces étapes font appel à des techniques de traitement de l'image et utilisent des algorithmes de
morphologie mathématique.
Les technologies pour l'analyse des images sont de plus en plus performantes. La résolution est
augmentée, en conséquence :
Par ailleurs, de nouvelles surfaces sont utilisées pour remplacer le verre. Par exemple, des
cristaux de mélange d'oxyde de silice et de titane à fluorescence accrue.
Source : Agilent microarray technology
Source : MYcroarray
Les signaux rouges et vert ne peuvent être interprétés séparément. Les puces à ADN
permettent de mesurer une variation de transcription d'un gène entre 2 conditions
expérimentales (référence et pathologique, par exemple). Elles fournissent donc des valeurs
relatives.
Ce rapport permet d'évaluer la différence du taux de transcription d'un gène entre les 2
échantillons biologiques étudiés.
au moins supérieur à 2, qu'un gène est sur-exprimé dans une des cibles par rapport à
l'autre
inférieur à 0,5, qu'un gène est sous-exprimé dans une des cibles par rapport à l'autre
Voir un exemple : Puce CATMA / Cy3 - feuilles / Cy5 : fleurs / Arabidopsis thaliana
Elle a pour but, entre autre, de distinguer les variations aléatoires (biologiques et
expérimentales : celles que l'on veut mettre en évidence) des variations systématiques. Ces
dernières ont pour origine en particulier :
L'hypothèse de base de la normalisation est que la majorité des gènes ont un niveau
d'expression invariant entre 2 conditions (référence et pathologique, par exemple), soit : log 2(r)
= 0.
Un rapport d'une valeur donnée peut être obtenu par des valeurs d'intensité [rouge/vert] trés
proches du bruit de fond (peu fiables alors) ou, au contraire, trés élevées (plus significatives).
Exemple : le rapport 1,6 = (160/100) ou (16000/10000).
Le filtrage a pour but d'éliminer les sondes pour lesquelles une des mesures d'intensité de
fluorescence est inférieure à un seuil (arbitraire ou déterminé à partir d'un modèle).
Risque statistique
Les traitements précédents aboutissent à une liste de rapports (r) pour chaque gène. La suite
consiste à déterminer, à l'aide de logiciels utilisant des techniques statistiques, les gènes
différentiellement exprimés (ceux dont les valeurs de log2(r) sont significativement différents
de 0).
Cependant, le choix d'une méthode d'analyse est liée aux conditions dans lesquelles a été
menée l'expérience (réplicats, facteurs expérimentaux, ...). De plus, ces outils informatiques ne
donnent pas de valeur seuil sur le résultat d'un test pour évaluer si l'expression d'un gène est
modulée ou non. Il incombe à l'expérimentateur de choisir son niveau de risque.
La standardisation
Tout expérimentateur qui désire déposer ces données issues de puces à ADN dans une banque
doit répondre à cette charte en indiquant (entre autre) :
Dans ce cas, l'une des 2 sources d'ARN hybridés est fixée de sorte que toutes les valeurs de
log2(r) soient comparables. Cette source est alors considérée comme la référence.
Figures ci-dessous : une série de profils d'expression de gènes désordonnés (figure de gauche)
peut être convertie en une série de groupes par le regroupement hiérachique (Eisen et al.,
1998).
Le résultat (à droite) est un arbre qui montre l'évolution de l'expression dans le temps pour
certains gènes hypothétiques.
L'interprétation biologiques des données issues des puces à ADN (et d'autres technologies)
nécessite de corréler les résultats de ces données à des informations encyclopédiques
contenues dans certaines bases de données.
Une ontologie est un ensemble structuré de termes et de concepts qui représentent le sens d'un
champ d'informations, que ce soit par :
les métadonnées (données qui définissent une autre donnée) d'un espace de noms
(ensembles de termes appartenant à un même répertoire)
les éléments d'un domaine de connaissances
Les concepts sont formalisés sous forme d'un graphe au sein duquel il existe des relations
sémantiques ou d'inclusion ("appartient à").
"is-a" ("est un")
symbole
De manière schématique, on peut considérer qu'en génomique, l'ontologie est associée aux
notions de terminologie et de classification.
GO décrit donc les produits des gènes via un ensemble de termes au sein d'un graphe dirigé
acyclique ("Directed Acyclic Graph" - DAG) qui contient 3 axes hiérarchiquement
indépendants (CC, BP et MF).
Les termes de GO (les noeuds de l'ontologie) sont liés par un ensemble de relations.
Chaque terme hérite de la signification de tous les termes qui le séparent de la racine de
l'ontologie (notion d'ancêtre, parent et enfant).
Le niveau de preuve d'une annotation est précisée par des codes ("Evidence Codes") répartis
en catégories : "Experimental", "Computational analysis", "Author statement" (déclaration
d'auteur), "Curatorial statement" (déclaration de curateur), "Automatically-assigned".
2. L'une des interfaces les plus didactiques et intuitives pour l'annotation : "QuickGO (GO
Browser)".
Il propose pour les voies métaboliques et les métabolites impliqués dans ces voies, des graphes
d'interaction entre les enzymes impliquées dans ces voies et, par extension, entre les gènes qui
codent ces enzymes.
Source : KEGG
Exemple : la biotine existe sous forme libre ou sous forme de groupement prosthétique lié à
certaines carboxylases qui catalysent des réactions de synthèse des acides gras ou de certains
acides aminés.
En cliquant sur les N° EC ou les noms, on accéde à une multitude d'informations sur les
molécules choisies.
Cette méthode appelée aussi "ChIP on chip" permet d'identifier les protéines qui se fixent à
l'ADN. Elle est extrêmement utile pour l'étude des sites de fixation des facteurs de
transcription, ou les histones (étude des profils épigénétiques), par exemple.
Figure ci-contre : Techniques de traitement des acides nucléiques avant séquençage pour
l'analyse de parties spécifiques des génomes.
Source : ENCODE
Par exemple :
On crée d'abord une liaison covalente in vivo entre les protéines et la partie de l'ADN avec
lesquelles elles interagissent. On utilise la formaldéhyde en général.
Source : Wikipédia
L'ADN de la cellule est extrait puis découpé en courts fragments. On sélectionne les fragments
d'ADN qui sont associés à la protéine étudiée avec un anticorps spécifique de cette protéine.
En conséquence, les courts fragments d'ADN récupérés sont ceux qui interagissent avec la
protéine étudiée. Ces fragments sont identifiés par la technique des puces à ADN.
Eléments du génome cartographiées Techniques utilisées
Régions transcrites en ARN RNA-seq / CAGE / RNA-PET
Régions codant des protéines Spectromètrie de masse
Sites de fixation des facteurs de transcription ChIP-seq / DNase-seq
DNase-seq / FAIRE-seq / Histone ChIP-seq /
Structure de la chromatine
MNase-seq
Sites de méthylation de l'ADN RRBS
Définitions des acronymes des nouvelles technologies
ChIPBase : base de données et plate-forme pour le décodage des cartes de liaison, des facteurs
de transcription, des profils d'expression, de la régulation de la transcription de longs ARN
non codants ("long non-coding RNAs" : lncRNAs, lincRNAs), de microRNA et autres ARN
non codant (snoRNAs, tRNAs, snRNAs, ...) et des gènes codant des protéines.
*Le "chromosome interactome" : le super-enroulement et compacité de l'ADN dans les
chromosomes (chromatine, histone) : une fois déplié, la molécule d'ADN d'une cellule de
l'homme mesure environ 2 m, soit 200.000 fois le diamètre moyen du noyau d'une cellule de
mammifère.
a. Les puces à ADN et la technique RNA-seq ont toutes deux une haute reproductibilité de
résultats avec des réplicats biologiques.
b. Les puces à ADN permettent difficilement de distinguer le cas "pas de transcription" du cas
"très faible transcription".
La sensibilité de détection des ARN messagers rares est donc un paramètre capital.
La sensibilité de détection de la technique RNA-seq dépend de la profondeur du
séquençage et celle des puces à ADN est quasiment constante. Celà signifie qu'en
théorie, si on atteind une profondeur de séquençage suffisante, la technique RNA-seq
permet de déterminer le nombre réels de toutes les molécules d'ARN dans un
échantillon.
d. De multiples transcrits sont générés à partir de certains gènes par épissage alternatif. L'un
des avantages de la technique RNA-Seq est sa capacité à détecter ces isoformes
différentiellement transcrites :
en effet, sur une puce à ADN, une sonde courte donnée cible soit un exon constitutif
(présent dans tous les transcrits issus de l'épissage alternatif), soit un exon spécifique
de l'un des transcrits. Dans le second cas, ce transcrit est détecté mais les autres
transcrits issus du même gène sont ignorés.
en conséquence, les ensembles de sondes de puces à ADN ne peuvent pas représenter
tous les transcrits de tous les gènes.
e. Les puces à ADN sont sujettes à une saturation d'hybridation en ce qui concerne les
transcrits très abondants. Elles ne peuvent pas fournir des mesures quantitatives fiables des
changements subtils de la transcription de gènes abondants.
f. La technique RNA-Seq permet d'identifier des variants d'un seul nucléotide ("single
nucleotide polymorphism" - SNP). La technique RNA-Seq présente deux avantages dans la
détection de variants génétiques :
Par ailleurs, l'un des atouts actuels (mais qui ne peut que diminuer avec le temps) des puces à
ADN est l'acquis des dizaines de milliers d'expériences qui ont été menées avec cette
technique et les différentes annotations des transcriptomes issues de toutes ces expériences.
L'un des atouts de la technique RNA-seq (ou d'une autre technologie à venir) est l'évolution
très rapide des technologies de séquençage à très haut débit : le développement des méthodes
avec multiplexage par répartition codes barres, des lectures ("reads") plus longues et un plus
grand nombre de lectures appariées ("paired end reads").
Pour l'instant les puces à ADN et la technique RNA-seq restent donc complémentaires et
peuvent même être combinées avec des résultats très importants.
Une biopuce, puce à ADN, ou micromatrice d’ADN, est un ensemble de molécules d’ADN
fixées en rangées ordonnées sur une petite surface qui peut être du verre, du silicium ou du
plastique. Cette biotechnologie récente permet d’analyser le niveau d’expression des
gènes (transcrits) dans une cellule, un tissu, un organe, un organisme ou encore un mélange
complexe, à un moment donné et dans un état donné par rapport à un échantillon de référence.
Les puces à ADN sont aussi appelées puces à gènes, biopuces, ou par les termes anglais
« DNA chip, DNA-microarray, biochip ». Les termes français microréseau d’ADN et
micromatrice d’ADN sont aussi des termes proposés par l’Office québécois de la langue
française.
Le principe de la puce à ADN repose sur la propriété que possède l’ADN dénaturé de
reformer spontanément sa double hélice lorsqu’il est porté face à un brin complémentaire
(réaction d’hybridation). Les quatre bases nucléiques de l’ADN (A, G, C, T) ont en effet la
particularité de s’unir deux à deux par des liaisons hydrogènes (A = T et T = A ; G ≡ C et C ≡
G). Si un patient est porteur d’une maladie, les brins extraits de l’ARN d’un patient (et
rétrotranscrits en ADN), vont s’hybrider avec les brins d’ADN synthétiques représentatifs de
la maladie.
Principe
Concrètement, les ARN totaux sont extraits de cellules, dont on veut comparer l’expression
des gènes avec un étalon, et subissent une amplification qui va permettre d’obtenir une
quantité de matériel génétique suffisante pour l’expérience. Ensuite ces ARNm sont
transformés en ADN complémentaires (ADNc) par la technique de rétrotranscription et
marqués par un colorant (soit la Cyanine 3 (fluorochrome vert) soit la Cyanine 5
(fluorochrome rouge)). On met ensuite les ADNc obtenus dans une puce contenant des
fragments d’ADN, en même temps que l’ADNc étalon. Chaque point (ou spot) de la puce va
être analysé individuellement par un scanner à très haute résolution, et ce à la longueur d’onde
d’excitation de la Cyanine 3 puis de la Cyanine 5. L’image scannée va être traduite en
niveaux de gris.
Par exemple on peut marquer l’ADN complémentaire du malade en vert et du traité en rouge,
ou bien, du témoin en rouge et du traité en vert. Ce marquage se fait habituellement grâce à
une enzyme : la polymérase T7 qui amplifie l’ARNm et incorpore les cyanines pour un
marquage optimal. Une fois marqués ces ADN complémentaires sont déposés sur la lame de
verre qui, elle-même, possède fixée à sa surface, des fragments de génome humain recouvrant
tous les gènes présents dans une cellule.
Les molécules d’ADN fixées sur la lame sont appelées des sondes même si la nomenclature
peut varier. Des dizaines de milliers de sondes peuvent être fixées sur une même puce. Cela
permet de tester différentes cultures cellulaires sur une même lame voire de faire des réplicats
(ce qui est vivement recommandé pour l’analyse biostatistique en aval). Cette technologie
provient d’une adaptation du Northern Blot où de l’ADN fragmenté est fixé à un support puis
hybridé avec un ADNc. La mesure de l’expression de gènes par puce à ADN s’applique à de
nombreux domaines de la biologie et de la médecine comme l’étude de traitements, de
maladies ou bien encore de stades développementaux.
Utilisation
La comparaison de deux expériences de puce à ADN (par exemple deux cellules du même
type l’une saine et l’autre malade) peut permettre de découvrir des gènes exprimés
différemment selon les conditions (par exemple uniquement dans la cellule malade), de fait,
en une seule expérience, il est possible d’identifier les gènes dont l’expression est modifiée.
Pour être validée, l’expérience doit être réalisée sur plusieurs réplicats techniques et
biologiques et doit être soumise à une analyse statistique qui comprend une normalisation des
signaux à l’aide d’algorithmes informatiques et une mise en évidence des gènes sur- ou sous-
exprimés. Une fois ces gènes identifiés, d’autres analyses in silico sont nécessaires, telles que
des analyses de clustering pour regrouper les gènes présentant le même profil d’expression.
Enfin, les résultats seront souvent confirmés gène par gène par des méthodes telles que la
PCR quantitative ou le Northern Blot. Les puces apportent principalement des données
qualitatives (variation d’expression d’un gène) mais il est difficile de quantifier avec
précision l’expression d’un gène avec la technologie des puces à ADN.
Généralement, après une étude de puce à ADN, la bio-informatique extrait une liste de gènes
intéressants (en fonction de ce que l’on cherche). Pour confirmer ces gènes on fait appel à la
technique de qPCR encore appelée PCR quantitative ou encore appelée RT-PCR pour Real-
Time PCR (PCR en temps réel).
Fabrication
La puce est une plaque de petite taille environ 6 cm x 3 cm sur laquelle sont fixés des brins
monocaténaires (un seul brin au lieu des deux habituels) d’ADN, chacun correspondant au
brin complémentaire d’un ARN messager (ARNm). Il peut être fixé sur une puce plusieurs
dizaines de milliers de fragments d’ADN (donc autant de gènes dont on peut étudier
l’expression).
Chez la société Agilent, le dépôt des sondes sur la lame se fait de manière similaire à celle de
l’impression à jet d’encre. De cette manière, des robots spotteurs, avec leurs multiples pointes,
déposent par rangées d’infimes gouttelettes d’une solution d’ADN (d’où le terme anglais
microarray, « microtableau ») à des positions spécifiques de la puce (adresses). L’ADN est
ensuite séché et traité de manière à ce qu’il se fixe sur la puce.
Les ARNm (provenant des gènes exprimés) sont extraits de la cellule à analyser et des
fluorochromes sont fixés sur les bases. Puis le mélange témoin marqué et traité est versé sur la
puce : chaque brin d’ADNc va s’hybrider au brin monocaténaire d’ADN qui lui est
complémentaire pour former un double brin. La plaque est ensuite lavée par des bains
spécifiques pour éliminer les brins d’ADNc ne s’étant pas hybridés car non complémentaires
de ceux fixés sur la lame.
Elle est ensuite scannée au laser et une image de la puce est créée : chaque fois qu’il y a eu
hybridation, le fluorochrome fixé sur l’ARNm a émis dans la longueur d’onde du laser et cela
est visible par un point de couleur (rouge pour des fluorochromes émettant dans le rouge…)
Les puces à ADN peuvent être fabriquées par des techniques diverses qui incluent
l’impression sur des plaques de verre à l’aide de pointes, la photolithographie à l’aide de
caches, de micro-miroirs, d’impression par jet d’encre, d’électrochimie sur des puces micro-
électroniques.
Les puces à ADN peuvent être utilisées pour détecter les ARN qui seront ou pas traduits en
protéines. Les scientifiques parlent d’analyse d’expression ou de profil d’expression. Puisque
des dizaines de milliers de sondes sont fixées sur une puce, chaque hybridation sur une puce
renseigne autant qu’un nombre équivalent de tests de génétique quantitative. Les puces à
ADN constituent ainsi une approche massive et ont contribué à la révolution de la génomique.
Le premier profil d’expression par puce à ADN a été publié en 1995 dans le magazine
américain Science. Le premier génome eucaryote fixé sur une puce fut celui de la levure
(Saccharomyces cerevisiae) ; ce profil d’expression a été publié en 1997 dans la revue
Science.
Rappel : la puce à ADN contient les sondes ADN (oligonucléotides ou ADNc) fixées sur le
support.
Grâce à des fluorochromes, marqueurs d’ADN qui fluorescent sous un laser, on peut marquer
des ADNc provenant de la rétrotranscription d’ARNm. En pratique, deux lots d’ADNc
correspondant à deux traitements différents (par exemple, lot 1 en vert : ADNc de plantes
témoins non traitées; lot 2 en rouge : ADNc de plantes inoculées avec un agent pathogène)
sont colorés par deux fluorochromes différents. Ces deux lots sont ensuite mélangés puis
hybridés sur la puce à ADN. L’hybridation dure entre 15 et 20 heures selon l’organisme que
l’on étudie (bactérie, plante, tissu humain…)
Spécificité de l’hybridation
Suivant la stringence de la solution destinée à laver la puce, l’hybridation entre les lots
d’ADNc et les sondes sera plus ou moins spécifique.
Une image haute résolution est obtenue grâce à des scanners très haute résolution (2 microns
actuellement). Des logiciels interprètent l’intensité des pixels de chaque point de la puce
contenant une séquence d’un gène différent et en déduisent une mesure numérique de
l’expression de chaque gène proportionnelle à la présence du gène dans les cellules au
moment de l’extraction d’ARN. Une puce peut contenir jusqu’à 1 million de « spots » c’est-à-
dire un million de gènes ou parties d’un gène ! Si le lot d’ADNc no 1 (plantes non traitées) est
marquée en vert et que le lot d’ADNc no 2 (plantes traitées) est marquée en rouge alors :
Les gènes dont l’expression est augmentée suite au traitement apparaissent alors plus
rouge que vert sous un laser.
Les gènes dont l’expression est diminuée suite au traitement apparaissent alors plus
vert que rouge sous un laser.
Les gènes peu affectés par le traitement (expression stable) apparaissent alors autant
vert que rouge sous un laser.
Les gènes peu exprimés n’apparaissent pas.
Et aussi…
Il existe deux grandes familles de puces à ADN, l’une ne pouvant recevoir qu’un échantillon
de cellule par plaque (mais pouvant contenir beaucoup plus de gènes fixés sur la plaque) et
l’autre pouvant recevoir deux échantillons différents, chacun labellisé avec un fluorochrome
de couleur différente : sur l’image, un point vert sera donc un gène exprimé dans la cellule
saine tandis qu’un point rouge sera un gène exprimé dans la cellule malade. Un point jaune est
exprimé dans les deux cellules et un point noir dans aucune…
Il existe aussi de très récentes puces à protéines qui permettent d’étudier le protéome d’une
cellule donnée. Ce sont cette fois-ci des antigènes qui sont fixés sur la plaque.
Puce à ADN
Sauter à la navigation Sauter à la recherche
Les puces à ADN sont aussi appelées puces à gènes, biopuces ou par les termes anglais
« DNA chip, DNA-microarray, biochip ». Les termes français microréseau d'ADN et
micromatrice d'ADN sont aussi des termes proposés par l'Office québécois de la langue
française1.
Le principe de la puce à ADN repose sur la propriété que possède l'ADN dénaturé (simple
brin) de reformer spontanément sa double hélice lorsqu'il est en présence d'un brin
complémentaire (réaction d'hybridation). Les quatre bases nucléiques de l'ADN (A, G, C, T)
ont en effet la particularité de s'apparier deux à deux par des liaisons hydrogène (A = T et T =
A ; G ≡ C et C ≡ G).
On parle de sonde (fragment d'ADN synthétique représentatif des gènes dont on cherche à
étudier l'expression, fixé de façon covalente à la surface de la biopuce) et de cible (ARNm
que l’on cherche à identifier et/ou à quantifier (échantillon)). Les cibles sont marquées par
fluorescence (voir plus bas).
Les puces à ADN peuvent être utilisées pour mesurer/détecter les ARN qui seront ou pas
traduits en protéines. Les scientifiques parlent d'analyse d'expression ou de profil
d'expression. Puisqu'il est possible de fixer jusqu'à un million de sondes sur une biopuce, les
puces à ADN constituent ainsi une approche massive et ont contribué à la révolution de la
génomique2, puisqu'elles permettent en une seule expérience d'avoir une estimation sur
l'expression de plusieurs dizaines de milliers de gènes. Mais il existe également un grand
nombre d'applications différentes qui font intervenir la technologie des puces à ADN (criblage
de mutations, reséquençage, interactions ADN/protéine, écologie microbienne).
Sommaire
1 Principe
2 Historique
3 Utilisation et applications
o 3.1 Différentes technologies
o 3.2 Domaines d'applications
4 Fabrication
o 4.1 Par dépôt (spotted)
o 4.2 Par synthèse in situ
5 Traitement informatique pour l'analyse des résultats
6 Références
7 Voir aussi
o 7.1 Liens externes
o 7.2 Articles connexes
Principe
En pratique, les ARN totaux sont extraits des cellules étudiées et subissent parfois une
amplification qui va permettre d'obtenir une quantité de matériel génétique suffisante pour
l'expérience. Ces ARNm sont ensuite transformés en ADN complémentaires (ADNc) par la
technique de rétrotranscription et marqués. Ce marquage est aujourd'hui assuré par une
molécule fluorescente (fluorochrome). Il existe deux fluorochromes majoritairement utilisés :
la Cyanine 3 (Cy3) qui fluoresce dans le vert et la Cyanine 5 (Cy5) qui fluoresce dans le
rouge. Les cibles ainsi marquées (ADNc) sont ensuite mises en contact avec la puce (portant
l'ensemble des sondes à sa surface), cette étape est nommée hybridation. Chaque brin d'ADNc
va alors s'hybrider aux sondes qui lui sont complémentaires pour former un duplex
sonde/cible double brin. La biopuce est ensuite lavée par des bains spécifiques pour éliminer
les brins d'ADNc ne s'étant pas hybridés car non complémentaires des sondes fixées sur la
lame. La biopuce va ensuite être analysée par un scanner à très haute résolution, et ce à la
longueur d'onde d'excitation de la Cyanine 3 ou de la Cyanine 5. L'image scannée est alors
analysée informatiquement afin d'associer une valeur d'intensité à chaque sonde fixée sur la
biopuce et ainsi de déterminer s'il y a eu une hybridation pour chaque sonde.
Lors d'une expérience de biopuce ADN visant à comparer l'expression des gènes entre deux
conditions (par exemple : cellule saine versus cellule malade), les ARN totaux des deux
populations de cellules sont extraits et marqués chacun avec un fluorochrome différent. Les
deux échantillons sont alors déposés simultanément sur la biopuce, on parle d'hybridation
compétitive. Pour un gène donné, si le nombre de molécules d'ADNc correspondant à ce gène
est plus important dans une condition que dans l'autre, l'hybridation entre ces ADNc et les
sondes associées sera favorisée. Ainsi, après avoir scanné la biopuce aux deux longueurs des
deux fluorochromes utilisés, il est possible de comparer l'intensité du signal vert du signal
rouge et donc de savoir pour chaque gène étudié dans quelle condition est-il le plus exprimé.
Historique
Les balbutiements des puces à ADN se font dès les années 1991 avec une publication3 de
Stephen Fodor (scientifique américain et fondateur de la société Affymetrix) sur la
technologie de synthèse in situ. S'ensuivent ensuite plusieurs événements qui entrent en ligne
de compte :
Utilisation et applications
Différentes technologies
Une des forces de la biopuce à un canal réside dans le fait qu'un échantillon aberrant n'affecte
pas l'analyse des autres échantillons. A contrario, chez les biopuces à deux canaux, il suffit
d'un seul échantillon de mauvaise qualité pour diminuer drastiquement la qualité des résultats,
même si l'autre échantillon cible est parfait. Une autre force est que les données d'une biopuce
à un canal sont plus facilement comparées à d'autres biopuces provenant de différentes
expériences. De plus, la biopuce à un canal est parfois la seule solution possible pour certaines
applications.
Nom du procédé ou de
Description
la technologie
Il s'agit de l'utilisation la plus connue de la puce à ADN. On compare
l'expression des gènes entre différentes conditions données ou au
cours du temps. Grâce à l'hybridation et à une analyse d'image
effectuée ensuite, ce procédé permet d'identifier quels gènes sont sur-
ou sous-exprimés dans une condition donnée. Une fois ces gènes
Expression des gènes
identifiés, d'autres analyses in silico sont nécessaires, telles que des
analyses de clustering pour regrouper les gènes présentant le même
profil d'expression. Enfin, les résultats seront souvent confirmés gène
par gène par des méthodes telles que la PCR quantitative ou le
Northern Blot. (méthodes d'analyse des gènes)
Immunoprécipitation de Les biopuces peuvent aussi utiliser le phénomène
chromatine d'immunoprécipitation de chromatine (Chromatin
immunoprecipitation on Chip, ou ChIP-On-Chip). Ce procédé permet
de déterminer la localisation du site de liaison de la protéine dans le
génome.
La puce à ADN peut aussi permettre de détecter du polymorphisme,
c'est-à-dire d'identifier des polymorphismes ponctuels d’allèles au
Polymorphisme sein d’une population ou entre populations, prédire le développement
de maladies au sein d'une population, évaluer les mutations ou encore
analyser les liens entre gènes.
Ces puces sont dédiées à la recherche de nouveaux transcrits (on
entend par là gène transcrit). C'est-à-dire que chaque segment de
chromosome (pas seulement les gènes connus) est ciblé par une
Tiling sonde. Un des intérêts est de découvrir de très nombreux ARN non
codants des protéines (comme les long ncARN par exemple). On
peut ainsi réussir à cartographier les transcrits, rechercher des exons,
ou encore rechercher les facteurs de transcription.
Il existe aussi des biopuces à gène chimère (ou gène de fusion). Le
principe derrière est celui de l'alternative splicing en anglais, ou
Biopuce à gène chimère
encore épissage alternatif en français. Une telle biopuce peut alors
détecter les gènes transcrits par fusion, donc de spécimens de cancer.
Une puce d'hybridation génomique comparative est une puce à ADN
Hybridation génomique employée dans le but d'analyser les variations du nombre de copies
comparative dans l'ADN. Cette technique est principalement utilisée pour
diagnostiquer les cancers et les maladies génétiques.
Ces puces à ADN sont utilisées pour détecter certains types
d'organismes dans la nourriture (comme des OGM), des mycoplasmes
GeneID en culture cellulaire, ou certains agents infectieux pour diagnostiquer
des maladies. La technique repose principalement sur la réaction en
chaîne par polymérase.
Domaines d'applications
La liste ci-dessous n'a pas vocation à être exhaustive, mais elle donne un panorama des
domaines d'applications des biopuces.
Fabrication
La puce est une lame, généralement en verre, de petite taille environ (6 cm x 3 cm), sur
laquelle sont fixés des sondes complémentaire d'un fragment d'acide nucléique (ADN ou
ARN) ciblé. Jusqu'à un million de sondes peuvent être fixés sur une puce permettant ainsi
l'analyse de plusieurs dizaines voire centaines de milliers de gènes.
Lire le média
Création d'une Puce à ADN par un robot à l'Université du Delaware (États-Unis)
Ce procédé utilise des sondes longues (une centaine de nucléotides) déposées sur la lame. Les
sondes sont synthétisées avant d'être déposées sur la surface par rangées d’infimes
gouttelettes, ou spots, (d'où le terme anglais microarray, « microtableau »). On utilise des
aiguilles fines contrôlées par un bras robotisé qui est plongé dans les spots. Les aiguilles vont
alors injecter dans chaque spot les sondes en excès. La «grille» finale représente les profils
d’acides nucléiques des sondes préparées et chaque sonde est prête à s'hybrider avec les
cibles.
Cette méthode est la plus simple, ce qui rend cette solution plus accessible aux laboratoires
académiques. Elle est utilisée par les scientifiques et chercheurs dans le monde entier pour
produire les puces adaptées à leur besoins. Les puces sont facilement personnalisées pour
chaque expérience car les chercheurs peuvent choisir le type et l'emplacement des sondes,
voire synthétiser les sondes eux-mêmes.
Les scientifiques peuvent ensuite générer leurs propres échantillons cibles, utilisés pour
l'hybridation avec les sondes, pour enfin analyser les puces avec leurs propres équipements.
Cela fournit une puce moins chère (en évitant les coûts d'achat de puces commerciales) et
aussi adaptée à leurs exigences.
Les puces qui sont fabriquées de cette manière ne peuvent cependant pas posséder la même
densité de sondes que les puces fabriquées par synthèse in situ.
Ces puces sont fabriquées en synthétisant les sondes d'ADN de petite taille (< 80-mers)
directement sur le support (biopuce) par synthèse chimique.
Des logiciels interprètent l'intensité des pixels de l'image afin d'en déduire une mesure
numérique de l'expression de chaque gène.
De grands volumes de données sont générés par l'analyse d'une puce à ADN, et de
nombreuses techniques sont utilisées pour interpréter les résultats de l'expérience. Ces
techniques incluent :
L'analyse d'image : une analyse automatique de l'image générée par la puce à ADN
est dans un premier temps nécessaire. Cela permet notamment de repérer et séparer les
spots, d'éliminer les spots défectueux, et d'annoter chaque spot avec son intensité
lumineuse globale, afin d'obtenir des résultats numériques exploitables pour un
traitement automatisé12.
La normalisation : afin de pouvoir comparer les résultats de plusieurs expériences, il
est ensuite nécessaire de normaliser les données. En effet, des biais entre plusieurs
expériences peuvent être introduits par la qualité et la quantité des échantillons, les
fluorochromes utilisés, leur sensibilité à la chaleur ou à la lumière, les conditions dans
lesquels les échantillons ont été scannés, etc. Plusieurs méthodes mathématiques
existent et reposent sur l'hypothèse principale que la majorité des différences de signal
observées sont liés à des biais techniques et non à des différences biologiques.
L'analyse statistique : de nombreux tests statistiques peuvent être appliqués aux
données, permettant par exemple de savoir si un gène est significativement plus
exprimé que les autres ou plus exprimé dans une condition que dans l'autre, via un test
de Student. Il est souvent intéressant voire nécessaire de recréer plusieurs fois
l'expérience en variant légèrement certains paramètres pour mener une analyse fiable.
Il existe des méthodes d'analyse statistique tenant compte des différents réplicats de
l'expérience et du caractère variable de l'expressivité d'un gène selon l'échantillon 13.
Le clustering : cette approche consiste à essayer de diviser les données en plusieurs
groupes homogènes (ou clusters) . Cela permet notamment de regrouper les gènes
impliqués dans le même processus biologique, ou de regrouper des échantillons
similaires entre eux. Les algorithmes les plus utilisées incluent K-means, qui a
l'inconvénient de nécessiter de connaître le nombre de clusters voulus à l'avance, et le
clustering hiérarchique, qui permet de créer une hiérarchie de clusters pour ensuite
retenir uniquement les clusters ayant un certain niveau dans la hiérarchie.
La classification supervisée ː cette approche utilise une base de connaissance pour
apprendre un modèle de prédiction. On peut, par exemple, à partir de plusieurs
échantillons venant de patients porteurs d'une maladie donnée, construire un modèle
statistique permettant de prédire si un nouvel échantillon appartient à un patient
malade ou non, et ainsi créer un système d'aide au diagnostic.14 Ces méthodes sont
basées sur un jeu de données d'apprentissage, qui permet de construire le modèle
prédictif, et un jeu de données de test, qui doit être entièrement différent du jeu de
données d'apprentissage et permet d'évaluer la qualité du modèle prédictif face à de
nouveaux exemples. Les méthodes les plus courantes incluent l'apprentissage d'un
arbre de décision, l'utilisation de réseaux bayésiens, ou les réseaux de neurones
artificiels.