Puce À ADN

Analyse des données d'expression issues des puces à ADN


inShare
1. Introduction
2. Préparation des échantillons et 4. L'interprétation biologique des données: l'ontologie

hybridation et l'annotation
3. L'analyse des données 5. "Chromatin ImmunoPrecipitation on Chip"
a. La détection du signal et l'analyse 6. Comparaison des puces à ADN et de la technique

d'images de séquençage "RNA-seq"
b. Le traitement des données brutes 7. Liens Internet et références bibliographiques
c. Analyse des données : la prédiction
1. Introduction
Préambule : les nouvelles technologies de séquençage à trés hauts débits vont-elles rendre
caduques les approches telles que les puces à ADN, "Chip on Chip" ou EST ?
Il y a des arguments pour (à long terme) et contre (l'acquis via les puces à ADN ou EST et la
précision de cet acquis). Voir le chapitre "Comparaison puces à ADN et RNA-seq".
A titre historique et conceptuel, il est malgré tout important de connaître les principes des
études du transcriptome par la technique des puces à ADN.
La première puce à ADN (figure ci-dessous) avec 45 sondes fluorescentes d'Arabidopsis

thaliana est apparue en 1995 (Schena et al. (1995) Science 270, 467 - 470).
Le développement des puces à ADN sur membrane de nylon puis sur lame de verre a permis
d'obtenir des mesures massivement parallèles de la concentration des ARN messagers d'une
cellule dans un état physiologique donné.
Diverses techniques permettaient à cette époque d'aborder l'étude de l'expression des gènes :
 la technique dite "northern blot"

 la transcription inverse suivie de réactions de polymérisation en chaîne ("reverse
transcription polymerase chain reactions", RT-PCR)
Cependant la principale avancée des puces à ADN a été de changer d'échelle : l'analyse
simultanée de l'ensemble de tous les transcrits d'un génome.
La technologie des puces à ADN a permis de générer des "images" de l'état de l'expression des
gènes d'une cellule.
L'application immédiate a été d'améliorer et de préciser le diagnostic, le pronostic et

l'orientation thérapeutique dans le cas de pathologies diverses.
"macro-array" ou filtre à
Type "micro-array" puce à oligonucléotides
haute densité
sondes oligonucléotidiques
dépôt direct de l'ADN sur dépôt direct de l'ADN
synthétisées in situ par
le support sur le support
principe photolithographie
1 condition expérimentale 2 conditions
1 condition expérimentale par
par puce expérimentales par puce
puce
marquage radioactif marquage par marquage par fluorescence
criblage par excès de fluorescence
cibles
fragments
jusqu'à 4,2 millions
d'ADN 2400 10000
oligonucléotides
déposés
aperçu
Source : DNA microarray principle

Principaux fabricants de puces à ADN
 Affymetrix (USA - californie) : côtée au NASDAQ (environ 14 dollars l'action). De

prestigieuses collaborations soulignent la position de "leader" de la technologie
Affymetrix (rapprochement des technologies des biopuces SpliceArrays d'ExonHit
Therapeutics et GeneChip d'Affymetrix / avril 2005 : accord entre Affymetrix et
bioMérieux - tests de diagnostic).
 Agilent Technologies (Arabidopsis 2 Oligo Microarray Kit) : puces à oligonucléotides

60-mer (plus de 21,500 sondes) qui couvre environ 80% du génome de Arabidopsis
thaliana. Les annotations sont celles de la base de données TIGR ATH1 v. 3 (au
TAIR).
Les puces à ADN sont des lames de verre activées sur lesquelles sont déposées de nombreuses
copies d'une séquence d'ADN spécifique d'un gène donné (figure ci-dessous).
Source : Frouin & Gidrol (2005) Biofutur 252

Les différents types d'aiguilles d'impression
Les clavettes ou aiguilles fendues transfèrent
quelques nanolitres de solution d'ADN sur
l'alignement par tension capillaire quand la
Les pointes et les aiguilles TeleChem
pointe entre en contact avec la surface.
appliquent de petites gouttes par contact entre
l'aiguille et le support.
La construction pointe et anneau prélève

l'ADN sur un petit anneau. Une aiguille plaque
la solution sur la lamelle avec une densité Une imprimante à jet d'encre pulvérise des
uniforme. goutelettes de quelques picolitres de liquide
sous pression.
Source des figures : "Précis de génomique" 1ère Ed. (2004) - G. Gibson & S. Muse - Ed. de
Boeck Université
Voir une vidéo de la fabrication de puces à ADN par un robot (Université du Delaware -
USA).
Figure ci-contre, une description de la technologie de synthèse des oligonucléotides sur les
puces ultra-haute densité.
Source : Agilent microarray technology
Exemples de puces à ADN pour l'étude du transcriptome d'Arabidopsis thaliana
1. La puce CATMA ("Complete Arabidopsis Transcriptome MicroArray" - 2006)
Elle contient 30 886 GSTs (étiquettes spécifiques de gènes - "Gene-specific Sequence Tags")
étiquetant la majorité des gènes prédits chez Arabidopsis thaliana. Les GSTs sont des
fragments génomiques de 150 à 500 paires de base amplifiés par réaction de polymérisation en
chaîne (voir la position des GST).
Au maxium, 50% de ces paires de base doivent être des séquences d'introns. Par ailleurs, elles
ont été sélectionnées de sorte que leurs séquences ne présentent pas plus de 70% d'identité
avec n'importe quelle autre séquence du génome d'Arabidopsis thaliana.
La puce CATMA est complétée par 615 sondes spécifiques des génomes chloroplastique et
mitochondrial. Cette puce permet :
 de découvrir de nouveaux gènes chez Arabidopsis thaliana

 l'étude d'un trés grand nombre de gènes différentiellement transcrits selon les organes
et dans des conditions de stress biotiques et abiotiques.
 Aubourg et al. (2007) "Analysis of CATMA transcriptome data identifies hundreds of
novel functional genes and improves gene models in the Arabidopsis genome" BMC
Genomics 8, 401
La base de données CATdb :
 rassemble les résultats obtenus avec la puce CATMA

 a été développée à l'Unité de Recherche en Génomique Végétale / INRA- Versailles
(URGV)
 Gagnot et al. (2008) "CATdb: a public access to Arabidopsis transcriptome data from
the URGV-CATMA platform" Nucleic Acids Research 36, D986-D990
2. Une puce dite "chromosomique"
 Elle est constituée de 20 500 produits PCR (taille moyenne 1 Kb) choisis pour couvrir
l'intégralité des 17 millions de paires de base séquencées du chromosome IV
d'Arabidopsis thaliana sans a priori sur son annotation.
 Elle sert à établir des cartes transcriptionnelles et épigénétiques de ce chromosome
(notamment par la technique d'immunoprécipitation de la chromatine dans le cas de
cartes épigénétiques).
 Epigénétique et épigénomique : étude de l'influence de l'environnement et de l'histoire
individuelle sur les modifications de l'expression des gènes d'une génération à l'autre.
Le préfixe "épi" signifie "sur, au-dessus, ...".
3. Une puce ATH1 d'Affymetrix
Cette puce a été conçue en collaboration avec le TIGR et contient plus de 22,500 sondes
oligonucléotidiques (25-mer) représentant environ 24,000 gènes d'Arabidopsis thaliana.
L'interface "NetAffx Analysis Center" contient les données ATH1-12150 du TIGR et permet
l'analyse des données.
Voir une comparaison des caractéristiques de la puce CATMA et d'autres puces Affymetrix
("TAIR Microarray Elements Statistics").
Tableau ci-dessous : survol des puces les plus utilisées pour l'étude de la transcription des
gènes chez diverses plantes et nombre d'expériences stockées dans la base de données
ArrayExpress / EBI. La puce ATH1 et la puce CATMA sont les plus utilisées et plusieurs
centaines d'expériences concernant Arabidopsis ont été publiées.
Source : Baginsky et al. (2010)
2. Préparation des échantillons et hybridation
Rappel sur la transcription et la traduction
Schématiquement, les deux grandes étapes de l'ADN aux ARN messagers puis des ARN
messagers aux protéines sont :
la transcription : synthèse de l'ARN messager à partir de l'ADN. Après la transcription,

l'enchaînement des 4 nucléotides de l'ARN messager (C, G, A et U) correspond exactement à
celui des 4 nucléotides (C, G, A et T) des exons de l'ADN.
la traduction : synthèse de la protéine à partir de l'ARN messager. L'enchaînement des

nucléotides de l'ARN messager est décodé dans les ribosomes par triplet : 3 nucléotides = 1
codon. Après la traduction, l'enchaînement des 20 acides aminés de la protéine correspond
exactement à celui des codons de l'ARN messager.
Les sondes
Les puces à ADN sont des lames de verre activées sur lesquelles sont déposés plusieurs
milliers de "spot" d'acides nucléiques : les acides nucléiques fixés sur les puces à ADN sont
appelés sondes ("probes").
 Les sondes peuvent être de l'ADN génomique (l'ensemble des gènes) ou des gènes
transcrits (Expressed Sequence Tags ou EST).
 Un spot correspond à de nombreuses sondes, c'est-à-dire à de nombreuses copies d'une
séquence d'ADN spécifique d'un gène donné.
 Avant l'hybridation avec les cibles (voir ci-dessous) , les sondes sont dénaturées : elles
sont sous forme simple brin et peuvent ainsi s'hybrider avec le brin complémentaire
d'une cible.
Voir une vidéo de la synthèse - dépôt des sondes par un robot.
Les cibles
Les acides nucléiques qui sont hybridés avec ces sondes sont appelés cibles ("targets").
Pour une exprérience donnée, une condition expérimentale (stress, pathologie, état de
différenciation cellulaire, ...) est comparée à une condition de référence : les ARN messagers
(les cibles) sont donc extraits des 2 types de cellules que l'on veut comparer.
Les ARN messagers sont rétro-transcrits en ADNc par une transcriptase inverse (figure ci-
contre). C'est une DNA polymérase qui synthétise un brin d'ADN complémentaire (ADNc) en
utilisant un brin d'ARN comme matrice.
Un hybride [premier brin d'ADNc - brin d'ARN] est ainsi formé dans un premier temps. Après
synthèse du premier brin d'ADNc, le brin d'ARN matrice est hydrolysé par la RNAse H. Le
second brin d'ADNc est ensuite synthétisé.
Source : "ADN recombinant", Watson et al. (1994) - Ed. DeBooeck Université

Au cours de cette rétro-transcription :
 les ADNc d'un type de cellule sont marqués par une molécule fluorescente
 les ADNc de l'autre type de cellule sont marqués par une autre molécule fluorescente
Le marquage des cibles consiste en l'incorporation de nucléotides portant :
 soit le fluorophore cyanine 3 (Cy3) sous forme de Cy3-dUTP

 soit le fluorophore cyanine 5 (Cy5) sous forme de Cy5-dUTP
Ces 2 molécules sont les plus classiquement utilisées.

longueur
d'onde
cyanine nom structure couleur
émission
fluorescence
indodicarbocyanine
3-1-O-(2-
cyanoethyl)- (N,N-
cyanine
diisopropyl)- 563 - 570 nm vert
3 (Cy3)
phosphoramidite
indodicarbocyanine
5-1-O-(2-
cyanoethyl)- (N,N-
cyanine
diisopropyl)- 662 - 670 nm rouge
5 (Cy5)
phosphoramidite
MMT : groupe 4-monomethoxytrityle - Source : Amersham Biosciences Ltd
Il existe 2 méthodes de marquage des cibles en fluorescence :
 directe : synthèse d'ADNc marqués par transcription reverse

 indirecte : (a) synthèse d'ADNc avec incorporation de nucléotides portant un
groupement amino-allyl. (b) fixation sur les groupements allyl, de groupements ester
liés au fluorochrome.
Les deux familles de cibles sont mélangées et déposées sur la lame.
S'il existe un brin d'ADN sonde complémentaire d'un brin d'ADNc cible, ils s'hybrident pour
former de l'ADN double brin fluorescent.
Cette hybridation est compétitive : plus la concentration d'un ADNc cible (donc celle de
l'ARN messager qui en est l'origine) est élevée, plus l'ADNc cible s'hybridera sur la sonde.
Source : Frouin & Gidrol (2005)
En conséquence, l'intensité de fluorescence traduit, respectivement :
 fluorescence verte : hybridation préferentielle d'un ADNc cible de référence (témoin)

 fluorescence rouge : hybridation préferentielle d'un ADNc cible issu de la condition
expérimentale
Le rapport des intensités de fluorescence traduit donc la concentration relative des ARN
messagers dans chaque condition. Ceux-ci sont soit sur-exprimés, soit exprimés de la même
manière, soit sous-exprimés.
Source : Vulgariz
Voir un exemple de conditions expérimentales et de résultats d'hybridation : "Identification of

genes differentially expressed between flowers and leaves".
Puce CATMA / Cy3 : feuilles / Cy5 : fleurs / Arabidopsis thaliana
3. L'analyse des données
Elle se décompose en 3 étapes :
 la détection du signal et l'analyse d'images

 le traitement des données brutes et le regroupement
 l'analyse des données sur la base, en particulier, d'algorithmes de classification
Certains outils bioinformatiques existent pour répondre à cette démarche.
Source : "L'analyse des résultats de puces à ADN" - ENS
Malgré tout, la diversité des applications des puces à ADN et des problèmatiques biologiques
auxquelles elles contribuent à apporter une réponse, a nécessité le développement
d'algorithmes et de logiciels spécifiques à cette technologie.
a. La détection du signal et l'analyse d'images
Lors de la lecture, chaque spot est excité par un laser et l'émission de fluorescence est mesurée.
On obtient 2 images en niveaux de gris qui correspondent au mélange des fluorescences
respectives des 2 fluorophores.
On remplace les niveaux de gris par :
 des niveaux de vert pour l'une des images

 des niveaux de rouge pour l'autre image
Après superposition, on obtient une image en fausses couleurs composée de spots :
 verts : seul l'ADNc cible de la condition de référence s'est hybridé aux sondes
 rouges : seul l'ADNc cible de la condition pathologique s'est hybridé aux sondes
 jaunes : les ADNc cibles des deux conditions sont hybridés aux sondes en quantités
égales
Source : Frouin, V. & Gidrol, X. (2005)
Ces étapes font appel à des techniques de traitement de l'image et utilisent des algorithmes de
morphologie mathématique.
Les technologies pour l'analyse des images sont de plus en plus performantes. La résolution est
augmentée, en conséquence :
 le nombre de pixels utilisables pour l'analyse est augmenté

 la sensibilité du rapport [signal / bruit de fond] est augmentée
Par ailleurs, de nouvelles surfaces sont utilisées pour remplacer le verre. Par exemple, des
cristaux de mélange d'oxyde de silice et de titane à fluorescence accrue.
Source : Agilent microarray technology
Source : MYcroarray
b. Le traitement des données brutes
Après l'étape d'analyse de l'image, chaque sonde est caractérisée par :
 2 mesures (cas général) d'intensité de fluorescence (une verte et une rouge)

 2 mesures (cas général) du "bruit de fond" : conditions expérimentales, étapes
d'acquisition des données, incorporation plus facile de Cy3, ...
Les signaux rouges et vert ne peuvent être interprétés séparément. Les puces à ADN
permettent de mesurer une variation de transcription d'un gène entre 2 conditions
expérimentales (référence et pathologique, par exemple). Elles fournissent donc des valeurs
relatives.
Pour chaque spot, le logarithme du rapport (r) de l'intensité de fluorescence de la condition

pathologique sur l'intensité de fluorescence de la condition de référence est calculé (rapport
fluorescence rouge / fluorescence verte) : log2(r).
Ce rapport permet d'évaluer la différence du taux de transcription d'un gène entre les 2
échantillons biologiques étudiés.
On considère pour un rapport :
 au moins supérieur à 2, qu'un gène est sur-exprimé dans une des cibles par rapport à
l'autre
 inférieur à 0,5, qu'un gène est sous-exprimé dans une des cibles par rapport à l'autre
Source : Le principe des puces à ADN (Cours ENS)
Voir un exemple : Puce CATMA / Cy3 - feuilles / Cy5 : fleurs / Arabidopsis thaliana
Normalisation des données de fluorescence
Ci-dessous : exemple de puces de 16000 oligonucléotides de Medicago truncatula et une

représentation des intensités des spots.
Source : The Samuel Roberts Noble Foundation
Elle a pour but, entre autre, de distinguer les variations aléatoires (biologiques et
expérimentales : celles que l'on veut mettre en évidence) des variations systématiques. Ces
dernières ont pour origine en particulier :
 les différences dans les rendements de marquage par le Cy3-dUTP et le Cy5-dUTP

(l'encombrement stérique de ces nucléotides est différent, voir les structures ci-dessus)
 les différences de demi-vie du Cy3-dUTP et du Cy5-dUTP
 les différences de quantités de sondes déposées par les différentes aiguilles (voir
l'image ci-dessus)
 une détection des signaux de fluorescence (ou de radioactivité) qui, sur une trés large
gamme, n'est pas proportionnelle aux quantités de molécules marquées
 les problèmes intrinsèques à l'analyse d'image (repérage des spots quand il y en a
plusieurs dizaines de milliers sur 1 cm2, distinction entre le bruit de fond et le signal
spécifique, ...)
L'hypothèse de base de la normalisation est que la majorité des gènes ont un niveau
d'expression invariant entre 2 conditions (référence et pathologique, par exemple), soit : log 2(r)
= 0.
La normalisation a donc pour but de ramener la moyenne de cette grandeur à 0.

Exemple de valeurs normalisées : le rapport permet de mettre en évidence les gènes pour
lesquels le canal rouge (condition pathologique) donne une valeur supérieure au canal vert. Le
log2(r) donne une distribution symétrique autour de zéro. Enfin, la soustraction du rapport
moyen des logarithmes permet de tenir compte de l'intensité plus importante du canal rouge.
intensité Rouge intensité Vert Différence Rapport ( V/R) log2(r) Centrage de R
16500 15104 -1396 0,915 -0,128 -0,048
357 158 -199 0,443 -1,175 -1,095
8250 8025 -225 0,973 -0,039 0,040
Le filtrage
Un rapport d'une valeur donnée peut être obtenu par des valeurs d'intensité [rouge/vert] trés
proches du bruit de fond (peu fiables alors) ou, au contraire, trés élevées (plus significatives).
Exemple : le rapport 1,6 = (160/100) ou (16000/10000).
Le filtrage a pour but d'éliminer les sondes pour lesquelles une des mesures d'intensité de
fluorescence est inférieure à un seuil (arbitraire ou déterminé à partir d'un modèle).
Risque statistique
Les traitements précédents aboutissent à une liste de rapports (r) pour chaque gène. La suite
consiste à déterminer, à l'aide de logiciels utilisant des techniques statistiques, les gènes
différentiellement exprimés (ceux dont les valeurs de log2(r) sont significativement différents
de 0).
Cependant, le choix d'une méthode d'analyse est liée aux conditions dans lesquelles a été
menée l'expérience (réplicats, facteurs expérimentaux, ...). De plus, ces outils informatiques ne
donnent pas de valeur seuil sur le résultat d'un test pour évaluer si l'expression d'un gène est
modulée ou non. Il incombe à l'expérimentateur de choisir son niveau de risque.
La standardisation
La méthode de standardisation "MIAME" ("Minimum information about a microarray

experiment") est une charte qui décrit l'information minimale (à propos d'une expérience de
puce à ADN) requise pour que les résultats de cette expérience soient interprétables, d'une
manière non-ambigüe et de sorte que cette expérience soit reproductible.
Tout expérimentateur qui désire déposer ces données issues de puces à ADN dans une banque
doit répondre à cette charte en indiquant (entre autre) :
 le but et une brève description de l'expérience

 le ou les facteur(s) expérimental(aux) étudié(s)
 l'origine et les caractéristiques des échantillons biologiques
 les protocoles d'extractions des ARN, d'hybridation
 les méthodes d'acquisition des données brutes de la puce, de normalisation de ces
données (logiciels et matériels)
 les caractéristiques de la puce (verre, plastique, ...)
 une présentation sous forme de tableau des résultats (numéro d'accession des gènes
identifiés, description des produits de ces gènes, bruit de fond et mesure de l'intensité
de fluorescence, rapport d'intensité, ...)
c. Analyse des données : la prédiction
Outre l'obtention de listes de gènes différentiellement transcrits, on peut suivre le profil de

transcription d'un gène : l'ensemble des valeurs de transcription mesurées dans des conditions
diverses ou au cours d'une étude cinétique.
Dans ce cas, l'une des 2 sources d'ARN hybridés est fixée de sorte que toutes les valeurs de
log2(r) soient comparables. Cette source est alors considérée comme la référence.
On peut dés lors s'intéresser :
 au développement de méthodes de prédiction de phénotype(s) différent(s) et connu(s)

en terme de profils d'expression de certains gènes (apprentissage supervisé).
 à l'identification puis le regroupement ("clusterisation") de phénotype(s) inconnu(s) à

partir de profils d'expression (apprentissage non supervisé). L'intéret est de générer des
hypothèses sur des gènes regroupés dans un "cluster": un gène, dont la fonction est
inconnue, qui se retrouve avec un grand nombre d'autres gènes impliqués dans une
fonction cellulaire particulière, a une forte probabilité d'être lui-aussi impliqué dans
cette fonction.
Exemples de logiciels de regroupement : "J-Express" - "MultiExperiment Viewer" - "Genesis"
Figures ci-dessous : une série de profils d'expression de gènes désordonnés (figure de gauche)
peut être convertie en une série de groupes par le regroupement hiérachique (Eisen et al.,
1998).
Le résultat (à droite) est un arbre qui montre l'évolution de l'expression dans le temps pour
certains gènes hypothétiques.
 Les gènes de la classe "down" se regroupent.

 Il est probable que les gènes "unknown14", "unknown10" et "unknown13" de la classe
"unknown" aient des fonctions similaires à ceux de la classe "down".
 Il en va de même pour les classes "yoyo", "mid" et "late" en ce qui concerne les autres
gènes de la classe "unknown".
Source : "Précis de génomique" (2004) - G. Gibson & S. Muse
Figure ci-dessous : différence de profils d'expression des gènes mitochondriaux de la famille

des transporteurs de Arabidopsis thaliana. Les résultats mettent en évidence les variations
selon type de tissus et la réponse à des stress hormonaux et environnementaux.
Source : Millar & Heazlewood (2003) "Genomic and Proteomic Analysis of Mitochondrial
Carrier Proteins in Arabidopsis" Plant Physiol. 131, 443 - 453
4. L'interprétation biologique des données : l'ontologie et l'annotation
L'interprétation biologiques des données issues des puces à ADN (et d'autres technologies)
nécessite de corréler les résultats de ces données à des informations encyclopédiques
contenues dans certaines bases de données.
Source : CBB group (Berlin)

a. L'ontologie
Une ontologie est un ensemble structuré de termes et de concepts qui représentent le sens d'un
champ d'informations, que ce soit par :
 les métadonnées (données qui définissent une autre donnée) d'un espace de noms
(ensembles de termes appartenant à un même répertoire)
 les éléments d'un domaine de connaissances
Chaque terme de l'ontologie est associé à des "lexicons" (synonymes, homonymes,

hyperonymes, ...). Le réseau autour d'un terme est appelé concept.
Les concepts sont formalisés sous forme d'un graphe au sein duquel il existe des relations
sémantiques ou d'inclusion ("appartient à").
"is-a" ("est un")
symbole
"part-of" ("fait partie de") symbole
b. Le consortium Gene Ontology
De manière schématique, on peut considérer qu'en génomique, l'ontologie est associée aux
notions de terminologie et de classification.
Le consortium Gene Ontology (GO) :
 augmente la communicabilité entre bases de données

 distribue une classification qui est l'une des références en génomique fonctionnelle
 définit un vocabulaire contrôlé (l'ontologie)
 unifie ainsi la multiplicité des termes employés pour décrire un concept
Exemple : tous les termes

suivants
D'où le terme GO :
 glucose synthesis "gluconeogenesis"
décrivent la formation du
 glucose biosynthesis
glucose (néoglucogénèse)
 glucose formation dont l'identifiant est :
 glucose anabolism GO:0006094
 gluconeogenesis
Le produit d'un gène :
 est adressé à un ou plusieurs compartiments cellulaires ("Cellular Component" - CC)

 participe à un ou plusieurs processus biologiques ("Biological Process" - BP)
 il y remplit une ou plusieurs fonctions moléculaires ("Molecular Function" - MF)
GO décrit donc les produits des gènes via un ensemble de termes au sein d'un graphe dirigé
acyclique ("Directed Acyclic Graph" - DAG) qui contient 3 axes hiérarchiquement
indépendants (CC, BP et MF).
Les termes de GO (les noeuds de l'ontologie) sont liés par un ensemble de relations.
En particulier : "Is a", "Part of", "Regulates", "Positively Regulates" et "Negatively

Regulates".
Chaque terme hérite de la signification de tous les termes qui le séparent de la racine de
l'ontologie (notion d'ancêtre, parent et enfant).
Le niveau de preuve d'une annotation est précisée par des codes ("Evidence Codes") répartis
en catégories : "Experimental", "Computational analysis", "Author statement" (déclaration
d'auteur), "Curatorial statement" (déclaration de curateur), "Automatically-assigned".
La dernière catégorie est "Automatically-assigned" (annotation automatique) dont le sous-code

"Inferred from Electronic Annotation" (IEA) représente environ 95% de l'annotation.
Voir "Evidence Code Decision Tree".

Exemple de code information déduite
IMP du phénotype des mutants
IGI d'interactions génétiques
IPI d'interactions physiques
ISS par analogie de séquences ou de structure
IDA par expérimentation directe
IEP du profil d'expression
IEA par l'annotation in silico
TAS à partir de la publication de résultats fiables
NAS à partir de la publication de résultats non vérifiables
Enfin, on ne soulignera jamais assez le le rôle primordial des scientifiques que l'on nomme
curateurs. Ils effectuent, grâce à leur immense culture, un travail dans l'ombre qui assure la
qualité, la rigueur et la pertinence des informations associées aux données de génomique,
transcriptomique, protéomique et autres contenues dans les bases de données.
GO est extrêmement complexe et nécessite un "navigateur" dans l'arbre de l'ontologie. Le plus

utilisé pour GO est AmiGO2.
c. Exemples de logiciels et d'interfaces web pour l'annotation
1. Le consortium GO propose un ensemble de logiciels ("Gene Ontology Tools") pour traiter

et analyser des données de divers types, en particulier celles issues des puces à ADN. Ces
logiciels sont utilisables directement via une interface Web ou à installer sur l'ordinateur pour
divers types de systèmes d'exploitation (Unix, Linux, Windows, Mac)
2. L'une des interfaces les plus didactiques et intuitives pour l'annotation : "QuickGO (GO
Browser)".
3. Autre exemple de logiciel - interface web : "GOrilla". Un exemple trés didactique de

classification hiérarchique et d'ontologie est montré avec le lien "Running example".
4. Voir un cours sur l'annotation.
d. Exemples de bases de données de niveau de transcription de gènes
 Gene Expression Omnibus (GEO) : base de données d'expression et d'abondance de

molécules (ARNm, ADN génomique et protéines) et aussi un système de recherche de
ces données d'expression. Les données soumises répondent à la charte de
standardisation "MIAME" et à un cahier des charges trés strict. Les données de GEO
sont issues de diverses technologies : puces à ADN, méthode SAGE et spectromètrie
de masse.
 La base de données ArrayExpress / EBI.
e. La collection de bases de données KEGG
Il propose pour les voies métaboliques et les métabolites impliqués dans ces voies, des graphes
d'interaction entre les enzymes impliquées dans ces voies et, par extension, entre les gènes qui
codent ces enzymes.
Source : KEGG
C'est un outil puissant pour la métabolomique.
Exemple : la biotine existe sous forme libre ou sous forme de groupement prosthétique lié à
certaines carboxylases qui catalysent des réactions de synthèse des acides gras ou de certains
acides aminés.
En allant sur le site, l'image originale est interactive.
En cliquant sur les N° EC ou les noms, on accéde à une multitude d'informations sur les
molécules choisies.
5. "Chromatin ImmunoPrecipitation on Chip"
Cette méthode appelée aussi "ChIP on chip" permet d'identifier les protéines qui se fixent à
l'ADN. Elle est extrêmement utile pour l'étude des sites de fixation des facteurs de
transcription, ou les histones (étude des profils épigénétiques), par exemple.
Figure ci-contre : Techniques de traitement des acides nucléiques avant séquençage pour
l'analyse de parties spécifiques des génomes.
Source : ENCODE
Par exemple :
 l'hétérochromatine : les régions riches en nucléosomes (complexe ADN - histones)

 l'euchromatine : les régions pauves en nucléosomes
La méthode "ChIP on chip" combine celle de l'immunoprécipitation de la chromatine et celle

des puces à ADN.
On crée d'abord une liaison covalente in vivo entre les protéines et la partie de l'ADN avec
lesquelles elles interagissent. On utilise la formaldéhyde en général.
Source : Wikipédia
L'ADN de la cellule est extrait puis découpé en courts fragments. On sélectionne les fragments
d'ADN qui sont associés à la protéine étudiée avec un anticorps spécifique de cette protéine.
Les complexes [ADN-protéine-anticorps] sont précipités. Cette précipitation élimine l'ADN

qui ne s'est pas associé à la protéine étudiée.
La partie protéique du complexe [ADN-protéine-anticorps] est protéolysé afin de ne conserver

que l'ADN.
En conséquence, les courts fragments d'ADN récupérés sont ceux qui interagissent avec la
protéine étudiée. Ces fragments sont identifiés par la technique des puces à ADN.
Eléments du génome cartographiées Techniques utilisées
Régions transcrites en ARN RNA-seq / CAGE / RNA-PET
Régions codant des protéines Spectromètrie de masse
Sites de fixation des facteurs de transcription ChIP-seq / DNase-seq
DNase-seq / FAIRE-seq / Histone ChIP-seq /
Structure de la chromatine
MNase-seq
Sites de méthylation de l'ADN RRBS
Définitions des acronymes des nouvelles technologies
 RNA-seq : RNA sequencing (voir ci-dessous)

 CAGE : Cap Analysis Gene Expression
 PET : Paired-End Tags / technologies : RNA-PET, DNA-PET, ChIP-PET, ChIA-PET
 ChIA-PET : Chromatin Interaction Analysis by Paired-End Tag Sequencing*
 ChIP-seq : Chromatin ImmunoPrecipitation sequencing (base de données ChIPBase)
 DNase-seq : DNase I hypersensitive sites sequencing
 FAIRE-seq : Formaldehyde-Assisted Isolation of Regulatory Elements sequencing
 MNase-seq : Micrococcal nuclease digestion followed by sequencing
 MAINE-seq : MNase-Assisted Isolation of Nucleosomes sequencing (purification of
mononucleosomes to extract histone-bound DNA)
 Epigénomique : techniques utilisant la méthylation de l'ADN ("DNA methylation") :
1. RRBS : Reduced Representation Bisulfite Sequencing - analyse au niveau d'un
seul nucléotide
2. MeDIP-seq : Methylated DNA ImmunoPrecipitation sequencing - anticorps
dirigé contre la 5-méthylcytosine
3. MethylCap-seq : Methylated DNA Capture by affinity purification sequencing -
capture des fragments d'ADN méthylés via leurs domaines de fixation CpG
méthylés
4. "Infinium Human Methylation27 BeadChip" puis "Infinium Human
Methylation450 BeadChip® (HumanMethylation 450K)" (Illumina) : étude de
480.000 sites CpG méthylés (sur environ 28 millions) du méthylome humain
ChIPBase : base de données et plate-forme pour le décodage des cartes de liaison, des facteurs
de transcription, des profils d'expression, de la régulation de la transcription de longs ARN
non codants ("long non-coding RNAs" : lncRNAs, lincRNAs), de microRNA et autres ARN
non codant (snoRNAs, tRNAs, snRNAs, ...) et des gènes codant des protéines.
*Le "chromosome interactome" : le super-enroulement et compacité de l'ADN dans les
chromosomes (chromatine, histone) : une fois déplié, la molécule d'ADN d'une cellule de
l'homme mesure environ 2 m, soit 200.000 fois le diamètre moyen du noyau d'une cellule de
mammifère.
Source : de Wit & de Laat (2012)
L'exploration du "chromosome interactome" et des interactions chromatine-chromatine à

longue distance in vivo est liée au développement de nouvelles technologies incluant le
séquençage à très haut débit :
 "Chromosome Conformation Capture" (3C)

 "Circularized Chromosome Conformation Capture" ou "Chromosome conformation
capture-on-chip" (4C)
 "Carbon-Copy Chromosome Conformation Capture" (5C)
 ChIA-PET
 Hi-C
6. Comparaison des puces à ADN et de la technique de séquençage "RNA-seq"
Voir un développement concernant la technologie RNA-seq.
a. Les puces à ADN et la technique RNA-seq ont toutes deux une haute reproductibilité de
résultats avec des réplicats biologiques.
b. Les puces à ADN permettent difficilement de distinguer le cas "pas de transcription" du cas
"très faible transcription".
c. En raison de la différence de transcription des gènes et/ou du nombre de gènes codant un

même type d'ARN messagers, il n'existe dans une cellule que quelques copies de certains ARN
messagers et des dizaines de milliers de copies d'autres ARN messagers :
 La sensibilité de détection des ARN messagers rares est donc un paramètre capital.
 La sensibilité de détection de la technique RNA-seq dépend de la profondeur du
séquençage et celle des puces à ADN est quasiment constante. Celà signifie qu'en
théorie, si on atteind une profondeur de séquençage suffisante, la technique RNA-seq
permet de déterminer le nombre réels de toutes les molécules d'ARN dans un
échantillon.
d. De multiples transcrits sont générés à partir de certains gènes par épissage alternatif. L'un
des avantages de la technique RNA-Seq est sa capacité à détecter ces isoformes
différentiellement transcrites :
 en effet, sur une puce à ADN, une sonde courte donnée cible soit un exon constitutif
(présent dans tous les transcrits issus de l'épissage alternatif), soit un exon spécifique
de l'un des transcrits. Dans le second cas, ce transcrit est détecté mais les autres
transcrits issus du même gène sont ignorés.
 en conséquence, les ensembles de sondes de puces à ADN ne peuvent pas représenter
tous les transcrits de tous les gènes.
e. Les puces à ADN sont sujettes à une saturation d'hybridation en ce qui concerne les
transcrits très abondants. Elles ne peuvent pas fournir des mesures quantitatives fiables des
changements subtils de la transcription de gènes abondants.
f. La technique RNA-Seq permet d'identifier des variants d'un seul nucléotide ("single
nucleotide polymorphism" - SNP). La technique RNA-Seq présente deux avantages dans la
détection de variants génétiques :
 aucune connaissance préalable concernant des variants potentiels n'est requise

 la détection est faite sur l'ensemble du génome même pour les rares SNP
g. La technique RNA-Seq permet :
 de détecter une transcription allèle-spécifique

 d'identifier les différences ARN-ADN et ainsi d'étudier l'édition des ARN (exemples :
A => I et C => U)
 d'identifier significativement plus de gènes
Pour l'instant la technique RNA-seq présente deux inconvénients :
 elle a un côut plus élevé par échantillon

 elle nécessite un temps très long d'analyse des données (et donc des moyens de calculs
énormes)
Par ailleurs, l'un des atouts actuels (mais qui ne peut que diminuer avec le temps) des puces à
ADN est l'acquis des dizaines de milliers d'expériences qui ont été menées avec cette
technique et les différentes annotations des transcriptomes issues de toutes ces expériences.
L'un des atouts de la technique RNA-seq (ou d'une autre technologie à venir) est l'évolution
très rapide des technologies de séquençage à très haut débit : le développement des méthodes
avec multiplexage par répartition codes barres, des lectures ("reads") plus longues et un plus
grand nombre de lectures appariées ("paired end reads").
Pour l'instant les puces à ADN et la technique RNA-seq restent donc complémentaires et
peuvent même être combinées avec des résultats très importants.
Une biopuce, puce à ADN, ou micromatrice d’ADN, est un ensemble de molécules d’ADN
fixées en rangées ordonnées sur une petite surface qui peut être du verre, du silicium ou du
plastique. Cette biotechnologie récente permet d’analyser le niveau d’expression des
gènes (transcrits) dans une cellule, un tissu, un organe, un organisme ou encore un mélange
complexe, à un moment donné et dans un état donné par rapport à un échantillon de référence.
Les puces à ADN sont aussi appelées puces à gènes, biopuces, ou par les termes anglais
« DNA chip, DNA-microarray, biochip ». Les termes français microréseau d’ADN et
micromatrice d’ADN sont aussi des termes proposés par l’Office québécois de la langue
française.
Le principe de la puce à ADN repose sur la propriété que possède l’ADN dénaturé de
reformer spontanément sa double hélice lorsqu’il est porté face à un brin complémentaire
(réaction d’hybridation). Les quatre bases nucléiques de l’ADN (A, G, C, T) ont en effet la
particularité de s’unir deux à deux par des liaisons hydrogènes (A = T et T = A ; G ≡ C et C ≡
G). Si un patient est porteur d’une maladie, les brins extraits de l’ARN d’un patient (et
rétrotranscrits en ADN), vont s’hybrider avec les brins d’ADN synthétiques représentatifs de
la maladie.
Principe
Concrètement, les ARN totaux sont extraits de cellules, dont on veut comparer l’expression
des gènes avec un étalon, et subissent une amplification qui va permettre d’obtenir une
quantité de matériel génétique suffisante pour l’expérience. Ensuite ces ARNm sont
transformés en ADN complémentaires (ADNc) par la technique de rétrotranscription et
marqués par un colorant (soit la Cyanine 3 (fluorochrome vert) soit la Cyanine 5
(fluorochrome rouge)). On met ensuite les ADNc obtenus dans une puce contenant des
fragments d’ADN, en même temps que l’ADNc étalon. Chaque point (ou spot) de la puce va
être analysé individuellement par un scanner à très haute résolution, et ce à la longueur d’onde
d’excitation de la Cyanine 3 puis de la Cyanine 5. L’image scannée va être traduite en
niveaux de gris.
On va ensuite comparer l’intensité du signal entre le vert et le rouge. En fonction de l’intensité

du signal il y aura plus ou moins de pixels pour chaque point de la puce. À chaque point (ou
spot) est attribué une valeur d’intensité normalisée par rapport à l’ADN « étalon » : on parle
de spike. Chacune des valeurs peut être analysée par des techniques de bio-informatique, ce
qui permet d’estimer avec plus ou moins de précision l’intensité d’expression d’un gène.
Selon les techniques de biologie moléculaire, un marquage à la biotine des ADNc est possible
mais dans ce cas pour comparer deux populations ou deux tissus, il faudra hybrider pour
chaque condition une puce (et non pas les deux marquages sur la même puce en compétition.)
Par exemple on peut marquer l’ADN complémentaire du malade en vert et du traité en rouge,
ou bien, du témoin en rouge et du traité en vert. Ce marquage se fait habituellement grâce à
une enzyme : la polymérase T7 qui amplifie l’ARNm et incorpore les cyanines pour un
marquage optimal. Une fois marqués ces ADN complémentaires sont déposés sur la lame de
verre qui, elle-même, possède fixée à sa surface, des fragments de génome humain recouvrant
tous les gènes présents dans une cellule.
Les molécules d’ADN fixées sur la lame sont appelées des sondes même si la nomenclature
peut varier. Des dizaines de milliers de sondes peuvent être fixées sur une même puce. Cela
permet de tester différentes cultures cellulaires sur une même lame voire de faire des réplicats
(ce qui est vivement recommandé pour l’analyse biostatistique en aval). Cette technologie
provient d’une adaptation du Northern Blot où de l’ADN fragmenté est fixé à un support puis
hybridé avec un ADNc. La mesure de l’expression de gènes par puce à ADN s’applique à de
nombreux domaines de la biologie et de la médecine comme l’étude de traitements, de
maladies ou bien encore de stades développementaux.
Utilisation
La comparaison de deux expériences de puce à ADN (par exemple deux cellules du même
type l’une saine et l’autre malade) peut permettre de découvrir des gènes exprimés
différemment selon les conditions (par exemple uniquement dans la cellule malade), de fait,
en une seule expérience, il est possible d’identifier les gènes dont l’expression est modifiée.
Pour être validée, l’expérience doit être réalisée sur plusieurs réplicats techniques et
biologiques et doit être soumise à une analyse statistique qui comprend une normalisation des
signaux à l’aide d’algorithmes informatiques et une mise en évidence des gènes sur- ou sous-
exprimés. Une fois ces gènes identifiés, d’autres analyses in silico sont nécessaires, telles que
des analyses de clustering pour regrouper les gènes présentant le même profil d’expression.
Enfin, les résultats seront souvent confirmés gène par gène par des méthodes telles que la
PCR quantitative ou le Northern Blot. Les puces apportent principalement des données
qualitatives (variation d’expression d’un gène) mais il est difficile de quantifier avec
précision l’expression d’un gène avec la technologie des puces à ADN.
Généralement, après une étude de puce à ADN, la bio-informatique extrait une liste de gènes
intéressants (en fonction de ce que l’on cherche). Pour confirmer ces gènes on fait appel à la
technique de qPCR encore appelée PCR quantitative ou encore appelée RT-PCR pour Real-
Time PCR (PCR en temps réel).
Fabrication
La puce est une plaque de petite taille environ 6 cm x 3 cm sur laquelle sont fixés des brins
monocaténaires (un seul brin au lieu des deux habituels) d’ADN, chacun correspondant au
brin complémentaire d’un ARN messager (ARNm). Il peut être fixé sur une puce plusieurs
dizaines de milliers de fragments d’ADN (donc autant de gènes dont on peut étudier
l’expression).
Chez la société Agilent, le dépôt des sondes sur la lame se fait de manière similaire à celle de
l’impression à jet d’encre. De cette manière, des robots spotteurs, avec leurs multiples pointes,
déposent par rangées d’infimes gouttelettes d’une solution d’ADN (d’où le terme anglais
microarray, « microtableau ») à des positions spécifiques de la puce (adresses). L’ADN est
ensuite séché et traité de manière à ce qu’il se fixe sur la puce.
Les ARNm (provenant des gènes exprimés) sont extraits de la cellule à analyser et des
fluorochromes sont fixés sur les bases. Puis le mélange témoin marqué et traité est versé sur la
puce : chaque brin d’ADNc va s’hybrider au brin monocaténaire d’ADN qui lui est
complémentaire pour former un double brin. La plaque est ensuite lavée par des bains
spécifiques pour éliminer les brins d’ADNc ne s’étant pas hybridés car non complémentaires
de ceux fixés sur la lame.
Elle est ensuite scannée au laser et une image de la puce est créée : chaque fois qu’il y a eu
hybridation, le fluorochrome fixé sur l’ARNm a émis dans la longueur d’onde du laser et cela
est visible par un point de couleur (rouge pour des fluorochromes émettant dans le rouge…)
Les puces à ADN peuvent être fabriquées par des techniques diverses qui incluent
l’impression sur des plaques de verre à l’aide de pointes, la photolithographie à l’aide de
caches, de micro-miroirs, d’impression par jet d’encre, d’électrochimie sur des puces micro-
électroniques.
Les puces à ADN peuvent être utilisées pour détecter les ARN qui seront ou pas traduits en
protéines. Les scientifiques parlent d’analyse d’expression ou de profil d’expression. Puisque
des dizaines de milliers de sondes sont fixées sur une puce, chaque hybridation sur une puce
renseigne autant qu’un nombre équivalent de tests de génétique quantitative. Les puces à
ADN constituent ainsi une approche massive et ont contribué à la révolution de la génomique.
Le premier profil d’expression par puce à ADN a été publié en 1995 dans le magazine
américain Science. Le premier génome eucaryote fixé sur une puce fut celui de la levure
(Saccharomyces cerevisiae) ; ce profil d’expression a été publié en 1997 dans la revue
Science.
Image d’une hybridation sur une puce à ADN ↑
Rappel : la puce à ADN contient les sondes ADN (oligonucléotides ou ADNc) fixées sur le
support.
Marquage des ADNc
Grâce à des fluorochromes, marqueurs d’ADN qui fluorescent sous un laser, on peut marquer
des ADNc provenant de la rétrotranscription d’ARNm. En pratique, deux lots d’ADNc
correspondant à deux traitements différents (par exemple, lot 1 en vert : ADNc de plantes
témoins non traitées; lot 2 en rouge : ADNc de plantes inoculées avec un agent pathogène)
sont colorés par deux fluorochromes différents. Ces deux lots sont ensuite mélangés puis
hybridés sur la puce à ADN. L’hybridation dure entre 15 et 20 heures selon l’organisme que
l’on étudie (bactérie, plante, tissu humain…)
Spécificité de l’hybridation
Suivant la stringence de la solution destinée à laver la puce, l’hybridation entre les lots
d’ADNc et les sondes sera plus ou moins spécifique.
Comment les analyse-t-on ?
Une image haute résolution est obtenue grâce à des scanners très haute résolution (2 microns
actuellement). Des logiciels interprètent l’intensité des pixels de chaque point de la puce
contenant une séquence d’un gène différent et en déduisent une mesure numérique de
l’expression de chaque gène proportionnelle à la présence du gène dans les cellules au
moment de l’extraction d’ARN. Une puce peut contenir jusqu’à 1 million de « spots » c’est-à-
dire un million de gènes ou parties d’un gène ! Si le lot d’ADNc no 1 (plantes non traitées) est
marquée en vert et que le lot d’ADNc no 2 (plantes traitées) est marquée en rouge alors :
 Les gènes dont l’expression est augmentée suite au traitement apparaissent alors plus
rouge que vert sous un laser.
 Les gènes dont l’expression est diminuée suite au traitement apparaissent alors plus
vert que rouge sous un laser.
 Les gènes peu affectés par le traitement (expression stable) apparaissent alors autant
vert que rouge sous un laser.
 Les gènes peu exprimés n’apparaissent pas.
Et aussi…
Il existe deux grandes familles de puces à ADN, l’une ne pouvant recevoir qu’un échantillon
de cellule par plaque (mais pouvant contenir beaucoup plus de gènes fixés sur la plaque) et
l’autre pouvant recevoir deux échantillons différents, chacun labellisé avec un fluorochrome
de couleur différente : sur l’image, un point vert sera donc un gène exprimé dans la cellule
saine tandis qu’un point rouge sera un gène exprimé dans la cellule malade. Un point jaune est
exprimé dans les deux cellules et un point noir dans aucune…
Il existe aussi de très récentes puces à protéines qui permettent d’étudier le protéome d’une
cellule donnée. Ce sont cette fois-ci des antigènes qui sont fixés sur la plaque.
Puce à ADN
Sauter à la navigation Sauter à la recherche
Principe d'utilisation de la puce à ADN.

Une puce à ADN est un ensemble de molécules d'ADN fixées en rangées ordonnées sur une
petite surface qui peut être du verre, du silicium ou du plastique. Cette biotechnologie récente
permet d'analyser le niveau d'expression des gènes (transcrits) dans une cellule, un tissu, un
organe, un organisme ou encore un mélange complexe, à un moment donné et dans un état
donné par rapport à un échantillon de référence.
Les puces à ADN sont aussi appelées puces à gènes, biopuces ou par les termes anglais
« DNA chip, DNA-microarray, biochip ». Les termes français microréseau d'ADN et
micromatrice d'ADN sont aussi des termes proposés par l'Office québécois de la langue
française1.
Le principe de la puce à ADN repose sur la propriété que possède l'ADN dénaturé (simple
brin) de reformer spontanément sa double hélice lorsqu'il est en présence d'un brin
complémentaire (réaction d'hybridation). Les quatre bases nucléiques de l'ADN (A, G, C, T)
ont en effet la particularité de s'apparier deux à deux par des liaisons hydrogène (A = T et T =
A ; G ≡ C et C ≡ G).
On parle de sonde (fragment d'ADN synthétique représentatif des gènes dont on cherche à
étudier l'expression, fixé de façon covalente à la surface de la biopuce) et de cible (ARNm
que l’on cherche à identifier et/ou à quantifier (échantillon)). Les cibles sont marquées par
fluorescence (voir plus bas).
Les puces à ADN peuvent être utilisées pour mesurer/détecter les ARN qui seront ou pas
traduits en protéines. Les scientifiques parlent d'analyse d'expression ou de profil
d'expression. Puisqu'il est possible de fixer jusqu'à un million de sondes sur une biopuce, les
puces à ADN constituent ainsi une approche massive et ont contribué à la révolution de la
génomique2, puisqu'elles permettent en une seule expérience d'avoir une estimation sur
l'expression de plusieurs dizaines de milliers de gènes. Mais il existe également un grand
nombre d'applications différentes qui font intervenir la technologie des puces à ADN (criblage
de mutations, reséquençage, interactions ADN/protéine, écologie microbienne).
Sommaire
 1 Principe
 2 Historique
 3 Utilisation et applications
o 3.1 Différentes technologies
o 3.2 Domaines d'applications
 4 Fabrication
o 4.1 Par dépôt (spotted)
o 4.2 Par synthèse in situ
 5 Traitement informatique pour l'analyse des résultats
 6 Références
 7 Voir aussi
o 7.1 Liens externes
o 7.2 Articles connexes
Principe
En pratique, les ARN totaux sont extraits des cellules étudiées et subissent parfois une
amplification qui va permettre d'obtenir une quantité de matériel génétique suffisante pour
l'expérience. Ces ARNm sont ensuite transformés en ADN complémentaires (ADNc) par la
technique de rétrotranscription et marqués. Ce marquage est aujourd'hui assuré par une
molécule fluorescente (fluorochrome). Il existe deux fluorochromes majoritairement utilisés :
la Cyanine 3 (Cy3) qui fluoresce dans le vert et la Cyanine 5 (Cy5) qui fluoresce dans le
rouge. Les cibles ainsi marquées (ADNc) sont ensuite mises en contact avec la puce (portant
l'ensemble des sondes à sa surface), cette étape est nommée hybridation. Chaque brin d'ADNc
va alors s'hybrider aux sondes qui lui sont complémentaires pour former un duplex
sonde/cible double brin. La biopuce est ensuite lavée par des bains spécifiques pour éliminer
les brins d'ADNc ne s'étant pas hybridés car non complémentaires des sondes fixées sur la
lame. La biopuce va ensuite être analysée par un scanner à très haute résolution, et ce à la
longueur d'onde d'excitation de la Cyanine 3 ou de la Cyanine 5. L'image scannée est alors
analysée informatiquement afin d'associer une valeur d'intensité à chaque sonde fixée sur la
biopuce et ainsi de déterminer s'il y a eu une hybridation pour chaque sonde.
Les étapes d'une expérience de biopuce ADN
Lors d'une expérience de biopuce ADN visant à comparer l'expression des gènes entre deux
conditions (par exemple : cellule saine versus cellule malade), les ARN totaux des deux
populations de cellules sont extraits et marqués chacun avec un fluorochrome différent. Les
deux échantillons sont alors déposés simultanément sur la biopuce, on parle d'hybridation
compétitive. Pour un gène donné, si le nombre de molécules d'ADNc correspondant à ce gène
est plus important dans une condition que dans l'autre, l'hybridation entre ces ADNc et les
sondes associées sera favorisée. Ainsi, après avoir scanné la biopuce aux deux longueurs des
deux fluorochromes utilisés, il est possible de comparer l'intensité du signal vert du signal
rouge et donc de savoir pour chaque gène étudié dans quelle condition est-il le plus exprimé.
Historique
Les balbutiements des puces à ADN se font dès les années 1991 avec une publication3 de
Stephen Fodor (scientifique américain et fondateur de la société Affymetrix) sur la
technologie de synthèse in situ. S'ensuivent ensuite plusieurs événements qui entrent en ligne
de compte :
 1995 : Publication de Patrick Brown (biochimiste de l'université de Chicago) sur

l’analyse de la transcription4
 1996 : Publication de Patrick Brown sur l’analyse de la transcription dans des
cellules tumorales5
 1997 : Analyse globale de l’expression des gènes de la levure6 grâce à la technologie
des biopuces.
 1999 : Création de la Microarray and Gene Expression Data (MGED [archive]) Society
et premières analyses du transcriptome du cancer par l'équipe de Patrick Brown7.
 2001 : Création du projet MIAME [archive] (Minimum Information About a
Microarray Experiment) qui décrit les conditions nécessaires à réunir pour assurer la
réussite d'une expérience de biopuce ainsi qu'une fiabilité des résultats.
 2002 : Développement de la technologie NimbleGen Maskless Photolithography8, la
photolithographie étant utilisée dans les biopuces.
 2004 : Développement de la technologie des Randomly Ordered DNA Arrays9
Utilisation et applications
Différentes technologies
On distingue deux types d'analyses de biopuces :
 les biopuces à un canal : aussi appelées puces monochromatiques, ces puces

permettent d'analyser un seul échantillon ou une seule condition par expérience.
Néanmoins, elles ne permettent pas de connaitre le niveau d'abondance d'un gène dans
l'absolu, mais plutôt une abondance relative en étant comparé à d'autres échantillons
ou conditions au sein d'une même expérience. Cette comparaison de deux conditions
du même gène demande deux hybridations monochromatiques distinctes.
 les biopuces à deux canaux : elles permettent la comparaison de deux échantillons,
marqués par deux fluorophores différents, en une seule expérience. Elles reposent sur
le principe d'hybridation compétitive entre les deux échantillons comparés.
Une des forces de la biopuce à un canal réside dans le fait qu'un échantillon aberrant n'affecte
pas l'analyse des autres échantillons. A contrario, chez les biopuces à deux canaux, il suffit
d'un seul échantillon de mauvaise qualité pour diminuer drastiquement la qualité des résultats,
même si l'autre échantillon cible est parfait. Une autre force est que les données d'une biopuce
à un canal sont plus facilement comparées à d'autres biopuces provenant de différentes
expériences. De plus, la biopuce à un canal est parfois la seule solution possible pour certaines
applications.
Le tableau suivant est repris de la page anglophone de Wikipédia.
Nom du procédé ou de
Description
la technologie
Il s'agit de l'utilisation la plus connue de la puce à ADN. On compare
l'expression des gènes entre différentes conditions données ou au
cours du temps. Grâce à l'hybridation et à une analyse d'image
effectuée ensuite, ce procédé permet d'identifier quels gènes sont sur-
ou sous-exprimés dans une condition donnée. Une fois ces gènes
Expression des gènes
identifiés, d'autres analyses in silico sont nécessaires, telles que des
analyses de clustering pour regrouper les gènes présentant le même
profil d'expression. Enfin, les résultats seront souvent confirmés gène
par gène par des méthodes telles que la PCR quantitative ou le
Northern Blot. (méthodes d'analyse des gènes)
Immunoprécipitation de Les biopuces peuvent aussi utiliser le phénomène
chromatine d'immunoprécipitation de chromatine (Chromatin
immunoprecipitation on Chip, ou ChIP-On-Chip). Ce procédé permet
de déterminer la localisation du site de liaison de la protéine dans le
génome.
La puce à ADN peut aussi permettre de détecter du polymorphisme,
c'est-à-dire d'identifier des polymorphismes ponctuels d’allèles au
Polymorphisme sein d’une population ou entre populations, prédire le développement
de maladies au sein d'une population, évaluer les mutations ou encore
analyser les liens entre gènes.
Ces puces sont dédiées à la recherche de nouveaux transcrits (on
entend par là gène transcrit). C'est-à-dire que chaque segment de
chromosome (pas seulement les gènes connus) est ciblé par une
Tiling sonde. Un des intérêts est de découvrir de très nombreux ARN non
codants des protéines (comme les long ncARN par exemple). On
peut ainsi réussir à cartographier les transcrits, rechercher des exons,
ou encore rechercher les facteurs de transcription.
Il existe aussi des biopuces à gène chimère (ou gène de fusion). Le
principe derrière est celui de l'alternative splicing en anglais, ou
Biopuce à gène chimère
encore épissage alternatif en français. Une telle biopuce peut alors
détecter les gènes transcrits par fusion, donc de spécimens de cancer.
Une puce d'hybridation génomique comparative est une puce à ADN
Hybridation génomique employée dans le but d'analyser les variations du nombre de copies
comparative dans l'ADN. Cette technique est principalement utilisée pour
diagnostiquer les cancers et les maladies génétiques.
Ces puces à ADN sont utilisées pour détecter certains types
d'organismes dans la nourriture (comme des OGM), des mycoplasmes
GeneID en culture cellulaire, ou certains agents infectieux pour diagnostiquer
des maladies. La technique repose principalement sur la réaction en
chaîne par polymérase.
Domaines d'applications
La liste ci-dessous n'a pas vocation à être exhaustive, mais elle donne un panorama des
domaines d'applications des biopuces.
 Biologie médicale de cancérologie : domaine de la cancérologie pour le typage

tumoral d'après leur profil génétique. L'utilisation des puces à ADN comme outil de
diagnostic présente l'avantage de faire appel à de nombreux marqueurs : plusieurs
milliers de gènes peuvent être criblés simultanément pour fournir une signature du
type cellulaire étudié. Si l'on considère que chaque type de tumeur présente une
signature génétique unique, ce système permet virtuellement de distinguer et classer
tous les types de tumeurs. Les puces à ADN permettent donc de comparer l'expression
des gènes de deux types cellulaires différents (Réseaux de co-expression de gènes) , de
faire de l'étude des gènes exprimés sur un grand nombre de patients pour observer
l'effet d'un médicament (anti-cancéreux par exemple), de regarder l'effet d'un
traitement sur l'expression des gènes, de comparer tissus sains contre tissus malades,
traités contre non-traités, etc.
 Microbiologie : afin de définir les résistances aux antibiotiques, par exemple.
 Toxico-génomique : étude de l’influence de diverses substances toxiques sur
l’expression des gènes. Les génotoxiques (comme le benzène, l'amiante, les
rayonnements radioactifs, les rayonnements solaires, les produits cancérigènes, etc., )
sont visibles grâce au procédé des puces à ADN. En effet, les puces à ADN permettent
d'analyser la réponse cellulaire à la présence de génotoxiques (au niveau du
transcriptome). On étudie les effets sur un grand nombre d'individus, ces effets seront
différents du au polymorphisme. Cette étude ouvre la porte à la pharmacogénomique.
 Génomique environnementale :
o détection de bactéries pathogènes dans un échantillon biologique : la puce
contient alors des sondes dirigées contre les ARNr 16S de plusieurs bactéries
pathogènes (Salmonelles, Légionelles, Staphylocoques...)
o détection de substances polluantes dans l’eau (grâce aux biocapteurs) : même
principe que pour la cancérologie, la puce permet l'identification de gènes
spécifiquement induits et fortement induits par l’agent polluant introduit dans
l'une des cibles.
o biopuces phylogénétiques : composition de la communauté microbienne
grâce notamment à la présence de marqueurs phylogénétiques : ARN
ribosomiques (16S, 18S, 23S, 25S, 28S)
o biopuces fonctionnelles : évaluation des capacités métaboliques grâce à des
marqueurs fonctionnels (gènes codant des enzymes clés dans les processus
métaboliques étudiés)
Fabrication
La puce est une lame, généralement en verre, de petite taille environ (6 cm x 3 cm), sur
laquelle sont fixés des sondes complémentaire d'un fragment d'acide nucléique (ADN ou
ARN) ciblé. Jusqu'à un million de sondes peuvent être fixés sur une puce permettant ainsi
l'analyse de plusieurs dizaines voire centaines de milliers de gènes.
Quels types de sonde poser sur la puce10 ?
Oligonuléotides Sondes longues

Taille 15 - 70 mers > 100 mers
- Insensibles aux allèles/variants
- Détection des SNP - Production en grande quantité

(polymorphisme)
Avantages
- Collections disponibles (EST, BAC...)
- Livré « prêt à spotter »
- Double brin, plus de choix de marquage,
meilleur couverture du génome
- Une résolution plus faible
- Sensibles aux allèles/variants
- La production des produits de PCR est
- Coût de la production de
lourde
Inconvénients masse
- Problème d’hybridation croisée
- Le design des oligos est une
étape complexe
- Erreurs des collections (EST)
Quels types de gènes sont concernés ?

En soi, aucune contre-indication n'existe concernant le type de gènes à tester (gènes aux
fonctions connues ou inconnues). Néanmoins, afin de pouvoir tirer des informations fiables
des expériences de biopuces, il est conseillé d'inclure des sondes de contrôle positif et négatif
afin de vérifier et contrôler le bon déroulement de chaque étape de l'expérience.
Par dépôt (spotted)
Lire le média
Création d'une Puce à ADN par un robot à l'Université du Delaware (États-Unis)
Ce procédé utilise des sondes longues (une centaine de nucléotides) déposées sur la lame. Les
sondes sont synthétisées avant d'être déposées sur la surface par rangées d’infimes
gouttelettes, ou spots, (d'où le terme anglais microarray, « microtableau »). On utilise des
aiguilles fines contrôlées par un bras robotisé qui est plongé dans les spots. Les aiguilles vont
alors injecter dans chaque spot les sondes en excès. La «grille» finale représente les profils
d’acides nucléiques des sondes préparées et chaque sonde est prête à s'hybrider avec les
cibles.
Cette méthode est la plus simple, ce qui rend cette solution plus accessible aux laboratoires
académiques. Elle est utilisée par les scientifiques et chercheurs dans le monde entier pour
produire les puces adaptées à leur besoins. Les puces sont facilement personnalisées pour
chaque expérience car les chercheurs peuvent choisir le type et l'emplacement des sondes,
voire synthétiser les sondes eux-mêmes.
Les scientifiques peuvent ensuite générer leurs propres échantillons cibles, utilisés pour
l'hybridation avec les sondes, pour enfin analyser les puces avec leurs propres équipements.
Cela fournit une puce moins chère (en évitant les coûts d'achat de puces commerciales) et
aussi adaptée à leurs exigences.
Les puces qui sont fabriquées de cette manière ne peuvent cependant pas posséder la même
densité de sondes que les puces fabriquées par synthèse in situ.
Par synthèse in situ

Principe de la photolithographie
Ces puces sont fabriquées en synthétisant les sondes d'ADN de petite taille (< 80-mers)
directement sur le support (biopuce) par synthèse chimique.
 Photolithographie. Cette méthode repose sur l'utilisation de nucléotides couplés à des

groupements chimiques photosensibles. La présence de ces groupements
photosensibles empêche l'élongation. La synthèse in situ repose donc sur l'alternance
de cycles de protection et dé-protection (UV) en utilisant des masques ou des micro-
miroirs. Les sociétés Affymetrix et Nimblegen utilisent ce système de synthèse in situ.
 Chambre de réaction en diamant (Oxford Gene Technology)11
 La société Agilent utilise un procédé similaire à celui de l'impression à jet d'encre pour
le dépôt des sondes sur la lame.
Traitement informatique pour l'analyse des résultats

Une image haute résolution est obtenue grâce à des scanners très haute résolution (de l'ordre
du micron) qui permettent de révéler les interactions sonde/cible par excitation des
fluorochromes portés par les cibles. En France la société INNOPSYS développe, fabrique et
commercialise une gamme complète de scanners de fluorescence dédiés à la lecture et
l'analyse de ce type de lames : InnoScan 710 (2 couleurs, 3µm/pixel, InnoScan 710-IR,
InnoScan 910 (2 couleurs, 1µm/pixel) et InnoScan 1100 (3 couleurs, 0.5µm/pixel).
Des logiciels interprètent l'intensité des pixels de l'image afin d'en déduire une mesure
numérique de l'expression de chaque gène.
Image 3D Sarfus d'une biopuce à ADN
De grands volumes de données sont générés par l'analyse d'une puce à ADN, et de
nombreuses techniques sont utilisées pour interpréter les résultats de l'expérience. Ces
techniques incluent :
 L'analyse d'image : une analyse automatique de l'image générée par la puce à ADN
est dans un premier temps nécessaire. Cela permet notamment de repérer et séparer les
spots, d'éliminer les spots défectueux, et d'annoter chaque spot avec son intensité
lumineuse globale, afin d'obtenir des résultats numériques exploitables pour un
traitement automatisé12.
 La normalisation : afin de pouvoir comparer les résultats de plusieurs expériences, il
est ensuite nécessaire de normaliser les données. En effet, des biais entre plusieurs
expériences peuvent être introduits par la qualité et la quantité des échantillons, les
fluorochromes utilisés, leur sensibilité à la chaleur ou à la lumière, les conditions dans
lesquels les échantillons ont été scannés, etc. Plusieurs méthodes mathématiques
existent et reposent sur l'hypothèse principale que la majorité des différences de signal
observées sont liés à des biais techniques et non à des différences biologiques.
 L'analyse statistique : de nombreux tests statistiques peuvent être appliqués aux
données, permettant par exemple de savoir si un gène est significativement plus
exprimé que les autres ou plus exprimé dans une condition que dans l'autre, via un test
de Student. Il est souvent intéressant voire nécessaire de recréer plusieurs fois
l'expérience en variant légèrement certains paramètres pour mener une analyse fiable.
Il existe des méthodes d'analyse statistique tenant compte des différents réplicats de
l'expérience et du caractère variable de l'expressivité d'un gène selon l'échantillon 13.
 Le clustering : cette approche consiste à essayer de diviser les données en plusieurs
groupes homogènes (ou clusters) . Cela permet notamment de regrouper les gènes
impliqués dans le même processus biologique, ou de regrouper des échantillons
similaires entre eux. Les algorithmes les plus utilisées incluent K-means, qui a
l'inconvénient de nécessiter de connaître le nombre de clusters voulus à l'avance, et le
clustering hiérarchique, qui permet de créer une hiérarchie de clusters pour ensuite
retenir uniquement les clusters ayant un certain niveau dans la hiérarchie.
 La classification supervisée ː cette approche utilise une base de connaissance pour
apprendre un modèle de prédiction. On peut, par exemple, à partir de plusieurs
échantillons venant de patients porteurs d'une maladie donnée, construire un modèle
statistique permettant de prédire si un nouvel échantillon appartient à un patient
malade ou non, et ainsi créer un système d'aide au diagnostic.14 Ces méthodes sont
basées sur un jeu de données d'apprentissage, qui permet de construire le modèle
prédictif, et un jeu de données de test, qui doit être entièrement différent du jeu de
données d'apprentissage et permet d'évaluer la qualité du modèle prédictif face à de
nouveaux exemples. Les méthodes les plus courantes incluent l'apprentissage d'un
arbre de décision, l'utilisation de réseaux bayésiens, ou les réseaux de neurones
artificiels.

Puce À ADN

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Puce À ADN

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données d'expression issues des puces à ADN

2. Préparation des échantillons et 4. L'interprétation biologique des données: l'ontologie

3. L'analyse des données 5. "Chromatin ImmunoPrecipitation on Chip"

a. La détection du signal et l'analyse 6. Comparaison des puces à ADN et de la technique

b. Le traitement des données brutes 7. Liens Internet et références bibliographiques

c. Analyse des données : la prédiction

La première puce à ADN (figure ci-dessous) avec 45 sondes fluorescentes d'Arabidopsis

 la technique dite "northern blot"

L'application immédiate a été d'améliorer et de préciser le diagnostic, le pronostic et

Source : DNA microarray principle

 Affymetrix (USA - californie) : côtée au NASDAQ (environ 14 dollars l'action). De

 Agilent Technologies (Arabidopsis 2 Oligo Microarray Kit) : puces à oligonucléotides

Source : Frouin & Gidrol (2005) Biofutur 252

La construction pointe et anneau prélève

Exemples de puces à ADN pour l'étude du transcriptome d'Arabidopsis thaliana

1. La puce CATMA ("Complete Arabidopsis Transcriptome MicroArray" - 2006)

 de découvrir de nouveaux gènes chez Arabidopsis thaliana

La base de données CATdb :

 rassemble les résultats obtenus avec la puce CATMA

2. Une puce dite "chromosomique"

3. Une puce ATH1 d'Affymetrix

2. Préparation des échantillons et hybridation

Rappel sur la transcription et la traduction

la transcription : synthèse de l'ARN messager à partir de l'ADN. Après la transcription,

la traduction : synthèse de la protéine à partir de l'ARN messager. L'enchaînement des

Voir une vidéo de la synthèse - dépôt des sondes par un robot.

Source : "ADN recombinant", Watson et al. (1994) - Ed. DeBooeck Université

Le marquage des cibles consiste en l'incorporation de nucléotides portant :

 soit le fluorophore cyanine 3 (Cy3) sous forme de Cy3-dUTP

Ces 2 molécules sont les plus classiquement utilisées.

MMT : groupe 4-monomethoxytrityle - Source : Amersham Biosciences Ltd

Il existe 2 méthodes de marquage des cibles en fluorescence :

 directe : synthèse d'ADNc marqués par transcription reverse

Les deux familles de cibles sont mélangées et déposées sur la lame.

Source : Frouin & Gidrol (2005)

En conséquence, l'intensité de fluorescence traduit, respectivement :

 fluorescence verte : hybridation préferentielle d'un ADNc cible de référence (témoin)

Voir un exemple de conditions expérimentales et de résultats d'hybridation : "Identification of

Elle se décompose en 3 étapes :

 la détection du signal et l'analyse d'images

Certains outils bioinformatiques existent pour répondre à cette démarche.

Source : "L'analyse des résultats de puces à ADN" - ENS

a. La détection du signal et l'analyse d'images

 des niveaux de vert pour l'une des images

Après superposition, on obtient une image en fausses couleurs composée de spots :

Source : Frouin, V. & Gidrol, X. (2005)

 le nombre de pixels utilisables pour l'analyse est augmenté

b. Le traitement des données brutes

Après l'étape d'analyse de l'image, chaque sonde est caractérisée par :

 2 mesures (cas général) d'intensité de fluorescence (une verte et une rouge)

Pour chaque spot, le logarithme du rapport (r) de l'intensité de fluorescence de la condition

On considère pour un rapport :

Source : Le principe des puces à ADN (Cours ENS)

Normalisation des données de fluorescence

Ci-dessous : exemple de puces de 16000 oligonucléotides de Medicago truncatula et une

 les différences dans les rendements de marquage par le Cy3-dUTP et le Cy5-dUTP

La normalisation a donc pour but de ramener la moyenne de cette grandeur à 0.

La méthode de standardisation "MIAME" ("Minimum information about a microarray

 le but et une brève description de l'expérience

c. Analyse des données : la prédiction

Outre l'obtention de listes de gènes différentiellement transcrits, on peut suivre le profil de

On peut dés lors s'intéresser :