Vous êtes sur la page 1sur 164

Bio-informatique

Analyse de
l'expression génique
Les puces à ADN

Le NGS – séquençage
à très haut débit

Jean-Baptiste Lamy
Maître de conférence
bureau 149, LIMICS
jibalamy@free.fr
1
Analyse de l'expression génique

Objectif : étudier l'expression des gènes :


Quel gène est exprimé ?
À quel moment ?
Dans quelles conditions ?
Température, pH
Situation de stress
Maladie
Réponse à un médicament
Dépend de la séquence du gène mais aussi des régions non
codantes qui l'entoure, du repliement,... => complexe !
Ex : certains gènes sont présents chez tous les être humains,
mais sont exprimés par l'organisme uniquement dans des
situations spécifiques, comme la réponse à certains cancers
2
Analyse de l'expression génique

Plusieurs méthodes possibles :


Puces à ADN : méthode « ancienne »
NGS (Next-Generation Sequencing, séquençage à
très haut débit) : méthode récente
À l'origine développée pour le séquençage des gènes
Puis adaptée à l'analyse de l'expression génique
Évolution très rapides de ces méthodes !

3
Puces à ADN

Introduction sur
les puces à ADN

4
Plan
Contenu :
Introduction
Les différents types de puces à ADN
Applications
Les plans d'expérience

5
Principes des puces à ADN
Une puce à ADN permet d'étudier un (ou plusieurs)
échantillon(s) contenant des molécules d'ADN
Première puce en 1995
Une puce à ADN
= un support (verre, silicium, plastique)
+ des « spots » / sondes d'ADN fixés sur le support
A A G G
A A G G
A A C C
Un spot
G G G G
A A C C C C G G
C C | | C C | |
T T C C Le nombre de spots est élevé :
G G A A > 10 000
C C G G
| | | |
6
Principes des puces à ADN
En général, l'échantillon provient de l'extraction de
l'ensemble des ARN présents dans une cellule
Cela permet d'étudier l'expression des gènes
Les ARN sont ensuite amplifiés et rétro-transcrits en ADN
complémentaire

ARNm ARNm ADN


G A G A Transcription
U Extraction U CC A TT
G A G A réverse C A T
U U C AA T
C C C C C C GG G
G U G U GG G
G G Amplification CC CC A A
G G U G G U CC A
CC A

7
Principes des puces à ADN
Dans l'échantillon, les molécules d'ADN sont
marquées par un marqueur (fluorescent, radio-
actif,...)

C A T Marqueur C A T
C A T fluorescent C A T
G G G G G G
C C A C C A
C C A C C A

8
Principes des puces à ADN

L'échantillon est mis en présence de la puce à ADN


Les séquences d'ADN complémentaires vont s'hybrider
avec celles présentes sur les spots
A A
A A
G T G T
C T C T
C G G
C C
C A A
G A A G G A A G G C
A A
C A A G G A A G G C
C A A C C A A C C G
G G G G G G G G C
A A C C C C G G A A C C C C G G C
C C | | C C | | C C | | C C | |
T T C C T T C C
G G A A G G A A
C C G G C C G G
| | | | | | | |
9
Principes des puces à ADN

Le rinçage permet d'éliminer les séquences d'ADN


de l'échantillon qui ne se sont pas hybridées

A T
Éliminés par A T
A A G G C rinçage G G
A A G G C C A
A A C C G C A
G G G G C
A A C C C C G G C
C C | | C C | |
T T C C
G G A A
C C G G
| | | |
10
Principes des puces à ADN

On mesure la fluorescence de chaque spot


Plus la fluorescence est importante, plus la quantité
d'ADN complémentaire au spot est grande
Tiens tiens,
ce spot est
fluorescent...
Le gène GGCGG
A A G G C
A A G G C est exprimé
A A C C G dans mes
G G G G C cellules !
A A C C C C G G C
C C | | C C | |
T T C C
G G A A
C C G G
| | | |
11
Principes des puces à ADN

Avantages :
Permet d'étudier les profils d'expression d'un grand
nombre de gènes simultanément
Et de comparer les profils d'expression dans des
situations différentes
Inconvénients :
Fournis un grand nombre de résultats : une valeur par
spot => difficile à traiter
Sur le plan informatique
Sur le plan statistique encore plus !
Une puce à ADN ne sert qu'une fois (usage unique)
Et elle coûte cher !
12
Les différents types
de puces à ADN
Macroarray
Ancien, plus guère utilisé
Support en nylon
Environ 10 000 spots
Marquage radioactif
12 cm x 8 cm
Permet de tester une seule condition
C'est à dire un échantillon par puce

13
Les différents types
de puces à ADN
Microarray
Support en verre
Environ 40 000 spots
Marquage fluorescent
5,4 cm x 0,9 cm
Permet de tester une
ou deux conditions
C'est à dire un ou
deux échantillons
par puce
Un échantillon en
rouge et l'autre
en vert
14
Les différents types
de puces à ADN
Microarray
Deux marqueurs fluorescents différents :
Cy3, vert
Cy5, rouge
Il est possible de tester deux échantillons sur la même
puce, un en vert et l'autre en rouge
Idéal pour comparer deux échantillons
Un témoin + un test
Deux conditions différentes : ex. comparer les gènes
exprimés par une levure à 20°C et à 30°C
Mais aussi pour économiser ½ puce !

15
Les différents types
de puces à ADN
Echantillon 1 Echantillon 2

C C C C
C C C C
G G G G
C Compétition C C C
C C C C

A A C G G C
A A C G G C
C A A G C C G C
C G G C G G C C
G A A C C C CC G G C G
C C | | C C C
C
C T T C C
| |
C => le spot
G G A A est rouge
C C G G
| | | |
16
Les différents types
de puces à ADN
Echantillon 1 Echantillon 2

C C C C
C C C C
G G G G
C C C Compétition C
C C C C

A A C G G C
A A C G G C
C A A G C C G C
C G G C G G C C
G A A C C C CC G G C G
C C | C C C
C
T T
|
C C
| |
C => le spot
C
G G A A est vert
C C G G
| | | |
17
Les différents types
de puces à ADN
Echantillon 1 Echantillon 2

C C C C
C C C C
G G G G
C C Compétition C C
C C C C

A A C G G C
A A C G G C
C A A G C C G C
C G G C G G C C
G A A C C C CC G G C G
C C C | | C C | | C
C
=> le spot
C T T C C
G G A A est jaune
C C G G
| | | |
18
Les différents types
de puces à ADN
Microarray
Fabrication par greffage des sondes sur le support en
verre, une par une
Effectué par un robot (cf vidéo)
NB Les robots ont souvent plusieurs pointes
Attention si les pointes ne sont pas 100% identiques !

Pointe du robot

Sonde
19
Les différents types
de puces à ADN
Fabrication par greffage des sondes
Les sondes sont des oligonucléotides ou des produits
de PCR
Avantage :
Pas de limite à la longueur des sondes
Inconvénient :
Processus difficile à industrialiser
Spots assez gros
Difficile d'avoir des spots de taille identique

20
Les différents types
de puces à ADN
GeneChips (Affymetrix)
Environ 500 000 spots
Mais seulement des séquences
courtes (oligonucléotides)
Marquage fluorescent
1,28 cm x 1,28 cm
Permet de tester une
seule condition
Des puces spécifiques pour rechercher
des gènes précis dans un génome ou
un transcriptome
Diagnostic de maladies génétiques, etc...
21
Les différents types
de puces à ADN
Synthèse des sondes in situ :
Imprimante « jet d'encre »
Ou photo-activation + masque
Longueur des sondes : 25 bases

T
T T
G G G G G G G G G G G G
C C G G C C G G C C G G
| | | | | | | | | | | |
T T
G G A A G G A A G G A A
C C G G C C G G C C G G
| | | | | | | | | | | |

22
Les différents types
de puces à ADN
GeneChips (Affymetrix)
Fabrication des ADN in situ, c'est à dire directement sur
la puce
Avantage :
Spots très petits => grand nombre de spots
Spots de taille identique
Industrialisable
Inconvénient :
Nécessite un équipement coûteux => ces puces ne peuvent
être produites que par quelques sociétés commerciales
(Affymetrix, Agilent,...), qui gardent secrètes les séquences
présentes sur les puces !
Nécessite de connaître les séquences des sondes
23
Prix des puces Affymetrix

Genechip Human Genome U133 plus 2.0 385 €


Genechip Human Genome U133A 2.0 250 €
Genechip Human Exon 1.0 ST 385 €
Genechip Human Gene 1.0 ST 182 €
Genechip mouse Genome 430 2.0 385 €
Genechip mouse Genome 430A 2.0 250 €
Genechip mouse Exon 1.0 ST 385 €

24
À quoi sert l'analyse du
transcriptome ?

25
À quoi sert l'analyse du
transcriptome ?
Utilisation pour la recherche fondamentale en biologie :
Analyser les génomes
Rechercher les différences entre deux génomes
=> déterminer des polymorphismes, mutations
Analyser l'expression des gènes
Rechercher les séquence de régulation ciblée par les
facteurs de transcription
Rechercher les gènes exprimés par la cellule en réponse à
telle ou telle situation (agression cellulaire, température
élevée, etc)
=> déterminer la fonction des gènes et leur régulation
Analyser la réplication de l'ADN ou la transcription
26
À quoi sert l'analyse du
transcriptome ?
Utilisation en médecine :
Comprendre le fonctionnement d'une maladie
Effectuer un diagnostic
Rechercher la présence de gènes pathologiques dans un génome
ou un transcriptome
Maladies génétiques
Tumeurs
Maladies virales (ex VIH)
Effectuer un pronostic
En fonction de l'expression des gènes, il est parfois possible de
classer les malades en différents groupes selon la gravité de leur
maladie
Orienter le traitement
27
1) Analyser la réplication de l'ADN
Lors de la division cellulaire, le génome est répliqué
Comment se déroule cette réplication dans le temps ?
Certains chromosomes sont-ils répliqués avant les
autres ?
Quelle partie des chromosomes est-elle répliquée la
première ?

Raghuraman et al. (2001) Science

28
2) Reséquençage

« Reséquencer » un gène = rechercher des


mutations sur ce gène
On connaît la séquence théorique d'un gène
On a un échantillon de ce gène
On cherche les différences entre la séquence
théorique et la séquence dans l'échantillon
=> recherche de polymorphismes, de variants,...

32
2) Reséquençage
On crée une puce à ADN
Pour chaque base dans la séquence, on crée 4 spot sur la puce
Chaque spot est un oligonucléotide centré sur une position, la
séquence est la même que la séquence théorique, sauf la base
centrale où l'on teste les 4 bases possibles (A, T, C, G)

Puces à ADN, Baron D. et al.,


IRBM, 2007
33
3) Étude de facteurs de
transcription (ChIP-chip)
Facteurs de transcription
Protéine nécessaire à l'initiation de la transcription d'un gène
Des facteurs généraux, nécessaires pour tous les gènes
Des facteurs spécifiques
Ne concernent que certains gènes
Reconnaissent des séquences précises sur l'ADN
Jouent un rôle de régulation
Ex : protéines à doigts de zinc,...
En général, les facteurs de transcription sont connus, mais pas
les séquences sur lesquels ils se placent

34
(formaldéhyde)

(anticorps spécifique du facteur de transcription étudié)

Y Y
Y
On récupère le précipité

Puces à ADN, Baron D. et al.,


IRBM, 2007
4) Utilisation de puce à ADN
pour étudier l'obésité
L'obésité est de plus en plus répandu
Les conséquences peuvent être graves, notamment au plan cardiaque
=> étude de l'obésité d'un point de vue génétique
Objectifs :
1) Comprendre le fonctionnement de la maladie et notamment des
conséquences cardiaques
2) Essayer d'améliorer le traitement
Ces travaux ont été effectués en partie au laboratoire LIM&BIO il y a
quelques années, dans l'UFR SMBH
Cathepsin S, a novel biomarker of adiposity: relevance to
atherogenesis, S. taleb et al., the FASEB Journal, 2005
Weight loss regulates inflammation-related genes in white adipose
tissue of obese subjects, K. Clement et al., the FASEB Journal, 2004

36
4) Utilisation de puce à ADN
pour étudier l'obésité

Puces à ADN
11 patients Sondes : gènes humains
non-obèses

Extraction
des ARNm Analyse 240 gènes
exprimés exprimés
dans les différemment
adipocytes

28 patients
obèses

37
4) Utilisation de puce à ADN
pour étudier l'obésité
Sur les 240 gènes, un semble particulièrement
intéressant : la cathepsine S
Surexprimée chez les personnes obèses dans le tissu
adipeux
Corrélée positivement avec l'IMC et le taux de
triglycérides
=> c'est un marqueur de l'obésité
De plus, cette protéine est connue pour être liée à la
formation des plaques d'athérosclérose

38
Utilisation de puce à ADN
pour étudier l'obésité
4) Utilisation de puce à ADN
pour étudier l'obésité
Pour traiter l'obésité, plusieurs régimes sont
possibles
VLCD : Very Low Calorie Diet
L'efficacité du régime est très variable d'un patient
à l'autre
=> y a-t-il des marqueurs génétiques permettant
de prédire l'efficacité du régime ?

42
4) Utilisation de puce à ADN
pour étudier l'obésité
Patients
répondeurs
Puces à ADN
29 patients Sondes : gènes humains
obèses

Extraction
Régime VLCD des ARNm
exprimés
dans les

Après 2 jours adipocytes

Après 28 jours

Analyse
Patients
non-répondeurs
???

43
5) Utilisation de puce à ADN
pour diagnostiquer la grippe A
En recherchant l'ADN viral dans des cellules infectées, il est
possible de détecter la présence du virus de la grippe
Il est aussi possible de distinguer les différentes grippes en
recherchant leur ADN spécifique
Sondes : des fragments d'ADN issus de 6 souches grippales,
d'environ 500 paires de bases
Utilisation de BLASTn pour rechercher dans les génomes
des virus des séquences
bien conservées et spécifiques des virus
de 500 pb environs
chaque séquence étant différentes des autres
Typing and Subtyping Influenza Virus Using DNA
Microarrays and Multiplex Reverse Transcriptase PCR, J.
Li, Journal of clinical microbiology, 2001
44
26 séquences
retenues comme
sondes

On garde le début et
la fin de chaque
séquence comme
amorce pour la PCR,
en présence de
l'ADN viral
Utilisation de puce à ADN
pour diagnostiquer la grippe A


Le « motif » des spots permet de distinguer grippe A, B et C

Petit nombre de spots
5) Utilisation de puce à ADN
pour diagnostiquer la grippe A
Efficace à 90%
Avantages :
Diagnostic très rapide (quelques heures) car il n'y a
pas besoin d'effectuer de cultures cellulaires
(contrairement aux méthodes classiques qui demande
4-5 jours)
Permet de distinguer plusieurs sous-types de grippe
H5N1, H3N1,...
Inconvénients :
Le coût !

47
5) Utilisation de puce à ADN
pour diagnostiquer la grippe A
De manière similaire il est possible de
diagnostiquer :
D'autres maladies virales
VIH,...
Des maladies génétiques en recherchant des
mutations dans le génome :
Mucoviscidose (600 mutations connues peuvent provoquer
cette maladie)
Diabète,...
Certaines tumeurs
Cancer du sein,...
+ effectuer un pronostic de survie
48
Analyse des puces à ADN

De nombreuses étapes sont nécessaires pour


analyser les résultats d'une puce à ADN
1) Lecture de la puce (scanner / photo) => image
2) Analyse d'image => tableau de données
3) Normalisation => tableau de données normalisées
4) Analyse statistique, fouille de données,...

49
2) Analyse d'image

Cy5 Cy3

50
2) Analyse d'image

Un logiciel d'analyse d'image


Lit l'image de la puce
Détermine la position et la taille de chaque spot
Calcul l'intensité
global de chaque
spot

=> pour chaque spot


on obtient une valeur
numérique
(ou deux, 1 rouge
et 1 verte)
51
2) Analyse d'image

Retirer les spots inexploitables


Bruit de fond sur la puce
On retire parfois le bruit de fond des spots
Mais cela n'améliore pas toujours les résultats !

L'analyse d'image ne pose pas de vrai problème


de recherche en biologie

52
3) Normalisation
Les résultats bruts issus des puces à ADN sont
bruités
Erreur systématique
Reproductible => il est possible de les mesurer et de les
corriger
Ex : les robots fabriquant les puces ont plusieurs pointes,
elles ne sont pas toujours rigoureusement identiques

53
3) Normalisation
Les résultats bruts issus des puces à ADN sont
bruités
Erreur stochastique
Erreur aléatoire, non reproductible

La normalisation corrige les erreurs systématiques


(mais pas les erreurs stochastiques)
Différentes méthodes existent pour la
normalisation des données issues de puce à ADN

54
Transformation logarithmique
Avant l'analyse il faut transformer les données
Les faibles valeurs de fluorescence sont beaucoup plus
nombreuses que les fortes valeurs
Cela complique l'analyse statistique
=> on effectue une transformation logarithmique
log de base 2 en général

R = Cy5 log(R)

V = Cy3 log(V)
Rotation du graphique
Sur les puces bicolores, ce qui nous intéresse n'est pas le
niveau d'expression dans l'une ou l'autre condition, mais la
différence entre les deux
=> M, la différence entre les 2 fluorescences
=> A, la fluorescence moyenne

45°
log(R) M = log(R) - log(V)

A = log(R) + log(V)
log(V) 2
Normalisation
Objectif de la normalisation :
Supprimer les erreurs techniques systématiques
Différence de stabilité entre fluorochrome Cy3 et Cy5
Différence entre les pointes sur le robot qui a fabriqué la puce à
ADN
Différence entre les plaques de sondes (« effet plaque »)

Robot avec 4
Pointes légère-
Support de puce à ADN
Ment différentes
Normalisation
Fonctionnement des robots fabriquant les
puces à ADN

Robot avec 4
Pointes légère-
Ment différentes Plaque avec Support de puce à ADN
les sondes 1 à 16
Normalisation
Fonctionnement des robots fabriquant les
puces à ADN

Robot avec 4
Pointes légère-
Ment différentes Plaque avec
les sondes 1 à 16
Normalisation
Fonctionnement des robots fabriquant les
puces à ADN

Robot avec 4
Pointes légère-
Ment différentes Plaque avec
les sondes 1 à 16
Normalisation
Fonctionnement des robots fabriquant les
puces à ADN

Robot avec 4
Pointes légère-
Ment différentes Plaque avec
les sondes 1 à 16
Normalisation
Fonctionnement des robots fabriquant les
puces à ADN

Robot avec 4
Pointes légère-
Ment différentes Plaque avec
les sondes 17 à 32
Normalisation
Fonctionnement des robots fabriquant les
puces à ADN

Robot avec 4
Pointes légère-
Ment différentes Plaque avec
les sondes 49 à 64
Normalisation
Même effet pointe Même effet plaque
(ou aiguille)

NB : en général, 16 aiguilles et 384 sondes par plaque !


Normalisation

cf vidéo
Méthode pour la normalisation

La normalisation n'est possible que si la différence


biologique d'expression des gènes que l'on veut
mesurer ne se superpose pas avec les différences
techniques
Ex : si tous les témoins ont le fluorochrome Cy3 et
tous les tests le Cy5 => impossible de normaliser la
différence due aux fluorochromes !
Ex : si toutes les sondes montrant une différence
d'expression sont sur la même plaque ou la même
pointe => problème
=> répartir les séquences des spots de manière
harmonieuse ou aléatoire
66
Exemple
Ce motif de bande verticale bleue répété est-il...
...un effet biologique ?
...un effet technique :
...un effet « pointe » ?
...un effet « plaque» ?

67
Exemple
Ce motif de bande verticale répété est-il...
...un effet biologique ?
...un effet technique :
...un effet « pointe » ?
...un effet « plaque» ?

68
Exemple
Cette petite tache est-elle...
...un effet biologique ?
...un effet technique :
...un effet « pointe » ?
...un effet « plaque » ?

69
Exemple
Cette petite tache est-elle...
...un effet biologique ?
...un effet technique :
...un effet « pointe » ?
...un effet « plaque » ?

70
Exemple
Cette tache verte rectangulaire est-elle...
...un effet biologique ?
...un effet technique :
...un effet « pointe » ?
...un effet « plaque » ?

71
Exemple
Cette tache verte rectangulaire est-elle...
...un effet biologique ?
...un effet technique :
...un effet « pointe » ?
...un effet « plaque » ?

72
Méthode pour la normalisation
Hypothèses :
Pour normaliser, on considère que l'expression totale des
gènes est la même pour chaque condition technique :
L'expression total des gènes marqué par Cy3 est égale à
l'expression total des gènes marqué par Cy5
Pour chaque pointe, l'expression total des gènes sur les spots
placés par cette pointe est égale
Pour chaque plaque, l'expression total des gènes sur les spots
issus de cette plaque est égale
=> Cela n'est valable que si le nombre de gènes concernés est
suffisamment grand !
Lorsque l'on étudie la différence d'expression des gènes
entre deux conditions biologiques (malade-sain,...), on
considère que le niveau d'expression moyen reste la même
sur l'ensemble des gènes
=> En général, seule l'expression de quelques gènes est modifiée
73
Méthode pour la normalisation
Ajustement global des intensités de l'ensemble des spots
Par hypothèse, le niveau d'expression moyen reste le
même sur l'ensemble des gènes
=> La moyenne de M est de 0

Différence
d'expression
M = log(R) - log(V)
0

Niveau d'expression moyen


A = log(R) + log(V)
2
Méthode pour la normalisation
Ajustement global des intensités de l'ensemble des spots
Par hypothèse, le niveau d'expression moyen reste la même sur
l'ensemble des gènes
Ci-dessous, moyenne(M) > 0
=> le fluorochrome rouge a réagi plus puissamment que le vert !
=> ou l'échantillon marqué avec le fluorochrome rouge était plus riche
en ARN

Différence
d'expression
M = log(R) - log(V)
0

Niveau d'expression moyen


A = log(R) + log(V)
2
Méthode pour la normalisation
Ajustement global des intensités de l'ensemble des spots
Par hypothèse, le niveau d'expression moyen reste la même
sur l'ensemble des gènes
=> La moyenne de M doit être de 0
=> On soustrait à chaque valeur de M la moyenne de M
On utilise parfois la médiane à la place de la moyenne

Différence
d'expression
Ajustement
M = log(R) - log(V)
global
0 0

Niveau d'expression moyen Niveau d'expression moyen


A = log(R) + log(V) A = log(R) + log(V)
2 2
Méthode pour la normalisation
Ajustement local des intensités de l'ensemble des spots
La différence d'expression des gènes (M) est
normalement indépendante de leur niveau d'expression
moyen (A)
Ce n'est pas le cas ici !

Différence
d'expression
M = log(R) - log(V)

Les gènes moyennement


exprimés ont une différence
d'expression plus faible

Niveau d'expression moyen


A = log(R) + log(V)
2
Méthode pour la normalisation
Ajustement local des intensités de l'ensemble des spots
Régression selon la méthode LOWESS = LOcally
WEighted Scatterplot Smoothing
Multiples régressions linéaires pour obtenir une courbe de
régression non linéraire

Différence
d'expression
M = log(R) - log(V)

Niveau d'expression moyen Niveau d'expression moyen


A = log(R) + log(V) A = log(R) + log(V)
2 2
Méthode pour la normalisation
Ajustement local des intensités de l'ensemble des spots
Régression selon la méthode LOWESS = LOcally
WEighted Scatterplot Smoothing
Multiples régressions linéaires pour obtenir une courbe de
régression non linéraire

Différence
d'expression
M = log(R) - log(V)

0 0

Niveau d'expression moyen Niveau d'expression moyen


A = log(R) + log(V) A = log(R) + log(V)
2 2
Méthode pour la normalisation

Normalisation des effets « pointe » ou « plaque »


1) on retranche sa valeur médiane à chaque spot issu
de la même plaque ou ayant été placé par la même
pointe
2) ou on effectue une normalisation par LOWESS pour
chaque spot issu de la même plaque ou ayant été
placé par la même pointe
Problème : le nombre de spots diminue dans chaque groupe
=> il est plus difficile de garantir les hypothèses de départ

La normalisation doit être adaptée aux données !


En général, normalisation par pointe
80
Méthode pour la normalisation

Normalisation inter-puce
Lorsque l'on a plusieurs puces à ADN, la variabilité n'est
pas toujours la même sur chaque puce
=> On « réduit » les données en divisant M par son
écart-type

Puce n°1 Puce n°2

0 0
Jérôme d'Alphagraph
82
(Nylso)
83
84
85
4) Analyse statistique

Pour comparer le niveau d'expression d'un gène


dans deux conditions différentes
=> Test statistique
L'analyse statistique des données issues de
puces à ADN pose des problèmes spécifiques
Grand nombre de spots sur les puces (> 10 000)
En statistique, en général on fixe le risque α = 5%
Cela signifie que l'on a 5% de chances de se tromper
lorsque l'on trouve une différence significative
Risque β : risque de ne pas voir une différence significative

86
4) Analyse statistique

L'analyse statistique des données issues de


puces à ADN pose des problèmes spécifiques
Grand nombre de spots sur les puces (> 10 000)
Si α = 5% et β = 5%
5% pour chaque test !
Si on teste l'expression de chaque gène => 5% d'erreur pour
chaque gène
=> sur 10 000 gènes, cela fait en moyenne 500 erreurs !

=> des méthodes statistiques spécifiques

87
Analyse statistique :
différence d'expression
L'objectif est de déterminer les gènes exprimés de
manière significativement différente entre deux
conditions : analyse différentielle
Tests paramétriques (T de student)
Tests non-paramétriques (Wilcoxon)
Méthodes par ré-échantillonnage (SAM)

Grand nombre de gènes


5% d'erreur par gène...
sur 10 000 gènes ça fait beaucoup !
=> des méthodes statistiques spécifiques
88
Analyse statistique :
différence d'expression
Ajustement de Bonferroni :
α = 5% pour un gène
α = 5 % pour n gènes
n

Fold change
Un gène est considéré comme différentiellement
exprimé si l'expression du gène est au moins doublé
ou divisé par deux entre les deux échantillons
Problème ?

89
Analyse statistique :
différence d'expression
Ajustement de Bonferroni :
α = 5% pour un gène
α = 5 % pour n gènes
n

Fold change
Un gène est considéré comme différentiellement
exprimé si l'expression du gène est au moins doublé
ou divisé par deux entre les deux échantillons
Attention : ce n'est pas une méthode statistique !!!

90
Analyse statistique :
différence d'expression
Méthodes spécifiques :
Développées spécialement pour l'analyse des puces à
ADN
Anapuce
ANOVA
SAM : Significance Analysis of Microarray
Variante du fold change ajoutant une « couche » statistique
...

91
5) Fouille de données

Classification supervisée ou non


Regrouper les gènes ayant des profils d'expression
similaires
Regrouper les individus ayant des transcriptomes
similaires

=> Méthodes statistiques ou d'intelligence
artificielle

92
Fouille de données

Objectif : rechercher des similarités dans les


données d'expression des gènes
Gènes exprimés selon des profils similaires
Individus ou patient ayant des profils d'expressions
des gènes similaires

=> regroupement des gènes ou des individus en
groupes similaires (Clustering)
Fouille de données = rechercher une aiguille dans
une botte d'ADN !

93
Fouille de données
Analyse en composantes principales (ACP) :
Une méthode statistique et graphique pour faire de la fouille de
données
L'ACP permet de réduire le nombre de dimension
Exemple :
On étudie l'impact d'un traitement oncologique sur l'expression des gènes
de cellules cancéreuses
2 concentrations sont étudiées C1 et C2
30 000 gènes

Niveau
d'expression
=> 2 dimensions
avec C2

Niveau d'expression avec C1


Fouille de données
Analyse en composantes principales (ACP) :
Exemple :
On étudie l'impact d'un traitement oncologique sur
l'expression des gènes de cellules cancéreuses
3 concentrations sont étudiées C1, C2 et C3
30 000 gènes

Niveau
d'expression
avec C2 => 3 dimensions

Niveau d'expres-
sion avec C3 Niveau d'expression avec C1
Fouille de données
Analyse en composantes principales (ACP) :
Exemple :
On étudie l'impact d'un traitement oncologique sur
l'expression des gènes de cellules cancéreuses
10 concentrations sont étudiées C1 à C10
30 000 gènes

Niveau
d'expression
avec C2 => 10 dimensions

Illisible !

Niveau d'expres-
sion avec C3 Niveau d'expression avec C1
Fouille de données
A partir d'un nuage de points à n dimensions C1, C2,… Cn
L'ACP calcule n nouvelles dimensions D1, D2,... Dn
Tel que la dimension D1 couvre le maximum de la variance des points, c'est-à-dire
que parmi toutes les dimensions possibles, c'est celle qui permet le mieux de
départager les points
La dimension D2 couvre le maximum de la variance résiduelle (= celle qui n'a pas
été pris en compte par D1)
etc...
On garde en général les 2 premières dimensions de l'ACP

Niveau Dimension 2
d'expression
avec C2
ACP
Niveau d'expres-
sion avec C3 Niveau d'expression avec C1 Dimension 1
Fouille de données
Les dimensions crées par l'ACP sont des combinaisons
des dimensions originelles
Il est difficile de trouver une signification aux nouvelles
dimensions !
Il est possible de projeter les dimensions originelles dans
les nouvelles dimensions

Niveau Dimension 2 C3
d'expression
avec C2
ACP C2
C1
Niveau d'expres-
sion avec C3 Niveau d'expression avec C1 Dimension 1
Fouille de données

Analyse en composantes principales (ACP) :


Autre exemple :
On étudie l'expression des gènes des cellules adipeuses
chez 60 sujets ayant des régimes alimentaires différents
30 000 gènes

60 points dans un espace à 30 000 dimensions


=> permet de regrouper les patients ayant des profils d'expression
géniques similaires

ou 30 000 points dans un espace à 60 dimensions


=> permet de regrouper les gènes ayant des profils d'expression
similaires

99
Fouille de données :
l'ACP en Python
L'ACP en Python :
from matplotlib.mlab import PCA
# les dimensions correspondent aux colonnes
acp = PCA(tableau)
# pourcentage d'information contenu
# dans chaque dimension de l'ACP
acp.fracs
# nouvelles dimensions
acp.Y
# graphique avec les 2 meilleures dimensions
import matplotlib.pylab as pylab
pylab.plot(acp.Y.T[0], acp.Y.T[1], "ro")
pylab.show()
100
Fouille de données :
l'ACP en Python

101
Fouille de données

L'ACP permet d'obtenir un graphique facile à lire


Mais elle ne permet pas de regrouper
automatiquement les gènes (ou les individus) en
un certain nombre de groupes

Dimension 2

2 groupes ? 3 groupes ?

Dimension 1

102
Fouille de données
Méthodes des nuées dynamiques (k-moyennes,
k-means) :
Permet de regrouper un nuage de point en n groupes (ou
cluster)
n doit être choisi par l'utilisateur
Classification non supervisée
Avantage :
Rapide
Inconvénient :
Il faut choisir n
Les résultats ne sont pas toujours reproductibles
103
Fouille de données
Méthodes des nuées dynamiques :
Fouille de données
Classification hiérarchique ascendante :
Classe les gènes de manière hiérarchique : sous forme
d'arbre, sur plusieurs niveaux
Classification non supervisée
S'applique notamment aux études cinétiques
L'expression des gènes est mesurées à plusieurs
moment T0, T1, T2,...

T0 T1 T2
Gène 1
Gène 2
Rouge : sur-exprimé
Gène 3
Gène 4
Vert : sous-exprimé
Fouille de données
Classification hiérarchique ascendante :
On calcule :
Les distances entre l'expression de 2 gènes :
Coefficient de corrélation
Distance euclidienne (somme des carrés des différences)
Distance entre 2 groupes de gènes :
Distance entre les deux gènes les plus proches
Distance entre les deux gènes les plus éloignés
Distance moyenne pondérée
T0 T1 T2
Gène 1
Gène 2
Gène 3
Gène 4
Fouille de données
Classification hiérarchique ascendante :
On obtient un tableau des distances entre gènes
...

Gène 1 Gène 2 Gène 3 Gène 4


Gène 1 -
Gène 2 50 -
Gène 3 10 23 -
Gène 4 25 12 19 -

T0 T1 T2
Gène 1
Gène 2
Gène 3
Gène 4
Fouille de données
Classification hiérarchique ascendante :
On obtient un tableau des distances entre gènes
=> construction d'un dendrogramme
(comme en philogénie)
Gène 1 Gène 2 Gène 3 Gène 4
Gène 1 -
Gène 2 50 -
Gène 3 10 23 -
Gène 4 25 12 19 -

T0 T1 T2
Gène 1
Gène 2
Gène 3
Gène 4
Fouille de données
Classification hiérarchique ascendante :
Un gène = une ligne
Construction d'une arborescence, chaque noeud ayant deux fils
Par permutation des lignes, on regroupe les gènes ayant les
expressions les plus proches
Dans R :
hclust(matrice_des_distances, method="average")

T0 T1 T2
Gène 1
Gène 3
Gène 2
Gène 4
Fouille de données

Classification hiérarchique ascendante :


Exemple sur l'image d'un tableau

Mélange Classification
aléatoire hiérarchique
des lignes ascendante
Fouille de données

Classification
hiérarchique
ascendante :
Exemple
Fouille de données
Classification hiérarchique ascendante :
Exemple : classification de patients atteints d'un type de tumeur

En rouge :
patient décédé
des suites de
la maladie
Fouille de données

Réseaux neuronaux
Apprentissage supervisé
Ex distinguer les patients malades des patients sains
Une entrée par gène (différentiellement exprimés)
Une sortie par groupe
Apprentissage non supervisé
Ex regrouper des gènes en groupes d'expression similaire

113
Analyse fonctionnelle

Une fois que l'on a identifié des gènes


différentiellement exprimés, ou bien des groupes
de gènes exprimés de manière similaire
Il est intéressant de rechercher les fonctions de
ces gènes
Les fonctions d'un certain nombre de gènes sont
déjà connues
=> recherche dans des bases de données en
ligne

114
Analyse fonctionnelle
Gene Ontology : http://www.geneontology.org
Ontologie : ensemble structuré des concepts et des
relations entre ces concepts dans un domaine de
connaissance donné
Ensemble => On recherche une certaine exhaustivité
Structuré => des traitements automatiques sont possibles
Ex : pour chaque gène, l'ontologie décrit les mécanismes
de régulation connus :
Le gène A produit une protéine A
La protéine A active le gène B
Le gène B produit une protéine B
La protéine B active le gène C
=> L'ontologie permet de déduire que le gène A active
(indirectement) le gène C
115
Ontologie
Exemple de raisonnement sur une ontologie sur les
écosystèmes et les chaînes alimentaires
Animal Polluant

est-un
est-un est-un est-un
se con-
mange mange centre dans
Homme Brochet Gardon PCB

habite habite habite


présent dans

Ville Lac

L'homme risque-t-il d'être intoxiqué par les PCB (polychlorobiphényles)


rejeté dans les eaux ?
116
Analyse fonctionnelle
Gene Ontology : http://www.geneontology.org
Contient des connaissances sur les gènes
Mais aussi sur les protéines, les fonctions biologiques, les
composants de la cellule...
+ des liens vers PubMed !
> 23 000 termes dans l'ontologie, en accès libre
Relation est-un (is-a), partie-de (part-of) :
Ex : la voie des pentoses est un processus métabolique
Ex : la membrane cellulaire est une partie de la cellule
Annotation (= association d'un gène à une fonction, un
composant de la cellule,...)
Manuelle, par des experts
Automatique
par raisonnement logique
par recherche de séquences similaires par BLAST
117
Gene Ontology

Gene Ontology (GO) :


Termes : Gènes :

Composants de la cellule
Cellule partie-de
Membrane
Cytoplasme
not ation Insuline (homme)
Noyau an
Nucléole...
BMP2 (poisson zèbre)
Vésicule sécrétoire

Processus biologiques ... (...)


Processus métaboliques est-un
Métabolisme des lipides
Mort cellulaire...

Fonctions moléculaires
Activité catabolique
Activité anti-oxydante
Régulateur de transcription...
Gene Ontology
De quelles relations s'agit-il ?
ATP transport Membrane
? ?
Purine Lipopolysaccharide
nucleotide receptor
transport complex

Cellule
Membrane
?
?
Lipopolysaccharide
Cellule receptor
complex
119
Analyse fonctionnelle

Gene Ontology : http://www.geneontology.org

121
Analyse fonctionnelle

Gene Ontology : http://www.geneontology.org


id: GO:0006094 unique GO ID
name: gluconeogenesis term name
namespace: process ontology
def: The formation of glucose from
noncarbohydrate precursors, such as
pyruvate, amino acids and glycerol. definition
[http://cancerweb.ncl.ac.uk/omd/index.html]
exact_synonym: glucose biosynthesis
synonym
xref_analog: MetaCyc:GLUCONEO-PWY
database ref
is_a: GO:0006006
is_a: GO:0006092 parentage

122
Analyse fonctionnelle

Gene Ontology : http://www.geneontology.org

Eisen, Michael B. et al. (1998) Proc.


Natl. Acad. Sci. USA 95, 14863-14868
Analyse fonctionnelle
Étape 1 :
Position des spots différentiellement
exprimés sur la puce à ADN Problème des synonymes, des
fautes d'orthographe, etc, dans les
Étape 1 noms des gènes

Comment appeler le gène de


l'insuline ?
Code de gènes (selon une ●
Gène de l'insuline ?
terminologie donnée) ●
Gène de l'insuline humaine ?

Gène de la pré-proinsuline ?

Insulin gene (=en anglais) ?
Étape 2 ●
11p15.5 ?

Il est nécessaire d'utiliser des


Fonctions biologique codes pour identifier les gènes !
(code Gene Ontology)
=> Gene ID: 3630
124
Analyse fonctionnelle

Position des spots différentiellement


exprimés sur la puce à ADN
Étape 2 :
Étape 1
Calculer les fonctions biologiques
associées aux codes de gènes
issus de l'étape 1
Code de gènes (selon une
terminologie donnée) Plusieurs programmes existent
pour cela

Étape 2 Ils s'appuient sur les annotions


des gènes par les fonctions,
généralement à l'aide de Gene
Ontology
Fonctions biologique
(code Gene Ontology)
125
Analyse fonctionnelle : exemple
Recherche de gènes
différentiellement exprimés sur
les puces

Spot_3 Banque de gènes avec annotations :


Spot_185
Spot_1542 Gène_1778 : associé aux fonctions :
GO:0050673 : epithelial cell proliferation
GO:0016337 : cell-cell adhesion
Étape 1

Gène_456 : associé aux fonctions :


Code de gènes : GO:0050673 : epithelial cell proliferation
Gène_1778
Gène_456 Gène_1860 : associé aux fonctions :
Gène_1860 GO:0097166 : lens epithelial cell proliferation
GO:0033059 : cellular pigmentation
Étape 2

Fonctions biologique significative (code Gene Ontology) :


GO:0050673
Analyse fonctionnelle en Python
Le module mygene permet :
de convertir les codes de gènes entre terminologie
d'obtenir les termes GO associés à un gène
Il fonctionne avec les codes Entrez (= Pubmed)
Importation du module et connexion au serveur :
import mygene
mg = mygene.MyGeneInfo()
Obtenir les informations pour un gène (à partir d'un code RefSeq ici)
mg.query("refseq:NM_182502", species="human")
=> {u'hits': [{u'symbol': u'TMPRSS11B', u'_id': u'132724', u'entrezgene':
132724, u'taxid': 9606, u'name': u'transmembrane protease, serine 11B'}],
u'total': 1, u'max_score': 7.230048, u'took': 3}

Obtenir le code Entrez pour un gène


mg.query("refseq:NM_182502", species="human")["hits"][0]
["entrezgene"]
=> 132724 (c'est le code Entrez !)
127
Analyse fonctionnelle en Python
Obtenir les principales informations sur le gène (nom, …) :
mg.getgene(132724) # Fonctionne avec les codes Entrez
=> {u'taxid': 9606, u'symbol': u'TMPRSS11B', u'_id': u'132724',
u'name': u'transmembrane protease, serine 11B', u'entrezgene': 132724}
Obtenir les annotations Gene Ontology (GO) pour un gène :
annotations = mg.getgene(132724, "go") # Gene Ontology
=> {u'go': {u'CC': [{u'term': u'plasma membrane', u'pubmed': 24498351,
u'id': u'GO:0005886', u'evidence': u'IDA'}, {u'term': u'integral
component of plasma membrane', u'id': u'GO:0005887', u'evidence':
u'IEA'}, {u'term': u'extracellular exosome', u'pubmed': 19199708,
u'id': u'GO:0070062', u'evidence': u'IDA'}], u'MF': [{u'term':
u'serine-type endopeptidase activity', u'id': u'GO:0004252',
u'evidence': u'IBA'}, {u'term': u'serine-type peptidase activity',
u'pubmed': 24498351, u'id': u'GO:0008236', u'evidence': u'IDA'}],
u'BP': [{u'term': u'proteolysis', u'id': u'GO:0006508', u'evidence':
u'IEA'}, {u'term': u'biological_process', u'id': u'GO:0008150',
u'evidence': u'ND'}]}, u'_id': u'132724'}
Pour avoir les annotations du groupe CC (Cellular Component) :
annotations["go"]["CC"]
128
Analyse fonctionnelle
Gene Ontology : http://www.geneontology.org

Analyse de l'ensemble du génome


(J. D. Munkvold et al., 2004)

Biais ???
Analyse bibliographique

De nombreuses
connaissances sont
disponibles dans les
articles publiés
Il est possible de coupler
les connaissances de
plusieurs articles pour en
découvrir de nouvelles !
Traitement Automatique
du Langage naturel (TAL)
Exercice

Comment étudier l'impact du cancer de la prostate


sur les voies métaboliques ?

131
Exercice

Comment étudier l'impact du cancer de la prostate


sur les voies métaboliques ?
Deux groupes de patients :
Patients sains
Patients souffrant d'un cancer de la prostate
Puces à ADN avec des extraits de tissus prostatiques
Recherche de gènes différentiellement exprimés
Analyse fonctionnelle

132
Classification
hiérarchique
ascendante
Analyse fonctionnelle
Analyse fonctionnelle

Identifying molecular features for prostate cancer with Gleason 7 based on


microarray gene expression profiles, L. Bălăcescu, Rom J Morphol Embryol. 2011
Puces à ADN

Plans d'expériences

137
Plans d'expériences

Les puces à ADN autorisent de nombreux plans


d'expérience
Groupe témoin – groupe test ?
Essai croisé ?
...
Comment faire pour obtenir un maximum
d'information...
...avec un minimum
D'erreur
D'effort
De coût ?
138
Plans d'expériences

Exemple typique :
On souhaite comparer l'expression des gènes
dans deux conditions différentes
Chez des cellules en situations normal et en situation de
stress
=> étudier la réponse cellulaire à un stress (produit toxique, drogue,
médicament,...)
=> étudier les mécanismes de résistances d'un champignon à un
antifongique
Chez des patients sains et des patients malades
=> étudier la maladie
=> diagnostic

139
Comparaison de deux conditions
On souhaite étudier une maladie
Que pensez-vous du plan d'expérience suivant ?

Fluorescence Fluorescence
verte rouge

1 patient sain 1 patient malade

Puce à ADN avec pour sondes


le génome humain

Détermination des gènes différentiellement exprimés


140
Comparaison de deux conditions
Fluorescence Fluorescence
verte rouge

1 patient sain 1 patient malade

Détermination des gènes différentiellement exprimés

Problème de la variabilité biologique !


Tous les patients ne sont pas identiques
=> les différences d'expression des gènes entre les 2 patients ci-dessus
peuvent être dues :
À la maladie
À la différence inter-individuelle
Les méthodes statistiques ne permettent pas de généraliser les résultats
obtenus sur 1 patient malade à l'ensemble des patients ayant cette maladie !
Comparaison de deux conditions
Que pensez-vous de ce nouveau plan d'expérience ?

Fluorescence Fluorescence
verte rouge

20 patients 20 patients
sains malades

20 puces à ADN avec pour sondes


le génome humain

Détermination des gènes différentiellement exprimés


Comparaison de deux conditions

Fluorescence Fluorescence
verte rouge

20 patients 20 patients
sains malades

20 puces à ADN avec pour sondes


le génome humain

Détermination des gènes différentiellement exprimés

Le problème de la variabilité biologique est pris en compte


Mais il y a un problème de variabilité technique !
« Effet fluorochrome »
Cet effet est gène-dépendant !
Comparaison de deux conditions
Que pensez-vous de ce nouveau plan d'expérience ?

Fluorescence Fluorescence
verte rouge

Fluorescence Fluorescence
rouge verte
20 patients 20 patients
sains malades

40 puces à ADN avec pour


sondes le génome humain

Détermination des gènes différentiellement exprimés


Comparaison de deux conditions
Fluorescence Fluorescence
verte rouge

Fluorescence Fluorescence
rouge verte
20 patients 20 patients
sains malades

40 puces à ADN avec pour


sondes le génome humain

Détermination des gènes différentiellement exprimés

Résout le problème de la variabilité technique au niveau des florochromes


C'est un plan en carré latin (dye-swap)
Faire attention à d'autres formes de variabilités techniques :
Expérimentateur
Lots de puce Mais demande plus de puces !
Comparaison de deux conditions
Que pensez-vous de ce nouveau plan d'expérience ?

Fluorescence Fluorescence
verte rouge
10 patients 10 patients
sains malades

Fluorescence
Fluorescence verte
rouge

10 patients 10 patients
20 puces à ADN avec pour
sains sondes le génome humain malades

Détermination des gènes différentiellement exprimés


Comparaison de deux conditions

Fluorescence Fluorescence
verte rouge
10 patients 10 patients
sains malades

Fluorescence
Fluorescence verte
rouge

10 patients 10 patients
sains 20 puces à ADN avec pour malades
sondes le génome humain

Détermination des gènes différentiellement exprimés

Plan dye-switch
Demande 2 fois moins de puces que le dye-swap
Comparaison de deux conditions
Dye-swap ou dye-switch ?
Le dye-swap contrôle mieux les variabilités techniques dues aux
fluorochromes
Mais il consomme deux fois plus de puces !
Dye-swap : 1 puce par échantillon
Dye-switch : 1 puce par couple d'échantillon
Dans l'exemple précédent, quitte à utiliser 40 puces, il vaut sans doute
mieux travailler sur 80 patients !
=> réduit la variabilité biologique

=> Dye-swap si :
La variabilité technique est plus importante que la variabilité biologique
Ou le nombre d'échantillons est limité

=> Dye-switch si :
La variabilité biologique est plus importante que la variabilité technique
Ou le nombre de puce est limité
148
Comparaison de deux conditions

B7

Où est le dye-swap et le dye-switch ?


Comparaison de plus de deux
conditions
C'est notamment le cas dans les études cinétiques
On souhaite étudier la réplication de l'ADN lors de la
phase S du cycle cellulaire
=> On fait plusieurs puces à ADN à différent moment
On souhaite étudier l'évolution de la réponse à une
condition dans le temps
Ex : étudier l'évolution de l'expression des gènes chez
des patients obèses avant régime et après 2, 10 et 30
jours de régime
Permet de rechercher des corrélations
S'il y a une corrélation => haut niveau de preuve !

151
Comparaison de plus de deux
conditions
Que pensez-vous du plan d'expériences suivant ?

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30


Comparaison de plus de deux
conditions

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30

Il permet de comparer J0 avec J+2, et J+10 avec


J+30
Mais il n'est pas possible de comparer J0 avec
J+10 ou J+30 !
A cause de la variabilité technique
Comparaison de plus de deux
conditions
Que pensez-vous du plan d'expériences suivant ?

J0-J+10 J0-J+30 J+2-J+30

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30

J0-J+2 J+2-J+10 J+10-J+30


Comparaison de plus de deux
conditions

J0-J+10 J0-J+30 J+2-J+30

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30

J0-J+2 J+2-J+10 J+10-J+30

Il permet toutes les comparaisons possibles...


Mais à quel prix !
Pour 20 patients, il faudrait 20 x 2 x 6 = 240 puces...
Comparaison de plus de deux
conditions
Que pensez-vous du plan d'expériences suivant ?

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30


Comparaison de plus de deux
conditions

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30

Plan séquentiel ; il permet de comparer directement :


J0 à J+2
Plus la comparaison est indirecte,
J+2 à J+10
moins elle est précise !
J+10 à J+30
De manière indirecte : A chaque comparaison indirecte,
J0 à J+10 l'écart-type augmente !
J+2 à J+30
J0 à J+30 (doublement indirect) => peu d'information sur J0 et J+30
Comparaison de plus de deux
conditions
Que pensez-vous du plan d'expériences suivant ?

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30


Comparaison de plus de deux
conditions

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30

Plan en boucle
Phénomène cyclique (étude du cycle cellulaire)
Étude cinétique lorsque l'on s'intéresse surtout au deux bouts
Comparaison de plus de deux
conditions
Que pensez-vous du plan d'expériences suivant ?

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30

Référence
Comparaison de plus de deux
conditions

Patients à J0 Patients à J+2 Patients à J+10 Patients à J+30

Référence
Plan « en étoile »
Que des comparaisons indirectes, mais toutes avec la
même précision
Choix de la référence : J0, patients sains,... ?
Design issues for cDNA microarray experiments,
Yang Y.H., Nature reviews Genetics, 2002
Comparaison de plus de deux
conditions
Pas de plan d'expériences idéal !
=> choix du plan en fonction de la question principale que l'on se
pose
Regarder quelle est la comparaison la plus importante pour y
répondre
Dans l'exemple précédent sur le régime, quel plan d'expérience
consomme le moins de puces si l'on souhaite d'abord...
...regarder l'impact de 30 jours de régime sur l'expression des
gène ?
...savoir si un régime court (10 jours) ou long (30 jours) ont le
même impact métabolique ?
…regarder si lors du régime, l'expression des gènes d'un
patient obèse se rapproche de celle d'un patient non-obèse ?
163
Comparaison de plus de deux
conditions
Dans l'exemple précédent sur le régime, quel plan
d'expérience si l'on souhaite d'abord...
...regarder l'impact de 30 jours de régime sur l'expression
des gène ?
Il faut pouvoir comparer J0 et J+30
=> Plan en étoile avec J0 comme référence
...savoir si un régime court (10 jours) ou long (30 jours) ont
le même impact métabolique ?
Il faut pouvoir comparer J+10 et J+30
=> Plan séquentiel
…regarder si lors du régime, l'expression des gènes d'un
patient obèse se rapproche de celle d'un patient non-
obèse ?
Il faut une comparaison avec un groupe de patients non-obèses
=> Plan en étoile, avec des patients non-obèses comme référence
164
Exercice 1

On souhaite étudier l'expression des gènes dans les


cellules hépatiques de souris après un mois de
consommation d'OGM
3 quantités sont considérées :
Q0 (pas d'OGM)
Q1 (faible ration alimentaire en OGM)
Q2 (forte ration alimentaire en OGM)
Les crédits de votre labo sont « à secs », et vous ne
disposez que de 8 puces
Quel plan d'expérience proposez-vous ?
Combien de souris peut-on faire participer à l'étude ?

165
Exercice 2

Des échantillons de tissus malades sont prélevés


chez 60 patients atteints d’un lymphome
On souhaite identifier des sous-groupes de
patients présentant des lymphomes similaires, en
terme de gènes exprimés

Combien y a-t-il de conditions ? Quel plan


d'expérience proposez-vous ?
De combien de puces à ADN vous avez-vous
besoin ? De quel type ?

168

Vous aimerez peut-être aussi