Vous êtes sur la page 1sur 92

Licence Professionnelle de Génomique

ENCPB - 22 janvier 2008

Analyse bioinformatique des puces à ADN

Stéphane Le Crom (lecrom@biologie.ens.fr)

Laboratoire de Génétique Moléculaire du Développement - INSERM U784


Plate-forme Transcriptome - IFR36
École normale supérieure
La bioinformatique dans une expérience biopuces

Mise au point du dessin expérimental

Hybridation
Expérimentation
Analyse Fouille de données
des données
Analyse d’image
Traitement
des données

Traitement des données brutes Représentation des données


- Clustering
- Normalisation
- Analyse statistique
Analyse bioinformatique des puces à ADN

Analyse de l’image
Les différents types d’images rencontrés
Echelle de couleur • Puces à ADNc/oligonucleotides - ENS
=
Echelle Quantitative
- 2 canaux
- Superposition
(= Ratio)

• Puces à Oligonucleotides - Affymetrix

- 1 canal
- Intensité
(= quantité d’ARN)
Obtention de l’image

Longueur d’onde Longueur d’onde


du Cy5 du Cy3

Image finale
Principes généraux de l’analyse d’image
• Convertir l’image en valeurs numériques pour quantifier l’expression

Il existe des logiciels d’analyse d’image …

ScanAlyze Genepix Pro


(M. Eisen Stanford University) (Axon software)
Les différentes étapes de l’analyse d’image

1 — Localisation des spots sur la lame

Pour chaque spot


2 — Délimitation des pixels correspondant à la zone d’hybridation
3 — Délimitation des pixels pour l’estimation du bruit de fond
4 — Calcul de l’intensité globale de fluorescence

Sur l’ensemble de la lame


5 — Identification des spots déformés par des artéfacts
Récupération des résultats bruts
• Exemple d’un fichier de sortie de logiciel d’analyse d’image
Intensités Annotations
Position Taille Homogénéité Statistiques
Brutes BDF
Obtention de l’image (GeneChip Affymetrix)

PM

MM

Des paires d’oligonucléotides sont


crées pour chaque gènes (8-10) :

• “perfect match” PM
• “mismatch” MM

12000 gènes de souris par lame


Analyse bioinformatique des puces à ADN

La normalisation d’une lame


Les sources de variations d’une puce à ADN

Erreur systématique Erreur stochastique

• Effets similaires sur plusieurs mesures • Effets qui se produisent de façon trop
• Les corrections peuvent se mesurer à aléatoire et qui du coup ne peuvent se
partir des données mesurer comme du bruit

Calibration Modèle d’erreur


La normalisation
• Pourquoi faire ?
• Pour corriger les différences systématiques
entre les mesures sur la même lame qui ne 500.000 spots
représentent pas de véritables variations
biologiques.

• Pourquoi normaliser est nécessaire ?


300.000 spots
• En examinant les réplicats contre le même
échantillons, où de vraies différences
d’expression ne doivent pas apparaître. Extrémités des pointes de dépôt

• La normalisation des résultats des puces à ADN permet la comparaison de plusieurs


expériences (référence commune)
• La normalisation calibre les erreurs systématiques (et non stochastique)
• Il est indispensable d’effectuer deux transformations mathématiques sur les résultats bruts
avant de normaliser les données
La transformation logarithmique

Les effectifs sont plus important Les intensités sont distribuées de


vers les faibles intensités façon uniforme

Remarque : On choisira le logarithme en base 2 pour les analyses


La transformation logarithmique
• Effet sur la distribution
des intensités
• La plupart des intensités mesurées
sont faibles
• Distribution « en cloche »

• Recentrage de la distribution
• Rend symétrique les distribution
• Facilite l’utilisation des statistiques…

D’après « Microarray Bioinformatics », Dov Stekel


La rotation des graphiques (MA plot)

log2R vs log2G M=log2R/G vs A=log2√ RG


• Différences des intensités :
M = log ratio = log R/G = log R - log G
• Contre la moyenne des intensités :
A = log moyenne = log √ RG = [log R + log G]/2
Quels spots utiliser pour normaliser ?
• Utilisation de contrôles positifs
• Prise en compte de spots contenant des
gènes de ménages ou de l’ADN génomique Avantage : peu de gènes sont nécessaires
• Les contrôles positifs doivent être Inconvénient : ces gènes subissent trop de
détectables, posséder une expression stable fluctuations non contrôlées dans les
et tomber dans la gammes de détection du systèmes biologiques
scanner

• Mesure de l’intensité globale

• Utilisation de l’intensité globale sur toute la Avantage : mesure efficace sur un grand
membrane, mesurée pour tous les spots nombre de spots
• La mesure de l’intensité globale doit Inconvénient : il est nécessaire que la
s’effectuer sur un nombre suffisant de spots et majorité des gènes analysés n’ait pas une
doit utiliser des valeurs homogènes expression modifiée
Les différentes méthodes de normalisation
Les différentes méthodes de normalisation
• Normalisation basée sur un ajustement global

• Médiane ou moyenne des log de ratios pour un gène particulier ou un ensemble de


gènes (gènes de ménage)
• Normalisation en utilisant les intensités totales

MA plot avec médianes ≈ 0


Les différentes méthodes de normalisation
• Normalisation dépendante des intensités
• Utilisation d’une méthode de régression qui utilise la fonction lowess de Cleveland (1979) :

Lowess = LOcally WEighted Scatterplot Smoothing

Normalisation sur les intensités globales Normalisation dépendant des intensités


La normalisation par Lowess

Les paramètres à prendre en


compte :
- La taille des fenêtres
- Le chevauchement des
Courbe de
Régression linéaire régression fenêtres
locale

Avant Après
Comment s’affranchir des effets spatiaux ?

Effet de bloc ou de pointe de dépôt


Box plots
• Chaque distribution des ratios (M) d’un bloc est représentée par une boîte
• On peut visualiser directement la forme globale de la distribution (moyenne, écart-type) et
comparer facilement et rapidement les log2(ratios)

“Outliers”

Upper quartile 1.5 ´ IQR

Median

Lower quartile
“Outliers”
Visualisation de l’effet aiguille par box-plots
Les différentes méthodes de normalisation
• Normalisation en prenant en
Avant normalisation
compte les pointes de spotting

• En plus des variations dépendantes de


l’intensité, un biais spatial peut aussi être une
source importante d’erreur systématique.
• Peu de méthodes de normalisation corrigent
les effets spatiaux qui produisent des artéfacts
d’hybridation comme les pointes de spotting
ou les différentes plaques lors de la production
des lames.
Après normalisation
• Il est possible de corriger en même temps
les biais dû à l’intensité et aux différentes
pointes utilisées en effectuant une régression
par Lowess sur les données à l’intérieur de
chaque groupe de pointes soit :
log2 R/G => log2 R/G - ci(A) = log2 R/(ki(A)G)
où ci(A) est le coefficient de régression
Lowess sur le MA plot pour la grille i.
Lowess par groupes de pointes

Lame de verre
Lames de verre avec ADNc
4x4 blocs = 16 groupes de pointes
Les différentes méthodes de normalisation
Avantages Inconvénients
----- Régression linéaire -----

• Méthode très simple • Asymétrie entre Cy5 et Cy3


• Alignement sur une horizontale • Peu efficace sur les nuages déformés

----- Lowess -----

• Marche bien sur les nuages déformés • Requiert l’utilisation de logiciels


statistiques
• Correction à la fois des intensités en Cy5
et Cy3 • Nécessite de faire attention aux
paramètres de la régression

----- Lowess par bloc -----

• Corrige les nuages déformés • Risque de sur-correction du signal


• Prend en compte les effets locaux • Il est nécessaire d’avoir assez de spots
par bloc pour que la normalisation marche
Conclusion sur la normalisation
• Il y a quelques hypothèses à garder à l’esprit
• Utiliser la méthode Loess global implique qu’à l’échelle de l’abondance des ARNm :
- seule une minorité des gènes est différentiellement exprimée
- il y a un nombre égal de gènes différentiellement exprimés induits ou réprimés
• Pour les méthodes spécifiques par bloc, il est nécessaire que les conditions précédentes
soient respectées pour chaque bloc. D’un point de vue statistique, le nombre de spots
concerné par la méthode ne doit pas être trop petit.
• Utiliser un sous-ensemble de gènes spécifiques pour la normalisation (control, gènes de
ménage) implique des hypothèses similaires.

• Il y a des améliorations à apporter

• Utilisation d’une méthode de normalisation adaptée aux données utilisées.


• Il est important de ne pas écraser les variation et de ne pas créer de faux positifs.
Conclusion sur la normalisation
• On recommande
• D’effectuer la transformation en log2 ratios (MA plot)
• D’utiliser la normalisation Loess globale pour corriger le biais de fluorochrome
• D’utiliser une normalisation par pointe (médiane) pour prendre en compte les biais spatiaux.
• De garder à l’esprit que la normalisation change les données brutes : il est donc nécessaire
d’adapter la méthode de normalisation aux données.
• De garantir les mêmes conditions techniques pour toutes les lames qui seront utilisées dans
vos expériences (même manipulateur, même scanner, même lot de lames …)
• De ne pas hésiter à passer du temps sur les contrôles qualité (lames jaunes)

• En principe
• Les spots mauvais seront éliminés en faisant plusieurs réplicats

=> La chose la plus difficile c’est de corriger les biais techniques


sans rien changer au signal étudié
Analyse bioinformatique des puces à ADN

La normalisation entre lames


La normalisation avec les puces Affymetrix
• Normalisation
• Comparaison entre deux expériences :
• Chaque condition est hybridée sur une seule
membrane/lame.
• L’utilisation des intensités globales permet la
normalisation de toutes les valeurs et donc la
comparaison des deux expériences

• Standardisation

• Comparaison entre plusieurs expériences :


• Toutes les expériences doivent être
comparées à une condition contrôle.
• Il est nécessaire d’utiliser une intensité cible,
fixée arbitrairement ou obtenue de façon
absolue (gènes de ménage).
La normalisation entre lames
• Hypothèse : les variations des distributions observées ne sont pas
des changements biologiques réels

Box plot des distributions des log2(ratios) pour 3 hybridations identiques (réplicats) :
• Gauche : sans aucune normalisation
• Centre : après une normalisation Loess par bloc (centrage)
• Droite : après une normalisation entre lames (réduction)
Pourquoi faire plusieurs expériences ?
• Comparer différentes conditions expérimentales
• Obtenir une liste fiable de gènes exprimés de façon
significative dans une comparaison deux à deux
= Comparaison de classes (analyse différentielle)

• Classer les échantillons entre eux


• Obtenir une classification fiable des échantillons afin
de pouvoir prédire l’appartenance à une classe d’un
nouvel échantillon inconnu
= Prédiction de classes (discrimination, classification
supervisée)

• Regrouper les gènes dont l’expression est


corrélée (classer les gènes entre eux)
• Obtenir des groupes de gènes répondant de façon
identique dans plusieurs conditions expérimentales Niveaux d’expression de gènes
= Définition de classes (classification non supervisées, de Drosophile qui sont régulés
clustering) selon un rythme circadien.
Analyse bioinformatique des puces à ADN

Sélection des expressions significatives


Analyse différentielle
Comment sélectionner les cibles significatives ?
• Fixer un seuil de significativité - méthode du « fold change »
M - Rapport des intensités

A - Moyenne des intensités


Utilisation de méthodes statistiques
• Principales limites de la méthode « fold change »
• Comment choisir la valeur à partir de laquelle
un ratio est significatif ?
• La variabilité globale des expressions
mesurées sur la puce n’est pas prise en
compte
• Le niveau d’expression des gènes (intensités
Cy5 et Cy3) n’est pas pris en compte

=> Utilisation de méthodes reposant sur des modèles statistiques

• Avec des données issues d’une répétition d’expériences


• Déviation standard sur des expériences
reproduites (théorie des tests)
Le principe de l’analyse différentielle
• But
• Déterminer les gènes s’exprimant différemment suivant les conditions étudiées.
• Faire la différence entre les gènes activés dans les conditions étudiées et ceux activés
par hasard.
• Obtenir une idée du risque pris lors de la prédiction des gènes significatifs.
• Déterminer le nombre optimal de répétitions expérimentales.

• Plusieurs outils statistique sont disponibles


• Tests paramétriques (t-test)
• Tests non-paramétriques (wilcoxon)
• Méthodes par ré-échantillonnage (SAM)
Données appariées ou non appariées ?
• Données appariées • Données non-appariées

Exp Cond 1 Cond 2 Delta Repetitions Gene X Repetitions Gene X


cond 1 expression cond 2 expression
Slide 1 Exp(1,1) Exp(1,2) Delta1
1 Exp(1,1) 1 Exp(1,2)
Slide 2 Exp(2,1) Exp(2,2) Delta2
2 Exp(2,1) 2 Exp(2,2)
Slide 3 Exp(3,1) Exp(3,2) Delta3
3 Exp(3,1) 3 Exp(3,2)
Slide 4 Exp(4,1) Exp(4,2) Delta4
4 Exp(4,1)
Slide 5 Exp(5,1) Exp(5,2) Delta5
5 Exp(5,1)

• Deux groupes d’expériences


• Deux mesures pour un seul groupe (conditions 1 et 2) avec seulement
d’expériences. une mesure.
• Les intensités sont combinées afin • Le nombre de répétitions pour
d’obtenir une valeur unique. chaque conditions peut être différent.
Utilisation d’un test paramétrique : t-test
• Données appariées • Données non-appariées

Delta Delta

La moyenne des Les moyennes


mesures est-elle des 2 groupes
différente de 0 ? sont-elles
différentes ?

Une « p-value » est calculée en comparant la valeur t calculée, à une distribution de


Student (avec un degré de liberté approprié).

t-test apparié t-test non-apparié

Le t-test nécessite que la distribution des données testées soit normale. Contestable…
 TEST NON-PARAMÉTRIQUE !
Analyse par ré-échantillonage
• On veut déterminer si les moyennes de deux groupes sont différentes
• Les analyses par « bootstrap » ne supposent pas que les données sont normalement
distribuées.

Groupe 1 Groupe 2
t-test classique
(2 échantillons)

Données combinées

t-test classique
(2 échantillons)
Bootstrap Groupe 1 Bootstrap Groupe 2

Le jeu de données mélangées ressemble aux données réelles puisque ce sont les
mêmes valeurs, mais sans aucun sens biologique.
Comment fixer le seuil (pour un gène) ?
• Que peut-on garantir ?
• Quand |Tg| est grand = on rejette l’hypothèse H0

Le gène est
Le gène n'est pas
différentiellement
différentiellement exprimé
exprimé
Le gène est déclaré
différentiellement Bonne décision Erreur de type I (FPos)
exprimé
Le gène est déclaré
Erreur de type II
non différentiellement Bonne décision
(FNeg)
exprimé

• Confiance = probabilité de ne pas obtenir un résultat faux positif. Le contrôle de l’erreur de


type I s’effectue directement sur la statistique de test
• Puissance = probabilité de ne pas obtenir un faux négatif. Le contrôle de la puissance est
implicite via le dessin expérimental et le niveau de confiance.
Mais le test porte sur plusieurs milliers de gènes !
• Contrôle du nombre de faux positifs (FP)

• 1 gène => 5% d’erreur


• 10 000 gènes => 500 erreurs (FP) en moyenne

=> La mesure du taux de faux positifs, nécessité de prendre en compte le nombre de gènes
testés.

=> Il existe des procédures d’ajustement pour les tests multiples :


– Bonferroni (correction des p-valeurs)
– FDR (False Discovery Rate)
Conclusions sur l’analyse différentielle
• La méthode statistique utilisée
• garanti le contrôle du nombre de faux positifs
• doit prendre en compte le nombre de gènes,
le nombre de répétitions, et le niveau de
garantie fixé

• La puissance obtenue dépendra


essentiellement
• du nombre de répétitions
• de la méthode d’ajustement
• de la modélisation de la variance
Que peut-on analyser avec les puces à ADN ?
• Comparer différentes conditions expérimentales
• Obtenir une liste fiable de gènes exprimés de façon
significative dans une comparaison deux à deux
= Comparaison de classes (analyse différentielle)

• Classer les échantillons entre eux


• Obtenir une classification fiable des échantillons afin
de pouvoir prédire l’appartenance à une classe d’un
nouvel échantillon inconnu
= Prédiction de classes (discrimination, classification
supervisée)

• Regrouper les gènes dont l’expression est


corrélée (classer les gènes entre eux)
• Obtenir des groupes de gènes répondant de façon
identique dans plusieurs conditions expérimentales Niveaux d’expression de gènes
= Définition de classes (classification non supervisées, de Drosophile qui sont régulés
clustering) selon un rythme circadien.
Analyse bioinformatique des puces à ADN

Travailler avec des séries de données


Avec plusieurs expériences différentes
• Représentation des données sous forme d’une matrice d’expression

Exp 1 Exp 2 Exp 3 ….. Exp m

Gène 1 Val(1,1) Val(1,2) Val(1,3) ….. Val(1,m)


Profil
d’expression Gène 2 Val(2,1) Val(2,2) Val(2,3) ….. Val(2,m)
d’un gène
Gène 3 Val(3,1) Val(3,2) Val(3,3) ….. Val(3,m)

….. ….. ….. ….. ….. …..

Gène n Val(n,1) Val(n,2) Val(n,3) ….. Val(n,m)


Superposition de profils différents
Superposition des profils Exemple des gènes codants les
d’expression protéines Histones

log2(Ratio) log2(Ratio)

Profil
moyen

Numéro de
l’expérience
Numéro de
l’expérience

(série « Elutriation », Spellman et al., 1998)

Les gènes dont les profils d’expression sont similaires sont de bons candidats pour
être régulés par les mêmes facteurs ou intervenir dans le même processus biologique.
Analyse bioinformatique des puces à ADN

Classification non supervisée


Recherche des profils d’expression similaires
À chaque gène est associé un profil d’expression

Il s’agit alors de trier ces profils en fonction de leur ressemblance

Utilisation de méthodes statistiques

• Deux étapes principales


1/ Calcul des distances entre tous les profils pris deux à deux.
2/ Tri des profils en fonction de la distance qui les sépare.
Le calcul de la distance entre deux profils
• Le calcul de la distance est un critère de « ressemblance » entre profils
• Distance Euclidienne • Mesure de corrélation
log2(Ratio)
log2(Ratio) max log2(Ratio) max
Somme des
différences x
max x
Exp min x
x Exp
x Exp
max x
min
x
x min
min

Profil 1 max Profil 1


max
r=1 x max x min r = -1
x x
x
d1 > d2 x
x x
x
 Deux profils peuvent être plus ou
min x min

moins ressemblants selon la distance ! x min x max

Profil 2 Profil 2
Représentation géométrique d’une série
• Exemple Expérience 2
Exp 1 Exp 2
Gène 1 Val(1,1) Val(1,2) Val(2,2)
Gène 2 Val(2,1) Val(2,2) Val(1,2)
Expérience 1
Val(1,1) Val(2,1)
• Généralisation
n gènes, 2 expériences n gènes, 3 expériences
Nuage de
point

Les proximités géométriques traduisent des associations statistiques


Plusieurs familles de méthodes

Gène

Nuage de point

Configuration du nuage de points dans


un espace à n dimensions

Visualisation dans le plan le


plus informatif Constitution de groupes

Méthodes factorielles Méthodes de classification


L’Analyse en Composante Principale (ACP)
• Principe
• Difficulté de visualiser les distances entre les gènes lorsque la représentation géométrique
d’une série requiert un espace à plus de 2 ou 3 dimensions
• Recherche d’un sous-espace qui ajuste au mieux le nuage de point de façon à ce que les
proximités qui y sont mesurées reflètent au mieux les proximités réelles

• Exemple
Espace à 2 dimensions Espace à 1 dimensions
Axe 2

Projection Axe 1

Axe 2

Axe 1 Axe le plus informatif


L’Analyse en Composante Principale (ACP)
• Comment conserver le plus d’information sur un nombre défini d’axes ?

3° 2°

1° 1°

3° 2°
2° 3°
Exemple d’analyse en composante principale
Cinétique d’expression d’une
protéine chimère

Devaux et al. (2001) EMBO Rep


Les nuées dynamiques (K-means)
• Principe général :

Centre de classe 1 Centre de classe 2


(profil moyen) (profil moyen)

Groupe 1 Groupe 2
d1 d2

Comparaison des distances : d1 < d2

Nouveau gène à classer


Les nuées dynamiques (K-means)
• Les différentes étapes de l’algorithme :

Sélection des centres Constitution des classes

Partitions finales Calcul des nouveaux centres


Exemple de nuées dynamiques
Le regroupement hiérarchique
• Méthode ascendante qui fournit une hiérarchie de partition

Matrice de distance initiale Matrice de distance Matrice de distance


d(min) recalculée recalculée
g1 g2 g3 g4 1,2 g3 g4 1,2,3 g4
g1 d1 d2 d3 1,2 d' d’' 1,2,3 d’’'
g2 d1 d4 d5 g3 d' d6 g4 d’’'
g3 d2 d4 d6 g4 d’' d6
g4 d3 d5 d6 g1 g2 g3 g4
g1 g2 g3 g4
g1 g2 g3 g4

A chaque étape, une partition est obtenue en agrégeant deux à deux


les éléments les plus proches.
Exemple de regroupement hiérarchique
• Exemple : représentation des résultats d’une cinétique

Devaux et al. (2001) EMBO Rep


Comparatif des méthodes de regroupement
Avantages Inconvénients
----- Analyse en Composante Principale -----
• Aucun paramètre à choisir • Parfois difficile à interpréter
• Pas de partage en classes

----- Les nuées dynamiques -----


• Algorithme très rapide • Nécessité d’un travail préalable pour choisir
le nombre de groupes optimal
• Bien adapté aux jeux de données importants
• Algorithme sensible au point de départ
• Permet d’obtenir un profil moyen pour
chaque classe • L’algorithme peut ne pas converger

----- Le regroupement hiérarchique -----


• Existence d’une hiérarchie entre les gènes • Difficulté à traiter des jeux de données
(résultats stables) importants (coûteux en ressources mémoires)
• Pas de fixation des groupes au départ • Résultats difficiles à interpréter (limites)
• Tri possible par expériences et par gènes
La classification est un problème difficile
Série d’expériences

Calcul des distances

Tri des profils Tri des profils Tri des profils

Différents résultats possibles


Nécessite une validation des groupes

• Le clustering ne doit pas être utilisé pour l’analyse différentielle ni pour la prédiction
fonctionnelle
• Le clustering est généralement la première étape (descriptive) d’une analyse plus
approfondie.
Le regroupement appliqué à une image
Mélange des pixels de façon aléatoire
Application de la classification hiérarchique
Classification hiérarchique et supervisée
Deux types de classification sont possibles
Série d’expérience
Exp 1 Exp 2 Exp 3
Gène 1 log2(1,1) log2(1,2) log2(1,3)
Gène 2 log2(2,1) log2(2,2) log2(2,3)
Gène 3 log2(3,1) log2(3,2) log2(3,3)
Gène 4 log2(4,1) log2(4,2) log2(4,3)

Classement des gènes Classement des expériences

Exemple : Exemple :
Regroupement de gènes co-régulés Classification des tumeurs
Exemple : la cartographie des tumeurs
Le projet « Carte d’Identité des Tumeurs » (CIT)

1/ Classification des profils


d’expression de 15.000
gènes humains pour 55
tumeurs du sein

Identification de gènes
impliqués dans la 2/ Identification de clusters de
tumorigénèse gènes exprimés différentiellement
dans les tumeurs

Cathy Nguyen, TAGC/CIML, Marseille


Le projet « Carte d’Identité des Tumeurs » (CIT)

3/ Classification des
tumeurs à partir de ces
clusters intéressants =
caractérisation moléculaire
des tumeurs.

4/ Corrélation avec le devenir des patientes


testées = outil de diagnostic pour les
nouvelles patientes. 5/ Adaptation des traitements ?
Tumeurs I+ = 3 décès sur 27
Tumeurs I- = 14 décès sur 28
Cathy Nguyen, TAGC/CIML, Marseille
Analyse bioinformatique des puces à ADN

Le pré-traitement des matrices d’expression


La gestion des valeurs manquantes
• Parfois les ratios obtenus pour certains spots ne peuvent pas être
exploités
Exp 1 Exp 2 Exp 3 ….. Exp m

Gène 1 Val(1,1) Val(1,2) Val(1,3) ….. Val(1,m)

Gène 2 X Val(2,2) Val(2,3) ….. Val(2,m)

Gène 3 Val(3,1) Val(3,2) X ….. Val(3,m)

….. ….. ….. ….. ….. …..

Gène n Val(n,1) Val(n,2) Val(n,3) ….. Val(n,m)

Valeurs • Calculs à partir de valeurs moyennes


manquantes • Calculs en fonction des plus proches
• Suppression des profils avec trop de voisins (KNN impute)
valeurs manquantes (plus de 70%)
Prétraitement avant la classification
• Le filtrage des profils invariants
• Il a pour but de supprimer les gènes dont l’expression ne varie pas dans une série
d’expériences

log2(Ratio) à conserver
Moyenne + δ
Profil variant

Valeur moyenne
des profils

Zone
Expérience d’invariance

Profil invariant
Moyenne - δ
à supprimer
Centrage et réduction des profils
• Centrer
• Centrer un profil d’expression consiste à soustraire la moyenne du profil à chacune des
valeurs d’expression. La moyenne d’un profil centré est ainsi de 0.

 Le centrage élimine
l’influence de la valeur
de référence.

• Réduire
• Réduire un profile d’expression consiste à diviser chaque valeurs d’expression par la
déviation standard du profil. La déviation standard d’un profil réduit est alors de 1

 Réduire des profils


d’expression permet de
comparer les variations
d’expression sans tenir
compte des amplitudes.
Les méthodes de regroupement - Conclusion
• Il n’y a pas de méthode universelle

• Il n’y a pas de paramètres universels (distance, première analyse, …)


• La meilleure solution est d’utiliser plusieurs méthodes
• Il est nécessaire de faire attention aux paramètres (distance, nombre de classes,…)

• Plusieurs logiciels de regroupement


sont disponibles :
• Libre pour les académiques et implémenté en Java :
• Genesis (http://genome.tugraz.at/)
• MeV (http://www.tigr.org/software/tm4/mev.html)

• Pour mieux comprendre les méthodes de regroupement :


• Master Thesis d’Alexander Sturn (2001) http://genome.tugraz.at/Theses/Sturn2001.pdf
Analyse bioinformatique des puces à ADN

La validation des résultats


Après la classification : la validation des résultats
• Regarder la superposition des profils d’expression des gènes classés
ensemble

Classification certainement réalisée sur Bonne homogénéité des profils


un artéfact expérimental

• Utilisation de plusieurs méthodes en modifiant les paramètres


• Confrontation des groupes obtenus avec les données bibliographiques
Les autres données à « grande échelle »
http://yeast.cellzome.com KEGG : Kyoto Encyclopedia of Genes and Genomes
http://www.genome.ad.jp/kegg/
L’annotation fonctionnelle des gènes
• Gene Ontology
• Une ontologie est une
spécification de concepts qui inclut
les relations entre les concepts et
qui :
1
- supprime les ambiguïtés.
- permet des comparaisons
fiables.
• Création d’un ensemble de termes
standards.
• Recherche automatisée de 2
publications regroupant les mêmes
gènes.
3

http://www.geneontology.org/
GO : des recherches à l’aide de mots clefs
GO : des recherches à partir de listes de gènes

http://genereg.ornl.gov/webgestalt/
GO : trouver des catégories sur-représentées

http://genereg.ornl.gov/webgestalt/
Calculer des enrichissements

• Calcul de la représentation des gènes de


sa liste dans chaque catégorie par rapport à
une référence (génome, collection).
• Mesure de l'enrichissement et obtention
d’une idée de sa significativité.

http://genereg.ornl.gov/webgestalt/
Localisation dans les voies biochimiques
• Le même principe peut être appliqué à tous
les informations descriptives connues (voies
métaboliques, localisation sub-cellulaire,
chromosomique).
• Le défaut principal vient que souvent ces
informations sont parcellaires et trop peu
nombreuses pour être exploitable facilement.

http://genereg.ornl.gov/webgestalt/
Effectuer des recoupements dans la littérature
• Représentation du nombre de journaux, de
résumés (Medline) et de résumé sur le cycle
cellulaire et Cdc28 paru entre 1950 et 2005.
• Le nombre croissant de résumé sur des
sujets précis rend maintenant impossible la
lecture de tous les papiers publiés.
• Même si certaine protéines à la mode à un
moment donné voit le nombre de résumé
diminuer comme Cdc28.

Jensen et al. (2006) Nature Rev. Genet.


Représenter les informations bibliographiques
• Les co-occurrences des gènes dans les
résumés peuvent se représenter par un lien.
• On peut ensuite rajouter de très
nombreuses informations complémentaires
(site de fixation, données de puces à ADN,
interaction protéine-protéine, …)
• Il est possible d'appliquer certaine propriété
des graphes pour effectuer des tris et
simplifier les représentations
Pouvoir découvrir de nouvelles relations
• Représentation d'un réseau de protéines de
levure ou les approches d'extraction
d'information des résumés de Medline a été
appliqué en utilisant des méthodes de co-
occurrences statistiques et également des
méthodes basés sur le langage naturel
(NLP).
• Les associations fonctionnelles dérivées
des co-occurrences sont en gris. La méthode
de NLP permet d'extraire des relations
concernant des interactions physiques
stables (vert), des régulations
transcriptionnelles (rouge) et des
phosphorylation (bleu). Les nœuds
(protéines) sont elles aussi colorées en
fonction de différentes propriétés
(phosphatases, kinases, cyclines, …).
• Cette approche permet de découvrir des
associations non publiées (b et c).

Jensen et al. (2006) Nature Rev. Genet.


Analyse bioinformatique des puces à ADN

La gestion des données


La gestion du flux de données
Publication Base de données
Web publiques

Internet
Intranet
Serveur
Images obtenues
avec le scanner
de Fichiers Données Données
normalisées publiées
Images
Données Données
Données brutes normalisées
brutes
Analyse d’images Normalisation Interface Web
Les systèmes de stockage des données
• Il y a trois niveaux différents de gestion des données
• Les dépôts de données publics
Construits sur un schéma le plus flexible
possible pour assurer le stockage de données
hétérogènes comme les données provenant
de différents organismes ou obtenues avec
différents processus d’analyse

• Les bases de données institutionnelles


Construites afin d’aider un groupe
d’utilisateurs sur une plate-forme technique
dédiée ou pour répondre à un projet
spécifique

• Les bases de données locales


Construites et installées pour un petit nombre
d’utilisateurs et pour répondre à des questions
très spécifiques et précises

http://www.ncbi.nlm.nih.gov/geo/
Être attentif à la qualité des données
- Dessin des oligos
- Collections Mise au point
du dessin expérimental
- Production des lames
- Qualité des ARN
- Marquage
Hybridation
Expérimentation
Analyse Fouille de données
des données
Analyse d’images
Traitement
des données

Traitement des données brutes Représentation des données


- Clustering
- Normalisation
- Analyse statistique
- Méthodes de normalisation
- Biais spatiaux et colorés
- Niveau du bruit de fond
Excel introduit des erreurs dans le nom des gènes

• La conversion automatique
• La conversion automatique par défaut des
dates introduit des erreurs. Par exemple, le
gène suppresseur de tumeurs DEC1 est
converti en « 1-DEC » (premier décembre).
• La conversion par défaut des nombres
affecte les identifiants de clones de la forme
nnnnnnnEnn, où n indique un chiffre. Par
exemple, le clone RIKEN « 2310009E13 »
est converti en nombre à virgule flottante
« 2.31E+13 ». Une recherche a identifié plus
de 2000 identifiants de ce type sur un total
de 60770 clones RIKEN.
• Ces conversions sont irréversible, le nom
de gène original ne peut plus être retrouvé.

Zeeberg BR et al. Mistaken identifiers: gene name errors


can be introduced inadvertently when using Excel in
bioinformatics. BMC Bioinformatics. 2004 5:80.
Quelques références
• Normalisation • Statistiques
• Quackenbush J. Microarray data • Saporta. Probabilités, analyse des
normalization and transformation. Nat données et statistiques. Editions Technip
Genet. 2002 32 Suppl:496-501.
• Daudin, Robin et Vuillet. Statistique
• Yang YH, Dudoit S, Luu P, Lin DM, inférentielle, idées, démarches, exemples.
Peng V, Ngai J, Speed TP. Normalization Presses Universitaires de Rennes
for cDNA microarray data: a robust
• Tassi. Méthodes statistiques. Economica
composite method addressing single and
multiple slide systematic variation.
Nucleic Acids Res. 2002 30(4):e15.
• Leung YF, Cavalieri D. Fundamentals of
cDNA microarray data analysis. Trends
Genet. 2003 19(11):649-59.