Académique Documents
Professionnel Documents
Culture Documents
la biologie
Contexte Scientifique
Thèmes abordés
Clustering
Graphes 2-intervalles
Aspects fonctionnels des génomes
Graphes multi-échelles
Graphes dynamiques
Contexte scientifique
Pour se convaincre de cette évolution rapide, il suffit de regarder le nombre de modèles informatiques
proposés actuellement en bio-informatique qui manipulent, non plus des séquences seules
(comparaison, alignement) comme c'était le cas peu de temps auparavant, mais des graphes
compliqués batis sur ces séquences ou sur d'autres données, bi-dimensionnelles ou tri-
dimensionnelles.
Ainsi, dans le domaine de la biologie moléculaire post-génomique, il est assez naturel de construire
des graphes sur des séquences et de les étudier, ou encore d'étudier des paires d'intervalles sur des
séquences et les graphes d'intersection associés.
En outre, si la biologie moléculaire pose de plus en plus de problémes algorithmiques difficiles sur les
graphes, d'autre domaines de la biologie, plus traditionnels, suivent cette évolution. Par exemple, la
modélisation informatique du développement des plantes utilise maintenant des arboresences multi-
échelles qui posent de profond problémes algorithmiques sur ces graphes particuliers.
D'une maniére générale, de nouveaux besoins en modélisation et algorithmique sur des modéles liés
aux graphes apparaissent dans de nombreux domaines de la biologie, mais ces modéles ne sont pas
encore complétement figés. Dans de nombreux cas, la modélisation de ces problémes par les
graphes fait entrer en jeu des familles de graphes trés connues (graphes d'intervalles, graphes de
comparabilité, graphes triangulés ou faiblement triangulés, etc). Il est alors souvent possible d'en
déduire des algorithmes polynomiaux répondant aux problémes posés, en s'appuyant sur la
littérature trés fournie dans le domaine. Il reste cependant des problémes pour lesquels les graphes
associés ne font pas nécessairement partie de familles connues. Néanmoins, ces graphes restent
souvent trés spécifiques, et une étude plus approfondie est alors nécessaire. Il s'agit donc d'étudier
des problémes dans lesquels la modéisation à base de graphes n'est pas triviale et l'algorithmique
associée intéressante.
Thèmes abordés
Clustering :
Dans tous les cas, trouver la modélisation en terme de graphes la plus pertinente
biologiquement est souvent un problème non-trivial comme en atteste plusieurs révisions des
modélisations proposées.
Graphes de 2-intervalles
Les paires d'intervalles sont des objets particulièrement bien adaptées à l'étude des structures
secondaires d'ARN. En effet, les différentes relations de comparaison (précédence,
englobement et inclusion) qui existent entre deux paires d'intervalles disjoints définissent
naturellement des classes de motifs représentant différentes classes de structures
secondaires d'ARN. Ces problèmes se modélisent très simplement sous forme de problèmes
combinatoires sur les graphes d'intersection associés. Bien que ces problèmes soient très
difficiles dans le cas général, il a pu Ítre établi que le cas particulier des structures secondaires
d'ARN sans pseudo-noeuds est résoluble en temps polynomial. Cependant, ce dernier cas - le
plus important au sens biologique - souffre encore d'une complexité en pire cas trop élevée. Il
est important de souligner que la modélisation des structures secondaires par graphes est un
domaine de recherche très actifs actuellement: D. Goldman, S. Istrail et C.H. Papadimitriou
ont proposé un modèle plus simple pour l'étude des similarités des protéines, P. Evans dans
un premier temps puis J. Gramm, J. Guo et R. Niedermeier ensuite ont utilisé des
modélisations basées sur les graphes pour l'étude des sous-séquences communes avec
annotations.
Les puces à ADN permettent aujourd'hui de mesurer et de visualiser très rapidement les
différences d'expression entre les gènes et ceci à l'échelle d'un génome complet. L'hypothèse
communément admise par les biologistes est que les gènes dont les profils d'expression sont
similaires sont susceptibles d'Ítre impliqués dans un mÍme processus biologique. Il est assez
naturel d'associer à un ensemble de puces à ADN un graphe de similarité: chaque sommet
représente un gène et chaque arÍte reflète la similarité entre deux gènes. Il est extrÍmement
difficile de manipuler de tels graphes: le génome de
Saccharomyces cerevisae comporte plus de 6000 gènes tandis que celui de mus musculus
est estime a environ 30000 gènes. Il est essentiel de proposer des algorithmes linéaires ou
quadratique dans le pire cas. Puisque la plupart des gènes ne sont pas impliqués dans une
expérience donnée, un clustering complet de ces graphes n'est pas toujours la meilleure
solution et les biologistes ont besoins d'algorithmes rapides permettant d'extraire uniquement
des sous-graphes de forte connexité pertinents (c'est-à-dire satisfaisant un ensembles de
contraintes énoncées par les biologistes). De plus, la publication croissante de séquences de
nouveaux organismes permet aujourd'hui d'étudier plus avant les comparaisons entre espèces
au niveau du
transcriptome. En utilisant des tables d'orthologie entre espèces (par exemple entre
Saccharomyces cerevisae et Scizosaccharomyces pombe), ces problèmes se modélisent par
des problèmes de recherche de sous-graphes communs. Cependant, la taille des graphes
considérés empêchent l'utilisation de méthodes exhaustives et de nouveaux algorithmes
(exacts ou d'approximation) efficaces en temps doivent donc être proposés.
Graphes multi-échelles
Une fois les modèles spécifiés nous étudierons leur algorithmique (i.e. comment répondre
efficacement aux questions soulevées dans les applications biologiques.
Graphes dynamiques
Quelles sont les modélisations utiles pour tenir compte de la dynamique des problèmes
biologiques que l'on cherche à modéliser ?