Rapport de Stage Présenté Par Mlle Mouna ESSABBAH: UFR de Mathématiques Et Informatique Master 2 IPCC Option Image

UFR de Mathématiques et informatique
Master 2 IPCC Option Image
RAPPORT DE STAGE
Présenté par
Mlle Mouna ESSABBAH
CONFR ONTAT ION E NT RE MOD ÈL ES ET DON NÉE S

R ÉE LL ES POUR LA STRU CTUR E SPATIALE DES M OL ÉC ULE S
D’ADN PAR LE B IAIS DE LA RÉ ALIT É AUGME NT ÉE
Encadrants :
Rachid Gherbi et Malik Mallem
2005 - 2006
REMERCIEMENTS
Je remercie particulièrement mes deux encadrants, les professeurs

Rachid Gherbi et Malik Mallem, qui m'ont accordé leur confiance
et m'ont prodigué leurs nombreux et précieux conseils.
Je voudrais aussi remercier chaleureusement toute l'équipe de

bioinformatique du LIMSI et l'équipe de l'IBISC pour avoir facilité
mon intégration mais aussi pour la bonne ambiance qu'ils ont
maintenu au sein des laboratoires respectifs.
Mes remerciements s'adressent aussi à tous les professeurs qui

m'ont encadré tout au long de cette année de master, spécialement
Pr. Nicole Vincent et Mr. Nicolas Loménie pour leurs implication
et pour tout le savoir dont ils m'ont imprégné.
Une pensée affectueuse à mon papa et à ma maman pour les

principes et les valeurs qu'ils m'ont inculqué. À mes soeures, toute
ma famille, à tous mes amis, qui malgré la distance qui nous sépare
ont su rester près de moi pour me soutenir jusqu'au bout.
Table des Matières
Chapitre I Introduction ___________________________________________________ 4
I-1- Bioinformatique : les défis ___________________________________________________ 4
I-2- Contexte et but du stage _____________________________________________________ 6
I-3- Principales contributions ____________________________________________________ 6
I-4- Contenu des chapitres _______________________________________________________ 8
Chapitre II Réalité augmentée et virtuelle au service de la biologie ________________ 10
II-1- Le traitement d'image en lien avec le sujet ____________________________________ 10
II-2- Organisation de l’ADN ____________________________________________________ 11
II-3- Images traitées ___________________________________________________________ 15
II-4- Points clés du stage________________________________________________________ 17
Chapitre III Entre modèles prédits et données terrain __________________________ 18
III-1- Contexte du stage ________________________________________________________ 18
III-2- Problèmes rencontrés _____________________________________________________ 19
III-2-1- Contraintes biologiques et biophysiques ___________________________________________ 19
III-2-2- Complexité des images_________________________________________________________ 19
III-2-3- Problématique nouvelle ________________________________________________________ 20
III-2-4- Enjeux de cette recherche _______________________________________________________ 21
III-3- Approches proposées _____________________________________________________ 21
Chapitre IV Passage 3D-2D : Une approche guidée par le modèle _________________ 24
IV-1- Intérêt de l'approche______________________________________________________ 24
IV-2- Méthodologie associée_____________________________________________________ 25
IV-2-1- Extraction de la trajectoire 2D réelle à partir de l'image _______________________________ 25
IV-2-2- Projection du modèle 3D en 2D __________________________________________________ 31
IV-2-3- Comparaison des deux trajectoires extraites_________________________________________ 34
IV-3- Conclusion ______________________________________________________________ 41
Chapitre V Passage 2D-3D : Une approche guidée par les données_________________ 43
V-1- Intérêt de l'approche ______________________________________________________ 43
V-2- Qu'est ce que la Stéreovision? _______________________________________________ 44
V-3- Méthodologie associée _____________________________________________________ 45
V-3-1- Détection de la molécule d'ADN __________________________________________________ 45
V-3-2- Reconstruction 3D de la trajectoire de l'ADN ________________________________________ 46
V-3-3- Comparaison des modèles 3D ____________________________________________________ 49
V-4- Conclusion _______________________________________________________________ 51
Chapitre VI Résultats et discussion _________________________________________ 52
VI-1- Description de l'implémentation ____________________________________________ 52
VI-2- Résultats________________________________________________________________ 54
VI-3- Discussion ______________________________________________________________ 56
Conclusion et perspectives _______________________________________________ 58
Bibliogarphies _________________________________________________________ 60
Annexes______________________________________________________________ 63
M2 IPCC-Image Confrontation entre modèles et données réelles pour la structure
spatiale des molécules d’ADN par le biais de la réalité augmentée
Chapitre I
Introduction
I-1- Bioinformatique : les défis

« On regroupe sous le terme de bioinformatique toutes les applications informatiques
appliquées à la biologie. » Encyclopédie libre Wikipédia.
Il est inutile de rappeler que l'informatique, phénomène montant de notre époque, intègre
presque toutes les disciplines, scientifiques ou autres. Cela va de la gestion de données en
tout genre à l'astronomie en passant par la médecine, alors pourquoi pas la biologie?
« Domaine interdisciplinaire, situé au carrefour de l'informatique, des mathématiques et de

la biologie, qui traite de l'application de l'informatique aux sciences biologiques.
La bioinformatique est un vaste domaine qui recouvre l'ensemble des utilisations de

l'informatique pour la gestion, l'entreposage, l'analyse, le traitement, l'organisation, la
comparaison et la diffusion de données relatives à l'ensemble des sciences biologiques
(physiologie, écologie, biochimie, biologie moléculaire et, dans une large mesure génétique
et génomique). » (OLF, 2001)
Mouna Essabbah 4
La biologie a d'abords attiré les informaticiens par les quantités astronomiques de données
à analyser soit par analyse de textes, par algorithmique ou autre. Plus tard, la volonté de
transformer les contraintes spatiales en modèles structuraux ont augmenté la présence de
l’informatique en biologie structurale. Cela attire les spécialistes de l’infographie et de la
modélisation. L’infographie moléculaire est née dans les années 60 pour visualiser les
structures résolues à cette époque.
Le domaine de la bioinformatique est bien vaste et il est en perpétuelle effervescence car la

biologie elle même ne cesse d'évoluer. Il englobe le séquençage et l'analyse du génome, la
modélisation moléculaire, l'analyse d'image, etc.
Le principal défi de la bioinformatique est du à la non linéarité des données structurales.

Par conséquent, il faut faire des approximations! Cela constitue une condition contraignante
car il est plus difficile de relier avec la réalité des modèles approximatifs, discrets et
simplifiés. De plus le raisonnement humain en terme de visualisation est bien meilleur
qu’une modélisation informatique.
N’oublions pas que nos connaissances sont limitées par la nature flexible et dynamique des
molécules. Ainsi, les données structurales sont floues et imparfaites. Nous devons souvent
nous baser sur des données locales ou partielles.
Dans notre cas, la modélisation de la molécule de l’ADN est fondée sur les données
structurales extraites des séquences, procédé assez difficile.
Il n’est pas exclu d’arriver à construire une structure qui ne se résolve pas facilement, voir
pas du tout avec les méthodes physiques actuelles.
Du point de vue analyse et interprétation, la génomique structurale devrait identifier

plusieurs domaines moléculaires qu’il faudra ensuite associer en structure. Déterminer les
règles d’association des domaines est un défi de taille.
En terme de comparaison géométrique, il s'avère difficile de remplacer l'oeil averti d'un

expert par un ordinateur. Les modélisations demeurent très complexes à mettre au point.
Mouna Essabbah 5
A travers ce modeste travail de stage nous allons essayer de vérifier si le premier défi a bien
été remporté. En effet, il nous faudra mesurer l’exactitude de nos approximations pour la
modélisation 3D de l’ADN.
I-2- Contexte et but du stage

Si les séquences génomiques sont d'abord connues sous leur forme linéaire, elles ont aussi
une structure tridimensionnelle potentiellement utilisable pour l’analyse des génomes. Cette
représentation de la structure 3D, observée de façon interactive à tous les niveaux
d’intégration, du gène au chromosome, apporte un point de vue nouveau pour l’analyse des
séquences. Les propriétés géométriques de l’ADN sont très peu étudiées, en particulier pour
de grands segments d’ADN. C’est justement sur ce dernier verrou que la synergie entre
informaticiens et biologistes peut en exploitant la pluridisciplinarité être extrêmement
fructueuse.
Un logiciel complet, ADN-Viewer, a été développé au sein du LIMSI (Laboratoire

d'Informatique pour la Mécanique et les Sciences de l'ingénieur) pour aborder la
modélisation 3D de l’ADN. Il est basé sur un modèle de conformation local. Le but du
stage est de confronter les résultats prédits par ce logiciel avec des données (images) réelles
issues d’expérimentations biologiques, en particulier les images issues de la microscopie
AFM.
I-3- Principales contributions

Mon travail, en tant qu'informaticienne, consiste alors à extraire la trajectoire de l’ADN à
partir de l'image et de la comparer avec son modèle prédit donné par ADN-Viewer, le
logiciel de visualisation 3D de l’ADN.
Il est donc indispensable de prendre compte des différentes techniques d’extraction de

l’ADN et de sa fixation. Il en faudra de même pour les techniques de microscopie afin
d’étudier les contraintes de chaque dispositif sur l’image résultante.
Là est toute la pluridisciplinarité du sujet, car en plus de l’aspect informatique du

traitement, il faudrait comprendre les manipulations de l’ADN pour pouvoir en déterminer
Mouna Essabbah 6
les contraintes sur les images, contraintes qui vont nous permettre d’affiner le modèle prédit
et le rapprocher le plus de la réalité.
Une première approche serait d’extraire la trajectoire de l’ADN par squelettisation

morphologique. Nous obtiendrons ainsi la forme 2D de la molécule d’ADN.
Le logiciel ADN-Viewer nous donnera le modèle 3D prédit de la séquence correspondante

à la même molécule. Le biologiste procédera alors à quelques transformations spatiales
(rotations, translations) pour rapprocher le plus le modèle 3D du modèle 2D réel. Nous
aurons, à priori, affiché la trajectoire 2D en arrière plan de la scène pour aider le biologiste
à se repérer dans l’espace.
Le choix de la position étant fixé, nous projetons le modèle 3D afin d’obtenir son modèle
2D équivalent.
L’étape suivante consiste alors à analyser les deux modèles 2D (prédit et réel) en les
comparant par des méthodes de recalage et de calcul de similarité.
Ce procédé semble être simple, sachant que notre but premier est de favoriser l’aspect 3D
de l'ADN.
De ce fait, une deuxième approche, voisine de la première vise à impliquer plus les
biologistes en leur facilitant la manipulation des molécules en milieu immersif, par le biais
de la réalité augmentée.
Pour cela nous procédons d’abord à la reconstruction 3D du modèle réel (par stéréoscopie).
Ensuite, la visualisation immersive grâce à ADN-Viewer de ces deux modèles permettra au
biologiste (par une manipulation manuelle) de les rapprocher au maximum.
La comparaison se fera donc, lorsque ce dernier l’aura décidé, grâce à une fonction de
comparaison de modèle 3D (3dPatternMatching).
Il semble que cette méthode se rapproche le plus de notre objectif premier qui est de
favoriser l'exploitation de la forme spatiale de l'ADN.
Toutefois, comme toute image microscopique, celles que nous allons traiter sont très
bruitées (milieux, techniques…). Ainsi, la première étape du travail consistera en un pré-
Mouna Essabbah 7
traitement qui va nous permettre de filtrer et de lisser l’image. Ceci nous amène à un
meilleur traitement (qui comportera une détection de primitives : contours, coins).
I-4- Contenu des chapitres

Outre cette introduction qui fait office de présentation du contexte général, le mémoire est
construit autour de cinq chapitres organisés comme suit.
Le premier chapitre (État de l'art) replace le travail effectué lors de ce stage dans le contexte
actuel de la recherche en traitement d'image pour la bioinformatique. Nous décrivons
brièvement notre motivation, notre point de départ et notre but final.
Ensuite, le deuxième chapitre (Réalité augmentée et virtuelle au service de la

bioinformatique) place le domaine du traitement d'image dans le contexte de la
bioinformatique. Il décrit l'organisation spatiale de l'ADN et son importance. Pour finir, il
présente les images que nous allons traiter avant de donner une brève idée sur les points
clés du stage.
Dans le troisième chapitre (Passage 3D – 2D: approche guidée par le modèle ) nous
présentons une méthode de comparaison entre le modèle réel et modèle prédit. Notre
référence étant le modèle prédit, le passage 3D-2D signifie que nous projetons le modèle
3D prédit par ADN-Viewer en 2D. Le recalage et l'étude de similarité se fera alors sur des
images bidimensionnelles.
Dans le quatrième chapitre (Passage 2D – 3D: approche guidée par les données ), nous
verrons comment, à partir d'une reconstruction 3D du modèle réel, il est possible de
confronter le modèle réel au modèle prédit. Il est impératif de souligner l'apport visuel de
cette approche.
Enfin, dans le cinquième chapitre, nous comparerons les apports de chaque solution, pour
justifier notre choix. Par la suite, nous présenterons l'outil logiciel que nous avons
développé et quelques résultats obtenus.
Mouna Essabbah 8
Pour parachever ce travail, nous terminerons par une conclusion qui comprendra en premier
lieu une introspection des idées traitées et en second lieu des perspectives sur des
problèmes ouverts.
Mouna Essabbah 9
Chapitre II
Réalité augmentée et virtuelle au service
de la biologie
II-1- Le traitement d'image en lien avec le

sujet
Des appareils photo numériques aux images satellites en passant par les images
microscopiques, les images ont naturellement envahi notre vie quotidienne. Elles sont
devenues un support de données couramment utilisé et un outil commun pour la description
de scènes, de phénomènes, etc. Leur traitement est désormais fréquent dans divers
domaines [14].
Au tout début, un cliché à un instant donné ne servait que de support pour les
interprétations humaines. Peut de temps après la mauvaise qualité des images attire
naturellement l'attention des chercheurs qui tentent désormais de l'améliorer. Le traitement
d'images consiste, en premier lieu, à les restaurer en corrigeant les défauts d'acquisition.
Cependant le problème de la taille des images se pose, et le temps de traitement, très lent à
Mouna Essabbah 10
cet époque, suscite l'intérêt de certains. Le codage et la compression des images s'imposent.
Le traitement d'image vise à être « temps réel ».
Toutefois l'idée d'automatiser l'interprétation des images est apparue parallèlement. Il

semble que le nombre grandissant d'images (surtout en radiologie et en cytologie, étude des
cellules) impliquait autant d'analyses et de classifications.
Progressivement, l'imagerie médicale a investi le monde du diagnostic, l'interprétation des

images aériennes pris place aussi bien dans le domaine militaire que dans le domaine de
l'urbanisme... De la même façon, la bioinformatique est à son apogée.
On voyait aussi la reconnaissance de forme qui s'imposait dans le cadre de la

compréhension de l'image. Petit à petit, on se dirigeait de l'interprétation d'image à la vision
par ordinateur.
Le monde de la bioinformatique, dans sa thématique Imagerie, est l'une des conséquences

de cette évolution fulgurante.
II-2- Organisation de l’ADN

"...La séquence nucléotidique ne sert pas seulement de support au code génétique mais elle
détermine également la configuration tridimensionnelle de la molécule d’ADN, ainsi les
caractéristiques physiques liées à cette séquence s’organisent dans l’espace et forment des
patrons spécifiques. Ces traits d’organisation peuvent être essentiels pour un grand nombre
de fonctions telles que l’empaquetage de l’ADN, la transcription, la réplication ; processus
qui sont eux-mêmes reliés entre eux... " RGFCP, Université de la Méditerranée (Aix-
Marseille II), Rapport d'Activité de l'année 2002 [8].
La modélisation 3D de l’ADN est de plus en plus abordée en recherche biologique et

bioinformatique. Les chercheurs s’intéressent à l’étude du comportement spatial des
séquences génomiques par la visualisation et l'analyse de ces données tridimensionnelles.
Cette approche permet d’avoir une vision globale de la structure spatiale de l’ADN ainsi
que de percevoir les possibilités d’interactions avec d’autres molécules (protéines).
Mouna Essabbah 11
Les projets de recherche dans ce domaine sont nombreux et beaucoup d’entre eux ont été
fructueux.
Citons la recherche effectuée par l’équipe bioinformatique du LIMSI-CNRS [1], sur

laquelle se base ce travail. Les chercheurs se sont intéressés particulièrement à la
distribution spatiale de la molécule de l’ADN. Il s’agit de la reconstruction 3D de la
structure d’ADN qui se base sur une table de prédiction. Cette table a été établie
expérimentalement par des physiciens. Ce modèle se base sur la conformation spatiale entre
deux nucléotides de la séquence textuelle de l’ADN. La table de conformation comprend
les angles de rotation qui permettent de positionner 2 nucléotides l’un par rapport à l’autre.
On parle alors d’un modèle prédit.
L’intérêt principal de la visualisation tridimensionnelle de l’ADN est l’étude du génome.

Or, cela peut se faire par analyse textuelle de la séquence directement. Cependant, le
modèle 3D a montré que 2 motifs du génome peuvent présenter des similarités spatiales, et
pourtant possèdent des séquences très différentes.
D’autre part, la visualisation dans l’espace de l’ADN offre la possibilité d’étudier

l’interaction avec d’autres molécules, principalement les protéines.
Plus généralement, la visualisation 3D offre une vision globale de la molécule étudiée. Elle
permet de modéliser un phénomène ou de simuler un mécanisme biologique.
Le fruit de cette étude est le logiciel de visualisation 3D, ADN-Viewer.
« ADN-Viewer offre plusieurs représentations des séquences tridimensionnelles d’ADN. La

représentation génomique (cf. Figure 1) offre un point de vue global sur les séquences
étudiées. La représentation génique (cf. Figure 2) permet de visualiser la double hélice de la
séquence d’ADN et avoir une information sur le contenu nucléotidique de la séquence... »
Mouna Essabbah 12
Figure 1. Visualisation tridimensionnelle du chromosome IV de Saccharomyces cerevisiae (~1,5 millions de

nucléotides). On peut identifier des zones du chromosome où l’ADN est compact (zone 1) et des zones où l’ADN
est plus relâché (zone 2).
Figure 2. Séquence de 222 paires de bases. Chaque sphère de couleur correspond à un nucléotide.
Dans le même registre, nous avons décelé l'existence d'un autre logiciel crée par des
américains pour l'analyse, la reconstruction et la visualisation de la structure 3D des acides
nucléiques : 3DNA [5].
3DNA peut manipuler des doubles hélices non parallèles et parallèles, structures simples,
triplex, quadruplex et d'autres motifs complexes trouvés en structures d'ADN et d'ARN, et
cela à partir d'un dossier de coordonnés dans le format de la banque de données de protéine
(PDB). Le programme se sert d'une armature de référence récemment recommandée pour la
description de la géométrie de paire de base d'acide nucléique et d'un arrangement de
Mouna Essabbah 13
matrices rigoureux pour calculer des paramètres locaux de conformation et pour

reconstruire la structure de ces paramètres. Des utilités sont fournies pour localiser les
paires de bases et les régions hélicoïdales dans une structure et pour réorienter des
structures pour une visualisation efficace. Des modèles hélicoïdaux réguliers basés sur des
mesures de diffraction de rayon X de divers ordres de répétition peuvent également être
traités par ce programme.
En outre, d'autres chercheurs suisses ont reconstruit la structure 3D de filaments d'ADN

par paires stéréo de micrographes à cryo-électron [15]. Le principe fondamental est de
former un modèle à trois dimensions d'un filament -décrit comme une courbe- et de
l'adapter aux données 2D en utilisant un l'algorithme de contour actif.
Cette expérience démontre l'importance de la forme réelle dans l'étude de la distribution

spatiale de l'ADN.
Portant un regard plus biologique, nous avons observé d’autres travaux de recherche qui se
sont appuyés sur le modèle tridimensionnel. L'analyse structurale à haute résolution de la
transposition d'ADN Mu a été réussie par la reconstruction 3D des images obtenues en
balayant la microscopie électronique de transmission (TIGE) aux cryo-températures[2].
D'autre part, une structure tridimensionnelle a servi de modèle pour l'étude de la réplication
se basant sur l'analyse des degrés de recourbement le long de l'axe de l'ADN.
La structure a été édifié par la microscopie de cryo-électron et des techniques de

reconstruction de simple-particule[3]. La même technique à été adoptée pour la
reconstruction tridimensionnelle d'un complexe ADN-protéine[6]. On retrouve aussi la
reconstruction à base de microscopie confocale à balayage laser [4].
Ces recherches représentent une base structurale assez riche pour différents domaines tel
que la fonction biochimique, l'étude de différents phénomènes (réplication, transcription),
etc.
Mouna Essabbah 14
II-3- Images traitées

Dans la suite nous allons travailler, essentiellement, sur deux images AFM de plasmide
d'Escherichia Coli PBR322.
Préparation de l'échantillon
Toute cette partie, de la préparation de l'échantillon à son observation en AFM, a été réalisé
par l'équipe du Laboratoire Multicouches Nanométriques [9] de l'université d'Evry-Val-
d'Essonne sous la direction du Professeur Alain ZOZIME.
5 μl ont été soigneusement pipé sur la surface d'un morceau de mica fraîchement fendu (le
mica rouge couvre des sciences de microscopie électronique). Après un temps d'adsorption
entre 1 - 20 mn, 5-6 gouttes d'eau doublement distillées et filtrées à 0.22 μm ont été
soigneusement placées sur la surface de mica, formant une grande baisse sur le mica,
stabilisé par la tension de la surface. Un papier filtre a été placé au bord du mica, enlevant
le liquide restant par force capillaire. On utilise le mica parce que c'est une molécule
facilement composable et il aisé de la reconstituer.
Une fois l'ADN extraite du noyau, on en a déposé sur l'échantillon. L'ADN se fixe au mica
à certains points d'ancrages. L'observation se fait à l'air après l'étape dite de séchage.
L'échantillon préparé a été examiné avec l'AFM dans les dix minutes suivantes.
Les deux images ont été prises dans les mêmes conditions, à savoir :
Digital instruments Nanoscope
Scan size 5.000 m
Scan rate 1.489 Hz
Number of samples 512
Image data Height
Data scale 7.000 nm
Mouna Essabbah 15
Figure 3. Image 1 Figure 4. Image 2
L’image 1 (Figure 3), référencée "a1440-1-03-04-06-j-13-04.001", correspond à des

fragments de 1440 pb extraits du plasmide à partir d'enzymes de restrictions.
L’image 2 (Figure 4), référencée "a3000apresouverture-22-03-jul.001", correspond au

plasmide entier ouvert. L'ouverture est du à une enzyme de restriction qui va couper le
plasmide toujours au même endroit.
Néanmoins, cette technique présente un problème. Il réside dans le fait que si la fixation de
l'ADN au mica est très forte cela pourrait changer la conformation de l'ADN sur la plaque.
Contrairement, si la fixation est trop faible la molécule risque d'être déplacée par la tige du
microscope AFM (Annexe 3), et elle sera donc non visible sur l'image.
Par conséquent, beaucoup de biologistes ont abandonné la microscopie à AFM pour cause
de modification de la conformation de l'objet à observer lors de son adsorption à la plaque.
Cela n'empêche pas notre intérêt à ce type de microscopie car malgré ces aspects négatifs,
l'AFM offre des images plus nettes que celle offertes par d'autres techniques comme les
micrographes à cryo-électron, or ce critère est prédominent dans le traitement d'image.
Mouna Essabbah 16
II-4- Points clés du stage

Nous avons vu précédemment l'intérêt de la distribution spatiale de l'ADN. Nous nous
sommes également placé dans le contexte général de cette recherche.
En résumé, une analyse générale de l'existant en bioinformatique en terme de structure

d'ADN a été mené. Nous nous sommes penché sur les méthodes de représentation et plus
particulièrement sur les méthodes prédictives, ce qui est le cas d'ADN-Viewer. D'autres
part, nous avons porté un intérêt singulier à comparer ces modèles avec des structures
bâties sur des images réelles.
Nous avons remarqué que les biologistes manipulaient ADN-Viewer, et les modèles prédits
en général, avec une certaine réserve, trouvant qu'il s'agit de prédictions locales qui ne
peuvent s'appliquer sur une structure entière (longue échelle). L'erreur serait cumulée, elle
serait évidement plus grande à plus grande échelle.
En outre, les informaticiens avaient du mal à reproduire la forme tridimensionnelle de

l'ADN à partir d'images réelles car ces images restent relativement grossières. À cela vient
s'ajouter le fait que l'ADN est un objet déformable et constitué d'une trajectoire toute en
courbures.
Par conséquent, nous avons décidé d'allier ces deux approches pour estimer l'exactitude de
notre logiciel et pouvoir ainsi lui apporter les améliorations nécessaires pour plus de
crédibilité.
Il faut donc confronter les deux modèles, réel et prédit, par une comparaison des trajectoires
d'ADN préalablement extraites.
Aussi nous proposons deux cheminements possibles: le passage du 3D au 2D et

inversement. Nous détaillons ces deux approches dans la suite.
Mouna Essabbah 17
Chapitre III
Entre modèles prédits et données terrain
III-1- Contexte du stage

Ce projet s'inscrit dans le cadre d'une collaboration entre deux laboratoires, le LIMSI-
CNRS Orsay et le IBISC - Genopole Evry. Un des enjeux majeurs de cette collaboration
concerne la visualisation immersive et l’exploration par le contenu de séquences
génomiques. Ce projet a donc pour objectif d'exploiter les potentialités qu’offrent la Réalité
Virtuelle et Augmentée en vue de fournir des moyens puissants d’analyse de l’architecture
des génomes et des interactions moléculaires.
Un logiciel, nommé ADN-Viewer, a été développé pour aborder la modélisation 3D de

l’ADN. Il est basé sur un modèle de conformation local. Le but du stage est de confronter
les résultats prédits par ce logiciel avec des données (images) réelles issues
d’expérimentations biologiques. Il s’agit donc in fini d’essayer d’affiner le modèle 3D par
appariement d’images réelles et prédites.
Mouna Essabbah 18
III-2- Problèmes rencontrés

Un tel objectif est confronté à certaines contraintes biologiques, biophysique, de
méthodologie, etc, que nous allons exhiber, étudier et caractériser, afin d'y apporter des
solutions acceptables.
III-2-1- Contraintes biologiques et biophysiques
Lors de sa manipulation, l'ADN subit plusieurs dégradations. La première intervient au

moment de son extraction du noyau, car malgré les précautions des biologistes, l'ADN est
mélangée à d'autres éléments chimiques qui viennent affaiblir les membranes de protection.
Il est quasiment improbable de certifier que l'ADN elle même n'a pas été altérée.
Ensuite les biophysiciens utilisent la technique d'AFM (décrite dans 1.3) qui demande
l'adsorption de l'ADN sur la plaque de mica. Ceci entraîne potentiellement la modification
de la conformation de la molécule. Il est à noter que lors de l'observation, l'ADN n'est pas
écrasée avec une autre plaque (lamelle), par contre, la pointe du microscope ne détecte que
les formes à la surface et ne nous renseigne pas sur la profondeur. Ainsi, la forme spatiale
réelle est « aplatie ». Ce que nous observons alors n'est qu'une projection planaire de
l'ADN. Le point de vue de l'observateur (réel ou virtuel) influence la vue de la forme de la
trajectoire.
Ainsi, le premier problème commence dès la capture de la molécule car il est très difficile
de prétendre que la forme de sa trajectoire lors de l'observation est bien celle de sa
conformation au sein même du noyau (in vivo).
Ceci dit l'approche est intéressante car elle nous fournit des images traitables. De plus, on
peut espérer trouver des constantes de forme qui permettent de valider la méthode.
III-2-2- Complexité des images
Le dispositif utilisé par les biologistes afin de fabriquer des images de séquences d’ADN,
influe énormément sur la qualité des images obtenues. Par dispositif, nous voulons parler
du type de microscope, du milieu de la culture et des conditions de la manipulation
Mouna Essabbah 19
(température, pression…). La complexité des images que nous allons traiter (Figure.5) est
due essentiellement à ces contraintes de capture.
Figure 5. Trois extraits d'images AFM illustrant les différents bruits
Il faut aussi prendre en considération l’interprétation du cliché, car il peut s’avérer, pour un
simple informaticien, qu’un bout de séquence est bien déterminé par un début et une fin. En
revanche un biologiste considérera que la séquence est incomplète suite à des problèmes
d'occultation ou de coupure involontaires.
Il peut arriver que l’informaticien, par un surplus de traitement, supprime certains éléments
actifs de l’ADN croyant qu’il s’agissait de bruit.
Il est alors impératif de collaborer avec des biologistes pour un meilleur avancement du
travail. C'est pour cela que nous nous sommes rapproché de l'équipe du Prof. Alain Zozime
du LMN-Evry.
III-2-3- Problématique nouvelle
La distribution spatiale de l'ADN séduit de plus en plus en biologie moléculaire. La

modélisation de ces molécules a été menée grâce à différentes méthodes. Celle qui a été
adoptée pour le logiciel ADN-Viewer se base sur un modèle de prédiction locale. De ce
fait, on peut légitimement observer ses lacunes sur des séquences d'ADN longues.
Mon travail consiste à exploiter les images AFM pour rendre le modèle plus global, et ainsi
corriger ses lacunes, espérant pouvoir affirmer la validité du modèle adopté par ADN-
Viewer.
Mouna Essabbah 20
À notre connaissance, ce sujet présente une problématique nouvelle avec une part de risque
quant aux résultat qu'on espère obtenir. Il s'agit d'une recherche dans un domaine récent
encore vierge. Rares sont les études qui ont été faites sur les images microscopiques d'ADN
dans un but informatique (comme une donnée brute à traiter grâce à un système
informatique). On ne se servait de ces images que pour observer l'ADN et ses interactions
avec certaines protéines. Par ailleurs, pour confronter ces images au modèle 3D il fallait
disposer d'un logiciel comme ADN-Viewer.
Notre étude se présente alors sous forme d'un sujet ouvert. Nous ne pouvons pas prédire les
résultats que nous allons obtenir, si toute fois nous arrivons à tirer des conclusions.
III-2-4- Enjeux de cette recherche
L’enjeu de ce travail est de comparer un modèle prédit 3D de l'ADN à un modèle 2D réel.

Il s'agit là du modèle en sortie du logiciel ADN-Viewer et d'images microscopiques
obtenues dans des laboratoires de biophysique.
Le modèle qu'offre ADN-Viewer est figé, il présente toujours la même trajectoire. Il ne

dépend que de la séquence textuelle et du modèle de conformation sur lequel se base la
reconstruction 3D [1].
Cependant, dans une seule image microscopique, qui représente un échantillon de

trajectoires d'une même molécule, chacune d'entre elles possède une forme le plus souvent
différente des autres.
Comment peut on alors comparer un modèle figé à celui qui ne cesse de se modifier, aussi
infiniment que cela peut être?
Tant de questions qui se posent aux quelles nous allons essayer de répondre dans ce qui
suit.
III-3- Approches proposées

La forme de l'ADN, courbée et continue, nous fait penser à l'écriture manuscrite. Sachant
que dans un échantillon d'ADN imagé il existe différentes trajectoires possibles. On
Mouna Essabbah 21
pourrait imaginer une base de donnée regroupant toutes ces trajectoires comme les formes
possibles que peut prendre l'ADN.
A ce moment là, on cherchera le modèle 2D prédit dans cette BDD selon un certain
coefficient de ressemblance. Ce procédé est identique à celui de la reconnaissance d'écriture
manuscrite [16].
Les trajectoires les plus complexes représentant le plasmide entier sont plus longues (de
taille 3600pb) et tortueuse (Figure.6.a), ce qui crée une diversité non négligeable de formes.
Ces formes peuvent aussi s'entrelacer ce qui rend l'extraction des squelettes difficile. Nous
proposons alors d'extraire quelques trajectoires qui sont entièrement indépendantes.
Ensuite, nous les comparerons avec le modèle prédit par ADN-Viewer.
Cette approche sera globale et se fera de forme à forme. Elle nous permettra de déceler s'il
y a erreur de prédiction.
Les trajectoires les plus simples (fragments d'ADN), qui ne sont pas longues (de taille
1400pb) sont extraites de différentes parties du plasmide (Figure.6.b), ne peuvent pas nous
informer sur la trajectoire adoptée par le plasmide. Cependant, elles nous informent sur la
forme de portions constituant le plasmide. Nous allons exploiter cet aspect pour les utiliser
afin d'établir une analyse locale du modèle.
L'approche consiste à extraire tous les squelettes possibles afin de les regrouper en classes.
A ce moment là, nous allons moyenner chaque classe par un élu représentatif. Le squelette
élu sera alors comparé, point à point, avec le modèle correspondant, donné par ADN-
Viewer.
Mouna Essabbah 22
Figure 6. Les deux étapes de l’appariement des modèles réel et prédit (a) globale, (b) locale.
Le travail se fera alors en deux étapes : La première est l'analyse globale (grossière) du
modèle qui permettra de dire si oui ou non le modèle prédit correspond au modèle réel. La
deuxième est l'analyse locale qui nous permettra de quantifier l'erreur de prédiction et
d'affiner par la suite le modèle prédit (développée dans le chapitre suivant).
Bien entendu, nous ne négligeons pas l’aspect tridimensionnel de la représentation.

Effectivement, cette approche n’est pas abandonnée, seulement la contrainte du temps nous
oblige à n’approfondir qu’une seule méthode.
Celle que nous avons mise de coté consiste à reconstruire la structure tridimensionnelle du
modèle réel de l’ADN. Sachant qu’il existe une technique de comparaison de modèles 3D,
développée au sein du laboratoire [1], il nous suffira de choisir les motifs à comparer et de
les confronter à l’aide de cette méthode. La suite est la même que pour la première
approche (plus de détails dans le chapitre 4).
Mouna Essabbah 23
Chapitre IV
Passage 3D-2D : Une approche guidée par
le modèle
IV-1- Intérêt de l'approche

Initialement, nous disposons d'un modèle 3D prédit et de son image microscopique 2D
correspondante. Ces deux modèles sont donc représentés dans deux espaces différents.
Rappelons que notre but est de comparer les deux modèles (réel et prédit). Ainsi, un
passage d'un espace à un autre est alors impératif.
Le passage du modèle 3D au modèle 2D est naturellement plus évident. En effet, il est bien
plus difficile de reconstruire un modèle 3D à partir d'images 2D, que d'obtenir un modèle
2D à partir de sa reconstruction 3D.
La reconstruction 3D est très coûteuse en analyse et en temps de calcul, elle demande

beaucoup de pré-traitement et est très gourmande en précision. Par contre, le passage d'un
modèle 3D à celui en 2D se fait par une simple projection géométrique, selon un certain
angle et sur un certain plan.
Mouna Essabbah 24
De plus, il existe déjà plusieurs algorithmes de comparaisons de motifs 2D, utilisés

essentiellement dans la reconnaissance d'écriture manuscrite. C'est pourquoi nous optons
pour cette première approche.
Cette approche est dite guidée par le modèle, car on fait l'hypothèse que le modèle 3D est la
référence qu'il faut comparer avec les trajectoires réelles.
IV-2- Méthodologie associée

Pour l’analyse globale comme pour l’analyse locale, cette approche se présente sous forme
de trois processus. Le premier processus est l’extraction de la trajectoire réelle à partir des
images microscopiques. Le deuxième est l’extraction de la trajectoire prédite à partir du
modèle 3D de notre séquence. La troisième étape repose sur la comparaison des deux
trajectoires précédemment extraites.
IV-2-1- Extraction de la trajectoire 2D réelle à

partir de l'image
Cette étape consiste à traiter les images réelles à notre disposition de sorte à en détecter les
différentes formes possibles que peut adopter l’ADN. Une sélection est ensuite faite pour
ne garder que les trajectoires complètes et indépendantes des autres. Ces dernières seront
traitées pour qu’au final nous obtenons pour chaque forme un seul brin continu sur un fond
unifié. Aussi, nous décomposons le processus suivant les sous étapes suivantes.
IV-2-1-1- Lecture et pré traitement de l'image
La méthode impose un pré traitement assez important, car, le plus souvent, les images à
traiter sont très bruitées et le travail demande énormément de précision. Nous isolons
d'abord la partie qui nous intéresse (Figure.7). La trajectoire de l'ADN est très fine et
souvent accompagnée de petites particules qui compliquent la recherche. Il faut donc
plusieurs filtrages et lissages avant de pouvoir appliquer une segmentation (binarisation)
qui puisse nous donner un résultat satisfaisant.
Mouna Essabbah 25
Figure 7. Sélection de chaque trajectoire indépendante
 Lecture et affichage
Après la lecture et l'affichage de l'image, deux étapes basiques avant tout pré traitement,
nous pouvons à priori estimer la qualité de l'image et ainsi juger du degré de pré traitement
à mettre en oeuvre.
 Filtrage
Une large partie des images microscopique d’ADN que nous avons pu collectées ont été
observées dans un milieu liquide, malgré l’étape de séchage faite par les biologistes, elles
sont souvent très bruités. L’ADN est perçue à travers un bruit assez important : les images
contiennent donc un signal et du bruit (dont on veut éliminer la plus grande partie possible),
pour se faire nous procédons à un filtrage afin de lisser l’image et d’atténuer le bruit.
Dans cette optique différents types de filtre on été étudiés, en voici les plus importants :
 Filtre passe-bas moyenneur
Cette technique consiste à modifier la valeur d’un pixel en tenant compte de la valeur des
pixels voisins. Ceci est obtenu en appliquant une matrice de calcul appelée noyau de
convolution qui définit le nombre de voisins concernés et la pondération à appliquer sur
leur valeur.
 Filtre passe-bas médian
Mouna Essabbah 26
Pour supprimer encore plus de bruit, nous pouvons faire un filtrage passe-bas médian. Le
principe de ce filtre est d’affecter au pixel central la valeur médiane de la série constituée
par ce même pixel et ses voisins.
Cette technique, comme le filtre passe-bas, permet un lissage de l’image tout en préservant
un peu mieux les contours de ses éléments.
 Filtre Gaussien
Ce filtre recalcule les coefficients de la matrice à l'aide d'une fonction gaussienne:
La largeur du filtre est fonction de σ. Il s'agit d'un filtre séparable car la gaussienne 2D n'est
que produit de deux gaussiennes 1D. Nous avons choisi d'utiliser ce filtre, malgré le gros
lissage qu'il engendre entraînant une délocalisation partielle des bords, pour son
implémentation efficace. Les résultats de ce filtre sont illustrés dans la figure suivante
(Figure.8).
(a) (b)
Figure 8. (a) Image initiale, (b) Filtre Gaussien appliqué
 Binarisation
Cette image binaire nous permet de détecter les différents objets de l’image en séparant
l’image en deux classes de pixels : le fond (en noir) et la forme (en blanc), comme le
montre la figure ci-dessous (Figure.9).
Mouna Essabbah 27
(a) (b)
Figure 9. (a) Image originale filtrée, (b) Image binaire
 Suppression des points isolés
Cette étape réalise un filtrage qui rend l’analyse d’image moins sensible au bruit. Elle
consiste à supprimer tous les points isolés. Nous nous intéressons seulement à la forme du
brin et non de ce qu’il y a autour. Ce filtre étant appliqué nous obtenons les résultats de la
Figure.10.
Figure.10 Image de la Figure.9 sans les points isolés
IV-2-1-2- Traitement de l'image : Squelettisation
Un squelette permet de représenter un objet (sa topologie) en un nombre réduit de points. Il

a une épaisseur de largeur minimale. Il existe de nombreuses méthodes de calcul d’un
squelette suivant l’usage auquel il est destiné. L’algorithme de squelettisation le plus connu
est celui proposé par Blum (1967) [17]. Il définit le squelette comme étant la ligne médiane
Mouna Essabbah 28
de l’objet. Un point appartient au squelette si les deux points du fond dont il est le plus
proche sont situés à égale distance. Le squelette ainsi obtenu permet de reconstruire l’objet
et varie en fonction de l’épaisseur de celui-ci. Cependant, dans le contexte de la
reconnaissance de trajectoire d'ADN, ce type de squelette n’est pas le meilleur, car on voit
apparaître des pattes souvent dues aux irrégularités du contour de la forme. Nous adoptons
alors un algorithme inspiré des méthodes de Stentiford (1983) et de Zang-Suen (1984) [18]
qui consiste à former le squelette par érosions successives. Le squelette ainsi obtenu
représente le trait le plus fin permettant de tracer l’objet (Figure.11.b).
Figure.11 (a) Image binaire originale
Figure.11 (b) Squelette extrait
 Traitement du squelette
Le squelette représente la trajectoire de l'ADN. Il décrit ainsi sa forme et sa conformation

dans le plan. Désormais cette donnée constituera la base de notre comparaison avec le
Mouna Essabbah 29
modèle prédit. Ainsi, le squelette sera le point de départ de l'analyse de l'image et de la

reconnaissance de forme.
IV-2-1-3- L'analyse de l'image
 Calcul de paramètres
Les paramètres sur lesquelles nous allons nous baser dépendent exclusivement de la
technique de détection d'objets que nous allons utiliser.
Par exemple, la technique d'identification par ensemble de distances se base sur des points
caractéristiques, nous avons choisi comme points d'intérêt les coins (détecteur de Harris
[19]).
En revanche, la méthode des contours déformables prend pour primitives des contours
fermés (détecteur de Canny [21]).
L'extraction des primitives sera détaillée dans la suite du rapport (paragraphe 3.2.3.2).
 Classification des différents brins d'ADN
Une fois les étapes précédentes réalisées, nous passons à l'identification même des objets.
Cependant, il faudrait que le modèle 2D prédit soit extrait de son modèle 3D, car ne
l'oublions pas, ce dernier constitue notre modèle de référence, lequel nous allons chercher
dans l'échantillon des différents spécimens de notre image.
La classification ne concernera pas les trajectoires réelles complètes, car nous allons les
comparer, une à une, à la trajectoire témoin prédite.
Par contre, les fragments de trajectoires seront classés selon leur ressemblance à un degré
donné. La comparaison se fera donc au sein même de la sélection de brins extraits de
l'image réelle. Une fois les classes formées, nous comparerons un représentant de chaque
classe au modèle prédit correspondant.
Mouna Essabbah 30
IV-2-2- Projection du modèle 3D en 2D
Le logiciel ADN-Viewer permet, à partir d'une séquence textuelle d'ADN, de modéliser en

3D la molécule par des méthodes de prédiction [1].
Nous proposons à l'utilisateur de manipuler la trajectoire 3D de l'ADN grâce à la vision

immersive d'ADN-Viewer (Figure.12). Notre apport consiste à afficher le modèle 2D en
fond d'écran pour aider l'utilisateur à positionner le modèle prédit de la manière la plus
proche qui soit du modèle réel. A ce moment là, on enregistre cette position.
Figure.12 Dispositif immersif Muse. Visualiser des chromosomes en stéréoscopie sur des
écrans de 2m×2m à angle droit permet de plonger l'utilisateur au cœur de l'ADN.
Notons que ADN-Viewer sauvegarde les coordonnées 3D de chaque nucléotide de la

séquence dans un fichier de coordonnées tridimensionnelles. Seulement, ce fichier contient
les coordonnées initiales et ne prend pas en considération les transformations effectués lors
de la manipulation.
Pour les besoins de ce travail, une entête a été rajoutée au fichier .coords, elle renferme les
matrices de rotations et de translations (selon les 3 axes) juste avant la sauvegarde
(Figure.13).
Mouna Essabbah 31
Nous pouvons ainsi restituer la position, jugée la plus proche du réel, pour la projeter et
obtenir le modèle 2D correspondant.
Un code Matlab permet de faire ce traitement. Il parcourt le fichier .coords en appliquant,

sur les coordonnées 3D des points représentant la séquence, les rotations et translations de
l'entête de ce même fichier. Le programme permet d'afficher en 3D la molécule (Figure.14),
il permet aussi de choisir le plan de projection avant de projeter en 2D (Figure.15). Jusque
là Matlab considère la trajectoire comme un graphe, donc aucun traitement d'image n'est
possible dessus. Nous convertissons ainsi le graphe obtenu en image grâce à la fonction
getframe. A ce stade, il ne nous reste plus qu'à enregistrer la trajectoire 2D prédite.
Figure.13 Fichier .coords de la séquence correspondante au plasmide E.Coli pMAC5-8
Mouna Essabbah 32
Figure.14 Forme 3D de la séquence réalisé sur Matlab
Figure.15 Résultat de la projection du modèle 3D de la Figure.13 sur le plan XY
Mouna Essabbah 33
IV-2-3- Comparaison des deux trajectoires

extraites
Le but de la détection d'objet est de localiser des objets dans une scène. Il y a donc
plusieurs questions importantes reliées à ce sujet : qu'est ce qu'un objet? Que doit-on faire
pour dire que quelque chose est un objet?
Dans notre cas l'objet à détecter est la molécule d'ADN dans un échantillon microscopique
et la détection sera en fait confondue avec une identification. En effet, nous ne cherchons
pas seulement à déceler les objets mais aussi à les assimiler à un modèle témoin afin d'en
étudier la similarité.
Afin de trouver ces objets, le système doit appliquer quelques techniques que nous citerons
dans les sections suivantes. Ces techniques sont conçues pour rechercher des objets
particuliers.
IV-2-3-1- Extraction des primitives
Une grande partie de la recherche en analyse de forme considère la forme comme une
caractéristique d'une région d'image binaire. De telles méthodes emploient le contour d'un
objet ou son intérieur pour constituer un descripteur de forme. Leur application est
envisagée principalement dans les situations dans lesquelles un objet binaire est déjà
disponible ou peut être calculé par certaines étapes de pré-traitement comme la
segmentation, la détection de contours, la squelettisation, etc. Il s'agit de méthodes de
comparaison globale, forme à forme.
Plus récemment, la forme a été considérée comme un ensemble de points caractéristiques

aux quels on associe un descripteur d'image locale. En effet, depuis que les transformations
rigides, affines ou projectives sont sensibles aux déformations irrégulières de forme ou
d'occultations partielles, un modèle plus général invariant à toutes ces transformations, est
proposé se basant sur des points caractéristiques. Ces méthodes de comparaison sont
locales, point à point.
Mouna Essabbah 34
Aussi il nous a fallu nous intéresser aux techniques d'extraction de primitives pour les
besoins de comparaison de modèles. Les primitives d'une comparaison globale sont les
contours des objets, pour une comparaison locale se sont les points d'intérêt (coins) qui sont
utilisés.
 Contours
Pour cette partie du traitement nous nous sommes penché sur les différentes techniques de
détection de contours. La méthode la plus simple est sans aucun doute celle du gradient.
1 0

1 0
Cependant il existe des filtres qui peuvent rehausser le contraste d’une image permettant
ainsi d’accentuer les contours des objets présents.
Le filtre pass-haut laisse passer les hautes fréquences afin d’accentuer les contours. Le filtre
de Sobel sert à l’extraction des contours, il extrait les hautes fréquences verticales.
1 0 1
2 0 2
1 0 1
Le filtre de Prewitt est un filtre pass-haut, il rehausse les contours.
1 0 1
1 0 1
1 0 1
Finalement notre choix à porté sur le détecteur de Canny [21] très utilisé en traitement
d'image, qui optimise la détection de contour en précision et en localisation.
Mouna Essabbah 35
Figure.19 Contour fermé détecté par la méthode de Canny
Suite aux étapes de pré-traitement citées auparavant, nous obtenons une image binaire
dépourvue de tout bruit. Pour ces images là, nous avons établi un détecteur de contour
spécifique qui se base simplement sur le passage du noir (fond) au blanc (l'ADN).
Le but étant de gagner en temps de calcul par rapport à la méthode de Canny qui elle est
coûteuse.
 Points caractéristiques
Comme dans ce qui précède, nous nous sommes penchés sur les différents détecteurs de
coins qui existent se basant sur l'analyse faite pas Schmid et al. [20]. Cette étude nous a
permis d'opter pour les coins comme primitives et de considérer le détecteur d'Harris
comme celui qui répond le plus à nos attentes par sa forte invariance aux rotations,
changement d'échelle et présence de bruit [19].
Un code Matlab est écrit dans ce but. Nous l'appliquons donc sur les deux modèles 2D (réel
et prédit), en imposant d'obtenir le même nombre de primitives.
Mouna Essabbah 36
Figure.18 Coins détectés par la méthode de Harris
IV-2-3-2- Techniques d'identification d'objets et d'analyse de

forme
La littérature comporte la description de plusieurs techniques de base qui pourraient être

employées pour détecter des objets dans une scène. En quelques mots, nous décrirons le
processus pour trouver un objet en utilisant ces techniques. Il existe plusieurs références
dans ce domaine où nous avons pu avoir une vue d'ensemble de quelques méthodes
d'analyse de forme grâce aux articles [24] et [25]. Cependant nous nous sommes basés
essentiellement sur le livre de Yali Amit, 2D Object Detection and Recognition: Models,
Algorithms [10].
Notons que l'invariance par rapport aux transformations géométriques (rotation, translation,
changement d'échelle, etc) est très importante pour les applications de reconnaissance
d'objet.
Un descripteur de forme doit être assez discriminant pour pouvoir déceler les
ressemblances entre deux objets similaires. Il doit aussi faire abstraction des détails (du
bruit le plus souvent) pour ne représenter que les caractéristiques intrinsèques d'une forme.
 Appariement de primitives par corrélation
Le but de la technique de « pattern matching » est de trouver chaque occurrence d'un objet
spécifique dans la scène en appliquant un prototype spécial. Le prototype est une image de
l'objet d'intérêt. Ce prototype est défini par un regroupement de valeurs de pixels qui se
Mouna Essabbah 37
corrèlent avec l'objet d'intérêt. Dans notre exemple, l'utilisateur veut trouver toutes les
trajectoires d'ADN de même forme que le modèle témoin.
Pour accomplir cette tâche, le masque de la trajectoire d'ADN est appliqué à l'image de telle
manière que les groupements des pixels qui se corrèlent avec le prototype soient près du
blanc, tandis que les groupes de pixels qui ne se corrèlent pas avec le prototype seront près
du noir.
Nous nous sommes intéressés à cette technique car elle nous renseigne sur la position de la
forme correspondante au prototype dans l'image. Nous voulions exploiter cet aspect sélectif
de cette méthode qui nous éviterais une classification. Malheureusement, une telle
corrélation ne détecte que les objets quasiment identiques. De plus les objets doivent avoir
une taille assez importante et une forme plus au moins géométrique, pour avoir des résultats
satisfaisants, ce qui n'est pas le cas de l'ADN.
 L'approche par points d'intérêts : Employer des ensembles de distance pour

l'identification de forme
Il s'agit d'une extension de la technique de « pattern matching ». Un ensemble de distances

est l'ensemble de distances d'un point à ses N plus proches voisins [11]. Ces points sont les
pixels les plus proches. La figure.16 ci-dessous montre l'ensemble de distances pour un
point dans une trajectoire d'ADN donnée à ses 6 plus proches voisins.
Figure.16 Ensemble de distances d'un point de la trajectoire d'ADN
Mouna Essabbah 38
Cette méthode manque parfois de précision (elle peut détecter la même forme mais dans
des sens différents). Une manière pour y remédier est d'augmenter le nombre de voisins
avant de comparer.
Dans certains cas, cette solution empêchera les points d'intérêt d'être distingués. C'est
particulièrement vrai quand les points ont les mêmes caractéristiques locales que le point
désiré, mais en fait ne le sont pas.
Un prototype de forme (objet témoin) est un ensemble d'ensembles de distance représentant

une forme. Ce concept est semblable au calibre de forme du « pattern matching ».
Des groupes de pixels sont testés respectant l'ensemble d'ensembles de distance (une
distance pour chaque point dans le prototype de forme) dans une image.
Cette technique a été utilisée par Grigorescu et al.[11] pour créer un filtre de forme basé sur
les ensembles de distances.
Comme un filtre passe-bande qui maintient seulement des composants de signal de

certaines fréquences, le filtre de forme à ensembles de distance ne gardera que des groupes
de Pixel avec les ensembles de distance proches de celle du prototype de forme.
Le choix du nombre de prototypes de forme nécessaires est un problème d'optimisation

avec lequel on essaye de réduire au minimum l'erreur de classification et le nombre de
prototypes nécessaires. La classification peut être améliorée par l'ajout de certaines
caractéristiques de forme, à la façon dont des ensembles de distance peuvent être marqués.
Certaines des caractéristiques communes de forme sont: les centres des contours fermés, fin
de ligne, points de branchement de lignes, points avec de degrés courbures élevés,etc. Dans
notre cas, le problème ne se pose pas car nous n'avons qu'un seul prototype de forme qui est
la trajectoire prédite.
Cependant, avec assez de prototypes, cette méthode peut traiter l'occultation partielle de
l'objet aussi bien que des changements d'orientation et de rotation. En conclusion, cette
technique est plus robuste que l'identification de modèle par corrélation.
La performance de cette méthode vient du fait qu'elle est invariante selon l'orientation de la
forme, la méthode n'est pas affectée par une rotation de l'image.
Mouna Essabbah 39
Toutefois, cette technique n'est pas adaptée à l'aspect global de la comparaison, car plus les
séquences d'ADN sont longues et plus leurs formes sont complexes. Le nombre de coins
risque d'augmenter exponentiellement entraînant ainsi un décuplement des ensembles de
distances. Le temps de calcul conséquent diminuera les performances de cette méthode.
Cependant, il est intéressant de l'appliquer pour une comparaison locale, avec des fragments
de trajectoires et des portions de séquences.
 L'approche par contour : Technique de contours déformables
L'idée de cette technique repose sur un modèle de contour ou un prototype de l'objet que
l'on souhaite détecter. Un contour fermé définit une série de points. Dans l'image,
l'ensemble de points dans cet échantillon est comparé à d'autres contours fermés. Si ces
contours sont une déformation acceptable du contour du calibre alors il y a correspondance.
L'intérêt de cette technique est de minimiser le traitement de la trajectoire d'ADN (

binarisation, squelettisation, etc.). Elle séduit par son automatisme car il suffit d'avoir le
contour fermé de l'objet à rechercher et un bon algorithme à base de contour actifs [27].
Nous retrouvons cette approche dans des travaux en bioinformatique où l'on devait déceler
les cellules pathologiques d'un échantillon de sang observé au microscope [22].
Figure.17 Exemple de recalage de deux contours
Mikolajczyk et al. ont mis en place un détecteur local basé sur les contours, invariable aux
transformations de similitude, pour identifier les objets peu texturés, qui peuvent contenir
Mouna Essabbah 40
des trous et des parties tubulaires, dans des scènes encombrées et dans des conditions
arbitraires de visionnement [26].
Un modèle d'objet est appris d'une seul image d'apprentissage. L'objet est alors reconnu
dans de nouvelles images dans une série de processus qui appliquent des restrictions
géométriques de manière progressive.
L'approche par contours peut nous informer sur la longueur du bord, sur sa courbure, et sur
sur l'aire de la région délimitée.
Bien entendu il existe d'autres techniques de détection et d'identification de formes. Citons

à titre d'exemple le modèle Bayésien pour l'identification de forme [12], l'approche de
l'équation de Laplace pour la comparaison de forme [13], ou des approches orientées
régions comme les quadtrees, ou la méthode des pyramides .
Il est possible d'utiliser des approximations polygonales [28,29] lorsque les contours portent
des informations superflues pour une application donnée. La méthode consiste à diviser
chaque segment de courbe en plus petites courbes jusqu'à pourvoir l'approximer par un
segment linéaire avec un taux d'erreur acceptable. Le signal (la forme) peut aussi être
représenté par un descripteur de Fourrier [23].
IV-3- Conclusion
L'intérêt de cette approche, dite approche guidée par le modèle, est de se baser sur le
modèle prédit, donnée par ADN-Viewer. Dans ce cas, nous nous référons à un modèle déjà
existant dans le but de simplifier le traitement et de s'assurer d'avoir, au moins, un point de
départ unique.
De plus, le passage du modèle 3D vers le modèle 2D, par projection géométrique, est
simple à mettre en place.
Nous avons alors privilégié l'analyse d'image et la reconnaissance de forme 2D car nous
avons une forme d'origine à retrouver parmi un ensemble de formes différentes. Par
ailleurs, l'étude que nous avons menée nous a révélé que ce domaine regorge de travaux
Mouna Essabbah 41
sur l'appariement, le recalage, l'identification d'objet et la reconnaissance de forme en

imagerie bidimensionnelle.
Cette approche, guidée par le modèle, évite une trop grande dépendance des données
(images réelles) que nous ne maîtrisons pas totalement.
Toutefois, cela nous a permis d'aboutir à un premier résultat assez satisfaisant (chapitre5).
Cependant, pour affirmer la validité de l'approche nous proposons de la confronter à une

seconde, cette fois-ci guidée par les données. Cette dernière adopte un passage de l'image
réelle vers le modèle 3D prédit.
Mouna Essabbah 42
Chapitre V
Passage 2D-3D : Une approche guidée par
les données
V-1- Intérêt de l'approche

Dans le chapitre précédent, nous avons décrit une première approche, guidée par le modèle,
qui nous a semblé la plus naturelle à mettre en place. Or, l'intérêt de l'équipe n'est pas
seulement de valider le modèle tridimensionnel de l'ADN mais aussi d'exploiter au
maximum l'aspect de vision immersive et de l'outil « réalité virtuelle et augmentée » pour
l'analyse de l'architecture des génomes.
Le logiciel ADN-Viewer est dans ce sens un programme adapté à ces objectifs. Pour les
mêmes raisons pour lesquels ADN-Viewer repose sur la vison tridimensionnelle immersive
(décrites dans le chapitre 1), nous avons décidé de mettre en oeuvre une approche orientée
vers les modèles tridimensionnels.
Cette approche est dite guidée par les données car elle prend comme référence les images
réelles. L'origine étant les données, nous allons aboutir à un modèle 3D réel par
Mouna Essabbah 43
reconstruction stéréoscopique. La comparaison se fera ensuite de modèle 3D à modèle 3D

par des techniques de recherche de motifs précédemment élaborées au sein du laboratoire.
La démarche n'est pas simple d'autant plus que nous traitons des images différentes que
celles de la première approche. Pourtant, nous envisageons de poursuivre cette recherche
car ce cheminement est une continuité de l'outil à valider, il offre un aspect plus homogène
et une manipulation plus aisée.
Mais pour effectuer une reconstruction 3D, il est nécessaire de disposer d’au moins de deux
images décalées, en espace ou en temps, de la même molécule d’ADN. A partir de ces
deux images, on peut appliquer la technique de stéréovision pour calculer le relief et obtenir
ainsi un modèle 3D de la trajectoire de l’ADN.
V-2- Qu'est ce que la Stéreovision?

La stéréoscopie est un procédé qui permet d'obtenir du relief à partir de deux images planes
« presque » identiques.
« La stéréoscopie (du grec stéréo : solide, scope : vision) est l'ensemble des techniques
mises en œuvre pour reproduire une perception du relief à partir de deux images planes. »
Encyclopédie Wikipédia
Cette méthode est apparue presque en même temps que la photographie. Le procédé de la
stéréoscopie est calqué sur la perception humaine du relief grâce aux deux images planes
que l'on perçoit de chaque oeil.
De la capture des images à la reconstruction de l'objet en trois dimensions, la stéréoscopie

est organisée selon certaines étapes. La méthodologie appliquée peut différer d'une
application à une autre mais elle reste établie sur deux problématiques essentielles : la mise
en correspondance des points d'intérêts et la reconstruction.
La mise en correspondance peut se faire d’une part par une méthode orientée corrélation
qui engendrera une carte de disparité des pixels assez dense, et d'autre part, elle peut se
faire par une méthode orientée primitives qui générera une liste (moins dense) de points mis
en correspondance.
Mouna Essabbah 44
La stéréoscopie s'appuie sur la géométrie épipolaire [32] pour le calcul de la matrice

essentielle, qui par son nom est capitale pour retrouver les droites épipolaires et ainsi
localiser les épipoles.
La rectification des images et la calibration de la (les) caméra(s) sont des étapes non pas
moins importantes mais « facultatives » engendrant une meilleure reconstruction.
Selon les connaissances a priori des paramètres du système stéréo, la reconstruction se fera
de plusieurs façons. Elle peut se faire par triangulation absolue dans le cas d'un système
stéréo totalement calibré, ou relativement à une transformation projective quand le système
ne dispose que des correspondances [33].
Sans s'attarder plus sur le sujet, nous passons à l'application de ces principes dans notre
projet.
V-3- Méthodologie associée

Pour les besoins de l'approche guidée par les données, nous avons du, en premier détecter la
molécule d'ADN, notre référence pour le traitement à suivre. Cette démarche est identique à
celle faite au chapitre précédant.
En second, nous procédons à la reconstruction 3D de la trajectoire grâce aux images traitées

et au principe de la stéréoscopie. Finalement, nous comparons les deux motifs 3D selon une
méthode particulière.
V-3-1- Détection de la molécule d'ADN
Les données que nous allons traiter sont légèrement différentes de celles que nous avons
précédemment manipulées. Il s'agit, pour cette fois-ci, de séquences vidéo capturées à
l'AFM, plus précisément d'images AFM prises à un intervalle de temps donné (Figure.18).
Mouna Essabbah 45
Figure.18 images d'une molécule d'ADN observée à différents instants
Nous ne retenons que deux de ces images en choisissant les moins bruitées et où la
trajectoire est plus nette.
À noter que la qualité des images est la même que celles de l'approche précédente, ainsi le
besoin en pré-traitement est tout aussi le même. Nous procédons alors au filtrage, à la
binarisation et à la suppression des points isolés comme décrits dans la partie 3.2.1.1. Le
même procédé sera appliqué sur les deux images.
La trajectoire ainsi extraite, nous passons à la reconstruction 3D par stéréoscopie.
V-3-2- Reconstruction 3D de la trajectoire de

l'ADN
Comme nous l'avons énoncé dans la premier chapitre, la forme tridimensionnelle de l'ADN
constitue un pôle d'intérêt assez conséquent dans le domaine de la bioinformatique.
L'approche guidée par les données a déjà été exploité par M. Jacob et al. [17] pour la
reconstruction de filaments d'ADN mais cette fois-ci les données étaient des images de
micrographe à cryo-électron. La qualité des images était bien médiocre par rapport à celles
à notre disposition.
Mouna Essabbah 46
L'équipe a voulu mettre l'accent sur l'aspect de la réalité augmentée pour faciliter aux
biologistes la visualisation et l'exploration de la forme spatiale de l'ADN.
Évidement, il est plus parlant de comparer deux modèles 3D car un expert (biologiste) a
plus de chance de retrouver des similarités ou des dissimilitudes rien qu'en visualisant et en
manipulant les deux modèles ensemble.
La reconstruction se base sur les deux images stéréo (Figure.19) que nous avons
préalablement traitées.
L'étape suivante est d'établir une correspondance entre les points d'intérêts des deux images,
points que nous avons obtenu grâce au détecteur de coin de Harris [21]. À ces données va
être appliqué la géométrie épipolaire [32] afin d'obtenir la matrice essentielle (et
fondamentale), retrouver les droites épipolaires et localiser les épipoles.
Figure.19 paire stéréoscopique
Les images ci-dessous (Figure.20) illustrent les résultats de la mise en correspondance des
points caractéristiques. Le matching des points va nous permettre de calculer la matrice
fondamentale et ainsi localiser les épipoles.
Mouna Essabbah 47
Figure.20 Points d'intérêts mis en correspondance
Pour cet exemple de paire stéréo nous obtenons les résultats suivants, sachant que x1 et x2
sont les vecteurs de points corrélés, F la matrice fondamentale et e1 et e2 les deux épipoles
:
>> [F, e1, e2] = fundmatrix(x1,x2)
F= e1 = e2 =
0 0 -0.3637 -0.9908 0.5262

0 0 -0.2250 -0.1356 -0.8504
-0.1226 0.8956 -13.6277 -0.0000 0.0000
La Figure.21 représente les droites épipolaires calculées à partir de la mise en

correspondance précédemment faite.
Mouna Essabbah 48
Figure.21 Droites épipolaires
Malheureusement, ce travail n'a pas pu être mené à terme car arrivé à l'étape de la
calibration, nous nous sommes confronté à un manque de données sur le microscope utilisé.
La calibration est une étape délicate et qui peut facilement limiter la qualité de la
reconstruction d'un objet donné.
Dans notre cas, sans calibration nous n'avons pas pu obtenir de résultat ni pour une
rectification des images ni pour la reconstruction. En effet, les images que nous traitons ne
présentent pas différents points de vues de la trajectoire puisque ce n'est pas le microscope
qui change d'angle de capture, mais c'est l'ADN qui se déplace légèrement.
V-3-3- Comparaison des modèles 3D
Le problème de la comparaison de modèle 3D a été abordé par J. Herisson [1], membre du

LIMSI, au cours de sa thèse. Le problème s'est posé lorsque l'équipe a voulu analyser la
structure 3D des génomes. De ce fait, un outil de recherche de motifs 3D dans une séquence
d'ADN a été développé.
« cet outil a pour but d'apparier des motifs 3d de d'ADN proches ayant des séquences
nucléotidiques très différentes. » J. Herisson.
On aurait pu penser à comparer les coordonnées 3D de chaque plateau de la molécule, mais

cette comparaison n'aurait pas pris en considération les rotations dans l'espace d'un motif
donné.
Mouna Essabbah 49
Ainsi, on ne s'intéresse plus aux coordonnées en elles mêmes mais à la succession de

vecteurs reliant ses coordonnées. L'idée est de se créer un référentiel invariant plutôt qu'un
repère absolu. L'angle entre deux paires de vecteurs successifs est la solution (Figure.22).
Figure.22 Échantillonnage de 2 trajectoires 3D d'ADN
Sachant que cette méthode a été conçue pour rechercher un motif dans une séquence plus
grande. La solution proposée est de pré-calculer la succession d'angles pour le motif,
ensuite calculer au fur et à mesure les angles de la séquence.
S'il n'y a pas d'égalité on avance le motif d'un nucléotide dans la séquence et on
recommence le calcul des angles pour la séquence, et ainsi de suite jusqu'à la fin de la
séquence.
Les angles sont calculés à priori pour les deux motifs (ie. la trajectoire 3D réelle et le
modèle 3D prédit). Donc, pour un nucléotide de départ (le même pour les deux séquences à
comparer), nous obtiendrons deux séries d'angles successifs. Il est certain que nous
n'obtiendrons pas des angles égaux pour les deux modèles suite aux erreurs de capture des
images et des pertes dues au traitement.
Nous accepterons donc « l'égalité » des angles (ie. similarité entre les motifs) à une erreur ε
donnée.
Mouna Essabbah 50
V-4- Conclusion
Malheureusement la contrainte du temps a fait que cette partie du projet n'a pas pu être
finalisée. Toutefois, il reste en cours de développement et fera l'objet de la suite du stage
car nous pensons que l'idée de visualiser ce type de recalage grâce à la réalité virtuelle est
enrichissante. Cette approche guidée par les données part de l'essence même de la réalité de
la molécule vers son modèle prédit.
Ainsi, une visualisation globale des deux modèles associés peut déjà nous renseigner sur le
degré de ressemblance ou de différence des deux trajectoires.
Il n’est pas exclu, bien au contraire, qu’une intervention humaine puisse aider à ce type de
recalage 3D. Ceci est rendu possible avec la plate-forme EVR@ du l'IBISC.
Nous prévoyons d'approfondir notre collaboration avec les biophysiciens (L'équipe du Prf.
Alain Zozime) qui nous ont fourni les images microscopiques dans le but d'avoir plus de
connaissance sur les paramètres du système de capture (ie. Le microscope AFM).
Mouna Essabbah 51
Chapitre VI
Résultats et discussion
VI-1- Description de l'implémentation

Nous soulignons que la période du stage n'étant pas écoulée, le planning de travail prévoit
une validation de la recherche le dernier mois. Toutefois, pour les besoins de ma « pré-
soutenance » nous vous présentons dans ce qui suit les résultats intermédiaires que nous
avons pu obtenir.
Nous avons utilisé l’outil de programmation Matlab afin d’implémenter notre solution.
N'ayant pas fini d'explorer la deuxième approche, dite guidée par les données, nous n'avons
donc pas obtenu de résultats finaux. Cependant, à chaque étape du développement de cette
approche nous avons essayé de valider notre technique, les résultats produits n'étant pas
nombreux nous les avons précédemment donné dans le chapitre 4 au fur et à mesure de la
description de l'approche.
Pour la première approche, dite guidée par le modèle, nous nous sommes intéressés
particulièrement à la détection de l'erreur, entre modèle réel et modèle prédit, et non à sa
quantification. C'est pourquoi nous avons réalisé une comparaison globale, de forme à
forme.
Mouna Essabbah 52
Nous avons alors traité seulement l'image des plasmides entiers (donnée par la Figure.4
dans 1.3). Bien entendu, notre référence, le modèle prédit, est restitué par ADN-Viewer
sous forme d'un fichier de coordonnées 3D des nucléotides composant la séquence du
plasmide (ie. Plasmide Eshirechia Coli pBR322).
Nous reproduisons alors ce modèle avec notre application (illustration dans la Figure.14
dans 3.2.2). Trois types de projections géométriques ont été mises en place sur les 3 plans
XY, XZ et YZ, dans le but d'obtenir la forme 2D du modèle prédit (voir Figure.15 dans
3.2.2).
La trajectoire de référence étant extraite du modèle 3D, nous entamons la recherche d'un
correspondant dans l'image réelle. Nous parcourons alors l'image à la recherche d'une
trajectoire entière du plasmide qui soit indépendante des autres spécimens, le procédé est
décrit dans le paragraphe 3.2.1.1. Une petite base de formes de trajectoires est ainsi
constituée.
Nous avons implémenté un filtre gaussien, un module de binarisation et un autre de

suppression des points isolés pour les besoins de pré-traitement des images. Pour la
squelettisation, nous avons utilisé un algorithme qui construit le squelette par érosion
successive de la trajectoire. Une autre base de trajectoires est établie (Figure.23).
La technique d'identification adoptée se base sur les ensembles de distances (détaillée dans
le paragraphe 3.2.3.2). Pour le modèle de référence (ie. trajectoire prédite), une
comparaison forme à forme est appliquée à chaque trajectoire de la base. Le résultat de la
plus proche distance nous indique une correspondance, laquelle va nous informer sur le
degré de similarité des deux trajectoires (ie. réelle et prédite).
Mouna Essabbah 53
Im1 Im2 Im3 Im4
Im5 Im7
Im6 Im8
Im10 Im11
Im9 Im12
Im13 Im14 Im15 Im16
Figure.23 Base de quelques trajectoires extraites de l'image microscopique
VI-2- Résultats
Nous avons implémenté l'algorithme donnée par C. Grigorescu et al. pour la reconnaissance
de forme basé sur les ensembles de distance [11]. Le choix de cette méthode nous a été
imposé par le fait que nous voulions un descripteur de forme qui soit invariant par les
transformations spatiales et facile à implémenter. En effet, limité par le temps, notre
premier objectif était d'établir quelques résultats, certes prématurés, donnant une idée sur la
validité de l'approche (ie. Si l'on doit continuer sur cette voie ou pas).
L'algorithme des ensembles de distance est fondé sur trois étapes. Voici une brève
description de son fonctionnement.
Soit S = {p1, p2, ..., pn} l'ensemble des points d'intérêts d'une image. Pour un point p ЄS
donné et N<n son voisinage, di(p) ЄR est la distance (ie. distance euclidienne) entre p et
ses i-plus proches voisins de S, 1<i<N. On appelle descripteur local :
L’ensemble de distances du point p à ses N-plus proches voisins dans S.
Mouna Essabbah 54
Maintenant, étant donnés deux points p ЄS1 et q ЄS2 de deux images différentes et leurs
ensembles de distance associés DSS1,N1 (p) et DSS2,N2 (q). Nous choisissons le même
voisinage pour les deux images N = N1 = N2.
La différence de distance relative aux i-voisins et j-voisins est donnée par :
1<i,j<N
Soit π(i) la correspondance un à un dans {1, 2, ..., N}, Пest l'ensemble de tous les π(i).
La dissimilitude entre deux ensembles de distance DSS1,N1 (p) et DS S2,N2 (q) est donnée par :
Si DS1,N1,S2,N2 (p,q) = 0 alors les deux ensembles de distances sont identiques. De cette
façon, la quantité DS1,N1,S2,N2(p,q) indique la différence entre deux points (ie. plus elle
s'approche de 0 et plus les 2 trajectoires se ressemblent). L'ensemble de distance d'un point,
ainsi que la mesure de dissimilitude définie ci-dessus, sont des moyens efficaces pour la
discrimination des points selon leur similitude à un point donné.
Pour un premier test, nous avons choisi de prendre pour référence la projection sur le plan
XY de la séquence (Figure.24) et pour voisinage N = 5 pour tous les points caractéristiques
des deux images.
Figure.24 Trajectoire référence de la comparaison, modèle 2D prédit
Le tableau suivant présente les valeurs de dissimilitude DS1,N1,S2,N2 (p,q) entre l'image de
référence (Figure.24) et chacune des 15 images de la base de données que nous avons
établi.
Mouna Essabbah 55
Im1 Im2 Im3 Im4 Im5 Im6 Im7 Im8
DS1,N1,S2,N 0.1778 0.1697 0.1484 0.1669 0.1781 0.1538 0.1856 0.1694

2
Im9 Im10 Im11 Im12 Im13 Im14 Im15 Im16

DS1,N1,S2,N 0.1878 0.1769 0.1782 0.1856 0.1797 0.1786 0.1630 0.1165
2
Tableau.1 résultats des distances entre chaque trajectoire et le modèle de référence
VI-3- Discussion
Les testes ont révélé différentes valeurs de la distance DS1,N1,S2,N2, elles varient entre 0.1165
et 0.1878.
Im3, DS1,N1,S2,N2 = 0.1484

Trajectoire de référence Im16, D S1,N1,S2,N2 = 0.1165
Figure.25 l'algorithme des ensembles de distance nous donne les trajectoires les plus proches
Visiblement, les valeurs des distances correspondent à la forme de la trajectoire. En effet,

nous remarquons une ressemblance plus importante entre la trajectoire de référence et celle
de Im16, cette correspondance à une distance plus proche de 0 que celle avec Im3.
Toutefois, en regardant de près la base de trajectoires, nous distinguons très bien la

trajectoire de Im3 comme celle qui s'approche le plus de notre modèle, après Im16.
Le classement donné par l'algorithme de reconnaissance de forme basé sur les ensembles de
distances correspond donc à notre choix visuel.
Cependant, nous remarquons que la troisième trajectoire classée la plus proche du modèle
(Im6) ne lui ai pas ressemblante, pourtant a une distance assez faible par rapport au reste
des trajectoires de la base. Elle est notable grâce à la figure.26.
Mouna Essabbah 56
Trajectoire de référence Im6, DS1,N1,S2,N2 = 0.1538
Figure.26 résultat contradictoire: petite distance et pourtant grande dissimilitude.
Nous pensons que le problème réside dans le fait que cet algorithme, bien qu'il soit
invariant aux transformations géométriques, ne peut pas déceler l'orientation de la
trajectoire. Nous présentons la figure.27 pour illustrer cette problématique.
Figure.27 distances égales mais conformation différente
Il est clair que ces deux trajectoires ont des formes différentes, pourtant la distance entre les
primitives de chacune est la même. La distance euclidienne ne prend pas en considération
la position des points dans le plan, c'est bien ce qui fait l'invariance de cet algorithme. En
plus d'être son point fort, cette propriété est aussi son point faible car elle limite ses
performances.
En conclusion, l'algorithme de reconnaissance de forme par ensembles de distances est

efficace car il retrouvera dans la plus part des cas les formes les plus proches. Il est facile à
implémenter. Seulement, il faut faire attention aux formes intruses qu'il décèle.
Pour dépasser cet handicap, nous proposons d'augmenter raisonnablement le nombre de

voisins car cela limitera les cas de figures similaires.
Mouna Essabbah 57
Conclusion et perspectives
Nous avons vu à travers ce rapport l'importance de la visualisation de l'organisation spatiale

de l'ADN, d'où le besoin d'outils performants à cet effet. L'équipe du LIMSI en a développé
un, ADN-Viewer, mais l'enjeu est tel que nous devons valider l'approche utilisée pour sa
construction. Ainsi nous avons vu comment à partir d'images microscopiques l'idée de
confronter le modèle prédit et le modèle réel est né.
Nous avons d'abord développé une approche guidée par le modèle, qui partant de
coordonnées 3D d'une séquence d'ADN et d'une image AFM de la même séquence, nous
arrivons à comparer la trajectoire réelle et la trajectoire prédite à une échelle globale.
A cet effet, il nous a fallu mettre en oeuvre des algorithmes de pré-traitement (ie. sélection,
filtrage, binarisation, etc), d'autres pour le traitement des trajectoires (ie. squelettisation).
Nous avons puisé des algorithmes dans la littérature en traitement d'image pour l'extraction
des primitives (ie. détecteurs de harris et de Canny) ainsi que pour la reconnaissance de
forme (ie. approche par ensemble de distance).
Les tests effectués sur les données dont nous disposons ont révélé une correspondance entre
le modèle réel et le modèle prédit. Cependant certaines correspondances trouvées par le
programme ne sont visiblement pas possibles.
Parallèlement, nous avons mené une étude sur une autre approche possible, cette fois-ci
guidée par les données. Le principe est de partir de l'image réelle pour la reconstruction 3D
de la trajectoire, ensuite comparer les deux modèles tridimensionnels.
Seulement, l'étendu du sujet et la contrainte temporelle ont limité l'implémentation d'une

solution optimale. Ce que nous avons présenté n'est qu'une approche possible que nous
comptons développer davantage.
De plus, nous nous sommes confrontés à des contraintes biologiques non négligeables, à
chaque étape de la recherche. En effet, le sujet est étroitement lié à la biologie, un monde
incertain où les interactions entre les différents éléments de la nature ne sont pas forcément
Mouna Essabbah 58
prévisibles. Les techniques d'acquisition et l'interprétation de l'image AFM requièrent aussi

certaines connaissances. Vient s'ajouter à cela la complexité de l'ADN, une structure
dynamique en mouvement constant et qui peut atteindre des tailles gigantesques.
Par conséquent, la recherche est loin d'être finie. La suite du stage nous permettra, avant
tout, de faire plus de testes à différentes conformations. Ensuite, d'essayer d'autres
techniques aussi performante pour la reconnaissance de forme, tel que l'approximation
polygonale.
Les travaux effectués au cours de ces quatre mois de recherches méritent de perdurer au
delà du stage, à cause de l'enjeu de ce sujet et de l'étendu des possibilités de solutions qui
s'offrent à nous. C'est pourquoi nous envisageons de reprendre les recherches dans le cadre
d'une thèse de doctorat.
À ce moment là, nous espérons automatiser la détection des trajectoires réelles dans l'image
grâce à des algorithmes de contours actifs.
D'autre part, nous projetons une collaboration plus étroite avec l'équipe de biophysiciens
afin d'avoir plus de données dans l'espoir de calibrer notre caméra et mettre à l'oeuvre la
deuxième approche, dite guidée par les données. La reconstruction tridimensionnelle de la
trajectoire réelle nous permettra d'exploiter la capacité de la réalité virtuelle en terme de
comparaison de motifs 3D.
Mouna Essabbah 59
Bibliogarphies
[1] Joan Herisson, “Représentation spatiale et exploration virtuelles des génomes: une
analyse globale pour les éléments architecturaux des séquences”, Thèse de Doctorat
Université Paris XI, 2004.
[2] Yuan JF, Beniac DR, Chaconas G, Ottensmeyer FP. 3D reconstruction of the Mu
transposase and the Type 1 transpososome: a structural framework for Mu DNA
transposition. Genes Dev. 2005 Apr 1;19(7):840-52. Epub 2005 Mar 17.
[3] Gomez-Lorenzo MG, Valle M, Frank J, Gruss C, Sorzano CO, Chen XS, Donate LE,
Carazo JM. Large T antigen on the simian virus 40 origin of replication: a 3D snapshot
prior to DNA replication. EMBO J. 2003 Dec 1;22(23):6205-13.
[4] Liu S, Weaver DL, Taatjes DJ, Three-dimensional reconstruction by confocal laser
scanning microscopy in routine pathologic specimens of benign and malignant lesions of
the human breast. Histochem Cell Biol. 1997 Apr; 107(4):267-78.
[5] Xiang-Jun Lu and Wilma K. Olson, 3DNA: a software package for the analysis,
rebuilding and visualization of three-dimensional nucleic acid structures, Nucleic Acids
Research, 2003, Vol. 31, No. 17 5108-5121
[6] Asmahan Abu-Arish, Daphna Frenkiel-Krispin, Tobin Fricke, Tzvi Tzfira§, Vitaly
Citovsky, Sharon Grayer Wolf and Michael Elbaum,”Three-dimensional Reconstruction of
Agrobacterium VirE2 Protein with Single-stranded DNA”, Vol. 279, No. 24, Issue of June
11, pp. 25359–25363, 2004.
[7] Ma, Soatto, Kosecka and Sastry, An Invitation to 3D Vision: From Images to Geometric
Models, Springer Verlag, 2003 ISBN 0-387-00893-4 (errata as of 22-Mar-04)
[8] SANCHEZ-SEVILLA, "Etude tri-dimensionnelle du complexe d’initiation de la

transcription du gène de la chaîne alpha du récepteur de l’interleukine 2 : premières étapes
de formation", thèse soutenue en 2003, Université de la Méditerranée (Aix-Marseille II).
Mouna Essabbah 60
[9] Prf. Alain ZOZIME, Université d'Evry-Val-d'Essonne, Laboratoire Multicouches

Nanométriques.
[10] Amit Yali, 2D Object Detection and Recognition: Models, Algorithms, and Networks,
2002 Massachusetts Institute of Technology, ISBN 0-262-01194-8.
[11] Cosmin Grigorescu, Nicolai Petkov: Distance sets for shape filters and shape
recognition. IEEE Transactions on Image Processing 12(10): 1274-1286 (2003)
[12] Krishnapuram, B., C. M. Bishop, and M. Szummer (2004). Generative models and
Bayesian model comparison for shape recognition. In F. Kimura and H. Fujisawa (Eds.),
Proceedings Ninth International Workshop on Frontiers in Handwriting Recognition,
IWFHR-9, Tokyo, Japan, pp. 20–25.
[13] Eric Pichon and Delphine Nain and Marc Niethammer, A Laplace Equation Approach
for Shape Comparison
[14] Isabelle Bellin, histoire du traitement d'images, interstices 2004, rubrique “C'etait
hier”.
[15] Mathews Jacob, Thierry Blu, Michael Unser, “3-D reconstruction of DNA filaments
from stereo cryo-electron micrographs”.
[16] Miguel Po-Hsien Wu, Hadwritten Character Recognition, 2003, The school of
information technology and electrical engineering, The University of Queensland.
[17] H. Blum. A transformation for extracting new descriptors of shape. Models for
Perception of Speech and Visual Form, pages 362–380, 1967.
[18] J R Parker, Algorithms for Image Processing end computer Vision, New York (USA)
1997.
[19] C. Harris and M.J. Stephens. A combined corner and edge detector. In Alvey Vision
Conference, pages 147–152, 1988.
[20] C. Schmid, R. Mohr, and C. Bauckhage. Evaluation of interest point detectors.

International Journal of Computer Vision, 37(2):151–172, June 2000.
Mouna Essabbah 61
[21] J. Canny, A. (1986). A computational approach to edge detection. IEEE Trans. PAMI,
8:769 - 698.
[22] K. Djemal, C. Chettaoui, H. Maaref, Shapes description for cells sickle illness
Recognition, LSC Université Evry val d'Essonne.
[23] Tomislav Petkovi´c, Josip Krapac, Technical report:Shape description with Fourier
descriptors, 2002.
[24] S. Loncaric, “A survey of shape analysis techniques,” Pattern Recognition, vol. 31, no.
8, pp. 983–1001, 1998.
[25] R. C. Veltkamp and M. Hagedoorn, “State of the Art in Shape Matching,” Utrecht
Univ., Tech. Rep. UU-CS-1999-27, 1999.
[26] K. Mikolajczyk, A. Zisserman, C. Schmid, Shape recognition with edge-based

features, British Machine Vision Conference, vol.2, pp.779—788, 2003
[27] Mathews Jacob, Thierry Blu, Michael Unser, Efficient Energies and Algorithms for
Parametric Snakes, IEEE Transactions On Image Processing, vol.13, no. 9, 2004
[28] U. Ramer, An iterative procedure for the polygonal approximation of plane curves,
Comput. Graphics Image Process. 1, 1972, 244–256.
[29] Longin Jan Latecki and Rolf Lak¨amper, Convexity Rule for Shape Decomposition
Based on Discrete Contour Evolution, Computer Vision and Image Understanding Vol. 73,
No. 3, March, pp. 441–454, 1999
[30] Richard Hartley, Andrew Zisserman, Multiple View Geometry in Computer Vision
Second Edition, Cambridge University Press, March 2004.
[31] Nicolas Loménie, Vison par ordinateur-Stéreovisison, cours M2 IPCC, Université

ParisV, 2005.
Mouna Essabbah 62
Annexes
Mouna Essabbah 63
Annexe 1 : L'ADN sous toutes ses formes
Forme textuelle
de l'ADN
L'ADN observée
au microscope
Mouna Essabbah 64
Annexe 2 : La Microscopie à Force Atomique (AFM : « atomic

force microscopy »)
La microscopie à force atomique (AFM : « atomic force microscopy ») a été introduite en

1986 par G. Binnig, C.F. Quate et C. Gerber, comme une application du concept de
microscope à effet tunnel (STM : « scanning tunneling microscope ») permettant l'étude
de surfaces de matériaux isolants à l'échelle atomique. En combinant les principes du
microscope à effet tunnel et du stylet profilométrique, les auteurs démontraient la
possibilité d'imager, à l'air libre, la surface d'échantillons conducteurs ou non, avec une
résolution latérale de 30 Å et une résolution verticale inférieure à 1 Å. La technique a,
depuis lors, été adaptée à différents environnements tels que le vide, le milieu liquide, les
basses températures, les champs magnétiques et aussi pour des applications en chimie ou en
biologie.
L'AFM est basée sur la mesure des forces entre un fin stylet et la surface étudiée. Le
capteur de force est un ressort-lame (stylet) encastré à une extrémité et muni d'une pointe à
l'autre extrémité, il est encore appelé « cantilever ». Les forces d'interaction modifient la
déflection ou la torsion statique ou oscillante du stylet. La mesure des déformations du
« cantilever » dans les microscopes de force actuels s'effectue, le plus souvent, grâce à la
déviation d'un faisceau lumineux (« diode laser ») réfléchi par l'extrémité du stylet,
méthode proposée dès 1988 par G. Meyer et N. Amer.
Le développement de cette méthode de sonde locale a été rapide aussi bien dans les
laboratoires universitaires qu'en milieu industriel. Des tâches de contrôle sur des lignes de
production sont couramment effectuées à l'aide de ce dispositif relativement simple à mettre
en œuvre. La majorité des utilisateurs cherche à obtenir des formes ou des tailles
caractéristiques de la surface ; en balayant l'échantillon sous le « cantilever », on obtient
l'image AFM recherchée. Mais on s'est très vite aperçu qu'il était possible avec le même
instrument de proposer des situations originales de « physique au nanomètre ».
Dans une première partie, l'instrumentation est décrite et les différents modes de
fonctionnement (contact, résonnant, « tapping », frottement…) sont présentés de façon
générale. En insistant sur les potentialités de l'instrument, on explicite les fondements des
Mouna Essabbah 65
principales méthodes utilisées, sans être exhaustif. Dans une seconde partie, des
applications physiques dans divers domaines sont présentées.
Microscopie à force atomique (AFM), par Jean-Claude RIVOAL Laboratoire d’optique

physique (CNRS UPR A0005), Christian FRETIGNY Directeur de recherche CNRS,
laboratoire de physico-chimie des polymères et milieux dispersés (CNRS UMR 7615)
Ce système permet d'imager de grands échantillons en mode contact, tapping ou non-

contact. Les signaux en sortie traités extérieurement pour être acquis comme images de
données à partir de prises externes. L'AFM est très utilisée en étude de topographie et de la
rugosité de surface.
Figure.31. Microscope AFM, équipement LMEN
Mouna Essabbah 66
Voici un petit échantillon d'images obtenues à partir de la microscopie AFM :
Mouna Essabbah 67

Rapport de Stage Présenté Par Mlle Mouna ESSABBAH: UFR de Mathématiques Et Informatique Master 2 IPCC Option Image

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport de Stage Présenté Par Mlle Mouna ESSABBAH: UFR de Mathématiques Et Informatique Master 2 IPCC Option Image

Transféré par

Droits d'auteur :

Formats disponibles

UFR de Mathématiques et informatique

Master 2 IPCC Option Image

Mlle Mouna ESSABBAH

CONFR ONTAT ION E NT RE MOD ÈL ES ET DON NÉE S

Je remercie particulièrement mes deux encadrants, les professeurs

Je voudrais aussi remercier chaleureusement toute l'équipe de

Mes remerciements s'adressent aussi à tous les professeurs qui

Une pensée affectueuse à mon papa et à ma maman pour les

I-1- Bioinformatique : les défis

« Domaine interdisciplinaire, situé au carrefour de l'informatique, des mathématiques et de

La bioinformatique est un vaste domaine qui recouvre l'ensemble des utilisations de

Le domaine de la bioinformatique est bien vaste et il est en perpétuelle effervescence car la

Le principal défi de la bioinformatique est du à la non linéarité des données structurales.

Du point de vue analyse et interprétation, la génomique structurale devrait identifier

En terme de comparaison géométrique, il s'avère difficile de remplacer l'oeil averti d'un

I-2- Contexte et but du stage

Un logiciel complet, ADN-Viewer, a été développé au sein du LIMSI (Laboratoire

I-3- Principales contributions

Il est donc indispensable de prendre compte des différentes techniques d’extraction de

Là est toute la pluridisciplinarité du sujet, car en plus de l’aspect informatique du

Une première approche serait d’extraire la trajectoire de l’ADN par squelettisation

Le logiciel ADN-Viewer nous donnera le modèle 3D prédit de la séquence correspondante

I-4- Contenu des chapitres

Ensuite, le deuxième chapitre (Réalité augmentée et virtuelle au service de la

II-1- Le traitement d'image en lien avec le

Toutefois l'idée d'automatiser l'interprétation des images est apparue parallèlement. Il

Progressivement, l'imagerie médicale a investi le monde du diagnostic, l'interprétation des

On voyait aussi la reconnaissance de forme qui s'imposait dans le cadre de la

Le monde de la bioinformatique, dans sa thématique Imagerie, est l'une des conséquences

II-2- Organisation de l’ADN

La modélisation 3D de l’ADN est de plus en plus abordée en recherche biologique et

Citons la recherche effectuée par l’équipe bioinformatique du LIMSI-CNRS [1], sur

L’intérêt principal de la visualisation tridimensionnelle de l’ADN est l’étude du génome.

D’autre part, la visualisation dans l’espace de l’ADN offre la possibilité d’étudier

Le fruit de cette étude est le logiciel de visualisation 3D, ADN-Viewer.

« ADN-Viewer offre plusieurs représentations des séquences tridimensionnelles d’ADN. La

Figure 1. Visualisation tridimensionnelle du chromosome IV de Saccharomyces cerevisiae (~1,5 millions de

matrices rigoureux pour calculer des paramètres locaux de conformation et pour

En outre, d'autres chercheurs suisses ont reconstruit la structure 3D de filaments d'ADN

Cette expérience démontre l'importance de la forme réelle dans l'étude de la distribution

La structure a été édifié par la microscopie de cryo-électron et des techniques de

II-3- Images traitées

Digital instruments Nanoscope

Scan size 5.000 m

Scan rate 1.489 Hz

Number of samples 512

Image data Height

Data scale 7.000 nm

Figure 3. Image 1 Figure 4. Image 2

L’image 1 (Figure 3), référencée "a1440-1-03-04-06-j-13-04.001", correspond à des

L’image 2 (Figure 4), référencée "a3000apresouverture-22-03-jul.001", correspond au

II-4- Points clés du stage

En résumé, une analyse générale de l'existant en bioinformatique en terme de structure

En outre, les informaticiens avaient du mal à reproduire la forme tridimensionnelle de

Aussi nous proposons deux cheminements possibles: le passage du 3D au 2D et

III-1- Contexte du stage

Un logiciel, nommé ADN-Viewer, a été développé pour aborder la modélisation 3D de

III-2- Problèmes rencontrés

III-2-1- Contraintes biologiques et biophysiques

Lors de sa manipulation, l'ADN subit plusieurs dégradations. La première intervient au

III-2-2- Complexité des images

Figure 5. Trois extraits d'images AFM illustrant les différents bruits

III-2-3- Problématique nouvelle