Vous êtes sur la page 1sur 80

Faculté des Sciences

Département d’Informatique

Algorithme d’optimisation par colonie


de fourmis : développement et
application à la prédiction ab initio de
la structure native des protéines
Fabian TEHEUX

Mémoire présenté sous la direction du Prof. Marianne ROOMAN


et du Prof. Esteban ZIMANYI
en vue de l’obtention du grade de Licencié en Informatique
Année académique 2005–2006
Table des matières

Préface 7

1 Introduction 9
1.1 Les protéines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1 Structure primaire . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.2 Structure secondaire . . . . . . . . . . . . . . . . . . . . . . 11
1.1.3 Structure tertiaire . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Le repliement des protéines . . . . . . . . . . . . . . . . . . . . . . 13
1.3 La prédiction de la structure native des protéines . . . . . . . . . . 17
1.3.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2 Aperçu général des méthodes de prédiction . . . . . . . . 18
1.3.3 Les impératifs de la prédiction de structures natives . . . . 19

2 Présentation des outils et méthodes existants 20


2.1 Les modèles utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Modélisation de la protéine . . . . . . . . . . . . . . . . . . 20
2.1.2 Discrétisation de l’espace conformationnel . . . . . . . . . 23
2.2 L’exploration de l’espace conformationnel . . . . . . . . . . . . . . 25
2.2.1 Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Le Recuit Simulé . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.3 Recherche Tabou . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.4 Algorithmes évolutionnaires . . . . . . . . . . . . . . . . . 28
2.2.5 Colonies de fourmis . . . . . . . . . . . . . . . . . . . . . . 32
2.2.6 Méthodes hybrides . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Les fonctions énergétiques . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 L’évaluation des résultats d’une prédiction . . . . . . . . . . . . . 40
2.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2
TABLE DES MATIÈRES 3

3 Nos outils et méthodes 42


3.1 Modélisation de nos protéines . . . . . . . . . . . . . . . . . . . . . 43
3.2 Discrétisation de notre espace de recherche . . . . . . . . . . . . . 45
3.3 Exploration de l’espace conformationnel . . . . . . . . . . . . . . . 46
3.4 Fonction énergétique utilisée . . . . . . . . . . . . . . . . . . . . . 48
3.4.1 Les potentiels de torsion . . . . . . . . . . . . . . . . . . . . 48
3.4.2 Les potentiels de distance . . . . . . . . . . . . . . . . . . . 49
3.4.3 Utilisation combinée des potentiels . . . . . . . . . . . . . 50
3.5 Evaluation de nos solutions . . . . . . . . . . . . . . . . . . . . . . 51
3.6 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4 Notre algorithme : AC-ProPre 52


4.1 L’espace conformationnel . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Les potentiels énergétiques . . . . . . . . . . . . . . . . . . . . . . 53
4.3 La structure et les calculs effectués sur les protéines . . . . . . . . 54
4.3.1 La structure protéique tridimensionnelle . . . . . . . . . . 55
4.3.2 Les méthodes de calcul . . . . . . . . . . . . . . . . . . . . 56
4.4 La colonie de fourmis . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5 Tests et résultats 62
5.1 Les configurations d’exécution de notre algorithme . . . . . . . . 62
5.2 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2.1 Evaluation énergétique de notre algorithme . . . . . . . . 63
5.2.2 Calcul du RMSD . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2.3 RMSD Vs énergie libre . . . . . . . . . . . . . . . . . . . . . 69
5.3 Notre meilleure prédiction : une RMSD de 3,5222Å . . . . . . . . 72

Conclusion 76

Bibliographie 78
Table des figures

1.1 Représentation atomique d’un acide aminé. . . . . . . . . . . . . . 10


1.2 Représentation simplifiée d’un acide aminé. . . . . . . . . . . . . . 11
1.3 Illustration des angles de torsion φ et ψ dûs aux liaisons chimiques. 12
1.4 Exemples de structures secondaires : (a)hélice-α, (b)feuillet-β. . . 12
1.5 Exemples de structure tertiaire : l’ubiquitine. . . . . . . . . . . . . 13
1.6 Représentation tridimensionnelle du paysage énergétique d’une
protéine : (a) un paysage énergétique idéal, (b) un paysage éner-
gétique réel, (c) deux chemins de repliement différents, (d) le
paradoxe de Levinthal. [source : Gilquin Bernard : Exploration
des méchanismes de repliement des protéines par dynamique
moléculaire] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1 Résultats d’une prédiction bidimensionelle basée sur le modèle


HP pour une protéine de séquence ’HHHPPHPHPHPPHPHPHP-
PH’ (le début de la séquence est symbolisée par ’1’ et les résidus
’H’ sont en noir). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Illustration de l’angle ω. La molécule entourée est un résidu quel-
conque venu s’attacher au résidu que nous étudions. . . . . . . . 22
2.3 Exemple de modification conformationnelle locale : (a) l’état avant
la modification conformationnelle, (b) l’état après la modification
conformationnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Fonctionnement d’un algorithme évolutionnaire ordinaire. . . . . 30
2.5 Evolution du comportement des fourmis en fonction d’une mo-
dification de l’environnement : (a) situation initiale, (b) un ostacle
s’interpose et les fourmis choisissent d’aller d’un côté ou de l’autre
avec la même probabilité, (c) l’axe BCD étant plus court, les four-
mis arrivent plus vite de l’autre côté de l’obstacle, (d) le nombre
croissant de phéromones fait émerger le chemin BCD. . . . . . . . 33

4
TABLE DES FIGURES 5

3.1 Représentation simplifiée d’un acide aminé, attention le cas parti-


culier de la Glycine verra ses atomes Cβ et Cµ se trouver au même
endroit que l’atome Cα . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Exemple d’angle de valence : en pointillé, l’angle de valence as-
socié à l’atome O. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.1 AC-ProPre : déroulement schématique. . . . . . . . . . . . . . . . 61

5.1 Graphiques de l’énergie moyenne des prédictions effectuées avec


une configuration de (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont pas
pris en compte). Les graphique allignés se passent à un nombre
d’itérations équivalent et les graphiques en colonne ont le même
facteur d’élitisme. Les quatres courbes représentent chacune un
nombre de fourmis d’élite différent. . . . . . . . . . . . . . . . . . 65
5.2 Graphiques de l’énergie moyenne des prédictions effectuées avec
une configuration de (α = 1, β = 1, ρ = 0.6, ds0 et ds1 ne sont pas
pris en compte). Dans ce cas-ci, les diverses courbe montrent un
comportement tout à fait disparate. . . . . . . . . . . . . . . . . . . 66
5.3 Graphiques de l’énergie moyenne des prédictions effectuées avec
une configuration de (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sont
pris en compte). Les graphique allignés se passent à un nombre
d’itérations équivalent et les graphiques en colonne ont le même
facteur d’élitisme. Les quatres courbes représentent chacune un
nombre de fourmis d’élite différent. . . . . . . . . . . . . . . . . . 67
5.4 Graphiques de l’énergie moyenne des prédictions effectuées avec
une configuration de (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sont
pris en compte). Dans ce cas-ci, les diverses courbe montrent un
comportement tout à fait disparate. . . . . . . . . . . . . . . . . . . 68
5.5 Graphiques du RMSD moyen des prédictions effectuées avec une
configuration de (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris en
compte). L’allure de ces courbes n’évoque rien de particulier. . . . 70
5.6 Graphiques de comparaison entre le RMSD et l’énergie libre d’une
conformation prédite : (a) prise en compte de toute les prédictions
effectuées sans considération des potentiels de distance, (b) limi-
tation aux prédictions présentant un RMSD inférieur à 7Å. . . . . 71
5.7 Représentation de la structure tertiaire de la prédiction effectuée
par AC-ProPre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.8 Représentation de la structure tertiaire de l’ubiquitine (résidu 1-35). 74
TABLE DES FIGURES 6

5.9 Supperposition de la conformation simulée par AC-ProPre avec


la conformation native connue. . . . . . . . . . . . . . . . . . . . . 75
Préface

Depuis ses origines, l’informatique a apporté des solutions dans des do-
maines aussi variés que complexes. Aujourd’hui, la science y fait une fois de
plus appel afin de prédire la structure tridimentionelle des protéines.
Dans la vie de tous les jours, les protéines jouent des rôles importants sur
notre Terre. Il est donc très intéressant de comprendre comment elles fonc-
tionnent. Malheureusement, il nous faut pour ce faire déterminer la structure
tridimentionnelle qu’une protéine adoptera afin de jouer son rôle biologique.
Cela n’est évidemment pas aisé !
Les scientifiques se sont donc rués sur des méthodes expérimentales ayant
fait leurs preuves, mais ces méthodes sont d’une lenteur que le plus patient
des curieux ne saurait supporter. Ainsi, de nombreux chercheurs utilisent au-
jourd’hui les moyens informatiques afin de prédire ce que l’expérience pourra
démontrer.
Lorsqu’un jour des méthodes de prédictions seront parfaitement au point, il
sera alors possible de créer les médicaments les plus adaptés aux défaillances
diverses de l’organisme, d’utiliser au mieux les diverses caractéristiques de ces
protéines afin d’embellir notre environnement, etc. Un jour peut-être sera-t-il
même possible de créer une protéine en fonction de besoins du moment !
Nous voicis donc devant une frontière scientifique que l’exploration ne fera
que repousser... En ce qui nous concerne, nous ferons un premier pas dans
l’implémentation d’une méthode de prédiction (basée sur la métaheuristique
d’optimisation par colonie de fourmis) appliquée à un espace discret mais proche
de celui dans lequel évoluent les protéines réelles. En effet, la littérature actuelle
propose quelques articles implémentant ce type de méthode mais elle n’a encore
jamais été utilisée avec des modèles de représentations proche de la réalité.
Nous découvrirons donc pas à pas toutes les informations nécessaires à
la bonne compréhension du fonctionement de cette méthode pour ensuite en
découvrir les particularités.

7
« Z  ,      ,     
        . »
(« U   ,     ̀  ́    
́        ’. »)
Gerhard MULDER
Chapitre 1

Introduction

1.1 Les protéines


Nous sommes en 1835. Un chimiste hollandais, Gerhard Mulder, effectue une
analyse chimique sur le blanc d’œuf et déclare que c’est une substance constituée
d’une base de carbone (symbole chimique C), hydrogène (H), oxygène (O) et
azote (N), auxquels s’ajoutent un peu de phosphore et de souffre. Il montre
également que des substances d’une composition identique sont présentes dans
des tissus animaux et végétaux. Les protéines venaient d’être découvertes.
Le mot protéine vient du grec prôtos qui signifie premier, essentiel. En effet,
les protéines interviennent dans la grande majorité des processus qui régissent
le fonctionnement de tout être vivant [1]. Leurs rôles sont aussi variés que
complexes :
– l’insuline, par exemple, joue un rôle hormonal et transmet des messages
au travers de l’organisme ;
– l’hémoglobine, protéine cinématographiquement célèbre, s’occupe du trans-
port du dioxygène dans notre corps ;
– d’autre protéines de transport existent et agissent dans des processus tels
que la photosynthèse ;
– certaines protéines jouent un rôle majeur dans la conversion d’énergie
chimique en énergie mécanique, dans les muscles par exemple ;
– les anticorps dont nous avons tous entendu parlé et qui jouent un rôle
prédominant dans le système immunitaire sont encore des protéines. Ils
savent faire la différence entre les corps connus et les corps intrus tels que
les virus et autres bactéries.

9
CHAPITRE 1. INTRODUCTION 10

Une autre éthymologie, moins probable mais quelque peu plus séduisante,
voudrait que le mot protéine fasse référence au dieu grec Protée, dieu qui possé-
dait un pouvoir de polymorphisme infini sur son corps. Un fois de plus, force
est de constater que s’il existe des corps naturels présentant une multitude de
formes différentes, ce sont bien les protéines !

1.1.1 Structure primaire


Toutes les protéines ont un point commun : ce sont des polymères linéaires
construits à partir de différentes combinaisons des 20 acides aminés de base.
On peut représenter un acide aminé comme à la figure 1.1. L’atome cen-
tral est appelé carbone α (Cα ). Trois structures chimiques s’y connectent : le
groupement amine (−NH2 ), le groupement carboxyle (−COOH) et une chaîne
latérale (habituellement symbolisée par R). Chaque acide aminé diffère par cette
chaîne latérale. De plus, cette dernière confère à l’acide aminé ses propriétés
particulières.

F. 1.1 – Représentation atomique d’un acide aminé.

Dans la suite de ce mémoire, nous simplifierons les acides aminés par la


représentation suivante (cfr. figue 1.2) où N, Cα , C et O sont les atomes réels de
la chaîne principle de l’acide aminé, Cβ est le premier atome de la chaîne latérale
et Cµ est un atome fictif utilisé pour simuler la chaine latérale.
Le Cµ correspond à la moyenne géométrique de tous les atomes de la
chaîne latérale de l’acide aminé (à l’exception des atomes d’hydrogène H). Cette
moyenne est calculée à partir d’une base de donnée des structures protéiques
connues dont on a extrait les informations de l’acide aminé concerné [2].
Cette représentation simplifiée a (évidemment) une exception : l’acide aminé
nommé glycine. En effet, cet acide aminé ne possède qu’un simple atome d’hy-
CHAPITRE 1. INTRODUCTION 11

F. 1.2 – Représentation simplifiée d’un acide aminé.

drogène en guise de chaîne latérale. Il est donc commun d’établir une corres-
pondance des atomes Cβ et Cµ avec l’atome Cα .
Lors de la formation d’une protéine, la liaison entre deux acides aminés se
fait au moyen d’une réaction de condensation. Ainsi, il est commun de parler de
résidus au lieu d’acides aminés. Le nombre de résidus constituant une protéine
varie d’une cinquantaine à plusieurs milliers.
On appelle séquence d’une protéine la suite des résidus qui la compose. C’est
cette séquence qui constitue la structure primaire de la protéine. Il est remar-
quable de constater que la séquence contient toutes les informations nécessaires
à l’adoption d’une structure spécifique et à l’éxcution de la fonction biologique
de la protéine.

1.1.2 Structure secondaire


Les atomes sont liés entre eux par un lien chimique et le lien qui lie l’atome
C d’un résidu à l’atome N d’un autre résidu est appelé lien peptidique. De par
leurs natures, ces liaisons offrent une certaine liberté de rotation aux atomes liés.
Toutefois, le lien peptidique entre deux résidus est particulier : il a un caractère
partiel de double liaison qui a pour conséquence de contraindre dans un même
plan les atomes Cα de deux résidus voisins et les atomes intermédiaires C, O, N.
Cela dit, comme nous le montre la figure 1.3, il existe toujours des libertés de
rotation autour des liens N − Cα (appelé angle de torsion φ) et Cα − C (angle ψ).
De plus, dans le cas d’une représentation de résidus plus détaillée, les chaines
latérales jouissent également d’une certaine liberté de rotation. Il en résulte que le
nombre de conformations potentiellement accessibles pour une protéine d’une
CHAPITRE 1. INTRODUCTION 12

certaine longueur est astronomiquement grand. Et pourtant, certains motifs


structuraux réguliers sont observés de manière récurente dans les protéines.
Ce sont ces arrangements que l’on appelle structure secondaire. Parmi eux,
deux catgories se distinguent : les hélices-α (figure 1.4(a)) et les feuillets-β (figure
1.4(b)). Le squelette (backbone) de ces structures est composé de la suite des
atomes Cα de chaque acide aminé constituant la protéine.

F. 1.3 – Illustration des angles de torsion φ et ψ dûs aux liaisons chimiques.

F. 1.4 – Exemples de structures secondaires : (a)hélice-α, (b)feuillet-β.

1.1.3 Structure tertiaire


Chaque protéine a la particularité de posséder des caractéristiques physiques
et chimiques qui lui sont propres. Toutefois, ces caractéristiques sont spécifiques
à la conformation spatiale adoptée par la protéine. La majorité des protéines se
replient donc pour adopter une conformation tridimensionnelle unique appelée
CHAPITRE 1. INTRODUCTION 13

structure tertiaire dont la particularité est d’utiliser des interactions entre résidus
proches dans l’espace mais distants dans la séquence. Cette structure tertiaire,
également appellée état natif, est stable grâce aux nombreuses interactions favo-
rables qui s’établissent en son sein. Notons que l’on appelle interacions natives
une interaction présente dans la structure native. La figure 1.5 nous montre en
exemple la structure tertiaire de l’ubiquitine. Les diverses structures secondaires
sont reliées par ce que l’on appelle des coudes.

F. 1.5 – Exemples de structure tertiaire : l’ubiquitine.

C’est grâce à l’adoption de cette structure tridimensionnelle particulière


que les protéines peuvent réaliser leur fonction biologique. L’hémoglobine, par
exemple, transporte le dioxygène dans une cavité enfouie au sein de sa structure
tertiaire.

1.2 Le repliement des protéines


Une protéine peut adopter différentes conformations, celles de l’état dénaturé
étant généralement les moins stables. A l’image d’un ressort trop tendu, une
protéine en état instable cherche à atteindre son état le plus stable caractérisé
par une énergie libre minimale. Une hypothèse largement admise est que la
structure native d’une protéine correspond généralement à sa conformation
d’énergie libre minimale.
Le repliement d’une protéine est un processus extrêmement spécifique et
particulièrement efficace. En effet, la rapidité avec laquelle une protéine trouve sa
conformation de plus basse énergie est remarquable. Par exemple, une protéine
CHAPITRE 1. INTRODUCTION 14

de 100 résidus peut adopter 2100 (≈ 1030 ) structures tridimensionnelles différentes


en supposant que seulement 2 conformations soient accessibles à chaque résidu,
ce qui est loin de la réalité. En admettant que le passage d’une conformation
à une autre se fait en 10−13 secondes (ce qui correspond au temps necessaire
pour une rotation autour d’une liaison peptidique), il faudrait 1017 secondes soit
environ trois milliard d’années, pour tester toutes les conformations possibles.
Très clairement, la totalité des conformations accessibles à une véritable protéine,
sans aucune simplification, dépasse de loin le degré d’abstraction humain.
Pourtant, les protéines arrivent à retrouver leur structure native en un temps
allant de quelques millisecondes à quelques secondes ! Levinthal en 1969 [3], fut
le premier à relever cette incompatibilité que l’on nomme aujourd’hui paradoxe
de Levinthal. Il ajoutait que, de toute évidence, les protéines n’explorent pas la
totalité de leur espace conformationnel. Actuellement, seuls des modèles théo-
riques viennent expliquer la rapidité de ce processus. En effet, les mécanismes
qui permettent à une séquence d’acides aminés de se replier en une structure
tridiensionelle unique sont actuellement mal connus.
Le modèle de diffusion-collision propose un mécanisme de repliement hié-
rarchique qui permet de réduire drastiquement l’espace conformationnel. La
théorie soutient qu’il y aurait, dans un premier temps, un repliement des sous-
domaines de la protéines, ces sous-domaines étant d’une taille très limitée. Par
la suite, des interaction entre sous-domaines se créeraient, formant ainsi des
domaines plus important. Cela durerait jusqu’à la formation complète de la
structure native de la protéine.
Le modèle de l’effondrement hydrophobe quant à lui s’appuie sur la tendance
des résidus hydrophobes à se regrouper dans les premiers instants du proces-
sus afin d’éviter tout contact avec l’eau. Ce regroupement aurait lieu avant la
formation de structures secondaires et aurait une influence prépondérante pour
la suite du repliement. En effet, le noyau hydrophobe temporairement formé
réduirait considérablement l’espace conformationnel accessible à la protéine.
Enfin, le modèle de nucléation-condensation met en avant l’importance des
interactions tertiaires (c’est-à-dire entre résidus distants dans la séquence). Afin
que ces interactions aient lieu, la formation d’un noyau de repliement est re-
quise. Les fragments de protéine non repliés entrant en contact avec le noyau
adopteraient ensuite leur structure native.
D’autre modèles théoriques existent et le lecteur intéressé trouvera une brève
présentation de la majorité d’entre-eux dans [4].
Durant les années 90, un nouveau modèle de repliement protéique a été
CHAPITRE 1. INTRODUCTION 15

développé [5] et fut revisité en 1998 [6]. Sa caractéristique principale est de


représenter le paysage énergétique d’une protéine. Il s’agit en fait d’une représen-
tation multi-dimensionnelle de l’énergie libre d’une conformation de la protéine
en fonction de sa similarité avec la structure native.
Une interprétation tridimensionnelle du paysage énergétique produit un
entonnoir communément appelé entonnoir de repliement. L’axe vertical de cet
entonnoir représente l’énergie libre d’une conformation et les axes horizontaux
représentent les conformations de la protéine accessibles à un certain niveau
d’énergie. A la base de cet entonnoir, on trouve la structure native qui est donc
d’une énergie libre minimale. Plus on monte dans l’entonnoir, plus le nombre de
conformations possibles à un même niveau d’énergie augmente. Le repliement
serait donc un processus progressif de modifications conformationnelles entraî-
nant la création d’interactions natives favorables et débouchant sur la structure
native (cfr. figure 1.6).
Dans une situation idéale, l’entonnoir serait parfait et chaque modification
conformationnelle en direction de l’état natif stabiliserait la protéine (figure
1.6(a)). Malheureusement, l’expérience montre que des modifications confor-
mationnelles nécessaires à la création d’interactions natives peuvent être défa-
vorables d’un point de vue énergétique ! Cela introduit des variations dans le
paysage énergétique et laisse apparaitre un concept bien connu dans le domaine
de l’informatique : le problème des minima locaux (figure 1.6(b)). Un paysage
énergétique peut donc s’avérer plus ou moins complexe, ce qui induit qu’il existe
différents chemins de repliement entre une conformation d’état dénaturé et une
conformation d’état stable (figure 1.6(c)).
Il est intéressant de comparer le paradoxe de Levinthal à un paysage éner-
gétique plat [7]. L’idée à l’époque était qu’il existait une conformation native
unique et que toute autre conformation était inintéressante. On se rend alors
compte que le problème d’origine est mal posé : en effet, il est mathématique-
ment improbable de tomber dans le trou de l’entonnoir à partir d’un paysage
plat en un temps raisonnable (figure 1.6(d)).
Ce modèle de paysage énergétique ne remet pas en question tous les modèles
précédents, au contraire. Il permet d’expliquer plusieurs phénomènes observés
tels que l’existence de chemins de repliement préférés. Cela appuierait certaines
théories comme par exemple celles de la création d’un noyau hydrophobe ou
d’intermédiaires de repliement. Concrètement, le paysage énergétique procure
un cadre général dans lequel les cas particuliers peuvent être interprétés.
CHAPITRE 1. INTRODUCTION 16

F. 1.6 – Représentation tridimensionnelle du paysage énergétique d’une pro-


téine : (a) un paysage énergétique idéal, (b) un paysage énergétique réel, (c)
deux chemins de repliement différents, (d) le paradoxe de Levinthal. [source :
Gilquin Bernard : Exploration des méchanismes de repliement des protéines par
dynamique moléculaire]
CHAPITRE 1. INTRODUCTION 17

1.3 La prédiction de la structure native des protéines


1.3.1 Objectif
La structure native d’une protéine est une richesse en soi. Elle est l’incon-
nue nécessaire à la résolution d’une foule de questions, dont la principale est :
« Comment ça marche ? ». En effet, pour comprendre le fonctionnement d’une
protéine il faut impérativement en connaître la structure native. Par exemple,
les sites actifs des protéines ne sont généralement fonctionnels qu’une fois la
protéine complètement repliée.
Outre cet aspect primordial, de multiples possibilités s’offrent à nous :
– l’étude des interactions possibles entre une protéine et diverses molécules
permet par exemple la création de médicaments qui agiront précisément
là où c’est nécessaire ;
– certaines protéines subissent des mutations pour diverses raisons et la
compréhension fine de l’effet de ces mutations passe par la connaissance
de la structure native ;
– la conception de protéines dont la séquence est modifiée permettrait d’ob-
tenir de nouvelles propriétés comme par exemple une augmentation de la
stabilité de la protéine ou encore l’amélioration de réactions enzymatiques
dans le milieu industriel ;
– la compréhension des mécanismes de stabilisation de l’état d’une protéine
pourrait conduire, dans un futur plus ou moins proche, à la création de
nouvelle protéines avec un rôle bien précis et défini à l’avance. Le besoin
sera alors à l’origine de la protéine...
Il existe une base de données accessible à tous, la Protein Data Bank (PDB)
[8], qui répertorie toutes les connaissances actuelles concernant les structures
des protéines. On y retrouve de nombreuses structures natives établies expéri-
mentalement par cristallographie aux rayons X ou par résonance magnétique
nucléaire. Pour plus d’information dans ce domaine, le lecteur intéressé se diri-
gera vers [9, 10].
Malheureusement, ces méthodes, en plus d’être lentes, sont plutôt coûteuses.
De plus, le nombre de séquences protéiques connues est bien plus grand que le
nombre de structures natives établies et l’écart entre les deux ne cesse d’augmen-
ter. Ces divers arguments ont poussé les chercheurs à se tourner vers d’autres
méthodes.
L’expérience ayant montré que la plupart des protéines adoptent des confor-
CHAPITRE 1. INTRODUCTION 18

mations spécifiques, l’étude in silico des protéines va bon train. De nombreux


projets tels que l’étude théorique du repliement des protéines ou la simula-
tion des interactions protéine-protéine ont vu le jour. Parmi eux, on retrouve la
prédiction de la structure native des protéines.

1.3.2 Aperçu général des méthodes de prédiction


Avant de découvrir ce qu’est la prédiction, une question se pose : pourquoi
ne pas simuler intégralement un repliement protéique ? Après tout, les connais-
sances actuelles permettent d’envisager une simulation complète, picomètres
par picomètres, des mouvements atomiques d’une protéine...
Actuellement, ce genre de technique existe mais il est calculatoirement im-
possible d’effectuer une simulation longue de plus de quelques nanosecondes
(au mieux une microseconde). Or, nous le découvrions tout à l’heure, un replie-
ment protéique nécessite quelques millisecondes (au pire secondes). L’échelle de
temps n’est donc tout simplement pas accessible et par ailleurs, l’informatique a
ce défaut de toujours procéder par approximation de valeurs, ce qui peut entrai-
ner sur le long terme une dégradation fortement prononcée des résultats. Il en
va d’ailleurs de même pour les évaluations énergétiques qui sont certainement
imparfaites [11].
L’intérêt de la prédiction est donc évident : gagner du temps ! Deux grandes
catégories de prédictions existent : celle basée sur les connaissances actuelles et
l’autre, plus pure, se basant uniquement sur la structure primaire de la protéine,
c’est-à-dire sa séquence.
La première catégorie repose sur l’utilisation de bases de données de struc-
tures protéiques. Il faudra donc qu’il existe un certain degré de similitude de
séquence ou de structure entre la protéine étudiée et une ou plusieurs protéines
de la base de donnée. La modélisation par homologie, par exemple, compare les
séquences de la PDB avec la séquence protéique cible [12]. Si un degré d’homo-
logie suffisant est dégagé, alors on produit une structure dérivée des structures
homologues de la PDB. Ce procédé donne de bons résultats car les protéines de
séquence similaire ont généralement des structures très semblables.
Un autre exemple est la reconnaissance structurale [13, 14]. On l’utilise géné-
ralement quand la modélisation par homologie a échoué. En effet, un tel échec
est clairement dû à un manque de similitude entre la protéine cible et les pro-
téines de la PDB. Cette méthode propose donc d’utiliser un squelette issu des
conformations structurales connues afin d’y enfiler la séquence d’acides aminés
CHAPITRE 1. INTRODUCTION 19

de la protéine cible. A nouveau, il existe des bases de données structurales. Par


exemple, la Fold Classification based on Structure-Structure alignement of Proteins
(FSSP) [15] regroupe les structures représentatives de la PDB. L’intérêt d’une
telle banque provient du fait que la PDB contient des structures redondantes.
Dans le cadre de la reconnaissance structurale, l’utilisation de structures repré-
sentatives est un atout significatif.
L’autre catégorie de prédiction se fait ab initio, c’est-à-dire sur base de la
seule séquence de la protéine. Cette catégorie est beaucoup plus générale mais
est bien évidemment plus ardue à mettre en œuvre. L’hypothèse de base est
celle selon laquelle la structure native correspond au minimum global d’énergie
libre. Le but d’une prédiction ab initio est donc évident : trouver une structure
tridimensionnelle d’énergie libre minimale.

1.3.3 Les impératifs de la prédiction de structures natives


Afin de réaliser au mieux une prédiction, certains outils sont nécessaires :
1. une modélisation de la protéine étudiée ;
2. une méthode de discrétisation de l’espace dans lequel elle évolue ;
3. une méthode de recherche qui permet l’exporation de l’espace conforma-
tionnel ;
4. une fonction énergétique permettant l’évaluation d’une structure par rap-
port à sa séquence ;
5. dans certains cas, il sera intéressant de posséder d’un moyen d’évaluation
des prédictions obtenues.
Le chapitre suivant propose donc un tour d’horizon de ces divers impératifs.
Nous y découvrirons plusieurs outils et méthodes permettant de procéder à une
prédiction digne de ce nom.
Chapitre 2

Présentation des outils et méthodes


existants

Ce chapitre propose au lecteur un aperçu des quelques techniques utilisées


dans le domaine de la prédiction de structures natives. Il permettra en outre de
mieux se rendre compte des divers problèmes rencontrés dans ce domaine et de
découvrir les solutions qui y sont apportées.

2.1 Les modèles utilisés


Une difficulté récurrente en informatique est celle de la modélisation des
problèmes étudiés. Dans ce cas-ci comme dans beaucoup d’autres, il faut trouver
un juste compromis entre simplification du problème et qualité des résultats.
Dans le cadre des prédictions de la structure native des protéines, il y a deux
entités à modéliser : la protéine elle même et l’espace de recherche.

2.1.1 Modélisation de la protéine


La modélisation d’une protéine peut se faire par une représentation com-
plète au niveau atomique des acides aminés la composant. Evidemment, un
tel modèle entraînerait un coût de calcul non négligeable. D’un autre côté, une
représentation trop simpliste de la protéine entraînera une dégradation de la
qualité des résultats. Il faut donc trouver un compromis dont on pourra tirer le
meilleur parti dans les deux cas.

20
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 21

Le modèle HP

Le modèle HP [16] est simple : il propose de réduire les vingt acides aminés
à seulement deux groupes : les acides aminés hydrophiles (nommé P) et les
acides aminés hydrophobes (nommé H). Dès lors, une protéine, plutôt que
d’être représentée par une séquence composée de 20 acides aminés différents,
sera simplement représentée par une suite d’acides aminé H ou P, ce qui simplifie
vraiment les choses ! De plus, un résidu est réduit à un seul point dans l’espace,
on ne tient donc absolument pas compte du détail atomique.
Ce modèle étant basé sur la théorie de la création d’un noyau hydrophobe,
il faudra, pour satisfaire aux conditions de repliement des protéines, minimiser
l’interaction des résidus H avec l’environnement extérieur (généralement l’eau).
Le résultat d’une prédiction effectuée à partir d’un modèle de ce genre se trouve
en figure 2.1.

F. 2.1 – Résultats d’une prédiction bidimensionelle basée sur le modèle HP


pour une protéine de séquence ’HHHPPHPHPHPPHPHPHPPH’ (le début de
la séquence est symbolisée par ’1’ et les résidus ’H’ sont en noir).

Malheureusement, une représentation aussi simpliste fourni peu de résul-


tats intéressants dans le cadre de la prédiction de structure native de pro-
téine. En effet, réduire les propriétés des acides àminés à un simple caractère
d’hydrophobie-hydrophilie est assez limitatif. Par contre, au niveau des études
théoriques, elle permet de mieux comprendre certaines étapes du repliement
des protéines.

Le modèle (φ, ψ, ω)

Comme nous l’avons vu dans l’introduction, les résidus peuvent adopter


diverses conformations en fonction des angles de torsion adoptés autour de
leurs liaisons chimiques. Bien que l’angle ω puisse sembler nouveau au lecteur,
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 22

il s’agit en fait du nom donné à celui de la liaison inter-résidu C − N. Pour rappel,


ce lien à un caractère partiel de double liaison, ce qui limite à deux les valeurs
prises par l’angle ω : 0◦ et 180◦ .

F. 2.2 – Illustration de l’angle ω. La molécule entourée est un résidu quelconque


venu s’attacher au résidu que nous étudions.

Ainsi, la conformation d’un résidu est donnée par un triplet (φ, ψ, ω) et


le squelette d’une protéine peut être modélisé par une suite de triplets, de
taille équivalente au nombre de résidus de la protéine. Finalement, la structure
tridimensionnelle d’une protéine sera calculée à partir des conformations (φ, ψ,
ω) successives adoptées pas les résidus la composant.

Les modèles intermédiaires

On entends par modèle intermédiaire un modèle offrant une description de


la protéine plus détaillée que dans le modèle HP, mais moins détaillée qu’un
modèle complet. Ainsi, il arrive de regrouper les acides aminés en plusieurs
classes afin de permettre un niveau de détail plus élevé. Une fois cette classifi-
cation effectuée, on peut encore se contenter de représenter le résidu par un seul
point dans l’espace ou bien par quelques atomes.
A ce sujet, il est important de se souvenir d’une simplification que nous
avons effectuée lors de l’introduction : le remplacement de la chaîne latérale par
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 23

un atome fictif, le Cµ . Dans le cas ou la chaîne latérale serait prise en compte


dans le modèle, une représentation encore plus fine de la protéine aurait lieu.
En effet, cette chaîne latérale possède également des libertés de rotation autour
de certaines liaisons chimiques et il serait tout à fait envisageable de les prendre
en compte.

2.1.2 Discrétisation de l’espace conformationnel


Nous l’avons déjà dit, l’espace conformationnel est immensément grand.
Diverses techniques de discrétisation existent donc afin de permettre une dimi-
nution substanciellment importante des conformations possibles. Bien entendu,
il s’agit à nouveau de trouver un bon compromis entre degré de simplification
et qualité de résultat. Deux grands types de discrétisation existent :
1. le modèle réseau propose une restriction de l’espace conformationnel en
maille fixe ;
2. le modèle hors réseau propose une restriction de l’espace conformationnel en
limitant par exemple les rotations autour des liaisons chimiques à certaines
valeurs angulaire bien définies, ce qui a pour conséquence de créer un
modèle réseau dynamique.

Les modèles réseau

Les premiers modèles réseaux étaient basiques et consistaient en une simple


grille bidimensionnelle fixe. Le lecteur comprendra aisément qu’une telle re-
présentation protéique est bien loin de la réalité. Grâce à l’amélioration des
techniques de recherche dans l’espace conformationnel, des modèles réseaux
plus fins commencèrent à être utilisés. L’utilisation de grille tridimensionnelle
à maille étroite offre une nette amélioration de représentation mais le caractère
statique de ces modèles représente un facteur limitatif important au niveau de
la qualité des solutions obtenues.
En effet, dans un modèle réseau, on travaille avec des coordonnées fixes
définies par la maille utilisée. Ainsi, dans le cas d’une représentation atomique
de la protéine, les distances inter-atomiques seront fixes et les possibilités de
rotation angulaire seront également définies (par exemple, dans un modèle
bidimensionnel carré où la maille représente la distance inter-atomique, ces
rotations seront toujours multiples de 90◦ ).
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 24

Toutefois, certains avantages existent de par la rigidité du modèle. Par


exemple, il est tout à fait possible qu’un résidu passe d’une conformation à
une autre sans que cela nous oblige à recalculer la position de tous les autres
résidus (cfr. figure 2.3). C’est là l’avantage de travailler avec des coordonnées
externes au modèle de protéine utilisé.

F. 2.3 – Exemple de modification conformationnelle locale : (a) l’état avant la


modification conformationnelle, (b) l’état après la modification conformation-
nelle.

Les modèles hors réseau

Les modèles hors réseau sont généralement basés sur la limitation des confor-
mations accessibles pour un résidus, c’est-à-dire sur la limitation des valeurs
prises par les angles de rotation autour de leurs liaisons chimiques. Par exemple,
la liaison N − Cα sera limitée à un ensemble de quelques angles φ accessibles. Par
ailleurs, la distance des liaisons inter-atomiques peut être définie pour chaque
paire d’atome [17], ce qui accentue encore le réalisme de ce modèle.
La discrétisation du modèle dépendra donc du nombre de valeurs dispo-
nibles pour chaque résidu. Ce système simple est facilement transposable dans
le cas où la chaine latérale des protéines est prise en compte.
Son avantage est évident : il est basé sur la nature même des protéines et
utilise donc un système de coordonnée internes pour la représentation de celles-
ci. De plus, il permet de travailler dans un espace conformationnel accessible à
la prédiction tout en préservant une certaine qualité de résultat.
Cependant, pour un même niveau de discrétisation, le modèle hors réseau
demande généralement plus de calculs que le modèle réseau. Pour reprendre
l’exemple du modèle réseau, si nous modifions la conformation d’un seul résidu
de la protéine dans le cadre du modèle hors réseau, il nous faudra recalculer
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 25

toutes les coordonnées tridimensionnelles de la protéine à partir des triplets (φ,


ψ, ω) de chaque résidu. Il s’agit en fait d’effectuer la traduction des coordonnées
internes en coordonnées réelles.

2.2 L’exploration de l’espace conformationnel


De par son paysage énergétique, une protéine ne peut parfois atteindre
son minimum global d’énergie libre qu’en procédant à certaines modifications
conformationnelles défavorables. Autrement dit, il arrive parfois que pour pas-
ser d’une état X à un état Y plus stable, la protéine se retrouve dans un état
intermédiaire de stabilité moindre que son état d’origine X.
C’est là le grand problème des minima locaux. Précisément, le problème est
de détecter que la protéine se trouve dans une conformation d’énergie libre
minimale locale qui n’est pas native. Le problème sous-jacent est évidemment
de trouver un moyen de sortir de ce minimum local, c’est-à-dire d’accepter une
modification conformationnelle défavorable.
Diverses solutions ont été apportées à ce problème, mais aucune d’entre-elles
n’est optimale. On parle donc couramment d’heuristiques et de métaheuristiques.
Une heuristique est une méthode de production de solution adaptée à un pro-
blème particulier alors qu’une métaheuristique constiste en une stratégie de
choix pouvant piloter une heuristique.
En résumé, un bon compromis entre l’exploration de l’espace conformation-
nel et l’intensification de la recherce d’une solution minimale doit être trouvé.
Si la priorité est donnée à l’exploration, il est fort probable qu’on ne converge
jamais vers une solution minimale (même locale) alors que si l’on privilégie l’in-
tensification d’une solution, on aura de grandes chances de rester bloqué dans
un minimum local.

2.2.1 Monte Carlo


Monte Carlo est une méthode de prédiction probabiliste basée sur la modi-
fication aléatoire de la conformation de certains résidus de la protéine étudiée
[18]. A chaque itération de la méthode, une nouvelle structure protéique peut
donc être évaluée par la fonction énergétique. La suite de l’algorithme dépendra
de l’énergie calculée. Dans les première versions de Monte Carlo, le choix était
simple :
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 26

– si l’énergie calculée est inférieure à l’énergie de la conformation précédente,


alors c’est que la nouvelle conformation offre à la protéine un état plus
stable. On conservera donc cette conformation qui servira de base à la
prochaine itération ;
– dans l’autre cas, on procède simplement au rejet de la nouvelle conforma-
tion.
Ce genre de rejet automatique entraîne fatalement la découverte de solutions
locale, ce qui n’est pas vraiment l’objectif recherché. Ainsi, certains critères d’ac-
ceptation ont été développés. Le concept est commun : permettre l’acceptation
de modifications conformationnelles défavorables afin de diminuer les chances
de tomber dans un minimum local.
Un critère régulièrement utilisé est celui dit de Metropolis [19] où ∆E re-
présente la différence d’énergie entre la conformation évaluée et la dernière
conformation acceptée :
 ≤ e−(∆E)(kT)
Le facteur kT représente la multiplication entre la constante de Boltzman et
la température à laquelle s’effectue la prédiction et  est un nombre aléatoire
compris entre 0 et 1 [19].
Ainsi, si le critère de Métropolis est vérifié, alors une modification conforma-
tionnelle défavorable sera acceptée et servira de base à la prochaine itération.
On constate donc qu’une première approche d’exploration de l’espace confor-
mationnel passe simplement par la considération d’un critère d’acceptation sto-
chastique.
En effet, plus la modification conformationnelle est défavorable, plus ∆E est
grand, ce qui implique que l’exponentielle est plus petite que 1 et donc que les
chances d’acceptations sont réduites. Par contre, dans le cas d’une modification
conformationnelle favorable, ∆E sera négatif et l’exponentielle sera toujours plus
grande que 1. La conformation sera donc toujours acceptée.

2.2.2 Le Recuit Simulé


La méthode de Monte Carlo incluant un critère de Métropolis est attrayante
mais peut encore être améliorée. En effet, il y a un paramètre intéressant sur
lequel nous pouvons jouer : la température. C’est donc en 1983 qu’apparaît
le Recuit Simulé. Il propose simplement de commencer la prédiction à haute
température et de la faire baisser progressivement [20]. Dans la vie courrante,
on constate par exemple que la qualité d’un rail de chemin de fer est fortement
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 27

dépendante de son refroidissement lors de sa confection. S’il est refroidi trop


vite, la structure métallique sera imparfaite et le rail présentera des défauts.
Il faut donc prendre le temps, ce qui rend généralement cette méthode moins
rapide que les autres.
L’introduction d’une variation progressive de la température lors d’une pré-
diction de structure native introduit donc un facteur dynamique intéressant
dans le critère d’acceptation. Celui-ci permettra un degré d’acceptation de mo-
dification conformationnelle défavorable plus élevé au début de la prédiction
et plus faible à la fin. Il favorise donc une phase d’exploration dans un premier
temps pour permettre ensuite une intensification de la recherche.
Il arrive parfois d’effectuer un Recuit Simulé sur une protéine déjà partielle-
ment repliée. Il est donc important de remarquer que le choix de la température
initiale est un facteur très important : si une température trop élevée est choisie,
on pourrait assister à un dépliement de la protéine, ce qui n’est pas du tout le
but recherché !
Enfin, signalons que sous certaines conditions (dont par exemple un schéma
de décroissance particulier), des preuves de convergence asymptotique existent
pour le Recuit Simulé. Ceci constitue un avantage mathématique inexistant
dans le cas des méthodes heuristique [21, 22]. Malheureusement, il est très
difficile d’appliquer au mieux la théorie sans consacrer beaucoup de temps au
paramétrage de l’algorithme.

2.2.3 Recherche Tabou


En 1986, Fred Glover propose une nouvelle méthode concernant le problème
des minima locaux : l’utilisation d’une liste taboue simulant en fait le principe
de mémoire [23]. L’application de cette méthode donne une heuristique en ce
sens qu’elle ne converge pas spécialement vers le minimum global. Elle est par
contre un excellent guide !
L’idée de la recherche Tabou est de permettre la poursuite d’une recherche
même quand un minimum local est trouvé. La mémoire sera utilisée pour éviter
les retours en arrière et donc les cycles. Il est important de signaler qu’une
mémoire élevée deviendra trop restrictive tout comme une mémoire trop petite
sera probablement inutile. L’intérêt typique de cette mémoire est de forcer la
recherche à explorer une autre zone que celle dans laquelle se trouve la solution
la plus récente.
Formellement, définissons s comme étant la solution actuelle, sG comme étant
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 28

la solution golbale et V(s) comme étant l’espace de solutions voisines à s. Une fois
qu’une solution s est trouvée, elle est mise en mémoire (dans la liste Tabou) pour
un nombre d’itération i. Il sera dés lors impossible de revenir à cette solution tant
que le nombre i d’itération ne sera pas dépassé. Toutefois, une exception existe :
lorsqu’un mouvement tabou permet d’améliorer la solution s, il sera autorisé.
C’est ce que l’on appelle le critère d’aspiration.
Le grand avantage de la recherche Tabou est que lorsqu’elle devra choisir
un voisin dans V(s), elle choisira toujours le meilleur alors que pour le Recuit
Simulé, on assistait à une modification aléatoire de la solution. On découvre
ainsi une autre approche de résolution du problème des minima locaux : plutôt
que de les éviter, on les utilise
Enfin, notons qu’il existe diverses variantes de la recherche Tabou utilisant
des modification sur la fonction d’évaluation des voisins. L’idée générale est
d’ajouter des pénalités ou des avantages sur base de certains critères remplis
par le voisin évalué. Une autre variante de la recherche Tabou alterne volontai-
rement les phases d’intensification de la recherche avec les phases d’exploration
de l’espace en changeant dynamiquement le nombre de mouvements tabous
stockés en mémoire.

2.2.4 Algorithmes évolutionnaires


Les diverses méthodes que nous venons d’explorer ont toutes un point com-
mun : leurs itérations reposent sur l’amélioration d’une solution unique. En effet,
on travaillera toujours à partir d’une solution initiale en essayant de l’améliorer
au maximum en fonction des contraintes du problème étudié. Les méthodes que
nous allons explorer à partir de maintenant sont des méthodes à population de
solutions.
Le therme algorithme évolutionnaire regroupe en fait une multitude de méta-
heuristique différentes. Cependant, toutes ont un point commun : elles utilisent
le concept d’algorithme génétique, c’est-à-dire l’application informatique sim-
plifiée de la théorie de l’évolution de Darwin. L’actuel succès des algorithmes
génétiques est évidemment dû aux ouvrages de David Goldberg [24] mais leur
date de naissance réelle provient de la publication en 1975 du livre de John
Holland intitulé Adaptation in Natural and Artificial System.
Les algorithmes évolutionnaires sont de par leur nature de métaheuristique
extrèmement flexibles. Ils peuvent donc être appliqués à de nombreux pro-
blèmes. Toutefois, leur utilisation en tant que « magic box »est à proscrire ! En
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 29

effet, certains mécanismes internes nécessitent un coût calculatoire important


et les performances d’une implémentation irréfléchie de ce genre de méthode
seraient plus que médiocres.
De manière générale, il est important de spécialiser l’algorithme en fonction
du problème étudié. En effet, l’inclusion de connaissance au processus de re-
cherche ne fera qu’améliorer la qualité des résultats obtenus. Toutefois une chose
est certaine, un algorithme évolutionnaire ne fournira jamais de meilleures per-
formances qu’une méthode de recherche exacte (si elle existe).
Avant d’examiner le fonctionnement de ce type de méthode, définissons-en
le vocabulaire. L’espace de recherche sera appelé l’environnement et les solutions
seront les individus regroupés en population.
Le but de l’algorithme est d’évaluer la capacité d’une population à s’adapter
à son environnement. Pour mesurer la qualité des individus, l’algorithme utilise
une fonction d’évaluation appellée fonction de fitness. Le but devient donc la
recherche d’un individu maximisant la fonction de fitness.
Pour représenter un individu, les algorithmes génétiques utilisent des chro-
mosomes. On dira que le génotype d’un individu représente son codage quand son
phénotype sera l’expression du code génétique dans l’environnement. Les diffé-
rent types d’algorithmes évolutionnaires sont en fait caractérisés par le moyen
de codage des individus utilisé.
Maintenant que ce vocabulaire est acquis, penchons-nous sur le fonctionne-
ment de l’algorithme avant d’approfondir les méthodes d’exploration de l’es-
pace et d’intensification des solutions. Comme le montre la figure 2.4, tout
commence au départ d’une population initiale. L’idée des algorithmes évolu-
tionnaires est de fonctionner par génération de population. Il faut donc créer de
nouveaux individus sur base de la population courante.
Pour ce faire, une partie de la population sera sélectionnée pour donner
naissance à de nouveaux individus. Ces individus enfants seront créés par croi-
sement et/ou mutation afin former la nouvelle population. Par ailleurs, afin de
conserver une certaine mémoire des individus visités, un facteur d’élitisme sera
utilisé pour inclure certains parents dans la nouvelle génération d’individus. On
répetera ces opérations jusqu’à ce qu’un critère de terminaison soit atteint.
Bien entendu, s’il existe de multiples algorithmes évolutionnaires, c’est non
seulement parce que le codage des individus diffère de méthode en méthode
mais également parce que les opérations de sélection, de croisement et de
mutations connaissent beaucoup de variantes. Une foule de possibilités existe
mais nous ne les explorerons pas ici. Le lecteur intéressé en trouvera quelques
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 30

F. 2.4 – Fonctionnement d’un algorithme évolutionnaire ordinaire.


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 31

exemples particulièrements intéressants dans [25].


C’est par contre le moment de pointer du doigt les mécanismes qui nous
intéressent ! En effet, ce sont ces trois opérateurs (sélection, croisement et muta-
tion) qui constituent la base du compromis entre exploration et intensification
que le présent ouvrage s’attèle à déterminer ! Par ailleurs, la méthode de repro-
duction ainsi que le remplacement de la population sont deux autres facteurs
intéressants.
On peut dire que l’opérateur de sélection a une influence sur la convergence
de l’algorithme. Ainsi, afin de garder un dergé d’exploration suffisant, une cer-
taine diversité doit être conservée parmis les individus. Il faudra donc que la
population de parents sélectionnés ne soit pas trop restreinte. L’opérateur de
croisement quant à lui est le principal outil mettant en œuvre le compromis
entre exploration et intensification. Cet opérateur plus que n’importe quel autre
doit être spécifique au problère étudié ainsi qu’au codage utilisé dans la repré-
sentation des individus. En ce qui concerne l’opérateur de mutation, on peut
dire qu’il garanti une certaine exploration aléatoire de l’espace. Il faudra donc
veiller à ne pas trop l’utiliser afin de ne pas entrer dans un état de stagnation dû
à l’éparpillement constant des individus.
Vient ensuite la méthode de reproduction. On entend par là le nombre
d’enfants généré par un couple d’individus parents. De multiples possibilités
existent, qui influe généralement sur la rapidité de concentration de la popula-
tion autour des bons individus.
Pour finir, il reste le facteur de remplacement de la population. Si une popu-
lation est entièrement renouvelée à chaque itération, les chances de convergence
se verront réduites. Il faut adopter un certain niveau d’élitisme qui permet de
conserver une mémoire des bons individus rencontrés.
Comme le montrent les trois pararaphes précédents, le nombre de choix
paramétriques à faire est assez important. C’est là le grand problème des al-
gorithmes évolutionnaires : il faut du temps pour dégager une configuration
paramétrique intéressante.
On constate donc que la famille des algorithmes évolutionnaires dispose
de plusieurs outils intéressants jouant directement sur les individus de la po-
pulation. Remarquons que la qualité de la population initiale n’est pas sans
importance ! En effet, elle est un facteur déterminant pour le déroulement et la
convergence de l’algorithme. Il est d’ailleurs fréquent d’utiliser comme popula-
tion initiale les résultats de diverses recherches locales effectuée préalablement.
Cela donne naissance à des algorithmes hybrides que nous aurons l’occasion de
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 32

découvrir plus loin.


Pour terminer cette section sur les algorithmes évolutionnaires, notons qu’ils
offrent facilement la possibilité d’effectuer une exécution parallèle sur un cluster
de machines ou sur une machine multi-processeur. En effet, dès lors que chaque
individu doit être évalué individuellement, une évaluation simultanée de plu-
sieurs individus est tout à fait envisageable ! Une autre possibilité facilement
exploitable serait de conserver la population d’origine et de procéder par sélec-
tion inverse : un individu fils viendrait remplacer le plus mauvais individu de
la population.

2.2.5 Colonies de fourmis


Les fourmis dans la nature

Tout comme les algorithmes évolutionnaires, la méthode des colonies de


fourmis est basée sur une observation naturelle : le comportement des fourmis
dans leur cohabitation en colonies. En 1983, des chercheurs découvrent que les
fourmis ont la capacité de toujours trouver le chemin le plus court entre leur nid
et une source de nourriture (par exemple) [26], ce qui est assez surprenant car la
grande majorité des fourmis est aveugle. Par ailleurs, les fourmis sont également
aptes à réagir aux modifications de l’environnement. Ainsi, lorsqu’un ancien
chemin est obstrué par un obstacle quelconque, les fourmis trouveront un autre
chemin, toujours plus court que tous les autres possibles.
Ces particularités surprenantes ont donc fait l’objet de nombreuses recherches
et finalement, un moyen de communication chimique entre les fourmis fut dé-
couvert : la phéromone. Concrètement, les fourmis déposent régulièrement une
certaine quantité de phéromone sur le chemin qu’elles parcourent. Lorsqu’elles
arrivent à un point où plusieurs chemins s’offrent à elles, elles font un choix
probabiliste sur base de la quantité de phéromone présente sur chaque che-
min. Ainsi, lorsque plusieurs fourmis sillonnent le même espace, on assiste à
l’émergence du meilleur chemin entre le nid et la source de nourriture.
Pour mieux comprendre cette particularité, examinons ce qu’il se passe dans
le cas d’une modification environnementale. Initialement, les fourmis utilisent
un chemin donné (cfr. figure 2.5(a)) entre le nid (A) et la source de nourriture
(E). Subitement, une bûche bloque le chemin d’origine. Les foumis sont donc
contraintes de trouver un autre chemin.
Dans le sens A vers E, les premières fourmis à devoir faire ce choix auront
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 33

la même probabilité de se diriger à gauche ou à droite de l’obstacle car aucune


autre fourmi ne sera passée avant elles. Il n’y a donc aucune trace phéromonale
(cfr. figure 2.5(b)). Toutefois, une fourmi ayant choisi d’aller à droite (chemin
BCD) arrivera en D bien avant une fourmi ayant choisi la gauche. De plus la
situation est identique en ce qui concerne le sens E vers A (cfr. figure 2.5(c)).
Finalement, la quantité de fourmis utilisant l’axe BCD est plus élevée que
pour l’axe BHD ce qui entraîne une quantité de phéromone croissante sur l’axe
BCD. Après un certain laps de temps, toutes les fourmis devraient (statistique-
ment) utiliser l’axe BCD (cfr. figure 2.5(c)). C’est ce phénomène que l’on appelle
la stigmergie.

F. 2.5 – Evolution du comportement des fourmis en fonction d’une modifi-


cation de l’environnement : (a) situation initiale, (b) un ostacle s’interpose et
les fourmis choisissent d’aller d’un côté ou de l’autre avec la même probabilité,
(c) l’axe BCD étant plus court, les fourmis arrivent plus vite de l’autre côté de
l’obstacle, (d) le nombre croissant de phéromones fait émerger le chemin BCD.
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 34

La transposition informatique des fourmis

Comme nous venons de le voir, les fourmis possèdent naturellement un


outil leur permettant de communiquer de façon générale afin de faire ressortir
un comportement global de la colonie. Les premières publications de cette idée
datent de 1991 [27, 28] et la première application fut faite sur le problème du
voyageur de commerce. Cette transposition était évidente vu que l’objectif de
ce problème est de trouver un chemin minimal répondant à certains critères. Il
est toutefois possible d’utiliser un système de fourmis pour résoudre d’autres
problèmes.
Les méthodes de recherche par colonie de fourmis on une particularité :
la recherche de solutions s’effectue sur base de la totalité de la population et
non plus a partir de quelques meilleurs individus (comme c’est le cas dans
les algorithmes évolutionnaires). Cette particularité non négligeable a donné
naissance la création de nombreux types d’algorithme de recherche, nous en
découvrirons ici les grandes lignes.
Le concept général est de simuler le comportement de plusieurs agents col-
laborants dans la recherche d’une meilleure solution en utilisant un moyen de
communication simple : la phéromone. Dans le cadre de la métaheuristique
d’optimisation par colonie de fourmi, les agents sont ... des fourmis. Bien en-
tendu, il y aura quelques différences entre les fourmis naturelles et celles utilisée
dans le domaine informatique que nous nommerons désormais fourmis artifi-
cielles. Ainsi, une fourmi artificielle :
1. n’est pas totalement aveugle et peut donc voir un peu plus loin que son
entourage direct ;
2. évolue dans un univers ou le temps est discret ;
3. dispose d’une certaine mémoire lui permettant de retenir la solution qu’elle
a construit ;
4. gère la quantité de phéromone déposée en fonction de la qualité de la
solution et peut procéder à différents types de dépôts phéromonaux.
Ces quelques améliorations ne sont pas sans conséquences, nous allons le dé-
couvrir ci-dessous..
Pour commencer, découvrons l’impact engendré par l’acuité visuelle de nos
fourmis artificielles. Très clairement, cela permet à la fourmi de se guider autre-
ment que par son seul environnement direct. Ce guide est en fait une valeur que
nous appellerons valeur heuristique, c’est-à-dire une valeur pouvant influencer le
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 35

choix fait par notre fourmi. Par exemple, dans le cadre de la recherche d’un plus
court chemin, lorsqu’une fourmi devra faire un choix sur le chemin à suivre,
une valeur heuristique pouvant lui simplifier la tâche serait, par exemple, la
longueur des chemins accessibles.
Cette valeur heuristique est donc une donnée propre au problème qui permet
de spécialiser la métaheuristique. Il s’agit là d’un atout important car, nous
l’avons déjà vu, utiliser une métaheuristique comme méthode de recherche
universelle n’est pas une bonne idée et conduirait certainement à de médiocres
résultats. C’est par l’inclusion de connaissances propres au problème étudié que
la méthode de recherche fournira les meilleurs résultats.
Revenons en donc à nos fourmis. Chacune tente de trouver une solution
minimisant la fonction d’évaluation utilisée. Cette solution est donc construite
pas-à-pas en fonction de divers paramètres parmis lesquels nous retrouvons
la valeur heuristique. Bien évidemment, les phéromones sont toujours de la
partie. Pratiquement, le choix fait par une fourmi artificielle dépends de ces
deux données.
De manière plus formelle, on dit qu’à chaque point nécessitant un choix, une
table de décision, résultat d’une opération mathématique particulière, produit
les règles probabilistes sur lesquelles sont basés les mouvements des fourmis.
Afin de découvrir cette opération mathématique, notons par τi j la quantité de
phéromone présente sur un chemine reliant i à j et par ηi j la valeur heuristique
associée à ce même chemin. En considérant que la fourmi se trouve sur un point
i, la probabilité pi j qu’elle se dirige vers le point j sera donnée par :

[τi j ]α · [ηi j ]β
pi j = P
k∈V(i) [τik ] · [ηik ]β
α

où V(i) représente le voisinage de i, c’est-à-dire tous les points accessibles à


partir de i et où α et β sont des paramètres permettant de contrôler l’importance
relative donnée aux phéromones et aux valeurs heuristiques. Pour être complet,
rappelons nous que nos fourmis artificielles évoluent dans un univers ou le
temps est discret. La formule devient donc :

[τi j (t)]α · [ηi j (t)]β


pi j = P
k∈V(i) [τik (t)] · [ηik (t)]
α β

De ces formules, nous retirons q’une fourmi procède à la construction d’une


solution étape par étape en effectuant un choix stochastique en fonction des
phéromones et des valeurs heuristiques présentes sur son chemin. Nous venons
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 36

donc de mettre le doigt sur deux des paramètres les plus fondamentaux de la
méthode des colonies de fourmis : α et β. En effet, ces paramètres ont un degré
d’influence important par rapport à l’exploration de l’espace conformationnel et
à l’intensification des solutions. Nous aurons l’occasion d’y revenir au chapitre
suivant lorsque nous décrirons la manière dont nous avons adapté la méthode
des colonies de fourmis au problème de la prédiction de structures natives.
Maintenant que nous savons comment s’orientent les fourmis, nous allons
découvrir comment se gère le dépôt de phéromones. En effet, c’est en déposant
des phéromones qu’une fourmi augmente la probabilité de fréquentation du
chemin qu’elle utilise. Pour en revenir à notre petite énumération des différences
entre fourmi réelle et fourmi artificielle, nous allons découvrir simultanément
l’intéret de la mémoire de la fourmi artificielle ainsi que les diverses façons dont
elle dépose ses phéromones.
Grâce à sa mémoire, une fourmi peut construire une solution valable ré-
pondant à certains critères dépendant du problème étudié. De plus, une fois la
solution élaborée, elle peut l’évaluer dans sa totalité ! C’est grâce à ces capacités
de souvenir et d’évaluation qu’une fourmi peut procéder à différents types de
dépôts de phéromones :
– lorsqu’une fourmi dépose des phéromones tout au long de l’élaboration
de sa solution, on parlera de dépôt en ligne, pas-à-pas (online step by step) ;
– par contre, si une fourmi procède à un dépôt phéromonal à la fin de la
construction de sa solution, on parlera de dépôt en ligne, retardé (online
delayed).
De plus, la quantité de phéromone déposée sera directement proportionnelle
à la qualité de la solution (partielle) élaborée. Si cette solution est intéressante,
la fourmi déposera une grande quantité de phéromone afin de maximiser les
chances de passage par les autres fourmis.
Nous venons donc de découvrir que l’intensification d’une solution se fait
suite à la quantité phéromonale présente sur un chemin. Bien entendu, la va-
leur donnée à α reste prépondérante. Dans le cas ou celle-ci serait de 0, les
phéromones ne seraient tout simplement pas pirses en compte.
Il est par ailleurs intéressant de constater qu’une réduction néfaste de l’es-
pace de recherche aura lieu si la quantité phéromonale déposée est mal gérée.
Dans ce cas, on pourrait assister à l’émergence rapide d’un chemin minimal
qui engendrerait un état de stagnation de la recherche. En effet, ce chemin étant
utilisé par un nombre croissant de fourmis, la quantité phéromonale ne cesserait
d’augmenter et plus aucune exploration de l’espace n’aurait lieu.
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 37

Heureusement, une phéromone n’est pas éternelle ! En effet, dans la nature


tout comme dans la transposition informatique, les phéromones s’évaporent.
Nous introduisons donc un facteur de persistance qui sera appliqué à tout
dépôt phéromonal. En nottant par ρ le facteur de persistance, nous pouvons
dire que (1 − ρ) correspond à l’évaporation. Ainsi, un moyen de contrôle de la
convergence de l’algorithme nous est donné. Ce facteur de persistance évoque
d’une certaine manière la mémoire de la colonie. Pour faire la comparaison avec
les algorithmes génétiques, la persistance est à la phéromone ce que l’élitisme
était à la population.
Attention toute fois à ne pas se méprendre, l’exemple d’émergence rapide
d’un chemin minimal sera toujours possible ! La métaheuristique des colonies
de fourmis, comme bien d’autres, demande un temps considérable dans la
recherche d’une paramétrisation satisfaisante. Une solution intéressante à ce
problème consiste à modifier le paramètre α pour quelques tours, afin de relan-
cer l’exploration de l’espace. Un autre problème potentiel résolu par le facteur
de persistance est ce que l’on appelle en anglais le phénomène d’attrition. Ce
problème provient de l’accumulation de phéromones due à un tronçon partiel
commun dans plusieurs solutions différentes. Toutefois, il faut remarquer que
ce phénomène se produit plus facilement dans un espace bidimentionnel forte-
ment discrétisé que dans un espace tridimentionel tel que ceux dont nous avons
parlé ci-dessus.
Les cinq derniers paragraphes nous ont donc appris que chaque fourmi fait
un dépot de phéromone en fonction de la solution qu’elle a calculé et qu’un fac-
teur de persistance ρ permet de gérer l’évaporation des dépots de phéromones.
Il est donc intéressant de formaliser cela. Ainsi, en notant par ∆τkij (t, t + n) la
quantité de phéromone déposée par la fourmi k sur le chemin i j dans l’interalle
de temps (t, t + n) nous obtenons que :
m
X
τi j (t + n) = ρτi j (t) + ∆τkij (t, t + n)
k=1

où m représente le nombre total de fourmis, n est l’intervalle unitaire de temps


discret et τi j (t) est toujours la quantité de phéromone présente sur le chemin
reliant i à j. On peut traduire cette formule en disant que la quantité de phéro-
mones présentes sur le chemin i j à l’instant (t + n) est égale à la persistance de
la quantité de phéromone présente à l’instant précédent (t) à laquelle on ajoute
les nouveaux dépots de toute les fourmis ayant parcouru le chemin i j depuis
l’instant précédent (t).
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 38

Enfin, pour clôturer cette section, notons que lorsqu’une fourmi a procédé
à l’élaboration d’une solution ainsi qu’à la mise à jour phéromonale correspon-
dante, elle meurt. Cela nous permet de bien nous rendre compte de l’indépen-
dance des fourmis par rapport à la colonie. En effet, tout au long de sa vie,
la fourmi n’aura utilisé que les informations locales qui se trouvaient sur son
chemin, sans oublier la valeur heuristique.

Les particularités offertes par la colonie artificielle

Les avantages présentés par la métaheuristique des colonies de fourmis ne


s’arrêtent pas là ! En effet, en plus des améliorations effectuées sur les fourmis, il
est possible d’effectuer des actions centralisées qu’une fourmi réelle serait inca-
pable de réaliser. Par exemple, il est possible de procéder à un dépot phéromonal
supplémentaire pour certaines solutions jugées particulièrement intéressantes.
On parlera alors de dépôt hors-ligne (offline), ce qui correspond à une certaine
forme d’élitisme anticipatif.
Nous pouvons donc récapituler le fonctionnement d’une colonie de fourmi
par le pseudocode suivant :

while ( c r i t e r e de t e r m i n a i s o n non a t t e i n t ) {
planification {
fourmis_en_action ( ) ;
evaporation_des_pheromones ( ) ;
actions_generales ( ) ;
}
}

Il est important de remarquer que les opérations de planification ne sont pas


définies, ce qui permet une multitude d’implémentation de cette méthode [29].
De plus, la métaheuristique, de par son fonctionnement, permet des implémen-
tations faciles pour des systèmes informatiques en cluster [30, 29].
Enfin, notons que d’autres méthodes heuristiques basées sur des observa-
tions naturelles existent (comme par exemple les réseaux de neurones). Le lec-
teur intéressé sera certainement comblé par [22] qui propose un excellent tour
d’horison en la matière.
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 39

2.2.6 Méthodes hybrides


Il arrive fréquemment que des solutions hybrides soient apportées au pro-
blème d’exploration de l’espace. L’idée est de combiner deux méthodes com-
plémentaires : une de recherche globale et une de recherche locale. En effet, les
effets combinés obtenus par ce genre d’hybridation sont souvent encourageants.
A titre d’exemple, examinons l’hybridation d’un algoritme évolutionnaire
[31] avec, comme méthode de recherche locale la méthode Tabou (mais nous
aurions pu choisir n’importe quelle autre autre). Typiquement, la phase d’initia-
lisation de l’algorithme évolutionnaire sera modifiée en ce sens qu’une recherche
locale sera effectuée sur chaque individu de départ. Ensuite commencera seule-
ment la reherche proprement dite. De plus, plutôt que de procéder simplement
à un croisement lors du renouvellement de la population, une intensification
locale sera à nouveau effectuée sur les individus résultant du croisement.
Ces modifications permettent de concentrer la recherche globale autour de
solutions à priori locales. Bien entendu, tout autre mélange est possible. Il fau-
dra toutefois procéder à l’hybridation de manière intelligente afin de ne pas
engendrer de surcoût de calcul ni de dégradation de compromis entre explora-
tion et intensification. D’autres exemples d’hybridation existent en masse, [32]
propose par exemple l’hybridation d’un réseau de neurone (métaheuristique
non explorée dans le cadre de cet ouvrage) avec la recherche Tabou.

2.3 Les fonctions énergétiques


Quelle que soit la recherche effectuée in silico, un besoin commun est la fonc-
tion énergétique capable d’évaluer la correspondance qualitative et quantitative
entre une séquence d’acides aminés et une conformation spatiale donnée. En
effet, la performance atteinte par le matériel et la qualité des algorithmes utilisés
ne servent à rien sans une fonction d’évaluation pertinente.
Les fonctions énergétiques fournissent des résultats sur base de potentiels qui
sont représentatifs des interactions présentes au sein d’une structure tridimen-
sionnelle. Lorsqu’une interaction interne est native, son potentiel énergétique
sera faible. Bien entendu, le nombre de types d’interactions dans une protéine
est élevé, ce qui engendre une multitude de potentiels calculables.
A titre d’exemple, le potentiel d’hydrophobicité est calculé sur base des dif-
férences entre résidus hydrophobes et résidus hydrophiles et est totalement
indépendant de la conformation locale adoptée par la protéine. Son utilisation
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 40

influencera la prédiction vers un arrangement spécifique des résidus hydro-


phobes. Autre exemple, le potentiel de distance qui est calculé sur base de la
propension d’un couple de résidus distants dans la séquence, à être séparés dans
l’espace par une certaine distance.
Nous aurons l’occasion de revenir sur ces potentiels lors de l’explication
détaillée du calcul de l’énergie libre de nos prédictions.

2.4 L’évaluation des résultats d’une prédiction


Afin de développer des algorithmes toujours plus performant, de nombreux
tests sont effectués. Afin de procéder à ces mesures, il est fréquent de faire
de la prédiction de structure native sur des protéines dont on connaît déjà la
conformation d’énergie libre minimale. Pour procéder à l’évaluation, on effectue
généralement un calcul du RMSD (Root Mean square Deviation) entre la conforma-
tion native et celle obtenue par prédiction. Cette opération mesure simplement
les différences de position entre les atomes de Cα représentatifs du squelette des
structures comparées. Bien entendu, il serait tout à fait envisageable d’effectuer
un calcul RMSD sur chaque atome constituant la protéine. Notons également
qu’un calcul RMSD retourne le plus petit résultat possible. En effet, le calcul
s’effectue sur le meilleur alignement des deux structures comparées, ce qui a
pour effet d’en minimiser le résultat.
En notant par (xin , yin , zin ) les coordonnées de l’atome Cα du résidu i de la
structure native et par (xip , yip , zip ) les coordonnées de l’atome Cα du résidu n de
la structure prédite, le calcul du RMSD s’effectue en calculant :
t v 
 1 X r   
i i 2 i i 2 i i 2 
min  (xn − xp ) + (yn − yp ) + (zn − zp ) 

 r
i=1

où r est le nombres de résidus de la protéine.


Une seconde méthode d’évaluation serait de comparer les résultats énergé-
tiques obtenus entre diverses méthodes de prédiction. Malheureusement, l’im-
perfection des multiples fonctions énergétiques existantes nous oblige à regarder
ces résultats avec circonspection. Il n’est pas rare que l’évaluation énergétique
d’une structure native connue offre un score supérieur à celle d’une prédiction !
D’autres comparaisons peuvent avoir lieu entre la protéine à l’état natif et la
protéine prédite. Citons par exemple l’étude du pourcentage de contacts natifs,
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 41

c’est-à-dire de contact inter-résidus semblables entre la structure native connue


et la structure prédite.
Un autre facteur fréquemment évalué est celui du temps requis par une
prédiction. Au vu de la grande diversité de machines et de méthodes utilisées
dans ce domaine, il va de soi qu’une unité d’évaluation temporelle simple serait
un non sens. Il est donc fréquent d’utiliser comme source de prédiction une base
de données contenant des protéines-type présentant des propriétés particulières
(benchmarks). Ainsi, en spécifiant les caractéristiques de la machine utilisée, on
peut se faire une idée de la qualité de la méthode de prédiction utilisée.

2.5 Récapitulatif
La prédiction de la structure native d’une protéine a un intérêt scientifique
important. Outre le gain de temps et d’argent que procurent les méthodes in
silico, une multitude d’applications dérivées sont accessibles dès lors que la
struture native d’une protéine est connue. Pour effectuer une prédiction de la
structure native d’une protéine, certains outils sont indispensables, nous venons
d’en faire le tour.
Il est important de remarquer que quelles que soient les méthodes utilisées,
la situation initiale de la recherche a une grande importance. De plus, la qualité
des résultats obtenus est souvent suffisante pour des problèmes basiques mais
ce n’est pas toujours le cas lors de l’étude de problèmes plus importants. La
recherche du minimum global est un problème difficile pour lequel il n’existe
actuellement aucun algorithme efficace garantissant un résultat optimal.
Dans le chapitre suivant, nous présenterons la totalité des choix effectués
pour le développement de notre logiciel de prédiction de structure native de
protéine. Cela fait, nous nous lancerons dans la découverte de son fonctionne-
ment pour ensuite en révéler les résultats.
Chapitre 3

Nos outils et méthodes

Le problème de prédiction de la structure native d’une protéine est en fait un


problème d’optimisation combinatoire particulier. En effet, il existe de nombreux
problèmes de ce type. Chacun peut être défini par une paire (S, f ) où S représente
l’ensemble fini de toutes les solutions existantes et f est une fonction de type
f : S → R permettant d’évaluer la qualité d’une solution i particulière [22]. La
valeur optimale de f est :
f0 = min{ f (i) : i ∈ S}
et l’ensemble des solutions optimales est :

S0 = {i ∈ S : f (i) = f0 }

La résolution du problème se fait donc en trouvant certaine(s) solution(s) i0 ∈ S0 .


Afin de bien comprendre tout cela, transposons ces données mathématiques
au cas qui nous intéresse. Pour cela, rappelons que nous nous basons sur l’hy-
pothèse largement admise selon laquelle la structure native d’une protéine cor-
respond à son minimum d’énergie libre. Dans notre cas, S est l’espace conforma-
tionnel accessible et f sera la fonction énergétique utilisée. Si nous appliquons
ces formules à une protéine dont nous connaissons déjà la structure native (que
nous noterons n) on aura que f (n) = f0 . D’autre part, on sait que n ∈ S et donc
que n ∈ S0 car l’équation de S0 est bien vérifiée.
Ces problèmes d’optimisation combinatoire sont difficiles à résoudre car
pour la plupart, une exploration exhaustive des solutions possibles sera requise
afin de déterminer la ou les meilleures solutions. Pour les problèmes de grande
taille, une telle exploration n’est actuellement pas réalisable en un temps rai-
sonnable. Il n’existe donc pas de méthode déterministe garantissant un résultat

42
CHAPITRE 3. NOS OUTILS ET MÉTHODES 43

optimum. Ainsi, des métaheuristiques proposent des stratégies générales d’ex-


ploration de l’espace qui peuvent être appliquées à un problème particulier.
Dans notre cas, nous avons choisi de concevoir un algorithme de prédiction
de la structure native de protéines à partir de la métaheuristique des colonies
de fourmis que nous avons explorée dans le chapitre précédent. Ce chapitre-ci
propose donc de découvrir les divers choix que nous avons effectués quant aux
diverses exigences requises par la prédiction de structure native.

3.1 Modélisation de nos protéines


Nous avons opté pour une représentation atomique simplifiée des acides
aminés (cfr. figure 3.1). Ainsi, comme nous le voyions dans l’introduction, nous
ne prenons pas en compte la totalité de la chaîne latérale. Celle-ci sera simplifiée
au moyen des atomes Cβ et Cµ . Cette représentation offre l’avantage d’être assez
réaliste tout en ne demandant pas une quantité de calcul trop importante.

F. 3.1 – Représentation simplifiée d’un acide aminé, attention le cas particulier
de la Glycine verra ses atomes Cβ et Cµ se trouver au même endroit que l’atome
Cα .

Une protéine sera donc représentée par sa chaîne principale (son squelette),
ainsi que par les atomes Cbeta et Cµ de chaque résidu. Par ailleurs, nos protéines
évolueront dans l’espace (φ, ψ, ω), c’est-à-dire que les angles de rotation autour
des liaisons chimiques N − Cα et Cα − C ainsi que la liaison C − N entre un
résidu et son voisin, prendront respectivement les valeurs φ, ψ et ω. Rappelons-
nous également que l’angle ω résulte d’un lien peptidique particulier ayant un
caractère de double liaison, ce qui limite ses valeurs à 0◦ ou 180◦ . Le lecteur se
CHAPITRE 3. NOS OUTILS ET MÉTHODES 44

posant des questions sur les valeurs initiales des angles φ et ψ vera sa curiosité
assouvie en page 55.
Il nous faut encore préciser que les distances de liaison inter-atomique auront
des valeurs fixes variant en fonction des atomes liés. Cela n’entraîne aucune
surcharge de calcul mais nous permet d’approcher encore un peu mieux la
réalité. Enfin, dans notre cas de représentation simplifiée des acides aminés, les
angles de valences (cfr. figure 3.2 ) seront également fixés pour chaque atome.

F. 3.2 – Exemple d’angle de valence : en pointillé, l’angle de valence associé à


l’atome O.

On dira qu’une prédiction de protéine sera valable si elle ne contient pas de


clash stériques. Cette appellation dénote en fait une collision entre deux atomes.
En effet, il est tout a fait possible de prédire des protéines présentant une struc-
ture tridimensionnelle irréalisable dans la nature. Il devra donc être possible
d’évaluer la présence de telles collisions.
Dans notre modèle, nous veillerons à l’absence de collisions entre chaînes
latérales et donc uniquement entre les atomes Cµ . Pour effectuer ces vérifications,
un rayon atomique est fixé pour l’atome Cµ de chaque résidu, on l’appelle le
rayon de van der Waals [17]. En notant par rVDW(Cµ ) le rayon de Vanderwaals
de l’atome Cµ , on dira qu’il y a collision si

rVDW(C1µ ) + rVDW(C2µ )
· a > distanceSpatiale((C1µ ), (C2µ ))
2
où distanceSpatiale calcule la distance réelle séparant deux atomes et a représente
un facteur d’aération permettant donc d’éviter des prédictions trop compactes.
Il faudra donc évaluer l’absence de collision entre tous les atomes Cµ de la
protéine prédite afin que celle-ci soit réalisable et puisse participer à la recherche
CHAPITRE 3. NOS OUTILS ET MÉTHODES 45

de la structure native.

3.2 Discrétisation de notre espace de recherche


Comme notre protéine évolue dans l’espace (φ, ψ, ω), il va de soi que la dis-
crétisation de l’espace conformationnel passera par une limitation des valeurs
accessibles par chaque triplet angulaire. Au sein d’une protéine réelle, certaines
valeurs de (φ, ψ, ω) ne sont pas accessibles aux résidus car elles correspondraient
à des collisions atomiques. Il a été observé que l’ensemble des conformations
possibles pour chaque résidu peut être réduit à sept domaines dans l’espace
des triplets (φ, ψ, ω) [33] : A, C, B, P, G, E et O. La discrétisation de l’espace
conformationnel s’opère donc en dégageant un certain nombre de représen-
tants par domaine, calculés à partir de conformations natives réelles observées
expérimentalement.
Ces représentants peuvent être calculés par résidu car la conformation de
chacun d’entre eux est sensiblement différente dans la réalité. Néanmois, nous
avons initialement décidé d’utiliser des représentants généraux pouvant être ap-
pliqués sur n’importe quel résidu, cela facilitant les opérations à effectuer (nous
verrons plus loins que finalement, il eut été aisé de prendre des représentants
particuliers pour chaque résidu).
Dans le cas ou seulement un représentant est disponible, il n’y aura aucun
choix stochastique à effectuer. Par contre, dès que plusieurs représentants sont
accessibles, il faut permettre une sélection proche de la réalité. C’est pourquoi
en plus des trois données angulaires nécessaires, un représentant contient une
quatrième donnée : son nombre d’occurences. En effet, diverses conformations
sont observées dans la nature et certaines d’entre-elles sont plus fréquentes que
d’autres. Recherchant un maximum de réalité lors de la conception de notre
modèle, il nous a paru évident d’opérer un choix stochastique dépendant du
nombre d’occurence de chaque représentant.
Cela se fait simplement en associant à chaque triplet angulaire de chaque
domaine une probabilité d’apparition. Cette probabilité intra-domaine se cal-
cule simplement en divisant le nombre d’occurences du représentant considéré
par la somme du nombre d’occurences de chaque représentant. En effectuant
ce calcul sur chaque domaine, on obtient donc une discrétisation de l’espace
conformationnel accessible.
Il est important de remarquer que cette discrétisation s’opère par un système
CHAPITRE 3. NOS OUTILS ET MÉTHODES 46

de coordonnées interne à la protéine. Ainsi, la représentation tridimensionnelle


d’une prédiction s’obtiendra en traduisant les coordonnées (φ, ψ, ω) en coor-
données (x, y, z). Pour effectuer cette traduction, les données propres de chaque
atome seront nécessaires (angle de valence et distance inter-atomique).

3.3 Exploration de l’espace conformationnel


Comme nous l’écrivions en début de chapitre, nous avons opté pour une
méthode de recherche dérivée de la métaheuristique des colonies de fourmis.
Le chapitre précédent nous proposait un aperçu général du fonctionnement de
ces colonies, examinons donc ensemble les spécificités de fonctionnement de
notre colonie.
L’univers d’évolution de nos fourmis artificielles correspond concrètement
à l’espace conformationnel accessible par la protéine, celui-ci étant discrétisé
en sept domaines. La tâche de nos fourmis consistera donc à trouver une suite
de domaines offrant une structure tridimensionnelle minimisant la fonction
énergétique que nous découvrirons plus loin.
Afin de réaliser au mieux sa tâche, une fourmi opérera une suite de choix
probabilistes basés sur la quantité locale de phéromone τ ainsi que sur les valeurs
heuristiques disponibles η. Une question se pose ici : à quoi faire correspondre
cette valeur η ? L’idée est de trouver un indicateur permettant d’aider la fourmi
dans son choix. Il faudrait donc disposer d’une valeur indiquant un domaine de
conformation à priori favorable pour un résidu donné.
Heureusement, depuis quelques années, il existe à l’ULB certains projets
de recherche et de prédiction correspondant exactement à nos besoins. Ces
projets se nomment Prelude et Fugue [14, 34]. Ainsi, il est possible d’obtenir, pour
une séquence donnée, une séquence correspondante de domaines favorables
ainsi qu’un facteur exprimant la valeur de cette correspondance. Ce facteur
prend des valeurs entières comprises entre 0 et 9 et lorsqu’il vaut 0, c’est qu’il
n’y a pas de prédiction pour le résidu concerné (voir exemple ci-dessous). Il
est important de signaler que ces prédictions se basent exclusivement sur les
interactions locales le long de la séquence et ne prennent pas en compte les
interactions tertiaires ! La séquence de domaines fournie par ces programmes
ne constitue donc généralement pas une solution convenable pour la structure
tertiaire complète de la protéine mais elle est utile car elle permet de connaître
les préférences individuelles de petites portions de la séquence.
CHAPITRE 3. NOS OUTILS ET MÉTHODES 47

Séquence: QQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG
Domaine favorable: CPBBBBGGBPPBACPBAAxCGPBPGPBBBBBBAxxxx
Facteur de correspondance: 1145789996211222220467776412333320000
Grâce à ces projets, nous disposons donc d’un biais inter-domaines en plus
du biais intra-domaine (dû à la probabilité d’apparition de chaque représentant
d’un domaine). Fort de cet avantage, nous avons donc décidé d’utiliser comme
valeur heuristique pour un domaine, le facteur proposé par Prelude et Fugue,
quand il existe. Cela nous permet de procéder au calcul que nous proposait
l’équation du chapitre précédent :
[τi j (t)]α · [ηi j (t)]β
pi j = P
k∈V(i) [τik (t)] · [ηik (t)]β
α

où pi j représente donc la probabilité d’associer le domaine j au résidu i. Il sera


donc très important de paramétrer au mieux les facteurs α et β.
Maintenant que nous avons une stratégie de décision, il nous faut fixer les
caractéristiques du dépôt phéromonal de nos fourmis. Cela signifie qu’il nous
faut décider quand déposer des phéromones et en quelle quantité.
Avant d’expliquer nos choix, quelques définitions sont nécessaires. Appelons
itération une recherche complète effectuée par une fourmi, c’est-à-dire qu’après
une itération, une fourmi aura construit et évalué une prédiction complète et
mourra. De plus, nommons cycle un nombre m d’itérations où m représente le
nombre total de fourmis de la colonie. Ainsi, après un cycle, toutes les fourmis
auront procédé à l’élaboration et l’évaluation d’une prédiction complète. Le
nombre de cycles sera une variable à définir lors de l’exécution de l’algorithme.
Enfin, en se souvenant que nous travaillons dans un univers où le temps est
discrétisé, nous pouvons également dire qu’un cycle se passera en une unité
de temps. Cela signifie qu’un cycle commençant en (t) se terminera en (t + 1).
Revenons maintenant au dépôt de phéromones.
Nous avons décidé d’effectuer un dépôt offline dans le but de permettre à
chaque fourmi de disposer de la même base phéromonale lors d’un cycle de
recherche. En effet, le dépôt offline s’effectue après un cycle entier, ce qui permet
de ne pas modifier la situation initiale du cycle de recherche. Nous utilisons
donc les propriétés de la discrétisation du temps, nous permettant d’effectuer
une simulation d’activité simultanée de la colonie sans aucune interférence
inter-fourmi. Bien entendu, certaines structures de données seront nécessaires
à l’application de ce choix, nous aurons l’occasion de les découvrir au chapitre
suivant.
CHAPITRE 3. NOS OUTILS ET MÉTHODES 48

Outre ce dépôt phéromonal offline, nous avons également pensé à exécuter un


dépôt phéromonal élitiste, c’est-à-dire de déposer des phéromones supplémen-
taires pour les x meilleures conformations protéiques. Une fois de plus, x sera
un paramètre à définir, de même que le facteur d’élitisme spécifiant la quantité
de phéromone additionelle à déposer. Formellement, nous obtenons donc que :
m
X e
X
τi j (t + 1) = ρτi j (t) + ∆τkij (t, t + 1) + ∆τli j (t, t + 1)
k=1 l=1

où e est le nombre de fourmis élitistes et m le nombre total de fourmis. Nous


n’en avions pas encore parlé mais il est évident qu’un taux de persistance ρ sera
utilisé afin de permettre le renouvellement phéromonal et donc l’exporation de
l’espace conformationnel.
En résumé, notre prédiction se fera au moyen d’une colonie de fourmis
contenant un certain pourcentage de fourmis élitistes et procédant d’une part à
un dépôt phéromonal offline et d’autre part à un dépôt phéromonal élitiste. Les
particularités d’implémentations seront explorées au prochain chapitre.

3.4 Fonction énergétique utilisée


Dans le cadre de ce mémoire, nous utiliserons une classe de fonctions éner-
gétiques appelée potentiels statistiques. Ces potentiels sont dérivés de bases de
données de protéines dont les structures natives sont connues [35]. Dans notre
étude, nous avons décidé d’utiliser deux types de potentiels : les potentiels de
torsion entre petits éléments de structure et les potentiels de distance entre petits
éléments de séquence.

3.4.1 Les potentiels de torsion


Les potentiels de torsion décrivent exclusivement les interactions locales
le long de la chaîne principale et sont donc lié à la prédiction de structures
secondaires telles que des hélices-α. Chaque potentiel porte un nom différent où
s signifie résidu de la séquence et t signifie domaine de torsion. Ces potentiels
mesurent l’adéquation des données qui leurs sont fournies. Si cette adéquation
est bonne, l’énergie correspondante sera basse.
Par exemple, le potentiel st0 mesure l’adéquation entre la nature d’un résidu
donné et le domaine prédit pour ce résidu ou pour un résidu voisin. Prenons le
CHAPITRE 3. NOS OUTILS ET MÉTHODES 49

cas de l’acide aminé nommé alanine. S’il se trouve en position 5 dans la séquence
et qu’en position 7, le domaine prédit est P, alors l’énergie fournie par le potentiel
st0 vaudra 0.114887. Par contre si le domaine prédit avait été A, l’énergie aurait
été de -0.111486.
Il faudra donc effectuer ces calculs le long de toute la séquence de la protéine.
Toutefois, au vu du caractère local des potentiels de torsion, la fenêtre d’explo-
ration autour du résidu de base sera de 8 résidus dans la séquence. Dans le cas
du potentiel st0, on évaluera donc l’adéquation entre un résidu en position i
de la séquence et une prédiction de domaine en position j de la séquence, avec
−8 ≤ ( j − i) ≤ 8.
Les potentiels de torsion que nous utiliserons sont les suivants :
– st0, qui mesure l’adéquation entre le résidu positionné en i et le domaine
prédit en position j ;
– stt1, qui mesure l’adéquation entre le résidu positionné en i, le domaine
prédit en position j et le domaine prédit en position k ;
– tss1, qui mesure l’adéquation entre le domaine prédit en position i, le
résidu positionné en j et le résidu positionné en k ;
– tt0, qui mesure l’adéquation entre les domaines prédits en position i et j ;
– ttt1, qui mesure l’adéquation entre les domaines prédits en position i, j et
k.
Le lecteur attentif aura remarqué une redondance de calcul dans les potentiels tt0
et ttt1. En effet, pour le potentiel tt0 (mais cela est transposable pour le potentiel
ttt1), qu’on aie les domaines P et B respectivement en position 2 et 4 ou l’inverse
revient exactement au même calcul ! Ainsi, pour ces deux potentiels, le calcul ne
s’effectuera que sur une fenêtre positive, c’est-à-dire pour les 8 résidus voisins
de droite dans le sens de lecture de la séquence de la protéine. Il sera encore
temps de répartir ce potentiel énergétique intelligemment, nous y reviendrons
au chapitre suivant .

3.4.2 Les potentiels de distance


Nous le découvrions dans l’introduction, la création de la structure tertiaire
d’une protéine est principalement due aux interactions entre résidus distants
dans la séquence mais proches dans l’espace. Les potentiels de distance sont
donc un moyen de mesurer la contribution de telles interactions.
Dans ce cas-ci, il est tout à fait possible que des résidus espacés par plus de
8 autres résidus dans la séquence se retrouvent rapprochés dans l’espace. Nous
CHAPITRE 3. NOS OUTILS ET MÉTHODES 50

effectuerons donc ce calcul pour chaque résidu par rapport à toute la séquence à
l’exception de ses deux voisins directs dans la séquence, qui lui seront forcément
très proche dans l’espace. Par contre, si les résidus considérés sont distants dans
l’espace de plus de 8Å, on considèrera qu’il n’y a tout simplement aucune
interaction.
L’énergie calculée dépend donc de la nature des deux résidus ainsi que de
leur distance spatiale, mais aussi de leurs positions relatives dans la séquence.
Par exemple, si nous avons une alanine en position 5 et une proline en position 8,
l’énergie ne sera pas la même que pour une alanine en position 5 et une proline
en position 9 présentant la même distance spatiale.
Remarquons tout de même que lorsque les deux résidus considérés sont
éloignés de plus de 8 résidus dans la séquence, le potentiel calculera une valeur
énergétique dépendant uniquement du type de résidu considéré et de la distance
spatiale. La distance dans la séquence ne sera donc plus prise en compte. Par
exemple, admettons que le résidus 5 soit toujours une alanine et que les résidus 24
et 65 soient des leucine. Si l’on considère les résidus 8 et 24 spatialement distants
de 3Å et les résidus 8 et 65 également distants de 3Å, le potentiel énergétique
calculé sera le même.
Nous utiliserons deux potentiels de distance : ds0 et ds1. Le potentiel ds0
mesure l’adéquation entre la présence d’un résidu particulier en position i de la
séquence et un résidu quelconque en position j présentant une certaine distance
spatiale avec le résidu i. D’un autre côté, le potentiel ds1 effectue le même calcul
mais avec un résidu défini en position j.
Par exemple, prenons le cas où le résidu 5 est une alanine et le résidu 8 une
proline, ces deux résidus étant séparé par 4Å. Le potentiel ds1 calculerait une
valeur énergétique de 0.031414 et le potentiel ds0 une valeur énergétique de
0.397226. Si par contre le résidu 8 était une valine, la valeur prise par le potentiel
ds1 serait différente, mais pas celle prise par le potentiel ds0.
A nouveau, comme pour les potentiels tt0 et ttt1 remarquons que le potentiel
ds1 offre un certain niveau de redondance, ce qui permet de réduire les calculs.

3.4.3 Utilisation combinée des potentiels


Notre espoir est que l’utilisation combinée de ces deux types de potentiels
permette la prédiction de structures secondaires tout en prenant en compte les
interactions tertiaires. Ainsi, la protéine prédite devrait avoir un degré de simi-
litude plus important avec la structure tidimensionnelle réelle d’une protéine
CHAPITRE 3. NOS OUTILS ET MÉTHODES 51

que dans le cas ou seuls les potentiels de torsion seraient pris en compte.

3.5 Evaluation de nos solutions


Afin d’évaluer nos solutions, nous procéderons au calcul du RMSD (Root
Mean Square Deviation) sur les atomes Cα de nos protéines prédites. Pour rappel,
ce calcul permet de mesurer les différences de position entre deux structures
données. Nous procèderons donc à un jeu de test sur un fragment de protéine
dont la structure native est déjà connue.
Nous découvrirons également dans quelle mesure notre algorithme trouve
des conformations d’énergie libre minimale et profiterons de l’occasion pour
faire une comparaison entre les énergies obtenues et les RMSD correspondants.

3.6 Récapitulatif
Nous venons de découvrir l’ensemble des outils que nous utiliserons pour
procéder à la prédiction de la structure native de protéines. Dans le chapitre
suivant, nous allons découvrir les spécificités de l’algorithme que nous avons
développé avant d’en découvrir les tests et les résultats. Ce chapitre présentera
les diverses particularités d’implémentation des outils utilisés.
Chapitre 4

Notre algorithme : AC-ProPre

Dans ce chapitre, nous allons passer en revue les spécificités d’implémenta-


tion des outils découverts au chapitre précédent. Notre algorithme, AC-ProPre
(Ant Colony for Protein Prediction), ayant été réalisé en C++, nous structurerons
ce chapitre à l’image du code source, c’est-à-dire classe par classe. Nous com-
mencerons donc par explorer l’implémentation de la discrétisation de l’espace
conformationnel pour ensuite découvrir la manière dont les potentiels énergé-
tiques sont codés et utilisés. Enfin, nous nous pencherons sur la représentation
des protéines ainsi que sur les divers calculs nécessaires à l’élaboration de la
prédiction. Pour finir nous découvrirons évidemment la manière de fonctionner
de nos fourmis artificielles.

4.1 L’espace conformationnel


Le code source de cette section se trouve dans les fichiers domaine.h et do-
maine.cc. Comme nous l’avons maintes fois signalé, nous travaillons dans l’es-
pace (φ, ψ, ω) pouvant être représenté en sept domaines : A, C, B, P, G, E et O. Il
y aura donc une instance de la classe domaine pour chaque domaine utilisé.
Un domaine contient des représentants. Comme nous l’expliquions au cha-
pitre précédent, nous avons choisi de travailler avec des représentants communs,
c’est-à-dire appliquables à chaque résidu. Néanmoins, une amélioration relati-
vement simple à implémenter serait de considérer des représentants propres à
la nature du résidu, cela pourra être fait dans une version ultérieure de notre
algorithme.
Les représentants proviennent de fichiers source nommés cah_rama_141_x

52
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 53

où x représente le nombre de représentants effectifs par domaine. Il est donc


possible de travailler avec un nombre de représentants variable. Il est évident
qu’un nombre de représentants élevé permettra une prédiction plus proche de
la réalité.
Chaque représentant est caractérisé par un triplet angulaire et un nombre
d’occurences. C’est au moyen de ce nombre d’occurence que nous calculons la
probabilité de sélection d’un représentant particulier. Pour calculer cette proba-
bilité, il nous suffit de diviser le nombre d’occurences de chaque représentant
par le nombre d’occurences totale d’un domaine. Ainsi, nous obtenons un mo-
dèle probabiliste cohérent où la somme des probabilités d’apparition de chaque
représentant vaut 1.
Afin de permettre un choix aléatoire rapide pour la sélection de représen-
tants, nous construisons un vecteur d’intervalle de probabilité proportionnel à
la probabilité d’apparition de chaque représentant. Ainsi, à chaque fois qu’un
représentant devra être sélectionné, il suffira de tirer aléatoirement un nombre
entre 0 et 1 et de choisir le représentant dont l’intervalle contient ce nombre
aléatoire.
Nous voilà donc avec un espace conformationnel discrétisé. Pour obtenir un
représentant, il nous suffira d’appeler la fonction getRepresentant().

4.2 Les potentiels énergétiques


Chaque potentiel énergétique utilisé est fourni sur fichier texte. Sachant qu’il
existe vingt types d’acides aminés et sept domaines, ce n’est pas une surprise
d’apprendre que le fichier potentiel le plus lourd (tss1) fait 6,1 Mo. Au vu du
nombre d’accès nécessaires au calcul de l’énergie libre d’une conformation, il
est évident qu’il faut trouver un moyen de stockage en mémoire vive pour ces
données vitales.
Malheureusement, les potentiels sont tels qu’un gaspillage significatif de la
mémoire vive aurait lieu si nous utilisions simplement des matrices multidi-
mensionnelles pour le stockage de leurs données. De plus, chaque potentiel a
des caractéristiques propres qui empêchent la création d’une méthode générale
automatique de stockage et d’accès. Toutefois, un concept commun peut-être dé-
gagé : l’idée est de stocker les valeurs énergétiques d’un potentiel dans un simple
vecteur de données et de développer parallèllement une méthode d’accès à ce
vecteur basée sur les paramètres nécessaires au calcul du potentiel énergétique.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 54

Nous avons donc développé, pour chaque potentiel, un calcul de l’espace né-
cessaire pour le stockage des énergies ainsi que la méthode d’accès à cet espace.
Le problème était simple : trouver l’index dans le vecteur correspondant aux
paramètres de calcul du potentiel afin de retourner la bonne valeur énergétique.
Il était donc nécessaire d’attribuer à chaque domaine ainsi qu’à chaque acide
aminé un numéro d’identification unique.
Ainsi, afin d’éviter toute erreur de manipulation ou de conversion, les fonc-
tions communes ddTOint() et aaTOint() sont un point de passage obligé conver-
tissant un domaine (respectivement un acide aminé) en nombre entier. Il est
évident que ces nombres sont une suite croissante commencant à 0. Dans le cas
des potentiels de distances, une fonction similaire a été prévue afin de convertir
la distances spatiale entre deux résidus.
Par ailleurs, afin de généraliser l’utilisation de notre algorithme, nous avons
tenu compte de l’éventuelle modification de la taille de la fenêtre. Pour rappel,
cette fenêtre délimite l’espace possible entre deux positions de la séquence pour
le calcul d’un potentiel. Dans notre cas, comme présenté au chapitre précédent,
cette fenêtre vaut 8.
Finalement, nous avons obtenu des vecteurs de taille optimale par rapport
aux spécificités des fonctions potentiels et ce pour un coût de calcul supplémen-
taire négligeable. En effet, si nous avions travaillé avec des matrices multidi-
mensionnelles, le calcul d’index automatique aurait été comparable, mais nous
aurions gaspillé beaucoup d’espace mémoire.
Nous pouvons donc conclure en nous réjouissant de disposer de fonctions de
calcul de potentiel simples. Par exemple, un simple appel à la fonction getDs0()
avec les paramètres nécessaires nous retournera le potentiel énergétique associé.
Bien entendu, cet exemple se transpose à chaque potentiel utilisé.

4.3 La structure et les calculs effectués sur les pro-


téines
Maintenant que nous savons comment obtenir un représentant de domaine
ainsi qu’un potentiel énergétique, nous pouvons nous attaquer à la structure de
la protéine proprement dite.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 55

4.3.1 La structure protéique tridimensionnelle


Avant toute chose, il est important de faire une petite précision en ce qui
concerne les angles de torsion φ, ψ et ω. Comme nous le savons, ce sont eux qui
détermineront la conformation d’un résidu. Plus précisément, la conformation
du résidu sera calculée sur base de ces trois angles ! En effet, au repos, ces angles
de torsion ne sont pas nuls. C’est pourquoi nous avons besoin des données
primaires sur ces angles afin d’en calculer la valeur réelle.
Par exemple, considérons l’angle φ. La valeur prise par cet angle influe
directement sur la position des atomes C, Cβ et Cµ . Mais concrètement, l’angle φ
proposé par les représentants nous donne la valeur de l’angle de rotation pour
l’atome C. Il nous faudra donc ensuite mettre à jour les donnée des atomes Cβ et
Cµ . Cela se fait assez facilement grâce aux formules suivantes où TX0 représente
l’angle de torsion initial de l’atome X du résidu et TX représente son angle réel :

TC − TC0 = TCβ − TC0 β

et donc :
(TC − TC0 ) + TC0 β = TCβ
A partir de l’angle φ, qui n’est autre que l’angle de torsion réel de C, nous
obtenons donc un écart qu’il nous suffira d’ajouter à l’angle de torsion initial de
Cβ afin d’obtenir son angle de torsion réel .
En ce qui concerne l’atome Cµ , le calcul est comparable à cette différence
près que de par son statut particulier, le Cµ possède un angle de torsion différent
pour chaque résidu. C’est d’ailleurs le moment de rappeler l’exception du résidu
glycine qui n’a pas de chaîne latérale conséquente et pour lequel l’angle de
rotation du Cµ vaut forcément 0 !
En conclusion, certaines données extérieures seront nécessaires au calcul de
la structure tridimensionnelle de la protéine :
– les angles de valence et de torsion de tous les atomes de la chaîne princi-
pale ;
– les distances inter-atomiques de chaque atome de la caîne principale ;
– les données particulières concernant l’atome Cµ de chaque résidu.
Nous aurons également besoin du fameux rayon de van der Waals des atomes
Cµ afin de détecter la présence de collisions dans nos prédictions. Ces données
se trouvent dans les fichiers levitt.in pour le Cµ et dans donneeAtome.h pour les
autres atomes.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 56

Maintenant que ces subtilités sont acquises, nous pouvons examiner la re-
présentation de la structure d’une protéine utilisée par notre programme. Notre
idée générale était de permettre un accès direct et rapide aux divers éléments né-
cessaires à l’obtention d’une structure protéique particulière. Nous avons donc
stocké toutes ces informations dans des vecteurs similaires, basés sur le nombre
de résidus composant la protéine. Ainsi, avec un numéro d’index unique par
résidu, nous avons la possiblité d’accèder directement à l’information nous in-
téressant dans chaque structure de données concernant ce résidu.
Ces vecteurs nous permettent donc de retrouver instantanément et pour
chaque résidu, la nature du résidu, le domaine de conformation dans lequel il se
trouve, le représentant choisis dans ce domaine et les angles φ, ψ et ω proposé
par ce représentant. De plus, lorsque les calculs énergétiques et tridimensionnels
auront eu lieu, nous pourrons accéder à la valeur énergétique de la protéine
prédite ainsi qu’à sa structure tridimensionelle en coordonnées x, y et z. La
section suivante donnes quelques explications à propos de ces calculs.

4.3.2 Les méthodes de calcul


Afin de pouvoir procéder à la comparaison des diverses prédictions réalisées
par nos fourmis artificielles, il sera nécessaire de connaître la structure tridimen-
sionnelle prédite pour la protéine et l’énergie libre qui lui est associée. Il y aura
donc principalement deux calculs à effectuer :
1. la construction de la structure tridimensionnelle prédite pour la protéine ;
2. le calcul de l’énergie libre de cette conformation.
D’autres calculs tels que la distance spatiale séparant deux points ou la présence
de collisions inter-atomiques dans la séquence seront à effectuer mais de par
leur simplicité, nous ne nous y étendrons pas.

La construction de la structure tridimensionnelle

Le but du calcul est très simple : construire la structure tridimensionnelle de


la protéine à partir des angles φ, ψ et ω de chacun de ses résidus. Ce calcul s’ef-
fectue au moyen de matrices de rotation permettant de calculer les coordonnées
spatiales d’un point en fonction :
– des coordonnées du point le précédant ;
– de la distance séparant ces deux points ;
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 57

– de deux angles caractérisant les mouvements à effectuer (dans notre cas,


il s’agit des angles de torsion et de valence de l’atome considéré que nous
avons défini respectivement aux pages 11 et 44).
Dans notre cas, nous fixerons toujours les coordonnées spatiales du premier
atome du premier résidu à (0,0,0). De plus, nous supposerons que la structure
évolue sur l’axe des x pour le calcul du second point. Cette situation initiale
étant définie, la suite des calculs pourra se passer itérativement.
Il est intéressant de remarquer qu’une fois les calculs effectués pour un
atome, il est possible de dégager une matrice contenant toutes les informations
géométriques nécessaires concernant cet atome. En sauvegardant cette matrice,
il sera donc possible de recommencer le calcul à partir d’un certain point de la
structure, ce qui évitera de devoir recalculer toutes les coordonnées de tous les
atomes dans le cas où un résidu viendrait à changer de conformation.
Nous effectuerons donc une sauvegarde de cette matrice exclusivement pour
les atomes C de chaque résidu. En effet, lorsqu’un résidu change de conforma-
tion, c’est chacun de ses angles de torsion qui prend une nouvelle valeur. Il est
donc inutile de conserver les matrices internes d’un résidu.
Nous avons donc ajouté un vecteur supplémentaire dans la représentation
de nos protéines, permettant de recommencer une construction de structure
tridimentionnelle au départ d’un point particulier.
Cela sera particulièrement intéressant dans le cas où une collision inte-
ratomique sera découverte. En effet, lorsqu’une nouvelle conformation réaliste
sera trouvée pour ce résidu, la reconstruction tridimentionnelle pourra recom-
mencer non pas au début mais bien sur le résidu précédant directement celui
nouvellement modifié ! Le gain de temps sera donc significatif, d’autant plus
que l’espace mémoire supplémentaire requis par cette opération est minime !

Le calcul de l’énergie libre d’une conformation prédite

Ce calcul s’effectue sur base des valeurs retournées par les potentiels éner-
gétiques. Il nous faudra donc faire appel aux bonnes fonctions avec les bons
paramètres, ce qui est aisé vu la structure de stockage des données utilisée. Par
contre, un calcul mons évident est celui de la répartition des énergies. En effet,
lors du chapitre précédent, nous avons soulevé le point de la répartition des
énergies potentielles calculées lorsqu’un potentiel présente des redondances.
Pour reprendre l’exemple de la page 49 dans le cas du potentiel tt0 (mais cela est
transposable pour le potentiel ttt1), qu’on aie les domaines P et B respectivement
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 58

en position 2 et 4 ou l’inverse revient exactement au même calcul !


Dés lors, il suffira en fait de reporter ce potentiel sur chaque résidus concerné,
dans notre exemple les résius 2 et 4. Ce type de redondance se présente concrè-
tement pour les potentiels tt0, ttt1 et ds1. Toutefois, un autre type de répartition,
quelque peu plus subtil, doit également être effectué ! Pour bien comprendre ce
nouveau problème, quelques précisions sont nécessaires.
Lors de la prédiction de structure native de protéine, la séquence source est
bien évidemment une donnée immuable. Par contre, la prédiction de la confor-
mation adoptée par chaque résidu changera tout au long de la recherche. De
plus, pour définir si une conformation est intéressante ou non, nous procédons
à l’évaluation de celle-ci au travers des potentiels de torsion, entre-autres. Ces
potentiels expriment dans quelle mesure il est intéressant d’avoir une prédiction
de domaine particulière pour un résidu particulier.
Ainsi, lorsque nous procédons par exemple au calcul du potentiel st0 qui
mesure l’adéquation entre le résidu positionné en i et le domaine prédit pour
un résidu en position j, une question se pose : à quel résidu attribuer l’énergie
calculée ? C’est de cette question que provient le nouveau type de répartition
que nous venons de soulever. Toujours dans le cas du potentiel st0, l’énergie
sera attribuée au résidu de position j car c’est bien le domaine prédit qui doit
être évalué et non la nature du résidu en position i de la séquence, qui de toute
façon ne changera jamais. Le même raisonnement est applicable dans le cas des
potentiels stt1 et tss1.
Pour rappel, le potentiel stt1 mesure l’adéquation entre le résidu positionné
en i, le domaine prédit en position j et le domaine prédit en position k. L’énergie
calculée sera répartie sur les deux résidus j et k qui présente une prédiction
particulière. En ce qui concerne le potentiel tss1, qui mesure l’adéquation entre
le domaine prédit en position i, le résidu positionné en j et le résidu positionné
en k, l’entièreté de l’énergie calculée sera reportée sur le résidu positionné en i
dans la séquence.
Une dernière remarque concerne la valeur des énergies retournées par les
différents potentiels. En effet, certains retourneront facilement des valeurs for-
tement négative lors même que d’autres seront plus difficiles à minimiser. Nous
avons donc décidé de sous pondérer les valeurs retournées par les potentiels
tt0 et ttt1. En effet, ces derniers sont facilement minimisables et la valeur éner-
gétique qu’ils calculent pourrait être telle que l’impact des autres calculs de
potentiels pourrait être négligeable. Nous nous retrouverions donc dans le cas
d’une prédiction où seules les interactions locales seraient prise en compte, ce
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 59

que nous souhaitons éviter.

4.4 La colonie de fourmis


Nous voici arrivé à la classe maîtresse de notre algorithme : la colonie de
fourmis. C’est en effet ici que les différentes pièces du puzzle s’assemblent afin
de permettre la prédiction de la structure native de la protéine étudiée. Pour
commencer, examinons les paramètres requis par la colonie :
– le nombre d’itération maximale, critère de terminaison principal ;
– le nombre de fourmis qui participeront à la recherche ;
– le nombre de fourmis d’élite et le facteur d’élitisme indiquant le degré
d’élitisme souhaité ;
– les paramètres de calcul probabilistes fondamentaux α, β et ρ ;
– enfin, le nombre maximum d’itérations acceptées sans modification sub-
stancielle de la meilleure solution et une valeur quantitative représentant
cette amélioration minimale. Ces deux paramètres constituent un critère
de terminaison anticipée.
Le lecteur s’en sera certainement rendu compte, le nombre de paramètres at-
tendu est assez important. Par ailleurs, la question se pose de savoir quelle valeur
donner à chacun de ces paramètres. Nous voici donc confronté au problème de la
paramétrisation dont nous parlions au chapitre deux. Concrètement, il n’existe
aucune configuration prédéfine générale, il faut donc procéder à une multitudes
de tests pour espérer dégager un comportement particulier de l’algorithme en
fonction du problème à solutionner. Nous reviendrons sur ces tests au chapitre
suivant.
Examinons maintenant les structures de données internes. La mémoire de
la colonie, c’est à dire l’ensemble des phéromones déposées par toutes les four-
mis de la colonie, se trouve stockée sous forme de matrice tridimensionnelle que
nous appellerons matrice phéromonale globale. Ainsi, la mise à jour et l’évaporation
phéromonale peuvent s’effectuer assez simplement. Par ailleurs, l’intégralité de
l’espace matriciel est potentiellement utilisé : chaque résidu peut adopter une
conformation propre à un des 7 domaines et chaque domaine aura le même
nombre fixe de représentant. Nous obtenons donc une matrice de r ∗ 7 ∗ R où r
représente le nombre de résidus de la séquence et R donne le nombre de repré-
sentant par domaine. Parallèlement à cette matrice, nous avons stocké les valeurs
heuristiques dans un vecteur. Pour rappel, ces valeurs heuristiques permettront
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 60

aux fourmis de s’orienter préférablement vers un domaine en particulier.


Dès lors, au départ de ces deux sources de données, il nous est possible
de calculer la matrice de probabilité générale qui sera utilisée par les fourmi.
En effet, nous effectuerons ce calcul à chaque début de cycle (pour rappel, un
cycle est constitué de m itérations où m représente le nombre total de fourmi
de la colonie et où une itération consiste en la prédiction et l’évaluation d’une
conformation complète par une fourmi).
De plus, comme nous le disions précédament, nous avons décidé de procéder
à une mise à jour phéromonale offline. Nous auront donc besoin d’une matrice
de stockage temporaire afin de simuler la simultanéité de recherche des fourmis.
Ainsi, à la fin d’un cycle, nous disposerons d’une matrice contenant la totalité
des phéromones déposées pas nos fourmis.
Par ailleurs, afin de procéder à la mise à jour phéromonale élitiste, les
meilleurs solutions seront conservées jusqu’à la fin d’un cycle. Il sera ensuite
temps d’effectuer un dépôt phéromonal additionnel dans la matrice phéromo-
nale globale. Par la suite, seule la meilleure conformation prédite depuis la
genèse de la colonie sera conservée. Il y aura donc de nouvelles conformations
d’élite différentes à chaque fin de cycle.
A la fin de l’algorithme, la colonie renverra tout simplement la meilleure
conformation protéique prédite. Généralement, cette conformation sera aussi
écrite sur fichier PDB [8] afin de pouvoir procéder ensuite à une visualisation
de la protéine prédite. On pourra également, dans le cas où la structure native
de la protéine est connue, procéder à un calcul RMSD de la prédiction avec la
structure native réelle.
Les différentes étapes de notre algorithme sont schématisées à la figure 4.1.

4.5 Récapitulatif
Ce chapitre nous a permis de passer en revue les diverses spécificités de
notre algorithme. Ainsi, au fil des différents chapitres de cet ouvrage, nous
avons découvert toujours plus en profondeur l’application et le développement
de la métaheuristique des colonies de fourmis au problème de la prédiction ab
initio de la structure native d’une protéine.
Le chapitre suivant propose donc de découvrir quelques réultats obtenus
par AC-ProPre. Nous pourons ensuite tirer les conclusions de notre travail et
développer quelques perspectives de développement futur.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 61

F. 4.1 – AC-ProPre : déroulement schématique.


Chapitre 5

Tests et résultats

Afin d’évaluer les performances de notre algorithme, nous avons effectué


une batterie de tests sur les fragment 1 à 35 de la protéine 1UBQ, l’ubiquitine. La
structure native de cette protéine étant connue, il nous est possible de calculer
le RMSD entre notre prédiction et la conformation réelle des fragments 1 à 35
de l’ubiquitine.
Afin d’obtenir un maximum d’informations intéressantes, nous avons évi-
demment exécuté notre algorithme dans de multiples configurations paramé-
triques. Nous allons donc dans un premier temps découvrir ces configurations
pour ensuite en étudier les résultats.

5.1 Les configurations d’exécution de notre algorithme


Nous avons découvert au chapitre précédent que notre algorithme possède
beaucoup de paramètres pouvant chacun prendre de nombreuses valeurs dif-
férentes. Il a donc été nécessaire de faire quelques choix afin de procéder à nos
tests. Ainsi, nous avons décidé de dégager une douzaine de configurations para-
métriques statiques permettant de tester dynamiquement d’autres paramètres.
Le premier paramètre statique est α, indicateur de l’importance relative ac-
cordée aux phéromones locales lors de la prise de décision d’une fourmi. A
l’instar de quelques études paramétriques réalisées dans le cadre de l’applica-
tion de la métaheuristique de type colonie de fourmis (comme par exemple dans
[28]), ce paramètre sera toujours fixé à 1. Par contre, β, qui donne l’importance
relative de la valeur heuristique, variera entre 1, 2 et 5. D’un autre côté, nous
avons le facteur de persistance phéromonal, ρ, dont la valeur sera de 0,6 ou 0,8.

62
CHAPITRE 5. TESTS ET RÉSULTATS 63

Enfin, dans le but de tester l’impact des potentiels de distances sur la prédiction,
nous avons décidé de tantôt utiliser les potentiels ds0 et ds1, tantôt de ne pas le
faire.
Pratiquement, nous avons donc créé 12 fichiers exécutables différents pro-
posant une première configuration paramétrique statique définie. En effet, les
paramètres α, β et ρ seront invariable tout au long de l’exécution d’un des fi-
chiers exécutables, de même que les potentiels ds0 et ds1 seront ou non pris en
compte.
En ce qui concerne les autres paramètres, nous les avons fait varier dynami-
quement et de la même manière dans chaque exécutable. Ainsi :
– le nombre de fourmis varie de 50 à 500 par intervalle de 50 ;
– le nombre de fourmis d’élite prends les valeurs de 0.00%, 0.01%, 0.10% et
0.50% du nombre de fourmis de la colonie ;
– le facteur d’élitisme prends les valeurs de 2, 5 et 10 ;
– et le nombre d’itération est de 100, 200 ou 500.
De plus, nous avons fixé le nombre autorisé d’itérations sans modifications à
10% du nombre d’itérations total et à 0.10 l’amélioration énergétique minimale.
Au final, nous obtenons donc 360 configurations dynamiques différentes.
Dès lors, comme il y a 12 configurations statiques d’exécution, nous effectuerons
4320 prédictions. De plus, afin d’avoir un minimum d’aspect statistique pour
nos résultats, nous avons exécuté chaque configuration 5 fois. En résumé, nous
avons effectués 21600 exécutions de notre algorithme. Cela dit, découvrons-en
les résultats.

5.2 Résultats obtenus


5.2.1 Evaluation énergétique de notre algorithme
Le but à atteindre par notre algorithme est, rappelons le, la minimisation de
la fonction énergétique utlisée. Cela signifie donc que si la configuration prédite
présente une énergie libre minimale, l’objectif primaire sera atteint.
Nous avons donc établi des graphiques reprennant l’énergie libre moyenne
calculée dans une configurations algorithmique bien définie. En ne considérant
dans un premier temps que les configurations ne prenant pas en compte les po-
tentiels de distance, les graphiques de la figure 5.1 nous montrent très clairement
que l’énergie minimale est généralement trouvée avec un nombre important de
CHAPITRE 5. TESTS ET RÉSULTATS 64

fourmis. Malheureusement, aucun de ces graphiques ne fait ressortir de confi-


guration préférentielle. Notons toutefois que le nombre d’itérations influe de
manière générale sur la qualité des conformations prédites. En effet, il apparaît
visiblement que pour tout autre paramètre équivalent, la moyenne d’énergie est
plus basse quand le nombre d’itération est à 500.
Ces observations sont valables pour toutes les configurations algorithmiques
ne prenant pas en compte les potentiel de distance à l’exception toutefois de la
configuration (α = 1, β = 1, ρ = 0.6) (cfr. figure 5.2). En effet, dans ce cas-ci,
les courbes sont plutôt anarchiques et ne présentent aucune pente particulière.
Cela pourrait s’expliquer par un comportement exploratoire trop poussé. En
effet, dans cette configuration-ci, la valeur heuristique n’est pas mise en avant
(β = 1) et la persistence phéromonale est faible.
En ce qui concerne les prédictions effectuées avec la prise en compte des
potentiels de distance, un comportement similaire se dégage avec néanmoins
quelques nuances (cfr. figur 5.3). Premièrement, il est flagrant que l’énergie libre
globale moyenne des prédictions effectuées dans ce cas-ci sont toutes suppé-
rieures à celle calculée sans la prise en compte des potentiels de distance. Cela
s’explique simplement par le fait que les potentiels de distance prennent en
compte les distances spatiales et sont donc difficiles à minimiser.
A nouveau, certaines configurations (celles avec β = 1) présentent des
courbes plutôt anarchique (cfr. figure 5.4). A nouveau, cela s’explique par un
comportement probablement trop exploratoire.

5.2.2 Calcul du RMSD


En ce qui concerne l’évaluation par RMSD de nos prédictions, les résultats
ont fort probablement souffert suite au calcul de la moyenne des résultats d’une
configuration équivalente. En effet, lors des cinq exécutions à configuration
identique, l’écart entre le RMSD le plus petit et le RMSD le plus élevé était
généralement élevé. Ainsi, aucune moyenne intéressante ne ressort de notre
analyse. Par exemple, nous constatons que la figure 5.5 offre des RMSD moyen
compris entre 8Å et 16Å, ce qui est assez élevé.
Par ailleurs, on aurait pu s’attendre à ce que la prise en compte des potentiels
de distance améliore sensiblement le résultat du calcul RMSD. En effet, il serait
logique que de par la prise en compte des interactions spatiales, une structure
prédite présente plus de similitudes avec la structure réelle de la protéine étu-
diée. Malheureusement ce n’est pas du tout le cas, les courbes RMSD de toutes
CHAPITRE 5. TESTS ET RÉSULTATS 65

F. 5.1 – Graphiques de l’énergie moyenne des prédictions effectuées avec une
configuration de (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont pas pris en compte).
Les graphique allignés se passent à un nombre d’itérations équivalent et les
graphiques en colonne ont le même facteur d’élitisme. Les quatres courbes
représentent chacune un nombre de fourmis d’élite différent.
CHAPITRE 5. TESTS ET RÉSULTATS 66

F. 5.2 – Graphiques de l’énergie moyenne des prédictions effectuées avec une
configuration de (α = 1, β = 1, ρ = 0.6, ds0 et ds1 ne sont pas pris en compte). Dans
ce cas-ci, les diverses courbe montrent un comportement tout à fait disparate.
CHAPITRE 5. TESTS ET RÉSULTATS 67

F. 5.3 – Graphiques de l’énergie moyenne des prédictions effectuées avec


une configuration de (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sont pris en compte).
Les graphique allignés se passent à un nombre d’itérations équivalent et les
graphiques en colonne ont le même facteur d’élitisme. Les quatres courbes
représentent chacune un nombre de fourmis d’élite différent.
CHAPITRE 5. TESTS ET RÉSULTATS 68

F. 5.4 – Graphiques de l’énergie moyenne des prédictions effectuées avec une
configuration de (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sont pris en compte). Dans ce
cas-ci, les diverses courbe montrent un comportement tout à fait disparate.
CHAPITRE 5. TESTS ET RÉSULTATS 69

les configurations utilisées présentent la même allure que celle montrée en figure
5.5.
Par contre, l’observation des résultats obtenus individuellement montre que
59% des RMSD inférieurs à 6Å sont obtenus lors de la prise en considération des
potentiels de distance. Dès lors, au vu des résultats de cette section et de la section
précédente, il est légitime de se demander dans quelle mesure il ne faudrait pas
accorder un poids prépondérant aux potentiels de distance. En effet, il se pourrait
que dans notre algorithme, les valeurs énergétiques calculées par les potentiels
de distance n’aient qu’une toute petite influence sur l’énergie libre globale de la
protéine. Rappelons nous d’ailleurs que l’impact des potentiels de tortions tt0
et ttt1 est volontairement déiminué dans notre algorithme, afin justement de ne
pas favoriser les interactions locales au détriment des interactions spatiales !
Pour conclure cette section, il est tout de même important de relever le
meilleur RMSD calculé sur une de nos prédiction. En effet, nous avons obtenus
une conformation protéique présentant un RMSD de 3,52Å avec la structure
native correspondante, ce qui est assez encourageant ! A titre comparatif, [18]
obtient, pour le même fragment de protéine, un RMSD minimal de 3,1Å. Bien
entendus, les outlis et méthodes utilisés sont différents mais le résultat est là.

5.2.3 RMSD Vs énergie libre


Une question intéressante serait de se demander quelle est la correspondance
entre les meilleurs RMSD et les meilleurs énergies libre. Cette question permet
en fait d’évaluer la qualité des fonctions énergétiques utilisées. En effet, dans
le cas ou ces fonctions sont parfaites, obtenir une structure d’énergie minimale
garantirait un RMSD faible.
Les schémas ci-dessous (cfr. figure 5.6) nous montrent ce que donne une
telle comparaison. Le premier reprend l’intégralité des résultats obtenus pour
les 10800 exécutions ne prenant pas en compte les potentiels de distance. Néan-
moins, le schéma correspondant dans le cas où ces potentiels serait actifs et tout
à fait semblable.
Afin d’y voir plus clair, nous avons isolé les RMSD inférieurs à 7Å ce qui
donne le schéma de la figure 5.6(b). Nous constatons donc que pour une même
énergie libre, les RMSD peuvent être différent ! Cela montre clairement l’imper-
fection des fonctions énergétiques utilisées ainsi que l’impact de la limitation de
notre algorithme à 8 potentiels de deux types différents. En effet, d’autres types
de potentiels existent et pourraient peut-être améliorer ces résultats.
CHAPITRE 5. TESTS ET RÉSULTATS 70

F. 5.5 – Graphiques du RMSD moyen des prédictions effectuées avec une
configuration de (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris en compte). L’allure
de ces courbes n’évoque rien de particulier.
CHAPITRE 5. TESTS ET RÉSULTATS 71

Les observations effectuées ci-dessus nous permettent par contre de mieux


comprendre la diversité des résultats RMSD et donc les valeurs moyennes éle-
vées obtenue pour ces résultats. A nouveau, la question d’une pondération
particulière accordée à certains potentiel peut être soulevée.

F. 5.6 – Graphiques de comparaison entre le RMSD et l’énergie libre d’une


conformation prédite : (a) prise en compte de toute les prédictions effectuées
sans considération des potentiels de distance, (b) limitation aux prédictions
présentant un RMSD inférieur à 7Å.

A titre quantitatif, voici les cinq meilleurs scores énergétiques et leurs RMSD
associé dans le cas où les potentiels de torsions ne sont pas pris en compte :
Energie libre RMSD
-34,8138 11,5475
-34,5582 15,9341
-34,3296 15,2262
-33,8029 10,0224
-33,6585 15,58
et le meilleur RMSD (3,9989Å) possède un score énergétique de -20,5775 !
En considérant les potentiels de distances nous obtenons le tableau suivant :
CHAPITRE 5. TESTS ET RÉSULTATS 72

Energie libre RMSD


-26,0189 9,9723
-25,5462 9,6658
-24,7493 14,4044
-24,0495 14,8154
-23,8619 13,8676
et le meilleur RMSD (3,5222Å) possède un score énergétique de -10,6868 !

5.3 Notre meilleure prédiction : une RMSD de 3,5222Å


Pour terminer en beauté, découvrons les étapes intermédiaires de notre
meilleure prédiction. Le tableaux ci-dessous reprends l’évolution de notre pré-
diction en ce qui concerne les RMSD et le score énergétique. Notons que nous
avons pu procéder à la réexécution de cette simulation grâce à la sauvegarde du
numéro aléatoire généré par une fonction interne au angage C++. La prédiction
a donc fourni les résultats suivants :
Cycle Energie libre RMSD
1 29,182 9,51864
11 7,71167 10,5208
21 3,49845 9,18431
31 3,49845 9,18431
41 -9,41256 10,4728
51 -9,41256 10,4728
61 -9,41256 10,4728
71 -9,41256 10,4728
81 -9,41256 10,4728
91 -10,6507 5,55853
101 -10,6507 5,55853
111 -10,6507 5,55853
121 -10,6507 5,55853
131 -10,6868 3,52219
140 -10,6868 3,52219
Pour remettre cette prédiction dans son contexte, signalons qu’elle a été obtenue
par une colonie de 100 fourmis dont la moité étaient des fourmis d’élite. Le
facteur d’élitisme était de 5, ce qui implique une sérieuse prise en compte des
CHAPITRE 5. TESTS ET RÉSULTATS 73

meilleurs résultat de chaque cycle ! En ce qui concerne les autres paramètre, α


et β étaient à 1, ρ à 0,6. Enfin, le nombre d’itération maximal était fixé à 500.
En image, la figure 5.7 nous montre la prédiction effectuée par AC-ProPre
et la figure 5.8 la structure native réelle de l’ubiquitine (résidu 1-35). Enfin, la
figure 5.9 nous montre ce que donne la meilleure superposition de ces deux
conformations tridimentionnelles.

F. 5.7 – Représentation de la structure tertiaire de la prédiction effectuée par


AC-ProPre.
CHAPITRE 5. TESTS ET RÉSULTATS 74

F. 5.8 – Représentation de la structure tertiaire de l’ubiquitine (résidu 1-35).


CHAPITRE 5. TESTS ET RÉSULTATS 75

F. 5.9 – Supperposition de la conformation simulée par AC-ProPre avec la


conformation native connue.
Conclusion

De nombreuses méthodes de prédiction de la structure native d’une protéine


existent à ce jour. Parmi elles, la métaheuristique d’optimisation par colonie de
fourmis propose un moyen particulier pour résoudre ce problème. Basé sur la
communication indirecte entre les agents de recheche (les fourmis artificielles),
cette méthode a déjà connu diverses implémentations, les plus fréquentes ayant
été réalisées sur un modèle réseau utilisant comme représentation de la protéine
le modèle HP [16, 36].
Cet ouvrage a présenté une nouvelle implémentation de cette métaheuris-
tique faisant usage d’un modèle hors réseaux et d’une représentation détaillée
de la protéines et des acides aminés la composant. Le but recherché était d’ap-
pliquer une méthode de recherche performante sur une modélisation fine du
problème.
Malgrés ses nombreux avantages, la métaheuristique d’optimisation par co-
lonie de fourmi nécessite un temps considérable en tests afin d’en déterminer la
configuration paramétrique. Nous avons donc effectué quelques choix afin de
procéder à des test qui nous semblaient intéressants. Les résultats de ces tests
sont extrèmement encourageant pour un premier essai. En effet, des prédictions
tout à fait valables ont eu lieu.
Malheureusement, nous n’imaginions pas l’étendue des tests faisables ainsi
que l’influence des méthodes statistiques sur les résultats obtenus. Ainsi, de
nomreux essais et expériences sont encore à faire. Une perspective intéressante
serait de permettre l’autoadaptativité de nos paramètres. Cette méthode propose
de faire de la configuration paramétrique une série de variable directement
modifiable par l’algorithme en cours, en fonction des résultats obtenus.
Une autre idée serait de procéder à la paramétrisation de l’algorithme sur
base des résultats fournis par le calcul RMSD. Bien entendu, cela ne sera faisable
que dans le cas d’une protéine dont la structure native est connue. Une fois
que des paramètres satisfaisants auront été dégagé, les performances atteintes

76
Conclusion 77

pour une protéine du même ordre de grandeur que celle ayant servi à la pa-
ramétrisation seraient probablement élevées. Il sera ainsi intéressant d’étudier
le comportement de AC-ProPre dans le cas de protéines plus importantes ou
présentant des caractéristiques particulières.
Il serait également possible de modifier le fonctionement de notre algorithme
en faisant des choix stratégiques différents. En effet, il est certain que le compor-
tement des fourmis sera modifié en fonction de la stratégie de dépôt phéromonal
utilisée. De plus, le calcul de la valeur heuristique pourrait se baser sur d’autres
données permettant ainsi une exploration différente de l’espace conformation-
nel.
Un dernier point intéressant serait d’utiliser ce genre de méthode pour dé-
terminer la robustesse des fonctions énergétiques. En effet, comme nous le dé-
couvrions dans le chapitre précédent, une fonction énergétique idéale devrait
permettre d’obtenir, en fonction de sa minimisation, un RMSD également mini-
mal.
Notre travail constite donc une première étape fortement intéressante dans
l’implémentation de métaheuristiques de recherche utilisant une représentation
détaille de la protéine ainsi que de l’espace conformationnel dans lequel elle
évolue.
Bibliographie

[1] T.E. Creighton. Proteins : structure and molecular properties. W.H. Freeman
and Company, New York, 1993.
[2] J-PA. Kocher, MJ. Rooman, and SJ. Wodack. Factors influencing the ability of
knowledge-based potentials to identify native sequence-structure matches.
J. Mol. Biol., 234 :1598–1613, 1994.
[3] C. Levinthal. Mossbauer spectroscopy in biological systems. In How to fold
graciously, pages 22–24. Debrunner, P. and Tsibris J. and Munk, E. editors,
1969.
[4] Nora Benhabilès, Annick Thomas, and Robert Brasseur. Les méchanismes
de repliements des protéines solubles. Biotechnol. Agron. Soc. Environ.,
4(2) :71–81, March 2000.
[5] J.N. Onuchic, H. Nymeyer, A.E. Garcia, J. Chahine, and N.D. Socci. The
energy landscape theory of protein folding : insights into folding mecha-
nisms and scenarios. Advances in protein Chemistry, 53 :87–152, 2000.
[6] HS. Chan and KA. Dill. Protein folding in the landscape perspective :
chevron plots and non-arrhenius kinetics. Proteins : Struct. Funct. Genet.,
30 :2–33, 1998.
[7] HS. Chan and KA. Dill. From levinthal to pathways to tunnels. Nat. Stru.
Biol., 4 :1O–19, 1997.
[8] H.M. Berman, J. Westbrook, Z. Freng, G Gililand, H. Bhat, T.N. ans Weissig,
I.N. Shindyalov, and P.E. Bourne. The protein data bank. Nucleic Acids
Research, 28 :235–242, 2000.
[9] G. Wagner, S.G. Hyberts, and T.F. Havel. Nmr structure determination in
solution :a critique and comparison with x-ray crystallography. Annual
Review of Biophysics and Biomolecular Structure, 21 :167–198, 1992.

78
BIBLIOGRAPHIE 79

[10] G. Wider. Structure determination of biological macromolecules in solution


using nuclear magnetic resonance spectroscopy. Biotechniques, 29 :1278–
1290, 2000.
[11] J. Kubelka, J. Hofrichter, and WA. Easton. The protein folding speed limit.
Current Opinion in Structural Biology, 14 :76–88, 2004.
[12] AC. May and TL. Blundell. Automated comparative modelling of protein
structures. Current Opinion in Biotechnology, 5 :355–360, 1994.
[13] A. Godzik. Fold recognition methods. Methods in Biochemical Analysis,
44 :525–546, 2003.
[14] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Prediction of protein back-
bone conformation based on 7 structure assignments : influence of local
interaction. J. Mol. Biol., 221 :961–979, 1991.
[15] L. Holm and C. Sander. Dali/fssp classification of three-dimensional protein
folds. Nucleic Acids Res., 25(1) :231–234, 1997.
[16] KA. Dill, S. Bornberg, K. Yue, Y. Fiebig, D. Yee, P. Thomas, and H. Chan.
Principles of protein folding - a perspective from simple exact models.
Protein Science, 4 :561–602, 1995.
[17] M. Levitt. A simplified representation of protein conformation for rapid
simulation of protein folding. J MOL Biol, 104 :59–107, 1976.
[18] D. Gilis and M. Rooman. Identification and ab initio simlations of early
folding units in protins. Proteins : Struct. Funct. Genet., 42 :164–176, 2001.
[19] N. Metropolis, AW. Rosenbluth, MN. Rosenbluth, and AH. Teller. Equation
of state calculation by fast computing machines. J. Chem. Phys., 21 :21087–
1092, 1953.
[20] S. Kirkpatrick, CD. Jr Gelatt, and MP. Vecchi. Optimization by simulated
annealing. Science, 220 :671–680, 1983.
[21] V. Granville, M. Krivanek, and J.P. Rasson. Simlated annealing : A proof of
convergence. IEEE Transactions on Pattern Analysis and Machine Intelligence,
16(6) :652–656, 1994.
[22] A. Colorni, M. Dorigo, F. Maffioli, V. Maniezzo, G. Righini, and M. Trubian.
Heuristics from nature for hard combinatorial optimization problems. In-
ternational Transaction in Operational Research, 3(2) :1–21, 1996.
[23] Glover F. Tabu search : a tutorial. Special Issue on the practice of Mathematical
Programming - Interfaces, 20(1) :74–94, 1990.
BIBLIOGRAPHIE 80

[24] DE. Goldberg. Genetic Algorithms in Search, Optimization, and Machine Lear-
ning. Addison Wesley, 1989.
[25] S. Ben Hamida. Algorithmes évolutionnaires : prise en compte des contraintes et
applications réelles. Paris-Sud XI, 2001.
[26] JL. Deneubourg, JM. Pasteels, and Verhaeghe JC. Probabilistic behaviour in
ants : a strategy of errors ? Journal of Theoretical Biology, 105 :259–271, 1983.
[27] A. Colorni, M. Dorigo, and V. Maniezzo. Distributed optimization by ant
colonies. In Proceedings of European Conference on Artificial Life, pages 134–
142, 1991.
[28] A. Colorni, M. Dorigo, and V. Maniezzo. An investigation of some proper-
ties of an ant algorithm. In Proceedings of the Parallel Problem Solving from
Nature Conference, pages 509–520, 1992.
[29] M. Dorigo, G. Di Caro, and LM. Gambardella. Ant algorithms for discrete
optimization. Artificial Life, 5(3) :137–172, 1999.
[30] M. Dorigo. Parallel ant system : An experimental study. Unpublished ma-
nuscript, 1993.
[31] MG. Norman and P. Moscato. A competitive-cooperative approach to com-
plex combinatorial search. In Proceedings of the 20th Joint Conference on
Information and O.R., pages 315–329, 1991.
[32] D. Beyer and R. Ogier. Tabu learning : a neural network search method for
solving nonconvex optimization problem. In Proceedings of the International
Joint Conference on Neural Network, 1991.
[33] G. Ramachandran and V. Sasilekharan. Conformation of peptides and
proteins. Adv. Protein Chem., 23 :283–438, 1968.
[34] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Extracting information on fol-
ding from the amino acid sequence : accurate prediction for protein regions
with preferred conformation in the abscence of tertiary interactions. Bio-
chemistry, 31 :10226–10238, 1992.
[35] Y. Dehouck, D. Gilis, and M. Rooman. A new generation of statistical
potentials for proteins. Biophys J., 90(11) :4010–4017, June 2006.
[36] A. Shmygelska and HH. Hoos. An ant colony optimisation algorithme for
the 2d and 3d hydrophobic polar protein folding problem. BMC Bioinfor-
matics, 6 :30–51, 2005.
[37] K. Braden. A simple approach to protein structure prediction using genetic
algorithms. Stanford University, CS 426 :36–44, 2002.