Académique Documents
Professionnel Documents
Culture Documents
Chapitre 7
Conclusion générale
L’évolution a sans doute quelque peu facilité la tâche aux scientifiques en concevant
des protéines qui, pour la plupart, se reploient en une structure tertiaire unique
correspondant au minimum global d’énergie libre (situé au fond d’un paysage énergétique
en forme d’entonnoir), et sont fort tolérantes envers les mutations de leur séquences.
L’élucidation des mécanismes qui lient la séquence d’une protéine à sa structure tri-
dimensionnelle et à sa fonction biologique reste pourtant un problème complexe dont la
solution ultime est encore fort éloignée, malgré les multitudes de travaux dévoués à cette
question.
Un aspect crucial du développement de méthodes destinées à l’étude in silico des
protéines concerne la mise au point de fonctions énergétiques permettant d’évaluer
l’adéquation entre une séquence et une structure données. Ces fonctions doivent être suf-
fisamment précises pour reproduire la délicate balance entre d’importantes contributions
enthalpiques (résultant des nombreuses interactions non-covalentes établies et brisées
lors du reploiement ou de structurations alternatives) et entropiques (liées au nombre
considérable de conformations accessibles aux protéines ainsi qu’à l’organisation des
molécules d’eau avoisinantes). Elle doivent également être suffisamment simplifiées pour
permettre la réalisation de simulations et/ou de prédictions en un temps raisonnable.
Malgré qu’ils ne constituent certainement pas une réponse parfaite à ces deux
exigences contradictoires, les potentiels statistiques, dérivés des fréquences d’observation
de petits éléments de séquence et de structure dans des bases de données de structures
protéiques, ont prouvé leur efficacité dans de nombreuses applications liées à l’étude in
silico des protéines. Au cours du Chapitre 2, nous avons cherché à clarifier les fondements
théoriques de la dérivation de ces potentiels et à mettre en évidence les limitations
résultant des diverses hypothèses qui doivent être posées. Nous avons vu que la nature de
ces hypothèses et de leurs impacts sur les fonctions énergétiques mises au point est parfois
assez floue. Il est donc crucial d’approfondir ces aspects de la dérivation des potentiels
de force moyenne, afin d’apporter quelques réponses aux questions légitimes qui peuvent
se poser quant à leur signification physique, mais aussi d’améliorer les performances
obtenues avec de tels potentiels.
C’est dans cet état d’esprit que nous avons abordé, au Chapitre 3, l’analyse de
l’influence de la taille des protéines incluses dans la base de données sur les potentiels qui
en sont dérivés. Plusieurs travaux antérieurs ont évoqué ce sujet, mais leurs conclusions
sont fort contradictoires. Nous avons profité de l’augmentation du nombre de structures
protéiques disponibles pour entreprendre une étude plus détaillée de ce problème. En
214
CHAPITRE 7. CONCLUSION GÉNÉRALE 215
pratique, nous avons défini six bases de données comprenant des protéines de tailles
différentes et dérivé un potentiel de distance à partir de chacune d’entre elles. Ceci
nous a permis de mettre en évidence une dépendance générale des potentiels en la
taille des protéines qui, en moyenne, consiste en une diminution des valeurs absolues
des énergies calculées lorsque la taille de protéines augmente. Outre cette dépendance
générale, il est apparu que l’influence de la taille des protéines se fait également sentir de
manière spécifique à chaque paire d’acides aminés. La répartition inhomogène des résidus
hydrophobes et hydrophiles entre le coeur et la surface des protéines, et le fait que le
rapport surface/volume est plus faible dans de grandes protéines, semblent avoir une
importance prédominante à ce niveau. Nous avons également étudié le comportement
à longue distance des potentiels de distance en fonction de la taille des protéines dont
ils sont dérivés, et mis en évidence un accord qualitatif assez remarquable avec des
travaux théoriques antérieurs concernant les potentiels de force moyenne dans le cadre
de systèmes nettement plus simples que les protéines. Bien que cet accord n’ait a priori
pas d’implications pratiques majeures, il renforce néanmoins la confiance que l’on peut
avoir dans l’adaptation du formalisme issu de systèmes simples au cas des protéines.
Finalement, sur la base de ces divers résultats, nous avons défini des fonctions correctives
qui permettent de prendre en compte la taille des protéines lors de la dérivation
des potentiels, et montré que l’utilisation de ces fonctions correctives résulte en une
amélioration notable de leur pouvoir prédictif.
Le Chapitre 4 décrit la mise au point d’une procédure générale de dérivation
de fonctions énergétiques statistiques basées simultanément sur plusieurs descripteurs
conformationnels. Cette procédure repose sur la décomposition de la fonction énergétique
en une somme de potentiels de base et de termes de couplage. L’avantage de notre
démarche est double. D’une part, la prise en compte simultanée de plusieurs descripteurs
conformationnels permet de gérer efficacement l’interdépendance de ces différents aspects
d’une même structure, et de disposer de potentiels plus spécifiques, qui tiennent compte
des différences d’environnement que peut ressentir un résidu particulier (selon qu’il soit
localisé en surface ou dans le coeur de la protéine, dans une hélice α ou un feuillet
β, . . .). D’autre part, le problème de la taille limitée de la base de données, qui empêche
le calcul d’énergies effectives représentatives pour toutes les combinaisons possibles des
descripteurs de séquence et de structure, est résolu grâce à la décomposition en potentiels
de base et en termes de couplage et à l’application d’une correction individuelle sur
chacun de ces termes. En conséquence, lorsque le nombre d’observations dans la base
de données est suffisant, la fonction énergétique prend en compte les couplages entre
les différents descripteurs. Si ce n’est pas le cas, elle se limite automatiquement aux
contributions plus basiques. La fonction énergétique que nous avons mise au point tient
compte des corrélations existant entre la nature, la conformation et l’accessibilité au
solvant des résidus, en fonction de leur séparation dans l’espace et dans la séquence. Nous
avons montré, à l’aide de plusieurs mesures relevées dans différents ensembles de leurres,
que les performances obtenues sont nettement supérieures à celles des potentiels basiques
communément utilisés ainsi qu’à celles d’autres potentiels décrits dans la littérature (à
un niveau de détail équivalent du point de vue de la représentation des structures).
Nos travaux sur l’influence de la taille des protéines et sur la mise au point de termes
de couplage devrait permettre d’améliorer sensiblement les performances de programmes
destinés à l’étude in silico des protéines, tels que Fugue ou PoPMuSiC (Annexes C et
CHAPITRE 7. CONCLUSION GÉNÉRALE 216