Vous êtes sur la page 1sur 46

Dveloppement dun algorithme doptimisation du placement des chanes latrales dans les protines

Mmoire prsent en vue de lobtention du diplme de Master dingnieur civil en chimie et science des matriaux

Youssef Bouysran

Directeur Pr Marianne Rooman Co-promoteurs Pr Dimitri Gilis et Pr Jean Cardinal Service Biomodlisation, bioinformatique et bioprocds Anne acadmique 2011-2012

Rsum
La dtermination exprimentale de la structure des protines est coteux. Cest pourquoi la prdiction de structure des protines ou le placement des chanes latrales dans les protines est un sujet de recherche phare en bioinformatique. Il existe plusieurs mthodes de placement des chanes latrales bases sur une reprsentation tous atomes de la chanes latrales et leur ecacit est prouve. Nous proposons une mthode de placement des chanes latrales o les chanes latrales sont repsentes par des pseudo-atomes. Si une telle mthode permet dobtenir une prdiction sans perte eective de prcision, nous pourrions inclure la exibilit de la chane principale dans le problme de prdiction. Cela permet de tenir compte des modications conformationnelles de la chane principale induites par une mutation. Les mthodes tous atomes ne le font pas parce que cest une opration coteuse en temps de calcul pour ce type de reprsentation. Lintrt dutiliser une reprsentation simplie est donc justi. Dans ce travail, nous prsentons notre mthode de placement de chanes latrales dans les protines. Ses performances face une mthode base sur une reprsentation tous atomes est value. La perte de prcision est de lordre de 10% en considrant comme critre la distance RMS entre la structure de la protine prdite et la structure exprimentale du sujet. Cela ouvre sans doute la voie des perspectives dans le traitement de problmes utilisant une reprsentation plus ou moins simplie des chanes latrales des protines.

Table des matires


Rsum Table des matires Liste des gures Liste des tableaux 1 Introduction 1.1 La protine . . . . . . . . . . . . . . 1.1.1 Description gnrale . . . . . 1.1.2 Structure . . . . . . . . . . . 1.1.3 Chane latrale . . . . . . . . 1.2 Aspects bioinformatiques . . . . . . 1.2.1 Reprsentation de la protine 1.2.2 Fonctions dnergie . . . . . . 1.2.3 Prdiction de structure . . . 1.3 Objectif du travail . . . . . . . . . . 2 Mthode et dveloppements 2.1 Outils existants . . . . . . . . . . . 2.1.1 Fichier de donnes . . . . . 2.1.2 Librairie de rotamres . . . 2.1.3 Potentiels de force moyenne 2.1.4 Stratgie de recherche . . . 2.2 Outils dvelopps . . . . . . . . . . 2.2.1 Traduction de la librairie de 2.2.2 Preprocessing . . . . . . . . 2.2.3 Postprocessing . . . . . . . i iii iv v 1 2 2 3 5 6 7 7 8 9 11 11 11 13 15 17 19 19 20 22

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . rotamres . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

ii

2.3 2.4

Critres de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . Ralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24 24 26 26 27 29 30 33 34 36 38

3 Rsultats et discussion 3.1 Dtermination des paramtres 3.1.1 Paramtre K . . . . . 3.1.2 Poids des potentiels de 3.2 Performances . . . . . . . . . 4 Conclusion Annexe A : les acides amins

. . . . . . . . . . . . . . . . . . force moyenne . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

Annexe B : le format de chier CAT Bibliographie

Table des gures


1.1 1.2 1.3 1.4 1.5 1.6 1.7 2.1 Acide amin, R est le radical, appel aussi chane latrale . . . . . . . . Reprsentation schmatique de langle de torsion, symbolis ici par la che Section de chane polypeptidique comprenant un rsidu i, dlimit par les lignes discontinues, et ses liaisons peptidiques . . . . . . . . . . . . . Diagramme de Ramachandran . . . . . . . . . . . . . . . . . . . . . . . Chane latrale de la lysine : atomes lourds et angles de torsion . . . . . Rotamres de la tyrosine (a) et de la leucine (b) . . . . . . . . . . . . . . Graphe trois noeuds interconnects . . . . . . . . . . . . . . . . . . . . (A) Densit de probabilit de langle rotamrique 1 de la mthionine, quels que soient les valeurs de 2 et 3 . (B) Densits de probabilit de langle non-rotamrique 2 de laspargine en fonction de la conformation au niveau de langle rotamrique 1 . (C) Densits de probabilit de langle non-rotamrique 2 du tryptophane en fonction de la conformation au niveau de langle rotamrique 1 . . . . . . . . . . . . . . . . . . . . . . . Repre orthonorm local pour un rsidu de type srine . . . . . . . . . . Conversion de la librairie de rotamre . . . . . . . . . . . . . . . . . . . Etapes dexcution dune prdiction de structure . . . . . . . . . . . . . Structures des 20 acides amins essentiels du rgne vivant . . . . . . . . 2 3 4 4 5 6 9

2.2 2.3 2.4 1

14 19 25 25 35

iv

Liste des tableaux


2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 3.6 1 Classement des angles de torsion de la chane latrale de chaque rsidu, selon quils soient rotamriques ou non-rotamriques . . Entte des chiers de librairie Dunbrack . . . . . . . . . . . . . Entte des chiers de librairie Dunbrack . . . . . . . . . . . . . Protines pour loptimisation et la validation . . Rsultats de loptimisation de K . . . . . . . . . Jeux de paramtres {Ktsd , Ktdt , Ksds } tudis . . Rsultats de loptimisation de Ktsd , Ktdt et Ksds Contribution relative des paramtres Ktsd ,Ktdt et tion optimale . . . . . . . . . . . . . . . . . . . . Performance en terme de prcision de prdiction . . . . . . . . . . . . Ksds . . . . . . . . . . . . . . . . . . pour . . . . . . type . . . . . . . . . de . . . . . . 15 15 20 27 28 29 30 30 32

. . . . . . . . . . . . . . . . . . . . . . . . . . . . une prdic. . . . . . . . . . . . . .

Noms des 20 acides amins essentiels du rgne vivant, leur code une et trois lettres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

Chapitre 1

Introduction
An de dterminer la structure tridimensionnelle dune protine donne, les laboratoires ont normalement recours des mthodes exprimentales. La cristallographie par rayon X et la spectroscopie par rsonnance magntique nuclaire constituent des solutions rpandues. Toutefois, ces mthodes sont couteuses, dautant plus quil convient en gnral de les combiner pour parvenir au rsultat escompt. De plus, la dtermination exprimentale de la structure de la protine est un processus lent. Cest pourquoi, an de pallier ce dfaut, des mthodes de dtermination de structure tridimensionnelle de protine ont t dveloppes. Il en existe de deux types : Les mthodes de dtermination de structure par homologie, partir de protines existantes. Les mthodes ab initio ou de novo, partir de rien. Dans le cadre de ce mmoire, nous nous proposons dtudier une mthode de dtermination de structure par homologie. La manire de procder est en gnral de considrer une protine, homologue celle que lon souhaite dterminer, dont la structure de la chane principale est xe et de placer les chanes latrales en minimisant lnergie libre. Les mthodes de ce type, se basant sur une reprsentation complte de la protine, peinent introduire une exibilit de la chane principale qui traduirait une adaptation de celle-ci suite la mutation. En eet, la reprsentation complte complexie cette tche qui devient coteuse en temps de calcul. Nous avons dans ce travail envisag dimplmenter une mthode de placement des chanes latrales dans la protine, base sur une reprsentation simplie de la chane latrale. Nous tentons de montrer la faisabilit dune telle mthode et dvaluer ses performances. Une telle mthode permettrait de contourner la complexit rencontre par dautre

lors de lintroduction de la exibilit de la chane principale. Dans la suite de cette introduction, nous posons le contexte de la problmatique. Nous abordons dans un premier point la description de la protine. Nous y discutons de ses lments constitutifs, de sa structure de manire gnrale et des chanes latrales en particulier. Nous abordons dans un deuxime point des aspects lis la bioinformatique. Nous y discoutons de la reprsentation de la protine, de la modlisation des potentiels dintraction de paires datomes au sein de celle-ci et de la prdiction de sa structure. Dans un troisime point, nous posons prcisment le problme trait dans ce mmoire et nos objectifs.

1.1
1.1.1

La protine
Description gnrale

Les acides amins sont les lments constitutifs de la protine. Il sagit, comme lillustre la gure 1.1, de molcules organiques constitues dun groupe amine et dun groupe carboxyle. Ils sont lis par lintermdiaire dun atome de carbone, dit carbone . Le radical li au carbone confrent sa particularit lacide amin.

Figure 1.1 Acide amin, R est le radical, appel aussi chane latrale Dans le rgne vivant, 20 acides amins sont universellement reprsents. Dans lannexe A, nous trouvons une reprsentation de ces molcules organiques et leur dnomination. Il existe deux manires codes de les identier : un code une lettre et un code trois lettres. Les acides amins polymrisent en formant des liaisons peptidiques. Les cellules des organismes vivants assemblent les acides amins suivant un ordre prcis cods dans 2

les brins dADN. La squence des rsidus dacides amins qui constituent la chane polypeptidique dnit la structure primaire de la protine. La fonction dune protine est intimement lie sa structure tridimensionnelle, ou sa conformation. Elle comporte des degrs de libert au niveau de ses nombreuses liaisons intratomiques. Toutefois, dans son tat stable, la protine se replie en gnral de manire univoque. Sa chane principale et ses chanes latrales adoptent une conformation particulire. Les protines formes remplissent des fonctions biologiques aussi diverses que catalyseur, inhibiteur, chlateur.

1.1.2

Structure

La chane principale de la protine est consitute de la succession des atomes N-CC de ses rsidus. Si la longueur des liaisons et les angles de valances sont constants, les rotations sont permises autour des liaisons atomiques. Nous pouvons dnir langle de torsion pour un complexe de quatre atomes conscutivement lis A-B-C-D : si nous le projetons sur un plan normal la liaison B-C, langle de torsion est langle entre la projection de B-A et celle de C-D. Ceci est illustr la gure 1.2.

Figure 1.2 Reprsentation schmatique de langle de torsion, symbolis ici par la che Sur la gure 1.3 est reprsent un rsidu i le long dune chane polypeptidique. Par convention, pour le rsidu i, langle de torsion est dni par Ci1 -Ni -Ci -Ci , langle de torsion est dni par Ni -Ci -Ci -Ni+1 et langle de torsion est dni par Ci1 -Ci1 -Ni -Ci . Les valeurs que prend langle se limite 180 ou, plus rarement 0, parce que la nature du lien peptidique entre latome de carbone et latome dazote, tous deux dans un tat dhybridation sp2 , impose une rigidit planaire. Les plages de valeurs que peuvent prendre les angles , sont plus larges, bien que limites pour des raisons dintractions nergtiques dfavorables ou dencombrement strique. Un diagramme de Ramachandran permet dtudier les domaines conformationnelles les plus frquents en fonction des paramtres , et . Sur la gure 1.4, ces domaines conformationnels 3

Figure 1.3 Section de chane polypeptidique comprenant un rsidu i, dlimit par les lignes discontinues, et ses liaisons peptidiques sont cods laide dune lettre [1].

Figure 1.4 Diagramme de Ramachandran Ainsi, la chane principale sorganise en un nombre restreint de motifs locaux, tels que des hlices (A), des hlices 310 (C) et des plans plisss (B). Il sagit de la structure secondaire. Il existe deux niveaux de reprsentation structurale supplmentaires. La structure tertiaire de la protine dnit sa structure tridimensionnelle gnrale, cest dire lagencement des motifs locaux. Et la structure quaternaire de la protine dnit, dans le cas de la formation dun complexe multimre, lagencement des chanes polypeptidiques les 4

unes par rapport aux autres.

1.1.3

Chane latrale

De mme que pour la chane principale, nous dnissons pour la chane latrale des angles de torsion. La chane latrale est reprsente par la succession de ses atomes lourds. Nous identions ces derniers laide de lettres de lalphabet grec. Le ou les atomes enfants se voient attribuer la lettre suivant celle de latome parent. Si plusieurs atomes ont la mme lettre, la nomenclature est complte dun chire qui les distingue. La lettre est attribue au carbone commun la chane principale et la chane latrale. Dans le cas de la lysine, la chane latrale est C-C-C-C-C-N si nous ne considrons que les atomes lourds.

Figure 1.5 Chane latrale de la lysine : atomes lourds et angles de torsion Les angles de torsion sont nomms i , i tant un nombre suprieur ou gal 1 identiant langle de torsion. Dans le cas de la lysine, 1 est langle de torsion dni par le didre N-C-C-C et mesure la rotation autour de la liaison C-C, 2 est langle de torsion dni par le didre C-C-C-C et mesure la rotation autour de la liaison C-C, 3 est langle de torsion dni par le didre C-C-C-C et mesure la rotation autour de la liaison C-C et 4 est langle de torsion dni par le didre C-C-C-N et mesure la rotation autour de la liaison C-C. La longueur des liaisons inter-atomiques et les angles de liaison tant xes, les angles de torsion i dnissent de manire univoque la conformation de la chane latrale dun rsidu. Sans contraintes extrieures, la chane latrale peut adopter un nombre ni de conformations correspondant des minima dnergie, comme illustr la gure 1.6. Dans le cas des chanes latrales, ces conformations sont appeles les rotamres. Nous avons vu que les chanes latrales dans une protine ltat stable adopte une conformation particulire. Dans ltat stable, pour chaque rsidu, un seul rotamre est retenu parmi ceux possibles.

Figure 1.6 Rotamres de la tyrosine (a) et de la leucine (b)

1.2

Aspects bioinformatiques

Lvolution des mthodes exprimentales a permis ltude de plus en plus pousse des protines. Il existe aujourdhui des mthodes exprimentales de dtermination de structure de protine par rayon X dont la rsolution est sous lAngstrom. Au mme titre, le dveloppement doutils informatiques au service de ltude des molcules biologiques a rvolutionn la recherche. Chaque jour, de nouvelles protines viennent goner les bases de donnes de squences et de structures. Comme plusieurs squences peuvent donner lieu une mme structure, ou quasiment, lespace des structures est infrieur celui des squences. Ces bases de donnes constituent un substrat prcieux pour les chercheurs. Dans les points suivants, nous dcrivons ce quil en est de la modlisation de la protine, des fonctions dnergie et des mthodes de prdiction de structure.

1.2.1

Reprsentation de la protine

Il existe de multiples manires de reprsenter la protine. La reprsentation la plus complte consiste reprsenter lensemble de ses atomes constitutifs par des sphres centres aux coordonnes cartsiennes de ceux-ci. Ce modle permet dtudier la protine du point de vue de ses intractions atomiques. Il nest pas toujours utile de considrer une telle nesse lorsque lon tudie les protines. Il est courant de reprsenter la protine sous forme dun agencement de ses structures secondaires par exemple. On sintresse alors davantage aux proprits structurales globales de la protine. Dans le cadre de ce mmoire, nous utilisons une reprsentation de la protine sous forme dune chane principale atomique et de chanes latrales simplies. La simplication consiste reprsenter la chane latrale comme tant une spre dont le centrode est la moyenne des coordonnes des atomes lourds qui la constituent. Le rayon dpend du type du rsidu [2]. Le rsidu devient donc une entit articielle constitue de trois atomes lourds, savoir les atomes C, C et N dans la chane principale, et dun pseudo-atome, reprsent par le centrode de la chane latrale du rsidu, que lon nomme CR .

1.2.2

Fonctions dnergie

Les fonctions dnergie ou potentiels sont des fonctions analytiques dnies sur lespace conformationnel qui admettent un minimum global. Elles sont utilises an dtudier ou de prdire ltat stable des protines. Elles sont de deux types : potentiels semi-empiriques et potentiels statistiques. Les potentiels doivent idalement tenir compte des intractions stabilisant les portines : les intractions lectrostatiques, les intractions de Van der Waals, les ponts hydrogne, les cations-, les recouvrements - et leet hydrophobe. Potentiel semi-empirique Nous abordons ici brivement les potentiels semi-empiriques. Il sagit de potentiels analytiques paramtrs dcrivant les intractions physique au niveau atomique. Les paramtres sont ajusts des donnes exprimentales obtenues partir de molcules ou drivs de calculs de la mcanique quantique. Un modle rpandu est CHARMM [3]. Ce type de potentiels possde une signication physique claire. Cependant, il ncessite dtre paramtr correctement. De plus, il a le dsavantage de ne pas tenir compte du milieu, leet du solvant entre autre. De surcrot, il requiert dutiliser une reprsentation complte de la protine, ce qui nest pas en adquation avec la ligne de ce 7

travail. Potentiels statistiques Les potentiels statistiques sont eux drivs dune base de donnes de protines dont la squence et la structure sont connues. Il sagit dextraire de la base de donnes des frquences dassociation entre lment de squence et lment de structure. Ces frquences sont ensuite converties en nergie libre. Ainsi, ce type de potentiel na pas de signication physique claire et est intimement li la base de donnes de protines dont il est issu, mais tend tenir compte de tous les eets physico-chimiques prsents. Leet du solvant est pris en compte implicitement notamment. Cest pour cela que lon le nomme galement potentiel de force moyenne. Nous en parlerons plus en dtail la section 2.1.3.

1.2.3

Prdiction de structure

La formulation courante du problme de prdiction de structure est la suivante : on suppose une structure de chane principale xe sur laquelle on place les chanes latrales. Les chanes latrales sont extraites de bases de donnes de rotamres. Celles-ci peuvent tre dpendantes ou indpendantes par rapport la conformation de la chane principale. Les rotamres sont slectionns laide de potentiels dnergie dnis et dune stratgie de recherche. Sous cette formulation, nous pouvons exprimer le problme sous forme dune fonction dnergie quil faut minimiser : E=
N i=1

Eself (ri ) +

N 1

Epair (ri , rk )

i=1 j=i+1

o Eself (ri ) reprsente la self-nergie du rotamre la position i, cest dire lintraction entre le rsidu i et la chane principale et Epair (ri , rj ) reprsente lintraction mutuelle entre le rotamre en position i et le rotamre en position j. Les variables ajuster pour dterminer min E sont les rotamres de chaque position i. La situation est plus claire sous forme de graphe. A la gure 1.7, on suppose une chaine trois rsidus cincluant respectivement trois, deux et trois rotamres et leurs intractions non nulles. Ce problme combinatoire peut tre rsolu par des mthodes de programmation linaire, telles que celle que nous utilisons dans ce travail [4] et que nous dcrivons au point 2.1.4. Mentionnons galement ici SCWRL, un outil de prdiction de structure de protine en reprsentation complte [5]. Il sagit dune rfrence largement utilise dont la vitesse 8

Figure 1.7 Graphe trois noeuds interconnects et la prcision de prdiction est vante. Sur base du critre selon lequel un rsidu prdi est correct si ses angles de torsion 1 et 2 sont compris dans un intervalle de 20 autour de la valeur exprimentale, la prcision moyenne, cest--dire pour tout type de rsidu, est de 79.7 %. De nombreuses mthodes de placement de chane latrale alternatives utilisent SCWRL pour valuer leur performance [6] [7]. Nous soumettons galement notre mthode une comparaison de performance avec SCWRL.

1.3

Objectif du travail

Ce travail a pour cadre la prdiction de structure des protines. Nous nous concentrons sur loptimisation du placement des chanes latrales dans les protines. Le problme pos est le suivant : tant donn une protine dont la squence et la conformation de la chane principale sont connues, prdire de manire optimale la conformation des chanes latrales. Loriginalit rside ici dans le fait que nous introduisons une reprsentation simplie des chanes latrales. Notre contribution consiste implmenter une mthode de prdiction de structure bas sur cette reprsentation simplie. Nous implmentons une librairie de rotamres, des potentiels dnergie et une stratgie de recherche dans lespace des conformatoins de chanes latrales. Cette contribution est appel tre utilises dans divers problmes o la reprsen-

tation de la protine est plus ou moins simplie dans lobjectif de limiter les temps de calculs : simulation de repliement de protines, docking,. . . La suite du prsent texte se dcompose en un chapitre mthode et dveloppements o sont dcrits les outils utiliss bass sur des ressources existantes et dvelopps par nos soins. Nous y dcrivons galement le fonctionnement des modules du programme de rsolution du problme ainsi que les critres de performances choisis. Suit un chapitre rsultats et discussion. Nous y prsentons loptimisation des paramtres de limplmentation. Nous y valuons ensuite les performances de notre mthode. Enn, nous concluons ce travail en prsentant les perspectives possibles.

10

Chapitre 2

Mthode et dveloppements
Dans ce chapitre, nous prsentons la mthodologie de rsolution du problme pos. Chaque outil ncessaire la ralisation est tout dabord abord dans les deux sections qui suivent, selon quil soit issu de ltat de lart ou de dveloppements personnels. La ralisation est ensuite dtaille en insistant sur le rle de chaque outil dans la rsolution du problme pos.

2.1

Outils existants

Nous avons pralablement abord la modlisation simplie des chanes latrales des protines. Pour chaque protine rsolue exprimentalement, il est possible de calculer les informations relatives cette reprsentation simplie. Elles sont inscrites dans un chier de donnes au format particulier que nous appelons ici chier CAT. Un exemplaire rduit est disponible en annexe B. An de dterminer les placements des chanes latrales, une librairie de rotamres est ncessaire ainsi que des potentiels de force moyenne. Il sagit doutils dvelopps exprimentalement et partir dune base de donne de protines. La rsolution du problme de programmation linaire se fait grce un module utilisant les technologies AMPL et CPLEX. Nous dcrivons chacun de ces outils dans les points suivants.

2.1.1

Fichier de donnes

Le chier CAT contient linformation relative la reprsentation simplie de la protine. Ce chier est construit partir dun chier PDB (Protein DataBank). Toutes les protines rsolues exprimentalement sont archives dans une base de donnes travers ce type de chier. Elles sont idienties par un code quatre caractres alphanumriques. Les chiers sont nomms selon ce code : XXXX.CAT et XXXX.PDB pour 11

la protine identie XXXX. An de construire le chier CAT, les informations extraites du chier PDB sont la mthode exprimentale utilise et ses paramtres, la structure primaire de la protine et les coordonnes cartsiennes des atomes constitutifs de la protines dans un repre dni. La structure dun chier CAT se divise en cinq sections : Information gnrale Cette section contient lidentiant de la protine, la mthode exprimentale, la rsolution en Angstrom, le nombre de chanes, le nombre de rsidu et le nombre de ligands. Chanes identiques Dans le cas dun multimre, sont repris ici les identiants des chanes polypeptidiques. Rsidus Cette section contient la liste des rsidus dacides amins qui constituent la ou les chanes polypeptidiques. Pour chacun des rsidus, sont inscrits sa dnomination en codes trois lettres et une lettre, deux paramtres relatifs la structure secondaire dans laquelle il se trouve, son accessibilit au solvant, ses angles et . Il est noter que les paramtres relatifs la structure secondaire et laccessibilit au solvant sont dtermins travers la mthode DSSP (Denition of Secondary Structure of Protein) [8]. Ce programme calcule les informations sus-cites partir des coordonnes tridimenionneles des atomes de la protine issues du chier PDB. Ligands Cette section liste linformation concernant les ventuels ligands. Coordonnes des rsidus Cette dernire section comprend, pour chaque rsidu, les coordonnes cartsiennes des atomes C, C et N dans la chane principale, celles du centrode CR , celles du centrode moyen des rotamres du rsidu CA et celles des atomes lourds de la chane latrale. Dans notre mthode, nous exploitons ce format de chier qui dcrit compltement la protine dans sa modlisation simplie.

12

2.1.2

Librairie de rotamres

Nous utilisons la librairie de rotamres tous atomes ralise par Shapalov et Dunbrack [9]. Les donnes utilises dans llaboration de cette nouvelle librairie ont t slectionnes partir dune liste dentre PDB de protines pour lesquelles les densits lectroniques ont pu tre trouves sur le serveur EDS (Uppsala Electron Density Server)[10]. Cette liste fut ensuite ltre par le biais du serveur PISCES [11]. Ce dernier propose la fonctionnalit de produire un ensemble dentres partir dun ensemble plus large en tenant compte de critres de qualit de la structure et en imposant une identit mutuelle maximale entre les protines. De cette manire, les auteurs ont obtenu une liste de 3945 entres PDB dont la rsolution est infrieure ou gale 1.8 Angstrom et dont lidentit mutuelle de squence est limite 50%. Les donnes jouissent donc dune bonne prcision et le rsultat ne peut tre biaiser par la prsence de protines la structure homologue. Leur objectif fut ensuite dobtenir la probabilit doccurence de chaque rotamre r comme une fonction des angles dihdraux et de la chane latrale, P (r|, ). Pour chaque rotamre r dun type de rsidu donn, on a dtermin une estimation de la densit de probabilit (, |r). Il sagit par essence dune distribution de Ramachandran de chaque rotamre. On a ensuite utilis la loi de Bayes pour inverser cette densit an de produire une estimation de la probabilit doccurence du rotamre en fonction de et de : (, |r) P (r) P (r|, ) = (, |r ) P (r )
r R

o R est lensemble des rotamres dun type de rsidu. Dautre part, dans leur conception, les auteurs distinguent deux types de degrs de libert pour les angles de torsion des chanes latrales. Sur base de ltat dhybridation des atomes impliqus dans la liaison dnissant langle dihdral, le degr de libert est soit rotamrique, soit non-rotamrique. Les degrs de libert rotamriques correspondent des liaisons hybrides sp3 -sp3 . Ce type de liaison possde trois conformations de basse nergie : gauche+ , trans et gauche correspondant des valeurs dangle de torsion de 60, 180 et 300 respectivement. Cela se traduit par lapparition de trois pics marqus dans la distribution de densit de probabilit comme nous pouvons le constater sur le graphique A de la gure 2.1. Les degrs de libert non-rotamriques quant eux correspondent des liaisons hybrids sp3 -sp2 . Ce type de liaison ne possde pas de conformation de basse nergie marque. La distribution de densit de probabilit est

13

large et asymtrique comme on peut le voir sur les graphiques B et C de la gure 2.1. Nous pouvons galement constater cela en observant les rotamres de la tyrosine la gure 1.6 (a) la page 6 : 1 est rotamrique alors que 2 est non-rotamrique. Le tableau 2.1 prsente la classication des angles de torsion suivant quil soit rotamrique ou non-rotamrique, pour chacun des types de rsidu.

Figure 2.1 (A) Densit de probabilit de langle rotamrique 1 de la mthionine, quels que soient les valeurs de 2 et 3 . (B) Densits de probabilit de langle nonrotamrique 2 de laspargine en fonction de la conformation au niveau de langle rotamrique 1 . (C) Densits de probabilit de langle non-rotamrique 2 du tryptophane en fonction de la conformation au niveau de langle rotamrique 1 . La librairie reprend un modle traditionnel de rotamre. Chaque chane latrale possde un ensemble de conformations discrtes, les rotamres. Par exemple, la srine possde possde un seul degr de libert au niveau de sa chane latrale, 1 . Celui-ci a trois conformations discrtes, il y a donc trois rotamres au total : <g + >, <t> et <g >. Par contre, la leucine possde deux degrs de libert au niveau de sa chane latrale, 1 et 2 . Chacun des deux a trois conformations discrtes, il y a donc 3 3 = 9 rotamres au total : <g + , g + >, <g + , t>, <g + , g >, <t, g + >, <t, t>, <t, g >, <g , g + >, <g , t> et <g , g >. Par pragmatisme, g + , t et g sont dsigns respectivement 1, 2 et 3. Cela permet un codage des rotamres : les rotamres de la srine sont <1>, <2> et <3>, ceux de la leucine sont <1,1>, <1,2>,..., <3,3>. Cette dsignation est utilise pour les 18 acides amins qui possdent une latrale exible (la glycine et lalanine nen font pas partie). Par exemple, larginine et la lysine ont 81 rotamres au total, identis par <1,1,1,1>, <1,1,1,2>,..., <3,3,3,3>. Ceci est valable uniquement dans le cas des degrs de libert rotamriques. En ce qui concerne les degrs de libert non-rotamriques, lespace angulaire est divis en intervalles de 30 de manire approximer le modle de rotamre. La dsignation numrique de ces pseudo-rotamres prend des valeurs entre 1 et 12.

14

Type de rsidu Alanine Arginine Asparagine Acide aspartique Cystine Acide glutamique Glutamine Glycine Histidine Isoleucine Leucine Lysine Mthionine Phnylalanine Proline Srine Thronine Tryptophane Tyrosine Valine

rotamrique 1 , 2 , 3 , 4 1 1 1 1 , 2 1 , 2 1 1 , 2 1 , 2 1 , 2 , 3 , 4 1 , 2 , 3 1 1 1 1 1 1 1

non-rotamrique 2 2 3 3 2 2 2 2 -

Table 2.1 Classement des angles de torsion de la chane latrale de chaque type de rsidu, selon quils soient rotamriques ou non-rotamriques Finalement, la librairie comprend la probabilit des rotamres, la valeur moyenne de i pour une conformation donne dans le cas rotamrique ou pour un intervalle donn dans le cas non-rotamrique et sa variance en fonction des angles dihdraux et . En pratique, le domaine angulaire ( ) est discrtis selon une grille de 10 10. Les chiers de donnes produits par les auteurs et que nous avons utilis se prsente donc sous la forme dun tableau dont lentte est dcrite par le tableau 2.2. Code du rotamre Probabilit 1 2 3 4 1 2 3 4

Table 2.2 Entte des chiers de librairie Dunbrack

2.1.3

Potentiels de force moyenne

Des potentiels statistiques de force moyenne ont dj t utiliss des ns de prdiction de structure des protines sur base dune reprsentation simplie [12]. Plus rcemment, une nouvelle gnration de potentiels statistiques pour les protines a t d15

veloppe [13]. Ceux-ci ont t drivs de sorte tenir compte de corrlations spciques entre dirents paramtres de squence et de structure de protine. Ces paramtres sont le type de rsidu (s), la conformation de la chane principale (t), laccessibilit au solvant du rsidu (a)et la distance dans lespace entre deux rsidus (d). Les potentiels sont dordre suprieur ou gal 2 selon le nombre de paramtres pris en compte. Cela donne la possibilit danalyser les contributions distinctes de chacun des potentiels. Deux groupes de potentiels sont disponibles. Les potentiels locaux retent la corrlation entre type dacide amin, conformation de chane principale et accessibilit au solvant de rsidus proches les uns des autres le long de la squence de la protine. Les potentiels de disance retent la propension dune paire de rsidus dtre spares dune distance donne, sachant leur type dacide amin, leur conformation au niveau de la chane principale et leur accessibilit au solvant. Les distances spatiales recouvrent un intervalle de 3 8 Angstrom par palier de 0.2 Angstrom. Au dl, nous pouvons considrer quil ny a pas dintraction. En outre, en dea de 3 Angstrom, une valeur dnergie libre unique est dnie. Notons galement quun paramtre supplmentaire dans le cas des potentiels de distance est la distance le long de la squence entre les acides amins. Nous avons choisi de travailler avec des potentiels de distances. Parmi ceux disponibles, nous en avons slectionn trois en raison de leur pouvoir de prdiction avr [14]. Il sagit de potentiels dordre 3 : Wtsd est un potentiel de distance entre deux rsidus dont on connat la conformation de chane principale du premier et le type dacide amin donn du second. Wtdt est un potentiel de distance entre deux rsidus dont on connat la conformation de chane principale du premier et la conformation de chane principale du second. Wsds est un potentiel de distance entre deux rsidus dont on connat le type dacide amin donn du du premier et le type dacide amin donn du second. Nous nutilisons pas de potentiels comportant comme descripteur laccessibilit au solvant. Il y a une raison pratique cela. Calculer laccessibilit au solvant dun rsidu au sein dune protine ncessite de connatre la conformation des autres rsidus de la protine. Hors, cette information ne fait pas partie des hypothses du problme. Les potentiels sont fournis sous forme de chier de donnes tabules. Par exemple, pour le potentiel Wtsd , les deux premire colonnes comporte la valeur des paramtres t et s, une troisime colonne comporte la distance entre les rsidus le long de la squence,

16

la quatrime colonne comporte la distance spatiale entre les rsidus et enn, la cinquime comporte lnergie libre.

2.1.4

Stratgie de recherche

La programmation linaire est une mthode ecace de rsolution du problme de placement des chanes latrales. Dans notre travail, nous exploitons un module de rsolution propos par Chazelle, Kingsford et Singh (CKS) [4]. Ce module est crit en language de modlisation de problme mathmatique. Il est ncessaire dutiliser linterprteur AMPL (A Mathematical Programming Language). Il sagit dun logiciel qui lit la modlisation dun problme de programmation linaire et les donnes relatives celui-ci et qui utilise un solveur externe an de prsenter la solution optimale. Le solveur que nous utilisons est CPLEX de la rme IBM. Le problme qui est pos, nous le rappelons, est de minimiser une fonction de cot nergtique E, pour une protine N rsidus dans une conformation donne : E=
N i=1

Eself (ri ) +

N 1

Epair (ri , rk )

i=1 j=i+1

o Eself (ri ) reprsente la self-nergie du rotamre la position i, cest dire lintraction entre le rsidu i et la chane principale et Epair (ri , rj ) reprsente lintraction mutuelle entre le rotamre en position i et le rotamre en position j. Le module CKS est crit pour dterminer min E pour un ensemble de donnes Eself et Epair . Ces dernires doivent tre prcalcules et mises sous la forme dun chier format de la forme suivante : La premire ligne doit tre : data; Est renseign ensuite le nombre de rsidus n : param num_posn := n ; et le nombre total de rotamres p pour le problme : param num_nodes := p ; La suite spcie combien de rotamres correspondent chaque position. La premire colonne donne la position, la seconde colonne donne le nombre de rotamres pour cette position. La somme des nombres de la seconde colonne doit donc tre gale p. 17

param posn_size := 1 6 2 81 3 27 ... ; Ensuite, sont spcies les self-nergies Eself . A chaque rotamre est attribu un code numrique entre 1 et n. Les rotamres de la premire position sont classs de 1 au nombre de rotamres de la premire position. Le premier rotamre de la deuxime position sera tiquet du nombre de rotamres dans la premire position plus 1. La premire colonne est le code du rotamre, la seconde la valeur de la self-nergie, dans les units que lon dsire. param costV := 1 3.254 2 4.560 3 6.721 ... ; Ensuite, sont spcies les nergies mutuelles entre paire de rotamres Epair . Les deux premires colonne contiennent le code des rotamres concerns. La troisime colonne est lnergie dintraction, dans les units que lon dsire. Il faut noter que le nombre de la premire colonne doit tre infrieur celui de la deuxime pour le bon fonctionnement du module et quil est inutile de spcier les paires pour lesquelles lnergie dintraction est nulle. param costE := 1 5 4.23 1 6 -3.2 3 5 -10 ... ; Aprs rsolution, le module est paramtr de telle sorte fournir un chier qui recense la liste des codes numriques des rotamres minimisant la fonction dnergie.

18

2.2

Outils dvelopps

Les dveloppements que nous avons eectus se sont faits dans le language de programmation C++. Ils se prsentent sous la forme dune srie de programmes accomplissant une tche particulire. Nous avons labor un module de traduction de la base de donnes des rotamres de Dunbrack prsente plus haut an de la rendre compatible avec la reprsentation simplie des chanes latrales des protines. Divers modules ont t labors dans le cadre du traitement des donnes : preprocessing et postprocessing. Nous dcrivons ces outils dans les points suivants.

2.2.1

Traduction de la librairie de rotamres

Le programme dvelopp, le module convertdunb, assume la conversion de la librairie de rotamres de Dunbrack. Nous avons traduit la reprsentation de la chane latrale en angles de torsion i vers la reprsentation en centrode CR . Pour ce faire, nous avons pour chacun des rotamres de la base de donnes rcupr le type de rsidu et la valeur de ses angles de torsion i . Nous avons dni un repre orthonorm XYZ dont lorigine est la position du C. Le repre est x de manire univoque en alignant laxe Z sur le segment C-C et en incluant N dans le plan YZ. Ceci est illustr la gure 2.2 pour un rsidu de type srine.

Figure 2.2 Repre orthonorm local pour un rsidu de type srine Nous avons calcul les coordonnes des atomes lourds de la chane latrale dans ce repre connaissant sa structure atomique, les longueurs et angles des liaisons et les 19

angles de torsion i . Une fois que les coordonnes des atomes lourds sont connues, il sut deectuer la moyenne pour obtenir la valeur de CR . Les chiers de donnes issus de la conversion se prsentent alors sous la forme dun tableau dont lentte est dcrite par le tableau 2.3. Code du rotamre Probabilit CR (x) CR (y) CR (z)

Table 2.3 Entte des chiers de librairie Dunbrack

2.2.2

Preprocessing

Le preprocessing consiste essentiellement en la fabrication du chier de donnes dentre du module CKS. Le module makedatafile lit le chier CAT dune protine donne. Sur base de la squence de rsidu, et de leurs angle et , il rcupre une liste de rotamres adquate dans la librairie de rotamres quil code numriquement. Il calcule ensuite la self-nergie des rotamres en se basant sur leur probabilit doccurence : Eself (ri , rotj ) = K log P (ri , rotj ) max P (ri , rotj )
j

o K est un cocient arbitraire et P (ri , rotj ) est la probabilit davoir le rotamre j la position i de la squence de rsidus, pour et donns. Pour calculer lnergie mutuelle de paire de rotamres, nous avons tout dabord eu besoin de complter linformation contenu dans nos potentiels statistiques. En eet, ceux-ci ne tiennent pas compte dventuelles obstructions striques. Hors, dans le cadre de notre problme, il est primordial de ne pas accepter une solution pour laquelle des rsidus de la protines occupent un espace commun. Pour pallier ce problme, nous avons eu recours la statistique. Nous avons par le biais de PISCES slectionn un ensemble de protines dans la base de donnes PDB dont la rsolution est infrieure 1.5 Angstrom et dont lidentit mutuelle de squences ne dpasse pas 50%. Ce ltrage a permis disoler un ensemble de 3620 protines. Nous les avons convertis en chier CAT pour proter de la reprsentation simplie des chanes latrales. Puis, nous avons dtermin, pour cette population, la distance minimale existante entre chaque couple de type de rsidu. Ainsi, nous disposons des valeurs de distances entre deux rsidus ri et rk en dea desquelles nous pouvons considrer quil y a obstruction strique, dlimiteclashstrique (ri , rk ). Si cest le cas, la valeur dnergie libre 20

attribuer doit tre arbitrairement grande. Une tape prliminaire au calcul de lnergie dintraction entre paire de rotamres est dexprimer les coordonnes de ceux-ci dans le repre orthonorm absolu des coordonnes contenues dans le chier CAT de la protine considre. Pour le rotamre j de la position i, nous translatons tout dabord le repre orthonorm local du rotamre sur les coordonnes du C de la position i indiques dans le chier CAT. Le rotamre subit ensuite une rotation qui a pour but daligner laxe Z du repre local avec le segment C-C de la position i et dinclure dans le plan YZ local les coordonnes de latome N de la position i. Nous obtenons ainsi les coordonnes de CR de la position i exprimes dans le repre orthonorm absolu du chier CAT. Nous eectuons ce calcul pour chacun des rotamres j de chacune des positions i. Le calcul de lnergie dintraction entre rotamres est donc : 1000 si d < dlimiteclashstrique (ri , rk ) Epair (ri , rotj , rk , rotl ) = W (d, ti , tk , si , sk ) si dlimiteclashstrique (ri , rk ) d < 8 0 si d8 o d est la distance spatiale en Angstrom entre le rotamre j en position i et le rotamre l en position k. W (d, ti , tk , si , sk ) est ici une combinaison linaire des potentiels statistiques : W (d, ti , tk , si , sk ) = Ktsd Wtsd (d, ti , sk ) + Ktdt Wtdt (d, ti , tk ) + Ksds Wsds (d, si , sk ) Les paramtres Ktsd , Ktdt et Ksds sont arbitraires. Leur optimisation sera traite dans le chapitre suivant. Nous rappelons que les paires dont lnergie libre est nulle ne sont pas reprises dans le chier de donnes du module CKS. Aussi, pour allger les calculs prliminaires, nous xons une probabilit cumule maximale au-del de laquelle les rotamres ne sont pas pris en compte. En dautres termes, pour un type de rsidu et des angles et donns, les rotamres tant classs dans la librairie en ordre dcroissant de probabilit doccurence, nous ne considrons que lensemble des rotamres dont la somme des probabilits doccurence est infrieur un seuil. Ce seuil est x 90%. Cela allge non seulement les calculs mais contribue galement ngliger les rotamres marginaux.

21

2.2.3

Postprocessing

Ltape de postprocessing consiste en lanalyse du chier de rsultat produit par le module CKS. Nous le rappelons, celui-ci comporte la liste des rotamres pour chaque position qui minimise la fonction dnergie. Leurs coordonnes dans le repre absolu du chier CAT sont enregistres. Ces informations sont exploites par le module makelpsolvecat, qui produit un chier de type CAT qui dcrit la structure prdite de la protine dans sa reprsentation simplie. A partir de l, nous pouvons calculer toute une srie de paramtres tmoins de la qualit du placement des chanes latrales. RM Sexp Il sagit dune distance exprime en Angstrom qui quantie lidentit entre la structure de la protine relle et la structure de la protine prdite. Etant donn que la chane principale est identique, nous ne tenons compte que des chanes latrales dans le calcul. Pour une protine comportant N rsidus, ou positions, nous avons :
N 1 (CR (i, exp) CR (i, prd))2 N i=1

RM Sexp =

o CR (i, exp) et CR (i, prd) sont respectivement les centrodes des rsidus de la position i pour la structure exprimentale et la structure prdite de la protine. RM Sdiscr Une prdiction russie impliquerait que RM Sexp = 0. En tenant compte de la nature discrte de la librairie de rotamre, nous comprenons videmment quatteindre une valeur nulle de RM Sexp est impossible. Cest pourquoi nous avons introduit le paramtre RM Sdiscr . Il sagit de la distance exprime en Angstrom qui quantie lidentit entre la structure de la protine prdite telle que son paramtre RM Sexp est minimal et la structure de la protine prdite. La rfrence est donc ici lexpression de la structure de la protine exprimentale dans lespace discret des structures de la protine. Pour une protine comportant N rsidus, nous avons :
N 1 (CR (i, discr) CR (i, prd))2 N i=1

RM Sdiscr =

o CR (i, discr) est le centrode du rsidu de la position i de la structure discrtise de la protine. Si ce paramtre est nul, le placement des chanes latrales est considr correct. La 22

structure prdite se rapproche, de manire optimale, de la structure exprimentale de la protine. RM Srand Ce paramtre exprime la distance entre la structure de la protine discrte et la structure dune protine alatoirement construite, cest dire que les rotamres pour chaque position ont t choisis alatoirement :
N 1 (CR (i, discr) CR (i, rand))2 N i=1

RM Srand =

o CR (i, rand) est le centrode du rsidu de la position i dune structure alatoire de la protine. En pratique, nous gnrons des structures alatoires jusqu ce que la moyenne des valeurs de RM Srand de chaque occurrence converge. Pour quune prdiction soit bonne, il est ncessaire que RM Sdiscr < RM Srand , car sinon, la prdiction nest pas plus performante que le hasard. ResCorrglob Un paramtre pertinant qui indique la qualit de la prdiction est le pourcentage de rsidus correctement prdits sur lensemble des rsidus de la protine. Pour une protine N rsidus, nous avons : ResCorrglob = 100 NCorr N

o NCorr est le nombre de rsidus correctement prdits. ResCorrcoeur Ce paramtre est similaire au prcdent. Toutefois, on ne tient compte ici que des rsidus enfouis dans le coeur de la protine. Ce sont les rsidus en gnral hydrophobes pour lesquels laccessibilit au solvant est faible. Comme les rsidus sont de taille variable, nous devons recourir une valeur daccessibilit au solvant relative pour identier les rsidus du coeur de la protine. Laccessibilit au solvant relative est le rapport de laccessibilit au solvant du rsidu dans la structure de la protine, lue dans le chier CAT , calcule laide de DSSP, et de laccessibilit au solvant de ce mme rsidu dans un tripeptide tendu glycine-rsidu-glycine [15]. Nous avons utilis une valeur seuil de 25% [16].

23

Pour une protine dont le coeur comporte N rsidus, nous avons : ResCorrcoeur = 100 NCorr N

o NCorr est le nombre de rsidus dans le coeur de la protine correctement prdits. La raison dutiliser un tel paramtre est quil tient compte du fait que les rsidus dans le coeur sont bien plus stabilis que ceux de la priphrie dans la protine. Les rsidus de la priphrie jouissent dune libert de mouvement suprieure, leur conformation stable est donc moins marque. Ainsi, nous pouvons nous attendre ce que ResCorrcoeur > ResCorrglob . Le module writestats organise ces paramtres pour une meilleure lisibilit lorsque lon procde la prdiction de la structure dun ensemble de protines.

2.3

Critres de performance

An de jauger de la qualit du placement des chanes latrales, nous nous servons des paramtres dcrits au point 2.2.3. Nous les hirarchisons toutefois selon la pertinance que nous leur accordons. La discussion que nous ferons tiendra compte de cela. Ainsi, ResCorrcoeur aura davantage dimportance que ResCorrglob , qui aura davantage dimportance que RM Sdiscr . Nous nous servirons essentiellement de ces trois grandeurs dans la section 3.1 o nous verrons de quelle manire cette hirarchisation est exploite dans le contexte de loptimisation des paramtre K, Ktsd , Ktdt et Ksds de la fonction dnergie. Prcisons que ResCorrcoeur et ResCorrglob sont des critres maximiser et que RM Sdiscr est un critre minimiser.

2.4

Ralisation

Dans ce point, nous prsentons la synthse de la mthodologie et des dveloppements entrepris. La gure 2.3 illustre la traduction de la librairie de rotamre de sa description complte vers la description simplie. Chacun des 18 acides amins comportant une chane latrale exible prsente un chier de librairie distinct. La gure 2.4 illustre lexcution du processus de placement de chanes latrales pour la protine XXXX. Nous pouvons y observer lenchanement des dirents modules dont nous avons discut dans ce chapitre.

24

Figure 2.3 Conversion de la librairie de rotamre

Figure 2.4 Etapes dexcution dune prdiction de structure 25

Chapitre 3

Rsultats et discussion
Ce chapitre comporte deux sections. Dans la premire, nous nous attachons dterminer les paramtres K, Ktsd , Ktdt et Ksds optimaux de la fonction dnergie, cest--dire ceux qui permettent dobtenir une prdiction de structure optimale. Dans la seconde, nous mettons notre mthode de prdiction lpreuve en la soumettant une comparaison avec la mthode SCWRL. Nous avons slectionn un ensemble de 20 protines pour eectuer les calculs de la premire section. Un groupe de 10 protines sera, en plus des 20 premires, utiliser dans la seconde section an de valider de manire croise nos rsultats. An dobtenir lensemble des protines qui ont servi eectuer nos tests, nous avons opr un ltrage de la base de donnes PDB par le biais de PISCES avec comme paramtres une rsolution maximale de 1.5 Angstrom et une identit mutuelle de squences maximale de 25%. Parmi la population de protines slectionnes, nous avons limin celles qui comportent plus dune chane polypeptidique. Nous avons galement limin celles qui comportent un ou des ligands. Dans cette population rduite, nous avons choisi nos 30 protines en prenant soin quelles couvrent la gamme de longueurs de chane principale disponibles. Ces protines sont listes au tableau 3.1. Nous y avons spci le nombre de rsidus, la longueur, de chacune delles.

3.1

Dtermination des paramtres

La dtermination des paramtres seectue en deux tape : 1. Dans un premier temps, nous allons dterminer la valeur du cocient K en considrant Ktsd = Ktdt = Ksds . En eet, les termes Eself et Epair de la fonction dnergie nont pas les mmes units. En ajustant correctement K, nous contour26

Protine 1BYI 1ES5 1L3K 1FL0 1NWA 1LZL 1TUA 1UOY 1XAW 1ZZK 1BKR 1GPP 1HZT 1JL1 1SAU

Longueur 224 260 163 164 168 317 189 64 107 80 108 217 153 152 114

Protine 2CG7 2CI2 2CYG 2END 2I49 2PND 2W1R 3BB7 3CA7 3PIW 1V05 1ZVA 2LIS 2RB8 3CX2

Longueur 90 64 312 137 398 119 117 314 50 154 96 75 131 93 107

Table 3.1 Protines pour loptimisation et la validation nons ce problme et attribuons aux intractions des rsidus avec la chane principale le poids optimal par rapport aux intractions mutuelles des rsidus. An de conserver ce cocient constant, nous normalisons la contribution du terme Epair en le normalisant pas la somme Ktsd + Ktdt + Ksds . 2. Dans un second temps, K tant x, nous allons explorer si les potentiels de distances que nous utilisons contribuent de manire gale ou pas lobtention de la prdiction optimale de la structure de la protine. Nous leur attribuerons des jeux de poids dirents et analyserons leet sur la qualit de la prdiction. Notons galement que nous nous sommes limit la fois dans la quantit de protines soumises aux essais et dans la nesse des valeurs des parmtres an dconomiser le temps de calcul.

3.1.1

Paramtre K

Nous avons choisi une gamme de valeurs allant de 1 20 par pas de 1. Cette premire approximation a permi de dtecter un domaine de valeurs plus rduit o la qualit de prdiction est suprieure, pour K < 6. Nous avons ensuite eectu des essais pour des valeurs allant de 0.5 6 par pas de 0.5. Pour chacune des protines, nous avons relev la valeur de K pour laquelle chaque critre est optimal. Cest ici quintervient notre hirarchisation des paramtres de performance. Par

27

exemple, dans le cas du paramtre RM SDiscr , si plusieurs valeurs de K fournissent le mme minimum de ce paramtre, nous recherchons si parmi celle-ci lune fournit une valeur maximale de ResCorrcoeur . Puis, si plusieurs valeurs de K sont encore en concurrence, nous recherchons si parmi celle-ci lune fournit une valeur maximale de ResCorrglob . Dans le cas du paramtre ResCorrcoeur , le mme processus est eectu avec ResCorrglob puis RM SDiscr . Et dans le cas du paramtre ResCorrglob , il est effectu avec ResCorrcoeur puis RM SDiscr . Nous avons observ que cela nous permettait daboutir une valeur unique de K qui optimise chacun de nos critres. Les rsultats obtenus sur la population de 20 protines est illustr au tableau 3.2. La dernire ligne comporte les valeurs moyennes du paramtre K optimis pour chacun des critres. Sur base de ces rsultats, nous xons K = 1.5. Protine RM SDiscr 1BYI 1ES5 1FL0 1L3K 1LZL 1NWA 1TUA 1UOY 1XAW 1ZZK 2CG7 2ci2 2CYG 2END 2I49 2PND 2W1R 3BB7 3CA7 3PIW 0.50 1.00 0.50 0.50 0.50 1.00 3.00 1.00 1.00 0.50 1.00 0.50 2.50 1.00 3.00 2.00 1.00 0.50 2.00 1.50 1.22 K optimal ResCorrglob 2.50 1.00 1.00 1.00 0.50 0.50 3.00 1.00 1.00 3.00 1.00 0.50 1.50 1.00 0.50 2.00 0.50 6.00 2.00 2.50 1.60 ResCorrcoeur 0.50 1.00 1.00 1.00 0.50 0.50 3.00 1.00 1.00 3.00 1.00 0.50 1.50 1.00 0.50 2.00 0.50 6.00 2.00 2.50 1.5

Table 3.2 Rsultats de loptimisation de K

28

3.1.2

Poids des potentiels de force moyenne

An de dterminer le jeu de paramtres {Ktsd , Ktdt , Ksds } optimal, nous nous sommes proposs une srie de jeux de poids tester : {1, 1, 1} : les trois potentiels ont la mme contribution. {1, 0, 0} : seul un des trois potentiels est pris en compte. {1, 1, 0} : seuls deux des trois potentiels sont pris en compte. {2, 1, 1} : on accorde un potentiel un poids double par rapport au deux autres. {3, 1, 0} : on ne tient compte que de deux potentiels, mais nous favorisons trois plus lun par rapport lautre. Jeu n 1 3 5 7 9 11 13 15 17 19 {Ktsd , Ktdt , Ksds } {1, 1, 1} {0, 1, 0} {1, 1, 0} {0, 1, 1} {1, 2, 1} {2, 2, 1} {1, 2, 2} {1, 3, 0} {0, 3, 1} {1, 0, 3} Jeu n 2 4 6 8 10 12 14 16 18 {Ktsd , Ktdt , Ksds } {1, 0, 0} {0, 0, 1} {1, 0, 1} {2, 1, 1} {1, 1, 2} {2, 1, 2} {3, 1, 0} {0, 1, 3} {3, 0, 1}

Table 3.3 Jeux de paramtres {Ktsd , Ktdt , Ksds } tudis Nous avons codi les direntes combinaisons possibles de ce jeu de valeur de 1 19, comme lillustre le tableau 3.3. Pour chacune des protines, nous avons dtermin le jeu qui optimise les critres, de la mme manire qu la section 3.1.1. Le rsultat est illustr dans le tableau 3.4. Nous avons rapport dans le tableau 3.5, pour chacun des critres, le nombre de fois quun jeu favorisant chacun des paramtres Ktsd , Ktdt et Ksds apparat. Cela nous permet dtablir qualitativement le rapport en terme de poids accorder aux dirents potentiels an doptimiser la performance de prdiction. Nous pouvons conclure que la contribution de chacun des potentiels est souhaite. Aussi, nous accordons un crdit double Wtsd par rapport Wtdt et Wsds qui contribueront de manire quivalente. Nous avons sur base de cela x {Ktsd , Ktdt , Ksds } = {2, 1, 1}.

29

Protine RM SDiscr 1BYI 1ES5 1FL0 1L3K 1LZL 1NWA 1TUA 1UOY 1XAW 1ZZK 2CG7 2ci2 2CYG 2END 2I49 2PND 2W1R 3BB7 3CA7 3PIW 16.00 8.00 18.00 12.00 12.00 19.00 5.00 6.00 8.00 3.00 3.00 13.00 2.00 12.00 18.00 2.00 14.00 7.00 2.00 6.00

n du jeu optimal ResCorrglob 17.00 7.00 14.00 1.00 10.00 16.00 4.00 3.00 8.00 5.00 3.00 18.00 2.00 12.00 18.00 17.00 11.00 16.00 2.00 3.00 ResCorrcoeur 5.00 8.00 18.00 12.00 10.00 19.00 4.00 3.00 8.00 5.00 3.00 18.00 2.00 12.00 18.00 17.00 11.00 16.00 2.00 3.00

Table 3.4 Rsultats de loptimisation de Ktsd , Ktdt et Ksds Critre ResCorrcoeur ResCorrglob RM Sdiscr Ktsd 12 9 14 Ktdt 7 8 5 Ksds 6 6 8

Table 3.5 Contribution relative des paramtres Ktsd ,Ktdt et Ksds pour une prdiction optimale

3.2

Performances

Notre mthode est dsormais correctement paramtre. Nous abordons dans cette section lvaluation des performances en terme de prdiction. Nous comparerons les rsultats que nous obtenons avec la mthode SCWRL. Comme cette dernire est base sur une reprsentation complte des chanes latrales des protines, il nous a fallu tablir un critre de comparaison pertinent. Nous avons retenu de comparer les distances RMS entre les structures prdites par les deux mthodes et la structure discrtise de la

30

protine considre. Nous introduisons donc la grandeur RM Sscwrl , pour une protine N rsidus : RM Sscwrl =
N 1 (CR (i, discr) CR (i, scwrl))2 N i=1

o CR (i, discr) est le centrode du rsidu de la position i de la structure discrtise de la protine et CR (i, scwrl) est le centrode du rsidu de la position i de la structure de la protine prdite par SCWRL. Les rsultats de lvaluation de la perfomance de la mthode sont reprises au tableau 3.6. Nous avons eectu les moyennes de chaque critre et les avons indiques dans la dernire ligne du tableau. On constate que la mthode SCWRL produit des structures prdites qui sont davantage proches de la structure discrtise de la protine. Toutefois, lcart de performance se limite 10.5% en terme de grandeurs RM S. Quant aux grandeurs qui dnissent le pourcentage de rsidus correctement prdits par notre mthode, elles sont en-dea de ce que nous pouvions esprer, particulirement pour ResCorrglob . Toutefois, il est ncessaire de les rapporter au fait que nous navons pas introduit dans notre mthode tous les potentiels existants proposs dans [13], notamment ceux prenant en compte laccessibilit au solvant. De meilleurs rsultats peuvent galement tre obtenus en anant davantage les paramtres K,Ktsd , Ktdt et Ksds . Ceci tant dit, dans le cadre de ce mmoire, nous avons dcid de nous limiter pour cause de dicult dimplmenter une solution dans le cas de laccessibilit au solvant, et pour cause dconomie de temps de calcul dans le cas des paramtres de la fonction dnergie.

31

Protine 1BYI 1ES5 1FL0 1L3K 1LZL 1NWA 1TUA 1UOY 1XAW 1ZZK 2CG7 2ci2 2CYG 2END 2I49 2PND 2W1R 3BB7 3CA7 3PIW 1BKR 1GPP 1HZT 1JL1 1SAU 1V05 1ZVA 2LIS 2RB8 3CX2

RM Sdiscr 1.03 0.77 1.06 1.19 0.86 1.23 1.26 0.91 1.34 1.14 1.11 1.31 1.04 1.13 1.03 1.27 1.02 1.04 1.11 1.13 1.23 1.18 0.92 1.19 1.07 1.06 1.05 1.11 1.05 1.05 1.10

ResCorrglob 67.86 65.77 57.32 61.96 73.50 59.52 53.44 65.63 47.66 51.25 54.44 52.31 64.42 59.85 59.30 51.26 63.25 63.06 58.00 52.60 48.15 58.99 60.78 55.26 63.16 57.08 52.00 57.25 53.76 67.29 58.54

ResCorrcoeur 79.41 76.52 66.18 70.00 81.48 63.64 70.83 66.67 76.00 69.57 66.67 70.59 75.32 65.96 63.23 57.89 73.47 69.68 77.78 70.00 60.47 72.73 66.15 65.63 85.71 70.36 50.00 63.64 44.12 75.00 68.82

RM Sscwrl 0.79 0.66 0.86 1.15 0.80 1.24 1.15 0.67 1.29 1.16 0.95 1.10 0.74 1.10 0.65 0.98 1.01 0.83 0.93 0.93 0.74 1.12 0.93 0.96 1.08 1.05 1.02 1.10 0.88 0.95 0.96

Table 3.6 Performance en terme de prcision de prdiction

32

Chapitre 4

Conclusion
Dans ce mmoire, nous avons tudi une mthode de placement des chanes latrales dans les protines. Nous nous sommes bass sur une reprsentation simplie des chanes latrales et une srie de potentiels statistiques compatibles avec cette reprsentation. Nous avons contribu produire une librairie de rotamre galement compatible avec cettre reprsentation. Nous avons paramtr limplmentation de cette mthode de sorte optimiser les performances de la prdiction. Nous avons montr la faisabilit de la mise en oeuvre dune telle mthode et avons valu ses performances face une mthode de prdiction base sur la reprsentation complte des chanes latrales. Lintrt dune telle mthode est quelle pallie la limitation li au temps de calculs subie par les mthodes bases sur une reprsentation tous atomes des chanes latrales. La voie principale est lintroduction de exibilit dans la chane principale. La reprsentation complte de la protine constitue un frein cette voie parce que les calculs sont dune complexit trop importante. Cet inconvnient est lev dans le cas de la reprsentation simplie. La voie secondaire est dexploiter les potentiels daccessibitit au solvant pour tenter damliorer les performances de prdiction. Une autre voie serait de considrer dans la fonction dnergie des termes triplets, cest--dire de termes tenant compte de lintraction entre trois entits. Nous esprons que notre travail constitue un premier pas vers lexploration de ces diverses voies.

33

Annexe A : les acides amins


Nom de lacide amin Alanine Arginine Asparagine Acide aspartique Cystine Acide glutamique Glutamine Glycine Histidine Isoleucine Leucine Lysine Mthionine Phnylalanine Proline Srine Thronine Tryptophane Tyrosine Valine Code une lettre A R N D C E Q G H I L K M F P S T W Y V Code trois lettres ALA ARG ASN ASP CYS GLU GLN GLY HIS ILE LEU LYS MET PHE PRO SER THR TRP TYR VAL

Table 1 Noms des 20 acides amins essentiels du rgne vivant, leur code une et trois lettres

34

Figure 1 Structures des 20 acides amins essentiels du rgne vivant

35

Annexe B : le format de chier CAT


Nous prsentons ici la structure dun chier CAT, celui par exemple de la protine 6RAT. Celle-ci comporte une seule chane et nintgre pas de ligand. #PROTEIN EXP_TECHNIQUE RESOLUTION Nchains Nrestot Nlig 6rat / 1.5 1 124 0 #IDENTICAL CHAINS #RESIDUES (+phi,psi) 1 LYS K C X 0 244.00 2 GLU E C P 1 80.00 3 THR T C P 1 85.00 4 ALA A H A 1 51.00 ... 124 VAL V C X 1 92.00 #LIGANDS #RESIDUES COORDINATES 1 N 28.02 45.47 1 CA 27.81 44.17 1 C 27.00 44.48 1 O 26.60 45.62 1 CMR 25.06 42.42 1 CMA 27.27 41.94 1 CB 27.14 43.14 1 CG 25.70 43.44 1 CD 25.07 42.38 -136.47 -30.09

4.79 -55.24 -73.82 -60.75

168.07 134.07 160.10 -40.55

53.08 52.37 51.09 50.94 53.71 54.20 53.28 53.69 54.60

1 1 1 1 1 1 1 1 1 36

1 1 2 2 2 2 2 2 2 2 2 2 2 ... 124 124 124 124 124 124 124 124 124

CE NZ N CA C O CMR CMA CB CG CD OE1 OE2

24.34 23.08 26.93 26.19 24.77 24.04 25.62 26.64 26.14 25.51 25.48 25.24 25.73

41.31 41.84 43.52 43.75 44.21 43.64 41.34 41.79 42.45 42.41 40.96 40.01 40.88

53.79 53.18 50.23 48.96 49.16 50.03 46.64 47.27 48.20 46.77 46.26 46.98 44.99

1 1 1 1 1 1 1 1 1 1 1 1 1

N CA C O CMR CMA CB CG1 CG2

5.08 3.70 3.51 2.47 2.72 2.67 2.66 2.83 2.69

35.42 34.96 35.12 34.58 36.06 35.51 35.69 35.31 37.18

34.01 33.71 32.18 31.72 34.99 34.62 34.57 36.05 34.37

1 1 1 1 1 1 1 1 1

37

Bibliographie
[1] Marianne J. Rooman, Jean-Pierre A. Kocher, and Shoshana J. Wodak. Prediction of protein backbone conformation based on seven structure assignments : Inuence of local interactions. Journal of Molecular Biology, 221(3) :961 979, 1991. [2] Michael Levitt. A simplied representation of protein conformations for rapid simulation of protein folding. Journal of Molecular Biology, 104(1) :59 107, 1976. [3] B.R. Brooks, R.E. Bruccoleri, D.J. Olafson, D.J. States, S. Swaminathan, and M. Karplus. Charmm : A program for macromolecular energy, minimization, and dynamics calculations. Journal of Computational Chemistry, 4 :187217, 1983. [4] Carleton L. Kingsford, Bernard Chazelle, and Mona Singh. Solving and analyzing side-chain positioning problems using linear and integer programming. Bioinformatics, 21(7) :10281039, 2005. [5] Georgii G. Krivov, Maxim V. Shapovalov, and Roland L. Dunbrack. Improved prediction of protein side-chain conformations with scwrl4. Proteins : Structure, Function, and Bioinformatics, 77(4) :778795, 2009. [6] Adrian A. Canutescu, Andrew A. Shelenkov, Roland L. Dunbrack, and Jr. A graph-theory algorithm for rapid protein side-chain prediction. PROTEIN SCI, 12 :20012014, 2003. [7] Wei Xie and Nikolaos V. Sahinidis. Residue-rotamer-reduction algorithm for the protein side-chain conformation problem. Bioinformatics, 22(2) :188194, 2006. [8] Wolfgang Kabsch and Christian Sander. Dictionary of protein secondary structure : Pattern recognition of hydrogen-bonded and geometrical features. Biopolymers, 22(12) :25772637, 1983. [9] Maxim V. Shapovalov and Roland L. Dunbrack Jr. A smoothed backbonedependent rotamer library for proteins derived from adaptive kernel density estimates and regressions. Structure, 19(6) :844 858, 2011.

38

[10] Gerard J. Kleywegt, Mark R. Harris, Jin-yu Zou, Thomas C. Taylor, Anders Whlby, and T. Alwyn Jones. The Uppsala Electron-Density Server. Acta Crystallographica Section D, 60(12 Part 1) :22402249, Dec 2004. [11] Guoli Wang and Roland L. Dunbrack. Pisces : a protein sequence culling server. Bioinformatics, 19(12) :15891591, 2003. [12] Jean-Pierre A. Kocher, Marianne J. Rooman, and Shoshana J. Wodak. Factors inuencing the ability of knowledge-based potentials to identify native sequencestructure matches. Journal of Molecular Biology, 235(5) :1598 1613, 1994. [13] M. Rooman Y. Dehouck, D. Gilis. A new generation of statistical potentials for proteins. Biophysical Journal, 90(11) :778795, 2006. [14] Yves Dehouck, Aline Grosls, Benjamin Folch, Dimitri Gilis, Philippe Bogaerts, and Marianne Rooman. Fast and accurate predictions of protein stability changes upon mutations using statistical potentials and neural networks : Popmusic-2.0. Bioinformatics, 25(19) :25372543, 2009. [15] Cyrus Chothia. The nature of the accessible and buried surfaces in proteins. Journal of Molecular Biology, 105(1) :1 12, 1976. [16] Huiling Chen and Huan-Xiang Zhou. Prediction of solvent accessibility and sites of deleterious mutations from protein sequence. Nucleic Acids Research, 33(10) :3193 3199.

39