Vous êtes sur la page 1sur 173

INF4500 - Structure 3D de protéine et ARN

Vladimir Reinharz

Avec du matériel de J. Waldispuhl

1 / 155
Le problème du repliement

Paradoxe de Levinthal
Nombre d’états ∼ 10n
Repliement en millisecondes ou microsecondes (petite prot.)
2 / 155
Acide aminé-s
Les simples

3 / 155
Acide aminé-s
Les aliphatique (linéaire ou ramifiée)

4 / 155
Acide aminé-s
Les cyclique et Sulfhydryle

5 / 155
Acide aminé-s
Les aromatiques

6 / 155
Acide aminé-s
Les aliphatiques hydroxyle (OH)

7 / 155
Acide aminé-s
Les carboxamide (CO) et carboxylates (OCO)

8 / 155
potentiel hydrogène (pH)

pH = − log10 [H + ]

9 / 155
Acide aminé-s
Les basiques

10 / 155
Structure primaire

Lien peptidique assemble deux acide aminés

11 / 155
Structure primaire

Une chaine est obtenue en concaténant de nombreux acide aminés

12 / 155
Lien peptidique
Dépend du pH

Zwitterionique est autant de positif que négatif


13 / 155
Lien peptidique
Propriété 1 : distances

14 / 155
Lien peptidique
Propriété 2 : plan

15 / 155
Lien peptidique
Propriété 3 : rotation ϕ et ψ
La chaine a deux degrés de libertés donné par les angles ϕ et ψ
La géométrie de la chaine peut être caractérisé par ϕ et ψ

16 / 155
Lien peptidique
Propriété 4 : orientation cis et trans
Trans préféré dans un ration ∼ 1000 : 1

17 / 155
Lien peptidique
Propriété 4.5 : exception orientation cis et trans
Proline est l’exception avec un ratio de ∼ 3 : 1

18 / 155
Diagramme de Ramachandran

19 / 155
Les résidus sont aussi flexibles

20 / 155
Rotamères
Conformations préférées des résidus

21 / 155
Hélice α

3.6 résidus par tour, lien hydrogène entre résidu n et n + 4

22 / 155
Brin β

23 / 155
Feuillet β

S’assemblent (parallèle et anti-parallèles)

24 / 155
Feuillet β
Parallèle et anti-parallèles

Anti-parallèle Parallèle

25 / 155
Autres structures β

26 / 155
Ramachandran et feuillets β

27 / 155
Boucles

28 / 155
Super structure secondaire

Les éléments de structure secondaire peuvent être assemblés en super motifs

29 / 155
Structure tertiaire

La structure tertiaire est l’ensemble des coordonées 3D des atomes d’une chaine d’acides aminés

30 / 155
Structure quaternaire

Plusieurs chaines peuvent s’assembler

31 / 155
Structure permet intéractions
Hémoglobine
Un hème (fer + anneau) intéragit avec la protéine
et permet de capturer l’oxygène

32 / 155
Structure globulaire

Préférence pour les acides aminés hydrophobe à l’intérieur et hydrophile à l’extérieur

33 / 155
Protéines transmembranaires
∼ 30% du génome
Ciblent de 50% des antibiotiques

34 / 155
Protéines se replient

35 / 155
Prédiction de structure de protéine

Quel définition de structure?


Quelle est la longueur de la séquence?
Quelle représentation / modèle est le plus approprié?
Simuler repliement?
Prédire structure?
Une ou plusieurs candidats?
Modèles physiques ou apprentissage automatique?

36 / 155
Dynamique moléculaire

37 / 155
Modèle sur un treillis

38 / 155
Apprentissage automatique

39 / 155
Homologie

40 / 155
Prédiction de la structure secondaire

41 / 155
Structure secondaire

42 / 155
Méthodes statistiques de prédiction

La séquence détermine la structure

Protéine se replit dans sa structure la plus stable (énergie minimale)

Structure plus conservé que séquence


Deux protéines avec 30% identité probablement même structure.

43 / 155
Évaluer une prédiction

Nombre résidus bien prédits


Q3 =
Nombre résidus

44 / 155
1ère et 2ème génération

Première gen : statistique sur 1 résidu


Fasman & Chou (1974)
Préférence (e.g. Glu⇒ α-hélice; Val⇒ β-brin)

Deuxième gen : statistique sur un segment


similaire

45 / 155
Problèmes

Mauvaise précision (Q3 sous 66%)

Pire pour les brins β (Q3 28-48%)

Juste petites structures

46 / 155
Méthodes de 3ème gen

Jusqu’à 80% précision

Deux nouvelles idées:


Biologique : information évolutive
Technologique : réseaux de neurones

47 / 155
Information évolutive

Comment peut-elle nous aider?

Homologues ⇒ structure similaire


Mais séquence varie jusqu’à 85%

† Séquence varie différemment, dépendant de la structure

48 / 155
Où est-ce que la séquence est le plus conservée?

Éléments de structure secondaire

Au "coeur" de la protéine (hydrophobique)

Structures avec des patterns


(hélices amphipatic alternent hydrophobique / hydrophylique)

49 / 155
Prédiction de structure secondaire
mal défini

Les prédictions utilisent des alignements multiples (des fois fait à la main)

Problème : Il n’y a pas d’algo. bien défini.

Solution : Réseau de neurones

50 / 155
Réseau de neurones artificiel (ANN)

Beaucoup de processeurs (neurones)


Hautement connecté
Travaille ensemble

51 / 155
Que fait une neurone?
Reçoit signal des voisins
Chaque signal à un poids
Quand il atteint un seuil, émet un signal

52 / 155
Structure générale

Une couche d’entrée

Quelques couches intermédiaires

Une couche de sortie

Unidirectionel

53 / 155
Entrainement et test

Training set : ensemble pour lequel on connait la réponse


Back. prop. - algorithme qui change les poids
Test set : ensemble pour valider les performances

54 / 155
Boite noire

Même si ça marche dur de savoir pourquoi

Dur de faire un algo. à partir du réseau

Difficile de déduire de nouveaux principes scientifiques

55 / 155
Structure d’algo. de troisième génération

1. Trouver des homologues

2. Faire un profil de la famille

3. Donner la séquence et profil à un réseau de neurones

4. Récupérer la prédiction

56 / 155
Algo. troisième génération
Défi 1

Mauvaise sélection des ensembles d’entrainement et validation

Hélice : 32%
Brins : 21%
Boucles : 47%

Que se passerait-il si on entraine avec des fragments au hasard?

57 / 155
Algo. troisième génération
Défi 2

Mauvaise séparation des ensembles d’entrainement et validation

Que se passerait-il si des homologues existent entre les ensembles d’entrainement et validation?

Trop d’optimisme!!!

58 / 155
Algo. troisième génération
Défi 3

Similarités des séquences de validation

59 / 155
PSIPRED

60 / 155
Étape 1
Trouver des homologues

PSI-BLAST (ou HMMER aujourd’hui)


Trouve des homologues distants

61 / 155
PSIPRED

Utilise deux réseaux de neurones

Sequence + alignement

1er NN

Prédiction

2ème NN

Prédiction finale

62 / 155
1er réseau

De la séquence et l’alignement

Prendre toutes les sous-séquences de 15 résidus

Prédire la structure de celui du milieu
ADCQEILHTSTTWYV
|{z}
Hélice / Brin / Boucle

63 / 155
Problème 1er réseau

L’alignement de séquence peut nous induire en erreur

64 / 155
2ème réseau

Pourquoi un deuxième réseau?


AAPPLLLLLMMMGIMMRRIC
αααααBBBBBαBBBBBβββ

65 / 155
2ème réseau

Pourquoi un deuxième réseau?


AAPPLLLLLMMMGIMMRRIC
αααααBBBBBαBBBBBβββ

Solution : 2ème réseau regarde tout le contexte!

65 / 155
PSIPRED

Entrainement : Balancé

Validation : 187 protéines bien connues


Pas de similarité de structure

66 / 155
PSIPRED
Résultats rapportés

67 / 155
PSIPRED
Confiance
Confiance : comment le réseau nous dit qu’il est certain
Corrèle avec la précision

68 / 155
Évaluer les performances

Les méthodes de 3ème gen. améliorent la précision de plus de 10%


Plusieurs méthodes existent

Laquelle est la meilleure?


Comment reconnaitre celles trop enthousiastes?

69 / 155
Évaluer les performances

Wang et al., 2016, Scientific report

70 / 155
Évaluer les performances

PSIPRED est une des méthodes les plus fiables

Pourquoi?
Plus d’information évolutive (alignement de séquence)
Entrainement et validation très stricte des réseaux

71 / 155
Améliorations

Les premières méthodes de 3ème gen. avaient ∼ 72%Q3

Aujourd’hui autour de ∼ 80%Q3

Sources d’améliorations?
Plus grandes bases de données
Meilleur à trouver des homologues éloignés

72 / 155
Faire encore mieux?

Encore plus grande base de données?

Combiner les méthodes


Combi. 4 meilleurs méthodes augmente Q3 de 5%

Comprendre pourquoi certaines protéines sont mal prédites

73 / 155
Brins β

Prédiction structure secondaire arrive à 80%


Pire sur les brins β
Pourquoi?

74 / 155
Brins β

Prédiction structure secondaire arrive à 80%


Pire sur les brins β
Pourquoi?

Stabilisation avec des interactions longues distances

Pouvons nous prédire les contactes?

74 / 155
Brins β

75 / 155
Contact inter-résidus

76 / 155
Carte des contact

77 / 155
Interprétation carte des contact

78 / 155
Prédiction de contact

EVcoupling : prédiction à partir de variation de séquence

AlphaFold : apprentissage automatique

79 / 155
EVcoupling

80 / 155
Entropy

X
H(X ) = p(x) log(p(x))
x∈X

Mesure l’incertitude
Maximale avec p(x) uniforme
Base 2 représente l’info en bits

81 / 155
Information mutuelle

XX p(x, y )
MI (X , Y ) = p(x, y ) log
p(x)p(y )
x∈X y ∈Y

Combien d’information est partagée?

82 / 155
DCA (direct coupling analysis)
Objectif : Calculer l’ensemble des couplages directes entre résidus
qui explique le mieux les corrélations de paires dans l’alignement multiple

Idée :
Maximiser l’accord entre la fréquence attendue et celle observée
Trouver la distribution globale avec le maximum d’entropy

Solution (viens de physique statistique):


1
Terme PijDir (Ai , Aj ) = eei,j (Ai ,Aj )+h̃i (Ai )+h̃j (Aj )
Z

Terme DCA:
X PijDir (Ai , Aj )
DIij = PijDir (Ai , Aj ) ln
fi (Ai )fj (Aj )
Ai ,Aj
83 / 155
Et vers la 3D (EVfold)

1. Ordonner les paires dans la séquences en fonction du score DI


2. Assume quelles sont en contact (inféré évolutionnairement)

84 / 155
Et vers la 3D (EVfold)

1. Ordonner les paires dans la séquences en fonction du score DI


2. Assume quelles sont en contact (inféré évolutionnairement)

84 / 155
AlphaFold

85 / 155
AlphaFold méthode

86 / 155
AlphaFold résultats

87 / 155
AlphaFold en théorie

88 / 155
AlphaFold en théorie

88 / 155
AlphaFold en théorie

88 / 155
AlphaFold en théorie

88 / 155
AlphaFold en théorie

88 / 155
Et après?

89 / 155
Complexes de protéines

90 / 155
Complexes de protéines

90 / 155
Complexes de protéines

90 / 155
Chemin de repliement

91 / 155
Repliement de protéine

92 / 155
P3Fold csb.cs.mcgill.ca/P3Fold

93 / 155
P3Fold csb.cs.mcgill.ca/P3Fold

93 / 155
Dynamique moléculaire

Calcule comment un ensemble de particule bouge dans le temps

Ensemble d’atomes avec position et vitesse


et les énergies potentielles du système

Prédire la position après un temps très court, résoudre mécanique de newtonienne

94 / 155
Dynamique moléculaire

95 / 155
Dynamique moléculaire

95 / 155
Structure d’ARN

96 / 155
Structure d’ARN

97 / 155
Energy

98 / 155
Elements de structure secondaire (SSEs)

99 / 155
Une paire de base

100 / 155
A–A non-canonique
Hydrogen bonds
E dge
W-C

Sugar edge A
Sugar edge

W-
A

C
Edg
e

Ho
Backbone

og
ste
en
Ed
ge
dge
teen E
Hoogs e
n
kbo
Ba c

101 / 155
Leontis–Westhof interactions
Cis orientation
WC
H
S H WC
S H
WC S

H WC WC H H WC
S S S

Cis Watson Crick/Watson Crick Cis Watson Crick/Hoogsteen Cis Watson Crick/Sugar Edge

H WC
WC WC
H S
S
H S S
WC WC
H H WC H
S S

Cis Hoogsteen/Hoogsteen Cis Hoogsteen/Sugar Edge Cis Sugar Edge/Sugar Edge

Trans orientation
S
H

S WC
S H
WC WC H
H H WC
H WC
S S WC
S
Trans Watson Crick/Watson Crick Trans Watson Crick/Hoogsteen Trans Watson Crick/Sugar Edge

H WC
S H S
WC H WC S S
H WC H WC WC H
S S

Trans Hoogsteen/Hoogsteen Trans Hoogsteen/Sugar Edge Trans Sugar Edge/Sugar Edge

102 / 155
Annotations des boucles

103 / 155
Conservation des boucles GNRA

104 / 155
Conservation des interactions avec GNRA

105 / 155
Quels sont les motifs structuraux importants?

106 / 155
Isomorphismes de graphes
11 12 24 25
11 12 24 25

10 13 23 26
10 13 23 26

9 14 22 27
9 14 22 27

8 15 21 28
8 15 21 28

7 16 20 29
7 16 20 29

6 17 18 19 30
6 17 18 19 30

5 31
5 31

4 32
4 32

107 / 155
Problème d’isomorphisme de graphes

Utiliser la théorie des graphes pour:

1. Trouver des patterns identiques


2. Trouver des patterns similaires

108 / 155
Problème d’isomorphisme de graphes

Utiliser la théorie des graphes pour:

1. Trouver des patterns identiques


2. Trouver des patterns similaires

Bien sur NP-complet

108 / 155
Approche 1
Trouver des petits motifs

109 / 155
Chercher dans FR3D

110 / 155
Nous apprenons

1. Position des insertions, délétions


2. Covariations des paires de bases
3. Conservation
Problème: Peu d’exemples

111 / 155
RNA3Dmotif
Djelloul & Denise, 2008

Soit une structure, comment identifier des motifs inconnus?


Identifier les éléments de structures secondaires
Calculer une valeur de similarité
Cluster en fonction de la similarité

112 / 155
Motifs dans le ribosome

113 / 155
Nouveaux motifs

114 / 155
Toutes les approches précédentes sont pour
une boucle à la fois

115 / 155
carnaval.lri.fr
N’importe quelle conservation

11 12 24 25

10 13 23 26

9 14 22 27

11 12 24 25

10 13 23 26

9 14 22 27

28

116 / 155
Est-ce que la représentation en graphe
conserve vraiment l’information géométrique?

117 / 155
Isostéricité

Stombaugh, Zirble, Westhof & Leontis, Frequency

and isostericity of RNA base pairs, NAR, 2009


118 / 155
Isostéricité

Stombaugh, Zirble, Westhof & Leontis,

Frequency and isostericity of RNA base pairs, NAR, 2009


118 / 155
Isostéricité

Stombaugh, Zirble, Westhof & Leontis,

Frequency and isostericity of RNA base pairs, NAR, 2009


118 / 155
G–C vs U–A en cWW

119 / 155
Comparer les paires cWW

120 / 155
Comparer toutes les familles

121 / 155
Prédiction de structure 3D

122 / 155
MC-Fold | MC-Sym
F. Major de l’UdM
Basé sur la décomposition en cycles appelé des "non-canonical motifs" (NCMs)

123 / 155
MC-Fold

124 / 155
MC-Sym

125 / 155
RNA-MoIP: vers la prédiction de grandes molécules

Reinharz et al., ISMB, Bioinformatics, 2012.

126 / 155
RNA-MoIP améliore les résultats de MC-Sym
Précision 3D
Précision paires de bases

127 / 155
RNAMoIP 2 (Gabriel Loyer)
Prediction structure avec pseudo-noeuds + motifs

128 / 155
RNAMoIP 2 Sensitivité
Fraction bien trouvée

129 / 155
RNAMoIP 2 Valeur Prédite Positive
Fraction de vrais

130 / 155
RNAMoIP 2 en moyenne (F1)

131 / 155
Prédiction de motif 3D dans une séquence
RMDetect
Précision 3D

Utilise des réseaux Bayésiens


Cherche des sous-séquences probables
Regarde stabilité avec RNAfold

132 / 155
Prédiction de motif 3D dans une séquence
BayesPairing 2

133 / 155
Au-delà des motifs
Il y a 7 degrés de libertés pour un nucléotide

134 / 155
Un modèle continu, probabiliste, et local
Jes Frellsen et al.
Modéliser et estimer la distribution des angles

135 / 155
Modéliser et estimer la distribution des angles

Chaque variable est un mix de distributions simples


Distribution de Von Mises, distribution normale sur un cercle
Les angles covarient avec leurs voisin
Modèle séquentiel

136 / 155
IOHMM (Input / Output HMM)
Permets aux probabilités de dépendre de plusieurs covariants

137 / 155
Le modèle probabiliste, continue et local de la structure 3D d’ARN
Paramètres estimé par du data expérimentale et du Expectation–Maximisation

138 / 155
Modèle capture les angles

Angle α Angle ε

139 / 155
Modèle capture les dépendances des paires

140 / 155
Stratégie pour la prédiction de structure 3D

1 Échantillonner une structure S, sans clash


2 Modifier S en S ′ en changeant 4 angles consécutifs aléatoires
3 Évaluer S
1 Si il y a des clash: rejet
2 Si S ′ est plus stable, il remplace S
3 Si S ′ est moins table, remplacer S avec probabilité p
4 retourner à 2

141 / 155
Résultats

142 / 155
Résultats

142 / 155
CryoEM

143 / 155
CryoEM

143 / 155
CryoEM

Zhang et al., Cryo-EM structure of a 40 kDa SAM-IV riboswitch RNA at 3.7A resolution, Nature, 2019 143 / 155
Description de structure 3D

144 / 155
Architecture de la structure

145 / 155
Format PDB

146 / 155
Syntaxe d’une ligne ATOM

147 / 155
Syntaxe d’une ligne ATOM

147 / 155
Lire un PDB avec Biopython
from Bio.PDB.PDBParser import PDBParser

parser = PDBParser(PERISSIVE=1)

#Si le fichier est en format cif,


#il faut juste changer 2 lignes
#tout le reste est le même
#from Bio.PDB import MMCIFParser
#parser = PDBParser()

structure_id = "1FAT"

filename = "1FAT.pdb"

struct = parser.get_structure(structure_id, filename) 148 / 155


Travailler avec un objet structure

•Choisir un model (e.g.: model = struct[0])


•Choisir une chaîne (e.g.: chain = model["A"])
•Choisir un résidu (e.g.: res10 = chain[10])
•Choisir un atome (e.g.: ato = res10["CA"])

149 / 155
Propriétés des atomes

La méthode .get_id() retourne un triplet ("", Numéro du résidue, ""). Pour le numéro du
résidu il faut donc récupérer le 1er élément.
position = atom.get_id()[1]
150 / 155
Objets structure et types de Python

Les structures, chaînes, résidus et atomes ont un paquet de méthode mais fondamentalement
ils sont comme:

Structure est comme une list

Chaîne est comme un dict avec des str comme clefs

Résidu est comme une list

Atome est comme un dict avec des str comme clefs

151 / 155
B-factor a.k.a temperature factor a.k.a. Debye–Waller factor

Pour chaque atome mesure la dispersion de la densité des électrons de l’atome

Plus petit que 30 c’est un indicateur de fix

Plus grand que 60 c’est un indicateur de désordre

152 / 155
Exemple
from Bio.PDB.PDBParser import PDBParser
parser=PDBParser()

# parse PDB file and store it in structure object


structure=parser.get_structure("test", "1fat.pdb")

# print the coordinate of CA atoms with B factor > 50


for model in structure.get_list():
for chain in model.get_list():
for residue in chain.get_list():
if residue.has_id("CA"):
ca=residue["CA"]
if ca.get_bfactor()>50.0:
print(ca.get_coord())
153 / 155
Contactes et distances

L’information est la position dans l’espace de chaque atome

Les contactes sont inférés à partir de la distance entre ces atomes

Classiquement: moins de 8 est un contacte

Classiquement: On regarde la distance entre carbones C − α, celui qui attache le résidu à la


chaîne

Comment faire?

154 / 155
Distances entre atomes

from Bio.PDB import PDBParser


parser = PDBParser()

structures = parser.get_structure("1RUY", "1RUY.pdb")


chain_H = structures[0]["H"]

res10 = chain_H[10]
res11 = chain_H[11]
print(res11["CA"] - res100["CA"])

155 / 155

Vous aimerez peut-être aussi