3d Prot Arn

INF4500 - Structure 3D de protéine et ARN
Vladimir Reinharz
Avec du matériel de J. Waldispuhl
1 / 155
Le problème du repliement
Paradoxe de Levinthal
Nombre d’états ∼ 10n
Repliement en millisecondes ou microsecondes (petite prot.)
2 / 155
Acide aminé-s
Les simples
3 / 155
Acide aminé-s
Les aliphatique (linéaire ou ramifiée)
4 / 155
Acide aminé-s
Les cyclique et Sulfhydryle
5 / 155
Acide aminé-s
Les aromatiques
6 / 155
Acide aminé-s
Les aliphatiques hydroxyle (OH)
7 / 155
Acide aminé-s
Les carboxamide (CO) et carboxylates (OCO)
8 / 155
potentiel hydrogène (pH)
pH = − log10 [H + ]
9 / 155
Acide aminé-s
Les basiques
10 / 155
Structure primaire
Lien peptidique assemble deux acide aminés
11 / 155
Structure primaire
Une chaine est obtenue en concaténant de nombreux acide aminés
12 / 155
Lien peptidique
Dépend du pH
Zwitterionique est autant de positif que négatif

13 / 155
Lien peptidique
Propriété 1 : distances
14 / 155
Lien peptidique
Propriété 2 : plan
15 / 155
Lien peptidique
Propriété 3 : rotation ϕ et ψ
La chaine a deux degrés de libertés donné par les angles ϕ et ψ
La géométrie de la chaine peut être caractérisé par ϕ et ψ
16 / 155
Lien peptidique
Propriété 4 : orientation cis et trans
Trans préféré dans un ration ∼ 1000 : 1
17 / 155
Lien peptidique
Propriété 4.5 : exception orientation cis et trans
Proline est l’exception avec un ratio de ∼ 3 : 1
18 / 155
Diagramme de Ramachandran
19 / 155
Les résidus sont aussi flexibles
20 / 155
Rotamères
Conformations préférées des résidus
21 / 155
Hélice α
3.6 résidus par tour, lien hydrogène entre résidu n et n + 4
22 / 155
Brin β
23 / 155
Feuillet β
S’assemblent (parallèle et anti-parallèles)
24 / 155
Feuillet β
Parallèle et anti-parallèles
Anti-parallèle Parallèle
25 / 155
Autres structures β
26 / 155
Ramachandran et feuillets β
27 / 155
Boucles
28 / 155
Super structure secondaire
Les éléments de structure secondaire peuvent être assemblés en super motifs
29 / 155
Structure tertiaire
La structure tertiaire est l’ensemble des coordonées 3D des atomes d’une chaine d’acides aminés
30 / 155
Structure quaternaire
Plusieurs chaines peuvent s’assembler
31 / 155
Structure permet intéractions
Hémoglobine
Un hème (fer + anneau) intéragit avec la protéine
et permet de capturer l’oxygène
32 / 155
Structure globulaire
Préférence pour les acides aminés hydrophobe à l’intérieur et hydrophile à l’extérieur
33 / 155
Protéines transmembranaires
∼ 30% du génome
Ciblent de 50% des antibiotiques
34 / 155
Protéines se replient
35 / 155
Prédiction de structure de protéine
Quel définition de structure?

Quelle est la longueur de la séquence?
Quelle représentation / modèle est le plus approprié?
Simuler repliement?
Prédire structure?
Une ou plusieurs candidats?
Modèles physiques ou apprentissage automatique?
36 / 155
Dynamique moléculaire
37 / 155
Modèle sur un treillis
38 / 155
Apprentissage automatique
39 / 155
Homologie
40 / 155
Prédiction de la structure secondaire
41 / 155
Structure secondaire
42 / 155
Méthodes statistiques de prédiction
La séquence détermine la structure
Protéine se replit dans sa structure la plus stable (énergie minimale)
Structure plus conservé que séquence

Deux protéines avec 30% identité probablement même structure.
43 / 155
Évaluer une prédiction
Nombre résidus bien prédits

Q3 =
Nombre résidus
44 / 155
1ère et 2ème génération
Première gen : statistique sur 1 résidu

Fasman & Chou (1974)
Préférence (e.g. Glu⇒ α-hélice; Val⇒ β-brin)
Deuxième gen : statistique sur un segment

similaire
45 / 155
Problèmes
Mauvaise précision (Q3 sous 66%)
Pire pour les brins β (Q3 28-48%)
Juste petites structures
46 / 155
Méthodes de 3ème gen
Jusqu’à 80% précision
Deux nouvelles idées:

Biologique : information évolutive
Technologique : réseaux de neurones
47 / 155
Information évolutive
Comment peut-elle nous aider?
Homologues ⇒ structure similaire

Mais séquence varie jusqu’à 85%
† Séquence varie différemment, dépendant de la structure
48 / 155
Où est-ce que la séquence est le plus conservée?
Éléments de structure secondaire
Au "coeur" de la protéine (hydrophobique)
Structures avec des patterns

(hélices amphipatic alternent hydrophobique / hydrophylique)
49 / 155
Prédiction de structure secondaire
mal défini
Les prédictions utilisent des alignements multiples (des fois fait à la main)
Problème : Il n’y a pas d’algo. bien défini.
Solution : Réseau de neurones
50 / 155
Réseau de neurones artificiel (ANN)
Beaucoup de processeurs (neurones)

Hautement connecté
Travaille ensemble
51 / 155
Que fait une neurone?
Reçoit signal des voisins
Chaque signal à un poids
Quand il atteint un seuil, émet un signal
52 / 155
Structure générale
Une couche d’entrée
Quelques couches intermédiaires
Une couche de sortie
Unidirectionel
53 / 155
Entrainement et test
Training set : ensemble pour lequel on connait la réponse

Back. prop. - algorithme qui change les poids
Test set : ensemble pour valider les performances
54 / 155
Boite noire
Même si ça marche dur de savoir pourquoi
Dur de faire un algo. à partir du réseau
Difficile de déduire de nouveaux principes scientifiques
55 / 155
Structure d’algo. de troisième génération
1. Trouver des homologues
2. Faire un profil de la famille
3. Donner la séquence et profil à un réseau de neurones
4. Récupérer la prédiction
56 / 155
Algo. troisième génération
Défi 1
Mauvaise sélection des ensembles d’entrainement et validation
Hélice : 32%
Brins : 21%
Boucles : 47%
Que se passerait-il si on entraine avec des fragments au hasard?
57 / 155
Défi 2
Mauvaise séparation des ensembles d’entrainement et validation
Que se passerait-il si des homologues existent entre les ensembles d’entrainement et validation?
Trop d’optimisme!!!
58 / 155
Défi 3
Similarités des séquences de validation
59 / 155
PSIPRED
60 / 155
Étape 1
Trouver des homologues
PSI-BLAST (ou HMMER aujourd’hui)

Trouve des homologues distants
61 / 155
PSIPRED
Utilise deux réseaux de neurones
Sequence + alignement
⇓
1er NN
⇓
Prédiction
⇓
2ème NN
⇓
Prédiction finale
62 / 155
1er réseau
De la séquence et l’alignement
⇓
Prendre toutes les sous-séquences de 15 résidus
⇓
Prédire la structure de celui du milieu
ADCQEILHTSTTWYV
|{z}
Hélice / Brin / Boucle
63 / 155
Problème 1er réseau
L’alignement de séquence peut nous induire en erreur
64 / 155
2ème réseau
Pourquoi un deuxième réseau?

AAPPLLLLLMMMGIMMRRIC
αααααBBBBBαBBBBBβββ
65 / 155
2ème réseau
Pourquoi un deuxième réseau?

AAPPLLLLLMMMGIMMRRIC
αααααBBBBBαBBBBBβββ
Solution : 2ème réseau regarde tout le contexte!
65 / 155
PSIPRED
Entrainement : Balancé
Validation : 187 protéines bien connues

Pas de similarité de structure
66 / 155
PSIPRED
Résultats rapportés
67 / 155
PSIPRED
Confiance
Confiance : comment le réseau nous dit qu’il est certain
Corrèle avec la précision
68 / 155
Évaluer les performances
Les méthodes de 3ème gen. améliorent la précision de plus de 10%

Plusieurs méthodes existent
Laquelle est la meilleure?

Comment reconnaitre celles trop enthousiastes?
69 / 155
Wang et al., 2016, Scientific report
70 / 155
PSIPRED est une des méthodes les plus fiables
Pourquoi?
Plus d’information évolutive (alignement de séquence)
Entrainement et validation très stricte des réseaux
71 / 155
Améliorations
Les premières méthodes de 3ème gen. avaient ∼ 72%Q3
Aujourd’hui autour de ∼ 80%Q3
Sources d’améliorations?
Plus grandes bases de données
Meilleur à trouver des homologues éloignés
72 / 155
Faire encore mieux?
Encore plus grande base de données?
Combiner les méthodes

Combi. 4 meilleurs méthodes augmente Q3 de 5%
Comprendre pourquoi certaines protéines sont mal prédites
73 / 155
Brins β
Prédiction structure secondaire arrive à 80%

Pire sur les brins β
Pourquoi?
74 / 155
Brins β
Prédiction structure secondaire arrive à 80%

Pire sur les brins β
Pourquoi?
Stabilisation avec des interactions longues distances
Pouvons nous prédire les contactes?
74 / 155
Brins β
75 / 155
Contact inter-résidus
76 / 155
Carte des contact
77 / 155
Interprétation carte des contact
78 / 155
Prédiction de contact
EVcoupling : prédiction à partir de variation de séquence
AlphaFold : apprentissage automatique
79 / 155
EVcoupling
80 / 155
Entropy
X
H(X ) = p(x) log(p(x))
x∈X
Mesure l’incertitude
Maximale avec p(x) uniforme
Base 2 représente l’info en bits
81 / 155
Information mutuelle
XX p(x, y )
MI (X , Y ) = p(x, y ) log
p(x)p(y )
x∈X y ∈Y
Combien d’information est partagée?
82 / 155
DCA (direct coupling analysis)
Objectif : Calculer l’ensemble des couplages directes entre résidus
qui explique le mieux les corrélations de paires dans l’alignement multiple
Idée :
Maximiser l’accord entre la fréquence attendue et celle observée
Trouver la distribution globale avec le maximum d’entropy
Solution (viens de physique statistique):

1
Terme PijDir (Ai , Aj ) = eei,j (Ai ,Aj )+h̃i (Ai )+h̃j (Aj )
Z
Terme DCA:
X PijDir (Ai , Aj )
DIij = PijDir (Ai , Aj ) ln
fi (Ai )fj (Aj )
Ai ,Aj
83 / 155
Et vers la 3D (EVfold)
1. Ordonner les paires dans la séquences en fonction du score DI

2. Assume quelles sont en contact (inféré évolutionnairement)
84 / 155
Et vers la 3D (EVfold)
1. Ordonner les paires dans la séquences en fonction du score DI

2. Assume quelles sont en contact (inféré évolutionnairement)
84 / 155
AlphaFold
85 / 155
AlphaFold méthode
86 / 155
AlphaFold résultats
87 / 155
AlphaFold en théorie
88 / 155
88 / 155
88 / 155
88 / 155
88 / 155
Et après?
89 / 155
Complexes de protéines
90 / 155
90 / 155
90 / 155
Chemin de repliement
91 / 155
Repliement de protéine
92 / 155
P3Fold csb.cs.mcgill.ca/P3Fold
93 / 155
P3Fold csb.cs.mcgill.ca/P3Fold
93 / 155
Calcule comment un ensemble de particule bouge dans le temps
Ensemble d’atomes avec position et vitesse

et les énergies potentielles du système
Prédire la position après un temps très court, résoudre mécanique de newtonienne
94 / 155
95 / 155
95 / 155
Structure d’ARN
96 / 155
Structure d’ARN
97 / 155
Energy
98 / 155
Elements de structure secondaire (SSEs)
99 / 155
Une paire de base
100 / 155
A–A non-canonique
Hydrogen bonds
E dge
W-C
Sugar edge A
Sugar edge
W-
A
C
Edg
e
Ho
Backbone
og
ste
en
Ed
ge
dge
teen E
Hoogs e
n
kbo
Ba c
101 / 155
Leontis–Westhof interactions
Cis orientation
WC
H
S H WC
S H
WC S
H WC WC H H WC
S S S
Cis Watson Crick/Watson Crick Cis Watson Crick/Hoogsteen Cis Watson Crick/Sugar Edge
H WC
WC WC
H S
S
H S S
WC WC
H H WC H
S S
Cis Hoogsteen/Hoogsteen Cis Hoogsteen/Sugar Edge Cis Sugar Edge/Sugar Edge
Trans orientation
S
H
S WC
S H
WC WC H
H H WC
H WC
S S WC
S
Trans Watson Crick/Watson Crick Trans Watson Crick/Hoogsteen Trans Watson Crick/Sugar Edge
H WC
S H S
WC H WC S S
H WC H WC WC H
S S
Trans Hoogsteen/Hoogsteen Trans Hoogsteen/Sugar Edge Trans Sugar Edge/Sugar Edge
102 / 155
Annotations des boucles
103 / 155
Conservation des boucles GNRA
104 / 155
Conservation des interactions avec GNRA
105 / 155
Quels sont les motifs structuraux importants?
106 / 155
Isomorphismes de graphes
11 12 24 25
11 12 24 25
10 13 23 26
10 13 23 26
9 14 22 27
9 14 22 27
8 15 21 28
8 15 21 28
7 16 20 29
7 16 20 29
6 17 18 19 30
6 17 18 19 30
5 31
5 31
4 32
4 32
107 / 155
Problème d’isomorphisme de graphes
Utiliser la théorie des graphes pour:
1. Trouver des patterns identiques

2. Trouver des patterns similaires
108 / 155
Problème d’isomorphisme de graphes
Utiliser la théorie des graphes pour:
1. Trouver des patterns identiques

2. Trouver des patterns similaires
Bien sur NP-complet
108 / 155
Approche 1
Trouver des petits motifs
109 / 155
Chercher dans FR3D
110 / 155
Nous apprenons
1. Position des insertions, délétions

2. Covariations des paires de bases
3. Conservation
Problème: Peu d’exemples
111 / 155
RNA3Dmotif
Djelloul & Denise, 2008
Soit une structure, comment identifier des motifs inconnus?

Identifier les éléments de structures secondaires
Calculer une valeur de similarité
Cluster en fonction de la similarité
112 / 155
Motifs dans le ribosome
113 / 155
Nouveaux motifs
114 / 155
Toutes les approches précédentes sont pour
une boucle à la fois
115 / 155
carnaval.lri.fr
N’importe quelle conservation
11 12 24 25
10 13 23 26
9 14 22 27
11 12 24 25
10 13 23 26
9 14 22 27
28
116 / 155
Est-ce que la représentation en graphe
conserve vraiment l’information géométrique?
117 / 155
Isostéricité
Stombaugh, Zirble, Westhof & Leontis, Frequency
and isostericity of RNA base pairs, NAR, 2009

118 / 155
Isostéricité
Stombaugh, Zirble, Westhof & Leontis,
Frequency and isostericity of RNA base pairs, NAR, 2009

118 / 155
Isostéricité
Stombaugh, Zirble, Westhof & Leontis,
Frequency and isostericity of RNA base pairs, NAR, 2009

118 / 155
G–C vs U–A en cWW
119 / 155
Comparer les paires cWW
120 / 155
Comparer toutes les familles
121 / 155
Prédiction de structure 3D
122 / 155
MC-Fold | MC-Sym
F. Major de l’UdM
Basé sur la décomposition en cycles appelé des "non-canonical motifs" (NCMs)
123 / 155
MC-Fold
124 / 155
MC-Sym
125 / 155
RNA-MoIP: vers la prédiction de grandes molécules
Reinharz et al., ISMB, Bioinformatics, 2012.
126 / 155
RNA-MoIP améliore les résultats de MC-Sym
Précision 3D
Précision paires de bases
127 / 155
RNAMoIP 2 (Gabriel Loyer)
Prediction structure avec pseudo-noeuds + motifs
128 / 155
RNAMoIP 2 Sensitivité
Fraction bien trouvée
129 / 155
RNAMoIP 2 Valeur Prédite Positive
Fraction de vrais
130 / 155
RNAMoIP 2 en moyenne (F1)
131 / 155
Prédiction de motif 3D dans une séquence
RMDetect
Précision 3D
Utilise des réseaux Bayésiens

Cherche des sous-séquences probables
Regarde stabilité avec RNAfold
132 / 155
Prédiction de motif 3D dans une séquence
BayesPairing 2
133 / 155
Au-delà des motifs
Il y a 7 degrés de libertés pour un nucléotide
134 / 155
Un modèle continu, probabiliste, et local
Jes Frellsen et al.
Modéliser et estimer la distribution des angles
135 / 155
Modéliser et estimer la distribution des angles
Chaque variable est un mix de distributions simples

Distribution de Von Mises, distribution normale sur un cercle
Les angles covarient avec leurs voisin
Modèle séquentiel
136 / 155
IOHMM (Input / Output HMM)
Permets aux probabilités de dépendre de plusieurs covariants
137 / 155
Le modèle probabiliste, continue et local de la structure 3D d’ARN
Paramètres estimé par du data expérimentale et du Expectation–Maximisation
138 / 155
Modèle capture les angles
Angle α Angle ε
139 / 155
Modèle capture les dépendances des paires
140 / 155
Stratégie pour la prédiction de structure 3D
1 Échantillonner une structure S, sans clash

2 Modifier S en S ′ en changeant 4 angles consécutifs aléatoires
3 Évaluer S
1 Si il y a des clash: rejet
2 Si S ′ est plus stable, il remplace S
3 Si S ′ est moins table, remplacer S avec probabilité p
4 retourner à 2
141 / 155
Résultats
142 / 155
Résultats
142 / 155
CryoEM
143 / 155
CryoEM
143 / 155
CryoEM
Zhang et al., Cryo-EM structure of a 40 kDa SAM-IV riboswitch RNA at 3.7A resolution, Nature, 2019 143 / 155
Description de structure 3D
144 / 155
Architecture de la structure
145 / 155
Format PDB
146 / 155
Syntaxe d’une ligne ATOM
147 / 155
Syntaxe d’une ligne ATOM
147 / 155
Lire un PDB avec Biopython
from Bio.PDB.PDBParser import PDBParser
parser = PDBParser(PERISSIVE=1)
#Si le fichier est en format cif,

#il faut juste changer 2 lignes
#tout le reste est le même
#from Bio.PDB import MMCIFParser
#parser = PDBParser()
structure_id = "1FAT"
filename = "1FAT.pdb"
struct = parser.get_structure(structure_id, filename) 148 / 155

Travailler avec un objet structure
•Choisir un model (e.g.: model = struct[0])

•Choisir une chaîne (e.g.: chain = model["A"])
•Choisir un résidu (e.g.: res10 = chain[10])
•Choisir un atome (e.g.: ato = res10["CA"])
149 / 155
Propriétés des atomes
La méthode .get_id() retourne un triplet ("", Numéro du résidue, ""). Pour le numéro du
résidu il faut donc récupérer le 1er élément.
position = atom.get_id()[1]
150 / 155
Objets structure et types de Python
Les structures, chaînes, résidus et atomes ont un paquet de méthode mais fondamentalement
ils sont comme:
Structure est comme une list
Chaîne est comme un dict avec des str comme clefs
Résidu est comme une list
Atome est comme un dict avec des str comme clefs
151 / 155
B-factor a.k.a temperature factor a.k.a. Debye–Waller factor
Pour chaque atome mesure la dispersion de la densité des électrons de l’atome
Plus petit que 30 c’est un indicateur de fix
Plus grand que 60 c’est un indicateur de désordre
152 / 155
Exemple
from Bio.PDB.PDBParser import PDBParser
parser=PDBParser()
# parse PDB file and store it in structure object

structure=parser.get_structure("test", "1fat.pdb")
# print the coordinate of CA atoms with B factor > 50

for model in structure.get_list():
for chain in model.get_list():
for residue in chain.get_list():
if residue.has_id("CA"):
ca=residue["CA"]
if ca.get_bfactor()>50.0:
print(ca.get_coord())
153 / 155
Contactes et distances
L’information est la position dans l’espace de chaque atome
Les contactes sont inférés à partir de la distance entre ces atomes
Classiquement: moins de 8 est un contacte
Classiquement: On regarde la distance entre carbones C − α, celui qui attache le résidu à la

chaîne
Comment faire?
154 / 155
Distances entre atomes
from Bio.PDB import PDBParser

parser = PDBParser()
structures = parser.get_structure("1RUY", "1RUY.pdb")

chain_H = structures[0]["H"]
res10 = chain_H[10]
res11 = chain_H[11]
print(res11["CA"] - res100["CA"])
155 / 155

3d Prot Arn

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

3d Prot Arn

Transféré par

Droits d'auteur :

Formats disponibles

INF4500 - Structure 3D de protéine et ARN

Avec du matériel de J. Waldispuhl

Lien peptidique assemble deux acide aminés

Une chaine est obtenue en concaténant de nombreux acide aminés

Zwitterionique est autant de positif que négatif

3.6 résidus par tour, lien hydrogène entre résidu n et n + 4

S’assemblent (parallèle et anti-parallèles)

Les éléments de structure secondaire peuvent être assemblés en super motifs

Plusieurs chaines peuvent s’assembler

Préférence pour les acides aminés hydrophobe à l’intérieur et hydrophile à l’extérieur

Quel définition de structure?

La séquence détermine la structure

Protéine se replit dans sa structure la plus stable (énergie minimale)

Structure plus conservé que séquence

Nombre résidus bien prédits

Première gen : statistique sur 1 résidu

Deuxième gen : statistique sur un segment

Mauvaise précision (Q3 sous 66%)

Pire pour les brins β (Q3 28-48%)

Juste petites structures

Jusqu’à 80% précision

Deux nouvelles idées:

Comment peut-elle nous aider?

Homologues ⇒ structure similaire

† Séquence varie différemment, dépendant de la structure

Éléments de structure secondaire

Au "coeur" de la protéine (hydrophobique)

Structures avec des patterns

Problème : Il n’y a pas d’algo. bien défini.

Solution : Réseau de neurones

Beaucoup de processeurs (neurones)

Une couche d’entrée

Quelques couches intermédiaires

Une couche de sortie

Training set : ensemble pour lequel on connait la réponse

Même si ça marche dur de savoir pourquoi

Dur de faire un algo. à partir du réseau

Difficile de déduire de nouveaux principes scientifiques

1. Trouver des homologues

2. Faire un profil de la famille

3. Donner la séquence et profil à un réseau de neurones

Mauvaise sélection des ensembles d’entrainement et validation

Que se passerait-il si on entraine avec des fragments au hasard?

Mauvaise séparation des ensembles d’entrainement et validation

Similarités des séquences de validation

PSI-BLAST (ou HMMER aujourd’hui)

Utilise deux réseaux de neurones

L’alignement de séquence peut nous induire en erreur

Pourquoi un deuxième réseau?

Pourquoi un deuxième réseau?

Solution : 2ème réseau regarde tout le contexte!

Validation : 187 protéines bien connues

Les méthodes de 3ème gen. améliorent la précision de plus de 10%

Laquelle est la meilleure?

Wang et al., 2016, Scientific report

PSIPRED est une des méthodes les plus fiables

Les premières méthodes de 3ème gen. avaient ∼ 72%Q3

Aujourd’hui autour de ∼ 80%Q3

Encore plus grande base de données?

Combiner les méthodes

Comprendre pourquoi certaines protéines sont mal prédites

Prédiction structure secondaire arrive à 80%

Prédiction structure secondaire arrive à 80%