Académique Documents
Professionnel Documents
Culture Documents
Vladimir Reinharz
1 / 155
Le problème du repliement
Paradoxe de Levinthal
Nombre d’états ∼ 10n
Repliement en millisecondes ou microsecondes (petite prot.)
2 / 155
Acide aminé-s
Les simples
3 / 155
Acide aminé-s
Les aliphatique (linéaire ou ramifiée)
4 / 155
Acide aminé-s
Les cyclique et Sulfhydryle
5 / 155
Acide aminé-s
Les aromatiques
6 / 155
Acide aminé-s
Les aliphatiques hydroxyle (OH)
7 / 155
Acide aminé-s
Les carboxamide (CO) et carboxylates (OCO)
8 / 155
potentiel hydrogène (pH)
pH = − log10 [H + ]
9 / 155
Acide aminé-s
Les basiques
10 / 155
Structure primaire
11 / 155
Structure primaire
12 / 155
Lien peptidique
Dépend du pH
14 / 155
Lien peptidique
Propriété 2 : plan
15 / 155
Lien peptidique
Propriété 3 : rotation ϕ et ψ
La chaine a deux degrés de libertés donné par les angles ϕ et ψ
La géométrie de la chaine peut être caractérisé par ϕ et ψ
16 / 155
Lien peptidique
Propriété 4 : orientation cis et trans
Trans préféré dans un ration ∼ 1000 : 1
17 / 155
Lien peptidique
Propriété 4.5 : exception orientation cis et trans
Proline est l’exception avec un ratio de ∼ 3 : 1
18 / 155
Diagramme de Ramachandran
19 / 155
Les résidus sont aussi flexibles
20 / 155
Rotamères
Conformations préférées des résidus
21 / 155
Hélice α
22 / 155
Brin β
23 / 155
Feuillet β
24 / 155
Feuillet β
Parallèle et anti-parallèles
Anti-parallèle Parallèle
25 / 155
Autres structures β
26 / 155
Ramachandran et feuillets β
27 / 155
Boucles
28 / 155
Super structure secondaire
29 / 155
Structure tertiaire
La structure tertiaire est l’ensemble des coordonées 3D des atomes d’une chaine d’acides aminés
30 / 155
Structure quaternaire
31 / 155
Structure permet intéractions
Hémoglobine
Un hème (fer + anneau) intéragit avec la protéine
et permet de capturer l’oxygène
32 / 155
Structure globulaire
33 / 155
Protéines transmembranaires
∼ 30% du génome
Ciblent de 50% des antibiotiques
34 / 155
Protéines se replient
35 / 155
Prédiction de structure de protéine
36 / 155
Dynamique moléculaire
37 / 155
Modèle sur un treillis
38 / 155
Apprentissage automatique
39 / 155
Homologie
40 / 155
Prédiction de la structure secondaire
41 / 155
Structure secondaire
42 / 155
Méthodes statistiques de prédiction
43 / 155
Évaluer une prédiction
44 / 155
1ère et 2ème génération
45 / 155
Problèmes
46 / 155
Méthodes de 3ème gen
47 / 155
Information évolutive
48 / 155
Où est-ce que la séquence est le plus conservée?
49 / 155
Prédiction de structure secondaire
mal défini
Les prédictions utilisent des alignements multiples (des fois fait à la main)
50 / 155
Réseau de neurones artificiel (ANN)
51 / 155
Que fait une neurone?
Reçoit signal des voisins
Chaque signal à un poids
Quand il atteint un seuil, émet un signal
52 / 155
Structure générale
Unidirectionel
53 / 155
Entrainement et test
54 / 155
Boite noire
55 / 155
Structure d’algo. de troisième génération
4. Récupérer la prédiction
56 / 155
Algo. troisième génération
Défi 1
Hélice : 32%
Brins : 21%
Boucles : 47%
57 / 155
Algo. troisième génération
Défi 2
Que se passerait-il si des homologues existent entre les ensembles d’entrainement et validation?
Trop d’optimisme!!!
58 / 155
Algo. troisième génération
Défi 3
59 / 155
PSIPRED
60 / 155
Étape 1
Trouver des homologues
61 / 155
PSIPRED
Sequence + alignement
⇓
1er NN
⇓
Prédiction
⇓
2ème NN
⇓
Prédiction finale
62 / 155
1er réseau
De la séquence et l’alignement
⇓
Prendre toutes les sous-séquences de 15 résidus
⇓
Prédire la structure de celui du milieu
ADCQEILHTSTTWYV
|{z}
Hélice / Brin / Boucle
63 / 155
Problème 1er réseau
64 / 155
2ème réseau
65 / 155
2ème réseau
65 / 155
PSIPRED
Entrainement : Balancé
66 / 155
PSIPRED
Résultats rapportés
67 / 155
PSIPRED
Confiance
Confiance : comment le réseau nous dit qu’il est certain
Corrèle avec la précision
68 / 155
Évaluer les performances
69 / 155
Évaluer les performances
70 / 155
Évaluer les performances
Pourquoi?
Plus d’information évolutive (alignement de séquence)
Entrainement et validation très stricte des réseaux
71 / 155
Améliorations
Sources d’améliorations?
Plus grandes bases de données
Meilleur à trouver des homologues éloignés
72 / 155
Faire encore mieux?
73 / 155
Brins β
74 / 155
Brins β
74 / 155
Brins β
75 / 155
Contact inter-résidus
76 / 155
Carte des contact
77 / 155
Interprétation carte des contact
78 / 155
Prédiction de contact
79 / 155
EVcoupling
80 / 155
Entropy
X
H(X ) = p(x) log(p(x))
x∈X
Mesure l’incertitude
Maximale avec p(x) uniforme
Base 2 représente l’info en bits
81 / 155
Information mutuelle
XX p(x, y )
MI (X , Y ) = p(x, y ) log
p(x)p(y )
x∈X y ∈Y
82 / 155
DCA (direct coupling analysis)
Objectif : Calculer l’ensemble des couplages directes entre résidus
qui explique le mieux les corrélations de paires dans l’alignement multiple
Idée :
Maximiser l’accord entre la fréquence attendue et celle observée
Trouver la distribution globale avec le maximum d’entropy
Terme DCA:
X PijDir (Ai , Aj )
DIij = PijDir (Ai , Aj ) ln
fi (Ai )fj (Aj )
Ai ,Aj
83 / 155
Et vers la 3D (EVfold)
84 / 155
Et vers la 3D (EVfold)
84 / 155
AlphaFold
85 / 155
AlphaFold méthode
86 / 155
AlphaFold résultats
87 / 155
AlphaFold en théorie
88 / 155
AlphaFold en théorie
88 / 155
AlphaFold en théorie
88 / 155
AlphaFold en théorie
88 / 155
AlphaFold en théorie
88 / 155
Et après?
89 / 155
Complexes de protéines
90 / 155
Complexes de protéines
90 / 155
Complexes de protéines
90 / 155
Chemin de repliement
91 / 155
Repliement de protéine
92 / 155
P3Fold csb.cs.mcgill.ca/P3Fold
93 / 155
P3Fold csb.cs.mcgill.ca/P3Fold
93 / 155
Dynamique moléculaire
94 / 155
Dynamique moléculaire
95 / 155
Dynamique moléculaire
95 / 155
Structure d’ARN
96 / 155
Structure d’ARN
97 / 155
Energy
98 / 155
Elements de structure secondaire (SSEs)
99 / 155
Une paire de base
100 / 155
A–A non-canonique
Hydrogen bonds
E dge
W-C
Sugar edge A
Sugar edge
W-
A
C
Edg
e
Ho
Backbone
og
ste
en
Ed
ge
dge
teen E
Hoogs e
n
kbo
Ba c
101 / 155
Leontis–Westhof interactions
Cis orientation
WC
H
S H WC
S H
WC S
H WC WC H H WC
S S S
Cis Watson Crick/Watson Crick Cis Watson Crick/Hoogsteen Cis Watson Crick/Sugar Edge
H WC
WC WC
H S
S
H S S
WC WC
H H WC H
S S
Trans orientation
S
H
S WC
S H
WC WC H
H H WC
H WC
S S WC
S
Trans Watson Crick/Watson Crick Trans Watson Crick/Hoogsteen Trans Watson Crick/Sugar Edge
H WC
S H S
WC H WC S S
H WC H WC WC H
S S
102 / 155
Annotations des boucles
103 / 155
Conservation des boucles GNRA
104 / 155
Conservation des interactions avec GNRA
105 / 155
Quels sont les motifs structuraux importants?
106 / 155
Isomorphismes de graphes
11 12 24 25
11 12 24 25
10 13 23 26
10 13 23 26
9 14 22 27
9 14 22 27
8 15 21 28
8 15 21 28
7 16 20 29
7 16 20 29
6 17 18 19 30
6 17 18 19 30
5 31
5 31
4 32
4 32
107 / 155
Problème d’isomorphisme de graphes
108 / 155
Problème d’isomorphisme de graphes
108 / 155
Approche 1
Trouver des petits motifs
109 / 155
Chercher dans FR3D
110 / 155
Nous apprenons
111 / 155
RNA3Dmotif
Djelloul & Denise, 2008
112 / 155
Motifs dans le ribosome
113 / 155
Nouveaux motifs
114 / 155
Toutes les approches précédentes sont pour
une boucle à la fois
115 / 155
carnaval.lri.fr
N’importe quelle conservation
11 12 24 25
10 13 23 26
9 14 22 27
11 12 24 25
10 13 23 26
9 14 22 27
28
116 / 155
Est-ce que la représentation en graphe
conserve vraiment l’information géométrique?
117 / 155
Isostéricité
119 / 155
Comparer les paires cWW
120 / 155
Comparer toutes les familles
121 / 155
Prédiction de structure 3D
122 / 155
MC-Fold | MC-Sym
F. Major de l’UdM
Basé sur la décomposition en cycles appelé des "non-canonical motifs" (NCMs)
123 / 155
MC-Fold
124 / 155
MC-Sym
125 / 155
RNA-MoIP: vers la prédiction de grandes molécules
126 / 155
RNA-MoIP améliore les résultats de MC-Sym
Précision 3D
Précision paires de bases
127 / 155
RNAMoIP 2 (Gabriel Loyer)
Prediction structure avec pseudo-noeuds + motifs
128 / 155
RNAMoIP 2 Sensitivité
Fraction bien trouvée
129 / 155
RNAMoIP 2 Valeur Prédite Positive
Fraction de vrais
130 / 155
RNAMoIP 2 en moyenne (F1)
131 / 155
Prédiction de motif 3D dans une séquence
RMDetect
Précision 3D
132 / 155
Prédiction de motif 3D dans une séquence
BayesPairing 2
133 / 155
Au-delà des motifs
Il y a 7 degrés de libertés pour un nucléotide
134 / 155
Un modèle continu, probabiliste, et local
Jes Frellsen et al.
Modéliser et estimer la distribution des angles
135 / 155
Modéliser et estimer la distribution des angles
136 / 155
IOHMM (Input / Output HMM)
Permets aux probabilités de dépendre de plusieurs covariants
137 / 155
Le modèle probabiliste, continue et local de la structure 3D d’ARN
Paramètres estimé par du data expérimentale et du Expectation–Maximisation
138 / 155
Modèle capture les angles
Angle α Angle ε
139 / 155
Modèle capture les dépendances des paires
140 / 155
Stratégie pour la prédiction de structure 3D
141 / 155
Résultats
142 / 155
Résultats
142 / 155
CryoEM
143 / 155
CryoEM
143 / 155
CryoEM
Zhang et al., Cryo-EM structure of a 40 kDa SAM-IV riboswitch RNA at 3.7A resolution, Nature, 2019 143 / 155
Description de structure 3D
144 / 155
Architecture de la structure
145 / 155
Format PDB
146 / 155
Syntaxe d’une ligne ATOM
147 / 155
Syntaxe d’une ligne ATOM
147 / 155
Lire un PDB avec Biopython
from Bio.PDB.PDBParser import PDBParser
parser = PDBParser(PERISSIVE=1)
structure_id = "1FAT"
filename = "1FAT.pdb"
149 / 155
Propriétés des atomes
La méthode .get_id() retourne un triplet ("", Numéro du résidue, ""). Pour le numéro du
résidu il faut donc récupérer le 1er élément.
position = atom.get_id()[1]
150 / 155
Objets structure et types de Python
Les structures, chaînes, résidus et atomes ont un paquet de méthode mais fondamentalement
ils sont comme:
151 / 155
B-factor a.k.a temperature factor a.k.a. Debye–Waller factor
152 / 155
Exemple
from Bio.PDB.PDBParser import PDBParser
parser=PDBParser()
Comment faire?
154 / 155
Distances entre atomes
res10 = chain_H[10]
res11 = chain_H[11]
print(res11["CA"] - res100["CA"])
155 / 155