Académique Documents
Professionnel Documents
Culture Documents
Comme on peut le voir à partir de cet exemple, lors de la classification des protéines dans
des familles hiérarchiques, le niveau auquel nous pouvons placer une protéine dans la
hiérarchie est essentiel, car il détermine la quantité d'information fonctionnelle spécifique
que nous pouvons en déduire. Le même principe que la taxonomie bactérienne.
Domaines?
Par exemple, les domaines Src homologie 3 (SH3) sont de petits domaines de 50
résidus d'acides aminés d'environ qui sont impliqués dans des interactions
protéine-protéine. Les domaines SH3 ont une structure 3D caractéristique (voir la
figure). On les trouvent dans une gamme diversifiée de protéines ayant des
fonctions différentes, y compris des protéines adaptatrices, la phosphatidylinositol
3-kinase, les phospholipases et les myosines.
Family- and domain-based
protein classification
Les alignements multiples des séquences peuvent nous fournir des informations
précieuses pour la classification des protéines, car ils nous permettent d'identifier les
résidus d'acides aminés (souvent rares) qui sont conservés même dans des protéines
apparentées mais très éloignées. Alors, qu’il est impossible d'identifier de tels
importants résidus avec les techniques d'alignement par paire, telles que BLAST.
En conséquence, les signatures de protéines construites à partir d’alignement de
séquences multiple sont généralement mieux pour détecter des homologies
divergentes que les procédés de comparaison par paire.
Types de signatures
Différentes approches peuvent être
utilisées pour générer des signatures:
- patterns
- profiles
- fingerprints
- Hidden Markov Models
(HMMs)
Chaque approche commence par un
alignement multiple des séquences de
protéines, et peut se concentrer sur une
seule région conservée de la séquence
(connu comme un motif) (a), plusieurs
motifs conservés (b), ou l'alignement
complet de la totalité de la protéine ou
un domaine particulier (c)
What are patterns?
An example of a
database that uses
patterns is PROSITE
(Bairoch, A. 1991).
Les fingerprints sont composés de plusieurs motifs courts conservés, qui sont tirés
à partir des alignements de séquences (figure). Chaque motif est ensuite converti
en un profile individuel (comme décrit dans la section précédente) pour créer une
signature fingerprint.
Les Fingerprints sont de
très bons outils pour
modéliser, souvent, les
petites différences entre
les protéines
étroitement liées.
Cela signifie que les Fingerprints peuvent distinguer les sous-familles individuelles
au sein des familles de protéines. Ceci permet la caractérisation fonctionnelle des
séquences à un niveau élevé de spécificité (ex: identification de voies cellulaires
individuelles dans lesquelles une protéine pourrait être impliquée, le ligand qui
peut se lier à elle, la réaction exact qui peut catalyser, et ainsi de suite).
Figure: L’alignement multiple de séquences montrant la conservation d’acides
aminés entre les membres de la famille des protéines des canaux chlorure. En
utilisant plusieurs motifs courts conservés, les Fingerprints sont capables de
distinguer des sous-familles étroitement liées les unes aux autres, tels que
l'identification des acides aminés qui distinguent les membres des protéines
canaux chlorure de la sous-famille 3 des autres membres de la famille.
What are HMMs?
Pfam, SMART,
Les modèles de Markov cachés (HMM) sont
TIGRFAM,
utilisés par de nombreuses bases de données.
PIRSF,
Comme les profils, ils peuvent être utilisés
PANTHER,
pour convertir les alignements multiples des
Superfamily
séquences en matrice de scores spécifiques
and Gene3D.
des postions. HMM sont aptes à représenter
les insertions d'acides aminés et les
délétions, ce qui signifie qu'ils peuvent
modéliser les alignements en entier, y compris
les régions divergentes. Ce sont des modèles
statistiques sophistiqués et puissants, très
bien adaptés à la recherche dans les bases de
données pour les séquences homologues.
L’attribution d’un score aux acides aminés à chaque position dans l'alignement de
séquences est en fonction de la fréquence à laquelle ils se produisent. Les
probabilités de transition (par exemple: la probabilité qu'un acide aminé particulier
suit un autre acide aminé particulier) et les états d'insertion et de délétion sont
également modélisés.
Protein classification resources
at the EBI: InterPro
InterPro est la principale
ressource pour la classification
des protéines à l'EBI.
Dans InterPro: des patterns, des
profiles, des fingerprints et des
HMM à partir d'un certain
nombre de bases de données
différentes sont réunis en une
seule ressource unique
consultable, offrant un accès
pratique à leurs capacités
prédictives sans avoir à visiter
les bases de données des
membres individuellement.
MERCI
Where does the data come from?