Vous êtes sur la page 1sur 32

Les notions de base

sur les protéines


Cours adapté du site EBI
The European Bioinformatics Institute
Introduction à la classification des
protéines selon EBI
• Ce cours fournira une introduction à la classification des
protéines et les concepts de base sur: les familles de
protéines, les domaines et les sites caractéristiques d’une
séquence.
Objectifs
• Comprendre l'importance de la classification des protéines.
• Comprendre comment les familles de protéines, les domaines
et les sites caractéristiques d’une séquence «sequence
features» peuvent être définis, et comment ces derniers
peuvent être utilisés pour classer les protéines.
• Se familiariser avec les différentes méthodes prédictives
utilisées pour aider à classer les protéines: les patterns, les
profiles, les fingerprints et les Hidden Markov Models
(HMMs).
• Savoir les ressources disponibles à l'EBI pour classer les
protéines selon la famille, le domaine et les sites
caractéristiques d’une séquence.
Question
• Pourquoi ne pas utiliser le BLAST pour déduire la fonction ou
la structure d’une protéine?
• Utiliser des signatures de protéines est souvent un moyen plus
sensible d'identifier la fonction des protéines que de faire une
recherche de similarité de séquences par paire (BLAST).
Les Protéines
Les protéines sont des macromolécules responsables des
processus biologiques dans la cellule. Elles sont formées à leur
plus bas niveau d'une chaîne d'acides aminés, déterminée par la
séquence nucléotidique dans un gène. En fonction de la
séquence d'acides aminés et les interactions avec leur
environnement, les protéines se replient en une structure
tridimensionnelle, ce qui leurs permettent d'interagir avec
d'autres protéines (ou molécules) et de remplir leurs fonctions.
Les protéines qui ont divergé à partir d'un gène ancestral
commun sont connues comme homologues. Les protéines avec
des séquences similaires sont supposées être homologues et
généralement (dans certaines limites) ont des structures et des
fonctions similaires.
Pourquoi classer les protéines
• Les protéines peuvent être classées en groupes en fonction
des similitudes de séquences ou de structures. Ces groupes
contiennent souvent des protéines bien caractérisées dont la
fonction est connue.
• Ainsi, quand une nouvelle protéine est identifiée, ses
propriétés fonctionnelles peuvent être proposées sur la base
du groupe auquel elle est prédite de faire partie.
• Les familles, les domaines et les sites caractéristiques de
séquence peuvent être utilisés pour la classification des
protéines. Bien que ces termes sont largement utilisés dans la
littérature biologique, vous verrez que leurs définitions
peuvent varier en fonction de la source.
Famille?
Une famille de protéines est
un groupe de protéines qui
partagent une origine
évolutive commune, reflétée
par leurs fonctions communes
et des similitudes de
séquences ou de structures.

Les familles de protéines sont souvent organisées en hiérarchies, avec des


protéines qui partagent un ancêtre commun subdivisées en petits groupes,
plus étroitement liés. Les termes superfamille (décrivant un grand groupe de
protéines apparentées de loin) et celui de sous-famille (décrivant un petit
groupe de protéines étroitement liées) sont parfois utilisés dans ce contexte.
Une hiérarchie de la famille d’une protéine hypothétique est illustrée sur la
figure.
Superfamille (RCPG)
• Un des groupes de protéines qui constituent une superfamille
sont les récepteurs couplés aux protéines G (RCPG). Elle
représente un groupe important et diversifié de protéines qui
sont impliquées dans de nombreux processus biologiques, y
compris la photoréception, la régulation du système
immunitaire, et la transmission du système nerveux.
• Au niveau superfamille, (RCPG) partagent deux propriétés
communes - ils ont sept domaines transmembranaires, et
interagissent avec des protéines spécialisées (protéines
appelées protéines G) pour influencer les voies intracellulaires
après fixation des signaux extracellulaires.
Opsine sensible aux ondes courtes
Comme nous regroupons les RCPG dans des familles plus
petites, les différents groupes ont plus de propriétés en
commun. Par exemple, la protéine sensible aux ondes
courtes opsine 1 appartient à une famille spécialisée,
connue sous le nom de rhodopsine-like RCPG. Les RCPG
rhodopsine-like eux-mêmes peuvent être subdivisées en
plus petites familles qui répondent à des signaux
différents.
Les protéines sensibles aux ondes courtes opsine 1
appartiennent à la famille de l'opsine (opsines étant les
photorécepteurs de la rétine des animaux), mais plus
précisément, elles sont membres de la sous-famille
opsine sensible au bleu, qui sont toutes activées par une
longueur d'onde particulière de la lumière. Cette
hiérarchie de famille des protéines est illustrée sur la
figure.

Comme on peut le voir à partir de cet exemple, lors de la classification des protéines dans
des familles hiérarchiques, le niveau auquel nous pouvons placer une protéine dans la
hiérarchie est essentiel, car il détermine la quantité d'information fonctionnelle spécifique
que nous pouvons en déduire. Le même principe que la taxonomie bactérienne.
Domaines?

Figure : Structure of the SH3 domain.

Les domaines sont des unités fonctionnelles et / ou structurelles distinctes dans


une protéine. Habituellement, ils sont responsables d'une fonction ou d'interaction
particulière, contribuant au rôle global d'une protéine.
Les domaines peuvent exister dans une variété de contextes biologiques, où des
domaines similaires peuvent être trouvés dans des protéines ayant des fonctions
différentes.

Par exemple, les domaines Src homologie 3 (SH3) sont de petits domaines de 50
résidus d'acides aminés d'environ qui sont impliqués dans des interactions
protéine-protéine. Les domaines SH3 ont une structure 3D caractéristique (voir la
figure). On les trouvent dans une gamme diversifiée de protéines ayant des
fonctions différentes, y compris des protéines adaptatrices, la phosphatidylinositol
3-kinase, les phospholipases et les myosines.
Family- and domain-based
protein classification

Figure : Family groupings and domain composition of some RGS domain-


containing proteins.

Les classifications basées sur la famille et le domaine ne sont pas


toujours simples et peuvent se chevaucher, car les protéines sont
parfois attribuées aux familles en vertu du domaine (s) qu'ils
contiennent. Un exemple de ce genre de complexité est décrit ci-dessus.
Les sites caractéristiques d’une
séquence ?

Figure Graphical representation of repeats,


domains and sites on a protein sequence.
Les sites caractéristiques des séquences «sequence features» sont les groupes
d'acides aminés qui confèrent certaines caractéristiques à une protéine, et
peuvent être importants pour la fonction globale.
Les sites caractéristiques de séquence diffèrent des domaines en ce qu'ils sont
généralement très petits(souvent seulement quelques acides aminés), alors que
les domaines représentent des unités fonctionnelles ou structurelles entières de
la protéine (voir la figure ). Les sites caractéristiques de séquence sont souvent
imbriqués dans les domaines - un domaine de protéine-kinase, par exemple,
contient généralement un site actif de la protéine kinase.
ferrédoxine
Les protéines peuvent également être classés
selon les sites caractéristiques de séquence
qu‘elles contiennent.
Par exemple, les ferrédoxines sont des
protéines fer-soufre qui interviennent dans le
transfert d'électrons dans une variété de
réactions biologiques type redox, y compris le
processus de photosynthèse. Elles peuvent
être divisées en plusieurs groupes en fonction
de la nature de leur cluster fer-soufre.
Dans les ferrédoxines 2Fe-2S (qui se lient à un
groupe de deux atomes de fer (Fe) et deux
atomes de soufre (S) ), il y a quatre résidus
cystéines impliqués dans la liaison fer-soufre.
Le site de liaison 2Fe-2S est signalé sur la
structure 3D de ferrédoxine (figure). 3D-structure of a plant-type
ferredoxin with its 2Fe-2S cluster
What are protein signatures?
• Afin de classer les protéines dans des familles et de prédire la présence
de domaines importants ou des sites caractéristiques de séquence, nous
avons besoin d'outils informatiques. Un ensemble de ces outils sont les
modèles prédictifs connus sous le nom des signatures de protéines.
• Il existe différents types de signatures, construits en utilisant différentes
approches de calcule. Toutefois, leur point de départ commun est un
alignement de séquences multiple des protéines partageant un
ensemble de caractéristiques (par exemple, appartenant à la même
famille ou partageant un domaine).
• Lors de la construction du modèle initial, le niveau de la conservation
des acides aminés à des positions différentes dans l'alignement est pris
en compte. Le modèle est ensuite utilisé pour rechercher une base de
données de protéines d'une manière itérative, en affinant le modèle
chaque fois des séquences apparentées plus éloignées dans la base de
données sont identifiées.
• Une fois que le modèle est mature, la signature est prête et celle-ci peut
être utilisée pour l'analyse de séquences de protéines.
Signatures

Le processus de construction d'une signature de protéine commence avec un


alignement de séquences multiple, qui est utilisé pour construire un modèle
prédictif. En recherchant une base de données de protéines de manière itérative,
des séquences plus lointainement apparentées peuvent être identifiées. Cette
information est utilisée pour créer un modèle mature final.
How do protein signatures compare
to other ways of classifying proteins?

Les alignements multiples des séquences peuvent nous fournir des informations
précieuses pour la classification des protéines, car ils nous permettent d'identifier les
résidus d'acides aminés (souvent rares) qui sont conservés même dans des protéines
apparentées mais très éloignées. Alors, qu’il est impossible d'identifier de tels
importants résidus avec les techniques d'alignement par paire, telles que BLAST.
En conséquence, les signatures de protéines construites à partir d’alignement de
séquences multiple sont généralement mieux pour détecter des homologies
divergentes que les procédés de comparaison par paire.
Types de signatures
Différentes approches peuvent être
utilisées pour générer des signatures:

- patterns
- profiles
- fingerprints
- Hidden Markov Models
(HMMs)
Chaque approche commence par un
alignement multiple des séquences de
protéines, et peut se concentrer sur une
seule région conservée de la séquence
(connu comme un motif) (a), plusieurs
motifs conservés (b), ou l'alignement
complet de la totalité de la protéine ou
un domaine particulier (c)
What are patterns?
An example of a
database that uses
patterns is PROSITE
(Bairoch, A. 1991).

Plusieurs sites caractéristiques importants de séquence, tels que les sites de


liaison ou les sites actifs d'enzymes, sont constitués de seulement quelques acides
aminés qui sont essentiels pour la fonction de la protéine. Les patterns sont de
très bons marqueurs pour la reconnaissance de ces sites caractéristiques. Ils sont
construits par l'identification de régions conservées dans des alignements
multiples de séquences.
Le pattern de conservation pour un site donné est ensuite modélisé comme une
expression régulière.
What are profiles?
Les profils sont utilisés pour modéliser
les familles et les domaines protéiques.
Ils sont construits par la conversion de
l’alignement multiple de séquences en
matrice de scores spécifiques des
postions position-specific scoring
systems (PSSMs). Les acides aminés à
chaque position dans l'alignement sont
notés selon la fréquence à laquelle ils se
produisent (Figure). Les matrices de
substitution (telles que les matrices
BLOSUM) peuvent être utilisées pour
ajouter le poids de distance évolutive de
ces partitions.
What are fingerprints?
Bien que les méthodes de
motifs simples sont bonnes
pour identifier les sites
caractéristiques dans une
protéine, la plupart des
familles de protéines sont
caractérisées non pas par un,
mais plusieurs régions
conservées, qui se produisent
dans un certain ordre.
L'identification de ces régions
est le principe derrière les
fingerprints.
PRINTS database

Les fingerprints sont composés de plusieurs motifs courts conservés, qui sont tirés
à partir des alignements de séquences (figure). Chaque motif est ensuite converti
en un profile individuel (comme décrit dans la section précédente) pour créer une
signature fingerprint.
Les Fingerprints sont de
très bons outils pour
modéliser, souvent, les
petites différences entre
les protéines
étroitement liées.

Cela signifie que les Fingerprints peuvent distinguer les sous-familles individuelles
au sein des familles de protéines. Ceci permet la caractérisation fonctionnelle des
séquences à un niveau élevé de spécificité (ex: identification de voies cellulaires
individuelles dans lesquelles une protéine pourrait être impliquée, le ligand qui
peut se lier à elle, la réaction exact qui peut catalyser, et ainsi de suite).
Figure: L’alignement multiple de séquences montrant la conservation d’acides
aminés entre les membres de la famille des protéines des canaux chlorure. En
utilisant plusieurs motifs courts conservés, les Fingerprints sont capables de
distinguer des sous-familles étroitement liées les unes aux autres, tels que
l'identification des acides aminés qui distinguent les membres des protéines
canaux chlorure de la sous-famille 3 des autres membres de la famille.
What are HMMs?
Pfam, SMART,
Les modèles de Markov cachés (HMM) sont
TIGRFAM,
utilisés par de nombreuses bases de données.
PIRSF,
Comme les profils, ils peuvent être utilisés
PANTHER,
pour convertir les alignements multiples des
Superfamily
séquences en matrice de scores spécifiques
and Gene3D.
des postions. HMM sont aptes à représenter
les insertions d'acides aminés et les
délétions, ce qui signifie qu'ils peuvent
modéliser les alignements en entier, y compris
les régions divergentes. Ce sont des modèles
statistiques sophistiqués et puissants, très
bien adaptés à la recherche dans les bases de
données pour les séquences homologues.
L’attribution d’un score aux acides aminés à chaque position dans l'alignement de
séquences est en fonction de la fréquence à laquelle ils se produisent. Les
probabilités de transition (par exemple: la probabilité qu'un acide aminé particulier
suit un autre acide aminé particulier) et les états d'insertion et de délétion sont
également modélisés.
Protein classification resources
at the EBI: InterPro
InterPro est la principale
ressource pour la classification
des protéines à l'EBI.
Dans InterPro: des patterns, des
profiles, des fingerprints et des
HMM à partir d'un certain
nombre de bases de données
différentes sont réunis en une
seule ressource unique
consultable, offrant un accès
pratique à leurs capacités
prédictives sans avoir à visiter
les bases de données des
membres individuellement.

InterPro vise à simplifier et à rationaliser l'analyse des séquences de protéines pour


l'utilisateur en combinant et organisant l'information d'une manière cohérente, en
supprimant la redondance, et en ajoutant une vaste annotation et des liens utiles sur les
signatures et les protéines correspondantes.
Quand utilise-t-on InterPro ?
• Vous pouvez utiliser InterPro si vous avez une séquence
d'acides aminés ou un ensemble des séquences et vous voulez
savoir ?
• Ce qu’elles sont, à quelle famille elles appartiennent.
• Quelles sont leurs fonctions et comment elles peuvent être
expliquées en terme structurelle
Résumé
• La classification des protéines permet de déduire les
propriétés fonctionnelles et structurelles pour de nouvelles
protéines qui ne sont pas caractérisées expérimentalement.
• Les protéines peuvent être classées en fonction des familles
auxquelles elles appartiennent, et / ou les domaines et les
fonctions qu’elles contiennent:
• Une famille de protéines est un groupe de protéines qui partagent une
origine évolutive commune. Elle se traduit par leurs fonctions
apparentées et des similitudes de séquences et / ou de structures.
• Les domaines sont des unités fonctionnelles et / ou structurelles
distinctes dans une protéine qui peuvent exister dans une variété de
contextes biologiques.
• Les sites caractéristiques de séquences comprennent les sites actifs,
les sites de liaison, les sites de modification post-traductionnelle et les
répétitions.
• Les signatures sont des modèles mathématiques construites à
partir d’alignement multiple de séquences. Elles peuvent être
utilisées pour classer les protéines.
• Utiliser des signatures de protéines est plus souvent un moyen
plus sensible d'identifier la fonction des protéines que de faire
une recherche de similarité de séquences à deux (BLAST).
• Différents types de signatures utilisent différentes méthodes,
en se concentrant sur des motifs simples (patterns), plusieurs
motifs (fingerprints) ou en envisageant l’alignement en entier
(profiles et HMM). Elles offrent des avantages distinct en terme
d'analyse de séquences protéiques et peuvent être utilisées
pour classer les protéines en familles, ou pour identifier des
domaines ou des sites caractéristiques de séquence.
• L'EBI offre une ressource pour la classification des familles de
protéines, des domaines, et la prédiction des sites en utilisant
les signatures de protéines: InterPro.
• InterPro combine les signatures de plusieurs bases de données de
diverses sources, en une ressource unique consultable.
http://www.ebi.ac.uk/training/online/course/protein-
classification-introduction-embl-ebi-resou

MERCI
Where does the data come from?

Vous aimerez peut-être aussi