Académique Documents
Professionnel Documents
Culture Documents
de séquences
Introduction
Alignement de séquences
Introduction
Alignement de séquences
Introduction
Alignement de séquences
Objectifs de l’alignement de séquences
Trouver des similarités (Voir si ma séquence ressemble à d’autres déjà
connues), définir la structure et Identifier les domaines et motifs connus.
Acides nucléiques:
- Recherche de phase de lecture ouverte (ORF) d’un gène
- Déduire la structure Intron/Exon d’un gène
-Etablir l’arbre phylogénique
- Recherche d’Etiquettes EST et du profil d’expression des gènes (profiling)
- Analyse de génomes entiers
Protéines:
-Déduire la séquence de la protéine à partir d’une séquence d’ADN
(traduction in silico)
- Identifier la famille, sites actifs et domaines fonctionnelles
- prédiction des modifications post-traductionnelles et structures secondaires
- Etablir un arbre Phylogénique
Pourquoi analyser une séquence?
Ou chercher ces similarités?
Avec quel outil?
Recherche de similarités dans les banques de données
Le Blast: Basic Local Alignment Search Tool.
• Le dot-plot est utile pour déterminer de combien d'exons est composé un gène en
le comparant à son ARNm et pour avoir une idée de la taille des introns et des
exons.
• Il existe un logiciel de dotplot interactif, Dotlet qui nécessite JAVA. Si JAVA n'est pas
installé sur vos machines, vous pouvez utiliser Dottup5.
• Le principe du dot-plot est basé sur la comparaison de fenêtres de longueur fixe
que l'on déplace le long des séquences.
• Soit deux séquences A et B à comparer et l la longueur de la fenêtre. On détermine
sur la séquence A une première fenêtre de longueur l que l'on va comparer avec
toutes les fenêtres possibles de même longueur, obtenues à partir de la séquence
B. Un incrément est alors appliqué pour déterminer une deuxième fenêtre sur la
séquence A, puis l'on recommence le balayage des comparaisons sur la séquence
B. Si l'on choisit un incrément de 1 et que les séquences ont respectivement une
longueur de m et n éléments, on effectuera de l'ordre de n x m comparaisons de
fenêtres différentes.
La méthode du Dot-Plot
• Pour chaque comparaison entre deux fenêtres, un
score est obtenu et l'on mémorisera uniquement les
comparaisons dont les scores sont jugés significatifs,
c'est-à-dire supérieurs ou égaux à un seuil que l'on
s'est fixé. Par exemple lorsque le score correspond au
minimum à 80% d'identité avec l'utilisation d'une
matrice unitaire nucléique comme matrice de scores
élémentaires6.
• Considérons, par exemple, les deux séquences A et B
suivantes :
– Séq A = ATGTAATGCATG et Séq B = TATGTGAATG. La taille
du motif (fenêtre) étant choisie égale à 5.
La méthode du Dot-Plot
• La fenêtre formée des cinq premiers nucléotides de la séquence A est :
ATGTA. Il faut la comparer avec toutes les fenêtres possibles de taille égale
à cinq retrouvées sur la séquence B. Ces séquences sont :
1. TATGT
2. ATGTG
3. TGTGA
4. GTGAA
5. TGAAT
6. GAATG
• Remarque : Au-delà du nucléotide G en 6ème position dans la séquence
B, on ne peut plus
• avoir une fenêtre de taille égale à cinq nucléotides.
• La première comparaison concerne les deux motifs suivants :
• Fenêtre de la séquence A = ATGTA
• Fenêtre de la séquence B = TATGT
La méthode du Dot-Plot
La méthode du Dot-Plot
La méthode du Dot-Plot
La méthode du Dot-Plot
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
L’alignement des séquences nucléiques: La programmation dynamique
Pourquoi vouloir réaliser des alignements ?
Exemple :
Supposons que nous désirons calculer un alignement global des deux séquences
suivantes de taille m et n respectivement:
S1 = TAAGTCCG m=8 et S2 = TACGTACG n=8
Remarque : Ici, les deux séquences sont de même longueur (8 résidus chacune).
On peut calculer un alignement entre deux séquences de tailles inégales.
Pour calculer l’alignement entre les deux séquences S1 et S2, quatre étapes sont
nécessaires :
L'algorithme de Needleman et
Wunsch
Etape 1 : Calcul de la matrice initiale
Il s’agit d’insérer les deux séquences S1 et S2 dans une matrice de sorte que S1
soit à l’horizontal et S2 à la verticale du tableau, puis remplir les cases par 1
(identité des deux nucléotides de S1 et de S2) ou 0 (sinon) :
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et Wunsch
L'algorithme de Needleman et Wunsch
L'algorithme de Needleman et Wunsch
Les paramètres de pénalité liés aux gaps
• GAP OPEN : valeur de la pénalité pour l'ouverture d'un gap. La valeur par
défaut est 10.
• GAP EXTENSION : valeur de la pénalité pour l'extension d'un gap. La
valeur par défaut est 0.05.
• GAP DISTANCES : valeur de la pénalité pour la séparation des gap. La
valeur par défaut est 8.
• NO END GAPS : si "YES", il n'y a pas de gap finaux.
L’alignement des séquences protéiques par la programmation dynamique
• Les matrices protéiques : Notons tout d’abord que les matrices protéiques utilisées pour
réaliser des alignements sont totalement différentes de celles des acides nucléiques (matrice
d’identité et matrice de transition/transversion) et ce en raison du nombre des acides aminés
(20 acides aminés et non 4 comme le cas des nucléotides) et de la nature physico-chimiques
de ceux-ci.
• En effet, le système nucléique basé sur l’identité n’est pas approprié pour le cas des systèmes
protéiques. Ceci est du au fait que certains acides aminés peuvent être remplacé par d’autres
(à cause de leurs propriétés physicochimiques surtout) sans altérer le rôle et la fonction
biologique de la protéine.
• On peut donc classer les acides aminés en familles par rapport à leurs propriétés et obtenir
ainsi un système de scores qui rende compte de l'affinité des résidus protéiques entre eux.
C’est cette affinité qui permet à un acide aminé d’être substitué par un autre, et les deux
structures protéiques ne seront pas identiques à ce point où la substitution a eu lieu mais on
dira que les deux séquences sont SIMILAIRES et la fonction de la protéine reste conservée.
• Dans l’exemple qui suit, on dispose de la structure primaire de deux séquences enzymatiques
ayant la même fonction biologique, c'est-à-dire toutes les deux sont des amylases. Mais on se
rend vite compte que l’amylase de la mouche ne ressemble pas à celle de l’abeille, et
pourtant elles assurent toutes les deux l’hydrolyse de l’amidon.
L’alignement des séquences protéiques par la programmation dynamique
L’alignement des séquences protéiques par la programmation dynamique
L’alignement des séquences protéiques par la programmation dynamique
L’alignement des séquences protéiques par la
programmation dynamique
La matrice PAM250 (Pourcent Accepted Mutation): La matrice
de mutation de Dayhoff.
• Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300
séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.
• Ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de
l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la
fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".
• La première matrice de ce type, appelée 1PAM ("Percent Accepted Mutations") donne la
probabilité qu'1 substitution soit acceptée pour 100 acides aminés.
• La multiplication X fois de cette matrice par elle-même donne une matrice XPAM qui permet
d'analyser des distances d'évolution plus importantes : 2PAM = 1PAM x 1PAM, 3PAM = 2PAM x
1PAM ...
• A chaque matrice XPAM correspond une matrice PAMX, appelée matrice de mutation de Dayhoff.
Ce sont les matrices PAMX qui sont utilisées par les algorithmes d'alignement.
• Les matrices de type PAM dérivent d'alignements globaux de protéines très semblables et
représentent les échanges possibles et acceptables d’un acide aminé par un autre au cours de
l’évolution des protéines : Les acides aminés entrant dans la composition d’une protéine peuvent
avoir les mêmes propriétés physico-chimiques ou presque et la structure 3D va donc dépendre de
ces caractéristiques. Cette similarité des propriétés physico-chimiques est donc suffisante pour
permettre la substitution (la mutation) entre ces acides aminés sans pour autant perturber la
fonction de la protéine.
An example of point mutations at an amino acid site coding for lysine. The
missense mutations may be classed as point accepted mutations if the
mutated protein is not rejected by natural selection
La matrice PAM250
Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés.
Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont
globalement 20% d'identité.
Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un
tryptophane par une cystéine sans perte significative de la fonction de la protéine.
Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une
phénylalanine.
La matrice BLOSUM 62 (Henikoff & Henikoff, 1992)
BLOcks SUbstitution Matrix)
• Elles sont postérieures aux matrices PAM et ont été développées par Henikoff & Henikoff.
• Les matrices BLOSUM sont construites à partir de 2000 BLOCKS provenant de plus de 500
familles de protéines.
• Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas
d'insertions ou de délétions.
• Exemple d'un BLOCK pour 3 protéines :
• LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15
LON1_MAIZE|P93647 (409) GPPGVGKTSLASSIAKALNR 18
LONM_HUMAN|P36776 (526) GPPGVGKTSIARSIARALNR 15
• des BLOCKS d'acides aminés de petites portions de séquences très conservées sont obtenus
par alignement puis à partir d'un ensemble de blocs est constitué un sous-ensemble qui
contient les portions de séquences qui révèlent un pourcentage donné d'identité. Ceci
permet d'obtenir une probabilité de substitution pour chaque paire d'acides aminés dont
découle la matrice BLOSUM . Ainsi la matrice BLOSUM 60 est obtenue avec un pourcentage
d'identité de 60%
• Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp".
• Elles sont très efficaces pour des alignements locaux de séquences ressemblantes.
Comparaison des matrices PAM et des matrices BLOSUM
• Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire
que les substitutions sont comptabilisées à partir des valeurs des branches d'un
arbre phylogénétique), tandis que les matrices BLOSUM sont basées sur des
modèles d'évolution implicites.
• Les matrices PAM sont basées sur des mutations observées dans un alignement
global, incluant aussi bien des régions hautement conservées que des régions
hautement mutables.
• Les matrices BLOSUM sont basées uniquement sur des régions hautement
conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps").
• La méthode pour comptabiliser les substitutions est différente. A l'inverse de la
procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM
utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas
le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées
de manière identique.
• un indice élevé pour une matrice PAM décrit une distance d'évolution élevée
• un indice élevé pour une matrice BLOSUM décrit au contraire une forte similarité
de séquences donc une distance d'évolution faible
Règles pour le choix des matrices protéiques