Vous êtes sur la page 1sur 58

Principes de Bases De l’alignement

de séquences
Introduction
Alignement de séquences
Introduction
Alignement de séquences
Introduction
Alignement de séquences
Objectifs de l’alignement de séquences
Trouver des similarités (Voir si ma séquence ressemble à d’autres déjà
connues), définir la structure et Identifier les domaines et motifs connus.

Acides nucléiques:
- Recherche de phase de lecture ouverte (ORF) d’un gène
- Déduire la structure Intron/Exon d’un gène
-Etablir l’arbre phylogénique
- Recherche d’Etiquettes EST et du profil d’expression des gènes (profiling)
- Analyse de génomes entiers
Protéines:
-Déduire la séquence de la protéine à partir d’une séquence d’ADN
(traduction in silico)
- Identifier la famille, sites actifs et domaines fonctionnelles
- prédiction des modifications post-traductionnelles et structures secondaires
- Etablir un arbre Phylogénique
Pourquoi analyser une séquence?
Ou chercher ces similarités?
Avec quel outil?
Recherche de similarités dans les banques de données
Le Blast: Basic Local Alignment Search Tool.

L’alignement local permet de trouver des segments sur deux


séquences, qui ont un haut degré de similitude. Cette propriété
en fait un outil idéal rapide et efficace, de recherche dans les
bases de données en comparant une séquence inconnue avec
les séquences de la banque, sans que les séquences soient
équivalente en taille.

L’alignement global se fait sur la totalité de la longueur en


tenant compte de tous les résidus. Si les longueurs sont
différentes, des insertions/délétions sont introduites pour
aligner les deux extrémités des 2 séquences. Il permet de
mesurer le degrés de similitudes entre 2 séquences connues.
BLAST NCBI
Variantes de BLAST
Variantes de BLAST
TRAITEMENT DES SEQUENCES
NUCLEIQUES (ADN ou ARN)
Il existe différentes méthodes pour la détermination de segments identiques entre
deux séquences biologiques (on parle alors de fenêtres, de motifs ou de mots) sur
lesquelles une similitude significative peut exister.
Notion de score : Le score élémentaire (noté "s") est une entité numérique que
l’on attribue à chaque couple de nucléotides des deux séquences à comparer. Il
prend la valeur de 1 lorsque les deux nucléotides des deux séquences sont
identiques, et la valeur de zéro sinon.
TRAITEMENT DES SEQUENCES NUCLEIQUES
(ADN ou ARN)
TRAITEMENT DES SEQUENCES NUCLEIQUES
(ADN ou ARN)

Matrice d’identité nucléique


TRAITEMENT DES SEQUENCES NUCLEIQUES
(ADN ou ARN)
TRAITEMENT DES SEQUENCES NUCLEIQUES
(ADN ou ARN)
La matrice de points : Dot-plot
Elle permet une vue (méthode visuelle) englobant les similarités entre les régions des
séquences à comparer. Les séquences sont positionnées perpendiculairement dans un
tableau et on met un point ou une X à chaque appariement . La multiplicité des points
forme des diagonales. Les décalages correspondent à des insertions/délétions et les
segments parallèles indiquent des répétitions. L’alignement optimal va de la case en haut
à gauche vers la case en bas à droite.
La matrice de points : Dot-plot
La matrice de points : Dot-plot
La méthode du Dot-Plot

• Le dot-plot est utile pour déterminer de combien d'exons est composé un gène en
le comparant à son ARNm et pour avoir une idée de la taille des introns et des
exons.
• Il existe un logiciel de dotplot interactif, Dotlet qui nécessite JAVA. Si JAVA n'est pas
installé sur vos machines, vous pouvez utiliser Dottup5.
• Le principe du dot-plot est basé sur la comparaison de fenêtres de longueur fixe
que l'on déplace le long des séquences.
• Soit deux séquences A et B à comparer et l la longueur de la fenêtre. On détermine
sur la séquence A une première fenêtre de longueur l que l'on va comparer avec
toutes les fenêtres possibles de même longueur, obtenues à partir de la séquence
B. Un incrément est alors appliqué pour déterminer une deuxième fenêtre sur la
séquence A, puis l'on recommence le balayage des comparaisons sur la séquence
B. Si l'on choisit un incrément de 1 et que les séquences ont respectivement une
longueur de m et n éléments, on effectuera de l'ordre de n x m comparaisons de
fenêtres différentes.
La méthode du Dot-Plot
• Pour chaque comparaison entre deux fenêtres, un
score est obtenu et l'on mémorisera uniquement les
comparaisons dont les scores sont jugés significatifs,
c'est-à-dire supérieurs ou égaux à un seuil que l'on
s'est fixé. Par exemple lorsque le score correspond au
minimum à 80% d'identité avec l'utilisation d'une
matrice unitaire nucléique comme matrice de scores
élémentaires6.
• Considérons, par exemple, les deux séquences A et B
suivantes :
– Séq A = ATGTAATGCATG et Séq B = TATGTGAATG. La taille
du motif (fenêtre) étant choisie égale à 5.
La méthode du Dot-Plot
• La fenêtre formée des cinq premiers nucléotides de la séquence A est :
ATGTA. Il faut la comparer avec toutes les fenêtres possibles de taille égale
à cinq retrouvées sur la séquence B. Ces séquences sont :
1. TATGT
2. ATGTG
3. TGTGA
4. GTGAA
5. TGAAT
6. GAATG
• Remarque : Au-delà du nucléotide G en 6ème position dans la séquence
B, on ne peut plus
• avoir une fenêtre de taille égale à cinq nucléotides.
• La première comparaison concerne les deux motifs suivants :
• Fenêtre de la séquence A = ATGTA
• Fenêtre de la séquence B = TATGT
La méthode du Dot-Plot
La méthode du Dot-Plot
La méthode du Dot-Plot
La méthode du Dot-Plot
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
Recherche de segments identiques
par codification numérique
L’alignement des séquences nucléiques: La programmation dynamique
Pourquoi vouloir réaliser des alignements ?

• L’alignement, comme nous allons le voir dans les exemples suivants,


permet de mesurer la similitude entre les séquences. S’il ya similitude,
cela signifie qu’il est possible que les deux séquences présentent la même
fonction biologique, ou du moins les deux séquences présente une
structure fortement similaire. Ce type d’information est nécessaire dans la
mesure où, généralement, nous avons à faire à une séquence inconnue.

• Sa comparaison avec des séquences de structure et de fonction connues


permet de tirer un maximum d’informations quant à la structure et la
fonction de la séquence inconnue.

• Dans certains cas, on peut même confirmer si la séquence inconnue est un


gène ou une portion de gène après l’avoir aligné avec des séquences de
structure génique connue (régions codantes : codons d’initiation et de
terminaison, sites d’épissage, zones de fixation des ribosomes).
L'algorithme de Needleman et
Wunsch
Il permet de réaliser un alignement global
entre deux séquences nucléiques. Son
expression est de la forme :

Exemple :
Supposons que nous désirons calculer un alignement global des deux séquences
suivantes de taille m et n respectivement:
S1 = TAAGTCCG m=8 et S2 = TACGTACG n=8

Remarque : Ici, les deux séquences sont de même longueur (8 résidus chacune).
On peut calculer un alignement entre deux séquences de tailles inégales.
Pour calculer l’alignement entre les deux séquences S1 et S2, quatre étapes sont
nécessaires :
L'algorithme de Needleman et
Wunsch
Etape 1 : Calcul de la matrice initiale
Il s’agit d’insérer les deux séquences S1 et S2 dans une matrice de sorte que S1
soit à l’horizontal et S2 à la verticale du tableau, puis remplir les cases par 1
(identité des deux nucléotides de S1 et de S2) ou 0 (sinon) :
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et
Wunsch
L'algorithme de Needleman et Wunsch
L'algorithme de Needleman et Wunsch
L'algorithme de Needleman et Wunsch
Les paramètres de pénalité liés aux gaps

• La fonction de pénalité d'un gap est définie par : f(n) = d + [e . (n-1)], où :


– n = longueur du gap
– d = pénalité d'ouverture d'un gap
– e = pénalité d'extension d'un gap
• Exemple : un gap de longueur n = 3, avec une pénalité d'ouverture d = -
10 et d'extension e = -2, aura un score de f(3) = -10 + (-2 x 2) = -14

• GAP OPEN : valeur de la pénalité pour l'ouverture d'un gap. La valeur par
défaut est 10.
• GAP EXTENSION : valeur de la pénalité pour l'extension d'un gap. La
valeur par défaut est 0.05.
• GAP DISTANCES : valeur de la pénalité pour la séparation des gap. La
valeur par défaut est 8.
• NO END GAPS : si "YES", il n'y a pas de gap finaux.
L’alignement des séquences protéiques par la programmation dynamique
• Les matrices protéiques : Notons tout d’abord que les matrices protéiques utilisées pour
réaliser des alignements sont totalement différentes de celles des acides nucléiques (matrice
d’identité et matrice de transition/transversion) et ce en raison du nombre des acides aminés
(20 acides aminés et non 4 comme le cas des nucléotides) et de la nature physico-chimiques
de ceux-ci.

• En effet, le système nucléique basé sur l’identité n’est pas approprié pour le cas des systèmes
protéiques. Ceci est du au fait que certains acides aminés peuvent être remplacé par d’autres
(à cause de leurs propriétés physicochimiques surtout) sans altérer le rôle et la fonction
biologique de la protéine.

• On peut donc classer les acides aminés en familles par rapport à leurs propriétés et obtenir
ainsi un système de scores qui rende compte de l'affinité des résidus protéiques entre eux.
C’est cette affinité qui permet à un acide aminé d’être substitué par un autre, et les deux
structures protéiques ne seront pas identiques à ce point où la substitution a eu lieu mais on
dira que les deux séquences sont SIMILAIRES et la fonction de la protéine reste conservée.

• Dans l’exemple qui suit, on dispose de la structure primaire de deux séquences enzymatiques
ayant la même fonction biologique, c'est-à-dire toutes les deux sont des amylases. Mais on se
rend vite compte que l’amylase de la mouche ne ressemble pas à celle de l’abeille, et
pourtant elles assurent toutes les deux l’hydrolyse de l’amidon.
L’alignement des séquences protéiques par la programmation dynamique
L’alignement des séquences protéiques par la programmation dynamique
L’alignement des séquences protéiques par la programmation dynamique
L’alignement des séquences protéiques par la
programmation dynamique
La matrice PAM250 (Pourcent Accepted Mutation): La matrice
de mutation de Dayhoff.

• Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300
séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.
• Ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de
l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la
fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".
• La première matrice de ce type, appelée 1PAM ("Percent Accepted Mutations") donne la
probabilité qu'1 substitution soit acceptée pour 100 acides aminés.
• La multiplication X fois de cette matrice par elle-même donne une matrice XPAM qui permet
d'analyser des distances d'évolution plus importantes : 2PAM = 1PAM x 1PAM, 3PAM = 2PAM x
1PAM ...
• A chaque matrice XPAM correspond une matrice PAMX, appelée matrice de mutation de Dayhoff.
Ce sont les matrices PAMX qui sont utilisées par les algorithmes d'alignement.

• Les matrices de type PAM dérivent d'alignements globaux de protéines très semblables et
représentent les échanges possibles et acceptables d’un acide aminé par un autre au cours de
l’évolution des protéines : Les acides aminés entrant dans la composition d’une protéine peuvent
avoir les mêmes propriétés physico-chimiques ou presque et la structure 3D va donc dépendre de
ces caractéristiques. Cette similarité des propriétés physico-chimiques est donc suffisante pour
permettre la substitution (la mutation) entre ces acides aminés sans pour autant perturber la
fonction de la protéine.
An example of point mutations at an amino acid site coding for lysine. The
missense mutations may be classed as point accepted mutations if the
mutated protein is not rejected by natural selection
La matrice PAM250

Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés.
Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont
globalement 20% d'identité.
Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un
tryptophane par une cystéine sans perte significative de la fonction de la protéine.
Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une
phénylalanine.
La matrice BLOSUM 62 (Henikoff & Henikoff, 1992)
BLOcks SUbstitution Matrix)
• Elles sont postérieures aux matrices PAM et ont été développées par Henikoff & Henikoff.
• Les matrices BLOSUM sont construites à partir de 2000 BLOCKS provenant de plus de 500
familles de protéines.
• Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas
d'insertions ou de délétions.
• Exemple d'un BLOCK pour 3 protéines :
• LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15
LON1_MAIZE|P93647 (409) GPPGVGKTSLASSIAKALNR 18
LONM_HUMAN|P36776 (526) GPPGVGKTSIARSIARALNR 15
• des BLOCKS d'acides aminés de petites portions de séquences très conservées sont obtenus
par alignement puis à partir d'un ensemble de blocs est constitué un sous-ensemble qui
contient les portions de séquences qui révèlent un pourcentage donné d'identité. Ceci
permet d'obtenir une probabilité de substitution pour chaque paire d'acides aminés dont
découle la matrice BLOSUM . Ainsi la matrice BLOSUM 60 est obtenue avec un pourcentage
d'identité de 60%
• Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp".
• Elles sont très efficaces pour des alignements locaux de séquences ressemblantes.
Comparaison des matrices PAM et des matrices BLOSUM

• Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire
que les substitutions sont comptabilisées à partir des valeurs des branches d'un
arbre phylogénétique), tandis que les matrices BLOSUM sont basées sur des
modèles d'évolution implicites.
• Les matrices PAM sont basées sur des mutations observées dans un alignement
global, incluant aussi bien des régions hautement conservées que des régions
hautement mutables.
• Les matrices BLOSUM sont basées uniquement sur des régions hautement
conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps").
• La méthode pour comptabiliser les substitutions est différente. A l'inverse de la
procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM
utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas
le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées
de manière identique.
• un indice élevé pour une matrice PAM décrit une distance d'évolution élevée
• un indice élevé pour une matrice BLOSUM décrit au contraire une forte similarité
de séquences donc une distance d'évolution faible
Règles pour le choix des matrices protéiques

• Vue la diversité des types de matrices, le problème du


choix adapté au type d'analyse que l'on veut faire se pose.
• Un grand nombre d'études sur les matrices ont mis en
évidence que, de manière schématique :
• Pour des séquences similaires et courtes, il est préférable
d'utiliser une matrice BLOSUM élevée (ou PAM faible : par
exemple 40)
• Inversement pour des séquences divergentes et longues
une matrice BLOSUM faible (ou PAM élevée) est mieux
adaptée pour une séquence requête courte (50 - 85 acides
aminés), la matrice BLOSUM 80 est mieux adaptée pour
une séquence requête longue (> 300 acides aminés), la
matrice BLOSUM 50 est mieux adaptée
Règles pour le choix des matrices protéiques

les matrices BLOSUM sont mieux adaptées à la détection d'alignements locaux


la matrice BLOSUM 62 est mieux adaptée à la détection de similarités faibles
Pour la comparaison d'une séquence donnée à un ensemble de séquences dans
une banque de données, il semble que la matrice PAM120 soit un bon point de
départ.

De manière générale, pour les recherches dans les banques :


Gonnet > BLOSUM 50
BLOSUM 62 > PAM
L'algorithme de Needleman et Wunsch pour le cas des
protéines :
L'algorithme de Needleman et Wunsch pour le cas des
protéines :
L'algorithme de Needleman et Wunsch pour le cas des
protéines :

Vous aimerez peut-être aussi