Vous êtes sur la page 1sur 19

Alignement des séquences de

biomolécules

Dr. SADAOUI. N
Dr. KHEMILI. S
sadaouinesrine@hotmail.com
Alignement de séquences

Alignement de séquences d'ADN (ou d’acides aminés) :


Opération de base en bio-informatique qui a pour but d'identifier des zones identiques,
similaires et conservées entre séquences.

Utilité de l'alignement:
- Identifier des sites fonctionnels.
- Prédire la ou les fonctions d'une protéine.
- Prédire la structure secondaire (voire tertiaire ou quaternaire) d'une protéine.
- Établir une phylogénie (évolution: parenté entre les organismes).
Alignement de séquences

L’analyse de la séquence seule peut indiquer:

• Sa composition;
• La localisation de patterns (motifs);
• Le profil de propriétés telle l’hydrophilicité ou l’hydrophobicité (dans le cas des
protéines).

La comparaison avec elle-même peut indiquer:

• Les répétitions;
• Les motifs particuliers.

La comparaison avec d’autres séquences peut indiquer:

• Les relations suite à l’evolution (homologie).


Applications de l’alignement

• Étude phylogénétique.
• Étude comparative des génomes.
• Prédiction de gène.
• Prédiction de la structure 2D/3D des protéines.
• Caractérisation de la fonction des protéines.
• Prédiction de la structure et fonction des ARN.
• Réseaux d’interaction
• Génétique (différence entre génotype et phénotype).
• Découverte et conception de médicaments.
Alignement de séquences

 On distingue 2 types d'alignements qui diffèrent suivant leur complexité :


L'alignement par paires: Consiste à aligner deux séquences au même temps. Il est
possible de réaliser un alignement :
Global: on tente d’identifier des similarités sur la longueur totale des séquences.
Local: on tente d’identifier des similarités entre une séquence et une sous-séquence.

L'alignement multiple: C’ est un alignement global : consiste à aligner plus de 2 séquences


et nécessite un temps de calcul et un espace de stockage exponentiel en fonction de la taille
des données.

 Alignement de genres différents :


Alignement de séquences d’ADN

Alignement de séquences d’acides aminés


Alignement de séquences

 Alignement= Mise en correspondance de deux séquences (ADN ou protéines)

 Il existe 3 événements mutationnels élémentaires :

Substitution (Mismatch)
Insertion
(Indels ou gaps)
Délétion

 Score d'une opération

• Substitution : score de similarité


• Indel : pénalité

Le score de l'alignement est la somme des scores élémentaires

Score = Score Identités + Score Différences


Somme des paires

Le score d'un alignement par paires A(S1,S2) est donné par une formule w de somme des
paires :

 Exemple (Mismatch: -1, Match: 3, Indel: -2):


Alignement de séquences

2 séquences plusieurs alignements possibles

Bon/mauvais alignement ? matrices de substitutions


Exemple :

Mismatch: -1
Match : 2
Indel: -2
Alignement de séquences

Matrices de substitution

Matrices nucléiques: Il existe peu de matrices pour les acides nucléiques car il n'y a que
5 lettres pour leur alphabet.
La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les
bases sont considérées comme équivalentes.
Match : 1
Mismatch: 0
Indel: 0
Les matrices

Les matrices des acides aminés sont beaucoup plus complexe !


Pam (Point Accepted Mutation) [1978], Blosum (BLOck SUbstitution Matrices )[1992],
Gonnet [1992]…
Basées sur: le nombres de mutations nécessaires pour changer d’acide aminé, propriétés
physico-chimiques, évolution…

Relations entre matrices


• Séquences peu divergentes : BLOSUM80, PAM1.
• Séquences très divergentes : BLOSUM45, PAM250.
• En général : BLOSUM62, PAM120.
• Séquences courtes PAM30 (< 35 AA), PAM70 (< 50 AA).
%Identité - %Similarité - Homologie

% Identité
Quantité qui se mesure en % d’acides aminés identiques entre 2 séquences (après alignement
des séquences).
%Similarité
Quantité qui se mesure en % d’acides aminés ressemblants entre 2 séquences
Homologie
2 protéines sont homologues si elles ont un ancêtre commun .
Paralogues: Séquences homologues qui ont évoluées par duplication .
Orthologues: Gènes homologues qui ont divergé suite à la spéciation (à la séparation d’une
espèce en deux espèces différentes) .
Il est possible d’observer la ressemblance résiduelle entre les séquences originelles après
l’évolution, ce qui permet d’inférer l’homologie.
En général, pour des séquences de longueur standard, on peut inférer l’homologie entre 2
protéines si leurs séquences présentent 30% ou plus d’identités résiduelles mais…
Il existe des séquences homologues avec moins de 30% d’identité.
Homologie - Paralogues – Orthologues
Analogie
Les algorithmes d’alignement
Algorithme de Needleman et Wunsch
• 1970 :A general method applicable to the search for similarities in the amino acid
sequence of two proteins, J Mol Biol. 48 4488 48(3):443-453
• Algorithme général de comparaison globale de séquences

• Maximise un score de similarité => Accord maximum


ou
• Différence minimale (ou minimise les différences)

• Accord maximum = le plus grand nombre de résidus d’une séquence qui peut
correspondre à une autre séquence en autorisant des gaps.

• Trouve l’alignement optimal entre 2 séquences.

• Calcul itératif d’une méthode matricielle qui calcule:

-Toutes les paires possibles (base ou aa) sont présentés sous forme d’un tableau 2D
-Tous les alignements sont représentés par des chemins dans le tableau.
Alignement multiple de séquences pourquoi faire?

 Choix de « primers » consensus pour la PCR

 Caractériser une nouvelle famille de protéines

 Détecter une homologie entre différentes protéines

 Établir une phylogénie

 Détecter des résidus identiques ou similaires ayant un rôle fonctionnel ou


structural

 Prédictions de structures secondaires


Programmes d’alignement multiple

ClustalW (Bien mais lent 20 sec)

ClustalO (Le plus récent de la série)

Multalin

Muscle 3.8

T-Coffee

MAFFT 7.023