Académique Documents
Professionnel Documents
Culture Documents
Alignements Concepts PDF
Alignements Concepts PDF
Principes et méthodes
Karim Mezhoud
Ir. agronome
PhD. Toxicologie, Protéomique, Bioinformatique
1
Pourquoi analyser des séquences?
Une séquence est une collection ordonnée d'alphabets.
2
Pourquoi rechercher des séquences dans les
banques?
3
Qu'est ce qu'une séquence
http://www.ncbi.nlm.nih.gov/
>gi|15805103|ref|NP_293788.1| ABC transporter, ATPbinding
protein [Deinococcus radiodurans R1]
MTAAAPALSLRGLSKAFGAVQAVGDVSLEVQAGETLALLGPSGCGKSTVLRSVAGLERP
DAGQVLVGGRDVTALPPEARHLGLVFQDYALFPHLSVLDNVAYGPRRRGSSRPDAAQQA
REALALVGLSEHERRLPAQLSGGQQQRVALARALATRSPLLLLDEPLSNLDEKLRSELR
HDLRGLFGQLGAGVLLVTHDQREALALAHRVAVMRAGHVVQEGAAADLFARPATAWVAE
FLGWTNVFAHPQVSGQALLVPESAVQLGAGGELLRVLSRQRSETGETVTLAHPLGPLTL
SLSPREAAAASGDELRLTVPSAALLQVPDDREG
4
Qu'est ce qu'un alignement
Trois Situations sont possibles pour une position donnée de l'alignement:
1.Les caractères sont les mêmes: Identité
2.Les caractères ne sont pas les mêmes: Substitution
3.L'une des position est un espace: Insertion/ délétion
Identité ou Match ( | ou * ou C)
Substitution non conservative ou Mismatch (néant)
Substitution conservative (+ ou : ou .)
Indel ou Gap ( néant, - ou .)
5
Analyse de séquences: Quels domaines d'application?
7
Homologue ≠ Similaire
8
Matrice de comparaison
Première approche:
Compter le nombre de résidus identiques dans les deux
séquences alignées. On obtient alors un pourcentage
d'identité (%).
Cette méthode est adaptée pour les séquences d'ADN car les
4 bases A,T,C,G jouent des rôles équivalents dans la
structure et la fonction de la molécule.
M = 20 X 20 10
Le Coeff M(A,G) = log [p(A ---> G) / p(A) p(G)]
Ces matrices ont été remplacées par des matrices basé sur des
alignements en « BLOcs » (sans trous) de séquences très conservées
repérés dans les bases de données.
A partir de ces blocs contigus, on peut repérer les AA qui ont permis la
conservation de la fonction de la protéine et aussi sa structure 3D. Les
substitutions du reste des AA vont indiquées les remplacements
admissibles (qui ne modifient pas ni la structure, ni la fonction de la
protéine)
12
Matrice BLOSUM
14
Évaluer un alignement d'AA
15
Évaluer un alignement de nucléotides
La BLOSUM62 (ou PAM120) est utilisée comme matrice par défaut car
elle offre un bon compromis quand les distances évolutives entre les
séquences qui ne sont pas connues.
séquences vont être alignées sur toutes leurs longueurs. Utilisé quand les
séquences ont à peu près la même longueur.
19
Algorithme de programmation dynamique
20
Programmation dynamique
i 0 1 2 3 4 5 6 7 8 9
j A C G G C T A T C
0
1 A
2 C
3 T
4 G
5 T
6 A
7 A
8 T
9 G
22
Programmation dynamique
i 0 1 2 3 4 5 6 7 8 9
j A C G G C T A T C
0 0 -1
1 A
2 C
3 T
4 G
5 T
6 A
7 A
8 T
9 G
Fonctionnement :
A partir de la cellule d'arrivée,remonter vers la(les) cellule(s)
voisine(s) de score maximal jusqu’à arriver à la cellule initiale.
43
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
G
44
C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
T G
| 45
T C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
A T G
| | 46
A T C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
A A T G
| | 47
A T C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
T A A T G
| | | 48
T A T C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
T A A T G
| | | 49
C T A T C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
G T A A T G
| | | | 50
G C T A T C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
A C T G T A A T G
| | | | | | 51
A C G G C T A T C
Programmation dynamique
0 1 2 3 4 5 6 7 8 9
A C G G C T A T C
0 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
1 A -1 2 1 0 -1 -2 -3 -4 -5 -6
2 C -2 1 4 3 2 1 0 -1 -2 -3
3 T -3 0 3 3 2 1 3 2 1 0
4 G -4 -1 2 5 5 4 3 2 1 0
5 T -5 -2 1 4 4 4 6 5 4 3
6 A -6 -3 0 3 3 3 5 8 7 6
7 A -7 -4 -1 2 2 2 4 7 7 6
8 T -8 -5 -2 1 1 1 4 6 9 8
9 G -9 -6 -3 0 3 2 3 5 8 8
A C T G T A A T G A C T G T A A T G
| | | | | | | | | | |
A C G G C T A T C A C G G C T A T C
2 2 1 2 1 2 1 2 2 1 = 8
4 = 2 1 1 1 2 1 2 1 2 2 1 52
Algorithme de programmation dynamique
+1 si id.
0 si sub.
(-1)
(-1)
la séquence X)
●Les résidu Yj est aligné avec un gap (insertion dans
la séquence Y) 53
Algorithme de programmation dynamique
Intérêt de l'alignement local
Très souvent, l'homologie peut être locale. Elle se limite seulement sur les
domaines responsables de la fonction (exemple de programme FASTA et
BLAST).
Pour détecter ce type de similitudes localisées entre deux séquences,
l'algorithme de Needlman n'est pas adapté. Les scores obtenus seront
pénalisés par « les non-homologies » en dehors de la région conservée.
54
Algorithme de programmation dynamique
De la méthode Needleman and Wunsch à la méthode Smith-Waterman= De
l'alignement global à l'alignement local
FASTA commence à chercher des mots exacts alors que BLAST autorise
les substitutions conservatives.
57
BLAST output
58
E-Value
59
Quelques règles d'interprétations des résultats de BLAST
●On peut déjà parler de séquence homologues au delà de 70% de similarité, mais cela
reste à confirmer par d'autres hypothèses: présence de motifs communs.....
●Si la E-value est très faible (<10-20), c'est probablement le signe d'une similarité entre
60
les séquences. Mais, il ne faut jamais se fier uniquement à la E-Value
BLAST: Basic Local Alignment Search Tool
61
Les données
Banque de données
● Nucléique: EMBL, GenBank....
Recherche de similitude:
●Globale ou locale
62
Procédure de la recherche
63
PSSM & PSI-BLAST
64
Multiple sequences Alignment (MSA)
65
Multiple sequences Alignment (MSA)
L'alignement multiple permet de détecter les régions qui ont été
conservées au travers de l'évolution Très souvent ces régions
correspondent à des domaines associés à une fonction clef de la
molécules.
Les AA strictement conservés, comme ceux qui apparaissent en vert,
jouent souvent un rôle direct dans sa fonction.
Principe:
La méthode par la programmation dynamique (Needlman & Wunsch ou
Smith & Waterman) est généralisée sur les N séquences.
a(S1, S2 )
a(S2, S3)
SP Total Score = Σi < j score[ a(Si, Sj ) ]
67
ClustalW
68
Recherche d'homologie dans les bases de données
http://blast.ncbi.nlm.nih.gov/
69