Académique Documents
Professionnel Documents
Culture Documents
séquences
I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
3. Matrices de substitution
1
Que souhaitent connaître les biologistes?
2
Pourquoi comparer des séquences?
3
Comparaison de séquences
Extrapolation
RECR_AGRT5
(SwissProt) Hypothetical
4
Pourquoi l’alignement de séquences 2 à 2
Alignements multiples
Recherche de séquences similaires dans les banques de données
Prédiction de structure 3D
Construction de matrices de substitution
Phylogénie
5
Terminologie
6
Introduction aux analyses de
séquences
I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
3. Matrices de substitution
7
Qu’est-ce qu’une séquence?
ADN: ATGCGATGCGTAGTATCTAGTGC
∑ = A, T, G, C, N
Protéine: ADGFHIKLPRSFGHYSRADKLMEWS
∑ = A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y
8
Formats de séquences
Format fasta
Format « raw »
MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI!
LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL!
EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ!
AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM!
Format EMBL
9
Qu’est-ce qu’un alignement?
analysedesgenomes! français
||||!
analizaegjenome--! albanais
Toutes les
correspondances ou
sont autorisées tant
que l’ordre des analys-e-desgenomes!
symboles est |||| | | ||||! ou un autre …
conservé. analizaegje---nome-!
ou
analyse-desg-enomes!
|||| | | ||||| !
analiza--e-gjenome-!
10
Qu’est-ce qu’un alignement?
1- GAMNTAYHVLGGTLSPLDGVGPEDLNI--LIDRVS!
|||||| ||:|| ||.|.| | |||!
2- REFKGKYHVLGGVISPMDG--PEQLTITPLLRRVS!
11
Evaluer un alignement
analyse-desg-enomes!
|||| | | ||||| !
analiza--e-gjenome-!
• que celui-ci :
analys-e-desgenomes!
|||| | | ||||!
analizaegje---nome-!
12
Evaluer un alignement
• Le score est exprimé soit via la distance ou soit via la similitude qui sépare
deux séquences..
• Le score total d’un alignement est la somme de tous les scores des
paires alignées de cet alignement.
13
Evaluer un alignement
A" T" G" C" A" T" A" C" T" G" Score total de similitude
C" T" G" C" -" -" C" C" T" G" + 10
+1 +2 +2 +2 -2 -2 +1 +2 +2 +2
A" T" G" C" A" T" A" C" T" G" Score total de distance
C" T" G" C" -" -" C" C" T" G" +6
+1 +0 +0 +0 +2 +2 +1 +0 +0 +0
14
Evaluer un alignement
1 3 -2 0 -5 19 5
Blosum 40
15
Pénalité d’insertion et de délétion
YHVLGGTLILPDGGDE!
|||||| |||||||!
YHVLGG---LPDGGDE!
YHVLGGTLILPDGGDE! YHVLGGTLILPDGGDE!
|||||| |||||||! |||||| | ||||||!
YHVLGG---LPDGGDE! YHVLGG-L--PDGGDE!
16
Evaluation d’un alignement
• Le score:
• Le bon alignement est celui qui raconte l’histoire (vraie) entre les
séquences ….
17
Différents types d’alignements
A
B
A A
B B
18
Introduction aux analyses de
séquences
I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
1. Méthode graphique
2. Programmation dynamique
3. Matrices de substitution
19
Les matrices dotplots
• Représentation en 2 dimensions
• Identification visuelle des régions similaires entre 2 séquences
20
Les matrices dotplots
• Représentation en 2 dimensions
• Identification visuelle des régions similaires entre 2 séquences
Seq A"
A C T G T A C T A G C G
Seq B" C
T
A
21
Les matrices dotplots
• Représentation en 2 dimensions
• Identification visuelle des régions similaires entre 2 séquences
Seq A"
Bruits de fond
A C T G T A C T A G C G
nucléique = 1/4 = 25%
Seq B" C protéique = 1/20 = 5%
G
T Rapport S / B faible
A
C
Filtrage
T
A
22
Filtrage: sélectivité
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T
Score sur les mots
G A T G
A A T G
T 1
+
1
+
1
= 3
C
C
A C T
T T C T
G 0
+
1
+
1
= 2
A
23
Filtrage: sélectivité
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T
Score sur les mots
G A C T
A T G A
T
0
+
0
+
0
= 0
C
C T G A
T T G A
G 1
+
1
+
1
= 3
A
24
Filtrage: sélectivité
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T
C Avec fenêtre
T
T
G
25
Filtrage: sélectivité
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
A
Sans fenêtre
T
C Avec fenêtre
T
T
G
26
Filtrage: sensibilité (seuil)
k = 3 et S ≥ 2
0 1 1 Sc = 2 0 1 0 Sc = 1
27
Filtrage: sensibilité (seuil)
k = 3 et S ≥ 2
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T 1
+
1
+
0
= 2
G
28
Filtrage: sensibilité (seuil)
k = 3 et S ≥ 2
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T 1
+
0
+
1
= 2
G
29
Filtrage: sensibilité (seuil)
k = 3 et S ≥ 2
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T
G
30
Filtrage: sensibilité (seuil)
k = 3 et S ≥ 2
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T
Sans fenêtre
C
T
G
31
Interprétation
Seq A: A C S G E E K S G D E!
Seq B" A C S G E E K S G D E | | | | | | | | | |!
Seq B: A C S G D E K S G D E!
A
C
• un autre alignement possible:
S
G Seq A: A C S G E E K S G D E - - - - -!
| | | | !
D Seq B: - - - - - A C S G D E K S G D E!
E
K • et un autre:
S
Seq A: - - - - - A C S G E E K S G D E!
G
| | |!
D Seq B: A C S G D E K S G D E - - - - -!
E
32
Interprétation
Seq A"
• un alignement possible:
A C S G K S G D E
Seq B" Seq A: A C S G - - K S G D E!
A
| | | | | | | | |!
C Seq B: A C S G D E K S G D E!
S
• un autre alignement possible:
G
D Seq A: A C S G K S G D E - - - - -!
| | | | | | !
E
Seq B: A C S - - - G D E K S G D E!
K
G
D
33
Similitudes locales
34
Domaines répétés
Interactin A precursor de
Listeria Monocytogenese
Intron
36
Région de faible complexité
Serine-repeat antigen
protein precursor de
Plasmodium falciparum
37
Domaines conservés
38
Matrice « dotplot »
• Très informatif:
zones de similitudes globales ou locales entre deux séquences
repérer des répétitions, des zones de faible complexité …
pas ou peu de perte d’information (filtrage non obligatoire)
• Inconvénients:
difficulté pour quantifier la ressemblance
résultats difficilement manipulables
difficulté d’étendre l’application à la comparaison simultanée de
plus de deux séquences.
39
Introduction aux analyses de
séquences
I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
1. Méthode graphique
2. Programmation dynamique
3. Matrices de substitution
40
Alignements
A T C! A T C -! A - T C! A T C -!
| : |! 5 | :! -1 | : ! -1 | |! 0
A C C! A C - C! A C C -! A - C C!
A - T C! - A T C! - A T C! - A T C!
| |! 0 : :! -2 : |! -1 : |! -1
A C - C! A C C -! A C - C! A - C C!
A T C - -! - A T C -! - - - A T C!
| ! -6 : ! -7 -12 etc …
A - - C C! A C - - C! A C C - - -!
41
Combien d’alignements possibles
entre 2 séquences?
5: 252 0.00252s
10: 184756 0.18s
20: 137846528820 38h
50: 100891344545564193334812497256 3197053785635200 ans
n
> 3 alignements possibles entre 2 séquences
Algorithme
d’optimisation
42
Programmation dynamique:
alignement global
Programmation dynamique
43
Programmation dynamique:
alignement global
A - C A - C A!
| | | |!
A C C A A C -!
44
Programmation dynamique: « principe »
A T G!
?!
C T G!
A T G! -! A T! G! A T! G!
?! ?! ?!
C T! G! C T! G! C T G! -!
A! T! A T! -! A! T!
?! ?! ?!
C T! G! C T! G! C T G! -!
A! T! A T! -! A! T!
?! ?! ?!
C! T! C! T! C T! -!
A T – G!
C T G -! A!-! A! A!
?! ?!
C! C! C! -!
45
Programmation dynamique:
alignement global
A T G!
?!
C T G!
A T G! -! A T! G! A T! G!
?! ?! ?!
C T! G! C T! G! C T G! -!
A T! G! A T G! -! A T! G! A! T! A T! -! A! T! A! T! A T! -! A! T!
?! ?! ?! ?! ?! ?! ?! ?! ?!
C! T! C! T! C T! -! C! T! C! T! C T! -! C T! G! C T! G! C T G! -!
A T! G! A T G! -! A T! G! A! A! A! -! A! A! T! A T!-! A! T!
?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?!
C! C! C! -! C! C! T! C! T! C T!-! C! T! C! T! C T!-!
46
Programmation dynamique:
alignement global
A
T
G
-! A! A T! A T G!
?! ?! ?!
-!
A! A T! A T G!
C
?! ?! ?! ?!
C! C! C! C!
A! A T! A T G!
T
?! ?! ?! ?!
C T! C T! C T! C T!
A! A T! A T G!
G
?! ?! ?! ?!
C T G! C T G! C T G! C T G!
• Le nombre de calcul est réduit de (3n) à (n x m). ( pour n=100, 104 calculs )
47
Programmation dynamique:
alignement global
• Initiation du graphe
A
T
G
-! A! A T! A T G!
?! ?! ?!
-!
C
?!
C!
T
?!
C T!
G
?!
C T G!
48
Programmation dynamique:
alignement global
A
T
G
-! A! A T! A T G!
?! ?! ?!
-!
?
A!
C
?! ?!
C! C!
T
?!
C T!
G
?!
C T G!
49
Programmation dynamique:
alignement global
A
T
G
-! A! A T! A T G!
?! ?! ?!
-!
A!
? A T!
C
?! ?! ?!
C! C! C!
T
?!
C T!
G
?!
C T G!
50
Programmation dynamique:
alignement global
A
T
G
-! A! A T! A T G!
?! ?! ?!
-!
A! A T! A T G!
C
?! ?! ?! ?!
C! C! C! C!
A! A T! A T G!
T
?! ?! ?! ?!
C T! C T! C T! C T!
A! A T! A T G!
G
?! ?! ?! ?!
C T G! C T G! C T G! C T G!
51
Alignement global:
Needleman & Wunsch (1970)
Sc( ai , bj) = 4 si i = j!
Système de score Sc( ai , bj) = -1 si i ≠ j!
Sc( ai , --) = Sc( - , bj) = -1 !
G A T C T
0 -1 -2 -3 -4 -5
A -1 -1 3 2 1 0
G A T C - T -! G -2 3 2 2 1 0
| | |!
- A G C G T C
C -3 2 2 1 6 5
G -4 1 1 1 5 5
T -5 0 0 5 4 9
C -6 -1 -1 4 9 8
52
Alignement global:
Needleman & Wunsch (1970)
Sc( ai , bj) = 4 si i = j!
Système de score Sc( ai , bj) = -1 si i ≠ j!
Sc( ai , --) = Sc( - , bj) = -1 !
G A T C T
0 -1 -2 -3 -4 -5
- G A - T C T!
| | |!
A -1 -1 3 2 1 0
A G C G T C - !
G -2 3 2 2 1 0
- G - A T C T!
| | |!
C -3 2 2 1 6 5
A G C G T C -!
G -4 1 1 1 5 5
T -5 0 0 5 4 9
C -6 -1 -1 4 9 8
53
Alignement global:
Sensibilité aux paramètres
G A T C T
G -8 0 4 2 -2 -6 « système de score »
choisi
- G A T C T! C -12 -4 2 6 6 2
| !
A G C G T C! G -16 -8 -2 4 8 8
T -20 -12 -6 2 6 12
54
En résumé
sont différents.
résultats.
55
Introduction aux analyses de
séquences
I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
3. Matrices de substitution
56
Les systèmes de scores
57
Matrices de scores pour l’ADN
• La matrice identité A C G T
A 1 0 0 0
match 1 C 0 1 0 0
mismatch 0 G 0 0 1 0
T 0 0 0 1
• La matrice de transition/transversion
A C Identité: 3 A C G T
A 3 0 1 0
C 0 3 0 1
Transition: 1
G 1 0 3 0
G T
T 0 1 0 3
Transversion: 0
A C G T
A 1 -3 -3 -3
C -3 1 -3 -3
58
Matrices liées à l’évolution
moléculaire
59
Matrices liées à l’évolution
moléculaire
• Principe:
alignement de protéines
calcul des fréquences de substitutions observées (qij)
calcul des fréquences de substitutions théoriques
pi: fréquence de l’acide aminé i dans le jeu de séquences
pi×pj: fréquence de substitution de i par j si elle se faisait par hasard
calcul d’un quotient: Rij=qij/pipj
si Rij > 1 : substitution i par j favorisée au cours de l’évolution
si Rij < 1 : substitution i par j défavorisée au cours de l’évolution
calcul de la « log-odds matrix »: Sij=λ log Rij
60
Matrice BLOSUM
(BLOcks Substitutions Matrices)
61
Matrice BLOSUM
(BLOcks Substitutions Matrices)
• Ces blocs sont utilisés pour regrouper tous les segments de séquences
ayant un pourcentage d’identité minimum au sein d’un bloc .
62
Exemples de « Matrice Blosum»
BLOSUM 80 BLOSUM 40
63
Choix de la matrice protéique
- divergent + divergent
64
Exemples d’alignements
seqpro1 1 MSLSSLTLDSNPRFAVGGPYHQEVDGLRESELAKSFIGTTKRGIG 45 !
: || | | :: | ||: |||| ||||!
seqpro2 1 VALD.NAR........EKARG......AKA.IGTTGRGIG 24 !
seqpro1 46 PAYSSKVIRNGIRVGDLRHMD...LPAAAQKLDLCGCLL.....E 82 !
• BLOSUM 80 ||| || | |:||||| | || ||||| || !
seqpro2 25 PAYEDKVARRGLRVGDL..FDKETLP...QKLDL...LLSDAAAR 61 !
seqpro1 83 FRGRF...PGHIIKL 94 !
|:| | | !
seqpro2 62 FQG.FKYTP 69 !
seqpro1 1 MSLSSLTLDSNPRFAVGGPYHQEVDGLRESELAKSFIGTTKRGIG 45 !
:| || |||| ||||!
seqpro2 1 VALDNAREKARGAKAIGTTGRGIG 24 !
seqpro1 46 PAYSSKVIRNGIRVGDLRHMD.LPAAAQKLDLCGCLLEFRGRFPG 89 !
• BLOSUM 45 ||| || | |:||||| : || ||||| | : || |!
seqpro2 25 PAYEDKVARRGLRVGDLFDKETLP...QKLDL..LLSDAAARFQG 64 !
seqpro1 90 HIIKL 94 !
| !
seqpro2 65 ..FKYTP 69 !
65
Merci
66