Vous êtes sur la page 1sur 20

Introduction à la bioinformatique

7. L’alignement de plusieurs séquences et les profils

Wednesday 14 March 2012

1

Objectifs

Comprendre le bénéfice d’une alignement de plusieurs séquences

Comment faire les alignements de plusieurs séquences

Comprendre pourquoi la programmation dynamique n’est pas applicable

Être capable d’expliquer les systèmes différents pour l’alignement des plusieurs séquences

Comprendre comment on peut aligner des groupes de séquences

Comprendre les profils (PSSM) et leur importance pour l’alignement de plusieurs séquences

Être capable d’expliquer l’importance du pseudocounts

Comprendre la différence entre l’alignement progressif et itératif

Être capable d’expliquer les principes d’alignement progressif

Être capable d’expliquer les principes d’alignement itératif

Wednesday 14 March 2012

3

Bibliographie

Bibliographie • Zvelebil et Baum, Understanding bioinformatics • D.W. Mount, Bioinformatics: sequence and genome

Zvelebil et Baum, Understanding bioinformatics

D.W. Mount, Bioinformatics: sequence and genome analysis

Osamu Gotoh (1999) Multiple sequence alignment:

algorithms and applications.Adv. Biophys. 36:159-206

Cédric Notredame (2007) Recent evolutions of multiple sequence alignment algorithms. PLoS Computational Biology 3(8):e123

Robert C. Edgar and Serafim Batzoglou (2006) Multiple sequence alignment Current opinion in structural biology 16:368-373

Prof. D. Gonze, INFO-F-434 Bases de données et analyse de séquences macromoléculaires

Wednesday 14 March 2012

2

Pourquoi?

L’alignement de deux séquences produit une hypothèse qui est confirmée ou rejetée par le score

Mais ce score n’est pas une garantie que la relation entre les deux séquences est vraiment liée à un ancêtre commun

En plus, il y a toujours des petits erreurs dans l’alignement

On peux résoudre cette incertitude en ajoutant des séquences additionnelles

Un alignement de plusieurs séquences (APS) donne de l’information additionnelle pour chaque position:

similarité entre des positions ou

la conservation de certains acides aminées dans des positions spécifiques

Wednesday 14 March 2012

4

Pourquoi? 2

Améliorer l’alignement entre deux séquences

Pourquoi? 2 Améliorer l’alignement entre deux séquences Les régions conservées: en vert les résidus identiques et
Les régions conservées: en vert les résidus identiques et en bleu les résidus avec les
Les régions conservées: en vert les résidus
identiques et en bleu les résidus avec les mêmes
propriétés

Wednesday 14 March 2012

5

Pourquoi ? 4

Mais ils pourraient y avoir des différences entre des méthodes

P06241|149-246 WYFGKLGR---KDAERQLLSFGNPRGTFLIRESETTK-GAYSLSIRDWDDMKGDHV--KH

Q06124|6-102

WFHPNITG---VEAENLLLTRG-VDGSFLARPSKSNP-GDFTLSVRR-----NGAV--TH

P62993|60-152

WFFGKIPR---AKAEEMLSKQ-RHDGAFLIRESESAP-GDFSLSVKF-----GNDV--QH

P12931|151-248 WYFGKITR---RESERLLLNAENPRGTFLVRESETTK-GAYCLSVSDFDNAKGLNV--KH

P41240|82-171

P00519|127-217 WYHGPVSR---NAAEYLL-SSG-INGSFLVRESESSP-GQRSISLRY-----EGRV--YH

P20936|181-272 WYHGKLDR---TIAEERLRQAG-KSGSYLIRESDRRP-GSFVLSFLSQ----MNVV--NH P42224|573-670 WNDGCIMGFISKERERALLKDQ-QPGTFLLRFSESSREGAITFTWVERSQNG-GE--P-- O60674|401-482 --HGPISM---DFAISKLKKAGNQTGLYVLRCSPKDF-NKYFLTFAVER---ENVIEYKH

WFHGKITR---EQAERLL-YPP-ETGLFLVRESTNYP-GDYTLCVS-C----DGKV--EH

: *

*

:: *

*

.

:

P06241|149-246 YKIRKLDNGGYYITT-RAQFETLQQLVQHYSERAAGL------CCRLVVPC

Q06124|6-102

FKVLRDGAGKYF-LW-VVKFNSLNELVDYHRSTSVSRN----QQIFLRDIE

P12931|151-248 YKIRKLDSGGFYITS-RTQFNSLQQLVAYYSKHADGL------CHRLTTVC

YRIMYH-ASKLSIDE-EVYFENLMQLVEHYTSDADGL------CTRLIKPK

P00519|127-217 YRINTASDGKLYVSS-ESRFNTLAELVHHHSTVADGL------ITTLHYPA

IKIQNT-GDYYDLYG-GEKFATLAELVQYYMEHHGQLKEKNGDVIELKYPL

P62993|60-152 P41240|82-171 TCOFFEE http://www.ebi.ac.uk/ Tools/t-coffee/
P62993|60-152
P41240|82-171
TCOFFEE
http://www.ebi.ac.uk/
Tools/t-coffee/

P20936|181-272 FRIIAM-CGDYYIG--GRRFSSLSDLIGYYSHVSCLLK-----GEKLLYPV

P42224|573-670 ---DF-HAVEPYTK-KELSAVTFPDIIRNYKVMAAENIPE--NPLKYLYPN O60674|401-482 CLITKNENEEYNLSGTKKNFSSLKDLLNCY--------------------Q

.: :::

:

Wednesday 14 March 2012

7

Pourquoi ? 3

Les régions conservées donnent de l’information sur la fonction et al structure d’une protéine

P06241|149-246

Q06124|6-102

P62993|60-152

P12931|151-248

P41240|82-171

P00519|127-217

P20936|181-272

P42224|573-670

O60674|401-482

P06241|149-246

Q06124|6-102

P62993|60-152

P12931|151-248

P41240|82-171

P00519|127-217 P20936|181-272 CLUSTAL P42224|573-670 http://www.clustal.org/ O60674|401-482
P00519|127-217
P20936|181-272
CLUSTAL
P42224|573-670
http://www.clustal.org/
O60674|401-482

WYFGKLGRKDAERQLLSFGN--PRGTFLIRESETT-KGAYSLSIRDWDDMKGDHVKHYKI

FGN--PR GTFLI RESET T-KG AY S LSIRDWDD MKG DHV KHYK I . : WFHPNI T G
. :
. :

WFHPNITGVEAENLLLTR-G--VDGSFLARPSKSN-PGDFTLSVRRNG-----AVTHIKI

WFFGKIPRAKAEEMLSKQ-R--HDGAFLIRESESA-PGDFSLSVKFGN-----DVQHFKV

WYFGKITRRESERLLLNAEN--PRGTFLVRESETT-KGAYCLSVSDFDNAKGLNVKHYKI

WFHGKITREQAERLLYPPET----GLFLVRESTNY-PGDYTLCVSCDG-----KVEHYRI

WYHGPVSRNAAEYLLSSGIN----GSFLVRESESS-PGQRSI

SLRYEG-----RVYHYRI

WYHGKLDRTIAEERLRQAGK---SGSYLIRESDRR-PGSFVLSFLSQMN----VVNHFRI

WNDGCIMGFISKERERALLKDQQPGTFLLRFSESSREGAITFTWVERS-----QNGGEPD

--HGPISMDFAISKLKKAGN--QTGLYVLRCSPKD-FNKYFLTFAVEREN-VIEYKHCLI

: * ::

RKLDNGGYYITTRAQ-FETLQQLVQHYSERAAGLC-CRLVVPC------

RKLD NG GYY IT T R AQ-FE TLQQLVQHYS ERAAG L C-CRLVVPC------ QNTG DY YDL YG G

QNTGDYYDLYGGE-K-FATLAELVQYYMEHHGQLK-EKNGDVIELKYPL

LRDGAGKYFLWVV-K-FNSLNELVDYHRSTS---V-SRNQQIFLRDIE-

1AOT.pdb
1AOT.pdb

RKLDSGGFYITSRTQ-FNSLQQLVAYYSKHADGLC-HRLTTVC------

MYHAS-KLSIDEEVY-FENLMQLVEHYTSDADGLC-TRLIKPK------

NTASDGKLYVSSESR-FNTLAELVHHHSTVADGLI-TTLHYPA------

IAMCGDYYIGGR--R-FSSLSDLIGYYSHVSCLLKGEKLLYPV------

FHAVEPYTKKELSAVTFPDIIRNYKVMAAENIPENPLKYLYPN------

TKNENEEYNLSGTKKNFSSLKDLLNCYQ---------------------

*

:

Wednesday 14 March 2012

 

6

 

Pourquoi ? 5

 
 

Déterminer les relations évolutives

(

Un arbre phylogénétique
Un arbre phylogénétique
( Un arbre phylogénétique

(O60674:0.14917,P42224:0.15083)

:0.00281,

(

(P00519:0.13675,

(

 

(P06241:0.08357,P12931:0.08643):

0.04625,

P62993:0.12375)

 

:0.00575)

:0.00719,

(P20936:0.13375,P41240:0.13625)

:0.00531)

:0.00219,

Q06124:0.14719);

 

Wednesday 14 March 2012

 

8

Le problème

Calculer l’alignement entre N séquences est un problème difficile = problème d'optimisation combinatoire (POC)

Pour résoudre un COP, il faut fournir 2 systèmes. Un système pour

1. Assigner le score d’alignement entre toutes les séquences

2. Trouver l’alignement avec le score optimal

global ou local

score d’alignement entre toutes les séquences 2. Trouver l’alignement avec le score optimal • global ou

Wednesday 14 March 2012

9

Le score 2

Le score 2 SP et les alternatives S(m k , l )= ! s(m k i

SP et les alternatives

Le score 2 SP et les alternatives S(m k , l )= ! s(m k i
Le score 2 SP et les alternatives S(m k , l )= ! s(m k i

S(m k,l )=! s(m k i , m l i )

i

S(m k , l )= ! s(m k i , m l i ) i Entropie

Entropie minimum:

S(m i )=! f k i ln(f k i )

i

Vraisemblance maximum

S(m k,l )=! w k,l s(m k i , m l i )

i

Wednesday 14 March 2012

11

Le score

Comment peut-on assigner un score à un APS?

Le score total :

S(m)=! S(m k,l )

La somme de paires ou SP
La somme de paires ou SP

k,l

On fait l’hypothèse que les scores de colonnes différentes sont indépendants
On fait l’hypothèse que les scores
de colonnes différentes sont
indépendants

Le score d’une colonne : S(m k,l )=! s(m k i , m l i )

m k i est le résidu dans la séquence k dans la colonne i

i

s(m k i , m l i ) le score dans la matrice de substitution

Wednesday 14 March 2012

10

Les Méthodes globales

Les algorithmes de Smith-Waterman et Needleman- Wunsch peuvent être utilisés pour la construction d’un APS

MAIS : l’approche n’est pas pratique car elle a besoin de beaucoup de ressources de calcul (taille = 200).

Nombre de

séquences

O(2 n L n )

2

2 2 ! 200 2 =0.16M

3

2 3 ! 200 3 =64M

4

2 4 ! 200 4 =25600M

6

Wednesday 14 March 2012

12

Les Méthodes globales 2

Les algorithmes de Smith-Waterman et Needleman- Wunsch peuvent être utilisés pour la construction d’un APS

MAIS : l’approche n’est pas pratique car il a besoin de beaucoup de mémoire (taille = 200).

Nombre de

séquences

2

3

4

6

Nombre de séquences 2 3 4 6 mémoire (1 byte/élément) 400 bytes 7.63 Mbytes 1.5Gbytes 60000

mémoire (1 byte/élément)

400 bytes

7.63 Mbytes

1.5Gbytes

60000 Gbytes

Wednesday 14 March 2012

13

Le système MSA

Lipman et al ont proposé un logiciel qui utilise la programmation dynamique

Rappelez-vous

S(A,B)
S(A,B)

Prenez 2 séquences:A et B

Pour aligner 2 séquences nous devons calculer les scores

pour chaque position jusqu’à la fin

S(A,B) est le score optimal pour l’alignement des deux sous-séquences de A et B

Wednesday 14 March 2012

15

Les Méthodes globales 3

La programmation dynamique optimalisée (le système MSA)

L’alignement progressif (le système CLUSTAL)

Méthodes stochastiques (le système SAGA)

Wednesday 14 March 2012

14

Le système MSA 2

Lipman et al ont proposé un logiciel qui utilise la programmation dynamique

S(A,B,C) S(B,C) S(A,B) S(A,C)
S(A,B,C)
S(B,C)
S(A,B)
S(A,C)

Prenez 3 séquences:A, B et C

Pour aligner 3 séquences nous devons calculer les scores optimal pour chaque position dans un cube

Le score S(A,B,C) est relaté au scores S(A,B), S(B,C) et S(A,C)

somme de paires ou SP
somme de paires ou SP

Wednesday 14 March 2012

16

Le système MSA 3

Lipman et al on proposé un logiciel qui utilise la programmation dynamique

proposé un logiciel qui utilise la programmation dynamique Pour N séquences de 200 acides aminés on

Pour N séquences de 200 acides aminés on doit enregistrer 200 N scores

Comment peut-on réduire ceci de sorte qu’on puisse encore trouver la solution optimale ?

Wednesday 14 March 2012

17

Le système MSA 5

Carrillo et Lipman ont trouvé une méthode qui réduit le nombre de comparaison qu’on doit faire

Étapes de prétraitement :

1. Calculez les scores optimals entre chaque paires de séquences

2. Utilisez ces scores pour la construction d’un arbre phylogénétique

3. Construisez l’APS en utilisant l’arbre et une méthode heuristique

Cet APS temporaire donne les limites sur l’espace à l'intérieur du cube dans lequel on trouvera l’alignement optimal

Wednesday 14 March 2012

19

Le système MSA 4

Carrillo et Lipman ont trouvé une méthode qui réduit le nombre de comparaison qu’on doit faire

qui réduit le nombre de comparaison qu’on doit faire La flèche noire (alignement pour 3 séquences)

La flèche noire (alignement pour 3 séquences) peut être projetée sur les surfaces AB, AC et BC, qui représentent un alignement pour chaque paire de séquences

Cela veut dire aussi que les alignements pour chaque paire introduisent des limites sur les positions qui sont importantes pour l’alignement des 3 séquences !

Wednesday 14 March 2012

18

Le système MSA 6

Le méthode de Carrillo et Lipman introduit une limite sur le nombre de positions qui sera calculé en utilisant la programmation dynamique

Le nombre de séquences est limité à 10 !!!
Le nombre de séquences est limité à 10 !!!
dynamique Le nombre de séquences est limité à 10 !!! L’APS optimal est donc l’alignement avec

L’APS optimal est donc

l’alignement avec le plus haut SP score

Le score S(A,B,C) est calculé en utilisant la méthode SP

Une pénalité constant est utilisée pour chaque taille d’espace

Wednesday 14 March 2012

20

Le système MSA 7

Le système MSA calcule une valeur ! pour chaque paire de séquences

ε représente la divergence entre l’alignement par paires et l’alignement avec tous les séquences.

" = ADS(x) - APS(x)

MSA essaie de diminuer la divergence, autrement l’alignement de paires ne donne pas assez de l’information concernant l’alignement de tous les séquences

Wednesday 14 March 2012

21

Profils

Dans l’étape 4 de MSA on construit un APS temporaire en utilisant un arbre. Dans cette étape on a besoin des algorithmes qui peuvent aligner des séquences aux groupes de séquences ou des groupes de séquences aux autres groupes

séquences ou des groupes de séquences aux autres groupes Un profil est une représentation d’un groupe

Un profil est une représentation d’un groupe de séquences qui facilite ces taches

Wednesday 14 March 2012

23

Le système MSA 8

Le système MSA complet:

1. Calculez les scores pour les alignements entre chaque paires de séquences

2. Utilisez ces scores pour la construction d’un arbre phylogénétique

3. Calculez les poids pour chaque paire de séquences en utilisant l’arbre

4. Produisez l’alignement en utilisant une heuristique et l’arbre (non-optimal)

5. Calculez le ε maximum pour chaque paire de séquences

6. Déterminez les postions dans le hyper-cube (dimensions N) qui seront

calculées pour obtenir l’alignement optimal

7. Faites la programmation dynamique

8. Rapportez l’alignement optimal et le ε maximum

Wednesday 14 March 2012

22

Profils 2 les profils enregistrent les propriétés générales d’une collection de séquences: 1) les fréquences
Profils 2
les profils enregistrent les propriétés générales d’une
collection de séquences: 1) les fréquences d’acides aminées
dans chaque colonne et 2) l’importance évolutifs de chaque
acide aminée
Prenez par exemple cette collection:
TGVEAENLLL
n u,b
f u,b=
PRAKAEESLS
N seq
GRKDAERQLL
les fréquences sont:
f u,b= ln(1- (n u,b /(N seq +1))
ln(1/ (N seq +1))
f 2,R=2/3
f 5,E=3/3
f 7,S=1/3

Wednesday 14 March 2012

24

Profils 3 fréquences les positions dans l’ensemble des séquences 0 4 9 R 0.667 0.333
Profils 3
fréquences
les positions dans l’ensemble des séquences
0
4
9
R
0.667
0.333
H
K
0.333
0.333
D
0.333
E
0.333
1
0.333
S
0.333
T
0.333
N
0.333
Q
0.333
C
G
0.333
0.333
P
0.333
A
0.333
1
I
L
0.333
1
0.667
M
0.333
F
W
Y
V
0.333
les acides aminées

Wednesday 14 March 2012

25

Profils 5

La probabilité p a est la probabilité qu’on trouve l’acide aminée à n’importe quelle position dans des séquences

les données de swissprot
les données de swissprot
probabilité qu’on trouve l’acide aminée à n’importe quelle position dans des séquences les données de swissprot

Wednesday 14 March 2012

27

Profils 4

Le profil enregistre pour chaque colonne la fréquence des acides aminées multipliée par le score d’alignement (l’importance évolutive)

m u,a est uns score d’alignement entre une résidu a et le colonne u
m u,a est uns score
d’alignement entre une
résidu a et le colonne u

q u,a

p a

b "{AA}
b "{AA}

m u,a =! f u,b s a,b

m u,a =log

quand il y a assez de séquences et chaque acide aminées est présent au moins
quand il y a assez de séquences et
chaque acide aminées est présent au
moins une fois dans chaque colonne

Wednesday 14 March 2012

26

Profils 6 0 4 9 m u,a =! f u,b s a,b R -0.666 3.335
Profils 6
0
4
9
m u,a =! f u,b s a,b
R
-0.666
3.335
0
1
-1
0
1.665 -1
-3
-2.334
H
-1
0.668
-1.332
0.666
-2
0
1 -1
-3
-2.334
b "{AA}
K
D
E
m 0,R =0.333 (-1) +
S
T
0.333
(0) +
N
Q
0.333
(-1) =-0.666
C
G
P
m 1,R =0.667 (5) +
A
I
Sans pénalité, la matrice est une
0.333 (0) =3.335
L
PSSM (Position-specific scoring
M
F
matrix)
m 2,R =0.333 (4) +
W
Y
0.333
(-1) +
V
-1
-1.666
0.666
-2.331
1
-2
-2.331
0.333
2
1
+/-
0.333
(-3) =0
9
9
9
9
9
9
9
9
9
9

Wednesday 14 March 2012

28

Profils 7

Les scores m u,a représentent les scores pour aligner un

résidu a à la position u

On utilise les mêmes algorithmes PD pour aligner une séquence à un profil
On utilise les mêmes algorithmes PD pour
aligner une séquence à un profil

Le plus grand problème pour créer des profils est que l’insuffisance du nombre de séquences est et, par conséquent, l’absence de données de certaines acides aminées dans plusieurs colonnes

log 0 =- #
log 0 =- #

Il est impossible d’aligner un résidu a ces colonnes en utilisant le log-odd score (regardez la discussion sur PAM et BLOSUM)

PSEUDOCOUNTS

Wednesday 14 March 2012

29

Profils 9

L'équation la plus générale est exprimée en fonction de

f u,a

q

u,a= &f u,a +$p a

&+$

& est un facteur de cadrage pour les données observées. On utilise parfois &=N seq -1

Si il n’y a pas des données (aucune séquence), les pseudocounts déterminent les valeurs dans le profil

Les pseudocounts représentent la distribution antérieure, qui est la connaissance qu’on a concernant le système avant l’introduction des données

Wednesday 14 March 2012

31

Profils 8

Les pseudocounts sont des constants qu’on ajoute aux valeurs dans le profile

q u,a= n u,a +1

N seq +20

Les pseudocounts donnent de l’information antérieure sur les acides aminées
Les pseudocounts donnent de
l’information antérieure sur les
acides aminées

par conséquence, q u,a n’est jamais 0 !

$ =%N seq

q u,a= n u,a +$ p a

N seq +$

$ est un facteur de cadrage

déterminant le nombre de

pseudocounts

Wednesday 14 March 2012

 

30

 

Profils 10

 
 

m

u,a =log

q u,a

 
 

p

a

 

n

u,a +$ p a

R

0

4

9

-0.65

0.934

-0.65

-0.65

-0.65

-0.65

0.645

-0.65

-0.65

-0.65

 

q

u,a=

seq +$

N

H

K

D

-0.60

-0.60

-0.60

-0.60

-0.60

-0.60

-0.60

-0.60

-0.60

-0.60

 

$

=1

                   
 

E

 

S

q

0,R= 0.06

T

SOMETHING

0.014

N

IS

WRONG HERE

m

0,R

=log

0.06

Q

C

             
 

4

           
 

G

q

1,R= 2.06

m 1,R =log 0.13

P

A

Attention ! ici la matrice

de

substitution n’est pas

considérée

 

4

0.06

I

 

L

M

           

q

6,R= 1.06

m 6,R =log 0.09

F

           
 

4

0.06

W

 

Y

V

-0.60

-0.60

0.582

-0.60

-0.60

-0.60

-0.60

-0.60

-0.60

-0.60

+/-

9

9

9

9

9

9

9

9

9

9

 

Wednesday 14 March 2012

 

32

Profils 11 On peut améliorer les pseudocounts en utilisant l’information dans les matrices de substitution
Profils 11
On peut améliorer les pseudocounts en utilisant l’information
dans les matrices de substitution
q a,b
=e ' s(a,b)
p a p
Chaque log-odd score dans la matrice contient
de l’information sur la probabilité d’alignement
de deux acides aminées
b
c.a.d. si une colonne u contient f u,b
acides aminées de type b, la probabilité
de rencontrer un alignement avec une
acide aminée de type a est
proportionnel à
q a,b
f u,b
p a p b
la somme de toutes ces probabilités
donne la probabilité total pour a

Wednesday 14 March 2012

33

Profils 13

Quand le profil est calculé, on peut aussi calculer une séquence consensus qui représente pour chaque position l’acide aminée avec le plus haut score m u,a

logo
logo

TGVEAENLLL

PRAKAEEMLS

GRKDAERQLL

GRADAEELLL

http://weblogo.berkeley.edu
http://weblogo.berkeley.edu

Wednesday 14 March 2012

35

Profils 12

g u,a=!

b

f u,b

q a,b

p b

Multipliant la probabilité d’aligner une acide

aminée à la colonne u avec p a produit un

meilleur pseudocount pour a

L'équation pour q u,a devient

q u,a=

&f u,a +$g u,a

&+$

Le valuer de g u,a peuvent être obtenu à partir des matrices de substitution comme PAM et BLOSUM

Wednesday 14 March 2012

34

Profils 14

Un logo est construit en calculant le contenu de l’information de chaque colonne u dans la séquence

I u = log 2 20 - H u

l’information
l’information

H u = - ! f u,a log 2 f u,a

l’incertitude
l’incertitude

Une position avec une acide aminée conservée aura le maximum de l’information

La contribution de chaque résidu est :

f u,a I u

Wednesday 14 March 2012

36

Aligner à un profil

Le Needleman-Wunsch (L3) ou Smith-Waterman (L3) peut être utilisé pour aligner une séquence à un profile.

séquence

SRNAAEYLLS

Un profil contient des scores et des pénalités

Le plus grand problème si situe dans la manière de la quelle les pénalités sont assignées

profile Wednesday 14 March 2012 TGVEAENLLL PRAKAEEMLS GRKDAERQLL
profile
Wednesday 14 March 2012
TGVEAENLLL
PRAKAEEMLS
GRKDAERQLL

37

Aligner des Profils?

On ne pourrait pas aligner des profils simplement parce qu’ils enregistrent des scores et des pénalités

Mais on pourrait faire une comparaison entre deux profils utilisant des corrélations entre les colonnes de deux profils comme par exemple le Pearson correlation coefficient.

les colonnes de deux profils comme par exemple le Pearson correlation coefficient. les espaces ne sont
les espaces ne sont pas acceptées
les espaces ne sont pas
acceptées

Wednesday 14 March 2012

39

PSI-BLAST

Le système PSI-BLAST utilise des PSSM pour la recherche des séquences dans des base de données

q= AQRQRRQARQ

d 1 = AQAARRQARQ

d 2 = AQQRRAAQRQ d 3 = QQRQRRAAQA

RQQAAQQARQ

d 4 =

d’= RRRQAAQAQQ

Cherchez les séquences d dans la base de données D

Construisez un PSSM utilisant les séquences d avec un score E plus petit qu’un seuil E*

Utilisez le PSSM pour l’identification des séquences relatées

E plus petit qu’un seuil E* Utilisez le PSSM pour l’identification des séquences relatées Raffinez le

Raffinez le PSSM

Wednesday 14 March 2012

38

Aligner des groupes de séquences

 

Gotoh a proposé 4 algorithmes pour trouver l’alignement optimal qui utilisent une variation de Needleman et Wunsch en utilisant la pénalité affine pour les espaces

   

S-----G

Algorithme A

A=

ACDGFVH

B= NALDGV-

 

SAM----

AA-G--K

Une évaluation

Algorithme B

des coûts

 

AC-DGFVH

d’espaces plus

Algorithme C

SA-M----

 

C=

S------G

précise

Algorithme D

NALDG-V-

AA-G---K

O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence
O. Gotoh (1993) Optimal alignment between groups of sequences and ist
application to multiple sequence alignment. CABIOS 9(3):361-370

Wednesday 14 March 2012

40

Aligner des groupes de séquences 2

O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence
O. Gotoh (1993) Optimal alignment between groups of sequences and ist
application to multiple sequence alignment. CABIOS 9(3):361-370

Wednesday 14 March 2012

41

Aligner des groupes de séquences 4

La somme de paires SP(A) en utilisant PAM250

A=

ACDGFVH SAD-LV- a 3 M m-1
ACDGFVH
SAD-LV-
a 3
M
m-1

|A|=M

|a m |=I

SP(A) = ! ! S m,k

m=2

I

S m,k = !

i=1

k=1

s(a m,i , a k,i )+vg m,k

nombre de séquences

taille des séquences

v est la pénalité pour l’introduction d’un espace et g m,k est le nombre d’espaces
v est la pénalité pour l’introduction d’un
espace et
g m,k est le nombre d’espaces dans
l’alignement

Wednesday 14 March 2012

43

Aligner des groupes de séquences 3

La partie la plus difficile est le calcul correct du coût d’espaces (le coût d’ouverture et le coût d’extension)

(le coût d’ouverture et le coût d’extension) Le coûte d’espace pour la séquence 4 est égale

Le coûte d’espace pour la séquence 4 est égale au coûte d’ouverture et pour les autres il est égale au coûte d’extension

Wednesday 14 March 2012

42

Aligner des groupes de séquences 5

La somme de paires SP(A) en utilisant PAM250

A=

ACDGFVH

SAD-LV-

SP(A)=S 1,2 =s(A,S)+s(C,A)+s(D,D)+s(G,-)+s(F,L)+ s(V,V)+s(H,-) + v g m,k =1-2+4-6+2+4-6 + v g m,k =-3 + v g m,k

Comment calculer le nombre de régions d’espaces g m,k ?

Wednesday 14 March 2012

44

Aligner des groupes de séquences 6

Q 0 R 0 g 0

for i 1 to I do if [(Q i-1 R i-1 ) and q i and !r i ]or [(Q i-1 R i-1 ) and !q i and r i] then g g+1 if q i then Q i Q i +1 els Q i 0

if r i then R i R i +1 els R i 0 end

A=

A 1 =Q= ACDGFVH

ACDGFVH

SAD-LV- q i =(A 1,i == - ) !q i =(A 1,i != - )

g 1,2 =2

SP(A) =-3 +(-6!2)=-15

A

2 =R=

SAD-LV-

r i =(A 2,i == - ) !r i =(A 2,i != - )

Wednesday 14 March 2012

45

Les Méthodes globales 4

La programmation dynamique optimalisée (le système MSA)

Pour l’alignement de beaucoup de séquences on a besoin de heuristiques
Pour l’alignement de beaucoup de séquences
on a besoin de heuristiques

L’alignement progressif (le système CLUSTAL)

de beaucoup de séquences on a besoin de heuristiques • L’alignement progressif (le système CLUSTAL)

Wednesday 14 March 2012

47

Aligner des groupes de séquences 7

En utilisant des profils, Gotoh a amélioré le temps d'exécution de ces algorithmes en gardant leur exactitude

de ces algorithmes en gardant leur exactitude Le résultat dépend du nombre de séquences dans les

Le résultat dépend du nombre de séquences dans les deux groupes

O. Gotoh (1994) Further improvement in methods of group-to-group sequence alignment with generalized profile operations.
O. Gotoh (1994) Further improvement in methods of group-to-group sequence
alignment with generalized profile operations. CABIOS 10(4):379-387

Wednesday 14 March 2012

46

L’alignement progressif

 

L’alignement progressif est une approche heuristique pour aligner plusieurs séquences

3 étapes:

Aucun garantie qu’on retrouve l’alignement optimal
Aucun garantie qu’on retrouve l’alignement
optimal

Calculez une matrice de distances entre les paires de séquences Construisez un arbre phylogénétique en utilisant cette matrice Utilisez cette arbre pour aligner chacun des séquences

 

(cfr les étapes 1-4 de MSA)

Wednesday 14 March 2012

48

L’alignement progressif 2

Comment calculer la matrice de distances?

Faites un alignement entre chaque paires de séquences (programmation dynamique ou une autre méthode)

Calculez la distance entre chaque alignement :

d ij =

s ij

s ij

nombre de substituions

Les espaces ne sont pas pris en considération

La matrices est symétrique

les éléments sur la diagonal sont 0

L ij

L ij

taille d’alignement

Wednesday 14 March 2012

49

L’alignement progressif 4

 

L’arbre détermine l’ordre dans lequel on ajoute chaque séquence au APS (voyez algorithmes de Gotoh)

1
1

GATTGTAGTA

GATGGTAGTA

2
2

GATTGTAGTA

GATGGTAGTA

GATTGTTC--GTA

GATTGTTCGGGTA

3
3

GATTGTA---GTA

4
4

GATTGTA-----GTA

GATGGTA---GTA

GATGGTA-----GTA

GATTGTTC--GTA

GATTGTTC----GTA

GATTGTTCGGGTA

GATTGTTCGG--GTA

GATGGTAGGCGTGTA

Wednesday 14 March 2012

51

L’alignement progressif 3

Comment construire l’arbre ?

regroupez d’abord les deux séquences les plus proches (p.e. 1)

Ensuite, regroupez :

4

1 3 2
1
3
2

A. les deux séquences suivantes la plus proche (p.e. 2)

B. une séquence avec le groupe qui était construit précédemment (p.e. 4)

C. deux groupes (p.e. 3)

SEQ1

SEQ2

SEQ3

SEQ4

SEQ5

Wednesday 14 March 2012

50

L’alignement progressif 5

Le système de Feng et Doolittle:

Ce système a été construit sur le souci que les systèmes APS enlevés ou changés trop les espaces qui étaient présent auparavant, qui est peut-être plausible d’une perspective d’optimisation, mais pas d’une perspective biologique

“une fois un espace, toujours un espace”

le système est composé de 6 fonctions. Ici, seulement les fonctions le plus important sont expliqués

SCORE
SCORE
BORD
BORD
DFAlign
DFAlign
D.-F. Feng and R.F. Doolittle (1987) Progressive sequence alignment as a prerequisite to correct phylogenetic
D.-F. Feng and R.F. Doolittle (1987) Progressive sequence alignment as a
prerequisite to correct phylogenetic trees J Mol Evol 25:351-360

Wednesday 14 March 2012

52

L’alignement progressif 6

SCORE
SCORE

Alignement par paires et le calcul des scores de différences

S ij - S rand

iden = S ii + S jj

D ij =-ln

(100

S

S iden - S rand

2

S ij

Le score d’alignement (en utlisant p.e. PAM250)

S rand = (1/L) !! S(a,b)N i (a)N j (b)-N(g)g penalty

Le score d’alignement de deux séquences aléatoires avec la même composition et la même taille

Wednesday 14 March 2012

53

L’alignement progressif 8

 
SCORE
SCORE

11 =262, S 22 =287

S

Alignement 1 : S 12 =31

 

x 1 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGN x 2 RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT "

Alignement 2 : S 12 =44

x 1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x 3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA- "

Alignement 3 : S 12 =13

x 1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x 4 RRLIPAARGGEISILCQPRAAPKATILWSKGTE-ILGNST-RV--TVTSD "

Wednesday 14 March 2012

55

L’alignement progressif 7

SCORE
SCORE

4 segments obtenus de 4 protéines qui font parties de la famille I-immunogobulin

x 1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGNx 2 RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTDGRHFVSQTTx 3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPLASQNRVEVLAx 4 RRLIPAARGGEISILCQPRAAPKATILWSKGTEILGNSTRVTVTSD"

La matrice de subtitution PAM250

g penalty = 8

Un alignement entre chaque paires de séquences et entre les séquences elles-mêmes est produit (Needleman et Wunsch algorithme)

Wednesday 14 March 2012 54 L’alignement progressif 9 SCORE S x x x x S
Wednesday 14 March 2012
54
L’alignement progressif 9
SCORE
S
x
x
x
x
S
x
x
x
x
ij
1
2
3
4
rand
1
2
3
4
x
262
31
44
13
x
-66.94
-80.28
-70.48
1
1
x
287
15
16
x
-82.86
-72.52
2
2
x
222
45
x
-37.85
3
3
x
215
x
4
4
D
x
x
x
x
ij
1
2
3
4
x
0
1.25
0.95
1.31
1
D ij =-ln S ij - S rand
x
0
1.24
1.30
2
x
0
1.13
S
3
iden - S rand
x
0
4
Wednesday 14 March 2012
56

L’alignement progressif 10

BORD
BORD

Construit un arbre préliminaire en utilisant l’algorithme proposé par Fitch et Margoliash

A chaque étape joignez les séquences ou groupes de séquences avec la plus petite distance et recalculez la distance entre cette nouvelle groupe et les séquences ( ou groupes) restant

x 1 x 2 x 3 x 4 D ij 0 1.25 0.95 1.31 x
x 1
x 2
x 3
x 4
D ij
0
1.25
0.95
1.31
x 1
0
1.24
1.30
x 2
0
1.13
x 3
0
x 4

Les séquences x 1 et x 3 sont la plus proche

x

x

1

3

5

x 1 et x 3 sont la plus proche x x 1 3 5 W.M. Fitch
W.M. Fitch and E. Margoliash (1967) Construction of phylogenetic trees, Science 155(3760):279-284
W.M. Fitch and E. Margoliash (1967) Construction of
phylogenetic trees, Science 155(3760):279-284

Wednesday 14 March 2012

57

L’alignement progressif 12

 
DFAlign
DFAlign

Utilisez l’arbre pour la construction du APS

première étape

 

x 1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGNx 3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA-"

x

4

6 5
6
5
 

deuxième étape

x

1

x 1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x 3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA- x 4 RRLIPAARGGEISILCQPRAAPKATILWSKGTEIL-GNST-RV--TVTSD "

x

3

 

x

2

troisième étape

 

x 1 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGNx 3 ISDTEADIGSNLRWGCAAAG-KPRPMVRWLRNGEPL-ASQN-RV--EVLA-x 4 RRLIPAARGGEISILCQPRA-APKATILWSKGTEIL-GNST-RV--TVTSDx 2 RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT"

Les résultats dépendent sur la matrice du substitution et la pénalité g

 

Wednesday 14 March 2012

59

L’alignement progressif 11

BORD
BORD

D

D

12 +D 32

2

14 +D 34

2

Construit un arbre préliminaire en utilisant l’algorithme proposé par Fitch et Margoliash

Dij

 

5

x

2

 

x

4

5

 

0

1.245

1.22

x

2

0

 

1.30

x

4

   

0

Dij

 

6

   

x

2

 

6

0

   

1.263

 

x

2

     

0

 
x 4 6 x 1 5 x 3 x 4 6 x 5 1 x
x 4
6
x 1
5
x 3
x 4
6
x
5
1
x
3
x 2

D

52 =

=1.245

D

54 =

=1.22

Wednesday 14 March 2012

58

© Tom Lenaerts ULB

L’alignement progressif 13

Ce méthode a deux soucis :

Le problème du maximum local

Le séquences sont ajoutées sur des alignements existants

Par conséquent, chaque erreur dans l’alignement introduisent des erreurs supplémentaires dans les alignements qui sont construit plus tard

Comment choisir les paramètres

Il faut choisir au moins une matrice de substitution, une pénalité d’ouverture et une pénalité d’extension

Ceux-ci fonctionnent bien en cas de séquences homologues, pourtant ils commencent à échouer sérieusement dés que les séquences divergeront

CLUSTAL W a essayé de résoudre ce problème
CLUSTAL W a
essayé de résoudre
ce problème

Wednesday 14 March 2012

60

© Tom Lenaerts ULB

L’alignement progressif 14

Réglages de paramètres introduit par CLUSTAL W:

Des pénalités dynamiques qui changent selon le type d’acide aminé ou selon la position dans la séquence

Information concernant la probabilité de trouver un espace à côté d’une des 20 acides aminées est utilisée pour changer locallement la pénalité d’ouverture

Des régions courtes des résidus hydrophiles indiquent la présence d’une boucle, exigeant la réduction de la pénalité d’ouverture

J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive
J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of
progressive multiple sequence alignment through sequence weighting, position specific gap
penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680

Wednesday 14 March 2012

61

© Tom Lenaerts ULB

L’alignement progressif 13

Ce méthode a deux soucis :

Le problème du maximum local

Le séquences sont ajoutées sur des alignements existants

Par conséquent, chaque erreur dans l’alignement introduisent des erreurs supplémentaires dans les alignements qui sont construit plus tard

Comment choisir les paramètres

Des algorithmes stochastiques peuvent résoudre ce

problème puisqu'ils peuvent s'échapper de solutions

localement optimales

Ceux-ci fonctionnent bien en cas de séquences homologues, pourtant ils commencent à échouer sérieusement dés que les séquences divergeront

Wednesday 14 March 2012

63

© Tom Lenaerts ULB

L’alignement progressif 15

Réglages de paramètres introduit par CLUSTAL W:

Des matrices de substitutions sont utilisées dynamiquement selon la divergence des séquences à aligner a chaque étape

Les séquences sont pesés pour corriger l'échantillonnage inégal à travers toutes les distances évolutifs dans les données

Des séquences similaires sont pesés vers le bas

J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive
J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of
progressive multiple sequence alignment through sequence weighting, position specific gap
penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680
Wednesday 14 March 2012 62 © Tom Lenaerts ULB Amélioration itérative Solution aléatoire Améliorer Fonction
Wednesday 14 March 2012
62
© Tom Lenaerts ULB
Amélioration itérative
Solution aléatoire
Améliorer
Fonction d’évaluation
la solution
Non
convergence?
Oui
Procédé typique pour
résoudre des POC.
La meilleur solution
Wednesday 14 March 2012
64

© Tom Lenaerts ULB

Amélioration itérative 2

Solution aléatoire Alignement de plusieurs séquences e.g. Somme-de- Améliorer Fonction d’évaluation paires la
Solution aléatoire
Alignement de plusieurs
séquences
e.g.
Somme-de- Améliorer
Fonction d’évaluation
paires
la solution
Non
convergence?
Oui
La meilleur solution
Des algorithmes comme stochastic hill
climbing, simulated annealing, tabu search,
genetic algorithms, ant colony
optimization,
Approximation d’alignement
optimal
Wednesday 14 March 2012 65 © Tom Lenaerts ULB Algorithmes Stochastiques 2 Au début un
Wednesday 14 March 2012
65
© Tom Lenaerts ULB
Algorithmes Stochastiques 2
Au début un population d’alignements de N séquences sans
éspaces internes est crée (~100) (On ajout des espaces à la
fin des séquences pour créer des alignements de taille L) =
génération 0
sélection basée
sur le succès
crossover
mutation
ajoutez à la nouvelle
population
Les séquences dans l’APS peut être décalées vers la
droite, remplissant les positions au début avec des
espaces
Wednesday 14 March 2012
67
générations

© Tom Lenaerts ULB

Algorithmes Stochastiques

SAGA = sequence alignment by genetic algorithm

Alignement de plusieurs séquences sélection basée sur le succès crossover mutation ajoutez à la nouvelle
Alignement de plusieurs
séquences
sélection basée
sur le succès
crossover
mutation
ajoutez à la
nouvelle
population
générations
C. Notredame and D.G. Higgins (1996) SAGA: sequence alignment by genetic algorithm. Nucleic Acid Research
C. Notredame and D.G. Higgins (1996) SAGA: sequence alignment by genetic algorithm. Nucleic
Acid Research 24:1515-1524
Wednesday 14 March 2012 66 © Tom Lenaerts ULB Algorithmes Stochastiques 3 La qualité d’un
Wednesday 14 March 2012
66
© Tom Lenaerts ULB
Algorithmes Stochastiques 3
La qualité d’un APS est évalué en utilisant des fonctions: ici
deux fonctions ressemblant la somme de paires pondérés
avec une pénalité d’espaces affine
sélection basée
sur le succès
crossover
Le succès correspond à la probabilité de
mutation
produire des nouveaux APS
add to new
population
= fitness(APS)
Les solutions avec un succès élevé pourraient produire entre 0 et 2
nouveaux APS
Wednesday 14 March 2012
68
générations

© Tom Lenaerts ULB

Algorithmes Stochastiques 4

Chaque génération, 50% des meilleurs APS sont copiés dans la population suivante sélection basée sur
Chaque génération, 50% des meilleurs
APS sont copiés dans la population
suivante
sélection basée
sur le succès
crossover
mutation
ajoutez à la nouvelle
population
générations

Ainsi, 50% de la population suivante est produit par les opérateurs

Wednesday 14 March 2012

69

© Tom Lenaerts ULB

Algorithmes Stochastiques 6

Les operateur de croissement échange l’information entre les deux APS échange
l’information entre les deux APSLes operateur de croissement échange

croissement échange l’information entre les deux APS Il y a 22 opérateurs en total, qui sont

Il y a 22 opérateurs en total, qui sontcroissement échange l’information entre les deux APS utilisé avec une certaine probabilité Les opérateurs de

utilisé avec une certaine probabilitéentre les deux APS Il y a 22 opérateurs en total, qui sont Les opérateurs de

en total, qui sont utilisé avec une certaine probabilité Les opérateurs de mutation exécutent des modifications
en total, qui sont utilisé avec une certaine probabilité Les opérateurs de mutation exécutent des modifications

Les opérateurs de mutation exécutent des modifications locales dans les APS, introduisant dans cette façon la variation

Wednesday 14 March 2012

71

© Tom Lenaerts ULB

Algorithmes Stochastiques 5

Pendant cette étape, les meilleurs APS sont sélectionés et des nouvelles solutions sont produites à
Pendant cette étape, les meilleurs APS sont sélectionés et
des nouvelles solutions sont produites à partir d’eux
sélection basée
sur le succès
crossover
mutation
ajoutez à la nouvelle
population
générations

Wednesday 14 March 2012

70

© Tom Lenaerts ULB

Algorithmes Stochastiques 7

Le croisement à un point prend deux APS takes two MSA, les coupe à une certaine position, échange les deux parties et les colle ensemble

un point prend deux APS takes two MSA, les coupe à une certaine position, échange les

Wednesday 14 March 2012

72

© Tom Lenaerts ULB

Algorithmes Stochastiques 8

Le croisement uniforme recherche d’abord des colonnes contenant les mêmes acides aminées dans chaque positions (colonnes consistent)

acides aminées dans chaque positions (colonnes consistent) Dans le nouvelle APS, ces colonnes consistent seront

Dans le nouvelle APS, ces colonnes consistent seront préservés et les régions dans l’intervalle seront remplis avec les alignements are filled up with the alignement d’un des deux APS

Wednesday 14 March 2012 73 © Tom Lenaerts ULB Algorithmes Stochastiques 10 sélection basée sur
Wednesday 14 March 2012
73
© Tom Lenaerts ULB
Algorithmes Stochastiques 10
sélection basée
sur le succès
crossover
mutation
ajoutez à la nouvelle
population
L’algorithme se termine quand les APS cessent à améliorer,
c-à-d le succès n’augmente pas plus loin
Wednesday 14 March 2012
75
generations

© Tom Lenaerts ULB

Algorithmes Stochastiques 9

Gap-insertion est un opérateur de mutation. 1) Les séquences dans un MSA sont divisées dans deux groupes (utilisant un arbre estimé) 2) Un espace avec un taille aléatoire est inséré dans le groupe G1

avec un taille aléatoire est inséré dans le groupe G1 3) Un espace avec la même

3) Un espace avec la même taille est inséré dans G2 dans une position à un distance limité par la position de l’espace dans le groupe G1

Wednesday 14 March 2012

74

© Tom Lenaerts ULB

Algorithmes Stochastiques 11

Planification dynamique des opérateurs

Au début la probabilité d’utiliser un opérateur est 1/22 (on garantie que chaque opérateur n’obtient jamais un probabilité de zéro)

Les probabilités sont adaptées en utilisant la performance de ces opérateurs dans les 10 générations précédentes

Attribution de crédit correcte

Tous les opérateur sont crédité pour la création d’un meilleur APS

Le dernier obtient 50% de la crédit, l’avant-dernier obtient 50% de la crédit restante (25% d’originale), etc

Wednesday 14 March 2012

76

© Tom Lenaerts ULB

Algorithmes Stochastiques 12

Planification dynamiques des opérateurs de croisement

© Tom Lenaerts ULB Algorithmes Stochastiques 1 2 Planification dynamiques des opérateurs de croisement

Wednesday 14 March 2012

77

© Tom Lenaerts ULB

Algorithmes Stochastiques 13

SAGA était comparé au système MSA (pour des petits groupes) et CLUSTAL W (pour des alignements grands)

petits groupes) et CLUSTAL W (pour des alignements grands) SAGA fonctionne aussi bon que MSA sur

SAGA fonctionne aussi bon que MSA sur les petits groupes de séquences et surpasse CLUSTAL W sur les grands groupes de séquences

Wednesday 14 March 2012

78