Vous êtes sur la page 1sur 20

Bibliographie Introduction la bioinformatique

7. Lalignement de plusieurs squences et les prols

Zvelebil et Baum, Understanding bioinformatics D.W. Mount, Bioinformatics: sequence and genome analysis Osamu Gotoh (1999) Multiple sequence alignment: algorithms and applications. Adv. Biophys. 36:159-206 Cdric Notredame (2007) Recent evolutions of multiple sequence alignment algorithms. PLoS Computational Biology 3(8):e123 Robert C. Edgar and Seram Batzoglou (2006) Multiple sequence alignment Current opinion in structural biology 16:368-373 Prof. D. Gonze, INFO-F-434 Bases de donnes et analyse de squences macromolculaires
2

Wednesday 14 March 2012

Wednesday 14 March 2012

Objectifs

Comprendre le bnce dune alignement de plusieurs squences Comment faire les alignements de plusieurs squences Comprendre pourquoi la programmation dynamique nest pas applicable tre capable dexpliquer les systmes diffrents pour lalignement des plusieurs squences Comprendre comment on peut aligner des groupes de squences Comprendre les prols (PSSM) et leur importance pour lalignement de plusieurs squences tre capable dexpliquer limportance du pseudocounts Comprendre la diffrence entre lalignement progressif et itratif tre capable dexpliquer les principes dalignement progressif tre capable dexpliquer les principes dalignement itratif

Pourquoi?

Lalignement de deux squences produit une hypothse qui est conrme ou rejete par le score

Mais ce score nest pas une garantie que la relation entre les deux squences est vraiment lie un anctre commun En plus, il y a toujours des petits erreurs dans lalignement

On peux rsoudre cette incertitude en ajoutant des squences additionnelles Un alignement de plusieurs squences (APS) donne de linformation additionnelle pour chaque position:

similarit entre des positions ou la conservation de certains acides amines dans des positions spciques

Wednesday 14 March 2012

Wednesday 14 March 2012

Pourquoi? 2
Amliorer lalignement entre deux squences
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 P42224|573-670 O60674|401-482

Pourquoi ? 3
Les rgions conserves donnent de linformation sur la fonction et al structure dune protine
WYFGKLGRKDAERQLLSFGN--PRGTFLIRESETT-KGAYSLSIRDWDDMKGDHVKHYKI WFHPNITGVEAENLLLTR-G--VDGSFLARPSKSN-PGDFTLSVRRNG-----AVTHIKI WFFGKIPRAKAEEMLSKQ-R--HDGAFLIRESESA-PGDFSLSVKFGN-----DVQHFKV WYFGKITRRESERLLLNAEN--PRGTFLVRESETT-KGAYCLSVSDFDNAKGLNVKHYKI WFHGKITREQAERLLYPPET----GLFLVRESTNY-PGDYTLCVSCDG-----KVEHYRI WYHGPVSRNAAEYLLSSGIN----GSFLVRESESS-PGQRSISLRYEG-----RVYHYRI WYHGKLDRTIAEERLRQAGK---SGSYLIRESDRR-PGSFVLSFLSQMN----VVNHFRI WNDGCIMGFISKERERALLKDQQPGTFLLRFSESSREGAITFTWVERS-----QNGGEPD --HGPISMDFAISKLKKAGN--QTGLYVLRCSPKD-FNKYFLTFAVEREN-VIEYKHCLI : : * :: * * . : RKLDNGGYYITTRAQ-FETLQQLVQHYSERAAGLC-CRLVVPC-----QNTGDYYDLYGGE-K-FATLAELVQYYMEHHGQLK-EKNGDVIELKYPL LRDGAGKYFLWVV-K-FNSLNELVDYHRSTS---V-SRNQQIFLRDIERKLDSGGFYITSRTQ-FNSLQQLVAYYSKHADGLC-HRLTTVC-----MYHAS-KLSIDEEVY-FENLMQLVEHYTSDADGLC-TRLIKPK-----NTASDGKLYVSSESR-FNTLAELVHHHSTVADGLI-TTLHYPA-----IAMCGDYYIGGR--R-FSSLSDLIGYYSHVSCLLKGEKLLYPV-----FHAVEPYTKKELSAVTFPDIIRNYKVMAAENIPENPLKYLYPN-----TKNENEEYNLSGTKKNFSSLKDLLNCYQ--------------------* :

Les rgions conserves: en vert les rsidus identiques et en bleu les rsidus avec les mmes proprits

P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 CLUSTAL P42224|573-670 http://www.clustal.org/ O60674|401-482

1AOT.pdb

Wednesday 14 March 2012

Wednesday 14 March 2012

Pourquoi ? 4
Mais ils pourraient y avoir des diffrences entre des mthodes
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 P42224|573-670 O60674|401-482 WYFGKLGR---KDAERQLLSFGNPRGTFLIRESETTK-GAYSLSIRDWDDMKGDHV--KH WFHPNITG---VEAENLLLTRG-VDGSFLARPSKSNP-GDFTLSVRR-----NGAV--TH WFFGKIPR---AKAEEMLSKQ-RHDGAFLIRESESAP-GDFSLSVKF-----GNDV--QH WYFGKITR---RESERLLLNAENPRGTFLVRESETTK-GAYCLSVSDFDNAKGLNV--KH WFHGKITR---EQAERLL-YPP-ETGLFLVRESTNYP-GDYTLCVS-C----DGKV--EH WYHGPVSR---NAAEYLL-SSG-INGSFLVRESESSP-GQRSISLRY-----EGRV--YH WYHGKLDR---TIAEERLRQAG-KSGSYLIRESDRRP-GSFVLSFLSQ----MNVV--NH WNDGCIMGFISKERERALLKDQ-QPGTFLLRFSESSREGAITFTWVERSQNG-GE--P---HGPISM---DFAISKLKKAGNQTGLYVLRCSPKDF-NKYFLTFAVER---ENVIEYKH : * * :: * * . : YKIRKLDNGGYYITT-RAQFETLQQLVQHYSERAAGL------CCRLVVPC IKIQNT-GDYYDLYG-GEKFATLAELVQYYMEHHGQLKEKNGDVIELKYPL FKVLRDGAGKYF-LW-VVKFNSLNELVDYHRSTSVSRN----QQIFLRDIE YKIRKLDSGGFYITS-RTQFNSLQQLVAYYSKHADGL------CHRLTTVC YRIMYH-ASKLSIDE-EVYFENLMQLVEHYTSDADGL------CTRLIKPK YRINTASDGKLYVSS-ESRFNTLAELVHHHSTVADGL------ITTLHYPA FRIIAM-CGDYYIG--GRRFSSLSDLIGYYSHVSCLLK-----GEKLLYPV ---DF-HAVEPYTK-KELSAVTFPDIIRNYKVMAAENIPE--NPLKYLYPN CLITKNENEEYNLSGTKKNFSSLKDLLNCY--------------------Q .: ::: :
7

Pourquoi ? 5
Dterminer les relations volutives
Un arbre phylogntique
( (O60674:0.14917,P42224:0.15083) :0.00281, ( (P00519:0.13675, ( (P06241:0.08357,P12931:0.08643): 0.04625, P62993:0.12375) :0.00575) :0.00719, (P20936:0.13375,P41240:0.13625) :0.00531) :0.00219, Q06124:0.14719);

P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 TCOFFEE P00519|127-217 http://www.ebi.ac.uk/ P20936|181-272 Tools/t-coffee/ P42224|573-670 O60674|401-482

Wednesday 14 March 2012

Wednesday 14 March 2012

Le problme

Calculer lalignement entre N squences est un problme difcile = problme d'optimisation combinatoire (POC) Pour rsoudre un COP, il faut fournir 2 systmes. Un systme pour
1. Assigner le score dalignement entre toutes les squences 2. Trouver lalignement avec le score optimal

Le score
Comment peut-on assigner un score un APS? Le score total : S(m)=! S(mk,l)
k,l On fait lhypothse que les scores de colonnes diffrentes sont indpendants

La somme de paires ou SP

Le score dune colonne : S(mk,l)=! s(mki, mli)


i

Wednesday 14 March 2012

mki

global ou local

est le rsidu dans la squence k dans la colonne i

s(mki, mli) le score dans la matrice


de substitution

Wednesday 14 March 2012

10

Le score 2
SP et les alternatives

Les Mthodes globales


Les algorithmes de Smith-Waterman et NeedlemanWunsch peuvent tre utiliss pour la construction dun APS MAIS : lapproche nest pas pratique car elle a besoin de beaucoup de ressources de calcul (taille = 200).

S(mk,l)=! s(mki, mli)


i

Entropie minimum: S(mi)=! fki ln(fki)


i

Vraisemblance maximum
S(mk,l)=! wk,l s(mki, mli)
i
Wednesday 14 March 2012 11

Nombre de squences 2 3 4 6
Wednesday 14 March 2012

O(2nLn) 22!2002=0.16M 23!2003=64M 24!2004=25600M ...


12

Les Mthodes globales 2


Les algorithmes de Smith-Waterman et NeedlemanWunsch peuvent tre utiliss pour la construction dun APS MAIS : lapproche nest pas pratique car il a besoin de beaucoup de mmoire (taille = 200).
Nombre de squences 2 3 4 6
Wednesday 14 March 2012

Les Mthodes globales 3


La programmation dynamique optimalise
(le systme MSA) CLUSTAL)

Lalignement progressif (le systme Mthodes stochastiques (le systme SAGA)


13 Wednesday 14 March 2012 14

mmoire (1 byte/lment) 400 bytes 7.63 Mbytes 1.5Gbytes 60000 Gbytes

Le systme MSA
Lipman et al ont propos un logiciel qui utilise la programmation dynamique
Rappelez-vous ... Prenez 2 squences: A et B Pour aligner 2 squences nous devons calculer les scores pour chaque position jusqu la n S(A,B) est le score optimal pour lalignement des deux sous-squences de A et B
Wednesday 14 March 2012 15

Le systme MSA 2
Lipman et al ont propos un logiciel qui utilise la programmation dynamique
Prenez 3 squences: A, B et C Pour aligner 3 squences nous devons calculer les scores optimal pour chaque position dans un cube Le score S(A,B,C) est relat au scores S(A,B), S(B,C) et S(A,C)
somme de paires ou SP
Wednesday 14 March 2012 16

S(A,B)

S(A,B,C) S(B,C) S(A,B) S(A,C)

Le systme MSA 3
Lipman et al on propos un logiciel qui utilise la programmation dynamique
Pour N squences de 200 acides amins on doit enregistrer 200N scores

Le systme MSA 4
Carrillo et Lipman ont trouv une mthode qui rduit le nombre de comparaison quon doit faire
La che noire (alignement pour 3 squences) peut tre projete sur les surfaces AB, AC et BC, qui reprsentent un alignement pour chaque paire de squences Cela veut dire aussi que les alignements pour chaque paire introduisent des limites sur les positions qui sont importantes pour lalignement des 3 squences !
17 Wednesday 14 March 2012 18

Comment peut-on rduire ceci de sorte quon puisse encore trouver la solution optimale ?
Wednesday 14 March 2012

Le systme MSA 5
Carrillo et Lipman ont trouv une mthode qui rduit le nombre de comparaison quon doit faire
tapes de prtraitement :
1. Calculez les scores optimals entre chaque paires de squences 2. Utilisez ces scores pour la construction dun arbre phylogntique 3. Construisez lAPS en utilisant larbre et une mthode heuristique

Le systme MSA 6
Le mthode de Carrillo et Lipman introduit une limite sur le nombre de positions qui sera calcul en utilisant la programmation dynamique
Le nombre de squences est limit 10 !!!

LAPS optimal est donc lalignement avec le plus haut SP score


Le score S(A,B,C) est calcul en utilisant la mthode SP

Cet APS temporaire donne les limites sur lespace l'intrieur du cube dans lequel on trouvera lalignement optimal
Wednesday 14 March 2012 19 Wednesday 14 March 2012

Une pnalit constant est utilise pour chaque taille despace


20

Le systme MSA 7
Le systme MSA calcule une valeur ! pour chaque paire de squences
reprsente la divergence entre lalignement par paires et lalignement avec tous les squences.

Le systme MSA 8
Le systme MSA complet:
1. Calculez les scores pour les alignements entre chaque paires de squences 2. Utilisez ces scores pour la construction dun arbre phylogntique 3. Calculez les poids pour chaque paire de squences en utilisant larbre 4. Produisez lalignement en utilisant une heuristique et larbre (non-optimal) 5. Calculez le maximum pour chaque paire de squences 6. Dterminez les postions dans le hyper-cube (dimensions N) qui seront calcules pour obtenir lalignement optimal 7. Faites la programmation dynamique 8. Rapportez lalignement optimal et le maximum

" = ADS(x) - APS(x)


MSA essaie de diminuer la divergence, autrement lalignement de paires ne donne pas assez de linformation concernant lalignement de tous les squences

Wednesday 14 March 2012

21

Wednesday 14 March 2012

22

Prols
Dans ltape 4 de MSA on construit un APS temporaire en utilisant un arbre. Dans cette tape on a besoin des algorithmes qui peuvent aligner des squences aux groupes de squences ou des groupes de squences aux autres groupes

Prols 2
les prols enregistrent les proprits gnrales dune collection de squences: 1) les frquences dacides amines dans chaque colonne et 2) limportance volutifs de chaque acide amine
Prenez par exemple cette collection:
TGVEAENLLL PRAKAEESLS GRKDAERQLL

fu,b= nu,b Nseq


fu,b= ln(1- (nu,b/(Nseq+1)) ln(1/ (Nseq+1))

les frquences sont: Un prol est une reprsentation dun groupe de squences qui facilite ces taches
Wednesday 14 March 2012 23

f2,R=2/3 f5,E=3/3

f7,S=1/3

Wednesday 14 March 2012

24

frquences

Prols 3
les positions dans lensemble des squences
0 4
0.667 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 1 0.333 0.333 1 0.667 0.333 1 0.333 0.333 0.333

Prols 4
9

R H K D E S T N Q C G P A I L M F W Y V

Le prol enregistre pour chaque colonne la frquence des acides amines multiplie par le score dalignement (limportance volutive)

les acides amines

mu,a=! fu,b sa,b


b "{AA}

mu,a est uns score dalignement entre une rsidu a et le colonne u

mu,a=log

qu,a pa

0.333

quand il y a assez de squences et chaque acide amines est prsent au moins une fois dans chaque colonne

Wednesday 14 March 2012

25

Wednesday 14 March 2012

26

Prols 5
La probabilit pa est la probabilit quon trouve lacide amine nimporte quelle position dans des squences

Prols 6
mu,a=! fu,b sa,b
b "{AA} 0 4
3.335 0.668 0 -1.332 1 0.666 -1 -2 0 0 1.665 1 -1 -1 -3 -3

9
-2.334 -2.334

m0,R=0.333 (-1) + 0.333 (0) + 0.333 (-1) =-0.666 m1,R=0.667 (5) + 0.333 (0) =3.335

les donnes de swissprot

m2,R=0.333 (4) + 0.333 (-1) + 0.333 (-3) =0


Wednesday 14 March 2012 27 Wednesday 14 March 2012

R H K D E S T N Q C G P A I L M F W Y V +/-

-0.666 -1

...

...

...

...

...

...

...

...

...

...

Sans pnalit, la matrice est une PSSM (Position-specic scoring matrix)


-1 9 -1.666 9 0.666 9 -2.331 9 1 9 -2 9 -2.331 9 0.333 9 2 9 1 9

28

Prols 7
Les scores mu,a reprsentent les scores pour aligner un rsidu a la position u On utilise les mmes algorithmes PD pour
aligner une squence un prol

Prols 8
Les pseudocounts sont des constants quon ajoute aux valeurs dans le prole

Le plus grand problme pour crer des prols est que linsufsance du nombre de squences est et, par consquent, labsence de donnes de certaines acides amines dans plusieurs colonnes
log 0 =-#

qu,a= nu,a+1 Nseq+20

Les pseudocounts donnent de linformation antrieure sur les acides amines

par consquence, qu,a nest jamais 0 !

Il est impossible daligner un rsidu a ces colonnes en utilisant le log-odd score (regardez la discussion sur PAM et BLOSUM)

PSEUDOCOUNTS
Wednesday 14 March 2012 29

$=%Nseq
Wednesday 14 March 2012

qu,a= nu,a+$pa Nseq+$

$ est un facteur de cadrage dterminant le nombre de pseudocounts

30

Prols 9
L'quation la plus gnrale est exprime en fonction de fu,a
mu,a=log

qu,a= $=1 q0,R= q1,R=

qu,a pa nu,a+$pa
Nseq+$

Prols 10
0 4
0.934 -0.60 -0.65 -0.60 -0.65 -0.60 -0.65 -0.60 -0.65 -0.60 0.645 -0.60 -0.65 -0.60 -0.65 -0.60

9
-0.65 -0.60

qu,a= &fu,a+$pa &+$

& est un facteur de cadrage pour les donnes observes. On utilise parfois &=Nseq-1

0.06 SOMETHING 0.014 m0,R=log 4 0.06

Si il ny a pas des donnes (aucune squence), les pseudocounts dterminent les valeurs dans le prol Les pseudocounts reprsentent la distribution antrieure, qui est la connaissance quon a concernant le systme avant lintroduction des donnes
Wednesday 14 March 2012 31

0.13 2.06 m1,R=log 4 0.06 0.09 1.06 m6,R=log 4 0.06

q6,R=

R H K D E S T N Q C G P A I L M F W Y V +/-

-0.65 -0.60

IS WRONG HERE
... ... ...

...

Attention ! ici la matrice de substitution nest pas considre

...

...

...

...

...

...

-0.60 9

-0.60 9

0.582 9

-0.60 9

-0.60 9

-0.60 9

-0.60 9

-0.60 9

-0.60 9

-0.60 9

Wednesday 14 March 2012

32

Prols 11
On peut amliorer les pseudocounts en utilisant linformation dans les matrices de substitution

Prols 12
gu,a=! fu,b qa,b pb b
Multipliant la probabilit daligner une acide amine la colonne u avec pa produit un meilleur pseudocount pour a

qa,b 's(a,b) papb =e

Chaque log-odd score dans la matrice contient de linformation sur la probabilit dalignement de deux acides amines

c.a.d. si une colonne u contient fu,b acides amines de type b, la probabilit de rencontrer un alignement avec une acide amine de type a est proportionnel

fu,b

qa,b papb

L'quation pour qu,a devient

qu,a=

&fu,a+$gu,a &+$

la somme de toutes ces probabilits donne la probabilit total pour a


Wednesday 14 March 2012 33

Le valuer de gu,a peuvent tre obtenu partir des matrices de substitution comme PAM et BLOSUM
Wednesday 14 March 2012 34

Prols 13
Quand le prol est calcul, on peut aussi calculer une squence consensus qui reprsente pour chaque position lacide amine avec le plus haut score mu,a
logo linformation

Prols 14
Un logo est construit en calculant le contenu de linformation de chaque colonne u dans la squence

Iu= log220 - Hu
TGVEAENLLL PRAKAEEMLS GRKDAERQLL GRADAEELLL

Hu= -! fu,a log2 fu,a


lincertitude

Une position avec une acide amine conserve aura le maximum de linformation
http://weblogo.berkeley.edu

La contribution de chaque rsidu est :


35 Wednesday 14 March 2012

fu,a Iu
36

Wednesday 14 March 2012

Aligner un prol
Le Needleman-Wunsch (L3) ou Smith-Waterman (L3) peut tre utilis pour aligner une squence un prole.
squence SRNAAEYLLS
TGVEAENLLL PRAKAEEMLS GRKDAERQLL

PSI-BLAST
Le systme PSI-BLAST utilise des PSSM pour la recherche des squences dans des base de donnes
q= AQRQRRQARQ d1= d2= d3= d4= AQAARRQARQ AQQRRAAQRQ QQRQRRAAQA RQQAAQQARQ

Un prol contient des scores et des pnalits Le plus grand problme si situe dans la manire de la quelle les pnalits sont assignes

Cherchez les squences d dans la base de donnes D Construisez un PSSM utilisant les squences d avec un score E plus petit quun seuil E* Rafnez le PSSM Utilisez le PSSM pour lidentication des squences relates
38

prole

d= RRRQAAQAQQ

Wednesday 14 March 2012

37

Wednesday 14 March 2012

Aligner des Prols?


On ne pourrait pas aligner des prols simplement parce quils enregistrent des scores et des pnalits
Mais on pourrait faire une comparaison entre deux prols utilisant des corrlations entre les colonnes de deux prols comme par exemple le Pearson correlation coefcient.
les espaces ne sont pas acceptes

Aligner des groupes de squences


Gotoh a propos 4 algorithmes pour trouver lalignement optimal qui utilisent une variation de Needleman et Wunsch en utilisant la pnalit afne pour les espaces
Algorithme A Une valuation des cots despaces plus prcise Algorithme B Algorithme C Algorithme D
A= ACDGFVH SAM---S-----G B= NALDGVAA-G--K

C=

AC-DGFVH SA-M---S------G NALDG-VAA-G---K

O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence alignment. CABIOS 9(3):361-370

Wednesday 14 March 2012

39

Wednesday 14 March 2012

40

Aligner des groupes de squences 2

Aligner des groupes de squences 3


La partie la plus difcile est le calcul correct du cot despaces (le cot douverture et le cot dextension)

O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence alignment. CABIOS 9(3):361-370
Wednesday 14 March 2012 41

Le cote despace pour la squence 4 est gale au cote douverture et pour les autres il est gale au cote dextension
Wednesday 14 March 2012 42

Aligner des groupes de squences 4


La somme de paires SP(A) en utilisant PAM250
A= ACDGFVH SAD-LVa3
M m-1

Aligner des groupes de squences 5


La somme de paires SP(A) en utilisant PAM250
A= ACDGFVH SAD-LV-

|A|=M |am|=I

nombre de squences taille des squences


v est la pnalit pour lintroduction dun
espace et

SP(A)=! ! Sm,k Sm,k= ! s(am,i, ak,i)+vgm,k


i=1
Wednesday 14 March 2012

m=2 I

k=1

gm,k est le nombre despaces dans


lalignement

SP(A)=S1,2 =s(A,S)+s(C,A)+s(D,D)+s(G,-)+s(F,L)+ s(V,V)+s(H,-) + v gm,k =1-2+4-6+2+4-6 + v gm,k =-3 + v gm,k

Comment calculer le nombre de rgions despaces gm,k ?


43 Wednesday 14 March 2012 44

Aligner des groupes de squences 6


Q0R0g0 for i1 to I do if [(Qi-1 Ri-1) and qi and !ri]or [(Qi-1 Ri-1) and !qi and ri] then gg+1 if qi then QiQi+1 els Qi0 if ri then RiRi+1 els Ri0 end

Aligner des groupes de squences 7


En utilisant des prols, Gotoh a amlior le temps d'excution de ces algorithmes en gardant leur exactitude

A=

ACDGFVH SAD-LV-

A1=Q= ACDGFVH A2=R= SAD-LVqi=(A1,i == -) !qi =(A1,i != -) SP(A) =-3 +(-6!2)=-15


45 Wednesday 14 March 2012

ri=(A2,i == -) !ri =(A2,i != -)

Le rsultat dpend du nombre de squences dans les deux groupes


O. Gotoh (1994) Further improvement in methods of group-to-group sequence alignment with generalized prole operations. CABIOS 10(4):379-387

g1,2=2
Wednesday 14 March 2012

46

Les Mthodes globales 4


La programmation dynamique optimalise
(le systme MSA)
Pour lalignement de beaucoup de squences on a besoin de heuristiques

Lalignement progressif
Lalignement progressif est une approche heuristique pour aligner plusieurs squences 3 tapes:
Aucun garantie quon retrouve lalignement optimal

Lalignement progressif (le systme


CLUSTAL)

Calculez une matrice de distances entre les paires de squences Construisez un arbre phylogntique en utilisant cette matrice Utilisez cette arbre pour aligner chacun des squences

(cfr les tapes 1-4 de MSA)


Wednesday 14 March 2012 47 Wednesday 14 March 2012 48

Lalignement progressif 2
Comment calculer la matrice de distances?
Faites un alignement entre chaque paires de squences (programmation dynamique ou une autre mthode) Calculez la distance entre chaque alignement : sij sij nombre de substituions dij= Lij taille dalignement Lij
Les espaces ne sont pas pris en considration La matrices est symtrique les lments sur la diagonal sont 0
Wednesday 14 March 2012 49

Lalignement progressif 3
Comment construire larbre ?
regroupez dabord les deux squences les plus proches (p.e. 1) Ensuite, regroupez :
A. les deux squences suivantes la plus proche (p.e. 2) B. une squence avec le groupe qui tait construit prcdemment (p.e. 4) C. deux groupes (p.e. 3)

1 3 4 2

SEQ1 SEQ2 SEQ3 SEQ4 SEQ5

Wednesday 14 March 2012

50

Lalignement progressif 4
Larbre dtermine lordre dans lequel on ajoute chaque squence au APS (voyez algorithmes de Gotoh)
1
GATTGTAGTA GATGGTAGTA GATTGTAGTA

Lalignement progressif 5
Le systme de Feng et Doolittle:
Ce systme a t construit sur le souci que les systmes APS enlevs ou changs trop les espaces qui taient prsent auparavant, qui est peut-tre plausible dune perspective doptimisation, mais pas dune perspective biologique

GATGGTAGTA GATTGTTC--GTA GATTGTTCGGGTA

une fois un espace, toujours un espace le systme est compos de 6 fonctions. Ici, seulement les fonctions le plus important sont expliqus

GATTGTA---GTA

GATTGTA-----GTA GATGGTA-----GTA GATTGTTC----GTA GATTGTTCGG--GTA GATGGTAGGCGTGTA

GATGGTA---GTA GATTGTTC--GTA GATTGTTCGGGTA

SCORE

BORD

DFAlign

D.-F. Feng and R.F. Doolittle (1987) Progressive sequence alignment as a prerequisite to correct phylogenetic trees J Mol Evol 25:351-360

Wednesday 14 March 2012

51

Wednesday 14 March 2012

52

Lalignement progressif 6
SCORE
Alignement par paires et le calcul des scores de diffrences

Lalignement progressif 7
SCORE
x1 x2 x3 x4

4 segments obtenus de 4 protines qui font parties de la famille I-immunogobulin

Sij - Srand Dij=-ln (100 Siden - Srand

Sii + Sjj Siden = 2

ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTDGRHFVSQTT ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPLASQNRVEVLA RRLIPAARGGEISILCQPRAAPKATILWSKGTEILGNSTRVTVTSD"

Sij Le score dalignement (en utlisant p.e. PAM250) Srand = (1/L)!! S(a,b)Ni(a)Nj(b)-N(g)gpenalty
Le score dalignement de deux squences alatoires avec la mme composition et la mme taille
Wednesday 14 March 2012 53

La matrice de subtitution PAM250 gpenalty = 8 Un alignement entre chaque paires de squences et entre les squences elles-mmes est produit (Needleman et Wunsch algorithme)
Wednesday 14 March 2012 54

Lalignement progressif 8
SCORE
S11=262, S22=287 ... Alignement 1 : S12=31
x1 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGN x2 RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT"

Lalignement progressif 9
SCORE
Sij x1 x2 x3 x4 x1 262 x2 31 287 x3 44 15 222 x4 13 16 45 215 Srand x1 x2 x3 x4 x1 x2 x3 x4 -66.94 -80.28 -70.48 -82.86 -72.52 -37.85

Alignement 2 : S12=44

x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA-"
Dij x1 x2 x3 x4 x1 0 x2 1.25 0 x3 0.95 1.24 0 x4 1.31 1.30 1.13 0

Alignement 3 : S12=13
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x4 RRLIPAARGGEISILCQPRAAPKATILWSKGTE-ILGNST-RV--TVTSD"

Dij=-ln

Sij - Srand Siden - Srand

...

Wednesday 14 March 2012

55

Wednesday 14 March 2012

56

Lalignement progressif 10
BORD
Construit un arbre prliminaire en utilisant lalgorithme propos par Fitch et Margoliash
A chaque tape joignez les squences ou groupes de squences avec la plus petite distance et recalculez la distance entre cette nouvelle groupe et les squences ( ou groupes) restant
Dij x1 x2 x3 x4 x1 0 x2 1.25 0 x3 0.95 1.24 0 x4 1.31 1.30 1.13 0

Lalignement progressif 11
BORD
D52= D54= D12+D32 =1.245 2 D14+D34 =1.22 2

Construit un arbre prliminaire en utilisant lalgorithme propos par Fitch et Margoliash


Dij 5 x2 x4 5 0 x2 x4

1.245 1.22 0 1.30 0

x4 x1 x3 x4 x1 x3 x2

6 5

Les squences x1 et x3 sont la plus proche

x1 x3

Dij 6 x2

6 0

x2 1.263 0

6 5

W.M. Fitch and E. Margoliash (1967) Construction of phylogenetic trees, Science 155(3760):279-284

Wednesday 14 March 2012

57

Wednesday 14 March 2012

58

Tom Lenaerts ULB

Lalignement progressif 12
DFAlign
Utilisez larbre pour la construction du APS premire tape
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA-"

Lalignement progressif 13
Ce mthode a deux soucis : Le problme du maximum local
Le squences sont ajoutes sur des alignements existants

deuxime tape
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA- x4 RRLIPAARGGEISILCQPRAAPKATILWSKGTEIL-GNST-RV--TVTSD "

x4 x1 x3 x2

6 5

Par consquent, chaque erreur dans lalignement introduisent des erreurs supplmentaires dans les alignements qui sont construit plus tard

Comment choisir les paramtres


Il faut choisir au moins une matrice de substitution, une pnalit douverture et une pnalit dextension
CLUSTAL W a essay de rsoudre ce problme

troisime tape
x1 x3 x4 x2 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGN ISDTEADIGSNLRWGCAAAG-KPRPMVRWLRNGEPL-ASQN-RV--EVLA- RRLIPAARGGEISILCQPRA-APKATILWSKGTEIL-GNST-RV--TVTSD RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT"

Les rsultats dpendent sur la matrice du substitution et la pnalit g


Wednesday 14 March 2012 59

Ceux-ci fonctionnent bien en cas de squences homologues, pourtant ils commencent chouer srieusement ds que les squences divergeront
Wednesday 14 March 2012 60

Tom Lenaerts ULB

Tom Lenaerts ULB

Lalignement progressif 14
Rglages de paramtres introduit par CLUSTAL W:

Lalignement progressif 15
Rglages de paramtres introduit par CLUSTAL W:
Des matrices de substitutions sont utilises dynamiquement selon la divergence des squences aligner a chaque tape Les squences sont pess pour corriger l'chantillonnage ingal travers toutes les distances volutifs dans les donnes
Des squences similaires sont pess vers le bas

Des pnalits dynamiques qui changent selon le type dacide amin ou selon la position dans la squence
Information concernant la probabilit de trouver un espace ct dune des 20 acides amines est utilise pour changer locallement la pnalit douverture Des rgions courtes des rsidus hydrophiles indiquent la prsence dune boucle, exigeant la rduction de la pnalit douverture ...
J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specic gap penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680

J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specic gap penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680

Wednesday 14 March 2012

61

Wednesday 14 March 2012

62

Tom Lenaerts ULB

Tom Lenaerts ULB

Lalignement progressif 13
Ce mthode a deux soucis : Le problme du maximum local
Le squences sont ajoutes sur des alignements existants Par consquent, chaque erreur dans lalignement introduisent des erreurs supplmentaires dans les alignements qui sont construit plus tard

Amlioration itrative
Solution alatoire Amliorer la solution
Non

Fonction dvaluation

Comment choisir les paramtres

Des algorithmes stochastiques peuvent rsoudre ce Il faut choisir au moins une matrice de problme puisqu'ils peuvent s'chapper de solutions substitution, unelocalement douverture et une pnalit optimales pnalit dextension

convergence?
Oui La meilleur solution

Procd typique pour rsoudre des POC.

Ceux-ci fonctionnent bien en cas de squences homologues, pourtant ils commencent chouer srieusement ds que les squences divergeront
Wednesday 14 March 2012 63 Wednesday 14 March 2012 64

Tom Lenaerts ULB

Tom Lenaerts ULB

Amlioration itrative 2
Solution alatoire
Alignement de plusieurs squences
e.g. Somme-depaires Non

Algorithmes Stochastiques
SAGA = sequence alignment by genetic algorithm
Alignement de plusieurs squences
slection base sur le succs crossover

Fonction dvaluation

Amliorer la solution
gnrations

convergence?
Oui La meilleur solution

Des algorithmes comme stochastic hill climbing, simulated annealing, tabu search, genetic algorithms, ant colony optimization,...

mutation ajoutez la nouvelle population

Approximation dalignement optimal


Wednesday 14 March 2012 65

C. Notredame and D.G. Higgins (1996) SAGA: sequence alignment by genetic algorithm. Nucleic Acid Research 24:1515-1524

Wednesday 14 March 2012

66

Tom Lenaerts ULB

Tom Lenaerts ULB

Algorithmes Stochastiques 2
Au dbut un population dalignements de N squences sans spaces internes est cre (~100) (On ajout des espaces la n des squences pour crer des alignements de taille L) = gnration 0
slection base sur le succs crossover gnrations

Algorithmes Stochastiques 3
La qualit dun APS est valu en utilisant des fonctions: ici deux fonctions ressemblant la somme de paires pondrs avec une pnalit despaces afne
slection base sur le succs crossover gnrations

mutation ajoutez la nouvelle population

Le succs correspond la probabilit de mutation produire des nouveaux APS add to new = fitness(APS) population

Les squences dans lAPS peut tre dcales vers la droite, remplissant les positions au dbut avec des espaces
Wednesday 14 March 2012 67

Les solutions avec un succs lev pourraient produire entre 0 et 2 nouveaux APS
Wednesday 14 March 2012 68

Tom Lenaerts ULB

Tom Lenaerts ULB

Algorithmes Stochastiques 4
Chaque gnration, 50% des meilleurs APS sont copis dans la population slection base suivante
sur le succs crossover gnrations

Algorithmes Stochastiques 5
Pendant cette tape, les meilleurs APS sont slections et des nouvelles solutions sont produites partir deux
slection base sur le succs crossover gnrations

mutation ajoutez la nouvelle population

mutation ajoutez la nouvelle population

Ainsi, 50% de la population suivante est produit par les oprateurs


Wednesday 14 March 2012 69 Wednesday 14 March 2012 70

Tom Lenaerts ULB

Tom Lenaerts ULB

Algorithmes Stochastiques 6
Les operateur de croissement change linformation entre les deux APS

Algorithmes Stochastiques 7
Le croisement un point prend deux APS takes two MSA, les coupe une certaine position, change les deux parties et les colle ensemble

Il y a 22 oprateurs en total, qui sont utilis avec une certaine probabilit

Les oprateurs de mutation excutent des modications locales dans les APS, introduisant dans cette faon la variation

Wednesday 14 March 2012

71

Wednesday 14 March 2012

72

Tom Lenaerts ULB

Tom Lenaerts ULB

Algorithmes Stochastiques 8
Le croisement uniforme recherche dabord des colonnes contenant les mmes acides amines dans chaque positions (colonnes consistent)

Algorithmes Stochastiques 9
Gap-insertion est un oprateur de mutation. 1) Les squences dans un MSA sont divises dans deux groupes (utilisant un arbre estim) 2) Un espace avec un taille alatoire est insr dans le groupe G1

Dans le nouvelle APS, ces colonnes consistent seront prservs et les rgions dans lintervalle seront remplis avec les alignements are lled up with the alignement dun des deux APS
Wednesday 14 March 2012 73

3) Un espace avec la mme taille est insr dans G2 dans une position un distance limit par la position de lespace dans le groupe G1

Wednesday 14 March 2012

74

Tom Lenaerts ULB

Tom Lenaerts ULB

Algorithmes Stochastiques 10
slection base sur le succs crossover generations

Algorithmes Stochastiques 11
Planication dynamique des oprateurs
Au dbut la probabilit dutiliser un oprateur est 1/22 (on garantie que chaque oprateur nobtient jamais un probabilit de zro) Les probabilits sont adaptes en utilisant la performance de ces oprateurs dans les 10 gnrations prcdentes

mutation ajoutez la nouvelle population

Attribution de crdit correcte


Tous les oprateur sont crdit pour la cration dun meilleur APS Le dernier obtient 50% de la crdit, lavant-dernier obtient 50% de la crdit restante (25% doriginale), etc

Lalgorithme se termine quand les APS cessent amliorer, c--d le succs naugmente pas plus loin

Wednesday 14 March 2012

75

Wednesday 14 March 2012

76

Tom Lenaerts ULB

Tom Lenaerts ULB

Algorithmes Stochastiques 12
Planication dynamiques des oprateurs de croisement

Algorithmes Stochastiques 13
SAGA tait compar au systme MSA (pour des petits groupes) et CLUSTAL W (pour des alignements grands)

SAGA fonctionne aussi bon que MSA sur les petits groupes de squences et surpasse CLUSTAL W sur les grands groupes de squences

Wednesday 14 March 2012

77

Wednesday 14 March 2012

78

Vous aimerez peut-être aussi