Vous êtes sur la page 1sur 36

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

"analyse avance de squences in-silico:


structure, volution et rgulation"

Cours de bioinformatique
Master 1 - BBSG/DI/MBVB
anne 2008 - 2009

Carl Herrmann (TAGC)


carl.herrmann@univmed.fr

-1-

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Qu'est ce que vous savez (faire) ?

utiliser les bases de donnes (Genbank, Swissprot,...)


analyser des squences ADN/protines
recherche d'ORF
recherche de similarits avec Blast
recherche des domaines protiques simples avec InterPro & co
alignements multiples avec ClustalW

sinon, cf. Cours/TD de Emmanuel Talla (L2- BIO6) et


Pascal Hingamp (L3-BIO7) sur BioInteractif...
-2-
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

ce t io n
s q u'on
qu'on
se
es p
u

os
s
le

e
ce qu'on sait

ne
sait pas
-3-

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

M1
L3

L2
... vous aurez encore
de la bioinfo en M2 ...

L1
-4-
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Des choses abordes...


...des questions restes en suspens
utiliser les banques de donnes (Genbank, Swissprot,...)
banque de donnes plus spcialises?
analyser des squences ADN/protines
recherche de similarits avec Blast
a marche comment blast ?
recherche des domaines protiques simples avec InterPro & co
comment sont dcrits les domaines?
alignements multiples avec ClustalW
comment a marche? autres algorithmes?

-5-

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Des questions nouvelles


structure 3D des protines; prdiction de structure
analyser des squences non-codantes (98% du gnome
humain est non-codant...)
ARN non-codants
rgions de rgulation transcriptionnelle
le fonctionnement des algorithmes
maximisation de l'esprance
chantillonnage de Gibbs
mthodes statistiques en gnral

-6-
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Organisation du module

Bioinfo 1 Bioinfo 2
2 cours introductif (2x2 7 cours de 2 heures
heures) 2 TD (2 x 4 heures)
4 TD (4 x 4 heures)

sensibilisation approfondissement
aux problmes; thorique: "le dessous
matrise des outils des cartes"

-7-

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Bioinfo 1 : les TD

TD1 (8-10 sept.): structure des squences biologiques


identification et modlisation de domaines protiques;
utilisation de diffrents logiciels

TD2 (15-17 sept.): structure des protines


prdiction de structure 3D: classification et comparaison
outils de visualisation

-8-
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Bioinfo 1 : les TD

TD3 (22-24 sept.): phylognie, volution molculaire


volution des domaines protiques
phylognie d'un domaine

TD4 (29 sept - 1 oct.): recherche de squences cis-


rgulatrices
recherche vs. dcouverte de motifs rgulateurs
algorithmes de dcouverte de motifs (chantillonage de Gibbs,
maximisation de l'esprance,...)

-9-

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Bioinfo 1 : les TD

entre chaque sance de TD: des exercices faire, rdiger


(format pdf, 2-3 pages), et envoyer par mail au
responsable du TD dans la semaine aprs le TD.

ces exercices seront nots et entreront dans la note finale


(30%-50%)

inclure dans le sujet du mail "M1Bioinfo"

- 10 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Programme d'aujourd'hui

Matrices de substitution
BLAST: algorithme, valuation statistique
domaines protiques et matrices de frquence
PSI-BLAST
motifs dans l'ADN non-codant

- 11 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Matrices de substitution

ma squence : ALQFVCGD

2 squences dans une AIQYVCPD


base de donne : AKQWVCTD

laquelle des 2 est plus probablement


lie volutivement la mienne ?

quelles sont les mutations les


plus probables/frquentes/observes ?

- 12 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Matrices de substitution
probabilit de substitution d'un AA par un autre ?
PAM [Dayhoff, 1983] :
frquences de mutations observes dans un groupe de
protines "proches" (85% identit) parmi 1572 mutations
extrapolation des distances volutives plus grandes
(PAM250: ~ 20% similarit)
BLOSUM [Henikoff & Henikoff,1991] :
ALQFVCGDRGFYF
frquences des paires d'AA dans des blocs ALQFVCGDRGFYF
ALQFVCGDRGFYF
(~ domaines PROSITE) TLQFVCGDRGFYF
ALYLVCGERGFFY
BLOSUM62: blocs ayant ~62% de similarit ALYLVCGERGFFY
ALYLVCGDRGFFY

frquence
observe de la
paire a/a'
score de frquence
la paire attendue de la
aa' Saa ' =log q aa ' / e aa ' paire a/a'
- 13 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Exemple de calcul Saa ' =logq aa ' / eaa '


36 paires LL, 9 paires LS (45 paires)
qLL = 36/45=0.8 ...L...
qLS = 9/45=0.2 ...L...
...L...
frquence de L: 2 fois dans chaque paire LL, 1 fois dans
chaque paire LS: ...S...
pL= (2x36+9)/(2x45)=0.9 ...L...
frquence de S: 1 fois dans chaque paire LS: ...L...
pS= 9/(2x45) = 0.1 ...L...
frquence attendue de la paire LL: eLL=pLxpL=0.81
...L...
...L...
frquence attendue de la paire LS: eLS=2xpSxpL=0.18
...L...

SLL = log(qLL/eLL) ~ -0.04


SSL = log(qLS/eLS) ~ 0.3
- 14 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PAM250

BLOSUM62
B=N ou D
Z=Q ou E
X=any AA

- 15 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Scores

hydrophobe/
hydrophobes
hydrophile

ALQFVCGD ALQFVCGD
AIQYVCPD AKQWVCTD

4+2+5+3+4+9+(-2)+6 4+(-2)+5+1+4+9+1+6
=31 =28

- 16 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Evnements volutifs

mutations
insertions/dltions de portions de squences
mutation
zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT

indel
xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT

alignement

mismatch
zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT
xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT
******************************************
gaps
- 17 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Insertion ou dltion ?

zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT

indel
xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT

on ne peut pas conclure partir de 2 squences

zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAATTCA
xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAATCCT
chicken GACATTTGGGTGCCAAATGAATAGGGTTTTGTCTATGAATTAGATCGTAAAATCAT
mouse GACATTTGGGTGCCAAATGAATAGGGTTTTGTCTATGAATTAGATCGTAAAATCAT
human GACATTTGGGTGCCAAATGAATAGGGTTTTGTCTATGAATTAGATCGTAAAATCAT
****************************************

- 18 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Seul alignement possible ??

zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT
xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT
******************************************

zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT
et pourquoi pas : xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT
*************************

zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT
ou : xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT
******************

zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT
ou encore: xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT
*********

zebrafish GACATTGGCTGGTAAGATAAATAATGAGTGTTTGGTCCACGAATTAGATCGTAAAAT
moins que... xenopus GACATTTGCTTGCCAAATGAATAGGGTTTTGTCTATGAATTACATCGTAAAAT
************

qu'est ce qui fait qu'un alignement est meilleur qu'un autre ?


comment le trouver parmi l'infinit d'alignements possibles- 19?-

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Complexit du problme

nm alignements possibles
m

82,853,685 x n1035
GenBank alignements possibles
85,759,586,764 bases
82,853,685 sequence

- 20 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Algo. exacts vs. heuristiques

Needelman & Wunsch: algorithme exact d'alignement global


(programmation dynamique)
Smith & Waterman: idem pour alignement local

difficile utiliser en pratique car trs coteux en


temps de calcul!


d'o: algorithmes heuristiques
beaucoup plus rapides
pas forcment la meilleure solution ...

- 21 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Heuristique
Un article de Wikipdia, l'encyclopdie libre.

L'heuristique (du grec heuriskin, trouver) est l'utilisation de rgles empiriques:


pratiques, simples et rapides,
facilitant la recherche des faits et l'analyse de situations,
dans un objectif de rsolution de problmes et de prise de dcision,
dans un domaine particulier.

[...]

Les heuristiques trouvent cependant leur place dans les algorithmes qui ncessitent l'exploration
d'un grand nombre de cas, car elles permettent de rduire leur complexit moyenne en
examinant d'abord les cas qui ont le plus de chances de donner la rponse. Le choix
d'une telle heuristique suppose de connatre dj certaines proprits statistiques sur
l'ensemble d'instances du problme que l'on s'apprte rsoudre. [...]

BLAST
- 22 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

BLOSUM62

Smax on tend l'alignement jusqu' tomber


en dessous d'un score seuil Smax-X
T

longueur du HSP
si Smax-X Seuil: HSP
Smax-X

- 23 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

squence 1

squence 2

squence 2
BLAST 1:
alignements sans
gaps !

- 24 -
squence 1
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Blast2: gapped alignments

1. conditions:
i) 2 mots (w=3), score T
ii) mme diagonale
iii) distance A

- 25 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Blast2: gapped alignments

2. si OK: extension sans


gaps pour former HSPu
(paramtre Xu)
3. si score(HSPu) Sg:
extension avec gaps
pour former HSPg
(paramtre Xg) (prog.
dynamique)

Blast 2: Eval ~ 4e-6


HSPu HSPg
Blast 1: Eval ~ 0.03
- 26 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

statistique de Blast (1 et 2)

score S dpend de la matrice de substitution, des paramtre


de gap (ouverture, extension,...)

Slog K
score normalis: S'=
log 2

et K sont "calculables" (simulations)


S' (en bits) permet de comparer des alignements faits
avec des paramtres diffrents

c'est quoi, un bon score ?? - 27 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

E - value

ma squence (longueur m)
une base de squences protique (taille n)
une HSP de score S'

probabilit d'obtenir par hasard


une HSP avec ce score ?

E-value = nombre de HSP de score S' obtenues en alignant


ma squence contre une base de squences alatoires de
mme taille n.
nm
ex.: m=250, n=50 millions E=
E = 0.05 S' ~ 38 bits
2S '
- 28 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Semblables ?

BLAST: pas vraiment ...


(trop de diffrences)
...et pourtant!
- 29 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PREDICTED: similar to Genethonin 1 (GENX-3414)


[Pan troglodytes]

glucoamylase [Aspergillus
oryzae]

- 30 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

local = local ?

BLAST: toutes les rgions d'une squences sont quivalentes

on aimerait pouvoir "orienter" BLAST:


certaines parties sont plus intressantes que d'autres (la tte)
tant pis si d'autres sont dissemblables
(les chaussures)

besoin d'autres outils que BLAST pour l'tude des


motifs/domaines protiques

- 31 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Motifs

question 1:
comment dcrire un motif dans une squence biologique?
motif protique: domaine, site actif, ...
motif nuclique: site de fixation de facteur de transcription,
module de cis-rgulation ("enhancer")

question 1bis:
comment faire pour distinguer dans une squence un motif
d'un "non-motif" (bruit de fond) ?

- 32 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Matrices de frquence
CLUSTAL W (1.83) multiple sequence alignment
IGF1_PIG MGKISSLPTQLFKCCFCDFLKVKMHITSSSHLFYLALCLLSFTSSATAGPETLCGAELVD 60
IGF1_CANFA -----------------------------SHLFYLALCLLTFPSPATAGPETLCGAELVD 31
IGF-1b
IGF2_HORSE
MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVD
---------------------MGIPVGKSLLMLFTFLAFASCCIAAYRPSETLCGGELVD
60
39
Clustalw (global)
INS_AOTTR -----------------------MALWMHLLPLLALLALWGPEPAPAFVNQHLCGPHLVE 37
INS_PANTR
INS_CHIBR
-----------------------MALWMRLLPLLVLLALWGPDPASAFVNQHLCGSHLVE
-----------------------------------------------FVNKHLCGSHLVD
37
13
MEME, Gibbs (local)
: *** .**:

IGF1_PIG ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK 116


IGF1_CANFA ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK 87
IGF-1b ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK 116
IGF2_HORSE TLQFVCGDRGFYFSRPASR--INRRS--RGIVEECCFRSCDLALLETYCATPAKSERDVS 95
INS_AOTTR ALYLVCGERGFFYAPKTRREAEDLQVGQVELGGGSITGSLPP--LEGPMQK----RGVVD 91
INS_PANTR ALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQK----RGIVE 93
INS_CHIBR ALYLVCGDRGFFYTPMAXXELEDPQVGQADPGVVPEAGRLQPLALEMTLQX----XGIVD 69
:* :***:***:: : . : ** ..

IGF1_PIG SARSVRAQRHTDMPKAQK-------------------EVH-----------------LKN 140


IGF1_CANFA SARSVRAQRHTDMPKAQK-------------------EVH-----------------LKN 111
IGF-1b SARSVRAQRHTDMPKTQKYQPPSTNKNTKSQRRKGWPKTHPGGEQKEGTEASLQIRGKKK 176
IGF2_HORSE TPPTVLPDDSPRYPVVKLFQYNAWKQSTQRLRRGLPALLRTRRGRMLVKELEAFREAQRH 155
INS_AOTTR QCCTSICSLYQLQNYCN------------------------------------------- 108
INS_PANTR QCCTSICSLYQLENYCN------------------------------------------- 110
INS_CHIBR QCCTSICTLYQLENYCN------------------------------------------- 86
: :

ALQFVCGDRGFYF
ALQFVCGDRGFYF
Bloc: ALQFVCGDRGFYF
alignement TLQFVCGDRGFYF
multiple sans gaps ALYLVCGERGFFY
ALYLVCGERGFFY
ALYLVCGDRGFFY - 33 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Matrices de frquence
FKLLSHCLLV
FKAFGQTMFQ
alignement YPIVGQELLG
FPVVKEAILK
multiple
FKVLAAVIAD
LEFISECIIQ
FKLLGNVLVC
A 1 1 1 1 1
C 2 1
D 1
E 1 2 1
F 5 1 1 1
G 3 1
on compte les H
I 1 1
1
3 1
occurrences de K
L 1
4
2 3
1
3 3
1

chaque AA M 1
N 1
chaque position: P 2
portrait robot Q
R
2 2

S 2
T 1
V 2 2 2 1 1
W
Y 1
- 34 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Matrices de frquence

dpendent fortement F K L L S H C L L V
F K A F G Q T M F Q
de la qualit de Y P I V G Q E L L G
F P V V K E A I L K
l'alignement F K V L A A V I A D
du nombre de L E F I S E C I I Q
F K L L G N V L V C
squences alignes A 1 1 1 1 1
C 2 1
frquence observe D 1
de a dans la colonne p E 1 2 1
nap F 5 1 1 1

g ap = G 3
1
1

Np
H
nombre rel de squences I 1 1 3 1
dans la colonne p K 4 1 1
L 1 2 3 3 3
M 1
N 1
P 2
Q 2 2
R
pas de M en position 3: S
T
2
1
est-ce V 2 2 2 1 1

reprsentatif ?? - 35 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Matrices de frquence

dpendent fortement F K L L S H C L L V
F K A F G Q T M F Q
de la qualit de Y P I V G Q E L L G
F P V V K E A I L K
l'alignement F K V L A A V I A D
du nombre de L E F I S E C I I Q
F K L L G N V L V C
squences alignes A 1 1 1 1
C 2 1
D 1
E 1 2 1
F 4 1
2 1
ATTENTION G
H 1
0 veut dire I
K 3
1 1
1
3 1
1
"JAMAIS cet AA L
M
1 2 3 3 3

cette position" N 1
P 2
Q 1 1
R
S 2
T
V 2 2 2 1 1

- 36 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Corrections possibles: mthode 1

il faut tenir compte


de ce que l'on observe (les squences alignes)
de ce que l'on sait (les frquences de substitution des AA)

F K L L S H C L L V
na ' p
w ap =a '
F K A F G Q T M F Q
Y P I V G Q E L L G
S a' a
Np
F P V V K E A I L K
F K V L A A V I A D
L E F I S E C I I Q
F K L L G N V L V C

Exercice:
calculer wM4

Gribskov (1987)

- 37 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Corrections possibles: mthode 2

il faut tenir compte


de ce que l'on observe (les squences alignes)
de ce que l'on sait (les frquences de substitution des AA)

"pseudo frquence"
frquence observe de a dans la colonne p
de a dans la colonne p

F K L L S H C L L V
F K A F G Q T M F Q
nap B ap correction de
g ap =
Y P I V G Q E L L G
F P V V K E A I L K
biais possibles
F
L
F
K
E
K
V
F
L
L
I
L
A
S
G
A
E
N
V
C
V
I
I
L
A
I
V
D
Q
C
N p Bp dans l'chantillon

nombre rel de squences


dans la colonne p
"pseudo-nombre" de squences
dans la colonne p
- 38 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Matrice de score
(PSSM= position-specific scoring matrix)
A -18 -10 -1 -8 8 -3 3 -10 -2 -8
C -22 -33 -18 -18 -22 -26 22 -24 -19 -7
D -35 0 -32 -33 -7 6 -17 -34 -31 0
E -27 15 -25 -26 -9 23 -9 -24 -23 -1
F 60 -30 12 14 -26 -29 -15 4 12 -29
G -30 -20 -28 -32 28 -14 -23 -33 -27 -5
H -13 -12 -25 -25 -16 14 -22 -22 -23 -10

w ap =log g ap /P a
I 3 -27 21 25 -29 -23 -8 33 19 -23
K -26 25 -25 -27 -6 4 -15 -27 -26 0
L 14 -28 19 27 -27 -20 -9 33 26 -21
M 3 -15 10 14 -17 -10 -9 25 12 -11
N -22 -6 -24 -27 1 8 -15 -24 -24 -4
P -30 24 -26 -28 -14 -10 -22 -24 -26 -18
Q -32 5 -25 -26 -9 24 -16 -17 -23 7
R -18 9 -22 -22 -10 0 -18 -23 -22 -4
S -22 -8 -16 -21 11 2 -1 -24 -19 -4
T -10 -10 -6 -7 -5 -8 2 -10 -7 -11
V 0 -25 22 25 -19 -26 6 19 16 -16
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28
Y 34 -18 -1 1 -23 -12 -19 0 0 -18

gap (frquence "observe") Pa (frquence attendue): Sap 0

gap (frquence "observe") Pa (frquence attendue): Sap 0

- 39 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Utilisation des PSSM


A -18 -10 -1 -8 8 -3 3 -10 -2 -8
C -22 -33 -18 -18 -22 -26 22 -24 -19 -7
D -35 0 -32 -33 -7 6 -17 -34 -31 0
balayage d'une squence E
F
-27
60
15
-30
-25
12
-26
14
-9
-26
23
-29
-9
-15
-24
4
-23
12
-1
-29
avec la matrice G
H
-30
-13
-20
-12
-28
-25
-32
-25
28
-16
-14
14
-23
-22
-33
-22
-27
-23
-5
-10
I 3 -27 21 25 -29 -23 -8 33 19 -23
chaque position = 1 score K
L
-26
14
25
-28
-25
19
-27
27
-6
-27
4
-20
-15
-9
-27
33
-26
26
0
-21
M 3 -15 10 14 -17 -10 -9 25 12 -11
on retient les positions N
P
-22
-30
-6
24
-24
-26
-27
-28
1
-14
8
-10
-15
-22
-24
-24
-24
-26
-4
-18
score scoremin Q
R
-32
-18
5
9
-25
-22
-26
-22
-9
-10
24
0
-16
-18
-17
-23
-23
-22
7
-4
S -22 -8 -16 -21 11 2 -1 -24 -19 -4
T -10 -10 -6 -7 -5 -8 2 -10 -7 -11
V 0 -25 22 25 -19 -26 6 19 16 -16
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28
Y 34 -18 -1 1 -23 -12 -19 0 0 -18

M G K I S S L P T Q L F K C C F C D F K K V K M H T M S S T L L

Score : -5 -26 25 22 -27 -17 14 2 25 -19 -4


Score max: 274 60 25 22 27 28 24 22 33 26 7
Score min: -319 -35 -33 -32 -33 -29 -29 -34 -34 -31 -29

53.0%

- 40 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PSI-Blast = position specific iterative Blast

1. Blastp d'une squence/PSSM contre une b.d.d.


protique; construction d'une PSSM partir des N
meilleures squences

2. utilisation de cette PSSM pour rcuprer


d'autres squences

3. inclusion de ces nouvelles squences dans la PSSM

orthologues
distants - 41 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PSI-Blast = position specific iterative Blast

1. Blastp d'une squence/PSSM contre une b.d.d.


protique; construction d'une PSSM partir des N
meilleures squences

2. utilisation de cette PSSM pour rcuprer


d'autres squences

3. inclusion de ces nouvelles squences dans la PSSM

orthologues
distants - 42 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PSI-Blast : 2 2 > multiple

BLASTp d'une squence


contre un base de donnes
on transforme les alignements
2 2 en "alignement multiple"
on construit une PSSM (20 x
350 dans l'exemple ci-contre)

ces colonnes vont avoir


ces colonnes vont avoir
un poids assez lev celles-l
un poidstrs lev dans
dans la PSSM non ...
la PSSM

- 43 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PSI-Blast = position specific iterative Blast

1. Blastp d'une squence/PSSM contre une b.d.d.


protique; construction d'une PSSM partir des N
meilleures squences

2. utilisation de cette PSSM pour rcuprer


d'autres squences

3. inclusion de ces nouvelles squences dans la PSSM

orthologues
distants - 44 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PSI-Blast

BLAST : 2 sous-squences, score T, distance A


PSI-Blast : idem, on forme tous les triplets ayant un score T

A -18 -10 -1 -8 8 -3 3 -10 -2 -8 6


C -22 -33 -18 -18 -22 -26 22 -24 -19 -7 -11
D -35 0 -32 -33 -7 6 -17 -34 -31 0 12
E -27 15 -25 -26 -9 23 -9 -24 -23 -1 6
F 60 -30 12 14 -26 -29 -15 4 12 -29 8
G -30 -20 -28 -32 28 -14 -23 -33 -27 -5 -20
H -13 -12 -25 -25 -16 14 -22 -22 -23 -10 3
I 3 -27 21 25 -29 -23 -8 33 19 -23 9

matrice
K -26 25 -25 -27 -6 4 -15 -27 -26 0 -10
L 14 -28 19 27 -27 -20 -9 33 26 -21 -5
M 3 -15 10 14 -17 -10 -9 25 12 -11 0
N -22 -6 -24 -27 1 8 -15 -24 -24 -4 50
P -30 24 -26 -28 -14 -10 -22 -24 -26 -18 21
Q -32 5 -25 -26 -9 24 -16 -17 -23 7 24
R -18 9 -22 -22 -10 0 -18 -23 -22 -4 -8
S -22 -8 -16 -21 11 2 -1 -24 -19 -4 2
T -10 -10 -6 -7 -5 -8 2 -10 -7 -11 -31
V 0 -25 22 25 -19 -26 6 19 16 -16 7
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28 11
Y 34 -18 -1 1 -23 -12 -19 0 0 -18 -10

FGE : 65 IDE : 25

- 45 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PSI-Blast: attention...

squences inclues dans la matrice : bonnes E-value dans les


itrations successives ...
attention au choix des squences de dpart !

pas de thorie statistique pour interprter les E-value de PSI-


Blast (approche empirique)
taux d'erreur rel ? influence de la composition des
squences ?
ex.: Huynen et al.: E = 0.001 1.8% d'erreur ...

- 46 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

PSI-Blast: pour quoi faire ?

dtecter des homologues distants

dcrire des domaines protiques


ProDom
PSI-Blast vs. SwissProt/TrEMBL
1373 familles structurales

domaines Pfam-B
extraits de ProDom
filtrage de la redondance avec Pfam-A

- 47 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

- 48 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

"swiss knife": INTERPRO

classification de protines en familles et sous-familles sur la base des


fonctions biologiques et molculaires

collection de HMM contre UniProt

collection de HMM de protines de structure 3D connue (lien avec la base


SCOP)

collection automatique de protines homologues avec PSI-Blast

empreintes digitales ("fingerprints"): groupe de motifs caractristiques


d'une famille protique

expressions rgulires et profils de domaines/sites actifs

collection de HMM plus rduite que Pfam; domaines les plus communs,
impliqus p.ex. dans la transduction du signal; inclusion manuelle
d'homologues lointains (grande sensibilit)

- 49 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

- 50 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Motifs dans l'ADN non-codant

facteurs de transcription (FT)

...CTGTTAATGTTGGCT... ...CTGGATATATAGGCT...

"bote TATA"
...CTGGGCGTTATTCTTGT... en amont de tous les gnes eucaryotes

site de fixation d'un FT


squence spcifique un FT

- 51 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Motifs dans l'ADN non-codant

motifs cis-rgulateurs:
sites de fixation de facteurs de transcription (FT)

proprits:
ADN non-codant
motifs courts (5-10 nt)
plus ou moins dgnrs
souvent rpts proximit (amont) du gne contrl
volutivement conservs (?)

- 52 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Domaine protique vs. motifs cis-reg.

protines homologues gnes co-exprims


(ortho/paralogues) (transcriptome)

domaine protique
commun motif cis-rgulateur commun
C Y [LI] Q R [ND] [AT] C C A T C [GC] - 53 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Stratgies de dcouverte de motif


dans une squence d'ADN

rgions non-codantes (conserves)

"alignement" de mots statistiquement


squences amont/aval sur-reprsents
chantillonage de Gibbs,
MEME,...
(par rapport quoi ?)

motifs
potentiels
- 54 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Stratgies de recherche d'un motif connu


dans une squence d'ADN

ADN non-codant
(conserv)
matrice caractristique
du site de fixation
du FT Hunchback
expression
A [ 1 6 9 4 13 16 16 14 15 9 ]
C
G
[
[
5
8
8
2
3
4
3 1 0 0 0 1
1 0 0 0 2 0
2
2
]
] matrice rgulire
T [ 2 0 0 8 2 0 0 0 0 3 ] G[AC]CC[TAC]

score oui/non

sites
potentiels

validations ultrieures
(bioinfo, exprimentales)
- 55 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

Les questions que vous pourriez (devriez)


vous poser...
quelle est la diffrence entre une matrice de substitution est
une matrice poids-position ?
comment passe-t-on d'une matrice de frquence une
matrice de score ?
quelles sont les tapes de l'algorithme BLAST ?
quelle est l'interprtation d'une e-value ?
pourquoi corrige-t-on les matrices de frquence ? Comment
se fait cette correction ?
comment identifier un motif protique dans une squence
partir d'une PSSM ?

- 56 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM = Hidden Markov Model = modle de Markov cach


- 57 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM en biologie

codi non-
n c
DN A g DNA oding

CGTTCGATTGCTTAGGATAGCGGATTCGATTCGATT
CGGTAGGCTAGGCTAGAGGCTTCGCGCTTAGAGACT
CGGATTAGCTAGGCTAGGCCCTTCGCGCTTCGCATC
- 58 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM

j'observe une suite d'vnements

je ne sais pas par quel mcanisme ces vnements ont t


gnrs

je vais essayer de reconstruire le mcanisme le plus


probable partir des observations

- 59 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM en biologie
protine mono domaine

pr o t back
e
do m i n grou
nd
ai n

MVSFSSCLRALALGSSVLAVQPVLRQATGLDTWLSTEANFSRQAILNNIGADGQSAQGASPGVVIASPSK
SDPDYFYTWTRDSGLVMKTLVDLFRGGDADLLPIIEEFISSQARIQGISNPSGALSSGGLGEPKFNVDET
AFTGAWGRPQRDGPALRATAMISFGEWLVENSHTSIATDLVWPVVRNDLSYVAQYWSQSGFDLWEEVQGT
SFFTVAVSHRALVEGSSFAKTVGSSCPYCDSQAPQVRCYLQSFWTGSYIQANFGGGRSGKDINTVLGSIH
TFDPQATCDDATFQPCSARALANHKVVTDSFRSIYAINSGRAENQAVAVGRYPEDSYYNGNPWFLTTLAA
AEQLYDALYQWDKIGSLAITDVSLPFFKALYSSAATGTYASSTTVYKDIVSAVKAYADGYVQIVQTYAAS
TGSMAEQYTKTDGSQTSARDLTWSYAALLT - 60 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM en biologie
protine multi-domaines

prot bac prot


e e
dom in kgro
u dom in
ain nd ain
A B

MVSFSSCLRALALGSSVLAVQPVLRQATGLDTWLSTEANFSRQAILNNIGADGQSAQGASPGVVIASPSK
SDPDYFYTWTRDSGLVMKTLVDLFRGGDADLLPIIEEFISSQARIQGISNPSGALSSGGLGEPKFNVDET
AFTGAWGRPQRDGPALRATAMISFGEWLVENSHTSIATDLVWPVVRNDLSYVAQYWSQSGFDLWEEVQGT
SFFTVAVSHRALVEGSSFAKTVGSSCPYCDSQAPQVRCYLQSFWTGSYIQANFGGGRSGKDINTVLGSIH
TFDPQATCDDATFQPCSARALANHKVVTDSFRSIYAINSGRAENQAVAVGRYPEDSYYNGNPWFLTTLAA
AEQLYDALYQWDKIGSLAITDVSLPFFKALYSSAATGTYASSTTVYKDIVSAVKAYADGYVQIVQTYAAS
TGSMAEQYTKTDGSQTSARDLTWSYAALLT - 61 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM en biologie

pC(A,C,G,T) pNC(A,C,G,T)

tC>C
tNC>NC
tC>NC
codi non-
n
DN A g c
DNA oding

tNC>C

de nombreux paramtres estimer/calculer

- 62 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM et alignement multiple

positions conserves dltions insertions

>glucosylamylaseA.oryzae
MVSFSSCLRALALGSSVLAVQPVLRQATGLDTWLSTEANFSRQAILNNIGADGQSAQGASPGVVIASPSK
SDPDYFYTWTRDSGLVMKTLVDLFRGGDADLLPIIEEFISSQARIQGISNPSGALSSGGLGEPKFNVDET
AFTGAWGRPQRDGPALRATAMISFGEWLVENSHTSIATDLVWPVVRNDLSYVAQYWSQSGFDLWEEVQGT
SFFTVAVSHRALVEGSSFAKTVGSSCPYCDSQAPQVRCYLQSFWTGSYIQANFGGGRSGKDINTVLGSIH
TFDPQATCDDATFQPCSARALANHKVVTDSFRSIYAINSGRAENQAVAVGRYPEDSYYNGNPWFLTTLAA
AEQLYDALYQWDKIGSLAITDVSLPFFKALYSSAATGTYASSTTVYKDIVSAVKAYADGYVQIVQTYAAS
TGSMAEQYTKTDGSQTSARDLTWSYAALLT - 63 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM et alignements multiples

N.FLS
N.FLS
NKYLT
Q.WT
insertion dltion
d'un AA d'un AA

- 64 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM et alignements multiples

2 manires d'utiliser les HMM pour des alignements multiples


:

squences non alignes: utiliser l'architecture des HMM pour


apprendre les paramtres optimaux alignement optimal

squences dj alignes: utiliser l'alignement pour estimer


les paramtres du HMM (prob. transition, prob. mission)

- 65 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM et alignement multiple

4 squences
dj alignes

N.FLS:M1>M2>M3>M4
N.FLS:M1>M2>M3>M4
NKYLT:M1>I1>M2>M3>M4
Q.WT:M1>M2>D3>M4
t(M1,M2)=0.75 t(M2,M3)=0.75 t(M3,M4)=1
prob. transition t(M1,I1)=0.25 t(M2,D3)=0.25 t(D3,M4)=1
t(I1,M2)=1

p(N|M1)=0.75 p(F|M2)=0.5 p(L|M3)=1 p(S|M4)=0.5


prob. mission p(T|M4)=0.5
p(Q|M1)=0.25 p(Y|M2)=0.25
- 66 -
p(K|I1)=1 p(W|M2)=0.25
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM et alignements multiples

problme de rgularisation des paramtres


(est ce que les squences dans l'alignements sont
reprsentatives ?)

poids des squences


rgularisation des prob. d'mission (idem PSSM)
rgularisation des prob. de transition

- 67 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM et motifs

1. choix manuel d'un jeu de squence de rfrence


2. alignement " la main" de ces squences ("seed")
3. construction et rgularisation d'une HMM (logiciel hmmer)
4. utilisation de cette HMM pour rechercher d'autres squences
"similaires" dans une banque de donnes

- 68 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

N.FLS
N.FLS
1 S /1000
NKYLT p0 e = 2 0 e

20
Q.WT
HMMER2.0 [2.3.2]
NAME alit
S/1000
LENG 5
ALPH Amino
RF no
CS no
p=p0 2
MAP yes
COM hmmbuild demo.hmm /home/carl/Desktop/alit.txt
NSEQ 4
DATE Tue Aug 29 15:42:07 2006
CKSUM 4445
XT -8455 -4 -1000 -1000 -8455 -4 -8455 -4
NULT -4 -8455
NULE 595 -1558 85 338 -294 453 -1158 197 249 902 -1085 -142 -21 -313 45 531 201 384 -1998 -644
HMM A C D E F G H I K L M N P Q R S T V W Y
m->m m->i m->d i->m i->i d->m d->d b->m m->e
-322 * -2322
1 -1312 -2551 -88 -172 -2898 -1712 -784 -2867 -389 -2797 -2058 3121 -2095 2554 -744 -1160 -1343 -2433 -2815 -2132 1
- -149 -500 233 43 -381 399 106 -626 210 -466 -720 275 394 45 96 359 117 -369 -294 -249
- -1133 -7108 -897 -894 -1115 -701 -1378 -322 *
2 -986 -1649 -756 -402 -2126 -1487 -232 -1824 3067 -1817 -1209 -510 -1716 104 619 -963 -932 -1572 -1780 -1489 2
- -149 -500 233 43 -381 399 106 -626 210 -466 -720 275 394 45 96 359 117 -369 -294 -249
- -34 -6009 -7051 -894 -1115 -252 -2640 * *
3 -3663 -2712 -4224 -4491 2900 -4079 -369 -2609 -4055 -2012 -2046 -2747 -3948 -2862 -3473 -3312 -3528 -2740 4401 3284 3
- -149 -500 233 43 -381 399 106 -626 210 -466 -720 275 394 45 96 359 117 -369 -294 -249
- -505 -7108 -1796 -894 -1115 -701 -1378 * *
4 -2160 -1850 -3480 -3292 -562 -3195 -2445 -15 -2879 2956 395 -3128 -3219 -2574 -2729 -2910 -2165 -509 -1853 -1583 4
- -149 -500 233 43 -381 399 106 -626 210 -466 -720 275 394 45 96 359 117 -369 -294 -249
- -22 -6625 -7667 -894 -1115 -359 -2182 * *
5 -347 -973 -2195 -2157 -2892 -1234 -2021 -2564 -2096 -2859 -2038 -1526 -1942 -1895 -2200 1849 3086 -1758 -3133 -2825 5
- * * * * * * * * * * * * * * * * * * * *
- * * * * * * * * 0

- 69 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

HMM et

alignement multiple
de squences HMM

les questions que l'on se pose:


quel profil (=HMM)
>P36914glucosylamylaseA.oryzae
MVTTGDTTERYTTEHTTDHIIJLCLCUEYYTCVTJ correspond le mieux
JSDYETRTEBDYBYERFBCDBFSZUFBBFDZEFEK
KLKEIURYCBZYUSSUUCEBCYECTCRVCRTCTZZ
bdd ma squence ?
de HMM

bdd quelles squences


HMM de correspondent le mieux
protines au profil ?

- 70 -
Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

alignement squence/HMM
MfYTL
proba d'une squence S vs.
une HMM M :

Pr SM =C Pr S , CM

Mf YtL
MFYTL

- 71 -

Module Bioinfo 1 M1 anne 2008/2009 Carl Herrmann

la suite de logiciels hmmer

hmmbuild: construction de HMM partir d'un alignement


multiple

hmmalign: alignement d'une squence avec une HMM

hmmemit: mission d'une squence partir d'une HMM

hmmpfam: comparaison de squences contre bdd de HMM

hmmsearch: comparaison d'une HMM contre bdd de


squences

- 72 -

Vous aimerez peut-être aussi