Académique Documents
Professionnel Documents
Culture Documents
I. Introduction
II. Blast
1
Pourquoi rechercher des séquences
dans les banques?
2
Pourquoi?
Banque
de
séquences
Recherche de similitude
Protéine similaire
Fonction
avec une fonction
inconnue
connue
3
Les données
• Requête:
• Banques de données
• Recherche de similitude
globale ou locale
plus ou moins significative (statistique)
4
Formaliser
Banque
Séquence requête (protéique / nucléique / motifs)
Comparaison
Programme
(Paramètres, système de score)
Observation de similitudes
(alignements, score)
Déductions biologiques
5
Acides aminés ou acides nucléiques
6
Acides aminés ou acides nucléiques
• ADN (A, G, C, T )
• Protéine (A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y)
A T T C A T G C A T G C A T C C A T!
| | | | | | | | | | | |! 66 % id
A T C C A C G C G T G T A T A C A C!
7
Acides aminés ou acides nucléiques
8
Comment effectuer une recherche?
9
Algorithme heuristique
10
Les principaux logiciels
• Les deux programmes heuristiques les plus utilisés par les biologistes
sont:
11
Recherche de similitudes dans les banques
de séquences
I. Introduction
II. Blast
12
BLAST (Basic Local Alignment
Search Tool)
13
BLAST
nucléique
blastx nucléique
protéique VS protéique
protéique VS protéique
14
BLAST1: sans gap
w w
Requête P Q DGCEKSRTVPYWIAR
PQD
QDG
DGC
..…
AAA
AAN
AAR
AAL
….
15
BLAST1: sans gap
Requête RTV
RAI
R T V 13!
R T I 13! S(R,R)=6!
R A I 11! S(T,A)=1!
RTV R T M 11! S(V,I)=4!
R T L 11!
Liste de
AAA KMV mots
R G V 10!
R M V 09!
Liste de tous les AAC voisins! W T V 09!
mots de longueur : score < T K W V 09! Score seuil: T=09
w YYY K M V 06!
KMV V T V 05!
…!
16
BLAST1: sans gap
Requête RTV
RAI
RTV
RAI Liste des mots
AAA KWV voisins qui, alignés
Liste de tous les AAC RMV avec la requête, ont
mots de longueur : … un score > T
w YYY
17
BLAST1: sans gap
3- Pour chaque liste de mots voisins (score > T), identification de tous
les mots identiques dans la banque.
Séquences de la banque
RTV
RTV
Recherche des RTV
mots
RTV RAI
identiques
RAI
RWV RAI
RMV RAI RWV
:
RAI RWV
Mots voisins
18
BLAST1: sans gap
… P Q D G C E L S R A I P I W I A R …! Séquence requête
K S !
R A I!P! Y ! HIT
… P Q D G C E K S R A I P Y W I A R …! Séquence de la banque
19
BLAST1: sans gap
… P Q D G C E L S R A I P I W I A R …! Séquence requête
K S R A I P Y W I! Extension
-!+! +!-!+!+!
X
Score
Score Max
extension
hit
20
BLAST2: AVEC gap
S1
S2
x
x
xx xx x
21
BLAST2: AVEC gap
x
<A >A
x
x x xx x
22
BLAST2: avec gap
x x xx x
23
BLAST2: avec gap
24
BLAST2: avec gap
25
Blast out: liste des hits
BLASTN 2.2.10 [Oct-19-2004]
26
BLAST out: schéma
27
BLAST out: alignements
28
Donner un sens aux scores: E-value
29
Distribution des valeurs extrêmes
Transformer en E-Value
30
Théorie statistique de Karlin-
Altschul
E-value = K mn e-λS
λS − lnK
• Score convertit en « bits »: Sbits =
ln2
31
€
Distribution des valeurs extrêmes
Score B
Score A: significatif
Score B Score A
32
E-value
Score=247 E-value = 5
33
Filtres avant une recherche FASTA
ou BLAST
34
Filtres
35
Fin
36