Académique Documents
Professionnel Documents
Culture Documents
Cours 4
Alignement de séquences
L’algorithme BLAST
Pr Amal Maurady
Département des sciences de la vie
FSTT - 2019-2020
2
3
4
5
Problématiques
6
Pourquoi rechercher des séquences
dans les banques?
Identifier des protéines homologues:
Orthologue: organisme différents
Paralogue: organisme identiques
Déterminer si des séquences ont une
fonction similaire ou proche.
Déterminer des familles des protéines ayant
un domaine conservé.
7
Localiser des régions codantes et non
codantes
Aligner des séquences génomiques ADN et
des séquences exprimées (cDNA, EST)
Déterminer la similarité entre les séquences
8
Exemple de séquence :
9
Un alignement permet :
10
Homologue & Similaire
11
Matrices d’alignements
12
Matrice BLOSUM 62
Score positif pour les identités,
et négatif pour les mismatchs
13
14
15
Alignement de séquences
Alignement global:
Seq1
Seq2
Alignement local:
Seq1
Seq2
Recherche de motif:
Seq1
Seq2
16
Alignement local
Similarité locale entre S1 et S2: Valeur max d’un alignement
entre deux facteurs qcq de S1 et S2
CAGCAC TT – GG AT TCTCGG
ll l l l
TAGT TT A GG -T GGCAT
17
Méthodes utilisées pour l’alignement local
FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée
de filtrage
Sélectionner des parties de la base de donnée par une
méthode de recherche exacte
Pour chaque partie (intervalle) vérifier si une similarité locale
existe
18
Qualité d’un algorithme de comparaison
de séquences
Sélectivité: Capacité à ne détecter que la
réalité biologique et rien de plus
Problème des Faux-Positifs
19
BLAST: Basic local alignment search tool
22
23
Identifier les occurrences exactes des mots de la
liste dans la BD
24
Le HSP de score maximal sur l’ensemble
de la séquence est appelé maximal scoring
segment pair (MSP)
Les alignements locaux HSP sont chaînés
pour former des alignements plus longs,
incluant des espaces et des trous.
25
Paramètres
La séquence format FASTA
La banque (compressée)
W (taille du mot).
Protéines: w de 3 à 5, et T = 17
Donne à peu près 50 mots pour chaque
facteur
Nucléotides: w = 12
S (seuil de sélection d’un score)
Matrices de substitution (BLOSUM 62) ou
score pour les nucléotides (+5/-4)
26
Évaluation statistique
27
Comparaison d’une séquence à celles
d'une BD données:
Objectif : Trouver des séquences similaires avec une
signification biologique
28
29
On choisit son BLAST
30
31
On entre la séquence à chercher
32
Choisir la banque de données dans laquelle on veut
faire la recherche
33
On a soumis et on attend les résultats
34
Les résultats
35
Les résultats: vue graphique
36
37
38
39
Travaux Dirigés : Logiciel Blast
Exercice 1 :
A partir du NCBI : Télécharger la séquence de la
protéine de votre choix en format FASTA
Copier la sequence sous forme FASTA dans le BLAST
Aligner la séquence
40
Exercice 2 :
Choisir la séquence d’une protéine d’origine
de 2 organismes différents : Parasite -
bactérie – Plante – champignon-…….
À partir du NCBI sortir les 2 séquences
FASTA
Aligner ces deux séquences avec BLAST
Déterminer le taux d’identité entre ces deux
séquences
41
Information collectés
NCBI Informations recuiellis :
Organismes : ……?
ID gene : GenBank
42
BLAST
Reporter toutes les informations receuillis sur ce
gene et son alignement dans un document.
Similarité par blast
Gene ID ……
% similarite
43