Cours 4 Alignement BLAST

Master Agroalimentaire S2
Techniques d’analyses des biomolécules

Bioinformatique
Cours 4
Alignement de séquences
L’algorithme BLAST
Pr Amal Maurady
Département des sciences de la vie
FSTT - 2019-2020
2
3
4
5
Problématiques
 Est-ce que cette séquence contient un gène?

 Est-ce que ce gène fait partie d’une famille
connue?
 Quelle est la fonction de cette protéine?
 Est-ce que cette protéine existe dans
d’autres organismes?
 Est-ce que d’autres protéines ont les mêmes
domaines ou motifs structuraux?
6
Pourquoi rechercher des séquences
dans les banques?
 Identifier des protéines homologues:
 Orthologue: organisme différents
 Paralogue: organisme identiques
 Déterminer si des séquences ont une
fonction similaire ou proche.
 Déterminer des familles des protéines ayant
un domaine conservé.
7
 Localiser des régions codantes et non
codantes
 Aligner des séquences génomiques ADN et
des séquences exprimées (cDNA, EST)
 Déterminer la similarité entre les séquences
8
Exemple de séquence :
9
Un alignement permet :
 De superposer deux séquences et de trouver

soit :
1.Si les caractères sont les mêmes: une
Identité
2. Si les caractères ne sont pas les mêmes:
une Substitution
3.Si l 'une des position est un espace:
Insertion/ délétion
10
Homologue & Similaire
 Le pourcentage de Similarité (%) = Présence

d'un ensemble de position identiques et
conservatives dans deux séquences
 Deux séquences sont Homologues = fait

référence à une parenté évolutive entre
séquences
11
Matrices d’alignements
 Matrice BLOSUM (BLOcks SUbstitutions

Matrices)
 La matrice PAM souffre du choix restringent
des familles de protéines
pour calculer les probabilités p(A--->G)
12
Matrice BLOSUM 62
Score positif pour les identités,
et négatif pour les mismatchs
13
14
15
Alignement de séquences
Alignement global:
Seq1
Seq2
Alignement local:
Seq1
Seq2
Recherche de motif:
Seq1
Seq2
16
Alignement local
Similarité locale entre S1 et S2: Valeur max d’un alignement
entre deux facteurs qcq de S1 et S2
Exemple: Score 2 pour match et -1 pour mismatch ou espace
CAGCAC TT – GG AT TCTCGG
ll l l l
TAGT TT A GG -T GGCAT
Problème: Retrouver les deux facteurs des deux séquences de

similarité locale maximale
 Fonction de score pour les substitutions de nucléotides ou

d’AA
 Fonction de score pour les trous (gaps)
17
Méthodes utilisées pour l’alignement local
 Méthode exacte: Smith-Waterman

Algorithme exact en O(n2) utilisant la programmation dynamique
Trop coûteux pour parcourir une banque de données
 Heuristiques: Méthodes approximatives. Pas sûr d’obtenir le

meilleur résultat
FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée
de filtrage
 Sélectionner des parties de la base de donnée par une
méthode de recherche exacte
 Pour chaque partie (intervalle) vérifier si une similarité locale
existe
18
Qualité d’un algorithme de comparaison
de séquences
 Sélectivité: Capacité à ne détecter que la
réalité biologique et rien de plus
Problème des Faux-Positifs
 Sensitivité: Capacité à détecter tout ce qui

est intéressant sur le plan biologique
Problème des Faux-Négatifs
19
BLAST: Basic local alignment search tool
Similarité locale entre une séquence requête

et une banque de données. Devenu
populaire grâce à une implémentation très
efficace.
 BLASTP: séquence de protéine dans BD de
protéines
 BLASTN: séquence de nucléotides dans BD
d’ADN
 BLASTX: séquence de nucléotides (6 ordres de
lecture) dans BD de protéines
 TBLASTN: séquence de protéine dans BD
traduite
20
BLAST: Basic local alignment search tool
 TBLASTX: séquence traduite dans BD

traduite
 BLASTZ: Étudié pour aligner de longues
séquences d’ADN, utilisé pour
l’alignement de l’homme et de la souris
 PHI-BLAST: Recherche d’une expression
régulière (consensus)
 PSI-BLAST: Construit un consensus, ou
matrice de score, à partir d’un alignement
multiple des ``hits’’ de plus haut score
obtenus par une recherche BLAST initiale
21
Méthode utilisée par BLAST
 Former la liste de tous les facteurs de taille w de la
séquence requête P
P
Maximum l-w+1 mots
 Pour chaque facteur f, former la liste de tous les mots de

taille w dont le score avec f dépasse un seuil T
Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}
22
23
 Identifier les occurrences exactes des mots de la
liste dans la BD
 Pour chaque paire de séquences trouvées, étendre

l’alignement dans les deux directions, jusqu’à ce que
le score de l’alignement chute de X par rapport à sa
valeur d’origine. Segment accepté si score>S
24
 Le HSP de score maximal sur l’ensemble
de la séquence est appelé maximal scoring
segment pair (MSP)
 Les alignements locaux HSP sont chaînés
pour former des alignements plus longs,
incluant des espaces et des trous.
Si le MSP ou les HSP combinés ont un score

qui dépasse un certain seuil S, il sont
affichés
25
Paramètres
 La séquence format FASTA
 La banque (compressée)
 W (taille du mot).
 Protéines: w de 3 à 5, et T = 17
Donne à peu près 50 mots pour chaque
facteur
 Nucléotides: w = 12
 S (seuil de sélection d’un score)
 Matrices de substitution (BLOSUM 62) ou
score pour les nucléotides (+5/-4)
26
Évaluation statistique
 Expect-value = nb de fois où un HSP est

attendu par chance sur l’ensemble de la
banque. Plus cette valeur est faible, plus le HSP
est significatif
 P-value: P(N): Probabilité du score observé.
Plus cette valeur est faible, plus le HSP est
significatif.
27
Comparaison d’une séquence à celles
d'une BD données:
 Objectif : Trouver des séquences similaires avec une
signification biologique
 Lorsque l'alignement est fait sur au moins 70% de la

séquence:
 Des séquence sont homologues au delà de 70% de
similarité, mais cela reste à confirmer par d'autres
hypothèses: présence de motifs communs.....
 Si la E-value est très faible (<10-20), nous avons une
similarité entre les séquences.
28
29
On choisit son BLAST
La page d’entrée NCBI BLAST

http://www.ncbi.nlm.nih.gov/BLAST/
30
31
On entre la séquence à chercher
32
Choisir la banque de données dans laquelle on veut
faire la recherche
33
On a soumis et on attend les résultats
34
Les résultats
35
Les résultats: vue graphique
36
37
38
39
Travaux Dirigés : Logiciel Blast
Exercice 1 :
 A partir du NCBI : Télécharger la séquence de la
protéine de votre choix en format FASTA
 Copier la sequence sous forme FASTA dans le BLAST
 Aligner la séquence
 Déterminer les séquences les plus similaires et leurs

scores
40
Exercice 2 :
 Choisir la séquence d’une protéine d’origine
de 2 organismes différents : Parasite -
bactérie – Plante – champignon-…….
 À partir du NCBI sortir les 2 séquences
FASTA
 Aligner ces deux séquences avec BLAST
 Déterminer le taux d’identité entre ces deux
séquences
41
Information collectés
NCBI Informations recuiellis :
 Organismes : ……?
 Information sur l’expression du gène……?
 Information sur les gènes ……
 Information sur la protéine ...
 Information sur la fonction….
 ID gene : GenBank
42
BLAST
 Reporter toutes les informations receuillis sur ce
gene et son alignement dans un document.
Similarité par blast
 Gene ID ……
 % similarite
43

Cours 4 Alignement BLAST

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 4 Alignement BLAST

Transféré par

Droits d'auteur :

Formats disponibles

Master Agroalimentaire S2

Techniques d’analyses des biomolécules

 Est-ce que cette séquence contient un gène?

 De superposer deux séquences et de trouver

 Le pourcentage de Similarité (%) = Présence

 Deux séquences sont Homologues = fait

 Matrice BLOSUM (BLOcks SUbstitutions

Exemple: Score 2 pour match et -1 pour mismatch ou espace

Problème: Retrouver les deux facteurs des deux séquences de

 Fonction de score pour les substitutions de nucléotides ou

 Méthode exacte: Smith-Waterman

 Heuristiques: Méthodes approximatives. Pas sûr d’obtenir le

 Sensitivité: Capacité à détecter tout ce qui

Similarité locale entre une séquence requête

 TBLASTX: séquence traduite dans BD

 Pour chaque facteur f, former la liste de tous les mots de

Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}

 Pour chaque paire de séquences trouvées, étendre

Si le MSP ou les HSP combinés ont un score

 Expect-value = nb de fois où un HSP est

 Lorsque l'alignement est fait sur au moins 70% de la

similarité entre les séquences.

La page d’entrée NCBI BLAST

 Déterminer les séquences les plus similaires et leurs

 Information sur l’expression du gène……?

 Information sur les gènes ……

 Information sur la protéine ...

 Information sur la fonction….

Vous aimerez peut-être aussi