Vous êtes sur la page 1sur 43

Master Agroalimentaire S2

Techniques d’analyses des biomolécules


Bioinformatique

Cours 4
Alignement de séquences
L’algorithme BLAST

Pr Amal Maurady
Département des sciences de la vie
FSTT - 2019-2020
2
3
4
5
Problématiques

 Est-ce que cette séquence contient un gène?


 Est-ce que ce gène fait partie d’une famille
connue?
 Quelle est la fonction de cette protéine?
 Est-ce que cette protéine existe dans
d’autres organismes?
 Est-ce que d’autres protéines ont les mêmes
domaines ou motifs structuraux?

6
Pourquoi rechercher des séquences
dans les banques?
 Identifier des protéines homologues:
 Orthologue: organisme différents
 Paralogue: organisme identiques
 Déterminer si des séquences ont une
fonction similaire ou proche.
 Déterminer des familles des protéines ayant
un domaine conservé.

7
 Localiser des régions codantes et non
codantes
 Aligner des séquences génomiques ADN et
des séquences exprimées (cDNA, EST)
 Déterminer la similarité entre les séquences

8
Exemple de séquence :

9
Un alignement permet :

 De superposer deux séquences et de trouver


soit :
1.Si les caractères sont les mêmes: une
Identité
2. Si les caractères ne sont pas les mêmes:
une Substitution
3.Si l 'une des position est un espace:
Insertion/ délétion

10
Homologue & Similaire

 Le pourcentage de Similarité (%) = Présence


d'un ensemble de position identiques et
conservatives dans deux séquences

 Deux séquences sont Homologues = fait


référence à une parenté évolutive entre
séquences

11
Matrices d’alignements

 Matrice BLOSUM (BLOcks SUbstitutions


Matrices)
 La matrice PAM souffre du choix restringent
des familles de protéines
pour calculer les probabilités p(A--->G)

12
Matrice BLOSUM 62
Score positif pour les identités,
et négatif pour les mismatchs

13
14
15
Alignement de séquences
Alignement global:
Seq1

Seq2

Alignement local:
Seq1

Seq2

Recherche de motif:

Seq1

Seq2

16
Alignement local
Similarité locale entre S1 et S2: Valeur max d’un alignement
entre deux facteurs qcq de S1 et S2

Exemple: Score 2 pour match et -1 pour mismatch ou espace

CAGCAC TT – GG AT TCTCGG
ll l l l
TAGT TT A GG -T GGCAT

Problème: Retrouver les deux facteurs des deux séquences de


similarité locale maximale

 Fonction de score pour les substitutions de nucléotides ou


d’AA
 Fonction de score pour les trous (gaps)

17
Méthodes utilisées pour l’alignement local

 Méthode exacte: Smith-Waterman


Algorithme exact en O(n2) utilisant la programmation dynamique
Trop coûteux pour parcourir une banque de données

 Heuristiques: Méthodes approximatives. Pas sûr d’obtenir le


meilleur résultat

FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée
de filtrage
 Sélectionner des parties de la base de donnée par une
méthode de recherche exacte
 Pour chaque partie (intervalle) vérifier si une similarité locale
existe

18
Qualité d’un algorithme de comparaison
de séquences
 Sélectivité: Capacité à ne détecter que la
réalité biologique et rien de plus
Problème des Faux-Positifs

 Sensitivité: Capacité à détecter tout ce qui


est intéressant sur le plan biologique
Problème des Faux-Négatifs

19
BLAST: Basic local alignment search tool

Similarité locale entre une séquence requête


et une banque de données. Devenu
populaire grâce à une implémentation très
efficace.
 BLASTP: séquence de protéine dans BD de
protéines
 BLASTN: séquence de nucléotides dans BD
d’ADN
 BLASTX: séquence de nucléotides (6 ordres de
lecture) dans BD de protéines
 TBLASTN: séquence de protéine dans BD
traduite
20
BLAST: Basic local alignment search tool

 TBLASTX: séquence traduite dans BD


traduite
 BLASTZ: Étudié pour aligner de longues
séquences d’ADN, utilisé pour
l’alignement de l’homme et de la souris
 PHI-BLAST: Recherche d’une expression
régulière (consensus)
 PSI-BLAST: Construit un consensus, ou
matrice de score, à partir d’un alignement
multiple des ``hits’’ de plus haut score
obtenus par une recherche BLAST initiale
21
Méthode utilisée par BLAST
 Former la liste de tous les facteurs de taille w de la
séquence requête P
P
Maximum l-w+1 mots

 Pour chaque facteur f, former la liste de tous les mots de


taille w dont le score avec f dépasse un seuil T

Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}

22
23
 Identifier les occurrences exactes des mots de la
liste dans la BD

 Pour chaque paire de séquences trouvées, étendre


l’alignement dans les deux directions, jusqu’à ce que
le score de l’alignement chute de X par rapport à sa
valeur d’origine. Segment accepté si score>S

24
 Le HSP de score maximal sur l’ensemble
de la séquence est appelé maximal scoring
segment pair (MSP)
 Les alignements locaux HSP sont chaînés
pour former des alignements plus longs,
incluant des espaces et des trous.

Si le MSP ou les HSP combinés ont un score


qui dépasse un certain seuil S, il sont
affichés

25
Paramètres
 La séquence format FASTA
 La banque (compressée)
 W (taille du mot).
 Protéines: w de 3 à 5, et T = 17
Donne à peu près 50 mots pour chaque
facteur
 Nucléotides: w = 12
 S (seuil de sélection d’un score)
 Matrices de substitution (BLOSUM 62) ou
score pour les nucléotides (+5/-4)

26
Évaluation statistique

 Expect-value = nb de fois où un HSP est


attendu par chance sur l’ensemble de la
banque. Plus cette valeur est faible, plus le HSP
est significatif
 P-value: P(N): Probabilité du score observé.
Plus cette valeur est faible, plus le HSP est
significatif.

27
Comparaison d’une séquence à celles
d'une BD données:
 Objectif : Trouver des séquences similaires avec une
signification biologique

 Lorsque l'alignement est fait sur au moins 70% de la


séquence:
 Des séquence sont homologues au delà de 70% de
similarité, mais cela reste à confirmer par d'autres
hypothèses: présence de motifs communs.....
 Si la E-value est très faible (<10-20), nous avons une

similarité entre les séquences.

28
29
On choisit son BLAST

La page d’entrée NCBI BLAST


http://www.ncbi.nlm.nih.gov/BLAST/

30
31
On entre la séquence à chercher

32
Choisir la banque de données dans laquelle on veut
faire la recherche

33
On a soumis et on attend les résultats

34
Les résultats

35
Les résultats: vue graphique

36
37
38
39
Travaux Dirigés : Logiciel Blast

Exercice 1 :
 A partir du NCBI : Télécharger la séquence de la
protéine de votre choix en format FASTA
 Copier la sequence sous forme FASTA dans le BLAST

 Aligner la séquence

 Déterminer les séquences les plus similaires et leurs


scores

40
Exercice 2 :
 Choisir la séquence d’une protéine d’origine
de 2 organismes différents : Parasite -
bactérie – Plante – champignon-…….
 À partir du NCBI sortir les 2 séquences
FASTA
 Aligner ces deux séquences avec BLAST
 Déterminer le taux d’identité entre ces deux
séquences
41
Information collectés
NCBI Informations recuiellis :
 Organismes : ……?

 Information sur l’expression du gène……?

 Information sur les gènes ……

 Information sur la protéine ...

 Information sur la fonction….

 ID gene : GenBank

42
BLAST
 Reporter toutes les informations receuillis sur ce
gene et son alignement dans un document.
Similarité par blast
 Gene ID ……
 % similarite

43

Vous aimerez peut-être aussi