Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Fonction affine
n : nombre de trous ou taille de gap
α : coût de l’ouverture (le début d’un gap)
β : coût de l’allongement ou de l’extension d’un gap
α et β sont deux constantes définies empiriquement
Méthodes heuristiques :
FASTA : (FASTP, FASTN)
Présenté en 1985.
Accessible sur : http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml
Se baser sur la matrice de points, sans pour autant la calculer !!!
Deux séquences S1 : n résidus ; S2 : m résidus → (n + m -1) diagonales dans la matrice de
points.
Utiliser des petits segments ayant une taille de k résidus : k-uplets
k = 1 - 4 pour les acides aminés
k = 7 - 11 pour les acides nucléiques
Etapes à suivre :
1. Décomposer les deux séquences : S1 (séquence requête) et S2 (appartient à la banque de
données) en k-uplets chevauchants.
1
2. Créer un tableau de scores pour toutes les diagonales :
Le score d’une diagonale ≈ Nombre d’identités qui se trouvent sur cette diagonale.
3. Pour chaque k-uptet commun entre S1 et S2, incrémenter le score de la diagonale (i-j) où i
et j sont les positions du k-uptlet commun dans S1 et S2, respectivement.
4. Choisir une taille de bande d autour de la diagonale principale qui permettra de choisir
uniquement quelques diagonales dans le tableau de scores bande d’homologie
maximale ou une deuxième approche qui consiste à choisir les 10 meilleures diagonales
avec les scores les plus élevés.
5. L’alignement final sera construit à partir de la bande choisie précédemment en recollant
les k-uplets trouvés dans cette bande avec la possibilité d’utiliser l’algorithme de
Needleman & Wunsch.
Exemple :
L’indice ( i - j ) indique la diagonale sur laquelle se trouve un k-uptlets communs entre S1 et S2. On ne
garde que les régions identiques de longueur ≥ k.
S1 S2
Positions Positions
2-uplet 2-uplet
(i) (j)
AT 1 , 10 CA 1 , 4 , 10
TG 2 AT 2,6
GC 3,7 TC 3
CA 4,8 AA 5
AA 5,9 TT 7
AG 6 TG 8
TC 11 GC 9
Tableau de score :
d-10 d-9 d-8 d-7 d-6 d-5 d-4 d-3 d-2 d-1 d0 d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11
1 0 0 0 4 3 1 0 3 4 3 1 1 4 5 1 0 2 3 0 0 1
d=5
S1 : -ATGCAA--GCAATC
S2 : CAT-CAATTGCA---
2
BLAST: Basic Local Alignment Search Tool
Présenté en 1990.
https://blast.ncbi.nlm.nih.gov/Blast.cgi
Utilisation de k-uplets plus longs contrairement au FASTA. Au niveau de l’interface de BLAST,
k correspond au paramètre w (pour Word size).
Etapes à suivre:
1. Retrouver tous les k-uplets (mots) de S1
2. Pour tout k-uplet appartient à S1, récupérer tous les k-uplets ayant un score de similarité
≥ Seuil H Construire la liste L.
3. Faire la recherche des mots appartenant à la liste L dans la banque de données.
4. Stratégie de BLAST : Prolonger l’alignement de part et d’autre autour des k-uplets initiaux
tant que le score monte ou reste stable.
Exemple :
La liste L va être utilisée pour examiner toutes les séquences de la banque de données. Chaque fois
qu’un quadruplet appartenant à L est trouvé, on essaie d’étendre l’alignement autour des
quadruplets initiaux tant que le score augmente ou reste stable.
S1 : … IFKRFW …
S2 : … LFKQFY …
Le score de similarité initial entre les deux quadruplets ‘FKRF’ et ‘FKQF’ est de 18. L’idée de BLAST
consiste à reconsidérer les deux segments initiaux en leur ajoutant le résidu qui se trouve à leur
droite : ‘FKRFW’ et ‘FKQFY’ → le score devient égal à 20. Si on ajoute cette fois-ci le résidu qui se
trouve à gauche, le score de similarité monte à 22 entre ‘IFKRFW’ et ‘LFKQFY’, etc.
Versions de BLAST :
3
Fiabilité et qualité des méthodes heuristiques :
Questions auxquelles il faut répondre :
Trouver toutes les séquences homologues ?
Signification statistique / biologique de l’homologie trouvée ?
Impact des paramètres de la méthode choisie : BLAST
H ↗ : Risque de rater des alignements intéressants
H ↘ : Risque de récupérer des intrus
Outil d’évaluation est nécessaire et indispensable:
Pour BLAST :
Mesure E-value = Espérance mathématique calculée à partir d’un modèle statistique
Définition d’après https://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html:
“The Expect value (E) is a parameter that describes the number of hits one can
"expect" to see by chance when searching a database of a particular size. It decreases
exponentially as the Score (S) of the match increases. Essentially, the E value
describes the random background noise. For example, an E value of 1 assigned to a
hit can be interpreted as meaning that in a database of the current size one might
expect to see 1 match with a similar score simply by chance.
The lower the E-value, or the closer it is to zero, the more "significant" the match is.
However, keep in mind that virtually identical short alignments have relatively high E
values. This is because the calculation of the E value takes into account the length of
the query sequence. These high E values make sense because shorter sequences have
a higher probability of occurring in the database purely by chance.” Hit = Alignment
N.B. Aucun support électronique n’est prévu pour les autres parties abordées en cours : Alignement
multiple & Arbres phylogénétiques.
Références bibliographiques :