Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Alignement multiple
de séquences
Alignement de séquences
Un ensemble de séquences similaires peuvent être
soumis à un alignement multiple.
Alignement multiple de séquences
On voudrait comparer toutes les séquences entre entre elles
simultanément
Alignement multiple de séquences
Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG
Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG
Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG
Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG
Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG--
Seq6 ATLVCLISDFYPGA--VTVAWKADS--
Seq7 AALGCLVKDYFPEP--VTVSWNSG---
Seq8 VSLTCLVKGFYPSD--IAVEWWSNG--
Alignement multiple de séquences
Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG
Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG
Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG
Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG
Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG--
Seq6 ATLVCLISDFYPGA--VTVAWKADS--
Seq7 AALGCLVKDYFPEP--VTVSWNSG---
Seq8 VSLTCLVKGFYPSD--IAVEWWSNG--
Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG
Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG
Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG
Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG
Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG--
Seq6 ATLVCLISDFYPGA--VTVAWKADS--
Seq7 AALGCLVKDYFPEP--VTVSWNSG---
Seq8 VSLTCLVKGFYPSD--IAVEWWSNG--
CSVTCG
Motif
Types de motifs
Human RNA-
splice
junctions
sequence
matrix
http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html
Exemple de motif:
Motifs in proteines
Motif Representation
Consensus CTTAATATTAACTTAAT
http://www.expasy.org/prosite/
Sequence requête
Resultats de Prosite
Base de données: Pfam (Protein Families)
www.sanger.ac.uk/Pfam
Pfam
• Plus sophistiqué
Source des domaines Pfam:
Alignement
Etude d’une protéine par Pfam
Numero
d’accession
Ou:
Sequence
(format FASTA)
Resultats: Pfam
Resultats: Pfam
Codes graphiques Pfam
Fiche d’un domaine Pfam
Autres bases de données de
Domaines/Motifs
• PRINTS: http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/; a
collection of protein fingerprints (conserved motifs, ungapped
alignments), which may be used to assign new sequences to known
protein families.
• Blocks: http://blocks.fhcrc.org/; consists of short ungapped
alignments corresponding to the most highly conserved regions of
proteins.
• ProDom: http://www.toulouse.inra.fr/prodom.html; contains domain
families automatically generated from the SWISS-PROT and
TrEMBL (Pfam-B).
• SMART: Simple Modular Architecture Research Tool; available at
http://smart.embl-heidelberg.de/; contains domain families that are
widely represented among nuclear, signaling and extracellular
proteins.
• TIGRFAMs: http://www.tigr.org/TIGRFAMs; is a collection of
manually curated protein families of hidden Markov models; contains
models of full-length proteins and shorter protein regions.
Une pour toutes:
Banque de données InterPro
http://www.ebi.ac.uk/interpro/
InterPro
ClustalW
http://www2.ebi.ac.uk/clustalw/
Outil d’alignement multiple des
sequences:
ClustalW
1- Blast
Comment trouver une famille de sequences?
http://www2.ebi.ac.uk/clustalw/
ClustalW
Resultats de ClustalW
* represents identity
: represents high similarity
. represents low similarity
Reconstruction d’arbre
phylogénétique
Reconstruction d’arbre phylogénétique
Alignement multiple : ClustalW
S1 cgatgagtcattgtgactg
S2 cgagccattgtagctactg
Soient les 4 séquences :
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg
• Alignements 2 à 2
S1 cgatgagtcattgt-g--actg S2 cgagccattgtagcta-ctg
||| | |||||| | |||| ||| |||||||||||| |||
S2 cga-g--ccattgtagctactg S3 cga-ccattgtagctacctg
S1 cgatgagtcattg-tgactg S2 cga-g--ccattgtagctactg
||| | | | | | ||| ||| | || ||| | ||||
S3 cgacca-ttgtagctacctg S4 cgatgagtcactgt-g--actg
S1 cgatgagtcattgtgactg S3 cgaccattgtagctacctg
|||||||||| |||||||| ||| | | | |||
S4 cgatgagtcactgtgactg S4 cgatgagtcactgtgactg
Reconstruction d’arbre phylogénétique
Alignement multiple : Clustal W
S1 cgatgagtcattgtgactg
Soient les 4 séquences : S2 cgagccattgtagctactg
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg
• Alignements 2 à 2
S2 cgagccattgtagcta-ctg
||| |||||||||||| |||
S3 cga-ccattgtagctacctg
S1 cgatgagtcattgtgactg
|||||||||| ||||||||
S4 cgatgagtcactgtgactg
Reconstruction d’arbre phylogénétique
Alignement multiple : Clustal W
S1 cgatgagtcattgtgactg
Soient les 4 séquences : S2 cgagccattgtagctactg
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg
• Alignements 2 à 2
S2 cgagccattgtagcta-ctg
||| |||||||||||| |||
S3 cga-ccattgtagctacctg
S1 cgatgagtcattgtgactg
|||||||||| ||||||||
S4 cgatgagtcactgtgactg
Reconstruction d’arbre phylogénétique
Alignement multiple : Clustal W
• Tableau des scores d’alignement • Arbre guide
S1 S2 S3 S4
S1 - 2 0 17
S2 - 14 0
S3 - -1
S4 -
S1 S4 S2 S3
• Construction de l’alignement multiple final
S1 cgatgagtcattgtgactg
|||||||||| |||||||| S1 cgatgagtcattgt-g--ac-tg
S4 cgatgagtcactgtgactg S4 cgatgagtcactgt-g--ac-tg
S2 cga---gccattgtagctac-tg
S2 cgagccattgtagcta-ctg S3 cga----ccattgtagctacctg
||| |||||||||||| |||
S3 cga-ccattgtagctacctg
Exemple d’un arbre phylogénétique
obtenu à partir d’un résultat de
CLUSTALW
Ressources
• ClustalW en ligne
• http://www.ebi.ac.uk/Tools/clustalw2/index.html
• ClustalW telechargement
• ftp://ftp.ebi.ac.uk/pub/software/clustalw2/