Vous êtes sur la page 1sur 57

Cours 9:

Alignement multiple
de séquences
Alignement de séquences
Un ensemble de séquences similaires peuvent être
soumis à un alignement multiple.
Alignement multiple de séquences
On voudrait comparer toutes les séquences entre entre elles
simultanément
Alignement multiple de séquences

Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG
Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG
Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG
Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG
Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG--
Seq6 ATLVCLISDFYPGA--VTVAWKADS--
Seq7 AALGCLVKDYFPEP--VTVSWNSG---
Seq8 VSLTCLVKGFYPSD--IAVEWWSNG--
Alignement multiple de séquences

Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG
Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG
Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG
Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG
Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG--
Seq6 ATLVCLISDFYPGA--VTVAWKADS--
Seq7 AALGCLVKDYFPEP--VTVSWNSG---
Seq8 VSLTCLVKGFYPSD--IAVEWWSNG--

Par l’alignement multiple on retrouve plus d’information que


dans l’alignement entre pairs.

Alignement multiple permet d’identifier les acides aminés/


nucleotides conservés dans des séquences homologues
Alignement multiple de séquences

Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG
Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG
Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG
Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG
Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG--
Seq6 ATLVCLISDFYPGA--VTVAWKADS--
Seq7 AALGCLVKDYFPEP--VTVSWNSG---
Seq8 VSLTCLVKGFYPSD--IAVEWWSNG--

Pourquoi le W est-il conservé dans toutes ces séquences?

Est il Necessaire/indispensable pour la fonction


de cette famille de protéines?
Exemple: Site actif
Alignement multiple

Part of a (artificial) multiple alignment of a family consisting of 7


sequences, which subdivide into 3 subfamilies. The bars on the left
indicate subfamilies; the dotted boxes highlight conservation
patterns.
Alignement multiple

• Alignement multiple des séquences des


insulines de différentes espèces
But de l’alignement multiple
Un alignement d’un ensemble de séquences révèle des aspects
que l’on ne pouvait pas visualiser en comparant 2 séquences:

1.Trouver des caractéristiques communes à une famille


de protéines.

2. l'identification rapide des sites fonctionnels importants


dont la conservation est requise pour la fonction.

3. Prédiction de structure 3D des protéines.

4. Recherche d'amorces de PCR et de sondes spécifiques.


L'identification des résidus conservés est nécessaire pour dessiner des
amorces de PCR pour amplifier le gène dans une nouvelle espèce.

5. Construire l’arbre phylogénétique des séquences homologues


considérées.
Structure modulaire des protéines
Les protéines sont composées de domaines fonctionnels
Exemple de structure modulaire des protéines:
les activateurs et represseurs
• Chez les procaryotes et eucaryotes les activateurs transcriptionels et
represseurs sont des protéines modulaires, composées de domaines
fonctionnels separés:
– Domaine de liaison avec l’ADN
– Domaine d’activation/repression: reagit avec les effecteurs,
d’autres protéines ou d’autres sous-unités de la même protéine.
Domaines, motifs et famille proteiques
Domaine protéique: unite structurale et fonctionnelle
indépendante, évolutivement conservée
Motif protéique: plus courts
- site de modification post-traductionnelle
- site de liaison (ADN, metal,…)
- site actif d’enzyme
Famille proteique: ensemble de proteines evolutivement reliées;
un ou plusieurs domaines proteiques communs

CSVTCG
Motif
Types de motifs

comment décrire un motif dans une séquence


biologique?

motif nucléique: site de fixation de facteur de transcription…


motif protéique: domaine, site actif, ...
Exemple de motif:
Motifs in DNA
Exemple de motif:
Motifs in RNA
Site d’epissage (splicing sites)

Human RNA-
splice
junctions
sequence
matrix

http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html
Exemple de motif:
Motifs in proteines
Motif Representation

Consensus CTTAATATTAACTTAAT

Regular expression CTTAAKRTTMAYTTAAT

PSSM (motif logo)


Representation des motifs
protéiques
Representation des motifs
protéiques
2- Expression régulière
Representation des motifs
protéiques
3- LOGO
Recherche de domaines/motifs dans les
bases de données
Sequence:
MIRAAPPPLFLLLLLLLLLVSWASRGEAAPDQDEIQRLPGLAKQPSFRQYSGYLKSSGSKHLHYWFVESQKDPE
NSPVVLWLNGGPGCSSLDGLLTEHGPFLVQPDGVTLEYNPYSWNLIANVLYLESPAGVGFSYSDDKFYATNDTE
VAQSNFEALQDFFRLFPEYKNNKL...

Computational Query secondary


sequence analysis databases over the
Internet

Bases de donnees de domaines/motifs proteiques


PROSITE
http://www.expasy.org/prosite/

Database of protein families and domains


Base de données:
Prosite

http://www.expasy.org/prosite/

Sequence requête
Resultats de Prosite
Base de données: Pfam (Protein Families)
www.sanger.ac.uk/Pfam
Pfam

• Plus sophistiqué
Source des domaines Pfam:
Alignement
Etude d’une protéine par Pfam

Numero
d’accession

Ou:

Sequence
(format FASTA)
Resultats: Pfam
Resultats: Pfam
Codes graphiques Pfam
Fiche d’un domaine Pfam
Autres bases de données de
Domaines/Motifs
• PRINTS: http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/; a
collection of protein fingerprints (conserved motifs, ungapped
alignments), which may be used to assign new sequences to known
protein families.
• Blocks: http://blocks.fhcrc.org/; consists of short ungapped
alignments corresponding to the most highly conserved regions of
proteins.
• ProDom: http://www.toulouse.inra.fr/prodom.html; contains domain
families automatically generated from the SWISS-PROT and
TrEMBL (Pfam-B).
• SMART: Simple Modular Architecture Research Tool; available at
http://smart.embl-heidelberg.de/; contains domain families that are
widely represented among nuclear, signaling and extracellular
proteins.
• TIGRFAMs: http://www.tigr.org/TIGRFAMs; is a collection of
manually curated protein families of hidden Markov models; contains
models of full-length proteins and shorter protein regions.
Une pour toutes:
Banque de données InterPro
http://www.ebi.ac.uk/interpro/
InterPro

- InterPro regroupe un grand nombre de bases de données


- InterPro permet d’interroger ces bases de données simultanément
Contenu InterPro
Fiche InterPro
Outil d’alignement multiple des
sequences:

ClustalW

http://www2.ebi.ac.uk/clustalw/
Outil d’alignement multiple des
sequences:
ClustalW

• Le programme ClustalW permet d'établir


l'alignement multiple de sequences nucléiques ou
protéiques (personnelles ou de banques).

• Il détermine le meilleur alignement de l'ensemble


des séquences et les disposent de manière à
distinguer les identités, similitudes et différences.
• Il propose en outre de générer l'arbre
phylogénétique à partir d'un alignement donné
Outil d’alignement multiple
ClustalW

Alignement global (tous contre tous)


Outil d’alignement multiple des sequences:
CLUSTALW

Entrée: un ensemble de séquences

Sortie: un tableau contenant l’alignement


Comment trouver une famille de sequences?

1- Blast
Comment trouver une famille de sequences?

2-Telecharcher à partir des bases de données


(ENTREZ)
Un ensemble de sequences sous FASTA
format
Beware of aligning apples and
oranges [and grapefruit]!
Attention: Ne pas comparer pommes et oranges!
ClustalW

http://www2.ebi.ac.uk/clustalw/
ClustalW
Resultats de ClustalW

* represents identity
: represents high similarity
. represents low similarity
Reconstruction d’arbre
phylogénétique
Reconstruction d’arbre phylogénétique
Alignement multiple : ClustalW
S1 cgatgagtcattgtgactg
S2 cgagccattgtagctactg
Soient les 4 séquences :
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg

• Alignements 2 à 2

S1 cgatgagtcattgt-g--actg S2 cgagccattgtagcta-ctg
||| | |||||| | |||| ||| |||||||||||| |||
S2 cga-g--ccattgtagctactg S3 cga-ccattgtagctacctg

S1 cgatgagtcattg-tgactg S2 cga-g--ccattgtagctactg
||| | | | | | ||| ||| | || ||| | ||||
S3 cgacca-ttgtagctacctg S4 cgatgagtcactgt-g--actg

S1 cgatgagtcattgtgactg S3 cgaccattgtagctacctg
|||||||||| |||||||| ||| | | | |||
S4 cgatgagtcactgtgactg S4 cgatgagtcactgtgactg
Reconstruction d’arbre phylogénétique
Alignement multiple : Clustal W
S1 cgatgagtcattgtgactg
Soient les 4 séquences : S2 cgagccattgtagctactg
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg

• Alignements 2 à 2

S2 cgagccattgtagcta-ctg
||| |||||||||||| |||
S3 cga-ccattgtagctacctg

S1 cgatgagtcattgtgactg
|||||||||| ||||||||
S4 cgatgagtcactgtgactg
Reconstruction d’arbre phylogénétique
Alignement multiple : Clustal W
S1 cgatgagtcattgtgactg
Soient les 4 séquences : S2 cgagccattgtagctactg
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg

• Alignements 2 à 2

S2 cgagccattgtagcta-ctg
||| |||||||||||| |||
S3 cga-ccattgtagctacctg

S1 cgatgagtcattgtgactg
|||||||||| ||||||||
S4 cgatgagtcactgtgactg
Reconstruction d’arbre phylogénétique
Alignement multiple : Clustal W
• Tableau des scores d’alignement • Arbre guide

S1 S2 S3 S4
S1 - 2 0 17
S2 - 14 0
S3 - -1
S4 -
S1 S4 S2 S3
• Construction de l’alignement multiple final
S1 cgatgagtcattgtgactg
|||||||||| |||||||| S1 cgatgagtcattgt-g--ac-tg
S4 cgatgagtcactgtgactg S4 cgatgagtcactgt-g--ac-tg
S2 cga---gccattgtagctac-tg
S2 cgagccattgtagcta-ctg S3 cga----ccattgtagctacctg
||| |||||||||||| |||
S3 cga-ccattgtagctacctg
Exemple d’un arbre phylogénétique
obtenu à partir d’un résultat de
CLUSTALW
Ressources
• ClustalW en ligne
• http://www.ebi.ac.uk/Tools/clustalw2/index.html

• ClustalW telechargement
• ftp://ftp.ebi.ac.uk/pub/software/clustalw2/

Vous aimerez peut-être aussi