Vous êtes sur la page 1sur 51

La bioinformatique :

I- dfinition, description, dmarche et principales tapes



Dfinition
La bioinformation est l'information lie aux molcules biologiques : leurs structures, leurs
fonctions, leurs liens de "parent", leurs interactions et leur intgration dans la cellule.
Divers domaines d'tudes permettent d'obtenir cette bioinformation : la gnomique
structurale, la gnomique fonctionnelle, la protomique, la dtermination de la structure
spatiale des molcules biologiques, la modlisation molculaire ...
La bioinformatique est l'analyse de la bioinformation.
Description
C'est une discipline rcente (quelques dizaines d'annes).
C'est une discipline "hybride" : elle est fonde sur des concepts et des formalismes issus de la
biologie, de l'informatique, des mathmatiques et de la physique.
C'est une discipline qui utilise toutes les potentialits de traitement de l'informatique :
modles thoriques, algorithmes et programmes, ordinateurs, rseau Internet, bases de
donnes ...
Dmarche
1. Compilation et organisation des donnes biologiques dans des banques de donnes :
ces banques sont soit gnralistes (elles contiennent le plus d'information possible sans
expertise particulirede l'information dpose), soit spcialises dans un domaine autour de
thmes prcis.
2. Traitements systmatiques des donnes : l'objectif principal est de reprer et de
caractriser une fonction et/ou une structure biologique importante. Les rsultats de ces
traitements constituent de nouvelles donnes biologiques obtenues "in silico".
3. Elaboration de stratgies :
le but est d'apporter des connaissances biologiques supplmentaires en combinant les
donnes biologiques initiales et les donnes biologiques obtenues "in silico".
ces connaissances permettent, leur tour, de dvelopper de nouveaux concepts en
biologie. ces connaissances permettent, leur tour, de dvelopper de nouveaux
concepts en biologie.
concepts qui ncessitent l'laboration de nouvelles thories et outils en mathmatiques
et en informatique.


Principales tapes en biologie molculaire, en informatique et en bioinformatique
1965
Premire compilation de protines ("Atlas of Protein
Sequences") : Margaret Dayhoff et al.
1967
Article : "Construction of Phylogenetic Trees" - Fitch &
Margoliash
1970
Algorithme pour l'alignement global de squences :
Needleman & Wunsch
1971 Premier microprocesseur Intel 4004
1972
Clonage de fragments d'ADN dans un virus, l'ADN
recombin : Paul Berg, David Jackson, Robert Symons
1973
Dcouverte des enzymes de restriction qui coupe
spcifiquement l'ADN.
Mthode de transfection (introduction d'un ADN tranger)
des cellules eucaryotes grce un virus (vecteur).
1974
Programme de prdiction de structures secondaires des
protines : "Prediction of Protein Conformation" - Chou &
Fasman
1977
Micro-ordinateurs
Techniques de squenage d'ADN : Frederick Sanger /
Maxam & Gilbert
1978 - 1980
Mutagnse dirige : Michael Smith
Squenage du 1er gnome ADN, le bactriophage
phiX174 : Frederick Sanger
Premires bases de donnes : EMBL, GenBank, PIR
1980 Accs tlphonique la base de donnes PIR
1981 : 370.000 nuclotides
GenBank : 270 squences
Micro-ordinateur IBM-PC 8088
Programme d'alignement local de squences : Smith &
Waterman
1983 IBM-XT disque dur (10 Mb)
1984
Amplification de l'ADN : raction de polymrisation en
chane (PCR) - Karry Mullis
MacIntosh : interface graphique & souris
1985
"FASTA" : Programme d'alignement local de squences -
Pearson & Lipman
1987
Nouveau vecteur permettant de cloner des fragments d'ADN
20 fois plus grands : le YAC (Yeast Artificial Chromosome).
Rend possible l'tude de grands gnomes.
1988 Taq polymrase, enzyme thermostable pour la PCR.
1989 INTERNET succde ARPANET
1990
Clonage positionnel et premier essai de thrapie gnique.
"BLAST" : Programme d'alignement local de squences -
Altschul et al.
1992 Squenage complet du chromosome III de levure
1996 Squenage complet de la levure (consortium europen)
1997 11 gnomes bactriens squencs
1998 Squenage de 2 millions de nuclotides par jour
2000 Squenage du 1er gnome de plante : Arabidopsis thaliana
2001 Squence "premier jet" complte du gnome humain
Janvier 2012
Plus de 393.000.000.000
nuclotides !
Plus de 3040 gnomes eucaryotes et procaryotes squencs et
des milliers en projet (Genomes OnLine) !
Voir le dveloppement de la banque de donnes EMBL
(banque europenne cre en 1980)
Voir le dveloppement de la banque de donnes Genbank
(cre en 1982 et diffuse par le National Center for
Biotechnology Information)
A quelles fins la bioinformatique est-elle utilise ?
L'acquisition des donnes biologiques Bases ou banques de donns & internet
les squences nuclotidiques et les
squences polypeptidiques
les gels bidimensionnels et les
diffrentes mthodes de spectromtrie
de masse (protomique)
les donnes de puce ADN
les donnes de structures
tridimensionnelles
la bibliographie
stocker, trier, organiser, corriger et
annoter les donnes
dvelopper des protocoles de
communication interactive (internaute
- banques ou entre banques)
grer la diversit des formats des
fichiers pour optimiser les changes de
donnes
Une grande partie du traitement des donnes s'appuie sur la comparaison de squences pour
trouver des similarits, des motifs connus.
Les buts sont multiples (liste non exhaustive) :
Acides nucliques
la recherche de phase de lecture
ouverte (gne) et de signaux de
rgulation de la transcription et de la
traduction, dtection de bornes
introns/exons
la recherche de rgions transcrites
(EST) - profil d'expression des gnes
(puces ADN, analyse d'images)
la dtection de polymorphismes de
nuclotide simple ou d'insertion /
dltion
la reconstruction d'arbres
phylogniques
l'analyse de gnomes entiers
(gnomique structurale, syntnie)
l'ontologie : l'organisation
hirarchique de la connaissance sur
un ensemble d'objets par leur
regroupement en sous-catgories
suivant leurs caractristiques
essentielles.

Protines
traduction in silico
taux de synthse des protines
(protomique)
prdiction de modification post-
traductionnelles
recherche de motifs structuraux :
dtection de sites actifs (enzymes), de
domaines, de types de repliement
(famille de protines)
prdiction de structures secondaires
modlisation de structure
tridimensionnelles
l'ontologie : l'organisation hirarchique
de la connaissance sur un ensemble
d'objets par leur regroupement en sous-
catgories suivant leurs
caractristiques essentielles.
Pour boucler la
boucle :
dveloppement de thories, de modles, d'algorithmes, de
programmes, de langages pour rpondre aux besoins qui prcdent
Buts plus gnraux
moyen terme :
biologie intgrative (mtabolisme, rseaux d'interactions entre
molcules), modliser le fonctionnement global d'une cellule
Applications :
thrapie gnique, pharmacognomique (cibles pour la mise au point
de molcules actives), analyse d'images (IRM)
L'industrie de la sant est devenue la premire industrie mondiale avec un chiffre d'affaires de
2000 milliards d'euros en l'an 2000, et une perspective de 4000 milliards en 2010.
On value le march de la bioinformatique plus de 1,1 milliard d'euros en 2005, avec un
taux de croissance annuel de 15,8% pour atteindre 3 milliard d'euros en 2010. Essentiellement
pour des investissements en :
dveloppement de logiciels d'analyses et services
chimie informatique (recherche de mdicaments)
pharmacognomique (test de mdicaments)
En ce qui concerne l'Europe, le march de la bioinformatique devrait passer de 257 millions
d'euros en 2004 598 millions d'euros en 2011, avec un taux de croissance annuel de 14.4%
essentiellement en protomique. (Source : "Genetic Engineering News")


Source : "Business Communications Company"

Les domaines d'tude en "ome" ou "omique"
Le plein essor de la bioinformatique (telle qu'on la conoit maintenant) a commenc avec la
gnomique (dbut des annes 80) marque par des vnements phares comme le squenage
du gnome humain.
Puis la quantit et la multiplicit d'informations biologiques obtenues de mme que les
avances technologiques ont fait apparatre au fur et mesure d'autres domaines d'tude en
"ome" ou "omique".
Leur dfinition volue ce qui explique qu'elle puisse diffrer selon les sources.
Domaine
d'tude
source dfinition
Gnomique
Les Actions
Concertes
Incitatives
Ministre de la
Recherche
La gnomique est une nouvelle discipline de la biologie qui
vise l'analyse molculaire et physiologique complte du
matriel hrditaire des organismes vivants. [...] il s'agit de
dduire les fonctions des gnes et leurs interactions partir
de leurs squences, ce qui facilite l'intgration de la
gnomique dans la physiologie. [...]
La gnomique repose sur des techniques qui voluent une
vitesse prodigieuse et l'ensemble des bases de donnes
obtenues, qui reprsente des dizaines de milliards de
caractres rpartis en dizaines de milliers de fichiers, pose
dj aux informaticiens des problmes considrables pour
classer et interprter cette norme masse de donnes.
Rapport sur
Gnomique et
informatique
L'impact sur les
thrapies et sur
l'industrie
pharmacaeutique
F. Srusclat -
Snateur (1999)
La gnomique est l'tude exhaustive des gnomes et
en particulier de l'ensemble des gnes, de leur
disposition sur les chromosomes, de leur squence,
de leur fonction et de leur rle.
La cartographie physique est le positionnement de
repres sur le gnome.
Le squenage : pour connatre les "instructions "
que renferme un fragment d'ADN, on lit la
succession des bases puriques et pyrimidiques (A,
T, G, C) de l'enchanement. Cette lecture est appele
squenage.
Gnomique
structurale
Voir les cours :
Gnomique
fonctionnelle
vgtale
et
Protomique
Elle dcrit l'organisation du gnome, ralise son
squenage et dresse l'inventaire des gnes : prdiction des
rgions codantes d'un gne - dentification des sites de
rgulation de la transcription - identification d'exons et
d'introns ...
Dfinition : la gnomique structurale s'attle dterminer la
structure 3D des protines codes par le gnome. Selon
cette dfinition, elle devrait s'appeler "protomique
structurale"...
Gnomique
fonctionnelle
ou post-
gnomique
La gnomique fonctionnelle ou post-gnomique tudie le
transcriptome (ensemble des ARN messagers transcrits
partir du gnome). Le but est de dterminer la fonction des
gnes partir de leurs produits d'expression (ARN et
protines) et d'tudier leur mode de rgulation et leurs
interactions.
On inclue souvent la protomique dans la gnomique
fonctionnelle.
Protomique
La protomique tudie le protome : ensemble des
protines identifies partir d'un gnome. Toutes les
cellules de l'organisme possdent le mme gnome, mais
ont un protome diffrent selon l'organe et le moment du
dveloppement de l'individu. La protomique s'attache
dterminer la localisation, la structure et la fonction de ces
protines. Elle analyse leurs interactions et leurs
modifications au cours du temps.
Les autres "omes" et "omiques"
Mtabolomique : description de la population des diffrents
mtabolites d'une cellule dans un stade physiologique
donn.
Interactome - interactomique : description des interactions
entre toutes les macromolcules d'une cellule.
On trouve aussi dans la liitrature : lipidome, protasome,
rgulome, spliceosome, prdictome, ractome

Liens Internet
Revue scientifique : "Bioinformatics"
Revue scientifique : "Nucleic Acids Research"
Revue scientifique : "OMICS: A Journal of Integrative Biology"
Bioinformatics
NAR
OMICS
Fields & Johnston (2002) "Genomics : A Crisis in Postgenomic
Nomenclature" Science 296, 671 - 672
Kanehisa & Bork (2003) "Bioinformatics in the post-sequence era"
Nature Genetics 33, 305 - 310
Article
Article


















II. molcules support, types et obtention
1. Deux types de molcules support de la bioinformation : les acides nucliques et les
protines

ADN : Acide
DsoxyriboNuclique
macromolcule :
chane nuclotidique
constitue par un
enchanement
d'units lmentaires
: les
dsoxyribonuclotide
s
forme de stockage de
l'information
gntique. Cette
information est
reprsente par une
suite linaire de
gnes
forme de deux brins
complmentaires
enrouls en double
hlice ce qui lui
permet de se
dupliquer en deux
molcules identiques
entre elles et
identiques la
molcule mre
On distingue :
l'ADN du gnome du
noyau
l'ADN du gnome
mitochondrial
l'ADN du gnome
chloroplastique



ARN : Acide RiboNuclique
macromolcule :
chane nuclotidique
constitu par un
enchanement
d'units lmentaires
: les ribonuclotides
forme qui permet de
transfrer et de traiter
l'information dans la
cellule
le plus souvent form
d'un simple brin
On distingue :
les ARN messagers
ou ARNm : ils sont
transcrits partir d'un
gne (ADN). Ils sont
ensuite traduits en
protines.
les ARN de transfert
les ARN ribosomaux
les ARN nuclaires
les ARN
cytoplasmiques
Protine
macromolcule :
chane
polypeptidique
constitu par un
enchanement
d'units lmentaires
: les acides amins
l'ensemble des
protines assurent les
principales fonctions
cellulaires
se replie sur elle-
mme et adopte une
conformation ou
structure particulire
dans l'espace. Cette
structure
tridimensionnelle est
l'origine de la
fonction de la
protine et de la
spcificit de cette
fonction.
2. Deux types de bioinformation : la squence des nuclotides et la squence des acides
amins
Les chanes nuclotidiques (ADN, ARN) et les chanes polypeptidiques (protines) sont des
polymres d'units lmentaires :
ADN : 4 dsoxyribonuclotides = dCMP, dGMP, dAMP, dTMP
ARN : 4 ribonuclotides = CMP, GMP, AMP, UMP
protines : 20 acides amins = Ala (A), Cys (C), Asp (D), Glu (E), Phe (F), Gly (G),
His (H), Ile (I), Lys (K), Leu (L), Met (M), Asn (N), Pro (P), Gln (Q), Arg (R), Ser
(S), Thr (T), Val (V), Trp (W), Tyr (Y)
Elles possdent 2 extrmits distinctes et sont donc orientes :
de l'extrmit dite 5' vers l'extrmit dite 3' pour les chanes nuclotidiques
de l'extrmit dite N-terminale vers l'extrmit dite C-terminale pour les chanes
polypeptidiques
En consquence :
les chanes nuclotidiques et polypeptidiques sont une succession ordonne et oriente
d'units lmentaires
les squences sont leur transcription sous forme d'une succession ordonne et oriente
de lettres qui correspondent ces units lmentaires
Site : "L'information gntique" - Simple et didactique.

Exemple de squence nuclotidique Exemple de squence polypeptidique
aattccggca tagaaactca aatcaaagag
gaagaaacac cgattctcct tttctctctc taaacaacta
gatcagatct ctgagtttaa ggaagctttc agcctattcg
ataaggatgg cgatggttgc atcacaacca
aggagcttgg aactgttatg cgatcattgg gacaaaaccc
aactgaagca

MADQLTDDQI SEFKEAFSLF
DKDGDGCITT KELGTVMRSL
GQNPTEAELQ DMINEVDADG
NGTIDFPEFL NLMARKMKDT
DSEEELKEAF RVFDKDQNGF
ISAAELRHVM TNLGEKLTDE
EVDEMIREAD VDGDGQINYE
EFVKVMMAK
Les squences constituent l'un des principaux types de bioinformation qu'analyse la
bioinformatique.
Exemples d'autres types de bioinformation (directe ou obtenue "in silico")
Les structures tridimensionnelles des protines et aussi, malgr leur nombre
plus restreint, des acides nucliques (en particulier les ARN de transfert).
Protein Data
Bank
Les donnes obtenues en protomique (gels d'lectrophorse bidimensionnel).
SWISS-
2DPAGE
Le changement d'un nuclotide dans un gne quelconque ("Single Nucleotide
SNP
Polymorphism").
La taxonomie (classification) des organismes. Taxonomy
Les rseaux d'interactions qu'tablissent les molcules biologiques. BioCarta
L'ontologie : l'organisation hirarchique de la connaissance sur un ensemble
d'objets par leur regroupement en sous-catgories suivant leurs
caractristiques essentielles.
GO
Les donnes bibliographiques (diffusion des rsultats de la recherche par les
articles).
PubMed
3. L'obtention des squences
Squence des nuclotides
par la mthode de F. Sanger (1977)
au dpart
puis par des techniques de plus en
plus sophistiques, automatises et
de masse

Squence des acides amins
par lamthode de P. Edman (1950) au
dpart
puis par traduction "in silico" des squences
nuclotidiques




III. les banques de donnes
Les fichiers contenant l'information biologique sous la forme de squences est l'lment
central autour duquel les banques de donnes se sont constitues l'origine.
On peut distinguer :
les bases de donnes gnralistes : elles correspondent une collecte des donnes la
plus exhaustive possible et qui offrent un ensemble plutt htrogne d'informations
les bases de donnes spcialises : elles correspondent des donnes plus homognes
tablies autour d'une thmatique et qui offrent une valeur ajoute
Il existe un grand nombre de bases de donnes d'intrt biologique : voir une liste quasi
exhaustive avec les liens vers les bases de donnes
1. Les banques gnralistes
Les banques gnralistes sont indispensables la communaut scientifique car elles
regroupent des donnes et des rsultats essentiels dont certains ne sont plus reproduits dans la
littrature scientifique.
Dans le cadre de l'analyse des squences, par exemple, le fait que la majorit des squences
connues soit runie en un seul ensemble est un lment fondamental pour la recherche de
similitudes avec une nouvelle squence. D'autre part, la grande diversit d'organismes qui y
est reprsente permet d'aborder des analyses de type volutif.
Leur principale mission est de rendre publiques les squences et tout autre type d'information.
Cette notion de mise la disposition du public a t capitale dans le cas par exemple de la
diffusion des rsultats du squenage du gnome humain.
On y trouve galement de l'information qui accompagne les squences (annotations,
bibliographie, ...) et une expertise biologique directement lies aux squences traites.
La prsence de rfrences d'autres bases permet d'avoir accs d'autres informations. Par
exemple, la banque SWISSPROT est particulirement riche en rfrences croises avec
d'autres banques et en annotations.
Les multiples liens entre les groupes de donnes dans les banques gnralistes sont d'une
complexit tonnante. Voir les exemples de Genbank ou ExPASy.
La qualit des donnes contenues dans ces bases prsente un certain nombre de lacunes. Les
organismes responsables de la maintenance de ces banques ont pris conscience de la ncessit
de vrifications des donnes soumises ou saisies (surtout pour les squences anciennes).
Maintenant, de nombreuses vrifications sont faites systmatiquement ds la soumission de la
squence : c'est la "curation".
Il existe dsormais un recueil de squences rfrences, annotes et "contrles" : The
Reference Sequence (RefSeq) collection
Exemple de grandes bases de donnes gnralistes

Ces banques s'changent systmatiquement leur contenu depuis 1987 et adoptent un systme
de conventions communes (The DDBJ/EMBL/GenBank Feature Table Definition).
EMBL - EBI : Banque europenne cre en 1980 et finance par l'EMBO (European
Moleculary Biology Organisation). Elle est aujourd'hui diffuse par l'EBI ("European
Bioinformatics Institute", Cambridge).
Genbank - NCBI : Cre en 1982 par la socit IntelliGenetics et diffuse maintenant par le
NCBI ("National Center for Biotechnology Information", Bethesda - Marylandet).
DDBJ (DNA Data Bank of Japan) : Cre en 1986 et diffuse par le NIG ("National Institute
of Genetics", Japon).
Swissprot & TrEMBL : Elle a t constitue l'Universit de Genve partir de 1986. Elle
est maintenant dveloppe par le SIB (Swiss Institute of Bioinformatics) et l'EBI. Elle
regroupe (entre autres) des squences annotes de la PIR-NBRF ainsi que les squences
codantes traduites de l'EMBL (TrEMBL).
PIR-NBRF ("Protein Information Ressource") : banque de protines cre sous l'influence du
NBRF ("National Biomedical Research Foundation") Washington. Elle diffuse maintenant
des donnes issues du MIPS ("Martinsried Institute for Protein Sequences"), de la base
Japonnaise JIPID ("Japan International Protein Information Database") et des donnes
propres de la NBRF.
UniProt ("Universal Protein Resource") : c'est la base de donnes des protines : ExPASy
Proteomics Server. Consortium [EBI - SIB - PIR]
GOLD: "Genomes OnLine Database" - base de donnes qui recensse les milliers de gnomes
squencs ou en voie de squenage.
"The Quick Guide" : autre base de donnes qui recensse des gnomes squencs (descriptions
des organismes, liens vers les centres de squenage et vers la bibliographie).
2. Les banques spcialises
Pour des besoins spcifiques lis l'activit d'un groupe de personnes, ou encore par
compilations bibliographiques, de nombreuses bases de donnes spcifiques ont t cres au
sein des laboratoires. Certaines sont inconnues ou mal connues et attendent qu'on les exploite
davantage.
Les bases de donnes spcialises sont d'intrt divers et la masse des donnes qu'elles
contiennent peut varier d'une base une autre. Ces bases correspondent des amliorations
ou des regroupements par rapport aux donnes issues des bases gnralistes.
Exemples de banques spcialises
Late Embryogenesis Abundant Proteins database (LEAPdb - G. Hunault & E. Jaspard) : cette
base de donnes contient un grand nombre d'informations sur les proines LEA impliqus
dans la tolrance de nombreux stress, notament la dshydratation et le froid. Pour l'instant,
on les a mises en vidence principalement chez les plantes.
Disulfide Bridge DataBase (DBDB - J.-M. Richer, G. Hunault & E. Jaspard) : cette base de
donnes contient un grand nombre d'informations structurales sur les cystines de plus de 400
protines cristallises. Elle a aussi pour but de servir la mise au point d'un logiciel de
prdiction des cystines impliques dans la formation de pont disulfure.
RESID Database : Base de donnes sur les acides amins peu frquents (sous-partie de la base
de donnes PIR)

Les bases de motifs
L'utilisation de bases spcialises comme les bases de motifs est devenue un outil essentiel
dans l'analyse des squences pour tenter de dterminer la fonction de protines inconnues ou
savoir quelle famille appartient une squence non encore caractrise.
a. Les bases de motifs nucliques
La plupart de ces bases consiste recenser dans des catalogues les squences des diffrents
motifs pour lesquels une activit biologique a t identifie. Certains motifs sont simples et
non ambigus, d'autres correspondent des activits biologiques plus complexes et engendrent
donc des squences moins prcises. Pour ces derniers types de motifs, des compilations ont
t tablies pour donner des listes annotes de motifs qui peuvent tre communs plusieurs
squences.
Il existe principalement deux bases de motifs nucliques qui sont rgulirement actualises et
qui correspondent un travail de synthse bibliographique : il s'agit des bases de facteurs de
transcription TFD (Ghosh, 1993) et TRANSFAC (Knppel et al., 1994).
b. Les bases spcialises de motifs protiques
La base PROSITE (ExPASy Proteomics Server) peut tre considre comme un dictionnaire
qui recense des motifs protiques ayant une signification biologique.
Elle est tablie en regroupant, quand cela est possible, les protines contenues dans Swissprot
par famille comme par exemple les kinases ou les protases. On recherche ensuite, au sein de
ces groupes, des motifs consensus susceptibles de les caractriser spcifiquement.
La conception de la base PROSITE repose sur quatre critres essentiels :
collecter le plus possible de motifs significatifs
avoir des motifs hautement spcifiques pour caractriser au mieux une famille de
protines
donner une documentation complte sur chacun des motifs rpertoris
faire une rvision priodique des motifs pour s'assurer de leur validit par rapport aux
dernires exprimentations
Voir un exemple : motif "EF-hand" des protines fixant le calcium comme la calmoduline par
exemple.
3. Projet "Embrace" : standardiser l'accs aux donnes bioinformatiques en Europe


Depuis la premire bauche du squenage du gnome humain, en 2001, les
biologistes produisent toujours plus de donnes bioinformatiques. Pour les stocker, ils
multiplient les bases de donnes, mais aucune standardisation n'existe encore dans ce
domaine. En consquence, les donnes ne sont pas toutes prsentes sous la mme
forme.
De plus, les protocoles d'accs sont diffrents, de mme que les algorithmes qui
traitent les donnes.
D'o le projet de rseau bioinformatique europen (dbut fvrier 2005), dot par la
commission europenne de 8,28 millions d'euros pour cinq ans, il rassemble 16 partenaires de
11 pays, dont 3 quipes du CNRS.
Le but du projet "Embrace" est de standardiser l'accs aux innombrables donnes issues des
projets de gnomique, et leurs mthodes d'tude, afin que les chercheurs puissent les consulter
et les exploiter facilement.
Embrace utilisera la "technologie de grille" (grid), o un grand nombre d'ordinateurs
gographiquement loigns les uns des autres travaillent en rseau afin d'offrir une importante
capacit de stockage et de calcul.
4. Liens Internet et rfrences bibliographiques

Base de donnes sur les acides amins peu frquents (sous-partie de la
base de donnes "Protein Information Resource" - PIR)
RESID Database
Bases de donnes sur les proprits physico-chimiques des acides amins
(sous-partie de la base de donnes "Expasy - Swiss-Prot")
ProtScale
Swiss-Prot
Base de donnes PROWL : proprits physico - chimiques des acides
amins, peptides, protines.
PROWL
Cours : "Les banques de squences biologiques l'Institut Pasteur" Aller au site




IV Quelques formats de fichiers dans les banques de donnes
Exemples de formats lis aux logiciels de traitement des squences
1. Format FASTA
Sans doute le plus rpandu et l'un des plus pratiques car trs simple. La squence, sous
forme de lignes de 80 caractres maximum, est prcde d'une ligne de titre (nom,
dfinition ...) qui doit commencer par le caractre ">".
Plusieurs squences peuvent tre mises dans un mme fichier.
>1YYCA 174 bp
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF
KGVTRD
GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV
KVA
YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF
Example of a FASTA record
>gi|22777494|dbj|BAC13766.1| glutamate dehydrogenase [Oceanobacillus iheyensis]
MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRI
PVRMDDGNVKVFTGY
RAQHNDAVGPTKGGIRFHPNVTETEVKALSIWMSLKSGIVDLPYGGAKGGIICD
PREMSFRELEALSRGY
VRAVSQIVGPTKDIPAPDVFTNSQIMAWMMDEYSKIDEFNNPGFITGKPIVLGGS
HGRESATAKGVTIVL
NEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDAYGALYDPEG
LDIDYLLDRRDSFGTV
TKLFNNTISNDALFELDCDIIVPAAVENQITRENAHNIKASIVVEAANGPTTMEAT
KILTERDILIVPDV
LASAGGVTVSYFEWVQNNQGFYWSEEEIDNKLHEIMIKSFNNIYNMSKTRRIDM
RLAAYMVGVRKMAEAS

1. With the FASTA format, a single file can contain several records (sequences). Each
record begins with ">".
2. gi|22777494 : the GenInfo Identifier number is the sequence identification number for
a protein or a nucleotide sequence. If a sequence changes in any way, a new GI number
will be assigned.
3. dbj|BAC13766.1| : one record could exist in different databases and may have many
identifiers. The table gives the explanation of database name and identifier syntax. In
this example, this record exists in the DNA Database of Japan under dbj|BAC13766.1.
4. dbj|BAC13766.1| : Database sequence identifiers run parallel to the new accession
version system as sequence identifiers. In this example, the ".1" indicates that the
sequence has been revised one time.
5. glutamate dehydrogenase [Oceanobacillus iheyensis] : description of the sequence. In
this example, "glutamate dehydrogenase" is the name of the protein and Oceanobacillus
iheyensis the organism from which it has been determined.






















2. Format ClustalW- suffixe ".aln"
Doit commencer avec "CLUSTAL W" sans autre information.
Une ou plusieurs lignes vides.
Un ou plusieurs blocs de squences. Chaque bloc contient :
o une ligne pour chaque squence. Chaque ligne consiste :
1. le nom de la squence
2. espace blancs white space
3. jusqu' 60 caractres
o Une ligne indiquant le degr de conservation (via des caractres spciaux :
"*", ":", ".") pour les colonnes de l'alignement pour ce bloc.
o Une ou plusieurs lignes vides.
CLUSTAL W (1.8) multiple sequence alignment

1YYCA
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDF
KGVTRD
1YYCA
GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPV
KVA
1YYCA
YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

3. Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans
"Accelrys")
Database Name Identifier syntax
GenBank gb|accession|locus
EMBL Data Library emb|accession|locus
DDBJ, DNA Database of Japan dbj|accession|locus
NBRF PIR pir||entry
SWISS-PROT sp|accession|entry name
Brookhaven Protein Data Bank (PDB) pdb|entry|chain
NCBI Reference Sequence ref|accession|locus
Protein Research Foundation prf||name
Local Sequence identifier lcl|identifier
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
Patents pat|country|number
Le format adopt par le package GCG permet la fois de commenter les donnes
et de vrifier l'intgrit de la squence par une valeur (=Checksum) calcule sur
celle-ci.
Le format GCG n'autorise qu'une seule squence par fichier..
Le fichier est constitu de la manire suivante:
o avant les ".." : commentaires
o ligne signal avec identificateur et "Check #### .."
o aprs les ".." : squence.
o 1YYCA
o 1YYCA Length: 174 Feb 14, 2011 10:21 Check: 9268 ..
o 1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA
NIPTPEATVD
o 51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA
TRTIASGTIP
o 101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ
LDIGLTFDIP
o 151 VVGDITIPVS TQGEIKLPSL RDFF

4. Format NBRF/PIR
Une ligne qui commence par le caractre ">" et un code 2 lettres qui dsigne le
type de squence : P1, F1, DL, DC, RL, RC ou XX.
Un point-virgule suivi par le code li la base de donne (dans l'exemple suivant
: ";1YYCA").
Une ligne qui dcrit la squence.
La squence elle-mme. Cette partie doit finir par une astrisque.
Plusieurs squences peuvent tre mises dans un mme fichier.
>P1;1YYCA
1YYCA 174 bases
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD
DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP
DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP
VVGDITIPVS TQGEIKLPSL RDFF*

5. Format Staden
Le plus ancien et le plus simple : suite des lettres de la squence par lignes termines par
un retour la ligne (80 caractres maximum par ligne). Ce format n'autorise qu'une
squence par fichier.
SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKADVMVVVAYGL
6. Format Stanford / IG
la 1re ligne est une ligne de commentaires prcde par le caractre ";"
la 2e contient l'identificateur (nom de la squence) dans les 10 premires colonnes
les lignes suivantes contiennent la squence (80 caractres maximum par ligne)
termine par le caractre "1" (squence linaire) ou "2" (squence circulaire)
;1YYCA 174 bases
1YYCA
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD
DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP
DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP
VVGDITIPVSTQGEIKLPSLRDFF1
7. Autres formats





Le format MSF ("Multiple Sequence Format") contient plusieurs squences dans un
fichier. Il est issu d'un alignement multiple produit par les programmes PileUp, LineUp -
MSF et reformat -MSF de GCG.
Le format PHYLIP : deux formats de base sont proposs.
2. Exemples de formats lis aux banques de donnes

a. Format GenBank
Chaque ligne indique le nom du champs et dans chaque champs on trouve des
informations.

b. Format EMBL
Chaque entre de la base EMBL est compose de lignes qui commencent par un code
deux caractres (champs) suivi de 3 blancs eux mme suivis dinformations.
ID 1YYCA STANDARD; PRT; 174 AA.
SQ SEQUENCE 174 AA; C11E4F3E CRC32;
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD
DVDFKGVTRD 60
GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT
TVLDVPVKVA 120
YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF
174
//
Aller : "Entrez" - NCBI - taper "28377945" dans "Search
across databases"
Description fichier
GenBank
Aller : EBI dbfetch - taper "PS13882" dans "search item"
Description codes
entre fichier EMBL

c. Format PROSITE
La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base
de donnes PROSITE est la suivante :
lettres A-Z correspondant aux acides amins (minuscules ou majuscules)
[] indique une ambiguite inclusive. Exemple : [ILVM]
{} ambiguite exclusive. Exemple : {FWY}
X caractre positionnel indiffrent
(n) rptition n fixe d'un sous-motif. Exemple : [RD](2)
X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)
< au dbut du motif : le motif est cadr gauche de la squence
> la fin du motif : le motif est cadr droite de la squence
le caractre '-' spare chaque position
le caractre '+' indique que la suite du motif continue la ligne suivante
Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK]
- {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW]
3. Les outils de conversion de formats
1. ReadSeq ("Biosequence conversion tool") : Programme de l'EBI. Il permet le
reformatage gnral des squences. De nombreux formats de sortie sont proposs par
Readseq.
2. Sequence Utilities ("BCM Search Launcher") : Attention cocher la ... bonne case.




















V-Algorithmes et programmes de comparaison de squences
Interprtation des rsultats : E-value, P-value
1. Dfinitions
Il existe 3 grandes classes d'algorithmes de comparaison de squences :
mthode de programmation dynamique
mthode heuristique
mthode d'apprentissage machine
Alignement : processus par lequel deux (ou n) squences sont compares afin d'obtenir le plus
de correspondances (identits ou substitutions conservatives) possibles entre les lettres qui les
composent.
alignement local : alignement des squences sur une partie de leur longueur
alignement global : alignement des squences sur toute leur longueur

alignement optimal : alignement des squences qui produit le plus haut score possible
alignement multiple : alignement global de trois squences ou plus
brches ou "gap" : espace artificiel introduit dans une squence pour contre-balancer
et matrialiser une insertion dans une autre squence.
Il permet d'optimiser l'alignement entre les squences


indel : "in" = insertion et "del" = dltion

similarit : c'est le pourcentage d'identits et/ou de substitutions conservatives entre
des squences. Le degr de similarit est quantifi par un score. Le rsultat de la
recherche d'une similarit peut tre utilis pour infrer l'homologie de squences.
homologie : 2 squences sont homologues si elles ont un anctre commun.
L'homologie se mesure par la similarit : une similarit significative est signe
d'homologie sauf si les squences prsentent une faible complexit.
faible complexit ("low-complexity regions") : rgions qui contiennent peu de
caractres diffrents. Exemples : (a) FFFPPPPPVVV, 3 acides amins diffrents
seulement (rgion riche en proline) - queue poly-A des ARN. Ces rgions posent des
problmes dans l'analyse des squences car elles gnrent un score biais.
Exemple de programme qui analyse ce type de rgions : "SEG".

msappariement : non correspondance entre deux lettres. Un msappariement peut tre :
soit la substitution d'un caractre par un autre, c'est--dire une mutation
soi l'introduction d'un "gap"
score : un score global permet de quantifier l'homologie. Il rsulte de la somme des scores
lmentaires calculs sur chacune des positions en vis vis des deux squences dans leur
appariement optimal. C'est le nombre total de "bons appariements" pnalis par le nombre de
msappariements.
score lmentaire :
ADN : la valeur du score lmentaire est de 1 (les deux bases sont identiques, bon
appariement) ou de 0 (les deux bases sont diffrentes, mauvais appariement).
protines : cette valeur est extraite d'une matrice de substitution
2. Algorithme de Needleman & Wunsch et algorithme de Smith & Waterman
Tous deux sont des algorithmes de programmation dynamique utiliss pour obtenir
l'alignement global ou local (respectivement) optimal de deux squences protiques ou
d'acides nucliques.
La programmation dynamique est une mthode dveloppe par R. Bellman (1955) qui permet
de rsoudre de nombreux problmes dont la solution directe n'est pas possible puisque de
complexit exponentielle.
Exemple : calcul de la distance d'dition entre deux chanes de caractres (squences
protiques ou d'acides nucliques).
La programmation dynamique une mthode de rsolution ascendante qui dtermine une
solution optimale du problme partir des solutions de tous les sous-problmes.
L'algorithme de Needleman & Wunsch et l'algorithme de Smith & Waterman se droulent
globalement en deux tapes :
la construction, ou descente, qui permet de calculer le meilleur score, c'est dire le
cot de la transformation de la premire squence en la seconde (tape de
programmation dynamique)
la construction de l'alignement lui-mme, ou remonte
Ces algorithmes n'utilisent pas d'heuristique : il sont donc sensibles mais longs.



F(i,j) : valeur la position (i,j) de la matrice.
s(x
i
,y
j
) : valeur obtenue partir de la matrice de substitution pour les nuclotides ou les acides
amins (x
i
,y
j
) correspondant la position (i,j) de la matrice. C'est donc le score correspondant
l'alignement des lettres x
i
et y
j
.
Ce score prend, par exemple, les valeurs suivantes :
identit : +3
non identit : -1
Algorithme de Needleman & Wunsch
alignement global optimal de 2 squences
Algorithme de Smith & Waterman
alignement local optimal de 2 squences


La ligne i = 0 et la colonne j = 0 sont
initialises aux valeurs de pnalit des gaps.
La fonction de rcurrence ne rinitialise pas
la valeur 0 si aucune valeur positive n'est
prsente.
La ligne i = 0 et la colonne j = 0 sont
initialises 0.
N'importe quelle case de la matrice de
comparaison peut tre un point de dpart pour
le cacul des scores finaux. Si ce score devient
infrieur zro, la fonction de rcurrence
rinitialise la valeur 0 et la case peut tre
utilise comme un nouveau point de dpart.
s(x
i
,-) et s(-,y
j
) est la fonction simple de pnalit de l'alignement d'un rsidu avec un
gap : -5
Remarque : si on opte pour d'autres valeurs, on obtient d'autres alignements optimaux, d'o le
choix crucial de la meilleure matrice de substitution lors des alignements.
La fonction de pnalit d'un gap est dfinie par : f(n) = d + [e . (n-1)], o :
n = longueur du gap
d = pnalit d'ouverture d'un gap
e = pnalit d'extension d'un gap
Exemple : un gap de longueur n = 3, avec une pnalit d'ouverture d = -10 et d'extension e = -
2, aura un score de f(3) = -10 + (-2 x 2) = -14
Application : alignement de la squence 1 =ACGCT avec la squence 2 =ACT
On remplit la 1re ligne et la 1re colonne de la matrice qui correspondent un gap la 1re
position :
l'alignement du A de la squence 2 avec l'insertion d'un gap dans la squence 1 cote :
-5
celui du C de la squence 2 avec l'insertion d'un second gap de la squence 1 cote : -5
+ -5 = -10
et ainsi de suite ...
F(1,1) aura pour valeur la valeur maximale
de l'une des possibilits suivantes :
F(0,0) + s(A,A) = 0 + 3 = 3
F(0,1) + s(A,-) = -5 + -5 = -10
F(1,0) + s(-,A) = -5 + -5 = -10
Et ainsi de suite.



j 0 1 2 3
i - (gap) A C T
0 - (gap) 0 -5 -10 -15
1 A -5 3 -2 -7
2 C -10 -2 6 1
3 G -15 -7 1 5
4 C -20 -12 -4 0
5 T -25 -17 -9 -1
F(2,1) aura pour valeur la valeur maximale de l'une des possibilits suivantes :
F(1,0) + s(C,A) = -5 + -1 = -6
F(1,1) + s(C,-) = 3 + -5 = -2
F(2,0) + s(-,A) = -10 + -5 = -15

Pour reconstituer l'alignement, on dmarre de la dernire case (5,3) et on dtermine la case
partir de laquelle cette case a t atteinte :
a. la valeur -1 de la case (5,3) ne peut-tre obtenue qu'en ajoutant +3 (soit une identit) la
valeur -4 [(case (4,2)]. Cel correspond l'alignement du "T" de la squence 1 avec le "T" de
la squence 2.



b. la valeur -4 de la case (4,2) peut tre obtenue de 2 manires :
en ajoutant +3 (soit une identit) la valeur -7 [(case (3,1)]. Cel correspond
l'alignement du "C" de la squence 1 avec le "C" de la squence 2.
en ajoutant -5 (soit un gap) la valeur 1 [(case (3,2)]. Cel correspond l'alignement
du "C" de la squence 1 avec un gap dans la squence 2.
c. Et ainsi de suite.
Ds lors, on obtient 2 alignements optimaux qui ont le mme score de +1.




3. Diversit des programmes - spcificit selon le type de donnes annalyses
Seq1 A C G C T
Seq2 A - - C T
Seq1 A C G C T
Seq2 A C - - T
Voir l'extrme diversit des programmes.
Type de squences Protines ou acides nucliques (ADN et/ou ARN) ou les deux
Type d'alignement Local ou global
Accessibilit Serveur Web ou implment sur l'ordinateur (lignes de commandes)
Spcialisation de
plus en plus
prononce du
champs
recherche dans des bases de donnes
alignement de squences 2 2 ("paiwise alignment")
alignement de squences multiples
analyse de gnome
recherche de motifs (sous-squences spcifiques "signature") : ScanProsite


d'application des
algorithmes /
programmes
alignement de millions de courtes squences (voir les nouvelles
technologies de squenage)
modlisation de structures homologues et superposition de structures 3D de
protines ("homology modeling"- "protein threading")
...
Les "benchmarks"
sont de vastes
ensembles de
donnes
(homognes, cures,
testes) qui
permettent de
comparer les
performances
d'algorithmes /
programmes.
Exemples de "benchmarks":
BAliBASE : le premier "benchmark" construit d'alignements de squences
protiques
HOMSTRAD ("HOMologous STRucture Alignment Database") : curated
database of structure-based alignments for homologous protein families.
PFAM ("Protein FAMilies") : contient toutes les familles de protines
identifies (environ 14.000 en 2012). Chacune est reprsente par un
alignement multiple des squences de la famille considre auquel est
adjoint un profil HMM ("Hidden Markov Model").
Affycomp : pour l'analyse de l'expression de gnes - puces ADN
Affymetrix
"The Protein Classification Benchmark collection" : pour l'annotation
fonctionnelle par apprentissage machine
Figure ci-contre : comparaison
des performances de plusieurs
programmes d'alignement de
squences
ClustalW
Muscle ("MUltiple
Sequence Comparison
by Log-Expectation")
Dialign
kalign
Mafft (2 versions testes
: fftns2 / linsi v. 6.815)
Probcons
T-Coffee ("Tree-based
Consistency Objective
Function For alignment
Evaluation")
Bleu : efficacit / Orange :
rapidit (chelle log)
Programme
score
d'efficacit
temps
de
calcul
Probcons 79.4%
2.7
jours
T-Coffee 79.4%
2.7
jours
Mafft
(linsi)
81.6%
1.2
heures
Kalign 74.3%
3
minutes
!


Source : Thompson et al. (2011)
Les programmes sont de plus en plus spcifiques du type de donnes biologiques traites ou
du type d'analyse effectue :
analyse de gnomes ou assemblage d'EST en contigs
construction d'arbres phylogntiques
dtection de SNP ("Single Nucleotide Polymorphism")
recherche dans des banques gnralistes ou spcialises
analyse de paramtres physico-chimiques d'acides amins de protines
squences consensus conserves ("pattern")
recherche de motifs structuraux
analyse d'expression des gnes
annotations
...
Illustration : la comparaison de structures et la modlisation par homologie
On a de plus en plus d'informations qui tendent dmontrer que le nombre de
repliements des protines dans la nature est limit (quelques milliers). On peut donc
regrouper les protines selon le type de repliement qu'elles adoptent. Voir les bases de
donnes CATH et SCOP, par exemple.
Remarque : les protines dites "intrinsquement non structures" sont part.
Le pralable de la modlisation par homologie ("homology modeling"- "protein threading")
est de disposer d'au moins une protine dont la structure 3D a t dtermine. Elle sert de
"modle" pour modliser la structure 3D potentielle d'une protine pour laquelle on ne dispose
que de la squence. Cette squence doit bien sr tre proche (homologue) de celle de la
protine modle. Il faut donc d'abord effectuer des alignements de squences.
Exemple de logiciel / interface Web qui renvoie un fichier au format PDB :
ESyPred3D.
Exemples d'autres programmes de modlisation structurale par homologie :
1. DeepView
2. Chimera
3. MolIDE



Figure ci-contre :
Procdure de "PyMod"
qui intgre divers types
de donnes et
d'analyses :
recherche dans
une base de
donnes de
similarits avec
la squence
requte
alignement
multiple de
squences
modlisation de
structures 3D
par homologie
avec le logiciel
Modeller.
Chaque "bloc de
procdure" est
indpendant des autres
: on peut donc, par
exemple, effectuer un
alignement multiple de
squences sans
recherche pralable
dans une base de
donnes.

Source : Bramucci et al. (2012)

4. Programmes d'alignement local
a. Prambule
Les mthodes de programmation dynamique permettent de calculer, sous un systme de
scores donn, l'alignement optimal, global ou local, entre deux squences en un temps
proportionnel au produit des longueurs des deux squences.
Appliques une banque de squences, le temps de calculs de ces mthodes augmente
linairement avec la taille de la banque.
On dfinit 2 caractristiques pour une mthode de comparaison de squences :
la sensibilit : c'est l'aptitude dtecter toutes les similarits considres comme
significatives et donc gnrer le minimum de faux-ngatifs.
la slectivit : c'est l'aptitude ne slectionner que des similarits considres comme
significatives et donc gnrer le minimum de faux-positifs.
Les programmes des familles Fasta et BLAST sont des heuristiques qui rduisent le facteur
temps en "sacrifiant" un peu de sensibilit. L'un et l'autre simplifient le problme :
en pr-slectionnant les squences de la banque susceptibles de prsenter une
similarit significative avec la squence requte
et en localisant les rgions potentiellement similaires dans les squences
Ces tapes slectives permettent :
de n'appliquer les mthodes de comparaison, coteuses en temps, qu' un sous-
ensemble des squences de la banque
et de restreindre le calcul de l'alignement optimal des parties des squences
Cette logique de recherche plus rapide dans son excution, comporte donc le risque d'liminer
des squences qui ont une similarit plus difficile dtecter ou d'aboutir des alignements
sub-optimaux.
La sensibilit et la slectivit se rfrent une notion de rsultat significatif ou non. Les
programmes mesurent une signification statistique des rsultats par rapport un modle
alatoire : un rsultat est considr comme significatif si la probabilit de l'obtenir par hasard
est trs faible.
Les systmes de score partent du postulat que les rsultats les plus significatifs du point de
vue statistique sont aussi les plus pertinents du point de vue biologique. Or ce n'est pas
toujours le cas car des rsultats biologiquement intressants peuvent tre non significatfs sur
un plan statistique.
En d'autres termes, la signification biologique d'une similarit entre des squences n'est pas
forcment estimable sur la seule valeur d'un score.
b. Programme FASTA - Pearson & Lipman (1988)
Le programme ne considre que les squences prsentant une rgion de forte similitude avec
la squence recherche. Il applique ensuite localement chacune de ces meilleures zones de
ressemblance un algorithme d'alignement optimal.
La codification numrique des squences, c'est--dire la dcomposition de la squence en
courts motifs (nomms uplets) transcods en entiers, confre l'algorithme l'essentiel de sa
rapidit.
Etape 1 (figure ci-contre)
Les rgions les plus denses en identits entre les deux squences sont recherches. Ces
rgions sont appels points chauds ou "hot spots".
C'est le paramtre "ktup" qui dtermine le nombre minimum de rsidus conscutifs
identiques. Gnralement : ktup = 2 pour les protines - ktup = 6 pour l'ADN.
Recherche des meilleures diagonales : plusieurs "hot spots" dans une mme rgion
gnre des diagonales de similarit sans insertion ni dltions. Ces diagonales sont les
rgions ayant le plus de similarit. Elles sont reprsentes par un graphique de points
ou "dotplot".
Lorsqu'une squence est compare une base de donnes, la premire tape est effectue pour
chaque squence prsente dans cette base de donnes.


Etape 2
Les dix meilleures diagonales sont rvalues l'aide d'une matrice de substitution et
les extrmits de ces diagonales sont coupes afin de conserver les rgions ayant les
plus hauts scores seulement. Cette recherche de similitude est faite sans insertions ni
dltions.
Le score le plus lev obtenu est appel le score "init1". Il est attribu la rgion ayant
le plus fort score parmi les 10 analyses.
Etape 3
Les diagonales trouves l'tape 1 dont le score dpasse un certain seuil ("cutoff"),
sont relies entre elles pour tendre la meilleure similarit.
Ces nouvelles rgions contiennent des insertions et/ou des dltions
Le score des nouvelles rgions est calcul en combinant le score des diagonales relies
diminu d'un score de pnalit de jonction des diagonales.
Le score le plus lev obtenu cette tape s'appelle le score "initn".
Cette tape permet d'liminer les segments peu probables parmi ceux dfinis l'tape
prcdente.
Etape 4 (figure ci-contre)
La rgion initiale qui a gnr le score"init1" est de nouveau value avec un
algorithme de programmation dynamique sur une fentre de rsidus dont la largeur est
dtermine par le paramtre "ktup". Le nouveau score est "opt".
Les squences de la base de donnes sont classes selon leurs scores "initn" ou "opt".
Les squences sont alignes avec la squence cible l'aide de l'algorithme de Smith &
Waterman : le score final est le score Smith & Waterman.



Interprtation des rsultats
La sortie de FASTA se dcompose en trois parties :
colonne 1 : chelle de valeurs
colonne 2 : nombre de squences dans la banque donnant un "z-score" = valeur
colonne 3 : nombre de squences dans la banque donnant une "E-value" = valeur
"init1" = "initn" = "opt" : 100% de similarit
"initn" > "init1" : plusieurs rgions de similarit relies par des gaps
"initn" > "opt" : pas de similarit
c. Les programmes BLAST (Basic Local Alignment Search Tool) - Altschul et al.
(1990)
Mthode heuristique qui utilise la mthode de Smith & Waterman.
C'est un programme qui effectue un alignement local entre deux squences nucliques
ou protiques.
La rapidit de BLAST permet la recherche des similarits entre une squence requte
et toutes les squences d'une base de donnes.
Voir une description de l'algorithme de BLAST

Les diffrents programmes BLAST
Acides nucliques
1. "MEGABLAST" est l'outil de choix pour identifier une squence.
2. "Standard nucleotide BLAST" est mieux adapt la recherche de squences
similaires mais pas identiques la squence requte.
3. L'option "Search for short and near exact matches" de "Nucleotide BLAST" est
adapt la recherche d'amorces ("primer") ou de courts motifs nuclotidiques.
Program Word Size
DUST
Filter
Setting
Expect Value
Standard blastn 11 On 10
Search for short and
near exact matches
7 Off 1000
Protines
1. Il n'y a pas d'quivalent de "MEGABLAST" pour les requtes protiques.
2. "Standard protein BLAST" est le mieux adapt la recherche de squences
protiques.
3. "PSI-BLAST (Position-Specific Iterated-BLAST)" est adapt la recherche de
similarit fine entre squences protiques. A utiliser quand une recherche BLAST a
chou ou renvoy des rsultats tels que : "hypothetical protein" or "similar to...".
4. "PHI-BLAST (Pattern-Hit Initiated-BLAST)" est adapt la recherche de
squences protiques qui contiennent un motif spcifi par l'utilisateur ET sont
similaires la squence requte dans le voisinage proche du motif.
5. "Search for short nearly exact matches" de "Protein BLAST" est adapt la
recherche de similarit dans le cas de courtes squences peptidiques. Les valeurs des
paramtres "Expect value cutoff" et "word size" sont modifis la matrice PAM30 (plus
stringente) remplace la matrice BLOSUM62. Une squence requte infrieure 5
acides amins est dconseille.
Program
Word
Size
SEG
Filter
Expect Value Score Matrix
Standard protein BLAST 3 On 10 BLOSUM62
Search for short and near
exact matches
2 Off 20000 PAM30
6. "Nucleotide query - Protein db [blastx]" est adapt pour trouver des squences
protiques similaires celles codes par une squence requte nuclotidique. Trs
utile pour l'analyse massive de squence d'EST ("Expressed Sequence Tags").
7. "Protein query - Translated db [tblastn]" est adapt pour trouver des rgions
codantes des protines homologues dans un ensemble de squences nuclotidique non-
annotes. Trs utile pour l'analyse de squence d'EST et de brouillons de gnomes
(HTG).
8. "Conserved Domain Database (CDD)": ce service utilise le programme "Reverse
Position Specific BLAST (RPS-BLAST)" pour identifier des domaines protiques
conservs en comparant la squence requte contre des bases d'alignements de
domaines conservs obtenues avec des matrices de scores de position spcifiques
"Position specific scoring matrices (PSSMs)". Les bases de donnes sont : "SMART",
"PFAM" et "LOAD" ("Library Of Ancient Domains").
9 "Conserved Domain Architecture Retrieval Tool (CDART)" permet d'examiner la
structure en domaine de toutes les protines de la base de donnes BLAST. Plus
sensible qu'une recherche BLAST classique car CDART est li au programme RPS-
BLAST ("Reverse Position-Specific BLAST") qui est lui-mme une "variation" du
programme "PSI-BLAST ".
10. "BLAST 2 Sequences" permet la comparaison de 2 squences requte. Ne
recquiert pas de format particiliers des squences. La squence entre en second est
considre comme la "base de donne" contre laquelle est effectue la comparaison.
First sequence
Second
Sequence
Program
Nucleotide Nucleotide
blastn or
tblastx
Nucleotide Protein blastx
Protein Nucleotide tblastn
Protein Protein blastp
11. Dernier "n" des programmes de la famille : DELTA-BLAST ("Domain Enhanced
Lookup Time Accelerated BLAST"). Une recherche rapide de type RPS-BLAST
permet de construire un profil PSSM ("Position Specific Scoring Matrix") puis de
rechercher ce PSSM dans une base de donnes BLAST. Les rsultats de DELTA-
BLAST peuvent servir de point de dpart pour une recherche de type PSI-BLAST.
Un nouveau programme : CS-BLAST ("context-specific BLAST"). Pour chaque acide
amin, CS-BLAST tient compte de l'influence de la squence en acides amins qui
l'entoure, sur la probabilit de mutation de l'acide amin en question. En 2 itrations de
recherche, CS-BLAST donne un rsultat plus sensible que 5 itrations avec PSI-Blast
("Position specific iterative BLAST").
Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs" Nucleic Acids Res. 25, 3389 - 3402
Biegert A. & Soding J.(2009) "Sequence context-specific profiles for homology searching"
(Proc Natl Acad Sci USA 106, 3770 - 3775)
Les programmes FASTA et BLAST suivants sont quivalents :
Comparaison de squence nuclique / banque nuclique : FASTA - BLASTN
Comparaison de squence protique / banque protique : FASTA - BLASTP
Comparaison de squence protique / banque nuclique (traduite dans les 6 phases) :
TFASTA - TBLASTN
Complment sur PHI-Blast
Choix des diffrentes bases de donnes de squences de protines
Bases de
donnes
Description
nr
Non-redundant GenBank CDS translations + PDB + SwissProt + PIR + PRF,
excluding those in env_nr.
refseq Protein sequences from NCBI Reference Sequence project.
swissprot
Last major release of the SWISS-PROT protein sequence database (no
incremental updates).
pat Proteins from the Patent division of GenBank.
month
All new or revised GenBank CDS translations + PDB + SwissProt + PIR +
PRF released in the last 30 days.
pdb
Sequences derived from the 3-dimensional structure records from the Protein
Data Bank.
env_nr Non-redundant CDS translations from env_nt entries.
Smart v4.0 663 PSSMs from Smart, no longer actively maintained.
Pfam v11.0 7255 PSSMs from Pfam, not the latest.
COG v1.00 4873 PSSMs from NCBI COG set.
KOG v1.00 4825 PSSMs from NCBI KOG set (eukaryotic COG equivalent).
CDD v2.05 11399 PSSMs from NCBI curated cd set.
Ce programme prend en entre une squence requte protique et un motif dfini par une
expression rgulire.
PHI-Blast est adapt la recherche de squences protiques qui contiennent un motif spcifi
par l'utilisateur (fentre "PHI pattern" de la section "Algorithm") ET sont similaires la
squence requte (fentre "Search") dans le voisinage proche du motif.
La syntaxe du motif doit suivre la syntaxe de PROSITE.
Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G
Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-
[KR](4)
Application :
Aller BLAST
dans la fentre du haut ("Enter accession number(s)") : entrer le numro d'accession
AAC05356
choisir PHI-BLAST et dans la fentre qui apparat, entrer le profil : DSD
(caratristique des protines LEA de la classe 4)
Complment sur PSI-Blast
PSI-Blast est adapt :
la recherche de similarit fine entre squences protiques
la dtection de membres loigns d'une famille protique
l'tude de la fonction de protines inconnues
PSI-Blast construit un profil partir de l'alignement multiple des squences qui ont obtenu les
meilleurs scores avec la squence requte. Ce profil est compar la banque interroge et est
affin au fur et mesure des itrations. Ainsi, la sensibilit du programme est augmente.
Un profil est un tableau des frquences observes des acides amins (ou nuclotides) chaque
position dans un alignement multiple.
Exemple (trs simple) d'alignement multiple de 2 squences de 4 acides amins :
DWKD
DWNG
Le profil de probabilits correspondant :
1 2 3 4
D 1.0 0.0 0.0 0.5
G 0.0 0.0 0.0 0.5
K 0.0 0.0 0.5 0.0
N 0.0 0.0 0.5 0.0
W 0.0 1.0 0.0 0.0
Ce qui ce signifie :
probabilit de trouver D en position 1 = 1.0 (un D en premire position de chaque
squence)
probabilit de trouver G en position 1 = 0.0 (aucun G en premire position)
etc ...
L'utilisation d'un profil permet une recherche beaucoup plus sensible de squences
homologues loignes que l'utilisation d'une squence seule car le profil contient de
l'information sur la variabilit des diffrentes positions parmi les protines connues. En
contrepartie un profil est moins spcifique qu'une simple squence seule.
Si on utilise PSI-Blast sur un sous ensemble particulier de squences, il est probable que l'on
ne trouve pas tous les homologues, surtout si leur squence est peu conserve par rapport la
squence requte. Pour amliorer la sensibilit de la dtection des homologues loignes ,
il est prfrable d'effectuer un alignement avec PSI-Blast sur une banque de squences plus
grande.
Mais la sensibilit est diminue si la banque de donnes est trop grande puisque la frquence
d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de
donnes. Or, pour un alignement de 2 squences, plus le score est petit, plus la probabilit que
ces 2 squences soient homologues est grande.
Il est donc prfrable de chercher d'abord dans une banque "nettoye" ("curated") comme la
base de donnes non-redondante ("nr") o toutes les squences identiques ont t limines
sauf un exemplaire. Si plusieurs squences sont dans cette banque, on peut calculer un profil
et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi
la sensibilit de la recherche d'homologues.
Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating PSI-
BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664
Profils et "Position Specific Scoring Matrice" (PSSM)
La construction de ces profils est base sur la frquence de chaque rsidu d'acide amin une
position spcifique d'un alignement multiple

Colonne 1 : frquence (A, 1) = 0/5 = 0 ; frquence (G, 1) = 5/5 = 1 ; ...
Colonne 2 : frquence (A, 2) = 0/5 = 0 ; frquence (H, 2) = 5/5 = 1 ; ...
...
Colonne 15 : frquence (A, 15) = 2/5 = 0,4 ; frquence (C, 15) = 1/5 = 0,2 ; ...
Certaines frquences sont gales 0 du fait du nombre de squence dans l'alignement
multiple. Une telle frquence pourrait entraner une "exclusion" de l'acide amin concern
cette position.
On contourne ce biais en ajoutant une "petite valeur" toutes les frquences observes. Cette
faible "frquence non-observe" s'appelle un "pseudo-count". En reprenant l'exemple
prcdent avec un "pseudo-count" de 1 :
Colonne 1 : f' (A, 1) = (0+1)/(5+20) = 0,04 ; f' (G, 1) = (5+1)/(5+20) = 0,24 ; ...
Colonne 2 : f' (A, 2) = (0+1)/(5+20) = 0,04 ; f' (H, 2) = (5+1)/(5+20) = 0,24 ; ...
...
Colonne 15 : f' (A, 15) = (2+1)/(5+20) = 0,12 ; f' (C, 15) = (1+1)/(5+20) = 0,08 ; ...
La frquence de chaque acide amin dtermine chaque position est compare la

frquence laquelle chaque acide amin est attendu dans une squence au hasard. On fait
l'hypothse que chaque acide amin est observ avec une frquence identique dans une
squence au hasard.
Le score est calcul partir du logarithme du rapport (frquences observes) / (frquences
attendues) : score
ij
= log (f'
ij
/ q
i
)
o :
score
ij
est le score pour le rsidu i la position j
f'
ij
est la frquence relative pour le rsidu i la position j, corrige par les "pseudo-
count"
q
i
est la frquence relative attendue pour le rsidu i dans une squence au hasard
Ci-contre : la matrice PSSM "Position Specific Scoring Matrice" complte calcule partir de
l'exemple prcdent

La matrice PSSM est ensuite applique la squence requte en utilisant une "fentre
glissante".
A chaque position, un score PSSM est ca lcul en sommant les scores de toutes les colonnes.
Le plus haut score est retenu



Source figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI-
BLAST" / SIB Course
Conclusion PSSM
Avantages Inconvnients
Bonne mthode pour de courtes
rgions conserves.
Approche statistique (base sur la
taille des banques) / interprtation des
rsultats sur la base d'une "e-value".
Insertions et dltions interdites avec
les matrices PSSm . Sinon, il faut
utiliser des "profils gnraliss".
Les squences correspondant de
longues regions ne peuvent tre
dcrites avec cette mthode.

A utiliser pour modliser de courtes rgions avec une forte variabilit mais de longueurs
constantes.
Outils :
"The MEME Suite" : Motif-based sequence analysis tools
Profils gnraliss : suite "Pftools"
"InterProScan" : outils de InterPro
Bases de donnes :
"Prosite" : Database of protein domains, families and functional sites
"PRINTS": PSSM database
"Pfam": protein domain database
"SMART ": protein domain database
"ProDom ": protein domain database
"InterPRO ": protein "signatures" database
Application PSI-Blast
1. Une recherche standard BLAST est effectue contre une base de donnes en utilisant une
matrice de substitution.
2. Une matrice PSSM est construite automatiquement partir d'un alignement multiple des
squences ayant le plus haut score ("hits") dans cette premire recherche BLAST.
positions trs conserves : scores levs
positions faiblement conserves : scores faibles
3. La matrice PSSM remplace la matrice initiale et on effectue une 2me recheche BLAST.
4. Les tapes 3 et 4 sont rptes et chaque fois, les squences nouvellement trouves sont
ajoutes afin de construire une nouvelle matrice PSSM.
5. On considre que le programme PSI-BLAST a converg quand aucune nouvelle squence
n'est ajoute.
5. Programme d'alignement multiple progressif : Clustal W
La complexit des algorithmes de programmation dynamique croit de faon exponentielle
avec le nombre de squences traiter, ce qui rend difficile leur utilisation pour plusieurs
squences.
Pour contourner ce problme, plusieurs heuristiques ont t proposes. Le programme
ClustalW utilise un algorithme d'alignement multiple progressif.
Etape 1
La similarit de chaque squence est value par rapport toutes les squences.
Un score de similitude est calcul pour chaque paire de squences selon un alignement
approximatif global rapide : seuls les fragments exactements apparis et les diagonales
avec un grand nombre d'appariements sont pris en compte.
On obtient ainsi une matrice de distances.
Etape 2
Un dendrogramme ("guide tree") est construit : il s'agit d'un arrangement traduisant les
relations globales de parent entre les squences. Cet arbre phylognique est construit
selon la mthode "Neighbour-Joining".
Il indique l'ordre partir duquel l'alignement multiple graduel sera tabli.
Etape 3
Le programme construit un premier alignement multiple (par programmation
dynamique ou par une mthode semblable celle de FASTA): les 2 squences les plus
similaires servent de base pour l'laboration de cet alignement multiple primaire.
On obtient une premire squence consensus qui est aligne avec la 3e squence la
plus similaire.
Toutes les squences (des plus proches aux plus distantes) sont ainsi progressivement
ajoutes par construction de consensus successifs jusqu' l'alignement multiple final.

(Source : La Base de Connaissances en Bio-informatique)
Le risque le plus important en ce qui concerne les alignements multiples progressifs est qu'un
alignement erron l'tape initiale engendre une erreur qui est amplifie dans l'alignement
multiple global.
Le programme ClustalW comporte des particularits qui minimisent ce risque :
le poids des squences est ajust
des matrices de substitution appropries sont utilises selon l'tape de l'alignement et
la divergence des squences
l'introduction de gap est favorise des endroits spcifiques


Application
Aller "Sequence Manipulation Suite".
Gnrer 10 squences ADN alatoires de 20 paires de
base.
Faire un copier-coller des 2 premires dans un diteur de
texte.
Item : "Random Sequences".
Choisir : "-Random DNA
Sequence"
Aller "Clustal W" - EBI et coller les 2
squences dans la fentre de soumission.
Lancer l'application. Quel est le rsultat et
pourquoi ?
"ERROR: Multiple sequences found with
same name, random (first 30 chars are
significant)"
Modifier le nom des squences dans l'diteur de
texte et coller les 2 squences dans la fentre de
soumission.
Modifier les paramtres des gap et le choix des
matrices. et relancer l'application.
Voir l'alignement : "Alignment file" -
Lien "clustalw - xxxxxxxxx.aln"
Voir le score :"Output file" - Lien :
"clustalw - xxxxxxxxxxx.output"
6. Interprtation des rsultats : E-value, P-value
La signification des alignements est un point capital. Elle repose sur des valeurs spcifiques
mais aussi et (peut-tre surtout ?) sur une inspection visuelle du rsultat par l'exprimentateur
et donc sur son expertise quant aux squences sur lesquelles il travaille.
Cette signification est value statistiquement en fonction de la longueur et de la composition
de la squence, de la taille de la banque et de la matrice de scores utilise.
"Sequences producing a significant alignment" : squences ayant un alignement significatif. A
chacune de ces squences sont attribus plusieurs valeurs spcifiques qui sont une indication
de la qualit de l'alignement.
"High-Scoring Segment Pairs" ou "HSP" : les couples de squences les plus longues dont les
scores ne peuvent tre amliors aprs extension d'un segment initial (Voir une description de
l'algorithme de BLAST).
a. "E-Value" pour un score S (E =Expected)

Pour des squences de longueurs m et n, la statistique d'un score HSP
est caractrise par 2 paramtres de la distribution des valeurs
extrmes produites par l'algorithme de Smith-Waterman :
K et
"E-Value" est le nombre d'alignements diffrents que l'on peut
esprer trouver dans les banques avec un score suprieur ou gal S.
C'est donc la probabilit d'observer au hasard ce score dans les
banques de squences considres.
E-Value = K.m.n. e
-S

(1)
"bit score S'" : ce score est driv du score brut S de l'alignement
aprs normalisation.
Il est utilis pour comparer des scores provenant de recherches
diffrentes :
S' = .S - Ln K / Ln 2
E-Value = m.n. 2
-S'


"E-Value" Interprtation
Plus la "E-Value" est faible, plus l'alignement est significatif.
Pour des squences requtes trs courtes, la "E-Value" est leve, mme pour les squences
dont l'alignement obtenu est significatif.
< 1 e
-100

La probabilit de trouver par hasard un alignement comme celui qui
est obtenu est infrieure 1 e
-100

--> appariement exact : mme squence, mme origine
1 e
-100
< E < 1 e
-50
squences quasiment identiques : allles, mutations, espces voisines
1 e
-50
< E < 0,1
une ventuel lien entre la squence requte et celles qui ont t
trouves
> 0,1
squences de l'alignement rejeter, sans lien avec la squences
requte

b. "P-Value" pour un score S
Le nombre d'HSP avec un score suprieur ou gal S et obtenus par hasard suit une
distribution selon la loi de Poisson.

La probabilit de ne trouver aucun HSP avec un score suprieur ou
gal S est :
E est la "E-Value" pour le score S calcule avec l'quation (1).
P = e
-E

Donc, la probabilit de trouver au moins 1 HSP avec un score
suprieur ou gal S est :
P-Value = 1 - e
-E

E P-Value
10 0,99995
5 0,993
trs faible valeurs de "E-Value" et de "P-Value" peu prs gales
BLAST renvoie la "E-Value" plutot que la "P-Value".
En effet, il est plus facile de comprendre la diffrence entre "E-Value" = 5
et "E-Value" = 10 qu'entre "P-Value" = 0.993 et 0.99995.
7. Liens Internet et rfrences bibliographiques
"Cours d'autoformation en bioinformatique" - Universit Paris 5 : Trs bien
fait et didactique. Avec exercices corrigs d'autovaluation.
Aller au site
"Sequence Manipulation Suite" : ensemble d'applications Java pour
manipuler les squences. Trs bien fait et didactique pour se familiariser
rapidement. Superbe
Aller au site
"An introduction to Bionformatics Algorithms" Aller au site
"The Statistics of Sequence Similarity Scores" - Altschul, S.F.
NCBI - Blast
Needleman, S.B. & Wunsch, C.D. (1970) "A general method applicable to the search for
similarities in the amino acid sequence of two proteins" J. Mol. Biol. 48, 443 - 453
Smith, T. & Waterman M. (1981) "Identification of common molecular subsequences" J.
Mol. Biol. 147, 195 - 197
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990)
"Basic local alignment search tool" J. Mol. Biol. 215, 403 - 410
BLAST
Article
Pearson, W.R. & Lipman, D.J. (1988) "Improved tools for biological
sequence comparison" Proc. Natl. Acad. Sci. USA 85, 2444 - 244
FASTA
Thompson, J.D., Higgins, D.G. & Gibson, T.J. (1994) "CLUSTAL W:
improving the sensitivity of progressive multiple sequence alignment through
sequence weighting, position-specific gap penalties and weight matrix
choice" Nucleic Acids Res. 22, 4673 - 4680
ClustalW
Article
Corpet, F. (1988) "Multiple sequence alignment with hierarchical clustering"
Nucleic Acids Res. 16, 10881 - 10890
Multalin
Sonnhammer et al. (1998) "Pfam: multiple sequence alignments and HMM-
profiles of protein domains" Nucleic Acids Res. 26, 320 - 322
PFAM
Article
Altschul S. F. et al. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs" Nucleic Acids Res. 25, 3389 - 3402
Naumoff D.G. & Carreras M. (2009) "PSI Protein Classifier: a new program automating
PSI-BLAST search results" Molecular Biology (Engl Transl) 43, 652 - 664
Edgar, R.C. (2004) "MUSCLE: multiple sequence alignment with high
accuracy and high throughput" Nucleic Acids Res. 32, 1792 - 1797
Biegert A. & Soding J. (2009) "Sequence context-specific profiles for
homology searching" Proc Natl Acad Sci USA 106, 3770 - 3775
Thompson et al. (2011) "A Comprehensive Benchmark Study of Multiple
Sequence Alignment Methods: Current Challenges and Future Perspectives"
PLoS ONE 6, e18093
Article
Article
Article
Eswaret et al. (2006) "Comparative protein structure modeling using
MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6
Bramucci et al. (2012) "PyMod: sequence similarity searches, multiple
sequence-structure alignments, and homology modeling within PyMOL"
BMC Bioinformatics 13, S2
Braberg et al. (2012) "SALIGN: a web server for alignment of multiple
protein sequences and structures" Bioinformatics 28, 2072 - 2073

Article
Article
CATH ("Class, Architecture, Topology and Homology")
SCOP ("Structural Classification Of Proteins")
CATH
SCOP












CHAPITRE V : La phylognie
Introduction
L'volution de la structure gnrale du gnome conduit des contraintes volutives
(composition en bases, vitesse d'volution, par exemple) qui s'exercent simultanment sur
tous ou un grand nombre de gnes indpendamment de la fonction particulire de chaque
gne. La phylognie tente de reconstituer les filiations volutives (arbres) aboutissant aux
squences tudies. Elle permet, partir de squences alignes, la suggestion d'un arbre
phylogntique qui tente de reconstruire l'histoire des divergences successives durant
l'volution, entre les diffrentes squences et leur anctre.
V-1- Quelques dfinitions
Horloge molculaire : http://www.univ-tours.fr/genet/gen13.html (GENET)
Distance volutive : nombre de substitutions au cours de lvolution entre squences.
Transition/transversion : http://anthropologie.unige.ch/evolution/transpos.html

V-2- Mthodes de reconstruction partir de squences
Ces mthodes comme cela vient dtre dit tente de suggrer un arbre phylogntique. Chaque
nud dun arbre est une estimation de lanctre des lments inclus. IL faut toujours garder
lesprit que lon obtient toujours seulement une estimation de larbre. Cela revient dire
quen pratique les arbres sont imparfaits et que leur prcision doit toujours tre
statistiquement tablie.
a) Principe de base de toutes les mthodes
On dispose dun ensemble de squences. Les diffrentes tapes sont :
1) Aligner proprement les squences
2) Appliquer des mthodes de gnration d'arbres
3) Evaluer statistiquement la robustesse des arbres.
V-3- Les diffrentes mthodes de gnration darbres
a) Mthode de parcimonie
Elle construit l'arbre le plus parcimonieux (le plus court), ayant le minimum de pas (de
substitutions, insertions, dltions pour les squences, ou de changements d'tats pour les
caractres discrets ). Autrement dit, l'arbre le meilleur est celui qui a besoin du minimum de
changements

b) Mthode de vraisemblance
Cette mthode s'applique quand le taux de changements est trs lev (d'o une approche
statistique). Les bases ou AA de toutes les squences chaque site sont considres
sparment et le log de la vraisemblance est calcul pour une topologie donne en utilisant un
modle de probabilit. Ce log de la vraisemblance est cumul sur tous les sites et la somme
est maximise pour estimer la longueur de branche de l'arbre. Cette procdure est rptes
pour toutes les topologies possibles et la topologie ayant la plus haute vraisemblance est
choisie.

c) Mthode des distances
Les distances volutives (voire dfinitions) sont 2 2 dfinies. Elles doivent tre
indpendantes et sont considres dans la mthode comme additives. Elles minimisent la
somme des carres des diffrences entre distances observes et calcules. On convertit donc
les donnes de squences en valeurs de distances arranges en matrice.
La topologie de l'arbre est construite par une mthode de classification (comme UPGMA ou
Neighbor joining (NJ)). La mthode donne une estimation de la distance pour chaque paire de
longueurs de branche dans le chemin d'une squence vers une autre.
* avantages : Facile gnrer. Calculs rapides. Bon rsultats pour des squences de forte
similitude..
* inconvnients : les squences ne sont pas considres en tant que telles. Les sites sont traits
de manire quivalentes. Pas applicable aux squences trs divergentes.
Les diffrentes distances volutives
Distance de Jukes et Cantor
Distance de Kimura
Distance de Poisson entre squences protiques

V-4- Fiabilit et robustesse des topologies
Comme cela a t dit, la prcision des arbres doit toujours tre statistiquement tablie. Pour
cela deux grandes mthodes sont utilises :
Bootstrap
Jacknife
Dans les deux cas, on value par chantillonnage au hasard des donnes alignes (avec
rptition), la robustesse des topologies. Une bonne vrification ncessite au moins 100
chantillonnages. On gnre donc partir d'un jeu de squences alignes, un ensemble
alatoire de N jeu de squences alignes. Des arbres sont calculs partir des diffrentes
mthodes et un arbre consensus est obtenu.
V-5- Les outils et programmes
a) Choix du programme
Il dpend :
1) de la nature des donnes
2) des suppositions biologiques et choix de l'algorithme
3) du type de rsultats attendus
b) Les logiciels
Alignement multiple des squences
ClustalW, MultiAlin,
Mthodes de gnration darbre
Mthode de parcimonie
protpars pour les protines
dnapars pour ADN/ARN
Mthode de vraisemblance
Dnaml pour ARN/ADN
fastDNAML plus rapide (et intgr dans le package phylo_win)
Mthode des distances
fitch Matrice de distances
(Dans FITCH les segments ne sont pas proportionnel au temps coul)
kitsch Matrice de distances
neighbor Neighbor-joining (NJ) et UPGMA
NJ est probablement la meilleure mthode et la plus simple utiliser :
prodist (ou nucdist), puis neighbor
Reprsentation graphique de larbre
Les programmes drawgram, drawplot (PHYLIP) , njplot (Mac, PC ou
Unix), treetool (Xwindow) ou growtree (GCG) permettent des reprsentations graphiques.
Evaluation de larbre
Seqboot
V-6- Les principaux packages en phylognie
GCG
La chane de programmes dans GCG est la suivante :
pileup (Alignement multiple) => distances (Construction arbre) => growtree
(Reprsentation graphique)
Le calcul des distances 2 2 entre les squences alignes par pileup peut tre fait selon
plusieurs mthodes :
1 Uncorrected distance
2 Jukes-Cantor distance
3 Kimura protein distance

CLUSTALW

Dans les diffrentes rubriques de ClustalW on trouve :
1. Multiple alignments qui permet daligner les squences
2. Phylogenetic trees
1. Draw tree qui permet la cration de larbre selon la
mthode de NJ
2. Bootstrap qui permet lvaluation de larbre
Larbre ainsi gnr pourra tre repris dans les logiciels ddition graphique darbre comme
Njplot.
Environnement PHYLIP
Ensemble de plus de 40 programmes concernant la phylognie molculaire
Documentation gnrale : http://www.infobiogen.fr/docs/PHYLIPdoc/
Alignement multiple : utiliser un logiciel comme clustalW, en utilisant loption de sortie des
fichiers au format Phylip.
Mthodes de construction darbres
Parcimonie : dnapars (dna), protpars (prot)
Distances : dnadist (Kimura ; ML ; JC), Protdist, fitch, kitsch, neighbor
Vraisemblance : dnaml
Evaluation de larbre : seqboot, consens

Des serveurs bien utiles
Avant la fin de ce cours, il est important de vous donner quelques liens vers des serveurs vous
permettant de devenir encore plus autonome pour analyser vos squences. Ces serveurs vous
permettent de retrouver la plupart des outils dcrits dans ce cours, vous proposeront des
moteurs de recherche si vous souhaitez des complments dinformations, ainsi que des liens
vers dautres serveurs proposant des services utiles en analyses de squences.
Serveur propos par Infobiogen : http://www.infobiogen.fr et en particulier le dambulum.
Serveur de lInstitut Pasteur : http://www.pasteur.fr.

Vous aimerez peut-être aussi