Académique Documents
Professionnel Documents
Culture Documents
Bioinformatique
Pr HAMIDECHI
La révolution extraordinaire que connaît la biologie moléculaire ces dernières années, est en
grande partie associée au développement spectaculaire de cette nouvelle discipline qui n’est autre
que la bioinformatique. Celle-ci, grâce à ses méthodes qui se basent essentiellement sur les
connaissances approfondies de la biologie moléculaire, des mathématiques et de l’informatique
(car interdisciplinaire), vient contribuer spectaculairement à l’avancement des connaissances
biologiques aussi bien au niveau génomique que protéomique.
-1-
et de les partager ; on parlera alors de banques de données biologiques, de
délocalisation des ressources.
C’est un tableau dans lequel on intègre des informations de manière logique et structurée
comme la liste d’un groupe d’étudiants :
Date de
N° Carte Nom Prénom filière
naissance
AAA1 NOM1 PRENOM1 DN1 Biotechnologie
AAA2 NOM2 PRENOM2 DN2 Ecologie
AAA3 NOM3 PRENOM3 DN3 Biotechnologie
… … … … …
AAA12 NOM12 PRENOM12 DN12 Microbiologie
AAA13 NOM13 PRENOM13 DN13 Ecologie
A partir de ce tableau on peut avoir une information sur le nombre des étudiants de
biotechnologie.
En bioinformatique, une base de données biologiques peut contenir des informations sur des
protéines, alors qu’une autre peut contenir des informations sur des gènes, des
-2-
plasmides, etc. Aujourd’hui, il existe une grande diversité de bases biologiques que vous pouvez
consulter sur le Net. Ces bases offrent des fiches descriptives de séquences nucléiques ou
protéiques (AND, ADNc, ARN, protéines) ; ces fiches sont appelées des entrées.
Il convient de dire qu’une banque de données est une base de données (car tableau structuré)
mais qui contient des informations biologiques hétérogènes (virus, bactéries, champignons,
végétaux, animaux) alors qu’une base de données est plus spécialisée (base spécifique à E. coli,
à Bacillus, etc.).
EMBL SwissProt
GenBank UniprotKBBBB
DDBJ
1. BD bibliographique Medline : (de l'anglais : Medical Literature Analysis and Retrieval System On
L'interface PubMed permet de consulter gratuitement la base de données à partir d'un navigateur World W
À la fin 2006, la base de données contenait plus de 17 millions d'articles référencés provenant d'environ 5 000
-3-
La base de données MEDLINE possède en avril 2007 plus de 15 millions de citations publiées
depuis 1950 dans environ 5000 revues biomédicales (revues en biologie et en médecine)
distinctes. Elle est la base de données de référence pour les sciences biomédicales.
La différence entre une base de données et une banque de données n’est pas liée à la
structure de la base (du tableau) mais à la nature du contenu même.
Une base de données biologiques concerne des données spécifiques à une discipline, une
maladie, une espèce vivante, une molécule, … elle est donc spécifique. On peut recenser
plus de 250 BD spécialisées.
Exemples :
-4-
Une banque de données biologique, est une base de données généralisée. On y trouve des informat
Il faut savoir qu’il existe des banques de données génomiques et des banques de données protéique
1. GenBank deNCBI(NationalCenterforBiotechnologyInformation) :
Créée par IntelliGenetics en 1982. jusqu’en octobre 2004 elle contenait 38 941 263 entrées (ou séquences
EMBL de EMBO (Europen Moleculary Biology Organization): . La banque EMBL contient 44 538 943
DDBJ : Dna Data Base of Japan : Créeé en 1986 et diffusée par NIG (National Institute of Genetics, Jap
PIR-NBRF : D’abord, elle fut créée par la NBRF (National Biomedical Researche Foundation) en
SwissProt : Créée par le biochimiste Amos BAIROCH en 1986 à l’Université de Genève. actuel
là Elle
w
contient plus de 320 000 séquences de protéines provenant de quelques
10 000 espèces différentes.
-5-
Autres bases et banques de données :
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref,
Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase,
CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE,
Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DGP, DictyDb,
Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene,
EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB,
-6-
GENATLAS, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP,
GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB,
HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB,
IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel,
MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol- R-Us,
MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB,
OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PKR, PMD, PPDB, PRESAGE,
PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE,
RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB,
STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL
Repository, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR,
VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ...
GenBank ( nih.gov/):
-7-
EMBL
http://www.ebi.ac.uk/
embl/
DDBJ
http://www.ddbj.nig.a
c.jp/searches-e.html
-8-
2. Interface des banques protéiques :
PIR-NBRF
SwissProt
Le résultat de l’interrogation des BD est une fiche descriptive de la molécule. On parlera alors
d’une entrée (ou fiche descriptive de la séquence recherchée). La structure d’une entrée est
resque la même quelque soit la p BD interrogée.
Travail Pratique 1: Par exemple réalisons le TP suivant sur Inter et pourn connaître la structure
primaire du gène de la phosphatase alcaline humaine, en interrogeant la BD EMBL.
-9-
Démarche :
2. Sur l’interface de celle-ci tapez le mot alkalin phosphatase (toujours en anglais svp)
puis cliquez sur le bouton Go:
- 10 -
Dans cette interface, EMBL propose les revues scientifiques qui ont été consultées afin de
répondre à notre requête.
On constate que " Nucletide Sequences " propose trois résultats et " Literature " en propose
19. Attention : ces chiffres peuvent changer du jour au lendemain !
4. Cliquez sur le bouton de " Nucletide Sequences " et vous aurez l’interface suivante :
- 11 -
La suite de cette page est :
- 12 -
Suite et fin :
Application individuelle 1:
Refaire le même travail sur l’enzyme TYROSINASE des végétaux. Cette enzyme est
responsable du noircissement à l'air des fruits et légumes.
Application individuelle 2:
Travail Pratique 2: Réalisons le TP suivant sur Internet pour connaître la structure primaire du
gène Lacz qui entre dans le processus de la régulation du métabolisme de la molécule de lactose
chez Escherichia coli.
- 13 -
Démarche :
2. Dans la colonne bleue à gauche, cliquez sur le lien de GenBank et vous obtiendrez la page
suivante :
- 14 -
Dans cette page, sélectionnez Nucleotide dans la rubrique Search, et tapez le nom du
gène (dans ce cas Lac Z) dans la rubrique ‘for’ et cliquez sur le bouton ‘Go’.
Vous aurez une page des résultats : cette page propose 12611 résultats !
- 15 -
Suite :
Suite et fin:
- 16 -
REMARQUE PERTINENTE : Vous pouvez refaire ces application en interrogeant des BD
protéiques (comme SwisProt par exemple) au lieu de EMBL et Genbank qui sont des BD
nucléiques.
Interprétez la fiche descriptive de cette entrée en utilisant l’interface de EMBL, puis celle de
GenBank.
- 17 -
Les systèmes pour l’interrogation des banques de données
Toutes les banques de données possèdent leurs systèmes (ou outils, ou logiciels)
d’interrogation. Les plus utilisés sont :
1. Le système SRS (Sequence retrievial System) : Cet outil a été créé en 1993 par Etzold et ar
Voir l’animation (
informatique/tut3.swf )
- 18 -
3. Le système Entrez : http://www.ncbi.nlm.nih.gov/sites/gquery
- 19 -
Travail pratique : sur Internet, allez au lien suivant :
http://www.loria.fr/~devignes/M1BIOINFO/BDBio-TP2-EntrezSRS-2006-Devignes.pdf
Suivez les étapes de ce TP afin de pouvoir comparer les deux systèmes SRS et Entrez. Tirez vos
conclusions.
Aide au TP : http://www.fil.univ-lille1.fr/~pupin/Enonces/tp_srs.html
Suite de l’entrée :
- 20 -
La partie gauche de l’entrée (encadré rouge) donne l’ensemble des codes qui ont les
significations suivantes :
Locus = Représente l’équivalent du nom de l’entrée avec les informations sur le code d’accès
de l’entrée (ici = BAA11310) et le nombre d’acides aminés de la molécule (ici = 68 aa).
VERSION = BAA11310.1
Les auteurs de ce travail n’ont pas encore versionné leur travail ; il est à sa 1ère version. Le
versionnement n’est pas obligatoire. Il dépend des résultats de recherches. Si les auteurs
s’aperçoivent qu’il y a des changements (dans la structure de la molécule par exemple), une
nouvelle version de leur travail sera hébergée dans cette banque de données.
TITLE = Titre de leur article. A cDNA encoding a Pharbitis nil chlorophyll a/b binding
protein
- 21 -
Exemple d’une fiche (entrée) consultée sur EMBL :
- 22 -
Exemple d’une fiche (entrée) consultée sur GenBank :
- 23 -
Concernant les base de données génomiques :
- 24 -
Concernant les bases de données protéiques :
- 25 -
4. Le système ACNUC : ACNUC fait partie des logiciels qui fonctionnent selon une
construction de fichiers index représentant des critères de sélection (mot-clé, auteurs,
espèces, revues, type de molécule...) et une organisation des fichiers permettant d'effectuer
des liens entre critères ainsi qu'un langage de requête basé sur les opérations logiques ET,
OU et NON. On peut ainsi répondre à une question de ce type : "je recherche dans l'EMBL
les séquences codants pour des protéines de levure ou de souris qui ne soient pas
mitochondriales et ayant une longueur supérieure à 500 paires de bases". Ce logiciel, très
répandu en France, est l'un des plus performants pour l'interrogation malgré le nombre
croissant de séquences dans les banques de données. Il est principalement utilisé pour les
grandes banques généralistes (EMBL, Genbank, PIR-NBRF). (http://www2b.ac-
lille.fr/biotechnologies/bio-informatique.htm)
Logiciel Description
SRS (Sequence
Permet une interrogation simple ou croisée sur plusieurs bases de
Retrieval
biologie moléculaire.
System).
Entrez (NCBI
Permet d’interroger des séquences moléculaires de MedLine,
WWW Entrez
GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB.
Browser).
Système d’interrogation des banques EMBL, GenBank, PIR,
ACNUC Hovergen (Homologous Vertebrate Genes Data Base), NRSub
(Bacillus subtilis), NRBact (Haemophylus et Mycoplasma)
- 26 -