Académique Documents
Professionnel Documents
Culture Documents
Cours Bases de Donnes 04 Bio Info
Cours Bases de Donnes 04 Bio Info
Bases de données
(Stockage des données)
Données biologiques
(Sequences ADN, ARN, proteins)
Outils de la bioinformatique
(Analyse des données)
Cours 3: Les bases de données
(Databases)
Qu’est ce qu’une bases de données?
Exemple: PubMed
http://www.ncbi.nlm.nih.gov/
PubMed est une base de données
bibliographiques, développé par le National
Center for Biotechnology Information (NCBI)
de la National Library of Medicine,
centrée sur la documentation en sciences
biologiques.
II- Bases de données de séquences
nucleiques ou protéiques
Les génomes sont des textes de taille gigantesque, déchiffrés
par les méthodes de séquençage et d’assemblage qu’il faut
ensuite stocker pour les analyser, les classer, les comparer,
les réutiliser et finalement les comprendre.
CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB,
CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO,
DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD,
EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline,
GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB,
HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,
HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb,
MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB,
Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL,
PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE,
PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP,
SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,
tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep,
laquelle choisir ?
Principaux centres de
bioinformatique
National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute (EBI)
http://www.ncbi.nlm.nih.gov/ http://www.ebi.ac.uk/
Classification des bases de
données biologiques
Il existe essentiellement deux catégories de bases de données:
C
Centers A
TG
T GC CG
G
T
T
A
TGC
T
GA
ACAGCTA
ACGGC
A
G
AC
C
A
G
GA
A
A GTGC
TA TT TTGACA T
T
CGGAC A
CGTGA
C
T
A
G
AC
TAT AT
A
TA
TG
C
ATCTG
T C
TA AGTT AC
T
AT A TCGTAGC
GT
ATTATAGCCG
ATG
TA
CGACTATAGCCG
TATAGCCG
TATAGCCG T
TTAA A TT C
G
GA
GA
AT
GA
GAG AGA BD AA
GAG
GAG
TTCTTTT CTT
T C
A AATCA C ATCACTC
1- Bases de données généralistes
nucléiques
Les plus importantes bases
généralistes nucléiques
International
Base américaine : GenBank repository for all
nucleotide
sequences
submitted by
researchers
Base japonnaise : DDBJ
DNA Data Bank of Japan
International Sequence
Database Collaboration
NIH
NCBI Soumissions
•Submissions
•Updates
GenBa Mises à jour
•Submissions
nk •Updates
EMBL
CIB
DDBJ EBI
NIG •Submissions
•Updates
EMBL
Ces trois bases de données échangent systématiquement leur contenu.
Elles contiennent tous les séquences d’ADN et et de protéines publiées
dans les journaux/periodiques scientifiques ou soumises par les
etablissements/centres de recherche publiques.
GenBank
http://www.ncbi.nlm.nih.gov/Genbank/
EMBL
http://www.ebi.ac.uk/embl/
DDBJ
http://www.ddbj.nig.ac.jp/
Numéro d’Accession
Page 27
Organisation de l’information
- Chaque séquence (entrée) dans une base de données est sous forme de
fichiers texte: Fichier plat (Flat file).
Références bibliographiques RA
RA
Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T.,
Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S.,
RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.;
RT "Complementary DNA for a novel human interleukin (BSF-2) that induces
RT B lymphocytes to produce immunoglobulin.";
RL Nature 324:73-76(1986).
CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL
CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION
Annotations CC
CC
OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND
PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN
CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS.
CC -!- SUBCELLULAR LOCATION: Secreted.
CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY.
DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
Références croisées avec DR
..
EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
REMARK
20705, USA
Sequence update by submitter
- Chaque champ est divisé en lignes qui commencent par
COMMENT On Jun 26, 2003 this sequence version replaced gi:27804758. une étiquette (code à deux caractères dans le cas de EMBL)
FEATURES Location/Qualifiers
source 1..1931 indiquant le type d’information contenue dans la ligne.
/organism="Malus x domestica"
/mol_type="mRNA"
/cultivar="'Law Rome'"
/db_xref="taxon:3750"
– le symbole // indique la fin de l’entrée.
/tissue_type="peel"
gene 1..1931
CDS
/gene="AFS1"
54..1784
/gene="AFS1"
Feature Table
/note="terpene synthase"
/codon_start=1
/product="(E,E)-alpha-farnesene synthase"
/protein_id="AAO22848.2"
/db_xref="GI:32265058"
/translation="MEFRVHLQADNEQKIFQNQMKPEPEASYLINQRRSANYKPNIWK
NDFLDQSLISKYDGDEYRKLSEKLIEEVKIYISAETMDLVAKLELIDSVRKLGLANLF
EKEIKEALDSIAAIESDNLGTRDDLYGTALHFKILRQHGYKVSQDIFGRFMDEKGTLE
DFLHKNEDLLYNISLIVRLNNDLGTSAAEQERGDSPSSIVCYMREVNASEETARKNIK
GMIDNAWKKVNGKCFTTNQVPFLSSFMNNATNMARVAHSLYKDGDGFGDQEKGPRTHI
LSLLFQPLVN"
ORIGIN
1 ttcttgtatc ccaaacatct cgagcttctt gtacaccaaa ttaggtattc actatggaat
61 tcagagttca cttgcaagct gataatgagc agaaaatttt tcaaaaccag atgaaacccg
121 aacctgaagc ctcttacttg attaatcaaa gacggtctgc aaattacaag ccaaatattt
181 ggaagaacga tttcctagat caatctctta tcagcaaata cgatggagat gagtatcgga Sequence
241 agctgtctga gaagttaata gaagaagtta agatttatat atctgctgaa acaatggatt
//
Structure d’une entrée dans EMBL
Étiquettes
ID identificateur de l’entrée contenant la séquence
– Nom de l’entrée
– Classe de la donnée
– Molécule (DNA, RNA, RNAm, XXX)
– Division
– Longueur de la séquence en pb
XX Ligne vide pour clarification de la lecture
AC numéro d’accession de l’entrée
PR numéro de projet
SV version de la séquence
DT date d’incorporation dans labase et la
date de la dernière mise à jour
DE information descriptives de la séquence
KW mots clés
OS organisme d’ou provient la sequence
OC taxonomie
RN numéro de la référence
RC commentaires sur la référence (facultatif)
RP région de la séquence
RX lien (URL) vers les bases bibliographiques
accessibles par le réseau (ex.
Medline, PubMed) (facultatif)
RA auteurs de la publication
RT titre de la publication
RL reference : journal, volume, pages, année ;
unpublished
DR liaison avec d’autres Bases de données
FH, FT caractéristiques d’une entrée (Features)
// SQ séquence
Structure d’une entrée dans GenBank
Les base de données comportent des outils associés (logiciels) nécessaires pour
l’accession à la banque
Moteurs de recherche des bases de données
Chaque base de séquences possède son propre système
d’interrogation. Par exemple:
ENTREZ: pour interroger les bases de données NCBI
SRS: pour interroger les bases de données EBI
Entrez
NIH
NCBI
•Submissions
•Updates
GenBa •Submissions
nk •Updates
EMBL
DDBJ EBI
CIB
NIG •Submissions
•Updates SRS
getentry EMBL
The Entrez System
• Un systeme de recherche qui couvre 31 base de données croisées
• Un outil pour chercher ces bases de données en utilisant des termes (mots, textes, etc..)
Gene UniGene
CancerChromosomes UniST
S
Homologen
e SNP
Books GEO
OMIM
Protein PubChem
PMC
Journal Structur
s Domains 3D Domains
e
The Entrez system
Moteur de recherche des Bases de données au NCBI
http://www.ncbi.nlm.nih.gov/Entrez
Global NCBI (Entrez) Search
colon
coloncancer
cancer
Global Entrez Search Results
OMIM: Human Disease Genes
(Online Mendelian Inheritance in Man)
banque sur les maladies génétiques humaines
Conserved Domain
By applying limits, there are now just two entries
Introduction à la logique booléenne
"AND"
"OR"
"NOT"
Opérateurs booléens d'interrogation des
bases de données
AND: A and B
A B
OR: A OR B
A B
NOT: A NOT B
A B