Vous êtes sur la page 1sur 58

Rappels:

Les composantes de la bioinformatique

Bases de données
(Stockage des données)
Données biologiques
(Sequences ADN, ARN, proteins)

Outils de la bioinformatique
(Analyse des données)
Cours 3: Les bases de données
(Databases)
Qu’est ce qu’une bases de données?

Definition Base de données:


ensemble de données
structuré
indexé
périodiquement mise à jour
accessibles au moyen d’un logiciel

Elles comportent souvent des outils associés (logiciels) nécessaires pour :


l’accession à la Base ;
la mise à jour de la Base
Rôle des bases de données

• Collecter les informations

• Stocker et organiser les informations

• Distribuer les informations

• Faciliter l’exploitation des informations


Bases de données biologiques
• 1- Bases de données bibliographiques
• 2- Bases de données de séquences nucleiques ou protéiques
I- Bases de données bibliographiques

Exemple: PubMed
http://www.ncbi.nlm.nih.gov/
PubMed est une base de données
bibliographiques, développé par le National
Center for Biotechnology Information (NCBI)
de la National Library of Medicine,
centrée sur la documentation en sciences
biologiques.
II- Bases de données de séquences
nucleiques ou protéiques
Les génomes sont des textes de taille gigantesque, déchiffrés
par les méthodes de séquençage et d’assemblage qu’il faut
ensuite stocker pour les analyser, les classer, les comparer,
les réutiliser et finalement les comprendre.

Des informations pertinentes ont été extraites des travaux


déjà effectués : gènes, gènes d’une maladie, protéines,
motifs, métabolismes, etc.

Ces informations sont regroupés dans diverses bases de données


Les bases de données biologiques contiennet des
références croisées avec d’autres banques
Il existe  de nombreuses bases de données
biologiques :
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,

BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,

CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB,

CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO,

DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD,

EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline,

GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB,

HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,

HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb,

MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB,

Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL,

PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE,

PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP,

SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,

SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN,

tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep,

YEPD, YPD, YPM, etc ...

laquelle choisir ?
Principaux centres de
bioinformatique
National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute (EBI)
http://www.ncbi.nlm.nih.gov/ http://www.ebi.ac.uk/
Classification des bases de
données biologiques
Il existe essentiellement deux catégories de bases de données:

1- Bases de données généralistes: correspondent à une


collecte de données la plus exhaustive possible et offrent un
ensemble hétérogène d’informations.

• Bases de données généralistes nucléiques


• Bases de données généralistes protéiques

2- Base de données spécialisées : correspondent à des


données plus homogènes établies autour d’une thématique et qui
offrent une valeur ajoutée à partir d’une technique particulière
ou d’un intérêt suscité par un groupe d’individus.
1- Bases de données généralistes
Characteristiques:
• Très riches
– Grand nombre de séquences accessibles
– Grande diversité des organismes représentés
• Peu/pas de contrôles sur la qualité des entrées
– Les auteurs sont responsables des entrées!
=> Nombreux Problèmes/Erreurs
ACGT
• Qualité des informations non homogènes CTCTT GC
T
AA
GAG
GAG
• Redondance (la même sequence peux A CA C Labs
TA
TA
être representée plusieurs fois) SequencingGTGCC A CT
A
C CG

C
Centers A
TG

T GC CG
G
T

T
A

TGC
T
GA
ACAGCTA

ACGGC
A

G
AC

C
A
G

GA
A

A GTGC
TA TT TTGACA T

T
CGGAC A

CGTGA
C

T
A

G
AC
TAT AT

A
TA
TG

C
ATCTG
T C
TA AGTT AC

T
AT A TCGTAGC

GT
ATTATAGCCG
ATG

TA
CGACTATAGCCG
TATAGCCG
TATAGCCG T
TTAA A TT C
G

GA
GA
AT
GA
GAG AGA BD AA
GAG
GAG
TTCTTTT CTT
T C
A AATCA C ATCACTC
1- Bases de données généralistes
nucléiques
Les plus importantes bases
généralistes nucléiques

Base européenne : EMBL


(European Moleculary Biology)

International
Base américaine : GenBank repository for all
nucleotide
sequences
submitted by
researchers
Base japonnaise : DDBJ
DNA Data Bank of Japan
International Sequence
Database Collaboration

NIH
NCBI Soumissions
•Submissions
•Updates
GenBa Mises à jour
•Submissions
nk •Updates
EMBL
CIB
DDBJ EBI

NIG •Submissions
•Updates

EMBL
Ces trois bases de données échangent systématiquement leur contenu.
Elles contiennent tous les séquences d’ADN et et de protéines publiées
dans les journaux/periodiques scientifiques ou soumises par les
etablissements/centres de recherche publiques.
GenBank
http://www.ncbi.nlm.nih.gov/Genbank/
EMBL
http://www.ebi.ac.uk/embl/
DDBJ
http://www.ddbj.nig.ac.jp/
Numéro d’Accession

• Pour identifier les séquences, les differentes bases


de données leur assignent des Numéros
d’Accession (Accession Numbers) uniques.

• Ce numéro d’accession est permanent (ne change


jamais).
Exemples de Numéro
d’Accessions

Examples (all for retinol-binding protein, RBP4):


X02775 GenBank genomic DNA sequence
NT_030059 Genomic contig
Rs7079946 dbSNP (single nucleotide polymorphism) DNA
N91759.1 An expressed sequence tag (1 of 170)
NM_006744 RefSeq DNA sequence (from a transcript)
RNA
NP_007635 RefSeq protein
AAC02945 GenBank protein
Q28369 SwissProt protein protein
1KT7 Protein Data Bank structure record

Page 27
Organisation de l’information
- Chaque séquence (entrée) dans une base de données est sous forme de
fichiers texte: Fichier plat (Flat file).

- Chaque fichier contient 2 parties principales:


1. Des informations relatives à la séquence (annotation)
2. La séquence elle-même
Structure d’une entrée dans une Base de données

Identification de la séquence ID IL6_HUMAN STANDARD; PRT; 212 AA.


AC P05231;
Numéro unique d’accession DT 13-AUG-1987 (Rel. 05, Created)
DT 13-AUG-1987 (Rel. 05, Last sequence update)
(Accession Number - AC) DT 01-MAR-2002 (Rel. 41, Last annotation update)
DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2)
DE (Interferon beta-2) (Hybridoma growth factor).
GN IL6 OR IFNB2.
OS Homo sapiens (Human).
Données taxinomiques OC
OC
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
OX NCBI_TaxID=9606;
RN [1]
RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE.
RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan]

Références bibliographiques RA
RA
Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T.,
Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S.,
RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.;
RT "Complementary DNA for a novel human interleukin (BSF-2) that induces
RT B lymphocytes to produce immunoglobulin.";
RL Nature 324:73-76(1986).
CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL
CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION
Annotations CC
CC
OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND
PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN
CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS.
CC -!- SUBCELLULAR LOCATION: Secreted.
CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY.
DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
Références croisées avec DR
..
EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]

d’autres Bases de données DR


DR
PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB]
PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB]
...
DR Pfam; PF00489; IL6; 1.
Mots-clefs KW
KW
Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism;
3D-structure.
SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64;
Séquence MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI
LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL
EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ
Fin de l’entrée AQNQWLQDMT THLILRSFKE FLQSSLRALR QM
Format des séquences
La séquence est ecrite dans une format FASTA, qui est universelle pour
toutes les bases de donées et les logiciels pour l’analyse de séquences
ADN et proteines.

ence commence par > suivit par text (optionelle)


>uro1.seq
CGCAGAAAGAGGAGGCGCTTGCCTTCAGCTTGTGGGAAATCCCGAAGATGGCCAAAGACA
ACTCAACTGTTCGTTGCTTCCAGGGCCTGCTGATTTTTGGAAATGTGATTATTGGTTGTT
GCGGCATTGCCCTGACTGCGGAGTGCATCTTCTTTGTATCTGACCAACACAGCCTCTACC
CACTGCTTGAAGCCACCGACAACGATGACATCTATGGGGCTGCCTGGATCGGCATATTTG
TGGGCATCTGCCTCTTCTGCCTGTCTGTTCTAGGCATTGTAGGCATCATGAAGTCCAGCA
GGAAAATTCTTCTGGCGTATTTCATTCTGATGTTTATAGTATATGCCTTTGAAGTGGCAT
CTTGTATCACAGCAGCAACACAACAAGACTTTTTCACACCCAACCTCTTCCTGAAGCAGA
TGCTAGAGAGGTACCAAAACAACAGCCCTCCAAACAATGATGACCAGTGGAAAAACAATG
GAGTCACCAAAACCTGGGACAGGCTCATGCTCCAGGACAATTGCTGTGGCGTAAATGGTC
CATCAGACTGGCAAAAATACACATCTGCCTTCCGGACTGAGAATAATGATGCTGACTATC
CCTGGCCTCGTCAATGCTGTGTTATGAACAATCTTAAAGAACCTCTCAACCTGGAGGCTT
LOCUS
DEFINITION
AY182241 1931 bp mRNA linear PLN 04-MAY-2004
Malus x domestica (E,E)-alpha-farnesene synthase (AFS1) mRNA,
complete cds.
Structure d’une entrée
dans Genbank et EMBL
ACCESSION AY182241
VERSION AY182241.2 GI:32265057
KEYWORDS .
SOURCE Malus x domestica (cultivated apple)
ORGANISM Malus x domestica

• Flat file (fichier plat)


Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
rosids; eurosids I; Rosales; Rosaceae; Maloideae; Malus.
REFERENCE 1 (bases 1 to 1931)
AUTHORS Pechous,S.W. and Whitaker,B.D.
TITLE Cloning and functional expression of an (E,E)-alpha-farnesene
synthase cDNA from peel tissue of apple fruit Header
JOURNAL Planta 219, 84-94 (2004)
REFERENCE 2 (bases 1 to 1931)
AUTHORS Pechous,S.W. and Whitaker,B.D.
TITLE Direct Submission
JOURNAL Submitted (18-NOV-2002) PSI-Produce Quality and Safety Lab,
USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD
20705, USA
REFERENCE 3 (bases 1 to 1931)
AUTHORS Pechous,S.W. and Whitaker,B.D.
TITLE Direct Submission - Chaque entrée est composée de plusieurs champs.
JOURNAL Submitted (25-JUN-2003) PSI-Produce Quality and Safety Lab,
USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD

REMARK
20705, USA
Sequence update by submitter
- Chaque champ est divisé en lignes qui commencent par
COMMENT On Jun 26, 2003 this sequence version replaced gi:27804758. une étiquette (code à deux caractères dans le cas de EMBL)
FEATURES Location/Qualifiers
source 1..1931 indiquant le type d’information contenue dans la ligne.
/organism="Malus x domestica"
/mol_type="mRNA"
/cultivar="'Law Rome'"
/db_xref="taxon:3750"
– le symbole // indique la fin de l’entrée.
/tissue_type="peel"
gene 1..1931

CDS
/gene="AFS1"
54..1784
/gene="AFS1"
Feature Table
/note="terpene synthase"
/codon_start=1
/product="(E,E)-alpha-farnesene synthase"
/protein_id="AAO22848.2"
/db_xref="GI:32265058"
/translation="MEFRVHLQADNEQKIFQNQMKPEPEASYLINQRRSANYKPNIWK
NDFLDQSLISKYDGDEYRKLSEKLIEEVKIYISAETMDLVAKLELIDSVRKLGLANLF
EKEIKEALDSIAAIESDNLGTRDDLYGTALHFKILRQHGYKVSQDIFGRFMDEKGTLE
DFLHKNEDLLYNISLIVRLNNDLGTSAAEQERGDSPSSIVCYMREVNASEETARKNIK
GMIDNAWKKVNGKCFTTNQVPFLSSFMNNATNMARVAHSLYKDGDGFGDQEKGPRTHI
LSLLFQPLVN"
ORIGIN
1 ttcttgtatc ccaaacatct cgagcttctt gtacaccaaa ttaggtattc actatggaat
61 tcagagttca cttgcaagct gataatgagc agaaaatttt tcaaaaccag atgaaacccg
121 aacctgaagc ctcttacttg attaatcaaa gacggtctgc aaattacaag ccaaatattt
181 ggaagaacga tttcctagat caatctctta tcagcaaata cgatggagat gagtatcgga Sequence
241 agctgtctga gaagttaata gaagaagtta agatttatat atctgctgaa acaatggatt
//
Structure d’une entrée dans EMBL
Étiquettes
ID identificateur de l’entrée contenant la séquence
– Nom de l’entrée
– Classe de la donnée
– Molécule (DNA, RNA, RNAm, XXX)
– Division
– Longueur de la séquence en pb
XX Ligne vide pour clarification de la lecture
AC numéro d’accession de l’entrée
PR numéro de projet
SV version de la séquence
DT date d’incorporation dans labase et la
date de la dernière mise à jour
DE information descriptives de la séquence
KW mots clés
OS organisme d’ou provient la sequence
OC taxonomie
RN numéro de la référence
RC commentaires sur la référence (facultatif)
RP région de la séquence
RX lien (URL) vers les bases bibliographiques
accessibles par le réseau (ex.
Medline, PubMed) (facultatif)
RA auteurs de la publication
RT titre de la publication
RL reference : journal, volume, pages, année ;
unpublished
DR liaison avec d’autres Bases de données
FH, FT caractéristiques d’une entrée (Features)
// SQ séquence
Structure d’une entrée dans GenBank

- Les informations et leur format sont très similaires à celles


de la Base EMBL
- Les étiquettes ne sont pas des abréviations, mais un
nom complet, directement explicite
2- Les bases de données
généralistes protéiques
EXPASY
http://www.expasy.ch/
UniProt
http://pir.georgetown.edu/
La recherche d'informations dans une
base de données

Les base de données comportent des outils associés (logiciels) nécessaires pour
l’accession à la banque
Moteurs de recherche des bases de données
Chaque base de séquences possède son propre système
d’interrogation. Par exemple:
ENTREZ: pour interroger les bases de données NCBI
SRS: pour interroger les bases de données EBI

Entrez
NIH
NCBI
•Submissions
•Updates
GenBa •Submissions
nk •Updates
EMBL
DDBJ EBI
CIB

NIG •Submissions
•Updates SRS
getentry EMBL
The Entrez System
• Un systeme de recherche qui couvre 31 base de données croisées
• Un outil pour chercher ces bases de données en utilisant des termes (mots, textes, etc..)

Gene UniGene
CancerChromosomes UniST
S
Homologen
e SNP

Genome Nucleotide PopSet

Books GEO

PubMed Entrez Taxonomy GENSAT


MeSH

OMIM
Protein PubChem
PMC

Journal Structur
s Domains 3D Domains
e
The Entrez system
Moteur de recherche des Bases de données au NCBI
http://www.ncbi.nlm.nih.gov/Entrez
Global NCBI (Entrez) Search

colon
coloncancer
cancer
Global Entrez Search Results
OMIM: Human Disease Genes
(Online Mendelian Inheritance in Man)
banque sur les maladies génétiques humaines

Conserved Domain
By applying limits, there are now just two entries
Introduction à la logique booléenne

Il existe trois opérateurs booléens:

"AND"

"OR"

"NOT"
Opérateurs booléens d'interrogation des
bases de données

  AND: A and B

A B

signifie que l'on souhaite consulter les réponses où apparaissent


simultanément les 2 termes recherchés.
Opérateurs booléens d'interrogation des
bases de données

OR: A OR B

A B

signifie que l'on souhaite consulter les réponses où apparaissent


au moins l'un des termes recherché.
Opérateurs booléens d'interrogation des
bases de données

 
NOT: A NOT B

A B

signifie que l'on souhaite avoir toutes les réponses où figure le


terme "Terme A" sans qu'apparaissent les réponses où figure le
terme "Terme B".
2- Base de données spécialisées
Characteristiques:
• Specifique a un organism
• Specifique sur des domaines de proteins
• Biochemical & Regulatory Pathways
• Gene Expression
• Genetic Variation
• Protein-Protein Interactions
Base consacrées aux organisms
ENSEMBL
http://www.ensembl.org/index.html
Regroupe toutes les informations disponibles pour un organisme
donné (18 actuellement).
Base consacrée uniquement sur
escherichia coli
ECOCYC
http://ecocyc.org/
Base spécialisées dans les domaines de proteins
INTERPRO
http://www.ebi.ac.uk/interpro/
Base de données dédiée au métabolisme
KEGG
http://www.genome.jp/kegg/
Exemple de voies metaboliques dans KEGG
Bases des données sur les
genomes
Bases des données sur les
genomes
Des Bases des données et encore des
Bases des données
Les plus importantes Bases de
données biologiques
Sujet Source
Bibliographie PubM
Séquences nucléiques Genbank (NCBI), EMBL (EBI)
Séquences protéiques Swiss-prot, Genpep, PIR
Structures protéiques Protein Data Base (PDB)
Voies métaboliques KEGG, PathDB, WIT
Information biochimique et biophysique ENZYME, BIND

Vous aimerez peut-être aussi