Vous êtes sur la page 1sur 19

UNIVERSITE DE CARTHAGE Rôle des bases de données

FACULTE DES SCIENCES DE BIZERTE


Département Sciences de la Vie
Bioinforma)que 1. Collecter les informations: 2. Stocker et organiser les
• Dans la littérature données:
Master Biologie des Organismes, des • Auprès des biologistes • Dans une logique cohérente
Populations & Environnement • Dans les autres bases de données (outils informatiques)
Cours 2:
3. Distribuer l’information: 4. Faciliter l’exploitation
Les bases de données en Biologie • Distribuer des données des données:
Dr Lilia Romdhane, HDR
contrôlées • Interfaces conviviales
• Assurer une large diffusion • Définition des critères de
lilia.romdhane@pasteur.utm.tn
recherche
• Recherche, comparaison
Dr Lilia ROMDHANE
2022- 2023
1 lilia.romdhane@yahoo.fr de données 3
lilia.romdhane@yahoo.fr
Base de données: Définition Utilisation des bases de données
• Base de données = stock d’informations organisé et structuré de
manière à pouvoir être facilement manipulé, destiné à stocker
efficacement de très grandes quantités d’informations
• Ensemble d’informations structuré oInterrogation directe par mots-clés: chercher un gène et les
• Consiste en unités de base appelés « entrées » informations relatives, récupération d’une séquence biologique,
• Chaque entrée consiste de champs, qui contiennent des données d’une structure 3D d’une protéine
relatives à l’entrée oUtilisation de logiciels:
• Par exemple, une base de données de séquences protéiques: nComparaison des données: recherche de séquences
• entrée: une protéine homologues (BLAST),
• champs: des propriétés protéiques, Nom de la protéine, la taille, la nVisualisation des données: Genome Browser (EnsEMBL, UCSC),
séquence protéique Mutation Viewer (NCBI)
• En biologie: un grand nombre de bases de données suite au nFouille de données: BIOMART (EnsEMBL), API (Application
séquençage de nombreux génomes Programming Interface): EDirect (NCBI)
• Selon le types de données: 2 types:
• Banques de données = bases de données généralistes
• Bases de données spécialisées
lilia.romdhane@yahoo.fr 2 lilia.romdhane@yahoo.fr 4
Exemples de bases de données
biomoléculaires Types de bases de données
• Séquence et structure des macromolécules:
• Séquences protéiques (Uniprot) 1. Bases de données primaires: 2. Bases de données Secondaires:
• Séquences nucléotidiques (EMBL, GenBank, DDBJ) •Soumissions originales par les • Données dérivent des données primaires
• Strucutres tridimensionnelles des protéines (PDB) expérimentalistes • Contenu contrôlé par une « tierce
• Motifs structurels (CATH) •Contenu contrôlé par la personne partie » (NCBI)
• Motifs dans les séquences (PROSITE) qui soumet la séquence • Exemples: NCBI Protein, RefSeq, TPA,
• Génomes: •Exemple: GenBank, EMBL HomoloGene, Conserved Domain
• Bases de données génériques (Ensembl, UCSC, NCBI genome, …)
• Base de données spécificques d’un organisme (SGD, FlyBase, PlasmoDB, ..)
• Fonctions moléculaires:
• Fonctions enzymatiques, catalyses (Expasy, LIGAND/KEGG, …)
• Régulation transcriptionnelle (JASPAR, TRANSFAC, RegulonDB, …)
• Processus biologiques:
• Voies métaboliques (MetaCyc, KEGG pathways, Biocatalysis/biodegradation)
• Interactions protéine-protéines (BIND, MINT, STRING, …)
lilia.romdhane@yahoo.fr 5
Les banques de données généralistes,
Nucleic Acids Researchs définitions
• On appelle banques généralistes, ou banques primaires, les ressources qui
collèctent, gèrent, archivent et mettent à disposition de la communauté
scientifique un ensemble de données primaires, c’est à dire obtenues
expérimentalement.
• Classiquement, on considère comme banques primaires les banques
généralistes de séquences nucléiques et protéiques, bien que la plupart des
séquences protéiques ne soient pas obtenues expérimentalement, mais à
partir des données de séquences nucléiques, ainsi que les banques qui gèrent
les structures tridimentionnelles des protéines.
• Ces banques contiennent des données hétérogènes
• Collecte la plus exhaustive possible
• Banques de séquences nucléiques
• Banques de séquences protéiques
• Banques de structure 3D de macromolécules
• Avantage : tout est consultable en une fois
lilia.romdhane@yahoo.fr 6
• Inconvénients : difficiles à maintenir, difficiles à interroger 8
Les banques de séquences nucléiques Banques nucléiques, le partage des
• Trois banques : données
• Représentation de l’information dans les sequences:
• EMBL (European Molecular Biology Laboratory), créée en 1982
• A,T,G, C et N pour les erreurs de séquençage (http://www.ebi.ac.uk/ena/about/about )
• Origine des données : • GenBank (banque des Etats-Unis d’Amérique), créée en 1982
• Séquençage d’ADN et d’ARN (http://www.ncbi.nlm.nih.gov/genbank/)
• Les données stockées : séquences + annotations • DDBJ (DNA Databank of Japon), créée en 1986:
• Fragments de génomes (http://www.ddbj.nig.ac.jp/ )
• Un ou plusieurs gènes, un bout de gène, séquence intergénique, … • Echange quobdien des données entre ces banques depuis 1987:
• Génomes complets InternaHonal NucleoHde Sequence Database collaboraHon
• ARNm, ARNt, ARNr, … (fragments ou entiers) (hdp://www.insdc.org/ )
• [ Note 1] : toutes les séquences (ADN ou ARN) sont écrites avec des T • Réparbbon de la collecte des données
• [ Note 2] : les séquences sont toujours orientées 5’ vers 3’. • Chaque banque collecte les données de son conbnent
• Même format de données pour la parbe « Feature »
lilia.romdhane@yahoo.fr 9
• Formats différents pour le reste de l’entrée
lilia.romdhane@yahoo.fr 11
Développement du séquençage de l’ADN Global Bioinformatics Agencies
• 1977 : F. Sanger met au point la méthode de Sanger pour établir le séquençage de
l’ADN.
• 1980 : Création de la banque EMBL
• 1984 : Développement de la réaction de polymérisation en chaîne (PCR) par Mullis. DNA
Data
• 1987 : Réalisation et commercialisation du 1er séquenceur automatisé par la société Bank of International
Applied Biosystems (Californie). Japan Nucleotide
Sequence
Banques nucléiques, les débuts Database
• Apparition dans les années 1980 Collaboration
• Toutes les séquences déterminées sont publiées dans un article
• Les banques guettent les articles et en extraient les séquences
• Croissance du nombre de séquences :
• Pas de publication systématique pour une séquence European
Molecular National Centre
• Beaucoup de données à collecter
Biology for
• Les séquences et leurs annotations sont soumises aux banques par les laboratoires Laboratory Biotechnology
qui ont fait le séquençage Information
lilia.romdhane@yahoo.fr 10 lilia.romdhane@yahoo.fr 12
Banques nucléiques, dernière version Banques nucléiques, inconvénients
• EMBL, version du 24 mars 2014
• Difficulté de mise à jour des données
• 373 millions séquences, 790
billions bp • Version plus récente d’une séquence ou d’une annotation dans
• GenBank, version 200 du 14 d’autres banques (ex : banques dédiées à un génome complet)
février 2014 • Forte redondance
• 172 millions séquences,
• Un même fragment de séquence présent dans plusieurs entrées:
157943793171 bp
Duplications ? Polymorphismes ?
• DDBJ , version de décembre
2013 • Annotations peu normalisées
• 179 millions séquences, • Difficulté de recherche d’une information précise
156,527,217,715 bp
• Annotations peu précises
• Peu de descriptions sur les gènes et leur produit
• Erreurs dans les annotations
lilia.romdhane@yahoo.fr 13 lilia.romdhane@yahoo.fr 15
Les banques de séquences protéiques
A l’ère du Next GeneraIon Sequencing (NGS)
• Le coût du séquençage diminue de façon • Origine des données
exponentielle, et le nombre de séquences
• Traduction de séquences d’ADN
augmente de façon exponentielle
• Jusqu’en 2007, cet effet était compensé par • Séquençage de protéines
la décroissance exponentielle du coût des • Rare car long et coûteux
ordinateurs (stockage des données, calculs) • Protéines dont la structure 3D est connue
• En 2007, plusieurs compagnies ont inventé
des nouvelles techniques de séquençage • Les données stockées : séquences + annotations
qui ont réduit les coûts et accéléré la • Protéines entières
production de séquences
• Fragments de protéines
• Le coût du séquençage décroit de façon
beaucoup plus rapide que celui du
stockage, ce qui crée des problèmes de
gestion des données. Sboner et al. The real cost of sequencing: higher than you think!. Genome Biol (2011) vol. 12 (8)
pp. 125
lilia.romdhane@yahoo.fr 14 lilia.romdhane@yahoo.fr 16
Banques de séquences protéiques, les SwissProt/TrEMBL, croissance
débuts
• 1965 : Atlas of Protein Sequences, Margaret Dayhoff
• 50 entrées
• Version papier jusqu’en 78, puis version électronique
• 1984 : création de PIR-NBRF (Protein Information Resource - National
Biomedical Research Foundation)
• 1986 : création de SwissProt
• Collaboration entre SIB (Swiss Institute of Bioinformatics ) et EBI
• Fin 2003 : création de UniProt (Universal Protein Resource) :
(http://www.uniprot.org/ )
• Mise en commun des informations de PIR et SwissProt/TrEMBL
• « entrepôt » central de séquences et fonctions protéiques
• Accès unifié à l’ensemble des informations des 3 banques primaires
lilia.romdhane@yahoo.fr 17 lilia.romdhane@yahoo.fr 19
• SwissProt
SwissProt UniProt (http://www.uniprot.org )
• Données corrigées et validées par des experts
• Haut niveau d’annotation
• Description de la fonction (références associées)
• Localisation des domaines fonctionnels
• Modifications post-traductionnelles
• Existence de variants, …
• Redondance minimale
• Nombreux liens vers d’autres banques (60 BD)
• TrEMBL
• Entrées supplémentaires à SwissProt (pas encore annotées)
• Traduction automatique de l’EMBL:
• Impossible de réviser une par une ces séquences => annotation automatiques:
Identification des domaines sur base de similarités de séquences, Annotation
de la fonction de la protéines sur base de similarité de séquence
• Risques d’erreurs dans les annotations: echec d’identification d’un domaine
ou d’une fonction, assignation erronée d’un domaine ou d’une fonction
lilia.romdhane@yahoo.fr 18 lilia.romdhane@yahoo.fr 20
UniProt (http://www.uniprot.org ) UniProt (http://www.uniprot.org )
http://eawag-bbd.ethz.ch/onb/onb_map.html
lilia.romdhane@yahoo.fr 21 lilia.romdhane@yahoo.fr 23
UniProt (http://www.uniprot.org ) UniProt (http://www.uniprot.org )
lilia.romdhane@yahoo.fr 22 lilia.romdhane@yahoo.fr 24
UniProt (http://www.uniprot.org ) UniProt (h<p://www.uniprot.org )
lilia.romdhane@yahoo.fr 25 lilia.romdhane@yahoo.fr 27
UniProt (http://www.uniprot.org ) UniProt (http://www.uniprot.org )
lilia.romdhane@yahoo.fr 26 lilia.romdhane@yahoo.fr 28
UniProt (http://www.uniprot.org )
• Pour la séance prochaine:
• Recherchez les mêmes informations pour la même
protéine mais chez Pseudomonas fluorescens
lilia.romdhane@yahoo.fr 29 lilia.romdhane@yahoo.fr 31
PDB, Protein Data Bank
UniProt (http://www.uniprot.org) (h<p://www.pdb.org/pdb/home/home.do )
o Principale banque internationale de structures tridimensionnelles (1971)
o Les entrées :Structures de protéines + structures de molécules d’ADN et
d’ARN
o Méthodes= Cristallographie aux rayons X + Résonance Magnétique
Nucléaire (RMN) + Microscopie électronique
o Entrées: informations sur les structures primaires et secondaires,
coordonnées atomiques, quelques détails sur les expériences (conditions
de cristallisation, statistiques d’affinement…), références
bibliographiques
o Défauts: Redondance importante car plusieurs structures 3D peuvent
correspondre à la même séquence selon les conditions d’obtention de la
structure ou la finesse de sa résolution
lilia.romdhane@yahoo.fr 30 lilia.romdhane@yahoo.fr 32
PDB, Protein Data Bank Les banques de données spécialisées
(http://www.pdb.org/pdb/home/home.do )
• Ces banques contiennent des données homogènes
• Collecte établie autour d’une thématique particulière
• Avantages : Mise à jour facile des données, vérifier leur
intégrité, offrir une interface adaptée, …
• Inconvénients : ne cible pas toujours ce que l’on veut; toutes
les banques possibles n’existent pas
• Exemples : banques spécialisées pour un génome, banques de
séquences d'immunologies, banques sur des séquences
validées, …
lilia.romdhane@yahoo.fr 33 lilia.romdhane@yahoo.fr 35
PDB, Protein Data Bank
(http://www.pdb.org/pdb/home/home.do ) Les banques spécialisées ou thématiques
Catégorie 1: En rapport avec des séquences biologiques
• Réunissent au sein d’une même structure des séquences
nucléotidiques ou protéiques sélectionnées selon un critère
précis:
• Une structure moléculaire (Gene, Mutation, ….)
• Même génome (Homme, Souris, Rat….)
• Regroupement en familles (orthologues, enzymes,…)
• Présence d’un motif ou d’un domaine protéique (Site de
liaison de facteur de transcription, domaine protéique….)
lilia.romdhane@yahoo.fr 34 lilia.romdhane@yahoo.fr 36
Bases de données dédiées aux séquences de GOLD, statistiques
génomes:
Séquençage de génomes
• 1995 : Séquençage de la 1ère bactérie, Haemophilus influenzae (1,83 Mb)
(Fleischmann).
• 1996 : Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb)
(Dujon).
• 1998 : Séquençage du 1er organisme pluricellulaire, Caenorhabdi8s elegans (100
Mb).
• 2000 : Séquençage du 1er génpme de plante, Arabidopsis thaliana (157 Mb)
• 2001 : Annonce du décryptage presque complet du génome humain (février).
• 2008: Projet 1000 Genomes
lilia.romdhane@yahoo.fr
lilia.romdhane@yahoo.fr 37 39
Les projets de séquençage (source : GOLD) Navigateurs de génomes (Genome Browsers):
• Source : GOLD (https://gold.jgi.doe.gov/)
Ensembl (http://www.ensembl.org/index.html)
o Système bioinformatique d’annotation automatique de
génomes.
o Projet conjoint entre EBI et le Wellcome Trust Sanger
Institute
o Annotation automatique: tenter d’identifier l’ensemble de
gènes qu’un génome contient + polymorphismes +
éléments régulateurs des gènes + informations sur les
protéines codées par les gènes + gènes similaires d’autres
organismes + maladies génétiques
lilia.romdhane@yahoo.fr 38 lilia.romdhane@yahoo.fr 40
Ensembl
Ensembl
(http://www.ensembl.org/index.html)
(http://www.ensembl.org/index.html )
Zoom sur la région
41 43
lilia.romdhane@yahoo.fr lilia.romdhane@yahoo.fr
Ensembl EnsemblBacteria
(h<p://www.ensembl.org/index.html ) (https://bacteria.ensembl.org/index.html )
Localisation sur le
chromosome
Zoom sur la région
42 lilia.romdhane@yahoo.fr 44
lilia.romdhane@yahoo.fr
EnsemblBacteria EnsemblBacteria
(https://bacteria.ensembl.org/index.html )
(https://bacteria.ensembl.org/index.html )
lilia.romdhane@yahoo.fr 45 lilia.romdhane@yahoo.fr 47
EnsemblBacteria EnsemblFungi
(https://fungi.ensembl.org/index.html )
(https://bacteria.ensembl.org/index.html )
lilia.romdhane@yahoo.fr 46 lilia.romdhane@yahoo.fr 48
RefSeq, quelques numéros d’accession
Les banques spécialisées ou thématiques
Catégorie 1: En rapport avec des séquences biologiques NR_123456.1 XR_123456.1
Autres ARN Autres ARN
Transcription
qUne structure moléculaire : Génome
NC_123456.1
Chromosomes
qExemple: RefSeq Transcription
NM_123456.1 XM_123456.1
ARNm ARNm
Traduction
NP_123456.1 XP_123456.1
Protéines Protéines
Soumission à GenBank Issues de
prédiction,
produite par le
projet
d’annotation de
lilia.romdhane@yahoo.fr 49 génome du NCBI 51
RefSeq (NCBI) = Reference Sequence
collection Différents niveaux de correction des données
Reviewed:
o Générée et gérée au NCBI depuis 2003: nRevu par un membre du NCBI qui a ajouté des informations provenant de
« The Reference Sequence (RefSeq) collection aims to provide a publications scientifiques et de différentes entrées de séquences
comprehensive, integrated, non-redundant set of sequences, including § Validated:
genomic DNA, transcript (RNA), and protein products, for major research nUne première révision a été effectuée par un membre du NCBI, mais
organisms » l’annotation est en cours
« Curated collections from a number of biologically significant organisms » § Provisional:
oAvantages: nEntrée non lue par un annotateur, mais qui contient surement un vrai
nNon redondante transcrit ou une vraie protéine
nLiens explicites entre les séquences nucléiques et protéiques § Predicted:
nMises à jour régulière par le personnel du NCBI avec indication du statut de nTranscrit ou protéine issu d’une prédiction à l’aide d’un programme
l’entrée informatique
nValidation des données
nSynthèse des informations issues de plusieurs entrées nucléiques ou
protéiques
Entrez Gene
RefSeq, les staMsMques http://www.ncbi.nlm.nih.gov/gene/
Statistiques du 10 Octobre 2020: • Entrez Gene fournit des informations centrées sur les gènes
de différents génomes: séquences, expression, fonction,
bibliographie, homologie
• Chaque gène n’est intégré dans la base de données que si sa
séquence existe déjà dans RefSeq
Statistiques
lilia.romdhane@yahoo.fr 53 lilia.romdhane@yahoo.fr 55
Gene
Les banques spécialisées ou thématiques
Catégorie 1: En rapport avec des séquences biologiques
qUne structure moléculaire: Un gène
qExemple: Entrez Gene
Exemple de requêtes:
lilia.romdhane@yahoo.fr 54
Entrez Gene (http://www.ncbi.nlm.nih.gov/gene/ ) Entrez Gene http://www.ncbi.nlm.nih.gov/gene/
lilia.romdhane@yahoo.fr 57 lilia.romdhane@yahoo.fr 59
Entrez Gene h8p://www.ncbi.nlm.nih.gov/gene/ Entrez Gene
Accès à la séquence du gène
lilia.romdhane@yahoo.fr 58 lilia.romdhane@yahoo.fr 60
Entrez Gene http://www.ncbi.nlm.nih.gov/gene/
Bases de données dédiées à la variabilité du
génome (http://www.ncbi.nlm.nih.gov/SNP/)
• Définition SNP (Single nucleotide polymorphism):
Polymorphisme nucléotidique ou polymorphisme d’un seul
nucléotide:
• Variation = polymorphisme d’une seule paire de bases du
génome entre individus d’une même espèce
• Environ toutes les 300 bases ~ 10 millions de SNP
• 90% des variations génétiques humaines
• Fréquence allélique > 1%
• Localisations: Exons, introns, régions intergéniques
• Types de polymorphismes:
• Dans des séquences non codantes: ncSNP (non coding SNP)
• Dans des séquences codantes: cSNP (coding SNP):
• Synonymes: ne change pas le résidus (silencieux, non-sense)
Accès à la séquence du gène • Non-synonymes: change l’acide aminé (missense), crée un stop
ou décale le cadre de lecture.
lilia.romdhane@yahoo.fr 61 lilia.romdhane@yahoo.fr 63
1001 Genomes:
Diversité génétique d’Arabidopsis thaliana
(http://1001genomes.org/index.html )
Les banques spécialisées ou thématiques
Catégorie 1: En rapport avec des séquences biologiques
q Une structure moléculaire: Polymorphismes
q Exemple: dbSNP, 1001Genomes
lilia.romdhane@yahoo.fr 62 64
lilia.romdhane@yahoo.fr
1001 Genomes: Prosite
Diversité génétique d’Arabidopsis thaliana https://prosite.expasy.org/
(http://1001genomes.org/index.html) § Un domaine protéique
§ Arabidopsis thaliana : Famille des Brassicacées est une partie d’une
protéine capable
§ Considérée en 1998 comme organisme modèle et de reference pour la recherche végétale, d’adopter une structure
pour l’evolution, la génétique et la recherche fondamentale de manière autonome
§ Propriétés: Petite taille, cycle de vie rapide (6 semaines), résistance, autofécondation ou partiellement
autonome du reste de la
§ Génome: séquencé totalement en 2000: 157 Mb répartis sur 5 paires de chromosomes molécule
§ Projet The 1001 Genomes Project a été lance en 2008 et va permettre le séquençage du § Les domaines
génome de 1001 lignées isolées à travers le monde afin d’en déchifrer la variabilité protéiques forment en
génétique général une structure
compacte et stable.
§ Intérêt scientifique:
§ Ils peuvent porter
q Détection des mines anti-personnel grâce aux graines d’A. thaliana qui changeraient de couleurs certaines fonctions
en cas de culture au dessus d’une mine spécifiques de la
q Une protéine histone (H2A.Z) est impliquée dans la detection de faibles variations de temperature protéine complète:
en contrôlant l’accès à l’ADN de certaines molecules inhibant ou activant la transcription è ce liaison de ligand,
bio-thermostat aidera à mieux comprendre certains effets des variations climatiques sur les interaction avec d’autres
genes. macromolécules du site
65 catalytique. 67
lilia.romdhane@yahoo.fr lilia.romdhane@yahoo.fr
Prosite
https://prosite.expasy.org/
§ Un profil de domaine conservé
(graphique dit “logo”). Il indique
la conservation des acides
aminés à chaque position au sein
d’un domaine protéique.
Les banques spécialisées ou thématiques § Le logo est obtenu à partir d’une
série de séquences protéiques.
Catégorie 1: En rapport avec des séquences biologiques
§ Profil ”Prosite” pour le domaine
de liaison à l’ADN “Zn(2)-C6,
q Une structure moléculaire: Domaines protéiques caractéristique des champignons
q Exemple: Prosite (ZN2_CY6_FUNGAL_2, PS50048):
§ 6 Cystéines très conservées
caractériqtiques de ce domaine
lilia.romdhane@yahoo.fr 66 68
lilia.romdhane@yahoo.fr
KEGG (Kyoto Encyclopaedia of Genes and Genomes)
Catégorie 2: Non en rapport avec des séquences biologiques
• Les cartes métaboliques de KEGG présentent le détail des réactions
q Regrouper des données qui abordent des aspects de la biologie moléculaire non d’une voie métabolique, en montrant les voies alternatives présentes
directement liés aux séquences: chez différents organismes.
§ Métabolisme: KEGG (http://www.genome.jp/kegg/ )
§ Réseaux d’interaction: STRING (http://string-db.org/ )
§ Données d’expression: GEO (http://www.ncbi.nlm.nih.gov/gds/ )
§ Bases de données de composés chimiques
§ Bases de données dédiées aux expériences à grande échelle
q Informations détaillées spécifiques d’un domaine biologique:
§ Données contrôlées (experts du domaine)
§ Evolution plus facile en fonction des progrès scientifiques dans le domaine
lilia.romdhane@yahoo.fr 69 lilia.romdhane@yahoo.fr 71
KEGG (Kyoto Encyclopaedia of Genes and Genomes) STRING (http://string-db.org/)
• La « carte globale » donne une vue
d’ensemble de la complexité du
métabolisme. Chaque point
représente une molécule, chaque
ligne une réaction métabolique.
https://www.genome.jp/kegg-bin/show_pathway?map01100
lilia.romdhane@yahoo.fr 70 lilia.romdhane@yahoo.fr 72
STRING (http://string-db.org/)
3-hydroxyanthranilate 3,4-
dioxygenase 1
lilia.romdhane@yahoo.fr 73
Integration of bioinformatics to biodegradation
• Quels types de bases de données a été abordé dans cet article ?
• Chaque étudiant doit faire la présentation d’une base de données
parmi celles citées dans le documents dans au plus 3 diapos pour la
séance prochaine.
lilia.romdhane@yahoo.fr 74

Vous aimerez peut-être aussi