Cours2 Base de Données Et Séquences Version Complète4X4w

UNIVERSITE DE CARTHAGE Rôle des bases de données
FACULTE DES SCIENCES DE BIZERTE

Département Sciences de la Vie
Bioinforma)que 1. Collecter les informations: 2. Stocker et organiser les
• Dans la littérature données:
Master Biologie des Organismes, des • Auprès des biologistes • Dans une logique cohérente
Populations & Environnement • Dans les autres bases de données (outils informatiques)
Cours 2:
3. Distribuer l’information: 4. Faciliter l’exploitation
Les bases de données en Biologie • Distribuer des données des données:
Dr Lilia Romdhane, HDR
contrôlées • Interfaces conviviales
• Assurer une large diffusion • Définition des critères de
lilia.romdhane@pasteur.utm.tn
recherche
• Recherche, comparaison
Dr Lilia ROMDHANE
2022- 2023
1 lilia.romdhane@yahoo.fr de données 3
lilia.romdhane@yahoo.fr
Base de données: Définition Utilisation des bases de données
• Base de données = stock d’informations organisé et structuré de
manière à pouvoir être facilement manipulé, destiné à stocker
efficacement de très grandes quantités d’informations
• Ensemble d’informations structuré oInterrogation directe par mots-clés: chercher un gène et les
• Consiste en unités de base appelés « entrées » informations relatives, récupération d’une séquence biologique,
• Chaque entrée consiste de champs, qui contiennent des données d’une structure 3D d’une protéine
relatives à l’entrée oUtilisation de logiciels:
• Par exemple, une base de données de séquences protéiques: nComparaison des données: recherche de séquences
• entrée: une protéine homologues (BLAST),
• champs: des propriétés protéiques, Nom de la protéine, la taille, la nVisualisation des données: Genome Browser (EnsEMBL, UCSC),
séquence protéique Mutation Viewer (NCBI)
• En biologie: un grand nombre de bases de données suite au nFouille de données: BIOMART (EnsEMBL), API (Application
séquençage de nombreux génomes Programming Interface): EDirect (NCBI)
• Selon le types de données: 2 types:
• Banques de données = bases de données généralistes
• Bases de données spécialisées
lilia.romdhane@yahoo.fr 2 lilia.romdhane@yahoo.fr 4
Exemples de bases de données
biomoléculaires Types de bases de données
• Séquence et structure des macromolécules:
• Séquences protéiques (Uniprot) 1. Bases de données primaires: 2. Bases de données Secondaires:
• Séquences nucléotidiques (EMBL, GenBank, DDBJ) •Soumissions originales par les • Données dérivent des données primaires
• Strucutres tridimensionnelles des protéines (PDB) expérimentalistes • Contenu contrôlé par une « tierce
• Motifs structurels (CATH) •Contenu contrôlé par la personne partie » (NCBI)
• Motifs dans les séquences (PROSITE) qui soumet la séquence • Exemples: NCBI Protein, RefSeq, TPA,
• Génomes: •Exemple: GenBank, EMBL HomoloGene, Conserved Domain
• Bases de données génériques (Ensembl, UCSC, NCBI genome, …)
• Base de données spécificques d’un organisme (SGD, FlyBase, PlasmoDB, ..)
• Fonctions moléculaires:
• Fonctions enzymatiques, catalyses (Expasy, LIGAND/KEGG, …)
• Régulation transcriptionnelle (JASPAR, TRANSFAC, RegulonDB, …)
• Processus biologiques:
• Voies métaboliques (MetaCyc, KEGG pathways, Biocatalysis/biodegradation)
• Interactions protéine-protéines (BIND, MINT, STRING, …)
lilia.romdhane@yahoo.fr 5
Les banques de données généralistes,
Nucleic Acids Researchs définitions
• On appelle banques généralistes, ou banques primaires, les ressources qui
collèctent, gèrent, archivent et mettent à disposition de la communauté
scientifique un ensemble de données primaires, c’est à dire obtenues
expérimentalement.
• Classiquement, on considère comme banques primaires les banques
généralistes de séquences nucléiques et protéiques, bien que la plupart des
séquences protéiques ne soient pas obtenues expérimentalement, mais à
partir des données de séquences nucléiques, ainsi que les banques qui gèrent
les structures tridimentionnelles des protéines.
• Ces banques contiennent des données hétérogènes
• Collecte la plus exhaustive possible
• Banques de séquences nucléiques
• Banques de séquences protéiques
• Banques de structure 3D de macromolécules
• Avantage : tout est consultable en une fois
• Inconvénients : difficiles à maintenir, difficiles à interroger 8
Les banques de séquences nucléiques Banques nucléiques, le partage des
• Trois banques : données
• Représentation de l’information dans les sequences:
• EMBL (European Molecular Biology Laboratory), créée en 1982
• A,T,G, C et N pour les erreurs de séquençage (http://www.ebi.ac.uk/ena/about/about )
• Origine des données : • GenBank (banque des Etats-Unis d’Amérique), créée en 1982
• Séquençage d’ADN et d’ARN (http://www.ncbi.nlm.nih.gov/genbank/)
• Les données stockées : séquences + annotations • DDBJ (DNA Databank of Japon), créée en 1986:
• Fragments de génomes (http://www.ddbj.nig.ac.jp/ )
• Un ou plusieurs gènes, un bout de gène, séquence intergénique, … • Echange quobdien des données entre ces banques depuis 1987:
• Génomes complets InternaHonal NucleoHde Sequence Database collaboraHon
• ARNm, ARNt, ARNr, … (fragments ou entiers) (hdp://www.insdc.org/ )
• [ Note 1] : toutes les séquences (ADN ou ARN) sont écrites avec des T • Réparbbon de la collecte des données
• [ Note 2] : les séquences sont toujours orientées 5’ vers 3’. • Chaque banque collecte les données de son conbnent
• Même format de données pour la parbe « Feature »
• Formats diﬀérents pour le reste de l’entrée
Développement du séquençage de l’ADN Global Bioinformatics Agencies
• 1977 : F. Sanger met au point la méthode de Sanger pour établir le séquençage de
l’ADN.
• 1980 : Création de la banque EMBL
• 1984 : Développement de la réaction de polymérisation en chaîne (PCR) par Mullis. DNA
Data
• 1987 : Réalisation et commercialisation du 1er séquenceur automatisé par la société Bank of International
Applied Biosystems (Californie). Japan Nucleotide
Sequence
Banques nucléiques, les débuts Database
• Apparition dans les années 1980 Collaboration
• Toutes les séquences déterminées sont publiées dans un article
• Les banques guettent les articles et en extraient les séquences
• Croissance du nombre de séquences :
• Pas de publication systématique pour une séquence European
Molecular National Centre
• Beaucoup de données à collecter
Biology for
• Les séquences et leurs annotations sont soumises aux banques par les laboratoires Laboratory Biotechnology
qui ont fait le séquençage Information
Banques nucléiques, dernière version Banques nucléiques, inconvénients
• EMBL, version du 24 mars 2014
• Difficulté de mise à jour des données
• 373 millions séquences, 790
billions bp • Version plus récente d’une séquence ou d’une annotation dans
• GenBank, version 200 du 14 d’autres banques (ex : banques dédiées à un génome complet)
février 2014 • Forte redondance
• 172 millions séquences,
• Un même fragment de séquence présent dans plusieurs entrées:
157943793171 bp
Duplications ? Polymorphismes ?
• DDBJ , version de décembre
2013 • Annotations peu normalisées
• 179 millions séquences, • Difficulté de recherche d’une information précise
156,527,217,715 bp
• Annotations peu précises
• Peu de descriptions sur les gènes et leur produit
• Erreurs dans les annotations
Les banques de séquences protéiques
A l’ère du Next GeneraIon Sequencing (NGS)
• Le coût du séquençage diminue de façon • Origine des données
exponentielle, et le nombre de séquences
• Traduction de séquences d’ADN
augmente de façon exponentielle
• Jusqu’en 2007, cet effet était compensé par • Séquençage de protéines
la décroissance exponentielle du coût des • Rare car long et coûteux
ordinateurs (stockage des données, calculs) • Protéines dont la structure 3D est connue
• En 2007, plusieurs compagnies ont inventé
des nouvelles techniques de séquençage • Les données stockées : séquences + annotations
qui ont réduit les coûts et accéléré la • Protéines entières
production de séquences
• Fragments de protéines
• Le coût du séquençage décroit de façon
beaucoup plus rapide que celui du
stockage, ce qui crée des problèmes de
gestion des données. Sboner et al. The real cost of sequencing: higher than you think!. Genome Biol (2011) vol. 12 (8)
pp. 125
Banques de séquences protéiques, les SwissProt/TrEMBL, croissance
débuts
• 1965 : Atlas of Protein Sequences, Margaret Dayhoff
• 50 entrées
• Version papier jusqu’en 78, puis version électronique
• 1984 : création de PIR-NBRF (Protein Information Resource - National
Biomedical Research Foundation)
• 1986 : création de SwissProt
• Collaboration entre SIB (Swiss Institute of Bioinformatics ) et EBI
• Fin 2003 : création de UniProt (Universal Protein Resource) :
(http://www.uniprot.org/ )
• Mise en commun des informations de PIR et SwissProt/TrEMBL
• « entrepôt » central de séquences et fonctions protéiques
• Accès unifié à l’ensemble des informations des 3 banques primaires
• SwissProt
SwissProt UniProt (http://www.uniprot.org )
• Données corrigées et validées par des experts
• Haut niveau d’annotation
• Description de la fonction (références associées)
• Localisation des domaines fonctionnels
• Modifications post-traductionnelles
• Existence de variants, …
• Redondance minimale
• Nombreux liens vers d’autres banques (60 BD)
• TrEMBL
• Entrées supplémentaires à SwissProt (pas encore annotées)
• Traduction automatique de l’EMBL:
• Impossible de réviser une par une ces séquences => annotation automatiques:
Identification des domaines sur base de similarités de séquences, Annotation
de la fonction de la protéines sur base de similarité de séquence
• Risques d’erreurs dans les annotations: echec d’identification d’un domaine
ou d’une fonction, assignation erronée d’un domaine ou d’une fonction
UniProt (http://www.uniprot.org ) UniProt (http://www.uniprot.org )
http://eawag-bbd.ethz.ch/onb/onb_map.html
UniProt (http://www.uniprot.org ) UniProt (h<p://www.uniprot.org )
UniProt (http://www.uniprot.org )
• Pour la séance prochaine:
• Recherchez les mêmes informations pour la même
protéine mais chez Pseudomonas fluorescens
PDB, Protein Data Bank
UniProt (http://www.uniprot.org) (h<p://www.pdb.org/pdb/home/home.do )
o Principale banque internationale de structures tridimensionnelles (1971)
o Les entrées :Structures de protéines + structures de molécules d’ADN et
d’ARN
o Méthodes= Cristallographie aux rayons X + Résonance Magnétique
Nucléaire (RMN) + Microscopie électronique
o Entrées: informations sur les structures primaires et secondaires,
coordonnées atomiques, quelques détails sur les expériences (conditions
de cristallisation, statistiques d’affinement…), références
bibliographiques
o Défauts: Redondance importante car plusieurs structures 3D peuvent
correspondre à la même séquence selon les conditions d’obtention de la
structure ou la finesse de sa résolution
PDB, Protein Data Bank Les banques de données spécialisées
(http://www.pdb.org/pdb/home/home.do )
• Ces banques contiennent des données homogènes
• Collecte établie autour d’une thématique particulière
• Avantages : Mise à jour facile des données, vérifier leur
intégrité, offrir une interface adaptée, …
• Inconvénients : ne cible pas toujours ce que l’on veut; toutes
les banques possibles n’existent pas
• Exemples : banques spécialisées pour un génome, banques de
séquences d'immunologies, banques sur des séquences
validées, …
PDB, Protein Data Bank
(http://www.pdb.org/pdb/home/home.do ) Les banques spécialisées ou thématiques
Catégorie 1: En rapport avec des séquences biologiques
• Réunissent au sein d’une même structure des séquences
nucléotidiques ou protéiques sélectionnées selon un critère
précis:
• Une structure moléculaire (Gene, Mutation, ….)
• Même génome (Homme, Souris, Rat….)
• Regroupement en familles (orthologues, enzymes,…)
• Présence d’un motif ou d’un domaine protéique (Site de
liaison de facteur de transcription, domaine protéique….)
Bases de données dédiées aux séquences de GOLD, statistiques
génomes:
Séquençage de génomes
• 1995 : Séquençage de la 1ère bactérie, Haemophilus inﬂuenzae (1,83 Mb)
(Fleischmann).
• 1996 : Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb)
(Dujon).
• 1998 : Séquençage du 1er organisme pluricellulaire, Caenorhabdi8s elegans (100
Mb).
• 2000 : Séquençage du 1er génpme de plante, Arabidopsis thaliana (157 Mb)
• 2001 : Annonce du décryptage presque complet du génome humain (février).
• 2008: Projet 1000 Genomes
lilia.romdhane@yahoo.fr 37 39
Les projets de séquençage (source : GOLD) Navigateurs de génomes (Genome Browsers):
• Source : GOLD (https://gold.jgi.doe.gov/)
Ensembl (http://www.ensembl.org/index.html)
o Système bioinformatique d’annotation automatique de
génomes.
o Projet conjoint entre EBI et le Wellcome Trust Sanger
Institute
o Annotation automatique: tenter d’identifier l’ensemble de
gènes qu’un génome contient + polymorphismes +
éléments régulateurs des gènes + informations sur les
protéines codées par les gènes + gènes similaires d’autres
organismes + maladies génétiques
Ensembl
Ensembl
(http://www.ensembl.org/index.html)
(http://www.ensembl.org/index.html )
Zoom sur la région
41 43
lilia.romdhane@yahoo.fr lilia.romdhane@yahoo.fr
Ensembl EnsemblBacteria
(h<p://www.ensembl.org/index.html ) (https://bacteria.ensembl.org/index.html )
Localisation sur le
chromosome
Zoom sur la région
42 lilia.romdhane@yahoo.fr 44
EnsemblBacteria EnsemblBacteria
(https://bacteria.ensembl.org/index.html )
EnsemblBacteria EnsemblFungi
(https://fungi.ensembl.org/index.html )
RefSeq, quelques numéros d’accession
Les banques spécialisées ou thématiques
Catégorie 1: En rapport avec des séquences biologiques NR_123456.1 XR_123456.1
Autres ARN Autres ARN
Transcription
qUne structure moléculaire : Génome
NC_123456.1
Chromosomes
qExemple: RefSeq Transcription
NM_123456.1 XM_123456.1
ARNm ARNm
Traduction
NP_123456.1 XP_123456.1
Protéines Protéines
Soumission à GenBank Issues de
prédiction,
produite par le
projet
d’annotation de
lilia.romdhane@yahoo.fr 49 génome du NCBI 51
RefSeq (NCBI) = Reference Sequence
collection Différents niveaux de correction des données
Reviewed:
o Générée et gérée au NCBI depuis 2003: nRevu par un membre du NCBI qui a ajouté des informations provenant de
« The Reference Sequence (RefSeq) collection aims to provide a publications scientifiques et de différentes entrées de séquences
comprehensive, integrated, non-redundant set of sequences, including § Validated:
genomic DNA, transcript (RNA), and protein products, for major research nUne première révision a été effectuée par un membre du NCBI, mais
organisms » l’annotation est en cours
« Curated collections from a number of biologically significant organisms » § Provisional:
oAvantages: nEntrée non lue par un annotateur, mais qui contient surement un vrai
nNon redondante transcrit ou une vraie protéine
nLiens explicites entre les séquences nucléiques et protéiques § Predicted:
nMises à jour régulière par le personnel du NCBI avec indication du statut de nTranscrit ou protéine issu d’une prédiction à l’aide d’un programme
l’entrée informatique
nValidation des données
nSynthèse des informations issues de plusieurs entrées nucléiques ou
protéiques
Entrez Gene
RefSeq, les staMsMques http://www.ncbi.nlm.nih.gov/gene/
Statistiques du 10 Octobre 2020: • Entrez Gene fournit des informations centrées sur les gènes
de différents génomes: séquences, expression, fonction,
bibliographie, homologie
• Chaque gène n’est intégré dans la base de données que si sa
séquence existe déjà dans RefSeq
Statistiques
Gene
qUne structure moléculaire: Un gène
qExemple: Entrez Gene
Exemple de requêtes:
Entrez Gene (http://www.ncbi.nlm.nih.gov/gene/ ) Entrez Gene http://www.ncbi.nlm.nih.gov/gene/
Entrez Gene h8p://www.ncbi.nlm.nih.gov/gene/ Entrez Gene
Accès à la séquence du gène
Entrez Gene http://www.ncbi.nlm.nih.gov/gene/
Bases de données dédiées à la variabilité du
génome (http://www.ncbi.nlm.nih.gov/SNP/)
• Définition SNP (Single nucleotide polymorphism):
Polymorphisme nucléotidique ou polymorphisme d’un seul
nucléotide:
• Variation = polymorphisme d’une seule paire de bases du
génome entre individus d’une même espèce
• Environ toutes les 300 bases ~ 10 millions de SNP
• 90% des variations génétiques humaines
• Fréquence allélique > 1%
• Localisations: Exons, introns, régions intergéniques
• Types de polymorphismes:
• Dans des séquences non codantes: ncSNP (non coding SNP)
• Dans des séquences codantes: cSNP (coding SNP):
• Synonymes: ne change pas le résidus (silencieux, non-sense)
Accès à la séquence du gène • Non-synonymes: change l’acide aminé (missense), crée un stop
ou décale le cadre de lecture.
1001 Genomes:
Diversité génétique d’Arabidopsis thaliana
(http://1001genomes.org/index.html )
q Une structure moléculaire: Polymorphismes
q Exemple: dbSNP, 1001Genomes
1001 Genomes: Prosite
Diversité génétique d’Arabidopsis thaliana https://prosite.expasy.org/
(http://1001genomes.org/index.html) § Un domaine protéique
§ Arabidopsis thaliana : Famille des Brassicacées est une partie d’une
protéine capable
§ Considérée en 1998 comme organisme modèle et de reference pour la recherche végétale, d’adopter une structure
pour l’evolution, la génétique et la recherche fondamentale de manière autonome
§ Propriétés: Petite taille, cycle de vie rapide (6 semaines), résistance, autofécondation ou partiellement
autonome du reste de la
§ Génome: séquencé totalement en 2000: 157 Mb répartis sur 5 paires de chromosomes molécule
§ Projet The 1001 Genomes Project a été lance en 2008 et va permettre le séquençage du § Les domaines
génome de 1001 lignées isolées à travers le monde afin d’en déchifrer la variabilité protéiques forment en
génétique général une structure
compacte et stable.
§ Intérêt scientifique:
§ Ils peuvent porter
q Détection des mines anti-personnel grâce aux graines d’A. thaliana qui changeraient de couleurs certaines fonctions
en cas de culture au dessus d’une mine spécifiques de la
q Une protéine histone (H2A.Z) est impliquée dans la detection de faibles variations de temperature protéine complète:
en contrôlant l’accès à l’ADN de certaines molecules inhibant ou activant la transcription è ce liaison de ligand,
bio-thermostat aidera à mieux comprendre certains effets des variations climatiques sur les interaction avec d’autres
genes. macromolécules du site
65 catalytique. 67
lilia.romdhane@yahoo.fr lilia.romdhane@yahoo.fr
Prosite
https://prosite.expasy.org/
§ Un profil de domaine conservé
(graphique dit “logo”). Il indique
la conservation des acides
aminés à chaque position au sein
d’un domaine protéique.
Les banques spécialisées ou thématiques § Le logo est obtenu à partir d’une
série de séquences protéiques.
§ Profil ”Prosite” pour le domaine
de liaison à l’ADN “Zn(2)-C6,
q Une structure moléculaire: Domaines protéiques caractéristique des champignons
q Exemple: Prosite (ZN2_CY6_FUNGAL_2, PS50048):
§ 6 Cystéines très conservées
caractériqtiques de ce domaine
KEGG (Kyoto Encyclopaedia of Genes and Genomes)
Catégorie 2: Non en rapport avec des séquences biologiques
• Les cartes métaboliques de KEGG présentent le détail des réactions
q Regrouper des données qui abordent des aspects de la biologie moléculaire non d’une voie métabolique, en montrant les voies alternatives présentes
directement liés aux séquences: chez différents organismes.
§ Métabolisme: KEGG (http://www.genome.jp/kegg/ )
§ Réseaux d’interaction: STRING (http://string-db.org/ )
§ Données d’expression: GEO (http://www.ncbi.nlm.nih.gov/gds/ )
§ Bases de données de composés chimiques
§ Bases de données dédiées aux expériences à grande échelle
q Informations détaillées spécifiques d’un domaine biologique:
§ Données contrôlées (experts du domaine)
§ Evolution plus facile en fonction des progrès scientifiques dans le domaine
KEGG (Kyoto Encyclopaedia of Genes and Genomes) STRING (http://string-db.org/)
• La « carte globale » donne une vue
d’ensemble de la complexité du
métabolisme. Chaque point
représente une molécule, chaque
ligne une réaction métabolique.
https://www.genome.jp/kegg-bin/show_pathway?map01100
STRING (http://string-db.org/)
3-hydroxyanthranilate 3,4-
dioxygenase 1
Integration of bioinformatics to biodegradation
• Quels types de bases de données a été abordé dans cet article ?
• Chaque étudiant doit faire la présentation d’une base de données
parmi celles citées dans le documents dans au plus 3 diapos pour la
séance prochaine.

Cours2 Base de Données Et Séquences Version Complète4X4w

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours2 Base de Données Et Séquences Version Complète4X4w

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE DE CARTHAGE Rôle des bases de données

FACULTE DES SCIENCES DE BIZERTE

Vous aimerez peut-être aussi