Département Sciences de la Vie Bioinforma)que 1. Collecter les informations: 2. Stocker et organiser les • Dans la littérature données: Master Biologie des Organismes, des • Auprès des biologistes • Dans une logique cohérente Populations & Environnement • Dans les autres bases de données (outils informatiques) Cours 2: 3. Distribuer l’information: 4. Faciliter l’exploitation Les bases de données en Biologie • Distribuer des données des données: Dr Lilia Romdhane, HDR contrôlées • Interfaces conviviales • Assurer une large diffusion • Définition des critères de lilia.romdhane@pasteur.utm.tn recherche • Recherche, comparaison Dr Lilia ROMDHANE 2022- 2023 1 lilia.romdhane@yahoo.fr de données 3 lilia.romdhane@yahoo.fr Base de données: Définition Utilisation des bases de données • Base de données = stock d’informations organisé et structuré de manière à pouvoir être facilement manipulé, destiné à stocker efficacement de très grandes quantités d’informations • Ensemble d’informations structuré oInterrogation directe par mots-clés: chercher un gène et les • Consiste en unités de base appelés « entrées » informations relatives, récupération d’une séquence biologique, • Chaque entrée consiste de champs, qui contiennent des données d’une structure 3D d’une protéine relatives à l’entrée oUtilisation de logiciels: • Par exemple, une base de données de séquences protéiques: nComparaison des données: recherche de séquences • entrée: une protéine homologues (BLAST), • champs: des propriétés protéiques, Nom de la protéine, la taille, la nVisualisation des données: Genome Browser (EnsEMBL, UCSC), séquence protéique Mutation Viewer (NCBI) • En biologie: un grand nombre de bases de données suite au nFouille de données: BIOMART (EnsEMBL), API (Application séquençage de nombreux génomes Programming Interface): EDirect (NCBI) • Selon le types de données: 2 types: • Banques de données = bases de données généralistes • Bases de données spécialisées lilia.romdhane@yahoo.fr 2 lilia.romdhane@yahoo.fr 4 Exemples de bases de données biomoléculaires Types de bases de données • Séquence et structure des macromolécules: • Séquences protéiques (Uniprot) 1. Bases de données primaires: 2. Bases de données Secondaires: • Séquences nucléotidiques (EMBL, GenBank, DDBJ) •Soumissions originales par les • Données dérivent des données primaires • Strucutres tridimensionnelles des protéines (PDB) expérimentalistes • Contenu contrôlé par une « tierce • Motifs structurels (CATH) •Contenu contrôlé par la personne partie » (NCBI) • Motifs dans les séquences (PROSITE) qui soumet la séquence • Exemples: NCBI Protein, RefSeq, TPA, • Génomes: •Exemple: GenBank, EMBL HomoloGene, Conserved Domain • Bases de données génériques (Ensembl, UCSC, NCBI genome, …) • Base de données spécificques d’un organisme (SGD, FlyBase, PlasmoDB, ..) • Fonctions moléculaires: • Fonctions enzymatiques, catalyses (Expasy, LIGAND/KEGG, …) • Régulation transcriptionnelle (JASPAR, TRANSFAC, RegulonDB, …) • Processus biologiques: • Voies métaboliques (MetaCyc, KEGG pathways, Biocatalysis/biodegradation) • Interactions protéine-protéines (BIND, MINT, STRING, …) lilia.romdhane@yahoo.fr 5 Les banques de données généralistes, Nucleic Acids Researchs définitions • On appelle banques généralistes, ou banques primaires, les ressources qui collèctent, gèrent, archivent et mettent à disposition de la communauté scientifique un ensemble de données primaires, c’est à dire obtenues expérimentalement. • Classiquement, on considère comme banques primaires les banques généralistes de séquences nucléiques et protéiques, bien que la plupart des séquences protéiques ne soient pas obtenues expérimentalement, mais à partir des données de séquences nucléiques, ainsi que les banques qui gèrent les structures tridimentionnelles des protéines. • Ces banques contiennent des données hétérogènes • Collecte la plus exhaustive possible • Banques de séquences nucléiques • Banques de séquences protéiques • Banques de structure 3D de macromolécules • Avantage : tout est consultable en une fois lilia.romdhane@yahoo.fr 6 • Inconvénients : difficiles à maintenir, difficiles à interroger 8 Les banques de séquences nucléiques Banques nucléiques, le partage des • Trois banques : données • Représentation de l’information dans les sequences: • EMBL (European Molecular Biology Laboratory), créée en 1982 • A,T,G, C et N pour les erreurs de séquençage (http://www.ebi.ac.uk/ena/about/about ) • Origine des données : • GenBank (banque des Etats-Unis d’Amérique), créée en 1982 • Séquençage d’ADN et d’ARN (http://www.ncbi.nlm.nih.gov/genbank/) • Les données stockées : séquences + annotations • DDBJ (DNA Databank of Japon), créée en 1986: • Fragments de génomes (http://www.ddbj.nig.ac.jp/ ) • Un ou plusieurs gènes, un bout de gène, séquence intergénique, … • Echange quobdien des données entre ces banques depuis 1987: • Génomes complets InternaHonal NucleoHde Sequence Database collaboraHon • ARNm, ARNt, ARNr, … (fragments ou entiers) (hdp://www.insdc.org/ ) • [ Note 1] : toutes les séquences (ADN ou ARN) sont écrites avec des T • Réparbbon de la collecte des données • [ Note 2] : les séquences sont toujours orientées 5’ vers 3’. • Chaque banque collecte les données de son conbnent • Même format de données pour la parbe « Feature » lilia.romdhane@yahoo.fr 9 • Formats différents pour le reste de l’entrée lilia.romdhane@yahoo.fr 11 Développement du séquençage de l’ADN Global Bioinformatics Agencies • 1977 : F. Sanger met au point la méthode de Sanger pour établir le séquençage de l’ADN. • 1980 : Création de la banque EMBL • 1984 : Développement de la réaction de polymérisation en chaîne (PCR) par Mullis. DNA Data • 1987 : Réalisation et commercialisation du 1er séquenceur automatisé par la société Bank of International Applied Biosystems (Californie). Japan Nucleotide Sequence Banques nucléiques, les débuts Database • Apparition dans les années 1980 Collaboration • Toutes les séquences déterminées sont publiées dans un article • Les banques guettent les articles et en extraient les séquences • Croissance du nombre de séquences : • Pas de publication systématique pour une séquence European Molecular National Centre • Beaucoup de données à collecter Biology for • Les séquences et leurs annotations sont soumises aux banques par les laboratoires Laboratory Biotechnology qui ont fait le séquençage Information lilia.romdhane@yahoo.fr 10 lilia.romdhane@yahoo.fr 12 Banques nucléiques, dernière version Banques nucléiques, inconvénients • EMBL, version du 24 mars 2014 • Difficulté de mise à jour des données • 373 millions séquences, 790 billions bp • Version plus récente d’une séquence ou d’une annotation dans • GenBank, version 200 du 14 d’autres banques (ex : banques dédiées à un génome complet) février 2014 • Forte redondance • 172 millions séquences, • Un même fragment de séquence présent dans plusieurs entrées: 157943793171 bp Duplications ? Polymorphismes ? • DDBJ , version de décembre 2013 • Annotations peu normalisées • 179 millions séquences, • Difficulté de recherche d’une information précise 156,527,217,715 bp • Annotations peu précises • Peu de descriptions sur les gènes et leur produit • Erreurs dans les annotations lilia.romdhane@yahoo.fr 13 lilia.romdhane@yahoo.fr 15 Les banques de séquences protéiques A l’ère du Next GeneraIon Sequencing (NGS) • Le coût du séquençage diminue de façon • Origine des données exponentielle, et le nombre de séquences • Traduction de séquences d’ADN augmente de façon exponentielle • Jusqu’en 2007, cet effet était compensé par • Séquençage de protéines la décroissance exponentielle du coût des • Rare car long et coûteux ordinateurs (stockage des données, calculs) • Protéines dont la structure 3D est connue • En 2007, plusieurs compagnies ont inventé des nouvelles techniques de séquençage • Les données stockées : séquences + annotations qui ont réduit les coûts et accéléré la • Protéines entières production de séquences • Fragments de protéines • Le coût du séquençage décroit de façon beaucoup plus rapide que celui du stockage, ce qui crée des problèmes de gestion des données. Sboner et al. The real cost of sequencing: higher than you think!. Genome Biol (2011) vol. 12 (8) pp. 125 lilia.romdhane@yahoo.fr 14 lilia.romdhane@yahoo.fr 16 Banques de séquences protéiques, les SwissProt/TrEMBL, croissance débuts • 1965 : Atlas of Protein Sequences, Margaret Dayhoff • 50 entrées • Version papier jusqu’en 78, puis version électronique • 1984 : création de PIR-NBRF (Protein Information Resource - National Biomedical Research Foundation) • 1986 : création de SwissProt • Collaboration entre SIB (Swiss Institute of Bioinformatics ) et EBI • Fin 2003 : création de UniProt (Universal Protein Resource) : (http://www.uniprot.org/ ) • Mise en commun des informations de PIR et SwissProt/TrEMBL • « entrepôt » central de séquences et fonctions protéiques • Accès unifié à l’ensemble des informations des 3 banques primaires lilia.romdhane@yahoo.fr 17 lilia.romdhane@yahoo.fr 19 • SwissProt SwissProt UniProt (http://www.uniprot.org ) • Données corrigées et validées par des experts • Haut niveau d’annotation • Description de la fonction (références associées) • Localisation des domaines fonctionnels • Modifications post-traductionnelles • Existence de variants, … • Redondance minimale • Nombreux liens vers d’autres banques (60 BD) • TrEMBL • Entrées supplémentaires à SwissProt (pas encore annotées) • Traduction automatique de l’EMBL: • Impossible de réviser une par une ces séquences => annotation automatiques: Identification des domaines sur base de similarités de séquences, Annotation de la fonction de la protéines sur base de similarité de séquence • Risques d’erreurs dans les annotations: echec d’identification d’un domaine ou d’une fonction, assignation erronée d’un domaine ou d’une fonction lilia.romdhane@yahoo.fr 18 lilia.romdhane@yahoo.fr 20 UniProt (http://www.uniprot.org ) UniProt (http://www.uniprot.org ) http://eawag-bbd.ethz.ch/onb/onb_map.html lilia.romdhane@yahoo.fr 21 lilia.romdhane@yahoo.fr 23 UniProt (http://www.uniprot.org ) UniProt (http://www.uniprot.org ) lilia.romdhane@yahoo.fr 22 lilia.romdhane@yahoo.fr 24 UniProt (http://www.uniprot.org ) UniProt (h<p://www.uniprot.org ) lilia.romdhane@yahoo.fr 25 lilia.romdhane@yahoo.fr 27 UniProt (http://www.uniprot.org ) UniProt (http://www.uniprot.org ) lilia.romdhane@yahoo.fr 26 lilia.romdhane@yahoo.fr 28 UniProt (http://www.uniprot.org ) • Pour la séance prochaine: • Recherchez les mêmes informations pour la même protéine mais chez Pseudomonas fluorescens lilia.romdhane@yahoo.fr 29 lilia.romdhane@yahoo.fr 31 PDB, Protein Data Bank UniProt (http://www.uniprot.org) (h<p://www.pdb.org/pdb/home/home.do ) o Principale banque internationale de structures tridimensionnelles (1971) o Les entrées :Structures de protéines + structures de molécules d’ADN et d’ARN o Méthodes= Cristallographie aux rayons X + Résonance Magnétique Nucléaire (RMN) + Microscopie électronique o Entrées: informations sur les structures primaires et secondaires, coordonnées atomiques, quelques détails sur les expériences (conditions de cristallisation, statistiques d’affinement…), références bibliographiques o Défauts: Redondance importante car plusieurs structures 3D peuvent correspondre à la même séquence selon les conditions d’obtention de la structure ou la finesse de sa résolution lilia.romdhane@yahoo.fr 30 lilia.romdhane@yahoo.fr 32 PDB, Protein Data Bank Les banques de données spécialisées (http://www.pdb.org/pdb/home/home.do ) • Ces banques contiennent des données homogènes • Collecte établie autour d’une thématique particulière • Avantages : Mise à jour facile des données, vérifier leur intégrité, offrir une interface adaptée, … • Inconvénients : ne cible pas toujours ce que l’on veut; toutes les banques possibles n’existent pas • Exemples : banques spécialisées pour un génome, banques de séquences d'immunologies, banques sur des séquences validées, … lilia.romdhane@yahoo.fr 33 lilia.romdhane@yahoo.fr 35 PDB, Protein Data Bank (http://www.pdb.org/pdb/home/home.do ) Les banques spécialisées ou thématiques Catégorie 1: En rapport avec des séquences biologiques • Réunissent au sein d’une même structure des séquences nucléotidiques ou protéiques sélectionnées selon un critère précis: • Une structure moléculaire (Gene, Mutation, ….) • Même génome (Homme, Souris, Rat….) • Regroupement en familles (orthologues, enzymes,…) • Présence d’un motif ou d’un domaine protéique (Site de liaison de facteur de transcription, domaine protéique….) lilia.romdhane@yahoo.fr 34 lilia.romdhane@yahoo.fr 36 Bases de données dédiées aux séquences de GOLD, statistiques génomes: Séquençage de génomes • 1995 : Séquençage de la 1ère bactérie, Haemophilus influenzae (1,83 Mb) (Fleischmann). • 1996 : Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb) (Dujon). • 1998 : Séquençage du 1er organisme pluricellulaire, Caenorhabdi8s elegans (100 Mb). • 2000 : Séquençage du 1er génpme de plante, Arabidopsis thaliana (157 Mb) • 2001 : Annonce du décryptage presque complet du génome humain (février). • 2008: Projet 1000 Genomes lilia.romdhane@yahoo.fr lilia.romdhane@yahoo.fr 37 39 Les projets de séquençage (source : GOLD) Navigateurs de génomes (Genome Browsers): • Source : GOLD (https://gold.jgi.doe.gov/) Ensembl (http://www.ensembl.org/index.html) o Système bioinformatique d’annotation automatique de génomes. o Projet conjoint entre EBI et le Wellcome Trust Sanger Institute o Annotation automatique: tenter d’identifier l’ensemble de gènes qu’un génome contient + polymorphismes + éléments régulateurs des gènes + informations sur les protéines codées par les gènes + gènes similaires d’autres organismes + maladies génétiques lilia.romdhane@yahoo.fr 38 lilia.romdhane@yahoo.fr 40 Ensembl Ensembl (http://www.ensembl.org/index.html) (http://www.ensembl.org/index.html ) Zoom sur la région 41 43 lilia.romdhane@yahoo.fr lilia.romdhane@yahoo.fr Ensembl EnsemblBacteria (h<p://www.ensembl.org/index.html ) (https://bacteria.ensembl.org/index.html ) Localisation sur le chromosome Zoom sur la région 42 lilia.romdhane@yahoo.fr 44 lilia.romdhane@yahoo.fr EnsemblBacteria EnsemblBacteria (https://bacteria.ensembl.org/index.html ) (https://bacteria.ensembl.org/index.html ) lilia.romdhane@yahoo.fr 45 lilia.romdhane@yahoo.fr 47 EnsemblBacteria EnsemblFungi (https://fungi.ensembl.org/index.html ) (https://bacteria.ensembl.org/index.html ) lilia.romdhane@yahoo.fr 46 lilia.romdhane@yahoo.fr 48 RefSeq, quelques numéros d’accession Les banques spécialisées ou thématiques Catégorie 1: En rapport avec des séquences biologiques NR_123456.1 XR_123456.1 Autres ARN Autres ARN Transcription qUne structure moléculaire : Génome NC_123456.1 Chromosomes qExemple: RefSeq Transcription NM_123456.1 XM_123456.1 ARNm ARNm Traduction NP_123456.1 XP_123456.1 Protéines Protéines Soumission à GenBank Issues de prédiction, produite par le projet d’annotation de lilia.romdhane@yahoo.fr 49 génome du NCBI 51 RefSeq (NCBI) = Reference Sequence collection Différents niveaux de correction des données Reviewed: o Générée et gérée au NCBI depuis 2003: nRevu par un membre du NCBI qui a ajouté des informations provenant de « The Reference Sequence (RefSeq) collection aims to provide a publications scientifiques et de différentes entrées de séquences comprehensive, integrated, non-redundant set of sequences, including § Validated: genomic DNA, transcript (RNA), and protein products, for major research nUne première révision a été effectuée par un membre du NCBI, mais organisms » l’annotation est en cours « Curated collections from a number of biologically significant organisms » § Provisional: oAvantages: nEntrée non lue par un annotateur, mais qui contient surement un vrai nNon redondante transcrit ou une vraie protéine nLiens explicites entre les séquences nucléiques et protéiques § Predicted: nMises à jour régulière par le personnel du NCBI avec indication du statut de nTranscrit ou protéine issu d’une prédiction à l’aide d’un programme l’entrée informatique nValidation des données nSynthèse des informations issues de plusieurs entrées nucléiques ou protéiques Entrez Gene RefSeq, les staMsMques http://www.ncbi.nlm.nih.gov/gene/ Statistiques du 10 Octobre 2020: • Entrez Gene fournit des informations centrées sur les gènes de différents génomes: séquences, expression, fonction, bibliographie, homologie • Chaque gène n’est intégré dans la base de données que si sa séquence existe déjà dans RefSeq Statistiques lilia.romdhane@yahoo.fr 53 lilia.romdhane@yahoo.fr 55 Gene Les banques spécialisées ou thématiques Catégorie 1: En rapport avec des séquences biologiques qUne structure moléculaire: Un gène qExemple: Entrez Gene Exemple de requêtes: lilia.romdhane@yahoo.fr 54 Entrez Gene (http://www.ncbi.nlm.nih.gov/gene/ ) Entrez Gene http://www.ncbi.nlm.nih.gov/gene/ lilia.romdhane@yahoo.fr 57 lilia.romdhane@yahoo.fr 59 Entrez Gene h8p://www.ncbi.nlm.nih.gov/gene/ Entrez Gene Accès à la séquence du gène lilia.romdhane@yahoo.fr 58 lilia.romdhane@yahoo.fr 60 Entrez Gene http://www.ncbi.nlm.nih.gov/gene/ Bases de données dédiées à la variabilité du génome (http://www.ncbi.nlm.nih.gov/SNP/) • Définition SNP (Single nucleotide polymorphism): Polymorphisme nucléotidique ou polymorphisme d’un seul nucléotide: • Variation = polymorphisme d’une seule paire de bases du génome entre individus d’une même espèce • Environ toutes les 300 bases ~ 10 millions de SNP • 90% des variations génétiques humaines • Fréquence allélique > 1% • Localisations: Exons, introns, régions intergéniques • Types de polymorphismes: • Dans des séquences non codantes: ncSNP (non coding SNP) • Dans des séquences codantes: cSNP (coding SNP): • Synonymes: ne change pas le résidus (silencieux, non-sense) Accès à la séquence du gène • Non-synonymes: change l’acide aminé (missense), crée un stop ou décale le cadre de lecture. lilia.romdhane@yahoo.fr 61 lilia.romdhane@yahoo.fr 63 1001 Genomes: Diversité génétique d’Arabidopsis thaliana (http://1001genomes.org/index.html ) Les banques spécialisées ou thématiques Catégorie 1: En rapport avec des séquences biologiques q Une structure moléculaire: Polymorphismes q Exemple: dbSNP, 1001Genomes lilia.romdhane@yahoo.fr 62 64 lilia.romdhane@yahoo.fr 1001 Genomes: Prosite Diversité génétique d’Arabidopsis thaliana https://prosite.expasy.org/ (http://1001genomes.org/index.html) § Un domaine protéique § Arabidopsis thaliana : Famille des Brassicacées est une partie d’une protéine capable § Considérée en 1998 comme organisme modèle et de reference pour la recherche végétale, d’adopter une structure pour l’evolution, la génétique et la recherche fondamentale de manière autonome § Propriétés: Petite taille, cycle de vie rapide (6 semaines), résistance, autofécondation ou partiellement autonome du reste de la § Génome: séquencé totalement en 2000: 157 Mb répartis sur 5 paires de chromosomes molécule § Projet The 1001 Genomes Project a été lance en 2008 et va permettre le séquençage du § Les domaines génome de 1001 lignées isolées à travers le monde afin d’en déchifrer la variabilité protéiques forment en génétique général une structure compacte et stable. § Intérêt scientifique: § Ils peuvent porter q Détection des mines anti-personnel grâce aux graines d’A. thaliana qui changeraient de couleurs certaines fonctions en cas de culture au dessus d’une mine spécifiques de la q Une protéine histone (H2A.Z) est impliquée dans la detection de faibles variations de temperature protéine complète: en contrôlant l’accès à l’ADN de certaines molecules inhibant ou activant la transcription è ce liaison de ligand, bio-thermostat aidera à mieux comprendre certains effets des variations climatiques sur les interaction avec d’autres genes. macromolécules du site 65 catalytique. 67 lilia.romdhane@yahoo.fr lilia.romdhane@yahoo.fr Prosite https://prosite.expasy.org/ § Un profil de domaine conservé (graphique dit “logo”). Il indique la conservation des acides aminés à chaque position au sein d’un domaine protéique. Les banques spécialisées ou thématiques § Le logo est obtenu à partir d’une série de séquences protéiques. Catégorie 1: En rapport avec des séquences biologiques § Profil ”Prosite” pour le domaine de liaison à l’ADN “Zn(2)-C6, q Une structure moléculaire: Domaines protéiques caractéristique des champignons q Exemple: Prosite (ZN2_CY6_FUNGAL_2, PS50048): § 6 Cystéines très conservées caractériqtiques de ce domaine lilia.romdhane@yahoo.fr 66 68 lilia.romdhane@yahoo.fr KEGG (Kyoto Encyclopaedia of Genes and Genomes) Catégorie 2: Non en rapport avec des séquences biologiques • Les cartes métaboliques de KEGG présentent le détail des réactions q Regrouper des données qui abordent des aspects de la biologie moléculaire non d’une voie métabolique, en montrant les voies alternatives présentes directement liés aux séquences: chez différents organismes. § Métabolisme: KEGG (http://www.genome.jp/kegg/ ) § Réseaux d’interaction: STRING (http://string-db.org/ ) § Données d’expression: GEO (http://www.ncbi.nlm.nih.gov/gds/ ) § Bases de données de composés chimiques § Bases de données dédiées aux expériences à grande échelle q Informations détaillées spécifiques d’un domaine biologique: § Données contrôlées (experts du domaine) § Evolution plus facile en fonction des progrès scientifiques dans le domaine lilia.romdhane@yahoo.fr 69 lilia.romdhane@yahoo.fr 71 KEGG (Kyoto Encyclopaedia of Genes and Genomes) STRING (http://string-db.org/) • La « carte globale » donne une vue d’ensemble de la complexité du métabolisme. Chaque point représente une molécule, chaque ligne une réaction métabolique. https://www.genome.jp/kegg-bin/show_pathway?map01100 lilia.romdhane@yahoo.fr 70 lilia.romdhane@yahoo.fr 72 STRING (http://string-db.org/) 3-hydroxyanthranilate 3,4- dioxygenase 1 lilia.romdhane@yahoo.fr 73 Integration of bioinformatics to biodegradation • Quels types de bases de données a été abordé dans cet article ? • Chaque étudiant doit faire la présentation d’une base de données parmi celles citées dans le documents dans au plus 3 diapos pour la séance prochaine. lilia.romdhane@yahoo.fr 74