Vous êtes sur la page 1sur 10

BANCO DE DADOS BIOLGICO

EQUIPE: Cleyton Daniel Danilo Diana Glaydson Haury Marcos Victor

Recife, 10 de junho de 2009

Banco de Dados Biolgicos

ndice

Viso Geral......3 Recursos Principais.......5 Exemplos e Softwares.....7 Concluso......10 Bibliografia....10

Banco de Dados Biolgicos Banco de Dados Biolgicos Viso Geral


O que Banco de Dados Biolgico? Um Banco de dados biolgico constitui um grande conjunto de dados persistentes, geralmente associado a um software projetado para atualizar, consultar e recuperar componentes dos dados armazenados no sistema. Geralmente so tabelas que contm uma grande quantidade de registros. Por exemplo, um registro associado a uma seqncia de nucleotdeos, contm normalmente uma descrio do tipo de molcula, seu nome cientfico, alm disso citaes na literatura correspondentes a esta seqncia. Para os pesquisadores que se beneficiam com os dados guardados em um banco de dados, dois requisitos so precisos: Fcil acesso s informaes. (Eficcia) Mtodos para extrair somente as informaes necessrias para responder a uma especfica pergunta biolgica. (Objetivo)

O objetivo O principal objetivo permitir integrar e consultar, de forma otimizada, dados de seqncias de DNA, padres de expresso de genes, estrutura de protenas, conseqncias clnicas, dentre outros elementos resultantes de pesquisas efetuadas em um projeto genoma*. *Projeto Genoma o nome de um trabalho conjunto realizado por diversos pases visando desvendar o cdigo gentico de um organismo (podendo ser animal, vegetal, de fungos, bactrias ou de um vrus) atravs do seu mapeamento. Seu marco inicial considerado o Projeto Genoma Humano. Projeto GMOD O Generic Model Organism Database Project um projeto open source, cujo objetivo desenvolver um conjunto completo de softwares para a criao e administrao de um banco de dados biolgico. GMOD (2004). Financiado pelo NIH (National Institute of Health) e pelo USDA Agricultural Research Service. Citrina: O Citrina consiste em uma ferramenta de gerncia que permite automatizar o espelhamento e processamento de bancos de dados que esto distribudos atravs de diversos servidores FTP. A mesma foi desenvolvida atravs da tecnologia Java Ant, o que a torna mais flexvel e portvel. Um exemplo de uso para o Citrina seria a transferncia de Chado SQL entre vrios sites de organismos e a populao automtica dos diversos bancos de dados PostgreSQL atravs dos recursos de SQL fornecidos pela tecnologia Java Ant. 3

Banco de Dados Biolgicos

BioMart: Sistema de Integrao de dados orientado a consultas, baseado na idia de data warehouse. Sistema de Consultas desenvolvido especificamente para uso de grandes bancos de dados. Simplifica a tarefa de integrao entre diferentes bancos de dados distribudos pela rede. Chado: Segundo Chado (2004), consiste em um ... conjunto de mdulos de um esquema destinados construo de um esquema de banco de dados biolgico relacional.... O Chado foi desenvolvido com o intuito de ser aplicado, especificamente, a um banco de dados open source, como o caso do PostGreSQL (PostgreSQL, 2004) e do MySQL (MySQL, 2004). Alm disso, outro pr-requisito para o funcionamento eficiente do Chado a configurao de diversos pacotes BioPerl (BioPerl, 2004). O Chado est sendo utilizado atualmente pelo FlyBase (FlyBase, 2004) e pelo Berkeley Drosophila Genome Project (BDGP, 2004). O Chado, o qual constitui um dos subprojetos do GMOD, apresenta-se como um esquema mais simples e genrico para a representao de dados biolgicos. Este esquema ainda se encontra em desenvolvimento, o que pode ser verificado na grande simplicidade nos mdulos responsveis pela representao de mapas genticos, interaes genticas e expresso gnica. Todos os dados resultantes das anlises de um projeto genoma so armazenados nos chamados bancos de dados biolgicos. Inicialmente, cada laboratrio desenvolveu o seu prprio banco de dados, contemplando somente as necessidades do projeto genoma por ele sendo executado. Um banco de dados genmico para os bilogos geralmente um web site que apresenta informaes que muitas vezes esto armazenadas em arquivos texto. Outras vezes, os dados podem at estar em SGBDs, mas isto s comeou a se tornar realidade h poucos anos. Por exemplo, o www.plasmodb.org, um "banco de dados genmico" do Plasmodium (causador da malria) usa dados armazenados tanto em arquivos texto quanto em Oracle. A migrao vem se dando h pouco tempo. O banco de dados biolgico mais famoso o GenBank.

Banco de Dados Biolgicos Recursos Principais de banco biolgico


Um dos mais importantes desafios para a biologia ps-genmica atender a estrutura e o comportamento das interaes moleculares complexas que controlam o comportamento celular. Para tanto essencial integrao dos dados biolgicos referentes a estas interaes armazenadas em diversos bancos de dados. Este um problema difcil, pois estes dados esto disponveis em banco de dados pblicos espalhados geograficamente na rede mundial de computadores, e cada um destes possui um sistema diferente de gerenciamento, formato ou viso de como representar os dados. Os principais problemas para a realizao desta tarefa so: a necessidade de se desenvolver e aplicar parsers para cada banco de dados sem ausncia de um vocabulrio unificado. Como uma alternativa para facilitar estes problemas, este trabalho prope a ontologia MONET (Molecular Network Ontology) que tem como objetivo ser um modelo integrado para a rede de redes que existe dentro da celula. Tal viso integrada ajuda a entender as interaes de larga escala responsveis pelo comportamento da clula, e permite a predio do comportamento celular que pode ser experimentalmente testado. A ontologia engloba o metabolismo e a integrao protena-protena para os organismos procariotos e eucariotos, e regulao gnica para seres procariotos. Como resultado, este trabalho proporcionou uma padronizao dos termos usados nas trs reas abarcadas pela ontologia e a populao da ontologia com dados referentes bactria E.coli. A partir desta integrao construmos a rede integrada da bactria, e com o conhecimento representado realizamos experimentos de aprendizado de mquina para a predio da essencialidade de um gene com base na anlise topolgica da rede de interaes, utilizando o algoritmo J48, obteve-se uma cobertura de 85,7 por cento para o melhor resultado. Alm disto, caracterizamos a rede integrada da E.coli, como uma rede livre de escala hierrquica Sendo a eficincia um problema constantemente observado em praticamente todos os textos lidos sobre banco de dados biolgicos, problema encontrado mais especificamente nas buscas e no tratamento destes dados. Principalmente porque os sistemas de banco de dados atuais esto prontos para informaes simples no alcanaram ainda a complexidade biolgica com todas as suas mincias e com relacionamentos que transcendem a capacidade dos sistemas atuais. Os principais recursos disponveis at o momento para se tentar encontrar a melhor forma de armazenamento e de pesquisa (SQL), atravs de tcnicas diferenciadas para o tratamento destes dados gerados pelas pesquisas biolgicas so: SGBDs que possuem suporte para a criao de novos tipos de dados e mtodos atravs de um banco dados extensvel dando apoio as necessidades do sistema, 5

Banco de Dados Biolgicos


definido novos tipos de dados capazes de criar entidades de domnio, como sucesso genotpica entre outras, usando operadores definidos pelo usurio como: indexao de domnio especfico, fornecendo apoio para ndices especficos de dados biolgicos e otimizar a extensibilidade, fazendo assim uma ordenao inteligente dos predicados em questo, envolvendo tipos de dados definidos pelo usurio. Warehouses, ou armazns de dados, geralmente um banco de dados relacional apresentando uma viso consistente dos dados, um problema para a criao em bioinformtica a necessidade de uma infra estrutura flexvel ao ponto de controlar a dinmica do domnio, so constitudos de cinco camadas: as fontes de dados, os Wrappers, o mediador, o data werehouse e o usurio. Fontes de dados origem dos dados a serem adicionados ao warehouse. Wrappers analisadores gramaticais de dados. Mediador traduz os dados para apresentao do Data Warehouse. Data Warehouse dados. repositrio de

Usurios interagem com o sistema atravs de uma interface.

XML (DTD) que permite converses entre bancos de dados que se utilizam de diferentes tecnologias de XML. A idia criar um banco de dados XML bem formulado capaz de integrar dano de dados diferentes, criando um repositrio de informao biolgica. O problema integrar diversas bases de dados XML cujos dados no possuem uma estrutura padro, podendo variar o tipo de uma base para outra. SGBD ad-hoc, um gerenciador de Baco de dados voltado especificamente para lidar com dados biolgicos. Um problema para esta aplicao o alto custo e pouca abrangncia, o que os torna economicamente inviveis.

Banco de Dados Biolgicos Exemplos e Softwares de bancos de dados pblicos para biologia molecular
1 - Bancos de dados primrios (seqncias de nucleotdeos) NCBI, EMBL, DDBJ Armazenam seqncias de nucleotdeos de todos os organismos Eles trocam informao e so fontes para outros bancos de dados. 2 - Meta-databases ENTREZ

Interface por meio da qual todos os seus BDs componentes podem ser acessados.

3 - Bancos de dados genmicos Ensembl, SGD, TAIR Ensembl fornece: - Genomas completos e diversos. - Anotao de SNPs - Alinhamento com seqncias homlogas de outros organismos. - Correlaes com outros bancos de dados. SGD (Saccharomyces Genome Database ) fornece: -Genoma completo -Fentipos de mutantes especficos para cada gene -Dados de expresso gnica 7 TAIR fornece: -Genoma completo -Localizao das inseres de T-DNA -Dados de expresso gnica

Banco de Dados Biolgicos


4 - Bancos de dados de protenas UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY UniProt: Consrcio que visa fornecer anotao relevante e curada de Protenas. Baseiam-se em dados de protemica (principalmente), genmica e transcriptmica. Protenas anotadas so includas no UniProtKB-SwissProtTradues de genes depositados no EBI so includos no UniProt-TrEMBL. ExPasy: Sistema de anlise e recuperao de informao de protenas. Produz as anotaes para o UniProtKB/SwissProt Possui uma srie de ferramentas para anlise de protenas 5 - Bancos de dados de estrutura de protenas PDB

Anota, cataloga e distribui conjuntos de coordenada atmicas de macromolculas PDB (World Wide Protein Data Bank) fornece: - Detalhes experimentais sobre a gerao da estrutura. - Atribuies da estrutura - Coordenaes atmicas - Links para outros bancos de dados 6 - Bancos de domnios e motivos proticos PFAM, SMART, PROSITE, PRODOM, PRINTS

- Anotam e catalogam domnios ou motivos proticos. Fazem comparaes entre seqncia de consulta e banco de dados.

7 - Bancos de vias metablicas KEGG, BioCyc Kegg coleo de bancos de dados on-line que ligam genomas com vias enzimticas 8

Banco de Dados Biolgicos


8 - Bancos de dados de expresso gnica ArrayExpress, GEO - Banco de dados de depsito de dados de expresso gnica em larga escala (ArrayExpress somente microarranjos)

9 - Bancos de ontologia Gene Ontology

Gene Ontology (GO) project, fornece um vocabulrio controlado para descrever genes e produtos gnicos de um organismo. Ontologias: Molecular Function (atividade enzimtica, funo biolgica) Biological process (processo em que a protena est envolvida), Cellular component (Compartimento onde a protena se localiza) As ontologias so estruturadas como grafos acclicos diretos. Parece uma Hierarquia, porm termos mais especializados (filhos) Podem ser relacionados a mais de um termo menos especializado (pai).

Banco de Dados Biolgicos Concluso


At o presente momento, no existe um esforo maior para se tentar encontrar Um padro para ser adotados na elaborao e construo de novos bancos de dados com objetivo especfico de atender s necessidades da bioinformtica, o que impossibilita de certa forma, a troca de informaes sobre projetos que envolvam dados biolgicos pelos mais diversos centros de pesquisa espalhados geograficamente. A utilizao de data warehouse uma soluo interessante quando falamos em interligar bases biolgicas de vrias entidades, mas esta soluo no pode ser aplicada separadamente, sem utilizarmos formas de otimizao de pesquisas e tratamento dos dados biolgicos, pois se somente a integrao destes bancos no nos garante que as buscas por informaes referentes a dados biolgicos v se dar de uma forma eficaz. A utilizao de tecnologias XML muito interessante, mas esta tecnologia ainda no est bem formulada para o domnio de dados biolgicos, sendo implementada e testada aos poucos, principalmente se apoiando nos conceitos oferecidos pela W3C.

BIBLIOGRAFIAS:
http://imgproj.cs.man.ac.uk/tambis/ http://www.ncbi.nlm.nih.gov/Genbank/ III Congresso Cientfico do CEULP/ULBRA(PADRES DE TIPOS E MTODOS PARA BANCO DE DADOS EM BIOINFORMTICA.pdf)

10

Vous aimerez peut-être aussi