Um Espaço Desafiador para os Profissionais de Computação

Katia S. Guimarães
katiag@cin.ufpe.br

Biologia Computacional

Seminário CIn – 14/dezembro/2007

Roteiro
• Breve Históric o d a Era Genômica

• Pós-Genom a , a Curta Era Proteômica
• A Essenc ia lid a d e d o Intera ctoma

• Nosso Tra b a lho d e Pesq uisa e Op ortunid a d es no CIn

Bio -info rm á tic a vs. Biolog ia Com p uta c iona l
Há muita c ontrovérsia q ua nto a estes term o s.

Pa ra a lg uns Bio-informá tica é uma esp ec ia liza ç ã o d a Info rm á tic a q ue tra ta d e d esenvo lver ferra m enta s p a ra lid a r c om d a d os b iológ ic os.
Biologia (Molecula r) Computa ciona l á rea d e p esq uisa q ue c om b ina c onhec im ento s d e Quím ic a , Físic a , Biolog ia , C. Com p uta ç ã o, Ma tem á tic a e Esta tístic a p a ra a ta c a r p ro b lema s d e Biolog ia Molec ula r.

Históric o d a Era Genô m ic a . Alema nha e China .Seq üenc ia r o DNA huma no (3• 109 p b ) e . Ato res Princ ip a is: Consórc io envolvend o EUA.1990 Iníc io : Outub ro d e 1990 La nç a m ento d o Projeto Genoma Huma no . Fra nç a . Ja p ã o. Ing la terra .Id entific a r os estima d os 100 m il g enes. Pra zo: 15 a nos (term ina ria em 2005) Orç a m ento: US$3 b ilhões d e d óla res .

Históric o d a Era Genô m ic a . p esq uisa d or d o NIH.1992 1992  Consórc io fa z ma p a s d os c ro m ossom os huma nos  Cra ig Venter. fund a The Institute for Genomic Research (TIGR) .

Ad a m s MD.Históric o d a Era Genô m ic a . c o m a seq üênc ia d e DNA d a b a c téria Ha em op hilus influenza e (otite.1995 Grup o d e p esq uisa d ores d a TIGR p ub lic a na revista Sc ienc e o a rtig o Wh o l e -g e n o m e r a n d o m s e q u e n c i n g a n d a s s e m b l y o f H a e m o p h i l u s i n fl u e n z a e R d . . Fleisc hma nn RD. et a l. m ening ite) T ma nho: 2• 106 b p a Téc nic a : d oub le-b a rrel shotg un seq uenc ing Mais custo computacional Muito menos tempo e custo em labs.

.

.

. c o m o o b jetivo d e seq üenc ia r o g eno ma huma no em 03 a nos (2001). a o c usto d e US$300 m ilhões ( 1/ 10 d o o rç a m ento d o p rojeto d o Consórc io ). .Históric o d a Era Genô m ic a – 96-98 Pesq uisa d ores d a TIGR p ub lic a m a s seq üênc ia s d e DNA d e o utra s b a c téria s Myc op la ma g enita luim (1996) (m enor b a c téria ) Metha noc oc c us ja nna sc hii (1997) 1998 Cra ig Venter se a ssoc ia c om a Ap p lied Bio system s p a ra fund a r a Celera Genomics Corp.

Jun/ 2000 Bill Clinton e T ony Bla ir a nunc ia m a c o nc lusã o d o p rim eiro esb oç o d o g enoma huma no . Dez/ 1999 É a nunc ia d o o seq üenc ia m ento d o p rim eiro c rom ossom o (no. 22) p elo c onsórc io mund ia l.Históric o d a Era Genô m ic a – 99-00 O Co nsórc io revê a s sua s p revisões. c om um esb oç o em 2001. e a nunc ia a c o nc lusã o d o seq üenc ia m ento p a ra 2003. .

Myers. et a l. Venter. Ada ms.Históric o d a Era Genô m ic a – Fev 2001 The Sequence of the Initia l Sequencing a nd Ana lysis Huma n Genome of the Huma n Genome J. D. W. . C. M. Consórcio Mundia l E.

Biologia Molecular 101 em 2 Minutos Cromossomos Genoma Célula DNA Genes são expressos. gerando proteínas O DNA contém genes que codificam proteínas Proteínas atuam sozinhas ou em complexos .

nlm. foram criadas inúmeras seqüências sobre o alfabeto {a. c.O GenBank Do ponto de vista da computação. t} 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg Link: http://www. g.gov/Genbank/index.nih.html .ncbi.

ncbi.O GenBank do NCBI Aproximadamente 85 bilhões de pares de base Link: http://www.nih.html .nlm.gov/Genbank/index.

O que fazer com tanta Letrinha? O genoma é como um livro dividido em capítulos (cromossomos) e estes em palavras (genes) .

Genes são transcritos e traduzidos dando origem a proteínas .

. ao invés dos 60 a 100 mil genes estimados a princípio.Mas se fosse muito simples não seria tão interessante Foram encontrados apenas cerca de 25mil genes.

Os genes dos eucariotos são compostos por exons e introns … .

Os exons podem permanecer ou não. .Os introns sempre desaparecem por ocasião do splicing.

Os genes têm a sua expressão controlada por Fatores de Transcrição O foco da atenção passou então para as proteínas . .

imediatamente antes do gene .Os níveis de expressão de um gene variam com os promotores que se ligam à região reguladora.

org/pdb/home/home.rcsb. Link para Expasy: http://ca.org/cgi-bin/prosite/PSView.cgi?ac=P Link para PDB: http://www.do .O que é Proteômica? Proteômica é o estudo das proteínas. com suas estruturas e funções.expasy.

2 bilhões de medidas. . tomadas sobre mais de 200 organismos. o GEO (Gene Expression Omnibus) do NCBI continha mais de 3.O nível de expressão dos genes em diferentes condições ou em intervalos de tempo pode ser medido Em setembro de 2006.

com muitos nós de grau baixo e poucos nós de grau alto (hubs) .Intera ç ões entre Proteína s Proteínas geralmente atuam em conjunto. e se organizam em redes do tipo small world.

Interações entre Proteínas Proteínas relacionadas funcionalmente encontram-se a uma distância muito pequena. . e em geral são vizinhas nos mapas de interação.

Doenças Humanas e Alvos de Drogas Nature Biotech. Out 2007 .

Dobramento de Proteínas Um problema bem Difícil .

Predição de Estrutura de Proteínas .

Dob ra m ento d e Proteína s Alp ha Helix .

Dobramento de Proteínas Beta Barrel .

.Docking e o Projeto de Drogas Detalhes como orientação e ângulo de ligação de todos os resíduos do sítio ativo são essenciais.

org/ . IBM anunciou um projeto orçado em $100 milhões de dólares em 5 anos. Objetivo: Construir um computador massivamente paralelo para ser aplicado no estudo de fenômenos biomoleculares. Nov/2007: http://www. como protein folding. IBM Research – Blue Gene supercomputadores que operam da ordem de 478 TFlops (continuado) e 596 TFlops no pique! Top 500 parallel Computers.The Blue Gene Projec t Em dezembro de 1999.top500.

SNPs (sing le nuc leotid e p olim o rp hism ) Novo! e Ha p lotyp ing .Intera ç ã o entre Proteína s e Genes .Rec onstruç ã o d e Red es d e Genes (em g era l e rela c iona d a s a d o enç a s) .Pred iç ã o d e Estrutura s d e Proteína s .Nosso T b a lho Nesta Área ra No s últim os a nos tem os tra b a lha d o em : .

Ma rç o 2003 Protein Seconda ry Structure Prediction: Efficient Neura l Network a nd Fea ture Extra ction Approa ches J. Melo e G.Guima rã es IEE Elec tronic s Letters. 2004 . Melo.Pred iç ã o d e Estrutura s d e Pro teína s Combining Few Neura l Networks for Effective Seconda ry Structure Prediction BIBE K. Ca va lc a nti e K. G. USA. J. Guima rã es. Ca va lc a nti 2003 Bethesd a .

CA. Guima rã es Montrea l. Ag osto 2005 Analyzing the Effect of Prior Knowledge in Genetic Regulatory Network Inference Gusta vo Ba stos a nd Ka tia S.Rec onstruç ã o d e Red es d e Genes A Simpler Ba yesia n Network Model for IJCNN Genetic Regula tory Network Inference 2005 Gusta vo Ba stos a nd Ka tia S. Guima rã es Dezem b ro 2005 .

Abril 2006 Predicting doma in-doma in intera ctions using a pa rsimony a pproa ch K. Jothi. S. Novembro 2006 .Intera ç ã o entre Pro teína s e Genes Decomposition of overla pping protein complexes: A gra ph theoretica l method for a na lyzing sta tic a nd dyna mic protein a ssocia tions E. R. Zotenko. T Przytycka . K. Zotenko. Guima rã es. S. Guima rã es. Jothi. T Przytycka . R. E.

1% diferença de um indivíduo pa ra outro.SNPs e Ha p lo typ ing … ataggtccCtatttcgcgcCgtatacacgggActata …  … ataggtccGtatttcgcgcCgtatacacgggTctata …  … ataggtccCtatttcgcgcCgtatacacgggTctata …  CCA GCT CCT 0. 80% da s va ria ções em SNPs Ponto frequente de ca ra cteriza çã o de doença s Aborda gens Combina toria is e Esta tísticos .

Ho rá rio : Qua rta s.Sem iná rios Sem a na is A p a rtir d e 09 / ja neiro / 2008  Sem iná rio sema na l p a ra d isc ussã o d e tra b a lhos em Biolog ia Molec ula r. Os sem iná rios serã o a b ertos a tod o s. 10:30 à s 11:30hs Lo c a l: Aud itório d o CIn .

ufp e. Os req uisitos sã o: .Disponibilida de de tempo Interessa d os: Ma nd a r históric o e CV p a ra ka tia g @c in. esc rever a rtig os) . fa zer d esenvo lvim ento e a ná lise d e d a d os.Interesse em pesquisa (estud a r a rtig os c ientífic os.b r .Bom domínio de progra ma çã o .Op o rtunid a d e d e p esq uisa na á rea Nã o há q ua lq uer req uisito d e c o nhec im ento p révio d e Biolog ia .

Sign up to vote on this title
UsefulNot useful