Um Espaço Desafiador para os Profissionais de Computação

Katia S. Guimarães
katiag@cin.ufpe.br

Biologia Computacional

Seminário CIn – 14/dezembro/2007

Roteiro
• Breve Históric o d a Era Genômica

• Pós-Genom a , a Curta Era Proteômica
• A Essenc ia lid a d e d o Intera ctoma

• Nosso Tra b a lho d e Pesq uisa e Op ortunid a d es no CIn

Bio -info rm á tic a vs. Biolog ia Com p uta c iona l
Há muita c ontrovérsia q ua nto a estes term o s.

Pa ra a lg uns Bio-informá tica é uma esp ec ia liza ç ã o d a Info rm á tic a q ue tra ta d e d esenvo lver ferra m enta s p a ra lid a r c om d a d os b iológ ic os.
Biologia (Molecula r) Computa ciona l á rea d e p esq uisa q ue c om b ina c onhec im ento s d e Quím ic a , Físic a , Biolog ia , C. Com p uta ç ã o, Ma tem á tic a e Esta tístic a p a ra a ta c a r p ro b lema s d e Biolog ia Molec ula r.

Históric o d a Era Genô m ic a . Fra nç a .1990 Iníc io : Outub ro d e 1990 La nç a m ento d o Projeto Genoma Huma no .Seq üenc ia r o DNA huma no (3• 109 p b ) e . Alema nha e China .Id entific a r os estima d os 100 m il g enes. Pra zo: 15 a nos (term ina ria em 2005) Orç a m ento: US$3 b ilhões d e d óla res . Ja p ã o. Ato res Princ ip a is: Consórc io envolvend o EUA. Ing la terra .

Históric o d a Era Genô m ic a .1992 1992  Consórc io fa z ma p a s d os c ro m ossom os huma nos  Cra ig Venter. p esq uisa d or d o NIH. fund a The Institute for Genomic Research (TIGR) .

et a l. c o m a seq üênc ia d e DNA d a b a c téria Ha em op hilus influenza e (otite. Ad a m s MD.Históric o d a Era Genô m ic a . m ening ite) T ma nho: 2• 106 b p a Téc nic a : d oub le-b a rrel shotg un seq uenc ing Mais custo computacional Muito menos tempo e custo em labs. Fleisc hma nn RD. .1995 Grup o d e p esq uisa d ores d a TIGR p ub lic a na revista Sc ienc e o a rtig o Wh o l e -g e n o m e r a n d o m s e q u e n c i n g a n d a s s e m b l y o f H a e m o p h i l u s i n fl u e n z a e R d .

.

.

c o m o o b jetivo d e seq üenc ia r o g eno ma huma no em 03 a nos (2001).. . a o c usto d e US$300 m ilhões ( 1/ 10 d o o rç a m ento d o p rojeto d o Consórc io ).Históric o d a Era Genô m ic a – 96-98 Pesq uisa d ores d a TIGR p ub lic a m a s seq üênc ia s d e DNA d e o utra s b a c téria s Myc op la ma g enita luim (1996) (m enor b a c téria ) Metha noc oc c us ja nna sc hii (1997) 1998 Cra ig Venter se a ssoc ia c om a Ap p lied Bio system s p a ra fund a r a Celera Genomics Corp.

. Jun/ 2000 Bill Clinton e T ony Bla ir a nunc ia m a c o nc lusã o d o p rim eiro esb oç o d o g enoma huma no . c om um esb oç o em 2001. Dez/ 1999 É a nunc ia d o o seq üenc ia m ento d o p rim eiro c rom ossom o (no.Históric o d a Era Genô m ic a – 99-00 O Co nsórc io revê a s sua s p revisões. e a nunc ia a c o nc lusã o d o seq üenc ia m ento p a ra 2003. 22) p elo c onsórc io mund ia l.

W. et a l. Myers. M. C.Históric o d a Era Genô m ic a – Fev 2001 The Sequence of the Initia l Sequencing a nd Ana lysis Huma n Genome of the Huma n Genome J. Ada ms. Venter. D. . Consórcio Mundia l E.

Biologia Molecular 101 em 2 Minutos Cromossomos Genoma Célula DNA Genes são expressos. gerando proteínas O DNA contém genes que codificam proteínas Proteínas atuam sozinhas ou em complexos .

c. foram criadas inúmeras seqüências sobre o alfabeto {a.html .gov/Genbank/index.nih.O GenBank Do ponto de vista da computação.nlm. t} 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg Link: http://www. g.ncbi.

gov/Genbank/index.nih.O GenBank do NCBI Aproximadamente 85 bilhões de pares de base Link: http://www.ncbi.html .nlm.

O que fazer com tanta Letrinha? O genoma é como um livro dividido em capítulos (cromossomos) e estes em palavras (genes) .

Genes são transcritos e traduzidos dando origem a proteínas .

. ao invés dos 60 a 100 mil genes estimados a princípio.Mas se fosse muito simples não seria tão interessante Foram encontrados apenas cerca de 25mil genes.

Os genes dos eucariotos são compostos por exons e introns … .

.Os introns sempre desaparecem por ocasião do splicing. Os exons podem permanecer ou não.

Os genes têm a sua expressão controlada por Fatores de Transcrição O foco da atenção passou então para as proteínas . .

imediatamente antes do gene .Os níveis de expressão de um gene variam com os promotores que se ligam à região reguladora.

org/pdb/home/home.do . com suas estruturas e funções. Link para Expasy: http://ca.expasy.org/cgi-bin/prosite/PSView.rcsb.cgi?ac=P Link para PDB: http://www.O que é Proteômica? Proteômica é o estudo das proteínas.

O nível de expressão dos genes em diferentes condições ou em intervalos de tempo pode ser medido Em setembro de 2006. tomadas sobre mais de 200 organismos. o GEO (Gene Expression Omnibus) do NCBI continha mais de 3.2 bilhões de medidas. .

com muitos nós de grau baixo e poucos nós de grau alto (hubs) .Intera ç ões entre Proteína s Proteínas geralmente atuam em conjunto. e se organizam em redes do tipo small world.

Interações entre Proteínas Proteínas relacionadas funcionalmente encontram-se a uma distância muito pequena. . e em geral são vizinhas nos mapas de interação.

Doenças Humanas e Alvos de Drogas Nature Biotech. Out 2007 .

Dobramento de Proteínas Um problema bem Difícil .

Predição de Estrutura de Proteínas .

Dob ra m ento d e Proteína s Alp ha Helix .

Dobramento de Proteínas Beta Barrel .

.Docking e o Projeto de Drogas Detalhes como orientação e ângulo de ligação de todos os resíduos do sítio ativo são essenciais.

org/ . IBM anunciou um projeto orçado em $100 milhões de dólares em 5 anos. Objetivo: Construir um computador massivamente paralelo para ser aplicado no estudo de fenômenos biomoleculares. como protein folding. Nov/2007: http://www. IBM Research – Blue Gene supercomputadores que operam da ordem de 478 TFlops (continuado) e 596 TFlops no pique! Top 500 parallel Computers.The Blue Gene Projec t Em dezembro de 1999.top500.

Pred iç ã o d e Estrutura s d e Proteína s .SNPs (sing le nuc leotid e p olim o rp hism ) Novo! e Ha p lotyp ing .Nosso T b a lho Nesta Área ra No s últim os a nos tem os tra b a lha d o em : .Intera ç ã o entre Proteína s e Genes .Rec onstruç ã o d e Red es d e Genes (em g era l e rela c iona d a s a d o enç a s) .

Melo e G.Guima rã es IEE Elec tronic s Letters. 2004 . Guima rã es.Pred iç ã o d e Estrutura s d e Pro teína s Combining Few Neura l Networks for Effective Seconda ry Structure Prediction BIBE K. Ca va lc a nti e K. USA. Melo. Ma rç o 2003 Protein Seconda ry Structure Prediction: Efficient Neura l Network a nd Fea ture Extra ction Approa ches J. Ca va lc a nti 2003 Bethesd a . J. G.

Guima rã es Montrea l. Guima rã es Dezem b ro 2005 . Ag osto 2005 Analyzing the Effect of Prior Knowledge in Genetic Regulatory Network Inference Gusta vo Ba stos a nd Ka tia S.Rec onstruç ã o d e Red es d e Genes A Simpler Ba yesia n Network Model for IJCNN Genetic Regula tory Network Inference 2005 Gusta vo Ba stos a nd Ka tia S. CA.

Zotenko. R. S. T Przytycka . E. Novembro 2006 . K.Intera ç ã o entre Pro teína s e Genes Decomposition of overla pping protein complexes: A gra ph theoretica l method for a na lyzing sta tic a nd dyna mic protein a ssocia tions E. Jothi. R. Guima rã es. Abril 2006 Predicting doma in-doma in intera ctions using a pa rsimony a pproa ch K. S. Guima rã es. Zotenko. Jothi. T Przytycka .

1% diferença de um indivíduo pa ra outro.SNPs e Ha p lo typ ing … ataggtccCtatttcgcgcCgtatacacgggActata …  … ataggtccGtatttcgcgcCgtatacacgggTctata …  … ataggtccCtatttcgcgcCgtatacacgggTctata …  CCA GCT CCT 0. 80% da s va ria ções em SNPs Ponto frequente de ca ra cteriza çã o de doença s Aborda gens Combina toria is e Esta tísticos .

Sem iná rios Sem a na is A p a rtir d e 09 / ja neiro / 2008  Sem iná rio sema na l p a ra d isc ussã o d e tra b a lhos em Biolog ia Molec ula r. 10:30 à s 11:30hs Lo c a l: Aud itório d o CIn . Ho rá rio : Qua rta s. Os sem iná rios serã o a b ertos a tod o s.

Interesse em pesquisa (estud a r a rtig os c ientífic os. Os req uisitos sã o: .b r . fa zer d esenvo lvim ento e a ná lise d e d a d os.Disponibilida de de tempo Interessa d os: Ma nd a r históric o e CV p a ra ka tia g @c in.Op o rtunid a d e d e p esq uisa na á rea Nã o há q ua lq uer req uisito d e c o nhec im ento p révio d e Biolog ia .ufp e.Bom domínio de progra ma çã o . esc rever a rtig os) .