Um Espaço Desafiador para os Profissionais de Computação

Katia S. Guimarães
katiag@cin.ufpe.br

Biologia Computacional

Seminário CIn – 14/dezembro/2007

Roteiro
• Breve Históric o d a Era Genômica

• Pós-Genom a , a Curta Era Proteômica
• A Essenc ia lid a d e d o Intera ctoma

• Nosso Tra b a lho d e Pesq uisa e Op ortunid a d es no CIn

Bio -info rm á tic a vs. Biolog ia Com p uta c iona l
Há muita c ontrovérsia q ua nto a estes term o s.

Pa ra a lg uns Bio-informá tica é uma esp ec ia liza ç ã o d a Info rm á tic a q ue tra ta d e d esenvo lver ferra m enta s p a ra lid a r c om d a d os b iológ ic os.
Biologia (Molecula r) Computa ciona l á rea d e p esq uisa q ue c om b ina c onhec im ento s d e Quím ic a , Físic a , Biolog ia , C. Com p uta ç ã o, Ma tem á tic a e Esta tístic a p a ra a ta c a r p ro b lema s d e Biolog ia Molec ula r.

Pra zo: 15 a nos (term ina ria em 2005) Orç a m ento: US$3 b ilhões d e d óla res . Fra nç a . Alema nha e China .Id entific a r os estima d os 100 m il g enes.Seq üenc ia r o DNA huma no (3• 109 p b ) e . Ja p ã o.Históric o d a Era Genô m ic a . Ing la terra . Ato res Princ ip a is: Consórc io envolvend o EUA.1990 Iníc io : Outub ro d e 1990 La nç a m ento d o Projeto Genoma Huma no .

Históric o d a Era Genô m ic a . fund a The Institute for Genomic Research (TIGR) . p esq uisa d or d o NIH.1992 1992  Consórc io fa z ma p a s d os c ro m ossom os huma nos  Cra ig Venter.

Fleisc hma nn RD.1995 Grup o d e p esq uisa d ores d a TIGR p ub lic a na revista Sc ienc e o a rtig o Wh o l e -g e n o m e r a n d o m s e q u e n c i n g a n d a s s e m b l y o f H a e m o p h i l u s i n fl u e n z a e R d . m ening ite) T ma nho: 2• 106 b p a Téc nic a : d oub le-b a rrel shotg un seq uenc ing Mais custo computacional Muito menos tempo e custo em labs.Históric o d a Era Genô m ic a . . c o m a seq üênc ia d e DNA d a b a c téria Ha em op hilus influenza e (otite. Ad a m s MD. et a l.

.

.

..Históric o d a Era Genô m ic a – 96-98 Pesq uisa d ores d a TIGR p ub lic a m a s seq üênc ia s d e DNA d e o utra s b a c téria s Myc op la ma g enita luim (1996) (m enor b a c téria ) Metha noc oc c us ja nna sc hii (1997) 1998 Cra ig Venter se a ssoc ia c om a Ap p lied Bio system s p a ra fund a r a Celera Genomics Corp. c o m o o b jetivo d e seq üenc ia r o g eno ma huma no em 03 a nos (2001). a o c usto d e US$300 m ilhões ( 1/ 10 d o o rç a m ento d o p rojeto d o Consórc io ).

. c om um esb oç o em 2001. Dez/ 1999 É a nunc ia d o o seq üenc ia m ento d o p rim eiro c rom ossom o (no. e a nunc ia a c o nc lusã o d o seq üenc ia m ento p a ra 2003. Jun/ 2000 Bill Clinton e T ony Bla ir a nunc ia m a c o nc lusã o d o p rim eiro esb oç o d o g enoma huma no . 22) p elo c onsórc io mund ia l.Históric o d a Era Genô m ic a – 99-00 O Co nsórc io revê a s sua s p revisões.

W.Históric o d a Era Genô m ic a – Fev 2001 The Sequence of the Initia l Sequencing a nd Ana lysis Huma n Genome of the Huma n Genome J. . et a l. Venter. Ada ms. D. M. C. Myers. Consórcio Mundia l E.

gerando proteínas O DNA contém genes que codificam proteínas Proteínas atuam sozinhas ou em complexos .Biologia Molecular 101 em 2 Minutos Cromossomos Genoma Célula DNA Genes são expressos.

t} 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg Link: http://www.O GenBank Do ponto de vista da computação. c.html .ncbi. g.gov/Genbank/index.nih. foram criadas inúmeras seqüências sobre o alfabeto {a.nlm.

nih.nlm.ncbi.O GenBank do NCBI Aproximadamente 85 bilhões de pares de base Link: http://www.html .gov/Genbank/index.

O que fazer com tanta Letrinha? O genoma é como um livro dividido em capítulos (cromossomos) e estes em palavras (genes) .

Genes são transcritos e traduzidos dando origem a proteínas .

Mas se fosse muito simples não seria tão interessante Foram encontrados apenas cerca de 25mil genes. ao invés dos 60 a 100 mil genes estimados a princípio. .

Os genes dos eucariotos são compostos por exons e introns … .

. Os exons podem permanecer ou não.Os introns sempre desaparecem por ocasião do splicing.

Os genes têm a sua expressão controlada por Fatores de Transcrição O foco da atenção passou então para as proteínas . .

imediatamente antes do gene .Os níveis de expressão de um gene variam com os promotores que se ligam à região reguladora.

expasy.org/cgi-bin/prosite/PSView.do .org/pdb/home/home.O que é Proteômica? Proteômica é o estudo das proteínas. Link para Expasy: http://ca. com suas estruturas e funções.cgi?ac=P Link para PDB: http://www.rcsb.

2 bilhões de medidas. .O nível de expressão dos genes em diferentes condições ou em intervalos de tempo pode ser medido Em setembro de 2006. tomadas sobre mais de 200 organismos. o GEO (Gene Expression Omnibus) do NCBI continha mais de 3.

Intera ç ões entre Proteína s Proteínas geralmente atuam em conjunto. com muitos nós de grau baixo e poucos nós de grau alto (hubs) . e se organizam em redes do tipo small world.

Interações entre Proteínas Proteínas relacionadas funcionalmente encontram-se a uma distância muito pequena. e em geral são vizinhas nos mapas de interação. .

Out 2007 .Doenças Humanas e Alvos de Drogas Nature Biotech.

Dobramento de Proteínas Um problema bem Difícil .

Predição de Estrutura de Proteínas .

Dob ra m ento d e Proteína s Alp ha Helix .

Dobramento de Proteínas Beta Barrel .

Docking e o Projeto de Drogas Detalhes como orientação e ângulo de ligação de todos os resíduos do sítio ativo são essenciais. .

The Blue Gene Projec t Em dezembro de 1999. Objetivo: Construir um computador massivamente paralelo para ser aplicado no estudo de fenômenos biomoleculares. IBM Research – Blue Gene supercomputadores que operam da ordem de 478 TFlops (continuado) e 596 TFlops no pique! Top 500 parallel Computers. como protein folding. Nov/2007: http://www.top500.org/ . IBM anunciou um projeto orçado em $100 milhões de dólares em 5 anos.

Nosso T b a lho Nesta Área ra No s últim os a nos tem os tra b a lha d o em : .Intera ç ã o entre Proteína s e Genes .SNPs (sing le nuc leotid e p olim o rp hism ) Novo! e Ha p lotyp ing .Pred iç ã o d e Estrutura s d e Proteína s .Rec onstruç ã o d e Red es d e Genes (em g era l e rela c iona d a s a d o enç a s) .

Ca va lc a nti e K. Ma rç o 2003 Protein Seconda ry Structure Prediction: Efficient Neura l Network a nd Fea ture Extra ction Approa ches J.Guima rã es IEE Elec tronic s Letters. G. Guima rã es. 2004 . USA. Ca va lc a nti 2003 Bethesd a . Melo. J. Melo e G.Pred iç ã o d e Estrutura s d e Pro teína s Combining Few Neura l Networks for Effective Seconda ry Structure Prediction BIBE K.

Guima rã es Montrea l. Guima rã es Dezem b ro 2005 . Ag osto 2005 Analyzing the Effect of Prior Knowledge in Genetic Regulatory Network Inference Gusta vo Ba stos a nd Ka tia S. CA.Rec onstruç ã o d e Red es d e Genes A Simpler Ba yesia n Network Model for IJCNN Genetic Regula tory Network Inference 2005 Gusta vo Ba stos a nd Ka tia S.

Intera ç ã o entre Pro teína s e Genes Decomposition of overla pping protein complexes: A gra ph theoretica l method for a na lyzing sta tic a nd dyna mic protein a ssocia tions E. R. Abril 2006 Predicting doma in-doma in intera ctions using a pa rsimony a pproa ch K. Zotenko. Novembro 2006 . T Przytycka . T Przytycka . S. S. Zotenko. R. Guima rã es. K. E. Guima rã es. Jothi. Jothi.

SNPs e Ha p lo typ ing … ataggtccCtatttcgcgcCgtatacacgggActata …  … ataggtccGtatttcgcgcCgtatacacgggTctata …  … ataggtccCtatttcgcgcCgtatacacgggTctata …  CCA GCT CCT 0.1% diferença de um indivíduo pa ra outro. 80% da s va ria ções em SNPs Ponto frequente de ca ra cteriza çã o de doença s Aborda gens Combina toria is e Esta tísticos .

Sem iná rios Sem a na is A p a rtir d e 09 / ja neiro / 2008  Sem iná rio sema na l p a ra d isc ussã o d e tra b a lhos em Biolog ia Molec ula r. Os sem iná rios serã o a b ertos a tod o s. 10:30 à s 11:30hs Lo c a l: Aud itório d o CIn . Ho rá rio : Qua rta s.

Op o rtunid a d e d e p esq uisa na á rea Nã o há q ua lq uer req uisito d e c o nhec im ento p révio d e Biolog ia . fa zer d esenvo lvim ento e a ná lise d e d a d os. Os req uisitos sã o: .b r .Disponibilida de de tempo Interessa d os: Ma nd a r históric o e CV p a ra ka tia g @c in.Interesse em pesquisa (estud a r a rtig os c ientífic os. esc rever a rtig os) .ufp e.Bom domínio de progra ma çã o .

Sign up to vote on this title
UsefulNot useful