Introducción a la Bioinformática

Carlos Gaete Eastman IBVB Universidad de Talca

Bioinformática
Definición intuitiva

Conjunto de herramientas informáticas que sugieren soluciones a problemas biológicos

Bioinformática
• Simulación cinética o metabólica • Bioquímica teórica, análisis estructural o energético de biomoléculas, predicción de estructura • Análisis y manipulación de secuencias de DNA o proteína

. organize. behavioral or health data.The development and application of data-analytical and theoretical methods.Bioinformática Definiciones oficial NIH Bioinformatics -Research. development. analyze. or visualize such data. mathematical modeling and computational simulation techniques to the study of biological behavioral. medical. and social systems. archive. or application of computational tools and approaches for expanding the use of biological. Computational Biology . including those to acquire store.

cálculo. gráficos) • Software: Conjunto de instrucciones interpretables por el computador (sistema operativo. memoria. para estudiar los fenómenos biológicos • Computador: – Aparato electrónico de múltiples componentes capaz de procesar y almacenar información en base a instrucciones • Hardware: Dispositivos electromecánicos de operación (unidades de almacenamiento temporal y permanente. programas.• Bioinformática: – Ciencia que utiliza herramientas informáticas basadas en modelos matemáticos y estadísticos. aplicaciones) . I/O.

• Programa: – Conjunto de instrucciones mediante las cuales un computador realiza una tarea • Algoritmo: – Set de instrucciones detallado para completar una tarea en una serie de pasos finitos • Heurística: Método de aplicación de un algoritmo basado en la experiencia de su aplicación • Base de Datos: – Repositorio de información estructurado y jerarquizado – Posee un lenguaje de consulta (SQL: Structured Query Languaje) .

Dogma Central de la Biología Molecular Transcripción Traducción DNA •Factores de Regulación •Promotores •Factores de transcripción •Secuencias no codificantes RNA •Intrones •Exones •Regiones de splicing alternativo •Tipos RNA •mRNA (solo exones) •tRNA (transferencia) •rRNA (ribosomal) Proteína •Modificación postranscripcional .

5 ~ 3% genoma codificante >40% DNA repetitivo Genes sobrelapados (2 o 3 frame) Splicing alternativo .Genes: Procariontes v/s Eucariontes • Procariontes: – ORF’s contiguos – Pocas y cortas secuencias intergénicas – Genes sobrelapados (2 o 3 frame) Eucariontes: ORF’s no contiguos Gran número de intrones por gen e.g. Humano: 1.

une el complejo de transcripción RNA-polimerasa) •Factores Regulatorios de Transcripción •Responsables de las diferencias de expresión •Promotores que activan o bloquean la expresión génica •Reconocen secuencias específicas de DNA de ~3 nucleótidos .Estructura de un Gen Eucarionte Promoter Region Transcript TF binding sites TATA box Transcription Initiation point Coding regions (exons) Non Coding regions (introns) •Factores Basales de Transcripción •Factores comunes a todos los genes •Maquinaria básica •TATA Box (TATA Binding Protein.

coli (bacteria) S. cerevisiae (levadura) Menor cromosoma humano Genoma humano completo 4.6 x 106 bases 15 x 106 bases 50 x 106 bases 3 x 109 bases ¿A mayor tamaño mayor complejidad? ¿De qué factor depende la complejidad? .Tamaño de Genomas • • • • E.

000 genes Levadura ~6. Elegans ~13. coli ~4.000 genes ¿20K Genes hacen la diferencia? • Regiones de control o regulación de expresión – Típicamente cercanas a genes – Determinan cuando y cuanto de un gen es expresado • “Junk” DNA (función desconocida) .000 genes Humanos ~32.000 genes C.¿Complejidad depende de los genes? Composición del DNA (eucarionte): • Regiones codificantes (“genes”) – – – – E.

Podemos identificar niveles de información en la célula .

......... Exon 3 Eco RI (3566) – ¿Equivalente a genes? – Bacteria: • • ~1 Kb x gen ~2 Mb x genoma mRNA 1 Eco RI (4432) Exon 2 Eco RI (3093) Ava I (3052) Pst I (2501) CDS 1 Hin dIII (4755) Pst I (5043) Eco RI (5461) Ava I (5558) Xma I (5558) Sma I (5560) II Cla I (6041) Ava I (5826) Sma I (1930) Xma I (1928) X V VII IX VIII Ava I (1928) Eco RI (1745) Exon 1 Bam HI (1144) Eco RI (992) Eco RI (632) Ava I (300) Sma I (277) Xma I (275) Ava I (275) Exon 4 Eco RI (6050) Ava I (6419) Xma I (6419) Sma I (6421) Eco RI (6681) IV Apa LI (4744) M13 6407 bp Exon 5 Ava I (7230) Xma I (7230) Sma I (7232) III Bam HI (2221) Ava I (243) Eco RI (30) Hin dIII (2) I VI Cla I (2529) Exon 6 Ava I (8396) AF274889S1 8483 bp ...........Información Molecular: Nivel I DNA • Secuencias DNA crudas: – ¿Codificante o no? • • • • Intrón Exón Promotor Factores de transcripción atggcaattaaaattggtatcaatggttttggtcgtatcggccgtatcgtattccgtgca gcacaacaccgtgatgacattgaagttgtaggtattaacgacttaatcgacgttgaatac atggcttatatgttgaaatatgattcaactcacggtcgtttcgacggcactgttgaagtg aaagatggtaacttagtggttaatggtaaaactatccgtgtaactgcagaacgtgatcca gcaaacttaaactggggtgcaatcggtgttgatatcgctgttgaagcgactggtttattc ttaactgatgaaactgctcgtaaacatatcactgcaggcgcaaaaaaagttgtattaact ggcccatctaaagatgcaacccctatgttcgttcgtggtgtaaacttcaacgcatacgca ggtcaagatatcgtttctaacgcatcttgtacaacaaactgtttagctcctttagcacgt gttgttcatgaaactttcggtatcaaagatggtttaatgaccactgttcacgcaacgact gcaactcaaaaaactgtggatggtccatcagctaaagactggcgcggcggccgcggtgca .....

Información Molecular: Nivel II Proteínas • Alfabeto de 20 letras (Amino ácidos. aa) – ACDEFGHIKLMNPQRSTVWY excluye BJOUXZ • ~300 aa de promedio para proteínas (bacteria) • ~200 aa para un dominio • ~200.000 secuencias de proteínas conocidas (PDB + Swissprot) .

Proteínas .Información Molecular: Nivel III Estructura 3D DNA – RNA .

proteínas y sus expresiones fenotípicas Vías de expresión proteica: – Proteína-Proteína – Metabólicas – Inmunológicas – Desarrollo – Adhesión – Apoptosis .Información Molecular: Nivel IV Metabolismo • • Relaciones entre genes.

Tarea de la Bioinformática Simplificación de Información 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 … ~20K – 40K Genes Humano ~3K – 5K Pliegues ~10K 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 … Genes C elegans ¿Es posible determinar función sobre la estructura o sobre la secuencia? .

Paradigma Bioinformático DNA •Secuencias •Genes •Factores de Transcripción •Genomas RNA •Secuencia •Intrón •Exón Proteína •Secuencias •Genes •Factores de Transcripción •Genomas Fenotipo •Normalidad •Enfermedad Vías Metabólicas Aplicaciones Bioinformáticas Bases de Datos •Predicción genes •Estructura proteica •Expresión génica y proteica •Ingeniería: •Genética •Proteica •Metabólica .

Mutación sitio dirigida • Modelos integrales: Membrana. Bombas. Receptores – Utilizar bases de datos relacionales para • Determinar genes relacionados a enfermedades genéticas • Relacionar estructura proteica con función . Canales Iónicos.Bioinformática: ¿Para qué sirve? • Dado la capacidad de obtener secuencias génicas y proteícas podemos: – Usar bases de datos de secuencias génicas para • Predecir genes por homología de secuencias • Predecir secuencias proteicas a partír de secuencias génicas • Estudiar relaciones evolutivas entre organismos – Usar bases de datos se secuencias proteícas para: • Predecir funcionalidad proteíca por similitud estructural y/o de secuencias • Predecir estructura secundaria y terciaria de proteínas • Predecir sitios activos – Utilizar modelos asistidos por computador • Genómica: Genomas. Diseño de organismos in sílico • Proteómica: Interacción Ligando-Receptor. Docking.

Rango de Acción de la Bioinformática Bases de Datos: Secuencias Genes Genomas Bases de Datos: Secuencias Proteínas Proteomas Bases de Datos: Vías Metabólicas y Estructurales Enfermedades Genéticas Interrelaciones Proteina-Proteina Secuencias Genómicas (Genómica) Proteínas (Proteómica) Vías de expresión (Metabolómica) .

uk/Projects/C_elegans/) 2001 Primer borrador del genoma humano (75 al 80%): Celera y National Human Genome Research (USA) .ebi.nih. US$3. primera secuencia pública 1990 1990 1995 NIH lanza proyecto genoma humano: 15 años.000 Millones.nlm.ddbj.Breve Historia • • • • 50’s Primeras bases de datos de archivos planos 60’s Protein information resource PIR: Base de datos de secuencias de proteínas (http://www-nbrf.uk) .) Primera genoma publicado: Hemophilus influenzae.ac. elegans Craig Venter funda Celera Genomics (http://www.ac. US$1 x bp BLAST: heurística de búsqueda (Altschul et al.edu) 70’s Genbank.ac. primera versión: Base de datos de secuencias génicas (http://www.1984 DDBJ (http://www.ncbi. TIGR • • • 1993 1998 Primera base de datos genómica en internet C.sanger.gov) 80’s – – – Modelos de datos relacionales 1980 EMBL (http://www.georgetown.jp) 1984 – 1986 Projecto piloto Genoma Humano: The Human Genome Initiative 1988 FASTA: Formato de archivo y heurística de búsqueda • 90’s – – – Métodos de alineamiento de secuencias.nig.

La Carrera Genómica Bacteria 1.6 Mb ~1600 genes [Science 269: 496] Eukaryote 13 Mb ~6K genes [Nature 387: 1] Animal ~100 Mb ~20K genes [Science 282: 1945] Human ~3 Gb ~100K genes [???] Human ~3 Gb ~20K – 40K genes [Science 291: 1304] 1995 1997 1998 2000 2001 .

FEBRERO 2001: Consorcio Público Celera Genomics .

.

.

.

.

..Secuenciación Síntesis paralela/combinatoria Screening masivo Separación Purificación Cristalización . .

Proteómica Genómica estructural Química combinatoria BIOINFORMÁTICA Genómica funcional FarmacoGenómica Secuenciación masiva .

Proyectos Genoma Secuenciación masiva Anotación genoma Determinación genoma .

.

¿Genes del Glaucoma? .

890.146 bases/día • Dobla el número de secuencias cada 14 meses aproximadamente GenBank .• GenBank ha crecido en forma exponencial desde 1994 • Entre 1999 y 2000 ha crecido a una tasa de 19.

Procesado imagen Explotación de datos Perfil expresión génica .Genómica funcional Análisis estadístico DNA-chips ….

• Análisis estadístico • Métodos de clustering • Redes neuronales • Gene ontology .

Genómica estructural Predicción funcional y estructural Selección modelos Rayos X NMR Homología Técnicas estructurafunción Modelización molecular Estructura 3D Estructura 3D Determinación función. Nuevas biomoléculas .

000 estructuras • Aumento de información en tasa exponencial .PDB • Más de 54.

Tasa negativa para nuevas formas 3D (SCOP) .

Secuencia DNA Secuencia Proteína Reconocimiento Molecular Estructura 3D .

La capacidad de reconocimiento es la base de la función biológica La estructura 3D es necesaria para el reconocimiento .

.

Rosalyn Franklin Mapa difracción B-DNA .

.

COX-2 ADA FKBP XO .

ATP (Mg) .ACV .

Proteómica Genómica funcional/estructural Determinación proteoma Teoría control metabólico Metaboloma .

PLASMA HUMANO .

Química combinatoria/HTS Chequeo masivo Diseño bibliotecas Síntesis Análisis masivos Modelización molecular Nuevos fármacos .

.

Pero volvamos al principio A la información primaria .

.......... ......CAGGC......FVG ESTRUCTURA Y FUNCION DE LAS PROTEINAS ..CCTTAACG .CCTTAACG. IDENTIFICAR LOS GENES ATTW...........CTTAGC..CAGGC.TWP AGG......PGL CC..........PROCESADO DE LA INFORMACION .......CTTAGC......

MEDIANTES ESTUDIOS EVOLUTIVOS SIMILITUD EN LAS SECUENCIAS BIOLOGICAS IMPLICA SIMILITUD DE ESTRUCTURA Y FUNCION .

. Proteína Secuencia Genómica cDNA.Flujo de información Sec.. Nueva Secuencia ¿Sabemos qué es? ¿Se parece a otras? ¿Podemos “Copiar” estructura? Función? .

La realidad de las secuencias obtenidas de los proyectos genoma Como anotamos las secuencias nuevas??? .

threading) Es posible efectuar predicciones estructurales de baja resolución. Homólogos remotos identificables por otros métodos (psi-blast. Es posible efectuar predicciones estructurales y funcionales fiables 2.. 3.. Sin homólogos detectables Predicciones 1D. pfam. clustal.. identificación de motivos de secuencia: Fiabilidad limitada . Homólogos identificables mediante alineamientos de secuencia (blast. No suele haber relaciones funcionales evidentes.).Grados de dificultad 1.

… •Recopilación de famílias estructurales: Pfam. Blocks. Clustal. PSIBlast. •Threading: 3D-PSSM. •Predicción 1D: PredictProtein (PHD). •Comparación y alineamiento de secuencias: Blast.... EMBL..... … .Herramientas •Bases de datos primarias: Swissprot.. PSORT. … •Identificación de motivos de secuencia: PROSITE.. GenBank. PDB.

• Derivadas – Confeccionadas a partir del procesado de los datos primarios. Contienen datos de secuencia y estructura con nula o poca información adicional. Ofrecen información adicional .Tipos de bases de datos • Primarias – Principales reservas de información.

corregidos y se añade información bibliográfica • Ejemplo SWISS-PROT – Derivadas computacionalmente • Ejemplo PFAM – Combinaciones específicas .Bases de datos Biológicas • Primarias – Información suministrada por trabajo experimental – La institución receptora organiza la información pero no añade nada • Ejemplo GenBank • Derivadas – Anotadas a posteriori • Los datos son revisados.

Res.Database Categories List Nuc. Ac. 2001 29(1) 1-10 Major Sequence Repositories (7) Comparative Genomics (2) Gene Expression (16) Gene Identification and Structure (23) Genetic and Physical Maps (11) Genomic Databases (33) Intermolecular Interactions (4) Metabolic Pathways and Cellular Regulation (10) Mutation Databases (35) Pathology (6) Protein Databases (42) Protein Sequence Motifs (16) Proteome Resources (5) RNA Sequences (24) Retrieval Systems and Database Structure (3) Structure (27) Transgenics (2) Varied Biomedical Content (15) .

.

Los componentes .

Nucleótidos y DNA .

BASES NITROGENADAS H N H3 C N N H O H N O H Pirimidinas N R O N R O N R O CITOSINA TIMINA URACILO H O H N N H N N N Purinas H N H N N R N N R GUANINA ADENINA .

LAS BASES POSEEN UNA HUELLA DACTILAR UNICA BASADA EN SU PAUTA DE PUENTES DE HIDROGENO H N4 C4 C5 C6 N1 R H O6 H N3 C2 O2 H N H N1 C2 N3 C6 C5 C4 N7 C8 N9 R CITOSINA GUANINA .

NUCLEOSIDO (base + azucar) NUCLEOTIDO (base + azucar + fosfato) NH2 NH2 N N N N HOH2 C C4 ' C3 ' HO N O4' C1 ' C2 ' OH N O9P 3OH2 C C4 ' C3 ' HO N O4' C1 ' C2 ' OH N ADENOSINA ADENOSINA TRIFOSFATO (ATP) .

Apareamientos canónicos (Watson-Crick) .

.

• Triples hélices (d(Pu:Py:Pu).La estructura secundaria nativa del DNA es “siempre” helicoidal • Dobles hélices (A. Z). B. d(Pu:Py:Py)) • Cuadruples hélices (motivo G-DNA) • La gran mayoría de hélices son dextrógiras .

.

• La interacción DNA-Proteína es “mérito” de la proteína. .Estructura DNA • En situaciones normales la estructura del DNA no es relevante en bioinformática • El reconocimiento DNA – DNA se produce en base a apareamientos “normales” W i C. el DNA suele adaptarse simplemente a la interacción.

Complejo DNA-UvrB .

¿cómo son las proteínas? .

rcsb.org/ .ch/ • Estructuras tridimensionales • PROTEIN DATA BANK: http://www.¿qué información tenemos? • Secuencias de proteína – Obtenidas directamente o por traducción de sequencias de DNA • SWISSPROT: http://www.expasy.

Sequencias • Permiten relacionar proteínes y agruparlas formando familias RIAGHLRPQREDDVCLKRSDCRAKGGVSGFKVAILGAAGGIGQPLAMLMKMNPLV R-SAVSRSSSSNRL-LSRS--FATESVPERKVAVLGAAGGIGQPLALLMKLNPLV -----LSALARPVGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----LSALARPAGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----------------------------AKVAVLGASGGIGQPLSLLLKNSPLV -----LSRVAKRAFSSTVAN--------PYKVTVLGAGGGIGQPLSLLLKLNHKV • Proteínas con secuencia parecida suelen poseer idéntica estructura .

.

.

Cristal de proteína Difracción de Rayos X Densidad electrónica .

9 H T 3. 1 - H 9 3. 2 2. 9 HI 2. 8 - .H 8 H 1 H 2 H 3 H 4 H 5 H 6 3 4. 2 - H 0 - H C 4 2. 4 - H E 2.

Aminoácidos hidrofóbicos O O NH3+ O O NH3+ O O NH3+ O O NH3+ Ala (A) O O NH3+ O O Val (V) O Leu (L) Ile (I) NH3+ O NH3+ O O NH2+ NH S Met (M) Trp (W) Phe (F) Pro (P) .

Aminoácidos polares neutros O O O O NH3+ O NH3+ O NH3+ NH2 O O NH2 Gly (G) O NH3+ OH Asn (N) O O HO NH3+ O Gln (Q) O NH3+ OH Ser (S) O Thr (T) O NH3+ SH Tyr (Y) Cys (C) .

O O Aminoácidos cargados NH3+ O O O NH2 O NH3+ NH+ NH H2N NH2 NH3+ NH Arg (R) O O NH3+ Lys (K) O O His (H) NH3+ O O O O Glu (E) Asp (D) .

O NH3+ R1 O O + NH3+ R2 O O NH3+ R1 N H R2 O O .

...aa4 ..aa3 ..aa2 . O R3 O ... . aa1 .O H N R2 N H NH O N H R4 . R1 ..

Niveles de estructuración • • • • Estructura primaria Estructura secundaria Estructura terciaria Estructura cuaternaria .

¿son posibles todas las conformaciones? Diagrama de Ramachandran Predicción de estructura secundaria .

¿son posibles todas las conformaciones?

Hélice α

Estructuras β (paralelas)

Estructuras β (antiparalelas)

“loops” .Estructuras no periódicas giros.

Estructuras no periódicas giros. “loops” .

jerarquía del plegamiento • Estructuras supersecundarias – Agrupaciones sencillas de elementes de estructura secundaria • Dominios estructurales – Elementos con “autonomía” estructural Reconocimiento de plegamientos Predicción de estructura 3D • Estructura terciaria • Estructura cuaternaria .

alfa-loop-alfa • Unión de metales • Unión a DNA .

alfa-loop-alfa .

alfa-loop-alfa .

hairpin .beta .

hairpin .beta .

Greek key Este motivo tiene un plegamiento especialmente favorable .

Greek key Este motivo tiene un plegamiento especialmente favorable .

beta La hélice se sitúa siempre en el mismo lado de la hoja .alfa .

Se espera un máximo cerca de 1000 dominios diferentes.Dominios • Bloques de estructura con “autonomía” – Estructural – Plegamiento – A veces funcional • Una proteína puede contener uno o más dominios. . en una o más cadenas polipeptídicas. • Los dominios se “aprovechan”.

Clasificación de dominios CATH • • • • • Todo alfa Todo beta Alfa / beta Alfa + beta Irregulares .

Agrupaciones todo α 25º 45º .

Agrupaciones todo α .

4 - bundles

4 - bundles

Hemoglobin a

Anexina V

Ortogonal β .sandwich .

β – jelly roll .

β .barrel Porina .

α/β barrel .

α/β doubly wound Rossman fold .

.

¿qué podemos hacer? • Predicción de plegamiento • Análisis conformacional • ... .

11 (5) 412-419 . La delección de Lys 60 produce αtalasemia Ayala S.•Análisis estructural Hemoglobina. et al. Human Mut. Mutation in brief (1997).

Chemical unfolding of barnase Protein (pH=7) + counterions + water or water/urea (8M) Periodic Boundary Conditions NPT (P=1 atm) AMBER/OPLS .

.

NMR MD(water) 5 ns .

.Reconocimiento molecular • Complementariedad estructural – Ocultación de superficies hidrofóbicas – Pares iónicos – Mantenimiento de puentes de hidrógeno • Los grupos que participan en la interacción determinan la especificidad de la misma.

Reconocimiento molecular. Energía de interacción • Efecto hidrofóbico. – Relacionado con la entropía del agua • Entropia conformacional • Puente de hidrógeno • Interacción electrostática .

.¿qué podemos hacer? • • • • Predicción de reactividad Docking Predicción de modos de reconocimiento . ..

HSV Thymidine Kinase MIP O (-1) ATP binding site .

• Localización centro regulador MDHm DOCKING .

Mecanismo de reacción Wat Wat TK .•Timidina quinasa HSV 1.ATP (Mg) .ACV Complejo Catalítico tras 2 ns MD .

ATP (Mg) .ACV .

COX-2 Celecoxib Reconocimiento de fármacos .

Sequencia DNA Sequencia Proteína Reconocimiento Molecular Estructura 3D .

Notas de prudencia • Los métodos de predicción no son infalibles y no es siempre posible calibrar su fiabilidad • No se puede predecir aquello que no se conoce • Las bases de datos pueden contener información errónea • Se debe evitar la sobrevaloración de resultados .

Sign up to vote on this title
UsefulNot useful