Introducción a la Bioinformática

Carlos Gaete Eastman IBVB Universidad de Talca

Bioinformática
Definición intuitiva

Conjunto de herramientas informáticas que sugieren soluciones a problemas biológicos

Bioinformática
• Simulación cinética o metabólica • Bioquímica teórica, análisis estructural o energético de biomoléculas, predicción de estructura • Análisis y manipulación de secuencias de DNA o proteína

organize. . analyze. including those to acquire store.Bioinformática Definiciones oficial NIH Bioinformatics -Research. behavioral or health data. and social systems. development. or application of computational tools and approaches for expanding the use of biological. mathematical modeling and computational simulation techniques to the study of biological behavioral.The development and application of data-analytical and theoretical methods. or visualize such data. medical. archive. Computational Biology .

cálculo. I/O.• Bioinformática: – Ciencia que utiliza herramientas informáticas basadas en modelos matemáticos y estadísticos. gráficos) • Software: Conjunto de instrucciones interpretables por el computador (sistema operativo. programas. aplicaciones) . memoria. para estudiar los fenómenos biológicos • Computador: – Aparato electrónico de múltiples componentes capaz de procesar y almacenar información en base a instrucciones • Hardware: Dispositivos electromecánicos de operación (unidades de almacenamiento temporal y permanente.

• Programa: – Conjunto de instrucciones mediante las cuales un computador realiza una tarea • Algoritmo: – Set de instrucciones detallado para completar una tarea en una serie de pasos finitos • Heurística: Método de aplicación de un algoritmo basado en la experiencia de su aplicación • Base de Datos: – Repositorio de información estructurado y jerarquizado – Posee un lenguaje de consulta (SQL: Structured Query Languaje) .

Dogma Central de la Biología Molecular Transcripción Traducción DNA •Factores de Regulación •Promotores •Factores de transcripción •Secuencias no codificantes RNA •Intrones •Exones •Regiones de splicing alternativo •Tipos RNA •mRNA (solo exones) •tRNA (transferencia) •rRNA (ribosomal) Proteína •Modificación postranscripcional .

5 ~ 3% genoma codificante >40% DNA repetitivo Genes sobrelapados (2 o 3 frame) Splicing alternativo .Genes: Procariontes v/s Eucariontes • Procariontes: – ORF’s contiguos – Pocas y cortas secuencias intergénicas – Genes sobrelapados (2 o 3 frame) Eucariontes: ORF’s no contiguos Gran número de intrones por gen e. Humano: 1.g.

Estructura de un Gen Eucarionte Promoter Region Transcript TF binding sites TATA box Transcription Initiation point Coding regions (exons) Non Coding regions (introns) •Factores Basales de Transcripción •Factores comunes a todos los genes •Maquinaria básica •TATA Box (TATA Binding Protein. une el complejo de transcripción RNA-polimerasa) •Factores Regulatorios de Transcripción •Responsables de las diferencias de expresión •Promotores que activan o bloquean la expresión génica •Reconocen secuencias específicas de DNA de ~3 nucleótidos .

6 x 106 bases 15 x 106 bases 50 x 106 bases 3 x 109 bases ¿A mayor tamaño mayor complejidad? ¿De qué factor depende la complejidad? .Tamaño de Genomas • • • • E. cerevisiae (levadura) Menor cromosoma humano Genoma humano completo 4.coli (bacteria) S.

000 genes ¿20K Genes hacen la diferencia? • Regiones de control o regulación de expresión – Típicamente cercanas a genes – Determinan cuando y cuanto de un gen es expresado • “Junk” DNA (función desconocida) .000 genes Levadura ~6. coli ~4.000 genes Humanos ~32.¿Complejidad depende de los genes? Composición del DNA (eucarionte): • Regiones codificantes (“genes”) – – – – E. Elegans ~13.000 genes C.

Podemos identificar niveles de información en la célula .

................. Exon 3 Eco RI (3566) – ¿Equivalente a genes? – Bacteria: • • ~1 Kb x gen ~2 Mb x genoma mRNA 1 Eco RI (4432) Exon 2 Eco RI (3093) Ava I (3052) Pst I (2501) CDS 1 Hin dIII (4755) Pst I (5043) Eco RI (5461) Ava I (5558) Xma I (5558) Sma I (5560) II Cla I (6041) Ava I (5826) Sma I (1930) Xma I (1928) X V VII IX VIII Ava I (1928) Eco RI (1745) Exon 1 Bam HI (1144) Eco RI (992) Eco RI (632) Ava I (300) Sma I (277) Xma I (275) Ava I (275) Exon 4 Eco RI (6050) Ava I (6419) Xma I (6419) Sma I (6421) Eco RI (6681) IV Apa LI (4744) M13 6407 bp Exon 5 Ava I (7230) Xma I (7230) Sma I (7232) III Bam HI (2221) Ava I (243) Eco RI (30) Hin dIII (2) I VI Cla I (2529) Exon 6 Ava I (8396) AF274889S1 8483 bp ..Información Molecular: Nivel I DNA • Secuencias DNA crudas: – ¿Codificante o no? • • • • Intrón Exón Promotor Factores de transcripción atggcaattaaaattggtatcaatggttttggtcgtatcggccgtatcgtattccgtgca gcacaacaccgtgatgacattgaagttgtaggtattaacgacttaatcgacgttgaatac atggcttatatgttgaaatatgattcaactcacggtcgtttcgacggcactgttgaagtg aaagatggtaacttagtggttaatggtaaaactatccgtgtaactgcagaacgtgatcca gcaaacttaaactggggtgcaatcggtgttgatatcgctgttgaagcgactggtttattc ttaactgatgaaactgctcgtaaacatatcactgcaggcgcaaaaaaagttgtattaact ggcccatctaaagatgcaacccctatgttcgttcgtggtgtaaacttcaacgcatacgca ggtcaagatatcgtttctaacgcatcttgtacaacaaactgtttagctcctttagcacgt gttgttcatgaaactttcggtatcaaagatggtttaatgaccactgttcacgcaacgact gcaactcaaaaaactgtggatggtccatcagctaaagactggcgcggcggccgcggtgca ......

aa) – ACDEFGHIKLMNPQRSTVWY excluye BJOUXZ • ~300 aa de promedio para proteínas (bacteria) • ~200 aa para un dominio • ~200.000 secuencias de proteínas conocidas (PDB + Swissprot) .Información Molecular: Nivel II Proteínas • Alfabeto de 20 letras (Amino ácidos.

Información Molecular: Nivel III Estructura 3D DNA – RNA .Proteínas .

Información Molecular: Nivel IV Metabolismo • • Relaciones entre genes. proteínas y sus expresiones fenotípicas Vías de expresión proteica: – Proteína-Proteína – Metabólicas – Inmunológicas – Desarrollo – Adhesión – Apoptosis .

Tarea de la Bioinformática Simplificación de Información 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 … ~20K – 40K Genes Humano ~3K – 5K Pliegues ~10K 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 … Genes C elegans ¿Es posible determinar función sobre la estructura o sobre la secuencia? .

Paradigma Bioinformático DNA •Secuencias •Genes •Factores de Transcripción •Genomas RNA •Secuencia •Intrón •Exón Proteína •Secuencias •Genes •Factores de Transcripción •Genomas Fenotipo •Normalidad •Enfermedad Vías Metabólicas Aplicaciones Bioinformáticas Bases de Datos •Predicción genes •Estructura proteica •Expresión génica y proteica •Ingeniería: •Genética •Proteica •Metabólica .

Bombas. Receptores – Utilizar bases de datos relacionales para • Determinar genes relacionados a enfermedades genéticas • Relacionar estructura proteica con función . Canales Iónicos. Diseño de organismos in sílico • Proteómica: Interacción Ligando-Receptor. Mutación sitio dirigida • Modelos integrales: Membrana. Docking.Bioinformática: ¿Para qué sirve? • Dado la capacidad de obtener secuencias génicas y proteícas podemos: – Usar bases de datos de secuencias génicas para • Predecir genes por homología de secuencias • Predecir secuencias proteicas a partír de secuencias génicas • Estudiar relaciones evolutivas entre organismos – Usar bases de datos se secuencias proteícas para: • Predecir funcionalidad proteíca por similitud estructural y/o de secuencias • Predecir estructura secundaria y terciaria de proteínas • Predecir sitios activos – Utilizar modelos asistidos por computador • Genómica: Genomas.

Rango de Acción de la Bioinformática Bases de Datos: Secuencias Genes Genomas Bases de Datos: Secuencias Proteínas Proteomas Bases de Datos: Vías Metabólicas y Estructurales Enfermedades Genéticas Interrelaciones Proteina-Proteina Secuencias Genómicas (Genómica) Proteínas (Proteómica) Vías de expresión (Metabolómica) .

ac.1984 DDBJ (http://www.edu) 70’s Genbank.) Primera genoma publicado: Hemophilus influenzae.ac.uk/Projects/C_elegans/) 2001 Primer borrador del genoma humano (75 al 80%): Celera y National Human Genome Research (USA) .nlm.000 Millones. US$1 x bp BLAST: heurística de búsqueda (Altschul et al. primera versión: Base de datos de secuencias génicas (http://www. TIGR • • • 1993 1998 Primera base de datos genómica en internet C.ddbj.ebi.jp) 1984 – 1986 Projecto piloto Genoma Humano: The Human Genome Initiative 1988 FASTA: Formato de archivo y heurística de búsqueda • 90’s – – – Métodos de alineamiento de secuencias. elegans Craig Venter funda Celera Genomics (http://www. US$3.Breve Historia • • • • 50’s Primeras bases de datos de archivos planos 60’s Protein information resource PIR: Base de datos de secuencias de proteínas (http://www-nbrf.nig.ac.ncbi. primera secuencia pública 1990 1990 1995 NIH lanza proyecto genoma humano: 15 años.georgetown.nih.gov) 80’s – – – Modelos de datos relacionales 1980 EMBL (http://www.sanger.uk) .

La Carrera Genómica Bacteria 1.6 Mb ~1600 genes [Science 269: 496] Eukaryote 13 Mb ~6K genes [Nature 387: 1] Animal ~100 Mb ~20K genes [Science 282: 1945] Human ~3 Gb ~100K genes [???] Human ~3 Gb ~20K – 40K genes [Science 291: 1304] 1995 1997 1998 2000 2001 .

FEBRERO 2001: Consorcio Público Celera Genomics .

.

.

.

.

Secuenciación Síntesis paralela/combinatoria Screening masivo Separación Purificación Cristalización ... .

Proteómica Genómica estructural Química combinatoria BIOINFORMÁTICA Genómica funcional FarmacoGenómica Secuenciación masiva .

Proyectos Genoma Secuenciación masiva Anotación genoma Determinación genoma .

.

¿Genes del Glaucoma? .

146 bases/día • Dobla el número de secuencias cada 14 meses aproximadamente GenBank .890.• GenBank ha crecido en forma exponencial desde 1994 • Entre 1999 y 2000 ha crecido a una tasa de 19.

Procesado imagen Explotación de datos Perfil expresión génica .Genómica funcional Análisis estadístico DNA-chips ….

• Análisis estadístico • Métodos de clustering • Redes neuronales • Gene ontology .

Nuevas biomoléculas .Genómica estructural Predicción funcional y estructural Selección modelos Rayos X NMR Homología Técnicas estructurafunción Modelización molecular Estructura 3D Estructura 3D Determinación función.

PDB • Más de 54.000 estructuras • Aumento de información en tasa exponencial .

Tasa negativa para nuevas formas 3D (SCOP) .

Secuencia DNA Secuencia Proteína Reconocimiento Molecular Estructura 3D .

La capacidad de reconocimiento es la base de la función biológica La estructura 3D es necesaria para el reconocimiento .

.

Rosalyn Franklin Mapa difracción B-DNA .

.

COX-2 ADA FKBP XO .

ACV .ATP (Mg) .

Proteómica Genómica funcional/estructural Determinación proteoma Teoría control metabólico Metaboloma .

PLASMA HUMANO .

Química combinatoria/HTS Chequeo masivo Diseño bibliotecas Síntesis Análisis masivos Modelización molecular Nuevos fármacos .

.

Pero volvamos al principio A la información primaria .

IDENTIFICAR LOS GENES ATTW.TWP AGG.....CTTAGC............CCTTAACG .....CTTAGC...............PROCESADO DE LA INFORMACION .....CCTTAACG........CAGGC......CAGGC..PGL CC.. ...FVG ESTRUCTURA Y FUNCION DE LAS PROTEINAS .....

MEDIANTES ESTUDIOS EVOLUTIVOS SIMILITUD EN LAS SECUENCIAS BIOLOGICAS IMPLICA SIMILITUD DE ESTRUCTURA Y FUNCION .

.. Proteína Secuencia Genómica cDNA. Nueva Secuencia ¿Sabemos qué es? ¿Se parece a otras? ¿Podemos “Copiar” estructura? Función? .Flujo de información Sec.

La realidad de las secuencias obtenidas de los proyectos genoma Como anotamos las secuencias nuevas??? .

clustal. Homólogos remotos identificables por otros métodos (psi-blast. threading) Es posible efectuar predicciones estructurales de baja resolución.)..Grados de dificultad 1. Sin homólogos detectables Predicciones 1D. Es posible efectuar predicciones estructurales y funcionales fiables 2.. pfam. Homólogos identificables mediante alineamientos de secuencia (blast.. No suele haber relaciones funcionales evidentes. 3. identificación de motivos de secuencia: Fiabilidad limitada .

Clustal. EMBL.. •Threading: 3D-PSSM. •Comparación y alineamiento de secuencias: Blast.Herramientas •Bases de datos primarias: Swissprot. Blocks.... … •Identificación de motivos de secuencia: PROSITE.. PSIBlast. PSORT.. … •Recopilación de famílias estructurales: Pfam. PDB. … .. •Predicción 1D: PredictProtein (PHD)... GenBank.

Tipos de bases de datos • Primarias – Principales reservas de información. Ofrecen información adicional . Contienen datos de secuencia y estructura con nula o poca información adicional. • Derivadas – Confeccionadas a partir del procesado de los datos primarios.

Bases de datos Biológicas • Primarias – Información suministrada por trabajo experimental – La institución receptora organiza la información pero no añade nada • Ejemplo GenBank • Derivadas – Anotadas a posteriori • Los datos son revisados. corregidos y se añade información bibliográfica • Ejemplo SWISS-PROT – Derivadas computacionalmente • Ejemplo PFAM – Combinaciones específicas .

Res.Database Categories List Nuc. 2001 29(1) 1-10 Major Sequence Repositories (7) Comparative Genomics (2) Gene Expression (16) Gene Identification and Structure (23) Genetic and Physical Maps (11) Genomic Databases (33) Intermolecular Interactions (4) Metabolic Pathways and Cellular Regulation (10) Mutation Databases (35) Pathology (6) Protein Databases (42) Protein Sequence Motifs (16) Proteome Resources (5) RNA Sequences (24) Retrieval Systems and Database Structure (3) Structure (27) Transgenics (2) Varied Biomedical Content (15) . Ac.

.

Los componentes .

Nucleótidos y DNA .

BASES NITROGENADAS H N H3 C N N H O H N O H Pirimidinas N R O N R O N R O CITOSINA TIMINA URACILO H O H N N H N N N Purinas H N H N N R N N R GUANINA ADENINA .

LAS BASES POSEEN UNA HUELLA DACTILAR UNICA BASADA EN SU PAUTA DE PUENTES DE HIDROGENO H N4 C4 C5 C6 N1 R H O6 H N3 C2 O2 H N H N1 C2 N3 C6 C5 C4 N7 C8 N9 R CITOSINA GUANINA .

NUCLEOSIDO (base + azucar) NUCLEOTIDO (base + azucar + fosfato) NH2 NH2 N N N N HOH2 C C4 ' C3 ' HO N O4' C1 ' C2 ' OH N O9P 3OH2 C C4 ' C3 ' HO N O4' C1 ' C2 ' OH N ADENOSINA ADENOSINA TRIFOSFATO (ATP) .

Apareamientos canónicos (Watson-Crick) .

.

La estructura secundaria nativa del DNA es “siempre” helicoidal • Dobles hélices (A. d(Pu:Py:Py)) • Cuadruples hélices (motivo G-DNA) • La gran mayoría de hélices son dextrógiras . Z). B. • Triples hélices (d(Pu:Py:Pu).

.

• La interacción DNA-Proteína es “mérito” de la proteína.Estructura DNA • En situaciones normales la estructura del DNA no es relevante en bioinformática • El reconocimiento DNA – DNA se produce en base a apareamientos “normales” W i C. . el DNA suele adaptarse simplemente a la interacción.

Complejo DNA-UvrB .

¿cómo son las proteínas? .

expasy.rcsb.¿qué información tenemos? • Secuencias de proteína – Obtenidas directamente o por traducción de sequencias de DNA • SWISSPROT: http://www.org/ .ch/ • Estructuras tridimensionales • PROTEIN DATA BANK: http://www.

Sequencias • Permiten relacionar proteínes y agruparlas formando familias RIAGHLRPQREDDVCLKRSDCRAKGGVSGFKVAILGAAGGIGQPLAMLMKMNPLV R-SAVSRSSSSNRL-LSRS--FATESVPERKVAVLGAAGGIGQPLALLMKLNPLV -----LSALARPVGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----LSALARPAGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----------------------------AKVAVLGASGGIGQPLSLLLKNSPLV -----LSRVAKRAFSSTVAN--------PYKVTVLGAGGGIGQPLSLLLKLNHKV • Proteínas con secuencia parecida suelen poseer idéntica estructura .

.

.

Cristal de proteína Difracción de Rayos X Densidad electrónica .

1 - H 9 3. 2 2. 8 - . 4 - H E 2. 2 - H 0 - H C 4 2. 9 H T 3. 9 HI 2.H 8 H 1 H 2 H 3 H 4 H 5 H 6 3 4.

Aminoácidos hidrofóbicos O O NH3+ O O NH3+ O O NH3+ O O NH3+ Ala (A) O O NH3+ O O Val (V) O Leu (L) Ile (I) NH3+ O NH3+ O O NH2+ NH S Met (M) Trp (W) Phe (F) Pro (P) .

Aminoácidos polares neutros O O O O NH3+ O NH3+ O NH3+ NH2 O O NH2 Gly (G) O NH3+ OH Asn (N) O O HO NH3+ O Gln (Q) O NH3+ OH Ser (S) O Thr (T) O NH3+ SH Tyr (Y) Cys (C) .

O O Aminoácidos cargados NH3+ O O O NH2 O NH3+ NH+ NH H2N NH2 NH3+ NH Arg (R) O O NH3+ Lys (K) O O His (H) NH3+ O O O O Glu (E) Asp (D) .

O NH3+ R1 O O + NH3+ R2 O O NH3+ R1 N H R2 O O .

.aa4 ...... O R3 O .. . aa1 .O H N R2 N H NH O N H R4 ..aa3 .aa2 . R1 .

Niveles de estructuración • • • • Estructura primaria Estructura secundaria Estructura terciaria Estructura cuaternaria .

¿son posibles todas las conformaciones? Diagrama de Ramachandran Predicción de estructura secundaria .

¿son posibles todas las conformaciones?

Hélice α

Estructuras β (paralelas)

Estructuras β (antiparalelas)

Estructuras no periódicas giros. “loops” .

“loops” .Estructuras no periódicas giros.

jerarquía del plegamiento • Estructuras supersecundarias – Agrupaciones sencillas de elementes de estructura secundaria • Dominios estructurales – Elementos con “autonomía” estructural Reconocimiento de plegamientos Predicción de estructura 3D • Estructura terciaria • Estructura cuaternaria .

alfa-loop-alfa • Unión de metales • Unión a DNA .

alfa-loop-alfa .

alfa-loop-alfa .

beta .hairpin .

hairpin .beta .

Greek key Este motivo tiene un plegamiento especialmente favorable .

Greek key Este motivo tiene un plegamiento especialmente favorable .

alfa .beta La hélice se sitúa siempre en el mismo lado de la hoja .

en una o más cadenas polipeptídicas. Se espera un máximo cerca de 1000 dominios diferentes. • Los dominios se “aprovechan”.Dominios • Bloques de estructura con “autonomía” – Estructural – Plegamiento – A veces funcional • Una proteína puede contener uno o más dominios. .

Clasificación de dominios CATH • • • • • Todo alfa Todo beta Alfa / beta Alfa + beta Irregulares .

Agrupaciones todo α 25º 45º .

Agrupaciones todo α .

4 - bundles

4 - bundles

Hemoglobin a

Anexina V

Ortogonal β .sandwich .

β – jelly roll .

β .barrel Porina .

α/β barrel .

α/β doubly wound Rossman fold .

.

.¿qué podemos hacer? • Predicción de plegamiento • Análisis conformacional • . ..

La delección de Lys 60 produce αtalasemia Ayala S. Mutation in brief (1997). 11 (5) 412-419 . et al.•Análisis estructural Hemoglobina. Human Mut.

Chemical unfolding of barnase Protein (pH=7) + counterions + water or water/urea (8M) Periodic Boundary Conditions NPT (P=1 atm) AMBER/OPLS .

.

NMR MD(water) 5 ns .

Reconocimiento molecular • Complementariedad estructural – Ocultación de superficies hidrofóbicas – Pares iónicos – Mantenimiento de puentes de hidrógeno • Los grupos que participan en la interacción determinan la especificidad de la misma. .

Reconocimiento molecular. Energía de interacción • Efecto hidrofóbico. – Relacionado con la entropía del agua • Entropia conformacional • Puente de hidrógeno • Interacción electrostática .

..¿qué podemos hacer? • • • • Predicción de reactividad Docking Predicción de modos de reconocimiento ..

HSV Thymidine Kinase MIP O (-1) ATP binding site .

• Localización centro regulador MDHm DOCKING .

ACV Complejo Catalítico tras 2 ns MD .ATP (Mg) .•Timidina quinasa HSV 1. Mecanismo de reacción Wat Wat TK .

ACV .ATP (Mg) .

COX-2 Celecoxib Reconocimiento de fármacos .

Sequencia DNA Sequencia Proteína Reconocimiento Molecular Estructura 3D .

Notas de prudencia • Los métodos de predicción no son infalibles y no es siempre posible calibrar su fiabilidad • No se puede predecir aquello que no se conoce • Las bases de datos pueden contener información errónea • Se debe evitar la sobrevaloración de resultados .