Vous êtes sur la page 1sur 4

Introducción a la Bioinformática para informáticos

Porque somos tipos prácticos

Al principio no había nada. Entonces un AbstractFactory que


además era Singleton, y que a partir de ahora llamaremos Dios, creó el
mundo y nos instanció. Y nos hizo parecer diferentes entre nosotros y
respecto a los demás seres vivos.

Años más tarde aparecieron entre nosotros los biólogos, unos


tipos muy trabajadores, que clasificaron “a mano” miles de especies; la
vida no tenía misterio para ellos. Hasta que Dios volvió a tocar las
narices: llegó un monje llamado Mendel y se puso a jugar cruzando
guisantes. De su juego descubrió que podía conseguir que sus
guisantes heredasen determinadas propiedades y se empezó a hablar de
genes, componentes diminutos de los seres vivos, como los átomos que
componen la materia. Y los biólogos comprendieron que no somos tan
diferentes entre nosotros ni respecto a otros seres vivos.

A lo largo del siglo siguiente (es decir, hasta hoy) los biólogos
estudiaron en detalle esto de los genes. Al principio seguían trabajando
“a mano”, pero pronto su paciencia se agotó. La cantidad de
información genética de un solo organismo es tan enorme que un
biólogo tendría que dar su vida para estudiar una pequeñísima parte.
Por eso nos pidieron ayuda a los informáticos, “esos que saben jugar con
la información”.

Y así nació la Bioinformática, un término que se pasó a definir,


intuitivamente, como “informática aplicada a la biología”, pero que en
realidad de todas las ramas de la Biología se enfoca en aquellas en las
que los biólogos se han visto desbordados: genética, proteómica y cosas
por el estilo. Así, por ejemplo, cuando se utilizan ordenadores para
simular procesos neurológicos no se suele hablar de Bioinformática,
aunque sea evidente que encaja en la definición. Es conveniente tener
esto en cuenta para no liarse. La Bioinformática nació y crece bottom-
up, y de momento abarca las siguientes ramas:

1) Organización de la información

2) Acceso a la información

3) Alineamiento de secuencias

4) Genómica

5) Proteómica
A continuación explicaré brevemente de qué va cada una, pero
antes dejen que les hable de genes y proteínas.

Resulta que los seres vivos estamos compuestos por células.


Algunas más complejas que otras. Me centraré en las de los humanos.
Los biólogos, que saben mucho de esto, nos dirían que nuestras células
son eucariotas, además de un montón de tecnicismos más. Nosotros
nos quedaremos con que todas nuestras células tienen la misma
secuencia de ADN en su interior. Esta cosa llamada ADN es una doble
hélice, se enrolla, etc., pero los informáticos lo veremos como una
cadena de caracteres, con un alfabeto de 4 elementos (A, C, G y T).

Estas secuencias de ADN siven de molde cuando hay que


instanciar proteínas en nuestro cuerpo. Partes del ADN producen
determinadas proteínas. Esas partes se llaman genes, y para nosotros
son substrings de la cadena principal de ADN. Como las proteínas son
las responsables de nuestras funciones biológicas, podemos decir que el
ADN es nuestro código fuente, y que se compila a proteínas.

Los biólogos, que son muy listos, vieron un filón en esto de la


genética. Si podemos entender y manipular nuestro código fuente,
podríamos corregir enfermedades hereditarias, diseñar fármacos que
ataquen a cualquier virus (rescribir el código fuente del virus), mejorar
nuestra salud, diseñar humanos genéticamente perfectos, etc. Todo
muy bonito.

Pero había un problema. En ese workflow que es ADN 


proteínas  funciones biológicas, los biólogos todavía no han
desentrañado del todo el paso de un estado al siguiente. Por ejemplo, en
el paso de ADN a proteínas, la síntesis de las mismas se produce en
cantidades variables (un gen puede expresarse más o menos,
dependiendo de diversos factores), y la mayor parte del ADN no sirve
para sintetizar proteínas; es ADN sobrante o no codificante. En la
relación entre proteínas y funciones biológicas también hay grandes
lagunas de conocimiento, pues lo único que se sabe es que
determinadas proteínas están relacionadas con determinadas
funciones, y que suele ser determinante la estructura tridimensional de
la proteína, pero la lógica que hay detrás de esas relaciones nos es
desconocida, y de momento lo único que sabemos hacer con esta
información es tomar nota y seguir buscando más relaciones; todavía
no vemos “the whole picture”.

En esas dos grandes lagunas de conocimiento es donde los


biólogos trabajan actualmente, apoyados por nosotros.

Detallemos las ramas antes mencionadas:


1) Organización de la información

Resulta que en el mundo hay muchos seres vivos. Cada uno tiene
muchas células y muchos genes. Y sintetizan muchas proteínas. Pero,
sobre todo, existen en el mundo muchos biólogos.

Por ello, para organizar y coordinar los trabajos de los biólogos,


les hemos dado algunas Bases de Datos. Hay 3 o 4 enormes a nivel
mundial que todo bioinformático debe conocer. Almacenan información
sobre genes, proteínas, enfermedades, publicaciones científicas, etc.

Los informáticos que trabajan en esta rama son frikis de las bases
de datos, obviamente, pero también se trabaja mucho en la
estandarización de formatos para comunicar distintas bases de datos.

2) Acceso a la información

Esas Bases de Datos tan grandes están muy bien, pero de


entrada no es fácil trabajar con ellas. Las consultas normales no valen.
Un biólogo que trabaje con un gen y le interese encontrar estudios que
relacionen ese gen con determinadas funciones biológicas... puede
morirse intentando buscar en las BBDD con SQL...

Los informáticos de esta rama son gurús de las interfaces,


algoritmos de búsqueda, ordenación de resultados por relevancia, etc.

3) Alineamiento de secuencias

El lenguaje del ADN es ambiguo. Distintas secuencias de ADN


pueden sintetizar la misma proteína. Una misma secuencia puede
generar proteínas diferentes. Es posible añadir huecos o secuencias de
relleno dentro de una cadena de ADN y que siga funcionando igual.
Además, muchas de las cadenas secuenciadas hasta la fecha y
almacenadas en las Bases de Datos contienen errores puntuales.

Por ello, buscar un gen o una proteína en las bases de datos no es


trivial. Para ver si un gen es “igual” a otro, no basta con hacer un
compareTo. Hacen falta algoritmos que midan la similitud entre
diferentes secuencias. Se denominan algoritmos de alineamiento de
secuencias.

Esta rama no está tan de moda, porque ya se ha inventado


mucho aquí. Pero todavía se siguen refinando algoritmos, que no sólo
valen para hacer búsquedas o búsquedas aproximadas, sino que
también permiten a los biólogos medir distancias entre especies para
construir árboles filogenéticos (árboles genealógicos de especies).
4) Genómica

Como dijimos, sólo una pequeña parte del ADN vale para algo; es
codificante. Son los genes. ¿Y cómo se sabe si un trozo es un gen o no?
Bueno, los biólogos saben muchas cosas de los genes: cómo puede
empezar, cómo puede terminar,... Así, de una secuencia pueden obtener
varios “trozos candidatos”. Pero realmente hasta que no verifiquen que
un trozo codifica una proteína, no podrán llamarlo gen. Y este es el
trabajo de los biólogos: cogen sus 50 ratas, les modifican ese trozo del
ADN y ven que les sale el pelo blanco, entonces llaman a la prensa y les
dan el titular: “descubierto gen responsable de las canas”. Y así va
funcionando el tema. Vamos, un coñazo.

¿Qué aportamos los informáticos a esa “búsqueda de genes”?


Pues desde information retrieval en la bibliografía médica hasta la
localización de candidatos a genes en una secuencia, pasando por
análisis estadísticos o técnicas ciegas de inteligencia artificial que
permitan descubrir relaciones entre genes (por ejemplo si se expresan
juntos). Realmente los ordenadores descubren estas cosas más rápido
que los humanos, incluso que los biólogos.

5) Proteómica

Aquí es más de lo mismo, pero aplicado a las proteínas y su


relación con las funciones biológicas. Aquí hay dos aproximaciones: el
estudio estadístico y el estudio de la estructura tridimensional.

Desde el punto de vista de la estadística, todo lo mencionado con


genes (búsqueda en la bibliografía, descubrimiento de relaciones,...) se
aplica de igual forma aquí. Es un estudio ciego, basado en los casos que
vamos descubriendo y anotando. Nuestro conocimiento sería como un
gran CBR. Muy propio de los tenaces biólogos.

La perspectiva de la estructura tridimensional es más ambiciosa.


¡Se pretende entender por qué las cosas son como son! Esto es más
propio de los físicos, y de hecho conozco alguno que se ha metido en
esto. La idea es que las proteínas poseen una estructura 3D muy muy
compleja (unos 5 niveles de abstracción), que depende de las
propiedades químicas de sus componentes. Los que trabajan en esta
rama (informáticos, físicos, etc.) se lo pasan pipa descubriendo la
relación entre una determinada forma tridimensional y su
funcionalidad, e intentando predecir la estructura 3D de las proteínas.
Esto es crucial en el estudio de los seres vivos, pero también en el
desarrollo de fármacos, pues la estructura 3D del fármaco debe
diseñarse acorde con su función biológica.

José Doval
4-7-2009

Vous aimerez peut-être aussi