Vous êtes sur la page 1sur 9

Nuevos modelos matemticos que

perfeccionan el software de anlisis y


comparacin de las molculas de la vida
El grupo de Biologa Computacional y Bioinformtica del Instituto
Universitario de Investigacin en Ciencias de la Salud centra su labor en
el desarrollo de modelos matemticos que son el ncleo esencial del
software para la investigacin mdica. Entre otros resultados, el grupo
ha desarrollado nuevas tcnicas para comparar estructuras
tridimensionales de cidos nuclicos y protenas, ha aplicado la
matemtica borrosa al estudio del genoma, ha realizado una nueva
formalizacin de las reacciones orgnicas que permite un anlisis
cualitativo ms sencillo de las redes de reacciones bioqumicas, y ha
diseado nuevos tests de compatibilidad de rboles filogenticos
Introduccin
La secuenciacin del genoma humano, completada
hace unos aos, ha desvelado una cadena de ms de
tres millones de pares de bases nuclicas que
analizar: buscar genes, determinar la funcin de la
protena que stos codifican, etc. Este anlisis es
impensable sin herramientas computacionales. Es
ms, el xito del mismo Proyecto Genoma Humano se
debi no slo a los grandes avances de las tcnicas
moleculares que requera, sino a los desarrollos
informticos y matemticos especficos que
permitieron gestionar de manera eficiente la
informacin que aquellas tcnicas iban suministrando.
La secuenciacin y anlisis de genomas es un
paradigma de la tendencia de la biologa molecular
actual cada vez ms necesitada de instrumentos
computacionales para obtener, gestionar y analizar con
rapidez los datos que genera. De sta necesidad ha
nacido la bioinformtica, comnmente definida como la
ciencia multidisciplinaria que trata de la recogida,
almacenamiento y procesamiento computacional de
los datos generados por las llamadas disciplinas
biomdicas, desde la biologa molecular a la
biomedicina, pasando por la bioqumica. Ahora bien,
en los fundamentos de la bioinformtica se sita una
rama de la matemtica, conocida como la biologa

PARAULES CLAU:
estructuras
tridimensionales de
cidos nuclicos y
protenas, perfiles
de biomolculas,
redes bioqumicas,
qumica artificial,
rboles
filogenticos,
lgebra, matemtica
borrosa, gramticas
de grafos

KEYWORDS:
tridimensional
structures of nucleic
acids and proteins,
biomolecular
profiles, biochemical
networks,
phylogenetic trees,
algebra, fuzzy
mathematics, graph
grammars

computacional, que trata del diseo y verificacin de

conceptos bsicos como, por ejemplo, la secuencia de

los modelos matemticos y los algoritmos en los que

aminocidos de una protena. Ahora bien, poco se

se basan las herramientas informticas que utiliza. Y

sabe de una protena si slo se conoce de ella su

es que las matemticas juegan en la biologa

composicin. Aquello que interesa a los bilogos es la

molecular actual un papel similar al que ya han jugado

funcin de esa protena y sta depende de su

en otras ciencias como la fsica o la ecologa:

estructura, de la manera como se pliega y se relaciona

abastecen modelos formales de los conceptos, y las

con otras biomolculas".

tcnicas necesarias para resolver problemas


especficos en trminos de los modelos propuestos.

As pues, en el caso de la bioinformtica los modelos


matemticos no son ecuaciones, sino modelos

El grupo de Biologa Computacional y Bioinformtica

geomtricos, grficos, combinatorios, probabilsticas o,

del Instituto Universitario en Ciencias de la Salud,

incluso, algortmicos. Mediante estas herramientas

dirigido por el doctor Francesc Rossell, centra

matemticas, los investigadores en biologa

precisamente su labor en el desarrollo de modelos

computacional crean la base de programas

matemticos y algoritmos en los que basar

informticos que sean capaces, por ejemplo, de

herramientas informticas tiles en algunos aspectos

relacionar la secuencia de aminocidos de una

de la investigacin biomdica.

protena con su estructura y su funcin. De esta


manera, la bioinformtica pone a disposicin del

El doctor Rossell afirma que "quien ms quien menos

investigador en biologa molecular instrumentos

ya est familiarizado con el hecho de que fsicos y

computacionales que le permiten realizar predicciones

eclogos utilicen modelos matemticos. Hoy es

sobre la forma de una protena, sobre su papel en la

ampliamente conocido que a travs de algn tipo de

clula o con quien interaccionar con mayor

modelo se puede llegar a predecir la evolucin de un

seguridad, todo ellos a travs de la comparacin con

sistema, sea el clima de maana o si se extinguir o

otras estructuras convenientemente almacenadas en

no una determinada poblacin. En el caso de la

un banco de datos o del estudio directo de su

biologa molecular tambin se empiezan a utilizar

secuencia. En este campo, la investigacin se centra

modelos matemticos y, en concreto, de la llamada

en desarrollar herramientas de comparacin cada vez

matemtica discreta, para describir y estudiar

ms perfeccionadas.

Entre otros proyectos llevados a cabo por el grupo de

diciendo que transforman una determinada secuencia

Biologa Computacional y Bioinformtica del IUNICS,

de aminocidos (una protena secuenciada por los

los proyectos ALBIOM y PROTMA quieren contribuir a

bilogos moleculares, por ejemplo) en un modelo

la resolucin de algunos problemas concretos de

discreto o algebrico de la molcula. Este modelo

modelado en biologa molecular. Estos proyectos

podr ser comparado con otros modelos

centran su trabajo en las estructuras de contactos, los

correspondientes a otras protenas ya conocidas y de

genomas borrosos, las redes bioqumicas y los rboles

las que se conoce su funcin. As podrn establecerse

filogenticos.

similaridades en base a la distancia entre los modelos


comparados.

Estructuras de contactos
Este tipo de modelos es muy til a la hora de
Uno de los problemas ms importantes en biologa

comparar estructuras biomoleculares en estudios de

computacional es poder determinar la estructura

evolucin molecular y en filogentica. Se pueden

tridimensional de una biomolcula, por ejemplos de

establecer qu modelos corresponden a estructuras

una protena, a partir de su composicin y poder inferir

ms primitivas y qu modelos corresponden a

la funcin de la biomolcula a partir de esa estructura.

estructuras ms evolucionadas en el tiempo.

Los recientes avances en la secuenciacin de

En la actualidad, los bilogos moleculares utilizan

biomolculas han facilitado a los bilogos moleculares


el conocimiento de su composicin. Pero para saber
qu papel tiene, por ejemplo la protena secuenciada,
en el organismo, para saber qu funcin desempea
en definitiva, es preciso primero saber cul es su
estructura. Para entender este funcionamiento un buen
smil es imaginar la protena como un candado que
para desempear su funcin, por ejemplo catalizar una
reaccin en el organismo, necesita una llave, otra
molcula cuya estructura le permita acoplarse con la
primera. Slo cuando los centros activos de ambas
molculas se han acoplado se produce la reaccin. La
forma del candado determina la forma de la llave con
la que interaccionar y, por consiguiente, el papel que
desempear.
Es fcil entender, por tanto, que no baste saber la
secuencia de aminocidos de una protena para
conocer su funcin. En cambio, si conseguimos
aproximarnos a su estructura, podemos compararla
con otras protenas cuyas estructuras y funciones son
previamente conocidas. Y decimos aproximar porque
en muchas ocasiones no es necesario conocer hasta
el ltimo detalle estructural utilizando tcnicas
excesivamente caras y complicadas. Muy al contrario,
conociendo algunas caractersticas relevantes puede
inferirse informacin importante sobre la estructura y la
funcin. En este punto es donde se abre el camino a
la investigacin para los matemticos, en el desarrollo
de modelos matemticos que lo posibiliten. La labor de
los bioinformticos, por tanto, podra sintetizarse

Fragmento de un
esquema de la
estructura
secundaria de
una subunidad
del RNA
ribosomial de la
bacteria
Escherichia coli.

modelos para definir nuevas nociones de distancia y


similaridad que permiten mejorar las tcnicas y, en
definitiva, el software de comparacin de estas
estructuras. Como vemos, uno de los problemas
capitales de la biologa molecular hoy da.

Los genomas borrosos


En 1965, el ingeniero Lofti A. Zadeh (1921) plante la
paradoja del hombre calvo. Esta paradoja dice: "Si a
un hombre no calvo le arrancamos un solo cabello,
contina sin ser calvo". Es decir que a un hombre que
no sea calvo si le cae un cabello no pasa a ser un
hombre calvo. De esta premisa puede deducirse que
si a un hombre que no es calvo le arrancamos cabello
a cabello, al final tendremos un hombre sin ningn
cabello, pero como le habremos arrancado los
cabellos uno a uno seguir sin ser calvo. Llegamos
pues a una paradoja porque precisamente la calvicie
no es una propiedad que pueda ser definida segn
una lgica binaria (se es calvo o no se es calvo), sino
ms bien es un concepto difuso que, unas veces

Estructura en
doble hlice del
cido
desoxiribonuclic
o (DNA).

encierra cierta certeza y en ocasiones cierta falsedad.


Para abrazar ciertos mbitos, por tanto, como la
calvicie o la moral, la lgica binaria fracasa. Cabe
programas informticos que comparan protenas

utilizar una lgica difusa. Una de las lneas de

aisladas con todas las bases de datos de protenas

investigacin llevadas a cabo por el grupo de Biologa

existentes en el mundo, unas 60 aproximadamente.

Computacional y Bioinformtica del IUNICS es

Ahora bien, y como afirma el doctor Rossell, "lo que

precisamente recurrir a la lgica difusa o borrosa a la

nos parece tan simple a los humanos, comparar dos

hora de tratar con material gentico y biomolculas.

formas, como por ejemplo dos rostros y establecer


rpidamente si se parecen mucho o poco, o incluso

Como ya hemos dicho antes, las dos tcnicas hoy en

detectar si una de las formas es la otra ligeramente

da imprescindibles para el estudio del material

distorsionada, es algo tremendamente complicado

gentico y las biomolculas son el anlisis y la

para un ordenador. Es preciso, por tanto, desarrollar

comparacin de secuencias. En la primera se trata de

modelos matemticos que permitan a los programas

determinar qu monmeros los forman y el orden en

informticos realizar esta tarea de comparacin con

que aparecen, las pautas que rigen su aparicin,

eficiencia y rapidez".

adems de las zonas de la biomolcula con relevancia


biolgica. En la segunda tcnica se trata de determinar

La investigacin llevada a cabo por el grupo, en el

relaciones estructurales entre biomolculas

marco de los proyectos ALBIOM y PROTMA, en este

(distancias, similaridades, etc.).

mbito, ha consistido precisamente en el desarrollo y


estudio de nuevos modelos algebricos y discretos de

Ahora bien, los datos que los bilogos moleculares

las estructuras tridimensionales de las biomolculas

tienen sobre la presencia o no en una biomolcula de

(ARN y protenas, concretamente) y en el uso de estos

un determinado monmero en una posicin concreta,


por ejemplo de un determinado aminocido en una

protena, no siempre son datos del tipo "est" o "no

manejar datos errneos o inciertos, y ha iniciado su

est". La informacin no siempre es tan exacta. En

aplicacin en el modelado de sistemas biolgicos.

muchas ocasiones se dispone de manifestaciones


bioqumicas o de otro tipo que permiten suponer la
presencia de determinados monmeros en

Las redes metablicas

determinadas posiciones y tambin permiten suponer


que otros monmeros no estn.

La complejidad de las redes metablicas ha sido


tambin abordada desde la matemtica. Como afirma

La investigacin en matemtica borrosa aplicada al

el profesor Rossell, "la idea fundamental es que si

estudio de la secuenciacin y comparacin de

modelamos el metabolismo de una clula como una

biomolculas fue iniciada por el doctor Sadegh-Zadeh,

red, quiz as podamos entender mejor cmo funciona.

del Instituto de Medicina Terica de la Universidad de

Esta red puede tener como vrtices los genes, y

Mnster, quien present recientemente un tratamiento

aristas que representen la activacin simultnea; o

probabilstico del conocimiento de la composicin de

puede tener como vrtices las protenas y entonces

cidos nuclicos que permite definir un conjunto

las aristas representarn la interaccin entre stas, o

borroso. El mismo autor introdujo el concepto de

incluso tener las mismas molculas cmo vrtices,

genoma borroso, que representa el conocimiento

representando las aristas las reacciones bioqumicas.

incierto de la estructura primaria de un cido nuclico

Existen, pues, muchas posibilidades y cada una de

de longitud N como un subconjunto borroso de

ellas nos da informacin sobre un aspecto del

(1,2,4N).

funcionamiento de las clulas".


Estas representaciones como redes, o grafos, son del

La investigacin del grupo de Biologa Computacional

mismo tipo de las utilizadas en el estudio del

y Bioinformtica del Instituto Universitario en Ciencias

funcionamiento de las redes sociales o de las redes de

de la Salud se centra en la resolucin de problemas

contactos sexuales para el estudio de la dispersin del

que aparecen del tratamiento probabilstico y ensaya

SIDA en una comunidad determinada, o tambin en el

tratamientos borrosos alternativos en el estudio de la

estudio de las redes de comunicacin. Hasta muy

composicin de biomolculas, su comparacin y el

recientemente los grafos considerados en estos

anlisis de estructuras asociadas. Al mismo tiempo, el

estudios eran del tipo llamado "redes sin peso", en las

grupo ha introducido un nuevo modelo de computacin

que las aristas slo captan la informacin sobre si

celular que utiliza la lgica borrosa y que permite

alguna cosa sucede, pero no si esa cosa sucede muy

Mediante los
grafos, los
matemticos
modelan, por
ejemplo, el
metabolismo de
una clula como
una red en la
que los vrtices
corresponden a
molculas y las
aristas
representan las
reacciones
bioqumicas.

a menudo o no. Este aspecto constituye un dficit


importante en el estudio de muchos sistemas. Como
explica el doctor Rossell, "si consideramos el hecho
de que existen dominios de protenas, es decir
regiones o fragmentos que tienen un determinada
estructura de plegamiento con una funcin cataltica o
estructural, que slo aparecen juntos en una o en
pocas protenas, mientras que existen otros dominios
que aparecen juntos muy a menudo, la importancia y
el significado biolgico de estos hechos se pierde si
slo se considera la existencia o no de esa aparicin
simultnea pero no el "peso" de la misma que
El grupo de
Biologa
Computacional y
Bioinformtica
del IUNICS ya ha
desarrollado
nuevos
algoritmos que
resuelven
diversos
problemas de
comparacin y
combinacin de
pares de rboles
filogenticos.

representara el nmero de apariciones conjuntas de


los dominios".
El grupo ha aportado algunas contribuciones en este
campo. De una parte, ha desarrollado algunas
herramientas matemticas para el anlisis de las redes
con pesos y las est usando en la actualidad en el
estudio y comparacin de la estructura de protenas.
De otra parte, ha desarrollado una nueva formalizacin
de las reacciones orgnicas basada en gramticas de
grafos que ha sido implementada por un colaborador
del grupo como un mdulo Perl, el lenguaje de
programacin de cdigo abierto ms popular en
bioinformtica, y ha iniciado su aplicacin en el
anlisis de redes metablicas. Los investigaciones del
IUNICS llevan a cabo est ltima lnea de
investigacin en colaboracin con el grupo de
bioinformtica de la Universitat Politcnica de
Catalunya.

por los doctores David R. y Wayne P. Maddison, tiene


como objetivo precisamente reunir informacin sobre
todos los organismos terrestres en forma de
cladograma: un rbol en el que la ramificacin significa
divergencia en el proceso evolutivo de las especies.
Este rbol debe formarse combinando todos los
rboles filogenticos que se hayan obtenido hasta
ahora y todos los que puedan obtenerse a partir de
ahora.

La comparacin de los rboles filogenticos: el


rbol de la vida

Sin embargo, elaborar un gran rbol filogentico a


partir de otros que han sido previamente construidos
utilizando diferentes metodologas comporta

La filogenia es la historia resultante de los organismos


de la tierra considerada como un hecho histrico
nico. En biologa se utilizan "rboles" parecidos a los
genealgicos que proporcionan informacin sobre el
grado de parentesco entre los organismos: si un
organismo desciende evolutivamente de otro, o
cundo se separaron dos especies en el proceso de
evolucin a partir de un ancestro comn, etc. Son los
rboles filogenticos.
El proyecto "rbol de la Vida", presentado en enero de
1996 y coordinado desde la Universidad de Arizona

problemas de encaje. Se precisan, por tanto,


algoritmos fiables, rpidos y eficientes, a travs de los
cuales pueda ser comprobada la compatibilidad entre
rboles filogenticos y, en caso afirmativo, combinarlos
formando un nuevo rbol mayor. En estos momentos
el grupo de Biologa Computacional y Bioinformtica
del IUNICS ya ha desarrollado nuevos algoritmos que
resuelven diversos problemas de comparacin y
combinacin de pares de rboles filogenticos y est
desarrollando otros algoritmos que sean aplicables a
un nmero ms elevado de rboles.

Proyectos financiados
Ttulo: Modelos algebricos, grficos y borrosos en biologa molecular.
Acrnimo: ALBIOM.
Entidad financiadora: Ministerio de Ciencia y Tecnologa
Referencia: BFM2003-00771
Inicio: 2003. Final: 2006.
Ttulo: Global and Local Protein Matching
Acrnimo: PROTMA
Entidad financiadora: INTAS
Referncia: 04-77-718
Inicio: 2005. Final: 2007
Grupos participantes: Grupo Biologa Computacional y Bioinformtica del IUNICS (coordinadores), Departamento
de Informtica de la Universidad de York, Instituto de Microbiologa y Epidemiologa Bieoloruso, Instituto de
Biologa Fsico-Qumica de la Universitat estatal de Mosc, e Instituto UN de Problemas Informticos de Minsk.

Investigador responsable
Dr. Francesc Rossell, profesor del Departamento de Ciencias Matemticas e Informtica de la UIB
Instituto Universitario de Investigaciones en Ciencias de la Salud (IUNICS)
Edificio Anselm Turmeda
Telfono: 971 17 32 02
E-mail: cesc.rossello@uib.es

Otros miembros del grupo de Biologa Computacional y Bioinformtica


Ricard Alberich Mart (Dept. de Ciencias Matemticas e Informtica. UIB)
Jaume Casasnovas Casasnovas (Dept. de Ciencias Matemticas e Informtica. UIB)
Merc Llabrs Segura (Dept. de Ciencias Matemticas e Informtica. UIB.)
Albert Llamos Casas (Dept. de Ciencias Matemticas e Informtica. UIB)
Josep Mir Juli (Dept. de Ciencias Matemticas e Informtica. UIB)
Jairo Rocha Crdenas (Dept. de Ciencias Matemticas e Informtica. UIB)
Colaboradores
Manuel Moy Quintero (IES Baltasar Porcel)

Gabriel Valiente Feruglio (UPC)


Publicaciones recientes (2004-2005)
W. Bartol, J. Miro, K. Pioro, F. Rossell. "On the coverings by tolerance classes". Information Sciences, 166
(2004), 193-211
M. Cardona, M. Colomer, J. Conde, J. Miret, J. Mir, A. Zaragoza, "Markov chains: computing limit existence and
approximation with DNA." Biosystems, en prensa
J. Casasnovas, "Conditional possibilities in a stationary and memoryless channel." Recent Advances in Artificial
Intelligence Research and Development, Col. Frontiers in Artificial Intelligence, 113 (IOS Press, 2004) pp. 153160.
J. Casasnovas, "Characterization of the scalar (s,t)-measures: Probabilities and Cardinalities." Soft Methodology
and Random Information Systems. Col. Advances in Soft Computing (Springer Verlag, 2004), pp. 227-234.
J. Casasnovas, J. Mir, M. Moy, F. Rossell, "An approach to membrane computing under uncertainty."
International Journal of Foundations of Computer Science 15. (2004), pp. 841-864.
J. Casasnovas, F. Rossell, "Scalar and fuzzy cardinalities of crisp and fuzzy multisets." International Journal of
Intelligent Systems (en prensa)
J. Casasnovas, F. Rossell, "Averaging fuzzy genomes." Fuzzy Sets and Systems 152-Special Issue on Fuzzy
Sets in Bioinformatics- (2005), 139-158.
M. Llabrs, F. Rossell. "A new family of metrics for biopolymer contact structures." Computational Biology and
Chemistry 28 (2004), pp. 21-37.
J. Mir, F. Rossell. "Czy w Unii Europekskiej mwiono po polsku?" Delta 361 (2004), pp. 4-6.
J. Mir, F. Rossell, "Realment parlam el 'polaco'?" Revista del Collegi Oficial de Doctors i Llicenciats de Balears
149 (2004), pp. 20 - 23
F. Rossell. "On Reidys and Stadler's Metrics for RNA Secondary Structures" Mathematical and Computer
Modelling 40 (2004), pp. 771-776
F. Rossell, G. Valiente, "Analysis of Metabolic Pathways by Graph Transformation." Proc. Graph Transformations
ICGT 2004, Lecture Notes in Computer Science 3256 (2004), pp. 70-82.
F. Rossell, G. Valiente, "Chemical Graphs, Chemical Reaction Graphs, and Chemical Graph Transformation."
Electronic Notes in Theoretical Computer Science 127 (2005), pp. 157-166. Chemistry Reaction es un mdulo
Perl diseado por G. Valiente para el modelado de reacciones qumicas basado en este artculo. Pertenece a la
coleccin PerlMol de mdulos Perl para qumica computacional.
F. Rossell, G. Valiente, "Graph Transformation in Molecular Biology." Formal Methods in Software and Systems
Modeling. Lecture Notes in Computer Science 3393, pp. 116-133

Articulos sometidos a publicacin


F. Rossell, G. Valiente, "An Algebraic View of the Relation between Largest Common Subtrees and Smallest
Common Supertrees."
R. Alberich, M. Llabrs, J. Rocha, "A family of metrics for biopolymers based on counting independent sets"
M. Llabrs, J. Rocha, F. Rossell, G. Valiente, "On the Ancestral Compatibility of Two Phylogenetic Trees with
Nested Taxa." . Bio Tree Compatible es un mdulo Perl diseado por G. Valiente para comprobar la
compatibilidad de pares de rboles filogenticos con taxa interiores, basado en este artculo. Pertenece a la
coleccin BioPerl de mdulos Perl para biologa computacional..

Actas de congresos
R. Alberich, J. Mir, "La colaboracin en el Jenui, a quin nos parecemos y a quin no." Actas de las X Jornadas
de Enseanza Universitaria de Informtica, Jenui 2004 (Publ. JENUI, 2004), pp. 179-186.
R. Alberich, J. Rocha, "New Relations in the Edge Ideal Metrics Family for Biopolymers." Proceedings 5th
Spanish Bioinformatics Conference (Edicions UPC, 2004), pp. 148-153.
J. Casasnovas, J. Mir, M. Moy, F. Rossell, "A fuzzy approach to membrane computing with approximate
copies." Proceedings of the Brainstorming Workshop on Uncertainty in Membrane Computing (Publ. UIB, 2004),
pp. 121-128.
J. Casasnovas, F. Rossell, "Counting the contents of fuzzy membranes... and related topics" Proceedings of the
Brainstorming Workshop on Uncertainty in Membrane Computing (Publ. UIB, 2004), pp. 129-142.
J. Casasnovas, F. Rossell "Midpoints as average representations of pairs of descriptions by means of fuzzy
subsets." Proceedings IPMU 2004 (Publ. Univ. Perugia, 2004), pp. 2157-2164
J. Casasnovas, F. Rossell "Midpoints of fuzzy nucleotides." Proceedings I Congreso Internacional de
Bioinformatica de La Habana (2004), pp. 350-355.
J. Casasnovas, F. Rossell "Fuzzy P systems and their applications in computational biology." EUSFLAT 2005
(Barcelona, setembre, 2005; actas en prensa).
L. Flix, F. Rossell, G. Valiente, "Artificial chemistries and metabolic pathways." Proceedings 5th Spanish
Bioinformatics Conference (Edicions UPC, 2004), pp. 56-69.
L. Flix, F. Rossell, G. Valiente, "Optimal artificial chemistries and metabolic pathways." Encuentro Internacional
en Ciencias de la Computacin ENC 2005 (Puebla, Mexico, setembre 2005; actas en prensa).
M. Llabrs, F. Rossell, G. Valiente, "On supertrees of phylogenetic trees." Proceedings 5th Spanish
Bioinformatics Conference (Edicions UPC, 2004), pp. 142-145
G. Marcon, N. Cannata, M. Llabrs, M. Simeoni, G. Valle, "Ordering BAC clones from firgerprint data obtained
through four enzimes digestion and fluorescent labeling." Proceedings 5th Spanish Bioinformatics Conference
(Edicions UPC, 2004), pp. 182-190.

Vous aimerez peut-être aussi