Vous êtes sur la page 1sur 41

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS

FACULTAD DE QUÍMICA-FARMACIA
DEPARTAMENTO: LIC. QUÍMICA

Validación de los Nuevos Índices de

Derivada del Grafo.

Autor: Osvaldo Delgado González.

Tutor: Lic. Raúl T. Pareja Rodríguez.

Santa Clara

2017
Tabla de contenido
Introducción .................................................................................................................................... 1
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA ............................................................................. 4
1.1. Química Grafo-Teórica. ................................................................................................ 5
1.2. Representación Matricial de Grafos moleculares. ................................................... 6
1.3. Descriptores Moleculares. Índices Topológicos. ...................................................... 7
1.4. Índices de Derivada Discreta de grafos moleculares. ............................................. 9
1.5. Métodos Estadísticos.................................................................................................. 11
1.5.1. Regresión Lineal Múltiple. (RLM) ...................................................................... 11
CAPÍTULO 2: MATERIALES Y MÉTODOS ............................................................................ 16
2.1. Herramientas computacionales..................................................................................... 17
2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo. .. 17
2.1.2. IMANN Software. Análisis de Variabilidad. ..................................................... 19
2.1.3. MobyDigs Software: Regresión Lineal Múltiple. ............................................. 20
2.1.4. Lenguaje de programación: FORTRAN 90. .................................................... 21
2.2. Bases de Datos Químicas. ........................................................................................ 22
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN ....................................................................................... 23
3.1. Implementación en FORTRAN 90 de un software capaz de calcular los GDIs. ... 24
3.2. Validación QSPR de los GDIs. .................................................................................. 31
3.2.1. Modelación de propiedades químico-físicas con los GDIs. .......................... 31
Conclusiones:............................................................................................................................... 35
Recomendaciones: ..................................................................................................................... 35
REFERENCIAS BIBLIOGRÁFICAS: ........................................................................................ 36
Resumen

En el presente trabajo se ha validado una nueva familia de descriptores

moleculares basados en conceptos del algebra lineal, derivada del grafo molecular

y Teoría de Información. Estos descriptores (GDIs) han sido implementados

computacionalmente en un programa interactivo desarrollado en el lenguaje de

programación JAVA, el software DIVATI. La implementación de estos descriptores

fue validada computacionalmente, mediante la implementación de un software en

FORTRAN 90, se comprobaron los resultados empleando para ello la molécula

de 3-metil-2-butanona. El proceso de validación arrojó buenos resultados para la

implementación de los GDIs basados en el cálculo de las derivadas inspiradas en

las distintas entropías de información. También se validaron los nuevos

descriptores mediante un estudio QSPR-comparativo, para ello se usó una data

de 110 saponinas esteroidales. Se demostró, la aplicabilidad de los GDIs en la

modelación del logaritmo de partición 1-octanol/agua. Los modelos obtenidos con

el software MobyDigs correlacionaron de satisfactoriamente con la propiedad

modelada. Este trabajo demuestra la seguridad de aplicar los GDIs al estudio de

propiedades químico-físicas de sustancias orgánicas.


Summary

In the present work a new family of molecular descriptors based on linear algebra

concepts, derived from the molecular graph and Information Theory, has been

validated. These descriptors (GDIs) have been implemented computationally in an

interactive program developed in the JAVA programming language, DIVATI

software. The implementation of these descriptors was validated computationally,

by implementing a software in FORTRAN 90, the results were verified using the 3-

methyl-2-butanone molecule. The validation process yielded good results for the

implementation of the GDIs based on the calculation of the derivatives inspired by

the different entropies of information. The new descriptors were also validated

using a QSPR-comparative study, using a data of 110 steroidal saponins. It was

demonstrated, the applicability of the GDIs in the modeling of the logarithm of

partition 1-octanol / water. The models obtained with the MobyDigs software

correlated satisfactorily with the modeled property. This work demonstrates the

safety of applying GDIs to the study of chemical and physical properties of organic

substances.
Introducción

Las propiedades químicas, químico-físicas y biológicas de los compuestos

químicos están en estrecha relación con su estructura molecular, esta puede ser

descrita usando diferentes métodos y estrategias matemáticas. Al resultado final

de estos procedimientos matemáticos que transforman la información estructural

(codificada en una representación simbólica de la molécula) en un número (o

conjunto de números) se les conoce como descriptores moleculares (DMs)

(Todeschini and Consonni, 2009). Los resultados numéricos por ellos expresados

pueden ser relacionados estadísticamente con determinadas propiedades (o

actividades) moleculares. Los DMs pueden ser generados por medio de varios

procedimientos químico-matemáticos (Cockett and Doggett, 2003). Dependiendo

de esto, algunos descriptores pueden tener en cuenta rasgos topológicos (2D),

geométricos (3D), electrónicos de las moléculas, etc. Otros, sin embargo, tienen

más “información” de propiedades químico-físicas que de los rasgos estructurales

de la molécula. Estos incluyen los basados en la determinación experimental de

propiedades químico-físicas, tales como la mayoría de las constantes de los

sustituyentes, hidrofóbicas, electrónicas y estéricas (Todeschini and Consonni,

2009). En contraste, los llamados índices topológicos (ITs) tienen en cuenta la

información estructural, contenida en una representación bidimensional de las

moléculas (generalmente el grafo molecular con los átomos de hidrógenos

suprimidos) sin considerar ningún rasgo físico-químico de las moléculas (Devillers

and Balaban, 1999b).Los ITs han comenzado a ocupar un lugar importante dentro

1
del conjunto de descriptores moleculares utilizados en los estudios biológicos y

farmacéuticos, siendo probablemente el diseño/descubrimiento de nuevos

compuestos bioactivos, una de las áreas más activas de investigación donde se

aplican estos descriptores a problemas biológicos (Martínez-Santiago et al.,

2014). Recientemente se ha definido una nueva familia de descriptores

moleculares basados en la derivada del grafo molecular (GDI) e Índices de

Información (IFI)(Barigye et al., 2013c, Marrero-Ponce et al., 2012). Esta nueva

familia de descriptores (GDIs) emplea la matriz de incidencia (no cuadrada y

asimétrica) y cuenta con una definición local (sobre átomos o agrupaciones de

átomos).Estos GDIs se calculan utilizando un software implementado en JAVA

conocido como DIVATI (Acrónimo DIscrete DeriVAtive Type Indices), un nuevo

módulo del programa TOMOCOMD-CARDD 1.0 (acrónimo de TOpological

MOlecular COMputer Design Computed-Aided ‘Rational’ Drug Design) con el que

se puede calcular de forma automatizada los valores GDIs de estructuras

químicas representadas como grafos moleculares. Para que estos ITs puedan ser

extendidos a otros estudios bioinformáticos y quimioinformáticos, es necesario

que estén debidamente validados operacional y computacionalmente.

2
Situación Problémica:

No se cuenta en el grupo de Investigación CAMDBIR UNIT con un software libre

capaz de validar computacionalmente los GDIs implementados en el software

DIVATI.

Problema científico:

¿Cómo realizar una validación de los GDIs implementados en el software DIVATI?

Hipótesis:

Es posible aplicar un conjunto de métodos [de programación en Fortran 90 y

estadísticos] para validar los nuevos GDIs, implementados en la nueva versión del

software DIVATI.

Objetivo general:

Implementar un programa que sea capaz de validar los nuevos GDIs en el software

DIVATI.

Objetivos específicos:

 Implementar un software en FORTRAN 90 que permita calcular los GDIs

automáticamente.

 Aplicar los GDIs al diseño molecular mediante la realización de un estudio

QSPR-comparativo que permita complementar la validación de los GDIs.

3
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA

4
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA

1.1. Química Grafo-Teórica.

La teoría de Grafos es una rama de la Matemática que estudia la estructura de

grafos, tiene su origen en el año 1736, cuando Leonhard Euler (1707-1783) resolvió

el famoso problema conocido como: Problema de los 7 puentes de

Königsberg,(Gorbátov, 1988) el cual demostró la relación entre la Teoría de Grafos

y la Topología.

Un grafo no es más que un conjunto de vértices interconectados por aristas en el

cual cada vértice representa un objeto y la arista que conecta dos vértices

representa la relación entre estos dos objetos(Gorbátov, 1988).

La Teoría de Grafos ha sido ampliamente aplicada a diversos campos de la ciencia

y la técnica como la Matemática, las Ciencias de la Computación, la Ingeniería

Automática, la Química, etc, por citar algunos ejemplos. Específicamente, en la

química grafo-teórica los objetos del grafo pueden representar orbitales, átomos(o

sus núcleos), enlaces, grupos de átomos, moléculas o colecciones de moléculas

(Marrero-Ponce et al., 2012). De esta forma los vértices del grafo podrían

representar los átomos y las aristas las interacciones entre objetos químicos (ej.

átomos), por lo cual estas últimas se usan para definir enlaces químicos, reacciones,

mecanismos de reacciones, modelos cinéticos, u otra relación o transformación de

los objetos químicos (Martínez Santiago et al.).

5
1.2. Representación Matricial de Grafos moleculares.

Los grafos pueden representarse matricialmente en forma algebraica, la descripción

numérica de la estructura de los compuestos químicos es esencial para la

manipulación computacional de las moléculas y para los cálculos de los descriptores

moleculares que de ella se derivan.(Martínez-Santiago et al., 2014)

Para fragmentar matemáticamente la molécula, se define un determinado suceso

(S), el cual es verdadero cuando se cumplen determinadas condiciones al proceso

examinado. Cada suceso determina una matriz binaria bidimensional: 𝑄=

[𝑞𝑖𝑗 ]𝑛𝑥𝑚 , a cada columna de la cual le corresponde biunívocamente una condición,

comprendida en al menos un suceso verdadero, y a cada fila, una colección de

condiciones, con las cuales el suceso tiene lugar. Entonces 𝑞𝑖𝑗 se define como:

1, 𝑠𝑖 𝑙𝑎 𝑗 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 𝑠𝑒 𝑖𝑛𝑐𝑙𝑢𝑦𝑒 𝑒𝑛 𝑙𝑎 𝑖 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠,


𝑞𝑖𝑗 = { 𝑒𝑛 𝑙𝑎𝑠 𝑐𝑢𝑎𝑙𝑒𝑠 𝑒𝑙 𝑠𝑢𝑐𝑒𝑠𝑜 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜.
0, 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

Cada suceso (S) determina un modelo () con matriz de incidencia Q. Las

condiciones que se comprenden en el suceso son letras del modelo y las

colecciones de condiciones para las cuales el suceso es verdadero serían palabras

del modelo.

Por ejemplo: la Matriz de incidencia (Q): para un grafo G, con una ordenación de

vértices (𝑣1 , 𝑣2 , … 𝑣𝑛 ) y aristas (𝑒1 , 𝑒2 , … 𝑒𝑛 ). Se define por la relación:

1 𝑠𝑖 𝑣𝑖 ∈ 𝑒𝑗
𝑞𝑖𝑗 = { .
0 𝑠𝑖 𝑣𝑖 ∉ 𝑒𝑗

6
Las intensidades de participación de las distintas condiciones en las colecciones de

condiciones para las cuales el suceso es verdadero son caracterizadas utilizando

las frecuencias de su inclusión. Para ello es necesario introducir otra matriz, la

matriz de frecuencia de relaciones: 𝐹 = [𝑞𝑖𝑗 ]𝑛𝑥𝑛 , que caracteriza un modelo con

matriz de incidencia: 𝑄(Ψ) = [𝑞𝑖𝑗 ]𝑛𝑥𝑚

En la matriz de frecuencia de relaciones (F), a cada fila y columna de la cual le

corresponde biunívocamente una condición, y un elemento fij es igual al número de

palabras que comprenden las letras i y j, respectivamente, si i ≠ j; si i = j entonces fi

corresponde al número de palabras que incluyen la letra i (Martínez Santiago et al.,

Gorbátov, 1988). Siendo fi la frecuencia propia de la letra i y fij es la frecuencia

recíproca de las letras i y j, correspondientemente. Analizando la definición de la

matriz de frecuencia (F) de relaciones, se desprende que la misma es simétrica

respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada letra es

mayor que la frecuencia recíproca de esta letra con cualquier otra, fi ≥ fi.j.

Se puede obtener la matriz de frecuencia de relaciones a partir de multiplicar la

traspuesta de la matriz Q por ella misma:

𝐹 = 𝑄 𝑇 𝑥𝑄 (1)

1.3. Descriptores Moleculares. Índices Topológicos.

Los descriptores moleculares (DMs) juegan un papel fundamental actualmente en

el desarrollo de la Química, las Ciencias Farmacéuticas, las investigaciones de

nuevos materiales (Todeschini and Consonni, 2009).

Los descriptores moleculares pueden ser agrupados en dos clases generales:

7
1) Los derivados de medidas experimentales como: logP, refractividad molar,

momento dipolo, polarizabilidad y otras propiedades químico-físicas en general.

2) Descriptores Moleculares Teóricos, los cuales son derivados de

representaciones simbólicas de las moléculas y estos a su vez pueden ser

clasificados acorde con diferentes formas de representación molecular.

Los Índices Topológicos (ITs) son descriptores moleculares derivados de una

invariante grafo-teórica y codifican información estructural, contenida en la

conectividad molecular (Marrero-Ponce et al., 2012, Marrero-Ponce et al., 2006,

Martínez Santiago et al.).

Una invariante grafo-teórica es aquella propiedad del grafo que no depende del

orden de numeración de los elementos del mismo, las cuales pueden ser

obtenidas por manipulación algebraica del grafo.

Los ITs son representaciones numéricas de la estructura molecular. Siendo estos

valores numéricos, matemáticamente derivados de alguna forma directa y no

ambigua de una representación gráfica de la estructura molecular, generalmente

un grafo con hidrógenos suprimidos. Los mismos son sensibles a determinadas

características estructurales, tal como, tamaño, simetría, ramificaciones y ciclos,

y deben además codificar información acerca del tipo de átomos presentes y la

multiplicidad de los enlaces en los que están implicados dichos átomos.

Los índices topoquímicos además de cuantificar información topológica incluyen

información que permite lograr una adecuada diferenciación atómica basada en

propiedades características de los átomos y/o su estado de hibridación. Las

8
nuevas ecuaciones en diferencia finita, u en este trabajo, se clasifican como

índices topoquímicos pues tienen en cuenta propiedades químicas específicas de

cada átomo, tales como: Electronegatividad, Volumen Molar, etc.

1.4. Índices de Derivada Discreta de grafos moleculares.

Un tipo especial de ITs topoquímicos lo constituye los derivados de calcular la

derivada discreta del grafo molecular (Barigye et al., 2013b, Barigye et al., 2014,

Barigye et al., 2013c), además este concepto se ha extendido al relacionar la

derivada de un grafo con las diferentes entropías propias de la teoría de

información.

Las ecuaciones de definición de estos DMs se muestran en la tabla siguiente:

Tabla 1.1. Ecuaciones de Definición de los índices de derivada del grafo.

Descriptor Ecuación de Definición Significado

Jenssent 𝜕𝐺 𝑓𝑖 − 2𝑓𝑖𝑗 + 𝑓𝑗 Derivada de un Grafo (según


(𝑣𝑖 , 𝑣𝑗 ) =
𝜕𝑆 𝑓𝑖𝑗
Gorbátov)

Joint 𝜕𝐺 (𝑓𝑖 − 𝑓𝑖𝑗 ) + 𝑓𝑗 Derivada de un grafo inspirada en


(𝑣𝑖 , 𝑣𝑗 ) =
𝜕𝑆 𝑓𝑖𝑗
la entropía de unión

Mutual 𝜕𝐺 Derivada de un grafo inspirada en


(𝑣 , 𝑣 ) = 𝑓𝑖𝑗
𝜕𝑆 𝑖 𝑗
la entropía mutua

Conditional 𝜕𝐺 (𝑓𝑖 − 𝑓𝑖𝑗 ) Derivada de un grafo inspirada en


(𝑣𝑖 , 𝑣𝑗 ) =
𝜕𝑆 𝑓𝑖𝑗
la entropía condicional

Donde:

 fi: intensidad de participación de un vértice en el suceso escogido.

 fij: número de veces que aparece un par de vértices simultáneamente.

9
Un suceso, es una forma matemática de fragmentar las moléculas, el cual genera

una matriz de incidencia (Q), a partir de la cual luego de varios procedimientos

algebraicos, se calculan los índices de derivada del grafo utilizando las ecuaciones

antes expuestas.

Para hacer de estos conceptos matemáticos herramientas útiles en la descripción

molecular es importante definir un parámetro que caracterice cada objeto en

particular (elementos de la molécula como los vértices o a la molécula). Se define

entonces el índice atómico Δi sobre cada vértice (átomo) del grafo (molécula)

como la sumatoria sobre todos los valores de derivada como se muestra en la

ecuación 2(Marrero-Ponce et al., 2012):


𝑛
𝜕𝐺 (2)
∆𝑖 = ∑ (𝑣 , 𝑣 )
𝜕𝑆 𝑖 𝑗
𝑖=1

Estos valores constituyen en sí mismos descriptores topológicos de naturaleza

local o LOVIs (acrónimo de LOcal Vertex Invariant), aunque es necesario destacar

el hecho de que se obtendrá un número de LOVIs diferentes para diferentes

moléculas (según sea el número de átomos). Es necesario homogeneizar la data

resultante para el posterior tratamiento estadístico (Randic, 1998, Stat Soft, 2007,

Van de Waterbeemd, 1995). Esto se logra mediante el uso de operadores

matemáticos, conocidos como invariantes, y de esta forma se obtienen

descripciones totales y locales sobre fragmentos de interés en las moléculas. (ver

capítulo 2 epígrafe 2.2.1)

10
1.5. Métodos Estadísticos.

El término quimiometría surgió en la década del 70 y se define como la disciplina

química que combina herramientas matemáticas y estadísticas con

procedimientos para el análisis e interpretación de los datos químicos.(Brereton,

1990, Van de Waterbeemd, 1995) Estas técnicas son utilizadas para la

recopilación, elaboración, análisis, reducción y la caracterización de conjuntos

grandes de datos, como los que se utilizan en los estudios quimionformáticos y

bioinformáticos (Basilevsky, 1994). Actualmente las técnicas de análisis

quimiométrico se interceptan no solo con varios campos de la Matemática y la

Estadística clásica sino también de la Inteligencia Artificial y otras ramas de la

ciencia de la computación.

1.5.1. Regresión Lineal Múltiple. (RLM)

La RLM estudia las relaciones entre una variable dependiente y un conjunto de

variables independientes. Así mismo, la regresión múltiple remite a la correlación

múltiple, que se representa por R. Es decir, la correlación múltiple analiza la relación

entre una serie de variables independientes o predictores (X1, X2,…, Xk),

considerados conjuntamente, con una variable dependiente o criterio. Sus

fundamentos se hallan en la correlación de Pearson. La recta de regresión múltiple

tiene la siguiente forma:

y  a  b1 X 1  b2 X 2  ...  bk X k (3)

11
Siendo: “a” un valor constante, y la variable dependiente, X1, X2,….Xn variables

predictoras y b1, b2,…bn coeficientes estimados para cada variable independiente

del modelo. (Brereton, 1990)

Como puede observarse, la RLM puede utilizarse en la predicción de los valores de

la variable dependiente, en base a una combinación lineal de variables

independientes.

Algoritmo Genético (AG) como método de selección de parámetros:

Cuando se habla de algoritmos genéticos, hay que mencionar a John Holland que

en 1975 sienta las bases para sus posteriores desarrollos hasta llegar a lo que se

conoce hoy por algoritmos genéticos actuales. Según D. Goldberg los AGs son:

Algoritmos de búsqueda basados en los mecanismos de selección natural y

genética natural. Combinan la supervivencia de los más compatibles entre las

estructuras de cadenas, con una estructura de información ya aleatorizada,

intercambiada para construir un algoritmo de búsqueda con algunas de las

capacidades de innovación de la búsqueda humana.

Un AG no es más que un método de búsqueda que imita la teoría de la evolución

biológica de C. Darwin (1809-1882) para la resolución de problemas. Para ello, se

parte de una población inicial de la cual se seleccionan los individuos más

capacitados para luego reproducirlos y mutarlos, y de esa forma obtener finalmente

la siguiente generación de individuos que estarán más adaptados que la anterior

generación. En la naturaleza todo el proceso de evolución biológica se hace de

forma natural, pero para aplicar el AG al campo de la resolución de problemas habrá

que seguir una serie de pasos. Como premisa se debe conseguir que el tamaño de

12
la población sea lo suficientemente grande para garantizar la diversidad de

soluciones. Se aconseja que la población sea generada de forma aleatoria para

obtener dicha diversidad.(Todeschini et al., 2004)

Validación Interna de modelos:

Una condición necesaria para que sea válido un modelo de regresión es que el

coeficiente de determinación (R2) este cercano, tanto como sea posible, a uno y que

el error estándar estimado (s) sea pequeño (capacidad de ajuste a los datos); sin

embargo, la consideración de estos únicos parámetros estadísticos no es suficiente,

pues los valores de los mismos no necesariamente están relacionados con la

capacidad del modelo de realizar buenas predicciones de una data futura. Las

técnicas de validación constituyen herramientas fundamentales a la hora de evaluar

la capacidad predictiva de los modelos obtenidos por métodos multivariados de

regresión y clasificación, por lo que son extensamente aplicadas en la mayoría de

los estudios QSPR/QSAR.(Brereton, 1990)

La validación cruzada (VC) opera haciendo un número de reducidas

modificaciones al conjunto de compuestos de la data original y entonces calcula la

precisión de las predicciones de cada uno de los resultados de los modelos. Es

decir, se ajusta el modelo a los nuevos datos, dejando la parte omitida fuera, y estos

se evalúan en el modelo para computar las predicciones de los casos que fueron

excluidos. Este procedimiento se repite para cada conjunto de datos modificados.

El poder predictivo del modelo puede expresarse como q2, denominado como la

‘varianza predictiva’ o la ‘varianza de la validación

13
∑(𝑦𝑖 − 𝑦̂𝑖 )2 (4)
𝑞2 = 1 −
∑(𝑦𝑖 − 𝑦̅𝑖 )2

cruzada’, la cual es igual a (1-PRESS/SSY), o sea que puede ser calculado acorde

a la siguiente ecuación:

donde, 𝑦𝑖 , 𝑦̂𝑖 𝑦 𝑦̅ es la respuesta observada, estimada y media del i-ésimo caso,

respectivamente. Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual

da N grupos), el procedimiento se conoce como dejar “uno” fuera (LOO, acrónimo

de Leave-One-Out) (Brereton, 1990).

No obstante, se ha mostrado que, desde el punto de vista teórico y práctico, el

procedimiento de dejar ‘varios’ fuera (LSO, acrónimo de Leave-Several-Out) es

preferible al LOO.

En la técnica de validación por Bootstrap, la talla original del conjunto de datos

(n) es preservada en la serie de entrenamiento, a partir de la seleccionan m

objetos (𝑛 > 𝑚) que son asignados al conjunto de evaluación y estos son

sustituidos por m objetos repetidos de la serie de entrenamiento.El modelo es

calculado en el conjunto de entrenamiento y las respuestas son predichas en el

conjunto de evaluación. Las diferencias de los cuadrados entre las respuestas

ciertas y las predichas son recogidas en el PRESS. Este procedimiento de

elaboración del conjunto de entrenamiento es repetido miles de veces, los PRESS

son sumados y el poder predictivo promedio es calculado.(Wehrens et al., 2000)

El método del revuelto [prueba de aleatoriedad (y-sc: y-scrambling)] es

empleado para evaluar la correlación al azar.(Wold and Erikson, 1995) En esta

14
técnica, se calcula un modelo de regresión lineal para la verdadera variable

respuesta (y) junto con un número de regresiones repetidas (200-300 veces) con

las mismas variables, pero con la variable dependiente aleatoriamente revuelta

(ỹ). Luego se calcula para cada modelo la varianza explicada q2LOO y se evalúa la

correlación entre la respuesta verdadera y la revuelta de la siguiente manera:

𝑞𝑘2 = 𝑎 + 𝑏. 𝑟𝑘 (𝑦, 𝑦
̃)
𝑘 (5)

donde, la 𝑞𝑘2 es la varianza explicada para el modelo obtenido con los mismos

predictores teniendo el k-ésimo vector revuelto, 𝑟𝑘 es la correlación entre los

vectores para la respuesta verdadera y la k-ésima revuelta. Un valor del intercepto

cercano a cero implica que el modelo no es obtenido al azar mientras que un

intercepto grande indica que los modelos aleatorios poseen el mismo desempeño

que el modelo verdadero, por lo que se pudiera considerar aleatorio.(Rücker et al.,

2007)

15
CAPÍTULO 2: MATERIALES Y MÉTODOS

16
CAPÍTULO 2: MATERIALES Y MÉTODOS

2.1. Herramientas computacionales.

2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo.

La definición de los nuevos DMs tiene como propósito final su uso como una

herramienta para el diseño molecular y diversos estudios teóricos, es por ello muy

importante facilitar, desde un punto de vista computacional, el cálculo de estos

descriptores para que pueda ser utilizado por cualquier investigador interesado. Con

este fin se desarrolló un programa informático interactivo en el lenguaje de

programación JAVA (Figura 2.1) denominado DIVATI (acrónimo DIscrete

DeriVAtive Type Indices), un nuevo módulo del programa TOMOCOMD-CARDD 1.0

(acrónimo de TOpological MOlecular COMputer Design Computed-Aided ‘Rational’

Drug Design). Este programa carga las estructuras en ficheros de formato .mdl, .mol

y .sdf. y permite salvar los descriptores calculados en ficheros de tipo .txt, .xls, .xlsx

y .csv (Marrero-Ponce et al., 2013).

Figura 2.1. Interfaz gráfica del programa TOMOCOMD-CARDD y su módulo DIVATI.

17
Este software facilita el cálculo de todas las familias de índices basados en la

Derivada Discreta de un Grafo y la Teoría de Información: Derivadas, Derivadas

de Orden Superior y Derivadas Mixtas, sobre pares (duplas), tríos (ternas) y

cuartetos (cuaternas) de átomos en cualquier tipo de estructura química orgánica

(excluyendo macromoléculas poliméricas).

Para la diferenciación atómica se dispone de una serie de 21 ponderaciones

(etiquetas) atómicas, agrupadas en tres grandes grupos: Químicas [Número

atómico (Z), Volumen de Van der Walls (W), Polarizabilidad (P), Masa atómica (A),

Radio covalente (R), Electronegatividad de Pauling (E)], Físicas [Área superficial

polar total (T), Contribución atómica al logP (G), contribución atómica a la

refractividad molar (M), Carga (C)] y Topológicas basadas en diferentes criterios

de Grados del Vértice [Grado de valencia (N), Conectividad excéntrica (Y), Estado

Electrotopológico (S), Grado del vértice de Kupchik (K), Estado Intrínseco (I),

Grado del vértice de enlace (B), Grado del vértice de Li (D), Grado del vértice de

Hu-Xu (H), Grado del vértice de Alikhanidi (L), Grado del vértice de Ivanciauc (V),

Conteo de distancias (O)].

El programa permite además realizar cálculos locales atómicos individuales y para

grupos de átomos [Heteroátomos (HT), Halógenos (HL), Aceptores de protones

(AH), Donantes de protones (DH), Carbonos Metilos (MC), Insaturaciones (IS),

Grupos a una longitud k (GL)]. Para los cálculos locales de grupos de átomos se

aplican operadores matemáticos. Si al avaluar estos operadores se tienen en

18
cuenta todos los átomos de la molécula el resultado será un cálculo global (total)

de la molécula.

En el software DIVATI estos operadores han sido denominados colectivamente

como invariantes y agrupados en Normas, Medias, Estadísticos en Algoritmos

Clásicos y constituyen una generalización del uso de la combinación lineal de las

contribuciones atómicas para definición global de la molécula.

2.1.2. IMANN Software. Análisis de Variabilidad.

La calidad de los nuevos descriptores, que se proponen en este trabajo, puede ser

evaluada y comparada si se emplea la técnica de Análisis de variabilidad (AV)

basada en el cálculo de la Entropía de Shannon (SE).

𝑆 = ∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 (6))

para estos índices. Con esta técnica se estima el contenido de información

codificada por los diferentes parámetros moleculares, como entidades

independientes, y luego se comparan los valores entrópicos de estos.

Adicionalmente, para comparaciones lógicas, es deseable que las datas que se

comparen tengan el mismo número de variables, por lo que en estudios donde se

compararon datas con diferentes números de variables, se aplicaron puntos de

corte teniendo en cuenta la de menor número de variables.(Barigye et al., 2013a)

Con motivo de realizar el análisis de variabilidad de los parámetros moleculares

propuestos en el presente trabajo, se ha implementado una herramienta

19
computacional fundamentada en los conceptos de la teoría de información la cual

se denomina IMMAN (acrónimo de Information Theory based CheMoMetric

ANalysis). Esta aplicación permite el cálculo de la Entropía de Shannon (SE) a los

DMs, además de otros parámetros derivados de transformaciones matemáticas de

la SE, tales como: la entropía de Shannon estandarizada (sSE), la Negentropía

(nSE), el índice de redundancia de Brillouin (rSE), el índice de Gini (gSE) y el

contenido de la energía de información (iSE). Otros parámetros basados en la teoría

de información implementados en este programa incluyen la entropía diferencial

generalizada (DSE) y la información de Jeffrey (JI). Los formatos de ficheros de

entrada para el IMMAN incluyen .TXT (tabbed ASCII files) y .CSV (comma-

separated value files). En la Figura 2.2 se muestra la interfaz gráfica del software

(aplicación visual).

Figura 2.2. Interfaz gráfica del programa IMMAN.

2.1.3. MobyDigs Software: Regresión Lineal Múltiple.

El MobyDigs es un software para el cálculo de los modelos de regresión usando

algoritmos genéticos como método de selección de variables obteniéndose un

subconjunto óptimo de modelos predictivos desarrollados por la quimiometría. El

20
algoritmo genético está inspirado en los procesos de evolución natural en el cual

las especies que tienen mejor ajuste a ciertas condiciones pueden prevalecer y

sobrevivir a la próxima generación. Las mejores especies se pueden adaptar por

cruzamiento o mutación en la búsqueda de mejores individuos.(Todeschini et al.,

2004)

Los estadísticos usados para evaluar la calidad del modelo y el ajuste del mismo

a los datos experimentales fueron el coeficiente de correlación múltiple (R) y el

cuadrado de su valor (R2, coeficiente de determinación). La desviación estándar

(s) y la F de Fischer (y/o el nivel de significación del modelo y de cada variable, p

≤ 0.05) también se tuvieron en cuenta a la hora del ajuste y selección de los

modelos desarrollados. La calidad predictiva de las ecuaciones desarrolladas se

evaluó utilizando los estadísticos del proceso de validación cruzada (VC,

validación interna) y validación por boostraping (en este sentido, fue evaluado el

Q2 boot como estadístico para evaluar la calidad de esta validación).

2.1.4. Lenguaje de programación: FORTRAN 90.

El lenguaje de programación Fortran “The IBM Mathematical Formula Traslating

System” tiene sus orígenes en el año 1957 y surge como un método de cálculo de

expresiones matemáticas complejas y computación científica. Este lenguaje de

programación se ha convertido en uno de los lenguajes más empleados para la

programación de tareas de cálculos intensivos en áreas como son: Astronomía,

Modelos Meteorológicos, Álgebra Lineal, Simulación de Satélites, Química

Computacional, entre otras. En los primeros años de la década del 90 del siglo XX

21
surge la versión del compilador Fortran: Fortran 90, el cual ha tenido gran

aceptación por parte de los científicos no especializados en avanzados lenguajes

de programación, pues éste lenguaje de programación es sencillo, genera códigos

más rápidos y eficientes, además de que es un poderoso lenguaje para trabajar

con expresiones matemáticas complejas. En el presente trabajo se utilizará el

lenguaje Fortran 90 para calcular de forma automatizada los GDIs, lo cual

permitirá comprobar el correcto funcionamiento del software DIVATI.

2.2. Bases de Datos Químicas.

Con el paso del tiempo la Química se han desarrollado vertiginosamente, en gran

medida gracias a la enorme cantidad de información sobre: estructura,

propiedades y aplicaciones de millones de moléculas, obtenida a partir de la

experimentación, la cual se encuentra almacenada en diversas bases de datos

químicas las cuales han sido utilizadas por numerosos investigadores.

En la siguiente tabla se muestra a modo de resumen la base de datos química

utilizada en el trabajo, las propiedades modeladas, el tipo de estudio realizado.

Tabla 2. Bases de Datos químicas utilizadas en el trabajo.

Nombre Cantidad de Moléculas Propiedad/Actividad Tipo de Estudio

Saponinas log P
110 QSPR
Esteroidales

22
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN

23
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN

3.1. Implementación en FORTRAN 90 de un software capaz de calcular los

GDIs.

Las fórmulas de derivadas discretas presentadas anteriormente han sido

implementadas en el software DIVATI, desarrollado en JAVA, que es

multiplataforma y posee código libre, lo que permite su uso en posteriores

desarrollos de software para el cálculo de DMs. En el grupo de investigación se

diseñó y aplicó una metodología para realizar una validación exhaustiva de los

nuevos DMs implementados en el programa DIVATI.

Metodología General de Validación:

 Construir un modelo determinado por un suceso previamente fijado.

 Hallar la matriz de frecuencia de relaciones correspondiente al modelo.

 Calcular los pesos de los átomos, ponderados con determinadas propiedades

(también se usó la opción de no ponderar).

 Calcular los valores de derivada, sobre los pares elementos (átomos) del grafo

(molécula).

 Cálculo de los LOVIs y algunas invariantes totales y locales.

Esta metodología es la filosofía de trabajo que se siguió para la construcción del

algoritmo en FORTRAN 90 para el cálculo de los GDIs que se muestra a

continuación:

24
------------------------------------------------------------------------------------------------------------
program Ratify_GDIs print*,'"Y si alguno se imagina end do
que sabe algo, aun no sabe nada
implicit none como debe saberlo."' deallocate(Q)

integer::atomos, i, j, contador, print*," deallocate(Qt)


maximonumerodeposibilidadesp 1 Co 8:2"
araordenuno, enlace, m, print*, "Indices de la derivada del
algoritmo read*, algoritmo grafo (GDIs):"

integer::filas, columnas, a, b, c select case (algoritmo) print*, "------------------------------


---------------------------------"
real::Jenssent, Joint, Mutual, case (1)
Conditional, Jenssenttotal, do i=1,columnas,1
Jointtotal, Conditionaltotal, print*, ""
do j=1,columnas,1
Mutualtotal
print*, "SUBGRAFOS
CONEXOS" if (i>=j) then
real::JE, JO, MU, CO
print*,"Es necesario ingresar la cycle
integer,dimension(:,:),
allocatable::prematrizQdeMultip matriz Q"
else
licidad, Q, Qt, F
print*, "Ingrese el numero de
a=F(i,i)
integer,dimension(:,:), columnas de la matriz Q"
allocatable::matrizQdeMultiplici b=F(i,j)
read*, columnas
dad, matrizQtdeMultiplicidad,
matrizFdeMultiplicidad c=F(j,j)
print*, "Ingrese el numero de filas
de la matriz Q" if (b==0) then
print*,"Autor: Osvaldo Delgado
Glez MIQ I curso: read*, filas
2016-2017" cycle
allocate(Q(filas,columnas)) end if
print*,"Tutores: Msc. Carolina
Aguiar Punhal" print*, "Inserte el elemento de call
la:" calculo(a,b,c,Jenssent,Mutual,Joi
print*," Lic. Raul T. Pareja
Rodriguez" nt,Conditional,i,j)
do i=1,filas,1
print*,"Este programa esta end if
do j=1,columnas,1
disenhado para calcular los end do
diferentes GDIs (Jenssent," print*, "fila",i,"columna",j
end do
print*,"Mutual, Joint y read*, Q(i,j)
Conditional) y la invariante local do i=1,columnas,1
del vertice de cada atomo." end do
do j=1,columnas,1
print*,"" end do
if (i/=j)then
do !insertar la matriz
a=F(i,i)
print*, "Seleccione el evento al allocate(Qt(columnas,filas))
cual le quiere calcular los GDIs:" b=F(i,j)
Qt=transpose(Q)
print*, " 1 Subgrafos c=F(j,j)
allocate(F(columnas,columnas))
conexos"
if (b==0) then
F=matmul(Qt,Q)
print*, " 2 Multiplicidad"
cycle
print*, "La matriz de frecuencia
print*, " 3 Salir" es:(F=Qt*Q)" end if
print*, "" do i=1,columnas,1 call calculototal
(a,b,c,Jenssenttotal,Mutualtotal,J
print*, (F(i,j), j=1,columnas,1)
ointtotal,Conditionaltotal)

25
else print*,"------------------------------- maximonumerodeposibilidadesp
----------------------------------" araordenuno=0
cycle
print*,"///////////////////////////////////// do i=1,atomos,1
end if ////////////////////////////"
maximonumerodeposibilidadesp
end do print*,"------------------------------- araordenuno =
----------------------------------" maximonumerodeposibilidadesp
call sumatoria_de_los_LOVIs
araordenuno + i
(Jenssenttotal, Jointtotal, case (2)
Mutualtotal, Conditionaltotal, JE, end do
JO, MU, CO) print*, ""
maximonumerodeposibilidadesp
print*,"El invariante local del print*, "MULTIPLICIDAD" araordenuno =
vertice",i,"es:" maximonumerodeposibilidadesp
!---------------------------------------
araordenuno - atomos
print*, "Invariante --------------------------------
Jenssent:",Jenssenttotal allocate
print*,"La matriz Q de
(prematrizQdeMultiplicidad
print*, "Invariante Multiplicidad es una matriz que
(maximonumerodeposibilidades
Mutual:",Mutualtotal se construye a partir del orden"
paraordenuno, atomos))
print*, "Invariante Joint:", print*,"1 de la fragmentacion de
do i=1,atomos,1
Jointtotal las moléculas (suceso subgrafos
conexos) (filas) y el orden 0 de do j=1,atomos,1
print*, "Invariante dicha fragmentacion (columnas)"
Conditional:",Conditionaltotal if (i<j) then
print*,""
Jenssenttotal=0 print*,"atomo",i,"y el atomo",j
print*, "Se sugiere pintar la
Mutualtotal=0 molecula en forma de grafo read*, enlace
enumerando los atomos"
Jointtotal=0 select case(enlace)
print*,"¿Cuantos atomos tiene la
Conditionaltotal=0 case(0)
molecula?"
print*,"///////////////////////////////////// cycle
read*, atomos
//////////////////////////"
do while(atomos<=0) case(1)
end do
print*,"Valor invalido" contador=contador+1
print*,"-------------------------------
--------------------------------" print*,"¿Cuantos atomos tiene la do m=1,atomos,1
molecula?"
print*, "La sumatoria de los prematrizQdeMultiplicidad(cont
LOVIs Jenssent es:",JE read*, atomos ador,m)=0

print*, "La sumatoria de los end do end do


LOVIs Mutual es:",MU
print*,"El usuario indicara el prematrizQdeMultiplicidad(cont
print*, "La sumatoria de los enlace que se establece entre los ador,i)=1
LOVIs Joint es:",JO atomos especificados"
prematrizQdeMultiplicidad(cont
print*, "La sumatoria de los print*," 0 Si los atomos no ador,j)=1
LOVIs Conditional es:",CO estan enlazados"
case(2)
JE=0 print*," 1 Si es un simple
contador=contador+1
enlace"
JO=0
do m=1,atomos,1
print*," 2 Si es un doble
MU=0
enlace" prematrizQdeMultiplicidad(cont
CO=0 ador,m)=0
print*," 3 Si es un triple
deallocate (F) enlace" end do

print*, "" contador=0

26
prematrizQdeMultiplicidad(cont print*,"La matriz de frecuencia call calculo (a, b, c, Jenssent,
ador,i)=2 es:(F=Qt*Q)" Mutual, Joint, Conditional, i, j)

prematrizQdeMultiplicidad(cont print*,"------------------------------- end if


ador,j)=2 ---------------------------------"
end do
case(3) allocate
(matrizQtdeMultiplicidad end do
contador=contador+1 (atomos, contador))
do i=1,atomos,1
do m=1,atomos,1 matrizQtdeMultiplicidad
do j=1,atomos,1
=transpose
prematrizQdeMultiplicidad(cont
(matrizQdeMultiplicidad) if (i/=j)then
ador,m)=0
allocate (matrizFdeMultiplicidad a= matrizFdeMultiplicidad(i,i)
end do
(atomos, atomos))
prematrizQdeMultiplicidad(cont b= matrizFdeMultiplicidad(i,j)
matrizFdeMultiplicidad =matmul
ador,i)=3
(matrizQtdeMultiplicidad, c= matrizFdeMultiplicidad(j,j)
prematrizQdeMultiplicidad(cont matrizQdeMultiplicidad)
if (b==0) then
ador,j)=3
deallocate
(matrizQdeMultiplicidad, cycle
case default
matrizQtdeMultiplicidad)
end if
print*,"El valor ingresado es
invalido" do i=1,atomos,1
call calculototal (a, b, c,
print*, (matrizFdeMultiplicidad Jenssenttotal, Mutualtotal,
print*, "Favor, cierre el programa
(i,j), j=1,atomos,1) Jointtotal, Conditionaltotal)
y vuelva a su ejecucion"
end do else
end select
!--------------------------------------- cycle
end if
--------------------------------
end if
end do
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! end do
end do
print*, "Indices de la derivada del call sumatoria_de_los_LOVIs
allocate(matrizQdeMultiplicidad
grafo (GDIs):" (Jenssenttotal, Jointtotal,
(contador,atomos))
Mutualtotal, Conditionaltotal, JE,
do i=1,contador,1 print*, "------------------------------ JO, MU, CO)
---------------------------------"
do j=1,atomos,1 print*,"El invariante local del
do i=1,atomos,1 vertice",i,"es:"
matrizQdeMultiplicidad(i,j)=pre
matrizQdeMultiplicidad(i,j) do j=1,atomos,1 print*, "Invariante
Jenssent:",Jenssenttotal
end do if (i>=j) then
print*, "Invariante
end do cycle Mutual:",Mutualtotal

print*, "La matriz Q es:" else print*, "Invariante Joint:",


Jointtotal
print*,"------------------------------- a= matrizFdeMultiplicidad(i,i)
---------------------------------" print*, "Invariante
b= matrizFdeMultiplicidad(i,j) Conditional:",Conditionaltotal
do i=1,contador,1
c= matrizFdeMultiplicidad(j,j) Jenssenttotal=0
print*,
(matrizQdeMultiplicidad(i,j), if (b==0) then Mutualtotal=0
j=1,atomos,1)
cycle Jointtotal=0
end do
end if Conditionaltotal=0

27
print*, print*, "EXIT" subroutine calculototal(a, b, c,
"////////////////////////////////////////////// Jenssenttotal, Mutualtotal,
/////////////////" exit Jointtotal, Conditionaltotal)

end do case default implicit none

deallocate print*, "caso no valido" integer,intent(in)::a,b,c


(prematrizQdeMultiplicidad,matr
print*, "" real,intent(inout)::Jenssenttotal,
izFdeMultiplicidad)
Mutualtotal, Jointtotal,
end select
print*,"------------------------------- Conditionaltotal
--------------------------------" end do
Jenssenttotal=((a-
print*, "La sumatoria de los end program Ratify_GDIs 2*b+c)/b)+Jenssenttotal
LOVIs Jenssent es:",JE
subroutine calculo(a, b, c, Mutualtotal=b+Mutualtotal
print*, "La sumatoria de los Jenssent, Mutual, Joint,
LOVIs Mutual es:",MU Jointtotal=((a-b+c)/b)+Jointtotal
Conditional, i, j)
print*, "La sumatoria de los Conditionaltotal=((a-
implicit none
LOVIs Joint es:",JO b)/b)+Conditionaltotal
integer,intent(in)::a, b, c, i, j
print*, "La sumatoria de los end subroutine calculototal
LOVIs Conditional es:",CO real,intent(inout)::Jenssent,
subroutine
Mutual, Joint, Conditional
JE=0 sumatoria_de_los_LOVIs
Jenssent=(a-2*b+c)/b (Jenssenttotal, Jointtotal,
JO=0 Mutualtotal, Conditionaltotal, JE,
Mutual=b JO, MU, CO)
MU=0
Joint=(a-b+c)/b implicit none
CO=0
Conditional=(a-b)/b real,intent(in):: Jenssenttotal,
print*, "" Jointtotal, Mutualtotal,
print*, "Entre el atomo",i,"y el Conditionaltotal
print*,"------------------------------- atomo",j
----------------------------------" real,intent(inout)::JE, JO, MU,
print*, "Jenssent:",Jenssent CO
print*,"/////////////////////////////////////
////////////////////////////" print*, "Mutual:",Mutual JE=JE+Jenssenttotal
print*,"------------------------------- print*, "Joint:", Joint JO=JO+Jointtotal
----------------------------------"
print*, MU=MU+Mutualtotal
!Invariate local del vertice "Conditional:",Conditional
CO=CO+Conditionaltotal
!--------------------------------------- print*, "------------------------------
-------------------------------- ---------------------------------" end subroutine
sumatoria_de_los_LOVIs
case (3) end subroutine calculo

------------------------------------------------------------------------------------------------------------

Figura 3.1 Interfaz gráfica del software Ratify_GDIs.

28
Esta metodología y el propio algoritmo denominado: RATIFY GDIs constituyen un

aporte metodológico y práctico de este trabajo dado que puede ser empleada por

otros especialistas para realizar procesos similares a los que se describirán

posteriormente durante la validación de otros programas de cálculo de

descriptores moleculares.

Durante el proceso de validación se utilizó la molécula de 3-metil-2-butanona, la

cual tiene una estructura donde se aprecian: grupos metilos químicamente

equivalentes, instauraciones y átomos de carbonos ¨enterrados¨ en la estructura

los cual aporta mucho a la interpretación de los resultados de calcular los GDIs

para las diferentes formulaciones del trabajo.

Figura. 3.2. Molécula de 3-metil-2-butanona y Grafo molecular con H suprimidos.

El primer paso del algoritmo consiste en construir manualmente la matriz de

incidencia (Q) (ver epígrafe 1.2) según un suceso determinado, en este caso se

utilizó: MULTIPLICITY que consiste en fragmentar matemáticamente la molécula

en subgrafos de orden desde 1, teniendo en cuenta la multiplicidad de los enlaces,

esta matriz se introduce en el software Ratify-GDIs.

29
Mediante la función MATMUL (multiplicación de matrices en FORTRAN 90) se

encuentra la matriz de frecuencia F, a partir de la cual se calculan los GDIs propios

de aplicar cada una de las ecuaciones de definición, recogidas en la tabla 1.

De manera sencilla se puede resumir el algoritmo del software de validación como

se muestra en el esquema siguiente:

Los resultados de aplicar dicha metodología a la molécula anterior utilizando el

suceso de MULTIPLICITY y la comparación con los cálculos realizados con el

software DIVATI se muestran en la tabla, en la cual se calculan las Normas 1 de

cada descriptor.

Tabla 2. Comparación entre DIVATI vs Ratify GDIs.

Descriptor DIVATI Ratify GDIs

GDI (Jenssent) 32,00 32,00

GDI (Mutual) 16,00 16,00

GDI (Conditional) 16,00 16,00

GDI (Joint) 42,00 42,00

30
Puede apreciarse igualdad entre los resultados calculados por ambos métodos, lo

cual es un indicador de la correcta implementación matemática y computacional

de los GDIs.

3.2. Validación QSPR de los GDIs.

3.2.1. Modelación de propiedades químico-físicas con los GDIs.

En esta sección han sido desarrollados modelos QSPR (Quantitative Structure

Property Relationships) para modelar una propiedad químico-física de 110

estructuras derivadas de saponinas esteroidales, las cuales se conocen por su

probada actividad biológica (Marrero-Ponce et al., 2012). En el estudio se modela

el coeficiente de partición 1-octanol/agua, (log P), el cual está relacionado con la

medida de la lipofilidad de estas moléculas.

Se obtuvieron modelos de RLM con 7 variables para cada familia de descriptores

y se obtuvo un modelo final combinando todas las formulaciones para la propiedad

estudiada.

A continuación, se muestran de forma resumida en una tabla los parámetros

estadísticos de los modelos finales de RLM para los diferentes descriptores

inspirados en las entropías de información.

Tabla 2. Resumen de los Modelos log P.

Parámetros Estadísticos

Descriptor R2 q2loo q2boot s F

GDI (Unión) 97.45 97.02 96.85 0.2459 546.57

31
GDI (Mutual) 97.42 96.85 96.65 0.2452 549.87

GDI (Condicional) 96.98 96.48 96.25 0.2654 467.21

GDI (Jenssent) 96.74 96.14 95.90 0.2756 432.07

A partir del análisis de los parámetros estadísticos se observa que todos los

modelos muestran un elevado poder predictivo (q2loo> 96), altos valores de

coeficiente de determinación y bajos valores de error estándar estimado (s <

0,300) lo que demuestra la alta correlación con la propiedad modelada.

Además, los valores de q2boot están por encima del 95 %. Todos estos resultados

dan una medida de la robustez estadística de los modelos de RLM obtenidos a

partir del estudio computacional del conjunto de saponinas estudiado.

El modelo resultante de la combinación de los descriptores posee una alta

correlación con la propiedad modelada, es capaz de explicar el 97.72 % de la

varianza de la propiedad experimental, además de una elevada capacidad

predictiva (q2loo = 97.17), el error estándar es pequeño, lo que demuestra la poca

variación entre el valor experimental y el valor calculado por el modelo.

Se aprecia en el modelo (ecuación 7) la presencia de índices totales, lo cual es

lógico, pues la propiedad que se modela depende de las características

espaciales de la estructura molecular en todo su conjunto.

32
𝐷 𝐷
𝑊 𝑀−
𝑓
𝑇 𝑀−
𝑓 (7)
𝑙𝑜𝑔𝑃 = −2.139(±0.65) + 0.0001(±0)[𝐼𝑛 𝐺𝐼6 (𝑄3 )]𝑀 − 0.587(±0.044)[𝐼𝑛 𝐺𝐼2 (𝑀)]𝑀

𝐷 𝐷
𝑉2 𝑀− 𝑉1 𝑀−
𝑓 𝑓
− 0.00145(±0.00008)[ 𝐼𝑛 𝐼𝐵 (𝑄2 )]𝑀 + 0(±0)[ 𝐼𝑛 𝐸𝑆(𝐾)]𝑄

𝐷 𝐷
𝑉9 𝑀− 𝑃 𝑀−
𝑓 𝑓
+ 5.21(±0.325)[ 𝐼𝑛 𝑇𝑆8 (𝑃2 )]𝑄 − 0.0134(±0.00037)[𝐼𝑛 𝑇𝑆5 (𝑀𝑋)]𝐻

𝐷
𝐽−
𝑓
− 0.0185(±0.00016)[𝑉14/𝐼𝑛 𝐺𝐼7 (𝐾)]𝐵

R2=97.72 q2loo= 97.17 q2boot= 96.98 s= 0.2302 F= 625.65

La formulación que más entra en el modelo es la diferencia inspirada en la

entropía mutua, cuantificando el contenido de información estructural común

entre pares de átomos, además aparecen como sucesos (formas de

fragmentación molecular): quantum (Q) porque está basado en la eliminación de

la aristas que unen a los vértices vi y vj del grafo G, con reemplazamiento,

multiplicidad (M) porque este suceso se define a partir de la formación de los

subgrafos de tipo camino de orden 1 del grafo simple derivado de la molécula

examinada, o sea, tomando como colección de condiciones las aristas del grafo,

subestructuras (B) porque supone estructuras representativas para

prácticamente todos los grupos funcionales orgánicos que están presentes en

las estructuras modeladas y subgrafos de Sach (H) porque fragmenta las

estructuras a partir de considerar subgrafos aislados interconectados por una

arista y ciclos, lo cual está presente en todas las moléculas pertenecientes a esta

data.

A continuación, se muestran los gráficos de correlación y predicción

respectivamente para el modelo combinado en la figura 11.

33
Figura 3.3 Gráficos de predicción y correlación para el modelo combinado de log P.

A partir del análisis del gráfico de predicción se aprecia claramente la alta

capacidad predictiva del modelo, coincidiendo las predicciones para la mayoría

de las moléculas,(ambas curvas se solapan en prácticamente todas las

estructuras, la gris representa los valores de log P para cada molécula y la

azul representa los valores predichos por el modelo), el gráfico de regresión,

muestra la elevada correlación entre la propiedad modelada y la predicha por el

modelo, lo cual da una medida de la posibilidad de aplicación de estos en la

predicción de liposolubilidad.

Mediante la realización de este estudio QSPR se obtuvieron modelos de RLM que

correlacionaron favorablemente con la propiedad modelada, ya que se escogió

una propiedad químico-física la cual tienen una importante relación con la

estructura espacial de la molécula y su desempeño como sustancia

biológicamente activa. Este modelo debe presentar la capacidad de predecir

actividad antinflamatoria de las saponinas esteroidales en posteriores estudios.

34
Conclusiones:

 Se implementó un software en FORTRAN 90 que permite validar los GDIs.

 Se comprobó la correcta implementación computacional de los GDIs en el

software DIVATI.

 El estudio QSPR realizado arrojó modelos de regresión lineal múltiple que

correlacionaron satisfactoriamente con una propiedad químico-física.

Recomendaciones:

 Realizar nuevos estudios QSPR comparativos que permitan continuar la

validación computacional del software DIVATI.

35
REFERENCIAS BIBLIOGRÁFICAS:

 BARIGYE, S. J., MARRERO-PONCE, Y., LÓPEZ, Y. M., SANTIAGO, O. M., TORRENS, F.,

DOMENECH, R. G. & GALVEZ, J. 2013a. Event-based criteria in GT-STAF information indices:

theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in Environmental

Research, 24, 3-34.

 BARIGYE, S. J., MARRERO-PONCE, Y., MARTÍNEZ-LÓPEZ, Y., ARTILES MARTÍNEZ, L. M.,

PINO-URIAS, R. W., MARTÍNEZ-SANTIAGO, O. & TORRENS, F. 2013b. Relations Frequency

Hypermatrices in Mutual, Conditional and Joint Entropy-Based Information Indices. J Comput.

Chem., 34, 259-274.

 BARIGYE, S. J., MARRERO-PONCE, Y., PÉREZ-GIMÉNEZ, F. & BONCHEV, D. 2014. Trends in

Information Theory Based Chemical Structure Codification. Mol. Divers., 1-14.

 BARIGYE, S. J., MARRERO-PONCE, Y., SANTIAGO, O. M., LÓPEZ, Y. M., PÉREZ-GIMÉNEZ, F.

& TORRENS, F. 2013c. Shannon’s, Mutual, Conditional and Joint Entropy Information Indices:

Generalization of Global Indices Defined from Local Vertex Invariants. Current Computer-Aided Drug

Design, 9(2), 164-183.

 BASILEVSKY, A. 1994. Statistical Factor Analysis and Related Methods. Wiley: New York (NY).

 BRERETON, R. G. 1990. Chemometrics, Ellis Horwood, Chichester, UK,.

 COCKETT, M. & DOGGETT, G. 2003. Maths for Chemists, Royal Society of Chemistry, Thomas

Graham House, Science Park, Milton Road, Cambridge CB4 OWF, UK.

 DEVILLERS, J. & BALABAN, A. 1999a. Topological Indices and Related Descriptors in QSAR and

QSPR. Amsterdam: Gordon and Breach.

 DEVILLERS, J. & BALABAN, A. T. 1999b. Topological Indices and Related Descriptors in QSAR and

QSPR. Gordon and Breach: Amsterdam, the Netherlands.

 GORBÁTOV, V. A. 1988. Fundamentos de la Matemática Discreta, Moscú, URSS: Mir.

 MARRERO-PONCE, Y., MARTÍNEZ-SANTIAGO, O., LÓPEZ, Y. M. & S. J. BARIGYE, F. T. 2012.

Derivatives in discrete mathematics: a novel graph-theoretical invariant for generating new 2/3D

molecular descriptors I. Theory and QSPR application. J Comput Aided Mol Des, 26, 1907.

 MARRERO-PONCE, Y., MARTÍNEZ LÓPEZ, Y., MARTÍNEZ SANTIAGO, O. & BARIGYE, S. J.

2013. TOMOCOMD-CARDD-DIVATI. 1.0 ed. Unit of Computer-Aided Molecular “Biosilico” Discovery

and Bioinformatic Research (CAMD-BIR Unit): Santa Clara, Cuba.

36
 MARRERO-PONCE, Y., TORRENS, F., ALVARADO, Y. J. & ROTONDO, R. 2006. J. Comput. Aided

Mol. Des., 20, 685.

 MARTÍNEZ-SANTIAGO, O., MILLÁN-CABRERA, R., MARRERO-PONCE, Y., BARIGYE, S. J.,

MARTÍNEZ-LÓPEZ, Y., TORRENS, F. & PÉREZ-GIMÉNEZ, F. 2014. Discrete Derivatives for Atom-

Pairs as a Novel Graph-Theoretical Invariant for Generating New Molecular Descriptors:

Orthogonality, Interpretation and QSARs/QSPRs on Benchmark Databases. J. Molecular Informatics

33.

 MARTÍNEZ SANTIAGO, O., MARRERO PONCE, Y., MILLÁN CABRERA, R., BARIGYE, S. J.,

MARTÍNEZ LÓPEZ, Y., ARTILES MARTÍNEZ, L. M., GUERRA DE LEÓN, J. O. & PÉREZ GIMÉNEZ,

F. Extending Graph Derivative Descriptors to N-Dimensional Atom-Relations. MATCH (Commun.

Math. Chem.), accepted for publications.

 RANDIC, M. 1998. Encyclopedia of Computational Chemistry. John Wiley & Sons: New York.

 RÜCKER, C., RÜCKER, G. & MERINGER, M. 2007. y-randomization and its variants in

QSPR/QSAR. J. Chem. Inf. Model., 47, 2345–2357.

 STAT SOFT, I. 2007. STATISTICA. 8.0 ed.

 TODESCHINI, R., BALLABIO, D., CONSONNI, V., MAURI, A. & PAVAN, M. 2004. MobyDigs.

Version 1.0, TALETE srl ed.

 TODESCHINI, R. & CONSONNI, V. 2009. Molecular Descriptors for Chemoinformatics, wiley-VCH.

 VAN DE WATERBEEMD, H. 1995. Chemometric Methods in Molecular Design (Methods and

Principles in Medicinal Chemistry). John Wiley & Sons: New York.

 WEHRENS, R., PUTTER, H. & BUYDENS, L. 2000. The bootstrap: a tutorial. Chemom. Intell. Lab.

Syst., 54, 35–52.

 WOLD, S. & ERIKSON, L. 1995. In Chemometric Methods in Molecular Design. van de Waterbeemd,

H., Ed.; VCH Publishers: Weinheim, Germany.

37

Vous aimerez peut-être aussi