Académique Documents
Professionnel Documents
Culture Documents
FACULTAD DE QUÍMICA-FARMACIA
DEPARTAMENTO: LIC. QUÍMICA
Santa Clara
2017
Tabla de contenido
Introducción .................................................................................................................................... 1
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA ............................................................................. 4
1.1. Química Grafo-Teórica. ................................................................................................ 5
1.2. Representación Matricial de Grafos moleculares. ................................................... 6
1.3. Descriptores Moleculares. Índices Topológicos. ...................................................... 7
1.4. Índices de Derivada Discreta de grafos moleculares. ............................................. 9
1.5. Métodos Estadísticos.................................................................................................. 11
1.5.1. Regresión Lineal Múltiple. (RLM) ...................................................................... 11
CAPÍTULO 2: MATERIALES Y MÉTODOS ............................................................................ 16
2.1. Herramientas computacionales..................................................................................... 17
2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo. .. 17
2.1.2. IMANN Software. Análisis de Variabilidad. ..................................................... 19
2.1.3. MobyDigs Software: Regresión Lineal Múltiple. ............................................. 20
2.1.4. Lenguaje de programación: FORTRAN 90. .................................................... 21
2.2. Bases de Datos Químicas. ........................................................................................ 22
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN ....................................................................................... 23
3.1. Implementación en FORTRAN 90 de un software capaz de calcular los GDIs. ... 24
3.2. Validación QSPR de los GDIs. .................................................................................. 31
3.2.1. Modelación de propiedades químico-físicas con los GDIs. .......................... 31
Conclusiones:............................................................................................................................... 35
Recomendaciones: ..................................................................................................................... 35
REFERENCIAS BIBLIOGRÁFICAS: ........................................................................................ 36
Resumen
moleculares basados en conceptos del algebra lineal, derivada del grafo molecular
In the present work a new family of molecular descriptors based on linear algebra
concepts, derived from the molecular graph and Information Theory, has been
by implementing a software in FORTRAN 90, the results were verified using the 3-
methyl-2-butanone molecule. The validation process yielded good results for the
the different entropies of information. The new descriptors were also validated
partition 1-octanol / water. The models obtained with the MobyDigs software
correlated satisfactorily with the modeled property. This work demonstrates the
safety of applying GDIs to the study of chemical and physical properties of organic
substances.
Introducción
químicos están en estrecha relación con su estructura molecular, esta puede ser
(Todeschini and Consonni, 2009). Los resultados numéricos por ellos expresados
actividades) moleculares. Los DMs pueden ser generados por medio de varios
geométricos (3D), electrónicos de las moléculas, etc. Otros, sin embargo, tienen
and Balaban, 1999b).Los ITs han comenzado a ocupar un lugar importante dentro
1
del conjunto de descriptores moleculares utilizados en los estudios biológicos y
químicas representadas como grafos moleculares. Para que estos ITs puedan ser
2
Situación Problémica:
DIVATI.
Problema científico:
Hipótesis:
estadísticos] para validar los nuevos GDIs, implementados en la nueva versión del
software DIVATI.
Objetivo general:
Implementar un programa que sea capaz de validar los nuevos GDIs en el software
DIVATI.
Objetivos específicos:
automáticamente.
3
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA
4
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA
grafos, tiene su origen en el año 1736, cuando Leonhard Euler (1707-1783) resolvió
y la Topología.
cual cada vértice representa un objeto y la arista que conecta dos vértices
química grafo-teórica los objetos del grafo pueden representar orbitales, átomos(o
(Marrero-Ponce et al., 2012). De esta forma los vértices del grafo podrían
representar los átomos y las aristas las interacciones entre objetos químicos (ej.
átomos), por lo cual estas últimas se usan para definir enlaces químicos, reacciones,
5
1.2. Representación Matricial de Grafos moleculares.
condiciones, con las cuales el suceso tiene lugar. Entonces 𝑞𝑖𝑗 se define como:
Cada suceso (S) determina un modelo () con matriz de incidencia Q. Las
del modelo.
Por ejemplo: la Matriz de incidencia (Q): para un grafo G, con una ordenación de
1 𝑠𝑖 𝑣𝑖 ∈ 𝑒𝑗
𝑞𝑖𝑗 = { .
0 𝑠𝑖 𝑣𝑖 ∉ 𝑒𝑗
6
Las intensidades de participación de las distintas condiciones en las colecciones de
respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada letra es
mayor que la frecuencia recíproca de esta letra con cualquier otra, fi ≥ fi.j.
𝐹 = 𝑄 𝑇 𝑥𝑄 (1)
7
1) Los derivados de medidas experimentales como: logP, refractividad molar,
Una invariante grafo-teórica es aquella propiedad del grafo que no depende del
orden de numeración de los elementos del mismo, las cuales pueden ser
8
nuevas ecuaciones en diferencia finita, u en este trabajo, se clasifican como
derivada discreta del grafo molecular (Barigye et al., 2013b, Barigye et al., 2014,
información.
Donde:
9
Un suceso, es una forma matemática de fragmentar las moléculas, el cual genera
algebraicos, se calculan los índices de derivada del grafo utilizando las ecuaciones
antes expuestas.
entonces el índice atómico Δi sobre cada vértice (átomo) del grafo (molécula)
resultante para el posterior tratamiento estadístico (Randic, 1998, Stat Soft, 2007,
10
1.5. Métodos Estadísticos.
ciencia de la computación.
y a b1 X 1 b2 X 2 ... bk X k (3)
11
Siendo: “a” un valor constante, y la variable dependiente, X1, X2,….Xn variables
independientes.
Cuando se habla de algoritmos genéticos, hay que mencionar a John Holland que
en 1975 sienta las bases para sus posteriores desarrollos hasta llegar a lo que se
conoce hoy por algoritmos genéticos actuales. Según D. Goldberg los AGs son:
que seguir una serie de pasos. Como premisa se debe conseguir que el tamaño de
12
la población sea lo suficientemente grande para garantizar la diversidad de
Una condición necesaria para que sea válido un modelo de regresión es que el
coeficiente de determinación (R2) este cercano, tanto como sea posible, a uno y que
el error estándar estimado (s) sea pequeño (capacidad de ajuste a los datos); sin
capacidad del modelo de realizar buenas predicciones de una data futura. Las
decir, se ajusta el modelo a los nuevos datos, dejando la parte omitida fuera, y estos
se evalúan en el modelo para computar las predicciones de los casos que fueron
El poder predictivo del modelo puede expresarse como q2, denominado como la
13
∑(𝑦𝑖 − 𝑦̂𝑖 )2 (4)
𝑞2 = 1 −
∑(𝑦𝑖 − 𝑦̅𝑖 )2
cruzada’, la cual es igual a (1-PRESS/SSY), o sea que puede ser calculado acorde
a la siguiente ecuación:
preferible al LOO.
14
técnica, se calcula un modelo de regresión lineal para la verdadera variable
respuesta (y) junto con un número de regresiones repetidas (200-300 veces) con
(ỹ). Luego se calcula para cada modelo la varianza explicada q2LOO y se evalúa la
𝑞𝑘2 = 𝑎 + 𝑏. 𝑟𝑘 (𝑦, 𝑦
̃)
𝑘 (5)
donde, la 𝑞𝑘2 es la varianza explicada para el modelo obtenido con los mismos
intercepto grande indica que los modelos aleatorios poseen el mismo desempeño
2007)
15
CAPÍTULO 2: MATERIALES Y MÉTODOS
16
CAPÍTULO 2: MATERIALES Y MÉTODOS
2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo.
La definición de los nuevos DMs tiene como propósito final su uso como una
herramienta para el diseño molecular y diversos estudios teóricos, es por ello muy
descriptores para que pueda ser utilizado por cualquier investigador interesado. Con
Drug Design). Este programa carga las estructuras en ficheros de formato .mdl, .mol
y .sdf. y permite salvar los descriptores calculados en ficheros de tipo .txt, .xls, .xlsx
17
Este software facilita el cálculo de todas las familias de índices basados en la
atómico (Z), Volumen de Van der Walls (W), Polarizabilidad (P), Masa atómica (A),
de Grados del Vértice [Grado de valencia (N), Conectividad excéntrica (Y), Estado
Electrotopológico (S), Grado del vértice de Kupchik (K), Estado Intrínseco (I),
Grado del vértice de enlace (B), Grado del vértice de Li (D), Grado del vértice de
Hu-Xu (H), Grado del vértice de Alikhanidi (L), Grado del vértice de Ivanciauc (V),
Grupos a una longitud k (GL)]. Para los cálculos locales de grupos de átomos se
18
cuenta todos los átomos de la molécula el resultado será un cálculo global (total)
de la molécula.
La calidad de los nuevos descriptores, que se proponen en este trabajo, puede ser
19
computacional fundamentada en los conceptos de la teoría de información la cual
entrada para el IMMAN incluyen .TXT (tabbed ASCII files) y .CSV (comma-
separated value files). En la Figura 2.2 se muestra la interfaz gráfica del software
(aplicación visual).
20
algoritmo genético está inspirado en los procesos de evolución natural en el cual
las especies que tienen mejor ajuste a ciertas condiciones pueden prevalecer y
2004)
Los estadísticos usados para evaluar la calidad del modelo y el ajuste del mismo
validación interna) y validación por boostraping (en este sentido, fue evaluado el
System” tiene sus orígenes en el año 1957 y surge como un método de cálculo de
Computacional, entre otras. En los primeros años de la década del 90 del siglo XX
21
surge la versión del compilador Fortran: Fortran 90, el cual ha tenido gran
Saponinas log P
110 QSPR
Esteroidales
22
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN
23
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN
GDIs.
diseñó y aplicó una metodología para realizar una validación exhaustiva de los
Calcular los valores de derivada, sobre los pares elementos (átomos) del grafo
(molécula).
continuación:
24
------------------------------------------------------------------------------------------------------------
program Ratify_GDIs print*,'"Y si alguno se imagina end do
que sabe algo, aun no sabe nada
implicit none como debe saberlo."' deallocate(Q)
25
else print*,"------------------------------- maximonumerodeposibilidadesp
----------------------------------" araordenuno=0
cycle
print*,"///////////////////////////////////// do i=1,atomos,1
end if ////////////////////////////"
maximonumerodeposibilidadesp
end do print*,"------------------------------- araordenuno =
----------------------------------" maximonumerodeposibilidadesp
call sumatoria_de_los_LOVIs
araordenuno + i
(Jenssenttotal, Jointtotal, case (2)
Mutualtotal, Conditionaltotal, JE, end do
JO, MU, CO) print*, ""
maximonumerodeposibilidadesp
print*,"El invariante local del print*, "MULTIPLICIDAD" araordenuno =
vertice",i,"es:" maximonumerodeposibilidadesp
!---------------------------------------
araordenuno - atomos
print*, "Invariante --------------------------------
Jenssent:",Jenssenttotal allocate
print*,"La matriz Q de
(prematrizQdeMultiplicidad
print*, "Invariante Multiplicidad es una matriz que
(maximonumerodeposibilidades
Mutual:",Mutualtotal se construye a partir del orden"
paraordenuno, atomos))
print*, "Invariante Joint:", print*,"1 de la fragmentacion de
do i=1,atomos,1
Jointtotal las moléculas (suceso subgrafos
conexos) (filas) y el orden 0 de do j=1,atomos,1
print*, "Invariante dicha fragmentacion (columnas)"
Conditional:",Conditionaltotal if (i<j) then
print*,""
Jenssenttotal=0 print*,"atomo",i,"y el atomo",j
print*, "Se sugiere pintar la
Mutualtotal=0 molecula en forma de grafo read*, enlace
enumerando los atomos"
Jointtotal=0 select case(enlace)
print*,"¿Cuantos atomos tiene la
Conditionaltotal=0 case(0)
molecula?"
print*,"///////////////////////////////////// cycle
read*, atomos
//////////////////////////"
do while(atomos<=0) case(1)
end do
print*,"Valor invalido" contador=contador+1
print*,"-------------------------------
--------------------------------" print*,"¿Cuantos atomos tiene la do m=1,atomos,1
molecula?"
print*, "La sumatoria de los prematrizQdeMultiplicidad(cont
LOVIs Jenssent es:",JE read*, atomos ador,m)=0
26
prematrizQdeMultiplicidad(cont print*,"La matriz de frecuencia call calculo (a, b, c, Jenssent,
ador,i)=2 es:(F=Qt*Q)" Mutual, Joint, Conditional, i, j)
27
print*, print*, "EXIT" subroutine calculototal(a, b, c,
"////////////////////////////////////////////// Jenssenttotal, Mutualtotal,
/////////////////" exit Jointtotal, Conditionaltotal)
------------------------------------------------------------------------------------------------------------
28
Esta metodología y el propio algoritmo denominado: RATIFY GDIs constituyen un
aporte metodológico y práctico de este trabajo dado que puede ser empleada por
descriptores moleculares.
los cual aporta mucho a la interpretación de los resultados de calcular los GDIs
incidencia (Q) (ver epígrafe 1.2) según un suceso determinado, en este caso se
29
Mediante la función MATMUL (multiplicación de matrices en FORTRAN 90) se
cada descriptor.
30
Puede apreciarse igualdad entre los resultados calculados por ambos métodos, lo
de los GDIs.
estudiada.
Parámetros Estadísticos
31
GDI (Mutual) 97.42 96.85 96.65 0.2452 549.87
A partir del análisis de los parámetros estadísticos se observa que todos los
Además, los valores de q2boot están por encima del 95 %. Todos estos resultados
32
𝐷 𝐷
𝑊 𝑀−
𝑓
𝑇 𝑀−
𝑓 (7)
𝑙𝑜𝑔𝑃 = −2.139(±0.65) + 0.0001(±0)[𝐼𝑛 𝐺𝐼6 (𝑄3 )]𝑀 − 0.587(±0.044)[𝐼𝑛 𝐺𝐼2 (𝑀)]𝑀
𝐷 𝐷
𝑉2 𝑀− 𝑉1 𝑀−
𝑓 𝑓
− 0.00145(±0.00008)[ 𝐼𝑛 𝐼𝐵 (𝑄2 )]𝑀 + 0(±0)[ 𝐼𝑛 𝐸𝑆(𝐾)]𝑄
𝐷 𝐷
𝑉9 𝑀− 𝑃 𝑀−
𝑓 𝑓
+ 5.21(±0.325)[ 𝐼𝑛 𝑇𝑆8 (𝑃2 )]𝑄 − 0.0134(±0.00037)[𝐼𝑛 𝑇𝑆5 (𝑀𝑋)]𝐻
𝐷
𝐽−
𝑓
− 0.0185(±0.00016)[𝑉14/𝐼𝑛 𝐺𝐼7 (𝐾)]𝐵
examinada, o sea, tomando como colección de condiciones las aristas del grafo,
arista y ciclos, lo cual está presente en todas las moléculas pertenecientes a esta
data.
33
Figura 3.3 Gráficos de predicción y correlación para el modelo combinado de log P.
predicción de liposolubilidad.
34
Conclusiones:
software DIVATI.
Recomendaciones:
35
REFERENCIAS BIBLIOGRÁFICAS:
BARIGYE, S. J., MARRERO-PONCE, Y., LÓPEZ, Y. M., SANTIAGO, O. M., TORRENS, F.,
theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in Environmental
& TORRENS, F. 2013c. Shannon’s, Mutual, Conditional and Joint Entropy Information Indices:
Generalization of Global Indices Defined from Local Vertex Invariants. Current Computer-Aided Drug
BASILEVSKY, A. 1994. Statistical Factor Analysis and Related Methods. Wiley: New York (NY).
COCKETT, M. & DOGGETT, G. 2003. Maths for Chemists, Royal Society of Chemistry, Thomas
Graham House, Science Park, Milton Road, Cambridge CB4 OWF, UK.
DEVILLERS, J. & BALABAN, A. 1999a. Topological Indices and Related Descriptors in QSAR and
DEVILLERS, J. & BALABAN, A. T. 1999b. Topological Indices and Related Descriptors in QSAR and
Derivatives in discrete mathematics: a novel graph-theoretical invariant for generating new 2/3D
molecular descriptors I. Theory and QSPR application. J Comput Aided Mol Des, 26, 1907.
36
MARRERO-PONCE, Y., TORRENS, F., ALVARADO, Y. J. & ROTONDO, R. 2006. J. Comput. Aided
MARTÍNEZ-LÓPEZ, Y., TORRENS, F. & PÉREZ-GIMÉNEZ, F. 2014. Discrete Derivatives for Atom-
33.
MARTÍNEZ SANTIAGO, O., MARRERO PONCE, Y., MILLÁN CABRERA, R., BARIGYE, S. J.,
MARTÍNEZ LÓPEZ, Y., ARTILES MARTÍNEZ, L. M., GUERRA DE LEÓN, J. O. & PÉREZ GIMÉNEZ,
RANDIC, M. 1998. Encyclopedia of Computational Chemistry. John Wiley & Sons: New York.
RÜCKER, C., RÜCKER, G. & MERINGER, M. 2007. y-randomization and its variants in
TODESCHINI, R., BALLABIO, D., CONSONNI, V., MAURI, A. & PAVAN, M. 2004. MobyDigs.
WEHRENS, R., PUTTER, H. & BUYDENS, L. 2000. The bootstrap: a tutorial. Chemom. Intell. Lab.
WOLD, S. & ERIKSON, L. 1995. In Chemometric Methods in Molecular Design. van de Waterbeemd,
37