Vous êtes sur la page 1sur 14

Ajuste de ecuaciones a curvas

Ajuste de ecuaciones a curvas: introduccin a la regresin lineal y no lineal


(F.J. Burguillo, Facultad de Farmacia, Universidad de Salamanca)

Introduccin al ajuste de ecuaciones a curvas


Tipos de Modelizacin Matemtica Fundamentos tericos de la regresin lineal y no lineal Ejemplos en Ciencias Experimentales

1) Si hay alguna tcnica que con mayor frecuencia utilizan los investigadores sta es la regresin, incluso muchos de ellos usan casi exclusivamente la regresin no lineal. Conviene pues estudiar los fundamentos de esta tcnica. En esta sesin se analizarn los distintos tipos de modelos matemticos que se suelen emplear en el ajuste de curvas, se revisarn los fundamentos de la regresin lineal y no lineal por mnimos cuadrados y se pondrn varios ejemplos sobre el ajuste de modelos a datos experimentales. 2)
El ajuste de curvas surge cuando el investigador trata de interpretar los datos de un experimento. Pensemos por ejemplo en una reaccin enzimtica (diapositiva 2). Los resultados se describen mejor cuando se encuentra una ecuacin que se ajusta a los datos. Ese es el objetivo de la Modelizacin Matemtica: obtener ecuaciones que describan el comportamiento de los sistemas. Estas ecuaciones pueden ser de dos tipos: empricas (Modelizacin Emprica) o deducidas en base a una teora fsica (Modelizacin Terica).

Diapositiva 1
Cmo interpretar los datos de un experimento?
[S] : 1.2 Reaccin Enzimtica v: 5.2 6.3 7.2 8.4 9.4 9.5

4.3 5.4 7.2

Describir el sistema
Cuantitativa (ecuacin) Cualitativa (palabras)

v (S)

v (S)
Modelizacin Emprica

y = f(x)

Modelizacin Terica

v = a + b[S] + c[S]2

E + S ES P + E v= Vmax [S] KM + [S]

Diapositiva 2

Ajuste de ecuaciones a curvas

Modelizacin Emprica
Situacin: Estmulo
Sistema
(Mecanismo desconocido)

Respuesta

Ecuacin emprica Inters: Supone una cuantificacin Permite: calibracin, prediccin Ecuaciones : Polinomios :

y = a + bx + cx 2 y = (a + bx + cx 2 + dx 3 )i

Cubic splines :

Trampas : Diferentes ecuaciones ajustan datos (no significado fisico) Aumento de parmetros mejora ajuste (hiperajuste)

Diapositiva 3

3) La Modelizacin Emprica trata de encuentrar una ecuacin cualquiera que cierre con los datos del sistema, independientemente de que esa ecuacin tenga o no significado fsico sobre lo que est ocurriendo en el sistema. Supone ya una cierta cuantificacin y permite aspectos operacionales como la calibracin, prediccin y simulacin. Por otra parte, unos mismos datos se pueden interpretar igualmente bien con diferentes ecuaciones, pero conviene elegir siempre aquellas que tenga menor nmero de parmetros.
Los modelos empricos ms habituales son los polinomios de distinto grado y los tramos de cbicas (cubil splines). Algunas de sus ventajas e inconvenientes aparecen recogidos en la diapositiva 4.

4)

Modelos empricos habituales


Polinomios y n = a + bx + cx 2 + ...nx n

Adecuados para curvas suaves en calibracin Adecuados para datos sin mucho ruido Cuidado porque son demasiado flexibles (hiperajuste)

Cubic splines y = (a + bx + cx2 + dx 3 )i


Nudo 2 Nudo 1

Adecuados para datos con ruido (por ej. en calibracin) Subjetividad al elegir el n de nudos (hiperajuste)

Diapositiva 4

Modelizacin Terica
En ecuaciones algebricas

5)

En ecuaciones diferenciales E* + S E*S E

+L
M0

+L
M1

K1

K2

M2

[M1] K1 = [M0] [L]


y=

[M2] K2 = [M1] [L]

K1[L] + 2K1K2[L]2 2(1 + K1[L] + K1K2[L]2 )

d[ES*] = k1[S][E*] - (k - 1 + kcat)[ES*] dt d[P] = kcat [ES*] dt ........... etc

La Modelizacin Terica se hace normalmente en base a dos estrategias: modelos en ecuaciones algebricas para los sistemas estticos y modelos en ecuaciones diferenciales para los dinmicos. Primero abordaremos los modelos en ecuaciones algebricas, que es el caso ms sencillo, y ms tarde los modelos en ecuaciones diferenciales. En la diapositiva 5 puede verse un ejemplo de cada tipo.

fraccin de sitios ocupados

Diapositiva 5

Ajuste de ecuaciones a curvas

6)
Ecuaciones algebricas habituales
De una variable y varios parmetros :

u ( x ) = f ( x, p1, p2, .....pn )


Ejemplos : Decaimiento exponencial:

[A] = [A] 0e -kt V max(1) [S] V max(2) [S] + K m(1) + [S] K m(2) + [S]

En cuanto a las ecuaciones algebricas habituales en Ciencias Experimentales, stas son normalmente de una variable independiente y uno o varios parmetros. Algunos ejemplos de esas ecuaciones aparecen en la diapositiva 6.

Suma de Michaelis-Menten:

v=

Unin Ligandos: y =

K 1 [L] + 2K 1 K 2 [L] 2 + ..... + nK 1 K 2..... K n[L] n n(1 + K 1[L] + K 1 K 2 [L] 2 + ..... + K 1 K 2..... K n[L] n )

Diapositiva 6
Otras ecuaciones algebricas
De dos variables y varios parmetros :

7) Tambin suelen darse en Ciencia las


ecuaciones algebricas de dos variables y varios parmetros. Algunos de estas ecuaciones son clsicas en Bioqumica y se muestran en la diapositiva 7. Por ejemplo, en la Inhibicin Competitiva, las dos variables independientes seran [S] y [I] y los parmetros seran Vmax, Km y KI .

u ( x, y ) = f ( x, y, p1, p2, .....pn )


Ejemplos :

Inhibicin competitiva : v =

Vmax [S] [I] Km 1 + + [S] KI

Ping Pong Bi Bi :

v=

Vmax [A][B] K B ([ A] ) + K A ([ A] ) + [A][B]

Diapositiva 7
Linealidad de una ecuacin
Linealidad en las vaariables Ecuacin lineal y x Ecuacin no lineal y x Linealidad en los parmetros Ecuacin no lineal
2

Ecuacin lineal

y = a + bx + cx
y = a + bx
(Lineal en variables,
lineal en parmetros)

y = Ae - k x
Ejemplos

y = a + bx + cx 2

y = Ae -kx

(No lineal en variables, lineal en parmetros)

(No lineal en variables, no lineal en parmetros)

Diapositiva 8

8) En el caso de una ecuacin algebrica con una variable independiente y otra dependiente, los conceptos de linealidad y no linealidad de la ecuacin se pueden referir bien a las variables o a los parmetros. Una ecuacin se dice que es lineal en las variables cuando su representacin y frente a x es una recta y lineal en los parmetros cuando, considerada la x como una constante, la dependencia de y con los parmetros es combinacin de sumas y restas. Los respectivos conceptos de no lineal es justo lo contrario de lo anteriormente expuesto (ver diapositiva 8).

Ajuste de ecuaciones a curvas

Comparacin cualitativa entre la forma de los datos el tipo de curva a ajustar


1) Ordenada en el origen
Y=f(x)+C

C
(0,0)

Y=f(x)

y = bx + cx 2 (mal) y = a + bx + cx 2 (bien)

a
(Correccin por lnea base)
(0,0)

2) Maximos, mnimos, puntos de inflexin y asntotas Asntota


v= Vmax [S] KM + [S]

(mal)

v=

ap Vmax [S] ap K M + [S] + K - 1 [S]2 SI

(bien)

(Mximos, mnimos)

Diapositiva 9
Ajuste de ecuaciones a datos
Ecuacin lineal y= a+bx+cx Procedimiento:
encontrar los valores de los parmetros que mejor ajustan la ecuacin a los datos
2

9) Un aspecto a tener en cuenta a la hora de elegir una ecuacin como modelo, es comprobar que el tipo de curva que predice nuestra ecuacin concuerda con el comportamiento cualitativo de los datos experimentales: Pasa la curva de la ecuacin por el origen est desplazada un cierto factor constante?, Esa curva es montona creciente o decreciente?, Puede tener un mximo, un mnimo o un punto de inflexin?, La curva tiende a cero, tiende a algn otro tipo de asntota?, Cierran todas esas singularidades de la curva predicha por nuestra ecuacin con la tendencia de los datos?. 10) El paso siguiente sera el ajuste de
la ecuacin elegida a los datos experimentales. Este procedimiento consiste en encontrar los valores de los parmetros que mejor ajustan la ecuacin a los datos (Diap. 10). Estrictamente hablando, debiera decirse ajuste de la ecuacin a los datos y no ajuste de los datos a la ecuacin, ya que lo que se trata de "amoldar" (ajustar) es la ecuacin (moviendo los valores de los parmetros) y no los datos, que son invariables. Con este sentido tambin se habla de ajuste de curvas a datos (curve fitting).

Datos x y 1 2 3 ... 8.4 5.6 3.4 .. . y=

Ecuacin no lineal K1 [L] + 2 K1 K2 [L] n ( 1+ K1 [L] +2 K1 K2 [L] Procedimiento:


2 2

Datos [L] y 0.1 0.9 0.2 0.6 0.5 0.4 ... ...

Optimizar iterativamente los parmetros que mejor ajustan la ecuacin a los datos

y
Regresin no lineal

Regresin lineal

[L]

Diapositiva 10
Criterios de Ajuste
1) Minimizar residuales al cuadrados (Mnimos Cuadrados)

SSQ = (yi f (p, x i )) 2


residual

(Norma L2)

y
residual residual residual

residual

Curva suave debida a la ecuacin con los parmetros optimizados

Diapositiva 11

11) Como definicin de ajuste se utiliza normalmente el criterio de los mnimos cuadrados, que consiste en obtener aquellos valores de los parmetros que minimizan el sumatorio de residuales al cuadrado (ver diapositiva 11). Siendo los residuales las distancias verticales de los puntos a la curva de ajuste. Este criterio es muy sensible a los datos atpicos, por lo que se han desarrollado otros criterios ms robustos: a) minimizar las distancias verticales absolutas y b) minimizar la distancia absoluta ms grande. Pero estos criterios son menos utilizados.

Ajuste de ecuaciones a curvas

Regresin lineal y no lineal por mnimos cuadrados


Encontrar las mejores estimas de los parmetros

Objetivos

Cuantificar precisin parmetros usando lmites de confianza

Regresin lineal
(Ecuaciones lineales en los parmetros)

Regresin no lineal
(Ecuaciones no lineales en parmetros)

SSQ = (y i ( a + bx i )) 2 (SSQ) = .......... ..... = 0 a = ......... a (SSQ) = .......... ..... = 0 b = .......... b


Se puede explicitar cada parmetro, solucin nica, mtodo exacto

SSQ = (y i Ae -kx i )) 2 (SSQ) = ............... = 0 A = ? A (SSQ) = ............... = 0 k = ? k


No se pueden explicitar los parmetros, solucin aproximada Mtodos iterativos tipo: Bsqueda (Random Search) Gradiente (Gauss-Newton)

Regresin lineal mltiple

f = C + B 1 x 1 + B 2 x 2 + B 3x 3

Diapositiva 12
Notacin matricial en regresin lineal
y = p1 x 1 + p 2 x 2 + p 3 x 3 ......... pnxn + u Y = X P +U YXP=R ( Y X P )( Y X P ) = SSQ (SSQ) P

12) Se denomina Regresin al proceso general de ajustar una ecuacin a unos datos. Y cuando esto se hace mediante el criterio de los mnimos cuadrados se habla de regresin lineal y no lineal por mnimos cuadrados, segn que la ecuacin a ajustar sea lineal o no lineal en los parmetros (Diap. 12). En ambos casos el objetivo es el mismo: encontrar las mejores estimas de los parmetros y cuantificar la precisin de los mismos. En el caso de la regresin lineal la solucin es nica y el mtodo es exacto, mientras que en la regresin no lineal la solucin es aproximada y el mtodo es iterativo (de bsqueda, de gradiente, ...). 13) El procedimiento matemtico de la
regresin lineal es directo. Se basa en aplicar la condicin de mnimo, es decir que la derivada del sumatorio de residuales al cuadrado (SSQ) respecto a cada parmetro ha de valer cero, lo que permite despejar el valor de cada parmetro y obtener un valor nico y exacto. Cuando hay varias variables y varios parmetros, el problema se maneja mejor en notacin matricial, cuyo desarrollo se muestra en la diapositiva 13.

= 0 ( X)T ( Y X P ) + ( Y X P )T ( X ) = 0
T T T

2 X ( Y X P ) = 0 ( X X ) P = X Y P = ( X X ) 1 X Y
T T

Solucin nica, mtodo exacto

Diapositiva 13
Mtodos iterativos en regresin no lineal: mnimo global y mnimos locales

1. 2.

No existe una solucin nica, no son mtodos exactos Ningn algoritmo garantiza el encontrar el mnimo global. Se puede caer en mnimos locales Lo recomendable es alcanzar un mismo mnimo a partir de diferentes estimas iniciales de los parmetros

Mnimo local

3. Mnimo global

Pa rm etr o

tro me Par

Diapositiva 14

14) En la regresin no lineal el problema de encontrar los parmetros ptimos ya no tiene una solucin nica de tipo explcito. En su lugar, hay que utilizar mtodos iterativos, que tratan de buscar con diferentes estrategias el mnimo de SSQ. Un problema adicional es que ninguno de estos mtodos garantiza el que se haya encontrado el mnimo global, existiendo la posibilidad de que se haya caido en un mnimo local (diap. 14). La nica alternativa es probar con distintas estimas iniciales de los parmetros y ver que se llega a un mismo mnimo que podemos presumir como global.

WSSQ

Ajuste de ecuaciones a curvas

15)
Algoritmos iterativos en regresin no lineal
De bsqueda (Random Search) Gradiente (Gauss-Newton, Marquardt)

p1
x x

x x x x x x

x x x x

x x x x x

x x x x

pi +1 = pi + i ui
u u

W SSQ

Importancia de las estimas iniciales de los parmetros:


lmite inferior, valor inicial, lmite superior (1, 100, 10000)

Diapositiva 15
Bondad de un ajuste en regresin lineal (Respecto a los residuales)
Sumatorio de residuales al cuadrado : SSQ = (y i f (p, x i )) 2
Varianza y desviacin estandar del ajuste : SSQ S2 = y S = S2 nm
coef. correlacin cuadrado: R2 =

( ( y - y )(y - y )) (y - y ) (y - y )
2 i i, c c i 2 i, c c

=1-

SSQreg SSQtotal

Representacin de los residuales:


Residual +1 0 -1

Test de las rachas (p>0.05) Test de los signos (p>0.05)

Acabamos de ver que la regresin no lineal opera siempre con mtodos iterativos a la hora de encontrar el mnimo del sumatorio de residuales (SSQ). Estos mtodos son de bsqueda directa y de gradiente. Entre los primeros destaca el mtodo de bsqueda al azar (random search), que consiste en ir probando en los distintos puntos de una rejilla de los parmetros hasta encontrar el mejor. Por su parte los mtodos de gradiente se basan en las derivadas de SSQ respecto a los parmetros, y las diferencias entre ellos radica en la forma en que calculan la direccin de bsqueda u y la longitud del paso (ver Diap. 15). 16) Para discernir acerca de la bondad de un ajuste se utilizan diferentes criterios en la regresin lineal. Unos se refieren a los residuales: como son el valor del sumatorio de residuales al cuadrado, la varianza y la desviacin estndar del ajuste, el coeficiente de correlacin al cuadrado, la distribucin grfica de los residuales (al azar, con rachas), el test estadstico de las rachas, el test de los signos... etc (ver Diap. 16).

Diapositiva 16
Bondad de un ajuste en regresin lineal (Respecto a los parmetros)
En notacin matricial los parmetros : P = ( X X ) -1 X Y
Matriz de varianza - covarianza : VAR(P) = (X T X) -1 S 2
T T

17)

Matriz de correlacin
p p = Cov [ pi , p j ]
i j

var(p1) cov(p(1), p(2)) var(p2) .. .. .. cov(p(1), p(n)) .. .. var(pn)

var p i var p j 0 .56 0 .17 1 .0

1 .0 0 .98 0 .56

0 .98 1 .0 0 .17

Lmites de confianza :
Coeficient e de variacin :

pi t (n - m, ) var( pi )
CV%(p i ) =

( VAR(p ) p ) 100
i i

Test de redundancia de un parmetro :

t=

0 - pi var( pi )

(p<0.05)

Otros criterios de bondad de un ajuste se refieren a los parmetros: como son las varianzas de los parmetros (dadas por la matriz de varianza-covarianza) y las correlaciones de los parmetros (matriz de correlacin), los lmites de confianza de los parmetros, los coeficientes de variacin de los parmetros, el test de redundancia de un parmetro (su valor es tan prximo a cero que puede despreciarse)....etc (ver diapositiva 17).

Diapositiva 17

Ajuste de ecuaciones a curvas

Bondad de un ajuste en regresin no lineal


Los parmetros se obtienen por mtodos aproximados (iterativos) Las propiedades estadsticas de los parmetros se ven afectadas por: - Carcter no lineal de la ecuacin - Nmero de puntos - Valores de x Se toma como vlida la estadstica de la regresin lineal ( slo cierto en condiciones asintticas de n ) Hincapi: la estadstica asociada a la regresin no lineal se suele interpretar de una manera ms flexible (por ejemplo se
admiten coeficientes de variacin de los parmetros de hasta el 50%)

18) En la regresin no lineal, la estadstica asociada no es exacta y, por defecto, se acepta como aproximada la estadstica de la regresin lineal expuesta ms arriba, lo cual solo sera cierto en condiciones asintticas de infinito nmero de puntos. En este sentido, se suele ser ms flexible a la hora de interpretar los indicadores acerca de la bondad del ajuste. As, por ejemplo, en regresin no lineal se suelen admitir coeficientes de variacin de los parmetros de hasta un 50%.
19) El criterio de los mnimos cuadrados

Diapositiva 18
Regresin con pesos estadsticos
El criterio de mnimos cuadrados asume que:
La variable x no tiene error

El error en la respuesta es aditivo : yi = f ( p , xi ) + u i


Los errores u i y u j son independientes

Todos los errores (ui, u j , ... ) siguen una distribucin normal de media
cero y varianza constante (todas las medidas tienen la misma precisin )

ltima suposicin no se suele cumplir y hay que normalizar los


residuales con un factor llamado peso estadstico:

(weight)

w i = 1 si2

(estas varianzas si se determinan a partir de rplicas)

El criterio de optimizacin es ahora :

WSSQ = (1 si2 )(yi f (p, x i ))2


(weighted sum of squares)

Diapositiva 19

asume que el error al medir la variable dependiente es aditivo, que son independientes unos errores de otros y que en conjunto siguen una distribucin de media cero y varianza constante. A este tipo de regresin se la denomina regresin sin pesos estadsticos. Cuando esta suposicin no es cierta (que es la mayora de las veces), se hace necesario dar ms "importancia" (ms peso) a los datos de menor error, frente a los de mayor error (menos peso). Para ello se corrigen los residuales con un factor llamado peso estadstico que se define como el inverso de la varianza (Diap.13) y que viene a ser un factor de normalizacin de residuales muy dispares. Estos valores de varianza se suelen obtener a partir de rplicas de cada dato experimental.

Ajustar siempre ecuaciones directas y nunca transformaciones lineales Ecuacin Michaelis-Menten


V [S] v = max K M + [S]
wi = 1 VAR (v i )

20) Para ajustar ecuaciones no lineales


en los parmetros, se han utilizado mucho las transformaciones lineales (dobles inversos, logaritmos..), seguidas de regresin lineal sin pesos estadsticos (calculadoras). Esta prctica es desaconsejable, ya que no considera la propagacin del error en la ecuacin transformada, por lo que la estima de los parmetros y sus lmites de confianza son errneos. Para ajustar ecuaciones no lineales, lo ms correcto es la regresin no lineal con pesos estadsticos a la ecuacin directa (y=f(x)), sin transformacin alguna (ver diapositiva 20).

Linealizacin Lineweaver -Burk


K 1 1 1 = + M v Vmax Vmax [ S ]
wi = 1 VAR (1 v i )
VAR (v i) v i4

pero VAR ( 1 v i ) =

wi =

v i4 VAR (v i )

Conclusin: Lo ortodoxo para determinar parmetros es la regresin no lineal con pesos estadsticos a la ecuacin directa

Diapositiva 20

Ajuste de ecuaciones a curvas

Discriminacin entre modelos


Lo habitual es que se dude entre modelos alternativos dentro de una secuencia, por ejemplo en una mezcla de isoenzimas :

21)

v=

(n)[ S ] V Vmax (1)[ S ] Vmax (2)[ S ] + + ......... + max K M (n) + [ S ] K M (1) + [ S ] K M (2) + [ S ]

1) Conviene comparar la bondad de los 2 ajustes rivales: WSSQ, residuales, test de las rachas, lmites de confianza de los parmetrosetc 2) Se debe aplicar el test F (modelos jerarquizados) :
F=

[(SSQ1 SSQ2 ) (m2 m1 )] SSQ 2 (n - m 2 )

Si F > F(95%) se acepta modelo 2 Si F < F(95%) se acepta modelo 1

3) Otros criterios para modelos jerarquizados y no jerarquizados son: Criterio AIC de Akaike, Mallows Cp

Diapositiva 21
Discriminacin por superposicin de ajustes

Cuando se analiza un sistema bioqumico, lo normal es que se dude entre modelos alternativos dentro de una secuencia jerrquica (1 isoenzima, 2 isoenzimas...), se impone pues alguna estrategia para discriminar entre modelos rivales. Esta discriminacin suele hacerse comparando la bondad de los distintos ajustes y en base al test estadstico "F", que valora si es o no estadsticamente significativa la mejora que experimenta habitualmente el sumatorio de residuales al cuadrado al pasar de una ecuacin de menos parmetros a otra de ms parmetros (Diapositiva 21).

Diapositiva 22
Ajuste a ecuaciones de 2 variables
Ecuacin:

22) Otro criterio para la discriminacin entre modelos es la superposicin de los ajustes respectivos, con el fin de observar si los puntos se distribuyen al azar a ambos lados de la curva ajustada (buen ajuste) o si presentan tendencia a las rachas (mal ajuste). Esta discriminacin visual se puede hacer tanto en la representacin directa de la ecuacin (diapositiva 22), como en otro tipo de transformaciones de la misma, principalmente transformaciones lineales que son muy intuitivas. Pero esta estrategia de transformaciones lineales slo es vlida a efectos grficos de discriminacin o de presentacin final de resultados, ya que el ajuste y la determinacin de los parmetros se deben hacer en el espacio directo.

Inhibicin competitiva : v =
Datos: Inhibidor : Sustrato : 1 2 1 4 6.3 1 6 7.1 1 8 9.1 2 2

Vmax [S] [I ] Km 1 + + [S] KI


2 4 5.2 2 6 6.4 2 ....... 8 ...... 7.5 ........

23) Hasta ahora nos hemos referido al caso de slo una variable independiente. Pero ocurre en Ciencia que es muy frecuente el estudio de sistemas con 2 variables independientes o ms, como ocurre por ejemplo con la inhibicin competitiva en Bioqumica, en la que la velocidad de reaccin depende de la concentracin del sustrato y del inhibidor (Diap. 23).

velocidad : 5.2

3.2

Diapositiva 23

Ajuste de ecuaciones a curvas

Superficie ajustada

24)

v=

Vmax [S] [I ] Km 1 + + [S] KI

Estas ecuaciones en dos variables independientes tambin se pueden ajustar por tcnicas de regresin no lineal. En este caso lo que se ajusta no es una curva sino una superficie, como puede observarse en la diapositiva 24 para la inhibicin competitiva, donde se ha representado la velocidad en el eje z, la concentracin de sustrato en el eje x y la del inhibidor en el eje y.

Diapositiva 24
Modelizacin en ecuaciones diferenciales
Ecuacin diferencial simple
Ejemplo : Cintica de orden uno

Sistema de ecuaciones diferenciales


Ejemplo : Modelo de Michaelis-Menten

A k B
d [A] = k [A] dt

E +S

k1 k-1

2 ES E + P

d [E] dt d [S]

= - k1[E][S] + k-1[ES] + k2 [ES]

Tiene solucin analtica sencilla: [A] = [A]0 . e -kt

= - k1[E][S] + k-1[ES] dt d [ES] = k1[E][S] - k-1[ES] - k2 [ES] dt d [P] = k2 [ES] dt


Integran numricamente (Adams, Gear...)

Diapositiva 25
Ajuste de ecuaciones diferenciales
Modelo de Michaelis-Menten reversible Datos

25) La modelizacin en ecuaciones diferenciales puede presentar diferentes formas. Si se trata de una ecuacin diferencial simple, lo usual es que sea de una variable independiente, una variable dependiente y varios parmetros. Este caso se suele integrar la ecuacin diferencial analticamente y realizar el ajuste en base a la ecuacin integrada correspondiente. Cuando se trata de varias ecuaciones simultneas, el caso mas frecuente es el de un sistema de ecuaciones diferenciales ordinarias, en el que solo hay una variable independiente (normalmente el tiempo), varias variables dependientes y diferentes parmetros (Diap. 25). Su ajuste a los datos experimentales se aborda por tcnicas de integracin numrica y optimizacin. Los sistemas de ecuaciones con ms de una variable independiente (por ejemplo tiempo y distancia), llamados en ecuaciones diferenciales en derivadas parciales, son menos frecuentes y ms difciles de tratar.

E +S

k 1 k

ES

-1

k 2 k

E +P

[S] 8.7 7.7 7.1 6.5 6.1 ..

[P] 0 0.8 1.2 1.8 2.3 ..

[ES] 0 0.02 0.04 0.07 0.08 ..

[E] 0.1 0.07 0.03 0.02 0.01 ..

-2

d [E] = dt d [S] = dt d [ES] = dt d [P] = dt

- k1[E][S] + k-1[ES] + k2 [ES] - k2 [P][E] - k1[E][S] + k-1[ES] k1[E][S] - k-1[ES] - k2 [ES] +k-2[P][E] k2 [ES]- k-2[P][E]

26) Un ejemplo de ecuaciones diferenciales ordinarias para el modelo de Michaelis-Menten reversible se muestra en la diapositiva 26. Si quisiramos ajustar ese sistema de ecuaciones a los datos empricos de todas o algunas de las variables, necesitaramos un programa que hiciera simultneamente una integracin numrica de las ecuaciones diferenciales seguida de una comparacin con los puntos experimentales. Y as iterativamente hasta que el ajuste alcanzara la convergencia.

Diapositiva 26

10

Ajuste de ecuaciones a curvas

Integracin y ajuste de Michaelis-Menten

27)

Sustrato

Producto
Enzima.Sustrato Enzima

En la diapositiva 27 puede observarse el ajuste de las ecuaciones diferenciales comentadas en el punto anterior a unos datos experimentales simulados. Estas integraciones y ajustes con ecuaciones diferenciales ordinarias se pueden hacer en SIMFIT con el programa DEQSOL.

Diapositiva 2
Ejemplo de regresin no lineal con SIMFIT
Con una preparacin enzimtica de dos isoenzimas se realiz el siguiente estudio: 8 puntos experimentales, en el margen de concentraciones de 0.05 a 50 mM, espaciados logartmicamente y realizndose 5 rplicas por punto (40 datos en total).

[S]
0.050 0.050 0.050 0.050 0.050 .. 50.0 50.0 50.0 50.0 50.0

v
0.0530 0.0531 0.0523 0.0522 0.0520 .. 1.73 1.86 1.86 1.77 1.76

s
0.0006 0.0006 0.0006 0.0006 0.0006 .. 0.06 0.06 0.06 0.06 0.06

Tienen las 2 isoenzimas la misma Vmax y Km?

v=

Vmax ( 1)[S ] Vmax ( 2 )[S ] + K m ( 1) + [S ] K m ( 2 ) + [S ]

w i = 1 si2
WSSQ = (1 si2 )(v i f ( p , [S ]i ) 2

28) A modo de caso prctico veamos como abordar con SIMFIT algn ajuste por regresin no lineal. Imaginemos una preparacin enzimtica de dos isoenzimas, con la que se hace un estudio cintico con el objetivo de ver si las 2 isoenzimas tienen la misma Vmax y Km y en su caso determinar estos valores. En esencia se trata de discriminar si la ecuacin de velocidad requiere 1 o 2 trminos de MichaelisMenten (ver Diap. 28), para lo cual vamos a hacer un ajuste de regresin no lineal con pesos estadsticos a los dos modelos alternativos. 29) Primero el programa ajusta a los datos la funcin con slo 1 trmino de Michaelis-Menten. Comienza con un algoritmo de bsqueda al azar que va probando diferentes valores de los parmetros y se va quedando con los que dan un menor valor de WSSQ. Esos valores entran como estimas iniciales a un algoritmo de gradiente CuasiNewton, que sigue optimizando el WSSQ hasta que se alcanza la convergencia. Hecho esto el programa muestra los valores de los parmetros, su error estndar, sus lmites de confianza y el valor de p de redundancia de cada parmetro (Diap. 29).

Diapositiva 28
Ajuste a 1 Funcin de Michaelis-Menten Iteracin WSSQ (1:1) Algoritmo Bsqueda al azar 0 3.627E+04 1 7.945E+03 14 1.308E+03 Bsqueda 1 terminada (Sigma = 1.00) 43 1.131E+03 46 6.811E+02 61 6.444E+02 Bsqueda local terminada (Sigma = 0.10, 0.20) WSSQ antes de la bsqueda = 3.627E+04 WSSQ despus de la bsqueda = 6.444E+02 Estimas iniciales de los parmetros Vmax(1) = 1.609E+00 Km(1) = 1.669E+00 WSSQ antes del ajuste = 6.444E+02 WSSQ despus del ajuste = 2.428E+02

Algoritmo Cuasi-Newton

redundancia : t =
p 0.000 0.000

0 - pi var( pi )

N Parmetro Valor Err. estnd. ...Lm.conf.95%.. 1 Vmax(1) 1.617E+00 2.90E-02 1.56E+00 1.68E+00 2 Km(1) 1.525E+00 3.68E-02 1.45E+00 1.60E+00

(p<0.05)

Diapositiva 29

Ajuste de ecuaciones a curvas

11

Matriz de correlacin de 1.000 0.876 1.000 si Var.indep. Err.estnd. 5.000E-02 6.381E-04 5.000E-02 6.381E-04 5.000E-02 6.381E-04 5.000E-02 6.381E-04 5.000E-02 6.381E-04 ......... ......... 5.000E+01 5.000E+01 5.000E+01 5.000E+01 5.000E+01 ......... ......... 5.995E-02 5.995E-02 5.995E-02 5.995E-02 5.995E-02

los parmetros

yexp.
Var.dep. 5.295E-02 5.309E-02 5.226E-02 5.219E-02 5.151E-02 ......... ......... 1.729E+00 1.865E+00 1.855E+00 1.773E+00 1.763E+00

yajus.
Teora 5.133E-02 5.133E-02 5.133E-02 5.133E-02 5.133E-02 ......... ......... 1.569E+00 1.569E+00 1.569E+00 1.569E+00 1.569E+00

yexp.- yajus.
Residuales 1.618E-03 1.759E-03 9.279E-04 8.599E-04 1.809E-04 ......... ......... 1.600E-01 2.958E-01 2.865E-01 2.041E-01 1.937E-01 Resids.pond. 2.536E+00 2.757E+00 1.454E+00 1.348E+00 2.836E-01 ......... ......... 2.669E+00* 4.934E+00** 4.779E+00** 3.404E+00** 3.231E+00**

(Err.rel.resid.: ****** >160%,***** >80%,**** >40%,*** >20%,** >10%,* >5%)

30) Sigue despus mostrando la matriz de correlacin de los parmetros y una tabla completa con los valores de yexperimental, yajustada y los residuales (yexperimental-yajustada). Si el error relativo del residual es grande, se levanta un asterisco o ms de uno a la derecha del residual, indicando que el error relativo es > del 5 %, > del 10 % ....etc (ver Diap. 30).

Diapositiva 30
Anlisis global de los residuales (importante)
Anlisis de Residuales Anlisis de residuales: WSSQ P(Ji-cuadrado >= WSSQ) R-cuadrado, cc(teora-datos)^2 Mayor err. rel. en residuales Menor err. rel. en residuales Media de err.rel. en residuales Residuales con err.rel. 10-20 % Residuales con err.rel. 20-40 % Residuales con err.rel. 40-80 % Residuales con err.rel. > 80 % Nmero residuales < 0 (m) Nmero residuales > 0 (n) Nmero de rachas observadas (r) P(rachas =< r , dados m y n) Valor en cola inferior al 5% Valor en cola inferior al 1% P(rachas =< r , asumiendo m+n) P(signos =< menor n observado) Estadstico de Durbin-Watson W de Shapiro-Wilks (resid.pond.) Nivel de significancia de W Test AIC de Akaike (SC Schwarz) Veredicto sobre bondad ajuste:
weighted sum of squares = 2.428E+02 = 0.000 Rechazar al 1% significancia = 0.982 Test 2 (p < 0.01) = 17.23 % = 0.35 % = 5.66 % = 15.00 % = 0.00 % = 0.00 % = 0.00 % = 21 = 19 = 7 = 0.000 Rechazar al 1% significancia = 15 Test rachas (p < 0.01) = 13 = 0.000 = 0.875 = 0.250 <1.5 (correlacin valores +) = 0.974 = 0.476 = 2.237E+02 ( 2.234E+02) bueno cualitativo (poco valor)

Diapositiva 31

Hay 7 rachas (pocas para 40 residuales), eso significa un ajuste sesgado (los residuales debieran estar al azar y no en racimos)

A continuacin se muestra un anlisis global de los residuales. Se da el valor de WSSQ, que si el ajuste es bueno debiera seguir una distribucin Ji-cuadrado con n-par. grados de libertad, extremo que se encarga de analizar la p correspondiente, que en este caso vale 0.000 (p < 0.05) y hace que se levante una bandera a la derecha con un Rechazar al 1 % de significancia. Luego sigue el valor de R2, la media de los errores relativos de los residuales, el n de residuales positivos y negativos, el n de rachas, la p del test de las rachas, que en este caso vale 0.000 (p < 0.05) y hace que se levante la bandera correspondiente. (Ver Diap. 31). 32) El programa permite hacer tambin una grfica de los residuales, en este caso de residuales ponderados (considerando sus pesos) en ordenadas frente a los valores tericos ajustados (Diap. 32). Para este ajuste se observan 7 rachas, que son pocas para 40 residuales, donde cabra esperar una distribucin ms al azar y por tanto mayor nmero de rachas. Esto significa un ajuste sesgado, lo que unido al anlisis hecho en el punto anterior (31), nos va llevando a la conclusin de que la bondad de este ajuste es escasa.

31)

Diapositiva 32

12

Ajuste de ecuaciones a curvas

33) La mejor confirmacin de que el ajuste no es bueno, como venimos apuntando, es representar los puntos experimentales junto a la funcin ajustada (Diap. 33). A la vista de esta grfica se comprueba que el ajuste est sesgado, ya que los ltimos puntos los ha dejado claramente por encima de la curva.

Diapositiva 33
Ajuste a 2 Michaelis-Menten
Iteracin WSSQ (2:2) 0 3.627E+04 Algoritmo 1 1.045E+04 7 3.393E+03 21 1.262E+03 30 8.976E+02 143 5.505E+02 Bsqueda 1 terminada (Sigma = 1.00) 185 5.462E+02 195 4.145E+02 202 3.354E+02 222 2.044E+02 Bsqueda local terminada (Sigma = 0.10, 0.20) Para la bsqueda al azar 2:2 N de mejoras en 320 ciclos = 9 WSSQ antes de la bsqueda = 3.627E+04 WSSQ despus de la bsqueda = 2.044E+02 Estimas iniciales de los parmetros Vmax(1) = 1.530E+00 Vmax(2) = 6.222E-01 Km(1) = 1.500E+00 Km(2) = 1.091E+02 WSSQ antes del ajuste = 2.044E+02 WSSQ despus del ajuste = 3.442E+01 Ajuste 2:2 Funcin de Michaelis-Menten N 1 2 3 4 Parmetro Vmax(1) Vmax(2) Km(1) Km(2) Valor Err. estnd. 9.317E-01 6.70E-02 1.033E+00 8.81E-02 9.823E+00 2.39E+00 1.033E+00 6.43E-02 ...Lm.conf.95%.. 7.96E-01 1.07E+00 8.55E-01 1.21E+00 4.97E+00 1.47E+01 9.03E-01 1.16E+00 p 0.000 0.000 0.000 0.000

bsqueda al azar

Algoritmo Cuasi-Newton

Las 4 p son < 0.05 , parmetros distintos 0

34) Automticamente, el programa comienza a ajustar la funcin con 2 trminos de Michaelis-Menten (Diap. 34). Entra primero el algoritmo de bsqueda y despus el de gradiente Cuasi-Newton, mostrando finalmente la tabla con los 4 parmetros de esta funcin (2 Vmax y 2 Km), as como sus lmites de confianza y sus valores de p de redundancia del parmetro. Las p son todas < 0.05 y los lmites de confianza parecen razonables. Luego la bondad de los parmetros parece adecuada.

Diapositiva 34
A continuacin se muestra para este ajuste la matriz de correlacin de los parmetros y la tabla con los valores de Var. dep. (yexp.), Teora (yajust.) y los residuales (yexp.-yajus.). En esta ocasin los residuales parecen pequeos, ya que no se levantan asteriscos a la derecha de los mismos, indicando que el error relativo no es > del 5 %, > del 10 % ....etc (ver diapositiva 30).

35)

Matriz de correlacin de los parmetros 1.000 -0.834 1.000 0.990-0.869 1.000 0.930-0.593 0.882 1.000 Var.indep. 5.000E-02 5.000E-02 5.000E-02 5.000E-02 5.000E-02 ....... ....... 5.000E+01 5.000E+01 5.000E+01 5.000E+01 5.000E+01 Err.estnd. 6.381E-04 6.381E-04 6.381E-04 6.381E-04 6.381E-04 ...... ...... 5.995E-02 5.995E-02 5.995E-02 5.995E-02 5.995E-02 Var.dep. 5.295E-02 5.309E-02 5.226E-02 5.219E-02 5.151E-02 ....... ....... 1.729E+00 1.865E+00 1.855E+00 1.773E+00 1.763E+00 Teora 5.242E-02 5.242E-02 5.242E-02 5.242E-02 5.242E-02 ...... ...... 1.791E+00 1.791E+00 1.791E+00 1.791E+00 1.791E+00 Residuales 5.310E-04 6.720E-04 -1.590E-04 -2.270E-04 -9.060E-04 ....... ....... -6.235E-02 7.345E-02 6.415E-02 -1.825E-02 -2.865E-02 Resids.pond. 8.322E-01 1.053E+00 -2.491E-01 -3.557E-01 -1.420E+00 ...... ...... -1.040E+00 1.225E+00 1.070E+00 -3.044E-01 -4.779E-01

(Err.rel.resid.: ****** >160%,***** >80%,**** >40%,*** >20%,** >10%,* >5%)

Diapositiva 35

Ajuste de ecuaciones a curvas

13

Anlisis global de los residuales para 2 MM


Anlisis de Residuales Anlisis de residuales: WSSQ P(Ji-cuadrado >= WSSQ) R-cuadrado, cc(teora-datos)^2 Mayor err. rel. en residuales Menor err. rel. en residuales Media de err.rel. en residuales Residuales con err.rel. 10-20 % Residuales con err.rel. 20-40 % Residuales con err.rel. 40-80 % Residuales con err.rel. > 80 % Nmero residuales < 0 (m) Nmero residuales > 0 (n) Nmero de rachas observadas (r) P(rachas =< r , dados m y n) Valor en cola inferior al 5% Valor en cola inferior al 1% P(rachas =< r , asumiendo m+n) P(signos =< menor n observado) Estadstico de Durbin-Watson W de Shapiro-Wilks (resid.pond.) Nivel de significancia de W Test AIC de Akaike (SC Schwarz) Veredicto sobre bondad ajuste: = 3.442E+01 (disminuy (antes 2.43E+02)) = 0.544 Test 2 (buen ajuste p > 0.05) = 0.998 = 6.64 % = 0.21 % = 1.96 % (disminuy (antes 5.66 %)) = 0.00 % = 0.00 % = 0.00 % = 0.00 % = 21 = 19 (aument (antes 7 )) = 18 = 0.217 (test rachas (buen ajuste ( p > 0.05 )) = 15 = 13 = 0.261 = 0.875 = 2.019 = 0.982 = 0.776 = 1.495E+02 ( 1.489E+02) increible

Diapositiva 36

Los residuales estn ms al azar (18 rachas frente a 7 de antes). El ajuste no est sesgado (es mejor ajuste)

36) A continuacin se muestra el anlisis de los residuales de este ajuste. El valor de WSSQ ha disminuido apreciablemente respecto al del modelo previo. La p del test ji-cuadrado para WSSQ vale ahora 0.544 (p > 0.05) lo que indica un buen ajuste. El valor de R2 vale ahora 0.998 (frete al 0.982 del modelo previo). La media de los errores relativos de los residuales ha bajado de 5.66 % en el modelo previo ha 1.96 % del actual. El n de rachas ha subido de 7 en el modelo anterior a 18 en el actual, con un p en el test de las rachas de 0.217 (p > 0.05), lo que significa una distribucin ms al azar de los residuales, mejor ajuste (Diap. 36). 37) En este ajuste (diapositiva 37), la representacin de los residuales ponderados (con pesos) frente a los valores tericos ajustados presenta una distribucin mucho ms al azar que en el ajusto al modelo previo. Esto significa un ajuste mucho menos sesgado, lo que unido al anlisis hecho en el punto anterior (36), nos va llevando a la conclusin de que la bondad del ajuste actual es mayor que la del ajuste previo.

Diapositiva 37

38) Otra confirmacin de que el ajuste actual a 2 MM es mejor que el ajuste previo a 1 MM, nos lo brinda la superposicin de los dos ajustes a los puntos experimentales (Diap. 38). A la vista de esta grfica se comprueba que el ajuste a 2 MM se adapta mejor a los puntos que el ajuste a 1 MM. Esta confirmacin visual es muy valiosa para un investigador, pero parece que hace falta algn criterio estadstico que lo sancione cuantitativamente. Entro estos criterios se encuentra el test F, el criterio de Akaike y otros.
Diapositiva 38

14

Ajuste de ecuaciones a curvas

39)
Resultados del test F WSSQ previo WSSQ actual N parmetros previos N parmetros actuales N de valores x Akaike AIC previo Akaike AIC actual Schwarz SC previo Schwarz SC actual Mallows Cp (Cp/M1) Grad. lib. numerador Grad. lib. denominador Estadstico F (EF) P(F >= EF) P(F =< EF) Cola superior al 5% Cola superior al 1% = = = = = = = = = = = = = = = = =

(disminuye, pero hay que 2.428E+02 probar que es significativo ) 3.442E+01 2 4 40 2.237E+02 (disminuye AIC, rechazar modelo previo) 1.495E+02 2.234E+02 1.489E+02 2.180E+02 ( 1.090E+02) (Cp/M > 1 rechazar modelo previo ) 1 2 36 1.090E+02 0.0000 (p < 0.05, la disminucin en WSSQ es significativa ) 1.0000 3.259E+00 5.248E+00

Conclusin basada en el test F Rechace el modelo previo al 1% de significancia. Existe un gran fundamento para los parmetros extra. Acepte tentativamente el modelo actual de ajuste.

El propio programa se encarga de aplicar el test F a los dos WSSQ obtenidos, el del modelo previo (242.8) y el del actual (34.42). No hay duda de que el WSSQ se ha reducido en ocho veces, pero tambin se ha incrementado el n de parmetros de 2 a 4. Es significativa esta disminucin del WSSQ?. De eso se encarga el test F, proporcionndonos en esta caso una p=0.0000 (p < 0.01), por lo que podemos rechazar el modelo previo al 1 % de significancia y quedarnos con el modelo actual, porque aunque tiene ms parmetros stos estaran justificados.

Diapositiva 39

40)

Una ltima prueba, acerca de si 2 trminos de MM estaran justificados para ajustar los datos experimentales, sera el hacer una deconvolucin de la funcin a los dos trminos que la forman y comprobar si su participacin es suficientemente relevante. En este caso (ver Diap. 40) se puede apreciar que los dos trminos contribuyen casi por igual a la funcin total. Parece razonable suponer que cada una de las 2 isoenzimas tiene una cintica diferente, pero globalmente se solapan para dar una nica curva v-[S] que es la que se observa experimentalmente.

Diapositiva 40

Bibliografa
1) William G. Bardsley, SIMFIT: Reference manual (2004), http://www. simfit. man. ac.uk. 2) H. J. Motulsky and A. Christopoulos, Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting (2003), http://www. graphpad.com. 3) Leah Edelstein-Keshet, Mathematical Models in Biology (1988) , McGraw-Hill. 4) Paul Doucet and Peter B. Sloep, Mathematical Modeling in the Life Sciences (1992) , Ellis Horword. 5) Laszlo Endrenyi (Ed.), Kinetic Data Analysis. Design and Analysis of Enzyme and Pharmacokinetic Experiments (1981), Plenum Press.