Académique Documents
Professionnel Documents
Culture Documents
Resumen
En las ciencias fsico matematicas, especialmente en termodinamica, el analisis estadstico y las regresiones de datos, son actividades comunes y muchas veces
reducidas a un simple ajuste de parametros. Actualmente estas actividades
cobran mas profundidad haca la estandarizacion, calidad y presentacion de los
resultados, refiriendose a los aspectos metrologicos apegados a estandares internacionales.
En Posgrado como en Licenciatura, es importante que los estudiantes esten
familiarizados con herramientas que permiten llevar a cabo este tipo de analisis.
Para eso, se requieren paquetes de computo con caractersticas estandares. En la
practica, se tiene un dilema entre la necesidad de contratar numerosas y costosas
licencias, y el sacrificio de aspectos en la formacion cientfica como la curiosidad,
la posibilidad de elegir, evaluar, modificar o generar herramientas de computo.
El software libre, muy poco utilizado, por lo menos en la ESIQIE y ESFM del
IPN, es una opci
on viable que merece ser considerada.
El objetivo de este trabajo, es dar a conocer herramientas profesionales de
uso libre que podran ser beneficas para la formacion de futuros ingenieros e investigadores en el contexto planteado. Tomando como ejemplo la regresion de las
presiones de vapor del n-hexano mediante la ecuacion de Wagner, se presentan
tres paquetes relevantes que resuelven el problema en ambientes diferentes: un
acercamiento gr
afico con an
alisis basico (Gnuplot), mediante tabulador y macrocomandos predefinidos (Gnumeric) y mediante un programa especializado (Gretl),
entre otros. Las caractersticas importantes y especficas de los programas seran
comentadas y los resultados analizados.
1.
Introducci
on
2.
Fundamentos
El analisis estadstico de los datos y de los modelos que los representan es una
actividad frecuentemente subestimada (y a su vez omitida) en la practica docente de
las ciencias basicas en ingeniera qumica. La razon, probablemente, es que hace falta
tiempo en clase para abordar de manera seria la enorme cantidad de material que esto
contempla as como los requisitos matematicos que implica. Sin embargo, por lo menos
en el posgrado, y, cada vez que se puede, en la licenciatura, se impulsan a los estudiantes
de esos cursos a considerar la siguiente conjetura: esta usted seguro que el resultado
que acaba de obtener es correcto?, dirigiendo la pregunta no tanto hacia saber si se
hicieron correctamente los calculos sino hacia saber si se tiene conciencia que al utilizar
valores aproximados sin fundamentos en una formula tiene alguna influencia sobre el
resultado. La respuesta a lo ultimo es s, obviamente. La respuesta a la pregunta original
no es tan facil de hallar.
La importancia de considerar los aspectos de precision numerica en los calculos
clasicos en ingeniera qumica se encuentra en varios aspectos dirigidos haca las nociones de calidad. La calidad de los resultados de un calculo depende no solamente del
modelo que se emplea sino tambien de la precision de los parametros involucrados y
de la manera en que fueron obtenidos. En el caso que consideraremos, del establecimiento de una correlacion de presion de saturacion, se tiene el objetivo de proporcionar
valores de presiones con cierta calidad, en principio comparable con la calidad de los
datos experimentales utilizados para establecerla. En ese aspecto, es importante que los
estudiantes entiendan cual es la relacion entre las ciencias experimentales y las herramientas matematicas que se emplean y que, por lo menos alguna vez, hayan construido
una correlacion en el estado del arte.
2
Otro aspecto relacionado con las actividades de la ingeniera qumica donde las
regresiones, el analisis estadstico y la precision numerica es fundamental se refiere a
la metrologa y especificamente a la generacion de curvas de calibraciones para instrumentos de medicion. En esas actividades, las regresiones, tomando en cuenta las
incertidumbres y modelos apropiados (en el sentido estadstico), son basicas, y de igual
importancia es que los datos que se obtienen de las correlaciones obtenidas sean confiables.
Las actividades mencionadas, ya sea en clases, practicas en laboratorio o en las
actividades de investigacion, requieren programas cientficos de computo, que son los
que consideraremos aqu como la herramienta indispensable para manipular datos en
relativamente grandes cantidades y en un tiempo razonable. La cuestion de fondo sobre
la eleccion entre el uso de calculadoras o de programas de computo, en nuestro sentir,
es: a que se destinan los resultados?. En el posgrado y a su vez en licenciatura, esperamos que estos se vean reflejados en tesis, memorias, artculos y, por lo tanto, las
herramientas deben presentar caractersticas de portabilidad en los formatos de salidas
y de compatibilidad con aplicaciones externas de procesamiento de graficos o de texto.
Esto, a la fecha, no esta disponible de manera convincente en las calculadoras, y una
laptop basica es seguramente una mejor herramienta.
En la practica docente, la eleccion de un programa adecuado es delicado por dos
razones principales. Primero, ademas de permitir resolver el problema con una calidad
trazable, debe responder a criterios didacticos de eficiencia y no provocar que un curso
de fsicoqumica se transforme en un curso de computacion. Segundo, el programa debe
ser disponible y aqu aparecen situaciones especficas a una escuela o a un laboratorio que
tienen que ver con el manejo y las posibilidades de adquisicion de licencias. Los efectos
combinados de grupos numerosos de estudiantes y la falta de presupuesto provocan que
los estudiantes, en general, no pueden tener acceso a ciertas herramientas de computo
que les serviran en su currcula. Frecuentemente, esto provoca que cada quien utiliza
el programa que puede, pero no forzosamente el que requiere.
Una solucion a esta disyuntiva, es la del uso de Software Libre[1, 2]. Los pros y
las contras del Software Libre son fuera del alcance de este artculo. En el IPN, la
siguiente liga esta dedicada a este asunto [3]. En la ESIQIE o ESFM es muy probable que
se use y desarrolle software libre, pero esto es muy poco difundido. Por experiencia,
los autores no han detectado, por parte de los alumnos, un conocimiento relevante de
la existencia de programas libres que les puedan ser u
tiles en sus currcula o carrera.
En este trabajo, simplemente mostraremos que, por lo menos para el caso de estudio
planteado, podemos hallar herramientas libres, con licencias que no involucran gastos
algunos, y que resuelven concretamente y correctamente el problema. Seleccionamos
tres aplicaciones que responden, en ambitos diferentes al caso planteado: mediante un
tabulador o hoja de calculo, con o sin macrocomandos predefinidos (Gnumeric [4]), con
3
3.
Caso de estudio
3.1.
Un ejemplo
(1)
3.2.
describa la relacion entre estas dos variables medidas, tal que para cualquier dato i:
yi = y(xi ) [9].
La forma matematica del modelo, en el caso presente, depende de la fsica del experimento. En general, se puede proponer una funcion de n parametros (n < k), y
hacer variar estos hasta ajustar la funcion y lo mas cercanamente posible a los datos
experimentales. Un modelo general para el metodo de los mnimos cuadrados lineales
puede ser:
y(xi ) =
n
X
aj fj (xi )
(2)
j=1
para el cual se deben determinar los valores mas probables de los parametros aj que
minimicen la suma de los cuadrados de las diferencias, o residuos, entre los valores
medidos yi y los valores calculados y(xi ). De aqu el nombre del metodo de mnimos
cuadrados.
La afirmacion que este metodo de minimizacion proporciona los valores mas probables para los coeficientes aj , se fundamenta en la inferencia que cada medicion experimental obedece estadsticamente a una distribucion Gaussiana con una varianza
i . As, la probabilidad de observar una medicion yi con una desviacion estandar i
respecto al valor actual de y(xi ) se puede calcular, para un conjunto de k valores de
yi . Para maximizar esta probabilidad (criterio de maxima verosimilitud) se tiene que
minimizar un termino llamado 2 , que aparece en la expresion de la probabilidad [9],
y definido por la ecuacion (3):
2 =
a
f
(x
)
i
j j
i
2
i=1 i
j=1
n
X
(3)
La ecuacion (3) se debe minimizar con respecto a los parametros aj , con el objetivo de obtener una representacion en cada punto experimental (xi , yi ), en la cual la
incertidumbre de medicion i sea un estimado de la varianza estadstica (desconocida
usualmente) en cada punto. El termino 1/i2 es el llamado factor de ponderacion o
peso, que notaremos wi . La ponderacion wi , en cada punto, tiene por efecto favorecer
el ajuste de y(xi ) a los datos obtenidos con mayor precision (o menor incertidumbre).
La minimizacion de la expresion (3) se hace igualando a cero simultaneamente todas
las derivadas parciales de 2 respecto a cada uno de los n parametros aj . Para un modelo
lineal se obtiene un sistema de n ecuaciones con n incognitas, conocido como sistema
de ecuaciones normales, las cuales se pueden escribir en una forma matricial poniendo:
m =
k
X
wi yi fm (xi )
i=1
(4)
y
m,j =
k
X
(5)
= a
(6)
i=1
obteniendo as:
La matriz es de dimension (n, n), simetrica y definida positiva (y por lo tanto
invertible, por ejemplo, por descomposicion de Choleski). El vector , de dimension n
es el vector de componentes m , y el vector a es el vector de los n parametros aj , para
j = 1, . . . , n.
Es obvio entonces que el problema se resume a un problema de algebra lineal y que
su resolucion es analtica:
(7)
a=
notando la matriz inversa de , llamada matriz de error o de varianza covarianza
de la regresion.
4.
4.1.
Cuando se hace la pregunta en un salon de clase: con que programa suelen preparar sus graficas?, invariablemente, la respuesta es con Excel, profe!, y la misma
respuesta se obtiene (aunque raras veces) cuando la pregunta porta sobre el asunto
de hacer regresiones de datos. La notoriedad y la frecuencia de uso de los llamados
tabuladores o hojas de calculo es innegable. Sin embargo, poco se sabe, por parte de
los estudiantes en general, de la existencia de tales aplicaciones con licencias libres y
codigo abierto (licencia GPL).
GNUMERIC [4] es una aplicacion libre (licencia GPL) de tipo hoja de calculo, como
son MS-Excel(tm) y OpenOffice.org Calc (licencia GPL). A la diferencia de los paquetes
mencionados, GNUMERIC no pertenece a una suite; es un programa autonomo. En
c para GNU/Linux N
este trabajo se utilizo Gnumeric version 1.6.3, (
)
ucleo 2.6.15-51386 en una LapTop/Celeron 600 MHz.
A partir de los datos reportados por [7], se genero un archivo de texto (ASCII)
con dos columnas conteniendo, en la primera, columna la temperatura T en K y, en la
segunda, la presion de saturacion ps en kPa. Este archivo es el u
nico que se tiene que
generar para todos los programas utilizados.
Utilizamos dos procedimientos para llevar a cabo la regresion propuesta con GNU7
Los resultados obtenidos para los parametros son, hasta los 6 dgitos reportados en
[7], los mismos que en esta referencia y estan mostrados en la tabla 1. Los resultados
desplegados son basicamente identicos a los que arrojan cualquier otra hoja de calculo.
No se proporciona la matriz de varianza covarianza, , ni la matriz de correlacion, pero
s el error en los parametros y sus intervalos de confianza a 95 % seg
un requisitados. El
8
4.2.
Aplicaci
on gr
afica: GNUPLOT
GNUPLOT [5] es una utilidad de graficos operada por lineas de comandos al estilo
de varias aplicaciones dise
nadas para UNIX/Linux. Es una aplicacion multi-plataforma,
(independiente de GNU), libre y dirigida a cientficos y estudiantes, para la visualizac para
cion de funciones matematicas y datos. Utilizamos Gnuplot version 4.2.-3. (
)
GNU/Linux en la misma maquina que anteriormente.
Para resolver el problema planteado se uso el mismo archivo de datos anterior y
un guion (Script), es decir un archivo de comandos en formato ASCII. El editor de
texto Xemacs [15] fue utilizado para interpretar el guion. Los guiones de GNUPLOT
son secuencias de instrucciones que responden a un lenguaje extremadamente simple,
donde, por ejemplo, el algebra se escribe con la sintaxis de FORTRAN. Para el caso
presente, se escribio un guion de 22 lneas de texto utilizando tres instrucciones basicas
(SET, PLOT y FIT) y produciendo los resultados de la figura 3.
El comando FIT ajusta una funcion real definida por el usuario a un conjunto
de datos utilizando una implementacion de los mnimos cuadrados no lineales seg
un
el algoritmo de Marquardt-Levenberg. Esto significa que tanto modelos lineales en los
parametros como no lineales pueden ser ajustados. Los resultados del ajuste de modelos
lineales no corresponde estrictamente a la teora de los mnimos cuadrados lineales. Se
9
4.3.
Aplicaci
on especializada: GRETL
GRETL [6], es una aplicacion grafica libre (licencia GPL) dedicada al analisis de
regresion y muchos otros aspectos de las estadsticas. Es una herramienta dirigida a
especialistas en econometrica. Sin embargo, es inmediato ubicar las funcionalidades que
permiten hacer regresiones de varios tipos, en especial mediante el metodo de mnimos
cuadrados lineales que nos interesa aqu. GRETL tiene funcionalidades tanto de hoja de
11
calculo como de graficador. GNUPLOT es la aplicacion ligada que produce los graficos
en GRETL, pero no genera las regresiones. De eso se encargan libreras especializadas
en C.
La figura 4 muestra una copia de pantalla de la sesion de GRETL que produjo los
resultados para este trabajo y estan reportados en la tabla 1.
5.
Resultados y discusi
on
Los resultados arrojados por los tres programas presentados en la resolucion del
problema planteado, se encuentran condensados en la tabla 1. Se tomo, arbitrariamente, el caso del uso de GNUMERIC con el metodo corto como referencia para una
comparacion de los resultados. Los datos originales estan dados con 6 cifras decimales
[7]. Para el caso de referencia, elegimos hacer el redondeo hasta la octava decimal para
el valor de los parametros y hasta la sexta para los errores estandares de los mismos.
Los otros casos se pueden as comparar en terminos de n
umeros de cifras decimales
identicas respecto a la referencia
Podemos notar que, por los formatos en que se presentan naturalmente los datos de
salida en GNUPLOT o GRETL, no se alcanza la precision numerica fijada en GNUMERIC. Sin embargo, en GNUPLOT, se tiene acceso a los valores de los parametros por
medio de una instruccion PRINT que los presenta con la precision de la coma flotante
de la maquina. Por eso se indica que s se alcanza la precision de 8 decimales respecto
al caso de referencia. En el caso de GRETL, el formato de salida de los parametros es
de 5 decimales. Es posible cambiar ese formato y alcanzar decimales en el lmite de la
precision aritmetica de la maquina utilizada. Para nuestro proposito, esto es suficiente para mostrar que los tres programas producen calculos basicamente identicos en el
lmite fijado.
La segunda parte de la tabla 1, muestra si se tiene o no acceso a las caractersticas
estadsticas que se han encontrado importantes en la seccion 3.2, y si se tiene acceso
a graficos de manera directa. Los dos programas que permiten acceso a lo esencial
de la informacion importante son GNUPLOT y GRETL, volviendo a mencionar que
GNUPLOT es el generador de los graficos de GRETL.
En la cuestion practica, La implementacion del metodo corto con GNUMERIC
en una clase tardara aproximadamente 40 minutos tomando en cuenta la generacion de
13
los graficos de residuos por ejemplo. Es un tiempo apenas razonable, pero es un metodo
de tipo caja negra. Si los resultados basicos son suficientes para analizar un modelo,
no se aprende nada de la manera en como se hacen los calculos. Al contrario, el metodo
riguroso con GNUMERIC permite ense
nar a detalle la mecanica de la regresion. Sin
embargo, es obvio que implementar eso en clase no es factible.
14
15
no
no
no
no
no
3027.4
-7.640550
2.644067
-2.456301
-4.044549
Val.
Originales
GNUMERIC
corto
Val. Err. Estd.
8.0154605(2) 0.00003(0)
3027.40325(6)
-7.6405499(7) 0.00218(0)
2.6440672(7) 0.00940(9)
-2.4563014(2) 0.01095(1)
-4.0445485(4) 0.01560(7)
6.348E-08
no
no
si
no
no
no
GNUMERIC
riguroso
Val. Err. Estd.
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id
si
si
si
no
no
no
Val.
id-5,8
id-5,6
id-5,8
id-4,8
id-4,8
id-4,8
id
no
si
si
no
no
si (**)
id-5
id-6
id-5
id-5
Err. Estd.
id-6
GNUPLOT
Val.
id-5
id-5
id-5
id-5
id-5
id-5
id
si (*)
(?)
si
si
si
si (***)
id-6
id-6
id-6
id-6
Err. Estd.
id-6
GRETL
Tabla 1: Resultados Globales. Val.= Valor, Err. Estd.= Error Estandar. La columna Originales se refiere
a los parametros reportados por [7]. Las cifras entre parentesis corresponden al redondeo numerico. id-n =
n
umeros identicos a los presentados, para el caso GNUMERIC corto, hasta la cifra decimal n. id-n,m
significa que, ademas, se tiene acceso al mismo n
umero identico al valor de referencia hasta, por lo menos,
la cifra decimal m. (*): en este caso, la matriz esta dada en forma normalizada (es decir dividida por su
determinante). (?): en este caso no se ha encontrado una instruccion directa para hallar el dato. E/C = si,
se refiere a la disponibilidad directa de Estadsticas sobre Columnas de datos. (**): mediante instrucciones
programables. (***): mediante macro comandos predefinidos.
Nombre
ln(pc )
(pc ) [kPa]
c1
c1,5
c2
c4,5
2 /(k n)
c
icp,i
tStud.
E/C
Gr
aficos directos
Par
ametros
Una hoja de calculo como GNUMERIC es una herramienta versatil que permite
un acceso casi inmediato a ciertas funciones de gran interes para algunas actividades
de la ingeniera qumica y se puede comprobar la exactitud de los resultados. Para la
practica docente, al igual que otros programas similares, es una herramienta demasiado
demandante en tiempo.
El cuello de botella en esas aplicaciones es el manejo de numerosas columnas de
datos conteniendo expresiones matematicas arbitrariamente complejas. Es una herramienta que se ubica mejor como una herramienta personal para el estudiante o para el
laboratorio que como algo utilizable en clase.
GNUPLOT proporciona un medio extremadamente rapido y confiable para trazar
grandes cantidades de datos o funciones y algebra sobre columnas de datos arbitrariamente complejas. Teniendo el guion apropiado, que nuevamente es solo un peque
no
archivo de texto, la ilustracion del mecanismo de la regresion aparece claramente, de
manera rapida, confiable y visual.
Lo que da un valor didactico inigualable a los guiones de GNUPLOT es que son
usualmente cortos, legibles en cualquier maquina, cualquiera los puede modificar, adaptar a sus necesidades, estudiar y experimentar con ellos sin requerimientos de conocimientos mas alla de una formacion basica en matematicas. La caracterstica mas contundente de GNUPLOT en ese aspecto es que produce graficos con extremada rapidez
y permite hacer calculos arbitrariamente complejos sobre las columnas de un archivo
de datos sin nunca tener que manipularlas directamente. Esto es indudablemente muy
valioso para su uso en clase porque permite dedicarse a explorar la fsica, y ver los
resultados, sin perder el tiempo en generar y acomodar largas y complejas columnas de
datos.
Como herramienta de uso personal, el usuario puede poner en marcha la teora bajo
sus propias decisiones en cuanto al modelo y la representacion de los datos. Esto es
un aspecto importante en la cuestion de la formacion academica y es por eso que se
sugiere el uso de este programa: facilita la experimentacion numerica y el aprendizaje
de algunos metodos de manera agradable y eficiente.
GRETL es una herramienta muy poderosa y especializada. El problema planteado se
resuelve con un nivel de detalle impresionante en menos de 10 minutos. Tal herramienta
podra ser muy u
til en clase pero tiene el riesgo de distraer la atencion del estudiante en
un curso basico por la profundidad a la que lleva el analisis estadstico. Probablemente,
es una herramienta que se podra aprovechar mejor en laboratorios o en cursos mas
especializados, de licenciatura o maestra, o como herramienta de uso personal.
16
6.
Conclusiones
A traves del caso de estudio de la regresion de las presiones de vapor del nhexano,
hemos mostrado que existen herramientas de computo libres que resuelven el problema de manera rigurosa y precisa. Cada una de esas herramientas tiene sus propias
caractersticas que pueden impactar sobre varios aspecto de la labor docente, en especial el aspecto didactico y el aprendizaje. Se trata de programas de uso simple, que no
requieren de mucha infraestructura computacional y que no implican gastos importantes ni por parte de los estudiantes, ni por parte de la institucion educativa donde se
encuentran.
Los programas presentados se podran facilmente adecuar al quehacer docente, con
las siguientes caractersticas: 1. A
un si los programas vienen sin garanta alguna
(por la licencia que los rige), se puede rastrear la calidad de sus resultados y procedimientos haca los estandares reconocidos en materia de precision aritmetica, y, en el
caso presentado, en materia de analisis de regresion. 2. Cualquiera los puede utilizar,
explorar y aprender de sus codigos fuentes o modificar sus funcionalidades libremente.
3. No requieren de una infraestructura computacional especial, y 4. no dependen, por
lo menos los que se mencionaron aqu, de la plataforma en que se quieren usar. As,
un programa utilizado en clase puede ser utilizado en casa o en cualquier otro lugar,
facilitando la resolucion de tareas o problemas en tiempo libre, con la seguridad de un
aprendizaje homogeneo, favoreciendo una actitud de exploracion y experimentacion e
impulsando la curiosidad y el ingenio personal.
El archivo de datos, la hoja de calculo de GNUMERIC, el guion de GNUPLOT y
la sesion de GRETL, que fueron utilizados en este trabajo, estan disponibles mediante
una simple solicitud, por correo electronico, a los autores.
Agradecimientos
Los autores, agradecen el apoyo del programa PIFI, y del IPN a traves del proyecto
SIP-20070980 del cual deriva este trabajo. Tambien agradecemos a los desarrolladores
de los programas, a la GNU y a la FSF por hacer disponible libremente herramientas
de la calidad de las presentadas.
Referencias
[1] http://www.fsf.org/ (15-03-2008).
[2] http://www.gnu.org/ (15-03-2008).
17
18