Vous êtes sur la page 1sur 18

Uso de software libre cientfico en la practica docente

e investigacion: un caso de estudio enfocado al


analisis de regresion de datos.
C. Bouchot1 , J. B. Martnez Romero1 , J. C. Sanchez Ochoa2
(1 ) Laboratorio de Termodin
amica, SEPI ESIQIE, IPN, UPALM, Edif. Z Secc. 6, 1ER Piso,
Lindavista, 07738 Mexico D.F.
(2 ) ESIQIE IPN, UPALM, Edif. 8, 1ER Piso, sala B, Lindavista, 07738 Mexico D.F.
(*) E-Mail: cbouchot@ipn.mx

Resumen
En las ciencias fsico matematicas, especialmente en termodinamica, el analisis estadstico y las regresiones de datos, son actividades comunes y muchas veces
reducidas a un simple ajuste de parametros. Actualmente estas actividades
cobran mas profundidad haca la estandarizacion, calidad y presentacion de los
resultados, refiriendose a los aspectos metrologicos apegados a estandares internacionales.
En Posgrado como en Licenciatura, es importante que los estudiantes esten
familiarizados con herramientas que permiten llevar a cabo este tipo de analisis.
Para eso, se requieren paquetes de computo con caractersticas estandares. En la
practica, se tiene un dilema entre la necesidad de contratar numerosas y costosas
licencias, y el sacrificio de aspectos en la formacion cientfica como la curiosidad,
la posibilidad de elegir, evaluar, modificar o generar herramientas de computo.
El software libre, muy poco utilizado, por lo menos en la ESIQIE y ESFM del
IPN, es una opci
on viable que merece ser considerada.
El objetivo de este trabajo, es dar a conocer herramientas profesionales de
uso libre que podran ser beneficas para la formacion de futuros ingenieros e investigadores en el contexto planteado. Tomando como ejemplo la regresion de las
presiones de vapor del n-hexano mediante la ecuacion de Wagner, se presentan
tres paquetes relevantes que resuelven el problema en ambientes diferentes: un
acercamiento gr
afico con an
alisis basico (Gnuplot), mediante tabulador y macrocomandos predefinidos (Gnumeric) y mediante un programa especializado (Gretl),
entre otros. Las caractersticas importantes y especficas de los programas seran
comentadas y los resultados analizados.

Palabras claves: docencia, software libre, analisis de datos, regresion.

1.

Introducci
on

Despues de una seccion sobre generalidades y fundamentos sobre la relacion entre un


caso simple de regresion de datos y las caractersticas de las herramientas de computo
que permiten resolverlo en la practica, se hara una presentacion del caso de estudio
especfico donde se planteara brevemente el problema a resolver y sus caractersticas
matematicas relevantes. En una tercera parte se analizan tres aplicaciones libres, GNUMERIC, GNUPLOT y GRETL que permiten resolver el problema planteado, enfocando
la atencion sobre los aspectos didacticos y tecnicos relevantes. Finalmente se haran propuestas para sus usos en la practica docente.

2.

Fundamentos

El analisis estadstico de los datos y de los modelos que los representan es una
actividad frecuentemente subestimada (y a su vez omitida) en la practica docente de
las ciencias basicas en ingeniera qumica. La razon, probablemente, es que hace falta
tiempo en clase para abordar de manera seria la enorme cantidad de material que esto
contempla as como los requisitos matematicos que implica. Sin embargo, por lo menos
en el posgrado, y, cada vez que se puede, en la licenciatura, se impulsan a los estudiantes
de esos cursos a considerar la siguiente conjetura: esta usted seguro que el resultado
que acaba de obtener es correcto?, dirigiendo la pregunta no tanto hacia saber si se
hicieron correctamente los calculos sino hacia saber si se tiene conciencia que al utilizar
valores aproximados sin fundamentos en una formula tiene alguna influencia sobre el
resultado. La respuesta a lo ultimo es s, obviamente. La respuesta a la pregunta original
no es tan facil de hallar.
La importancia de considerar los aspectos de precision numerica en los calculos
clasicos en ingeniera qumica se encuentra en varios aspectos dirigidos haca las nociones de calidad. La calidad de los resultados de un calculo depende no solamente del
modelo que se emplea sino tambien de la precision de los parametros involucrados y
de la manera en que fueron obtenidos. En el caso que consideraremos, del establecimiento de una correlacion de presion de saturacion, se tiene el objetivo de proporcionar
valores de presiones con cierta calidad, en principio comparable con la calidad de los
datos experimentales utilizados para establecerla. En ese aspecto, es importante que los
estudiantes entiendan cual es la relacion entre las ciencias experimentales y las herramientas matematicas que se emplean y que, por lo menos alguna vez, hayan construido
una correlacion en el estado del arte.
2

Otro aspecto relacionado con las actividades de la ingeniera qumica donde las
regresiones, el analisis estadstico y la precision numerica es fundamental se refiere a
la metrologa y especificamente a la generacion de curvas de calibraciones para instrumentos de medicion. En esas actividades, las regresiones, tomando en cuenta las
incertidumbres y modelos apropiados (en el sentido estadstico), son basicas, y de igual
importancia es que los datos que se obtienen de las correlaciones obtenidas sean confiables.
Las actividades mencionadas, ya sea en clases, practicas en laboratorio o en las
actividades de investigacion, requieren programas cientficos de computo, que son los
que consideraremos aqu como la herramienta indispensable para manipular datos en
relativamente grandes cantidades y en un tiempo razonable. La cuestion de fondo sobre
la eleccion entre el uso de calculadoras o de programas de computo, en nuestro sentir,
es: a que se destinan los resultados?. En el posgrado y a su vez en licenciatura, esperamos que estos se vean reflejados en tesis, memorias, artculos y, por lo tanto, las
herramientas deben presentar caractersticas de portabilidad en los formatos de salidas
y de compatibilidad con aplicaciones externas de procesamiento de graficos o de texto.
Esto, a la fecha, no esta disponible de manera convincente en las calculadoras, y una
laptop basica es seguramente una mejor herramienta.
En la practica docente, la eleccion de un programa adecuado es delicado por dos
razones principales. Primero, ademas de permitir resolver el problema con una calidad
trazable, debe responder a criterios didacticos de eficiencia y no provocar que un curso
de fsicoqumica se transforme en un curso de computacion. Segundo, el programa debe
ser disponible y aqu aparecen situaciones especficas a una escuela o a un laboratorio que
tienen que ver con el manejo y las posibilidades de adquisicion de licencias. Los efectos
combinados de grupos numerosos de estudiantes y la falta de presupuesto provocan que
los estudiantes, en general, no pueden tener acceso a ciertas herramientas de computo
que les serviran en su currcula. Frecuentemente, esto provoca que cada quien utiliza
el programa que puede, pero no forzosamente el que requiere.
Una solucion a esta disyuntiva, es la del uso de Software Libre[1, 2]. Los pros y
las contras del Software Libre son fuera del alcance de este artculo. En el IPN, la
siguiente liga esta dedicada a este asunto [3]. En la ESIQIE o ESFM es muy probable que
se use y desarrolle software libre, pero esto es muy poco difundido. Por experiencia,
los autores no han detectado, por parte de los alumnos, un conocimiento relevante de
la existencia de programas libres que les puedan ser u
tiles en sus currcula o carrera.
En este trabajo, simplemente mostraremos que, por lo menos para el caso de estudio
planteado, podemos hallar herramientas libres, con licencias que no involucran gastos
algunos, y que resuelven concretamente y correctamente el problema. Seleccionamos
tres aplicaciones que responden, en ambitos diferentes al caso planteado: mediante un
tabulador o hoja de calculo, con o sin macrocomandos predefinidos (Gnumeric [4]), con
3

un acercamiento grafico y posibilidad de analisis basico (Gnuplot [5]), y mediante una


aplicacion grafica mas especializada (Gretl [6]).

3.

Caso de estudio

Elegimos considerar un ejercicio tpico que consiste, dentro de un curso de fsico


qumica, en alguna practica de laboratorio, o bien en la practica diaria en un laboratorio de investigacion experimental, en determinar una correlacion que represente
correctamente un conjunto de datos experimentales.

3.1.

Un ejemplo

Se considera el caso de la correlacion de los datos de presion de saturacion del n


hexano [7], datos de alta precision ( 0.002 K en temperatura y en promedio 0.02 %
en presion), obtenidos en un amplio intervalo de temperatura (aproximadamente Tnb
25 K, donde Tnb es la temperatura normal de ebullicion, hasta Tc 3.5 K, donde Tc
es la temperatura crtica). Para regresar tales datos, se considera un modelo apropiado
que llamaremos ecuacion de Wagner [7, 8], con la siguiente forma:
ln(p) = ln(pc ) + (Tc /T )(c1 + c1,5 1,5 + c2 2 + c4,5 4,5 )

(1)

donde = 1 T /Tc es la temperatura reducida complementaria, Tc es la temperatura


crtica y pc es la presion crtica del n-hexano. La ecuacion (1) presenta ln(p) como
un modelo lineal respecto a los parametros ln(pc ), c1 , c1,5 , c2 y c4,5 bajo la condicion
de especificar Tc . En [7], se ha efectuado una regresion multi-lineal no ponderada de
ln(p) fijando Tc = 507.49 K. Los valores de los parametros estan reportados con 6 cifras
decimales significativas y una desviacion estandar sobre la presion (p) = 47P a. El error
estandar sobre los parametros y sus intervalos de confianza no estan reportados. Esos
resultados son los que pretendemos reproducir, mediante herramientas que permitan a
los estudiantes no solo aprender a hacer sino tambien entender como se hace.

3.2.

El problema de los mnimos cuadrados ordinarios

Se quiere determinar una observacion y (Variable dependiente) como funcion de


otra observacion x (Variable independiente). Para eso se obtienen experimentalmente
k mediciones de pares de valores (xi , yi ) donde i = 1 ... k. Supondremos que cada
medicion yi tiene una incertidumbre cuantificable i . El objetivo de la regresion es
determinar (es decir obtener los valores de los parametros) la funcion (o modelo) y que

describa la relacion entre estas dos variables medidas, tal que para cualquier dato i:
yi = y(xi ) [9].
La forma matematica del modelo, en el caso presente, depende de la fsica del experimento. En general, se puede proponer una funcion de n parametros (n < k), y
hacer variar estos hasta ajustar la funcion y lo mas cercanamente posible a los datos
experimentales. Un modelo general para el metodo de los mnimos cuadrados lineales
puede ser:
y(xi ) =

n
X

aj fj (xi )

(2)

j=1

para el cual se deben determinar los valores mas probables de los parametros aj que
minimicen la suma de los cuadrados de las diferencias, o residuos, entre los valores
medidos yi y los valores calculados y(xi ). De aqu el nombre del metodo de mnimos
cuadrados.
La afirmacion que este metodo de minimizacion proporciona los valores mas probables para los coeficientes aj , se fundamenta en la inferencia que cada medicion experimental obedece estadsticamente a una distribucion Gaussiana con una varianza
i . As, la probabilidad de observar una medicion yi con una desviacion estandar i
respecto al valor actual de y(xi ) se puede calcular, para un conjunto de k valores de
yi . Para maximizar esta probabilidad (criterio de maxima verosimilitud) se tiene que
minimizar un termino llamado 2 , que aparece en la expresion de la probabilidad [9],
y definido por la ecuacion (3):

2 =

a
f
(x
)
i
j j
i
2

i=1 i
j=1

n
X

(3)

La ecuacion (3) se debe minimizar con respecto a los parametros aj , con el objetivo de obtener una representacion en cada punto experimental (xi , yi ), en la cual la
incertidumbre de medicion i sea un estimado de la varianza estadstica (desconocida
usualmente) en cada punto. El termino 1/i2 es el llamado factor de ponderacion o
peso, que notaremos wi . La ponderacion wi , en cada punto, tiene por efecto favorecer
el ajuste de y(xi ) a los datos obtenidos con mayor precision (o menor incertidumbre).
La minimizacion de la expresion (3) se hace igualando a cero simultaneamente todas
las derivadas parciales de 2 respecto a cada uno de los n parametros aj . Para un modelo
lineal se obtiene un sistema de n ecuaciones con n incognitas, conocido como sistema
de ecuaciones normales, las cuales se pueden escribir en una forma matricial poniendo:
m =

k
X

wi yi fm (xi )

i=1

(4)

y
m,j =

k
X

[wi fm (xi ) fj (xi )]

(5)

= a

(6)

i=1

obteniendo as:
La matriz es de dimension (n, n), simetrica y definida positiva (y por lo tanto
invertible, por ejemplo, por descomposicion de Choleski). El vector , de dimension n
es el vector de componentes m , y el vector a es el vector de los n parametros aj , para
j = 1, . . . , n.
Es obvio entonces que el problema se resume a un problema de algebra lineal y que
su resolucion es analtica:
(7)
a=
notando  la matriz inversa de , llamada matriz de error o de varianza covarianza
de la regresion.

De esa matriz se obtienen estimados


de
los
errores
en
los
par
a
metros
e
=
ii ,
i
q
de sus errores estandares p,i = ei 2 /(k n) y de sus intervalos de confianza icp,i =
p,i tStud. (k n, p) donde aparece una correccion por estadsticas de Student de dos
colas, tStud. , para el n
umero de grados de libertad, (k n) y un nivel (1 p) de confianza
definido.
De  se obtiene tambien la llamada matriz de correlacion c, tal que cij =
q
ij / (ii jj ).
Para el problema considerado, lo anterior aplica directamente, asignando wi = 1
para todos los datos, y f1 =1.0, f2 = (Tc /T ) , f3 = (Tc /T ) 1,5 , f4 = (Tc /T ) 2 y
f5 = (Tc /T ) 4,5 . Para los parametros, a1 = ln(pc ), a2 = c1 , a3 = c1,5 , a4 = c2 y
a5 = c4,5 .
Este planteamiento condensado y formulado de manera algortmica tiene como
proposito recordar que el analisis no termina con la determinacion de los parametros.
El punto clave es la determinacion de la matriz  y su aprovechamiento. Esa matriz es
fundamental para hallar valores que permiten evaluar, con algo de detalle, la calidad de
un modelo ademas de la calidad de la regresion como el error estandar en los parametros (n
umero de dgitos estadsticamente significativos), los intervalos de confianza de
los mismos, que tan correlacionados estan entre ellos, etcetera. Entonces, un programa
que resuelve el problema planteado debe, por lo menos, proporcionar esta informacion
(y no nada mas valores de los parametros) porque de aqu se generan las discusiones y
analisis sobre la validez y confiabilidad de los modelos que son lo que realmente importa
en la practica y la docencia en ingeniera.

4.

Herramientas de computo libres y su an


alisis.

En la cuestion computacional, el IEEE [10] (Institute of Electrical and Electronic


Engineers) es el responsable de una norma de especial interes: la ANSI/IEEE Std
754-1985, (conocida como IEEE 754 ) que establece el estandar para la aritmetica en
coma flotante. Esta norma es una base para las libreras en lenguajes ANSI/ISO C
o FORTRAN. Averiguamos, y esto es posible directamente gracias al acceso al codigo
fuente que permite el Sofware libre, que los programas utilizados aqu estan apegados
a esta norma.
Ademas, la manera en que un programa esta implementado independientemente de
las libreras que usa, son factores que pueden tener impacto en la calidad de los resultados que arroja. Para eso, tanto el NIST National Institute of Standard and Technology
[11] como el NPL (National Physical Laboratory - ReinoUnido ) [12], han desarrollado
pruebas estandares de regresion, que permiten, sobre una base de resultados certificados
[13, 14], evaluar la precision de la aritmetica implementada en un programa de computo
dado. Los programas GNUMERIC y GRETL han sido ampliamente confrontados (y
con exito) a esas pruebas. GNUPLOT no tiene como finalidad el analisis estadstico,
sin embargo, veremos que en el caso considerado proporciona resultados identicos a los
otros programas.

4.1.

Hoja de Calculo: GNUMERIC

Cuando se hace la pregunta en un salon de clase: con que programa suelen preparar sus graficas?, invariablemente, la respuesta es con Excel, profe!, y la misma
respuesta se obtiene (aunque raras veces) cuando la pregunta porta sobre el asunto
de hacer regresiones de datos. La notoriedad y la frecuencia de uso de los llamados
tabuladores o hojas de calculo es innegable. Sin embargo, poco se sabe, por parte de
los estudiantes en general, de la existencia de tales aplicaciones con licencias libres y
codigo abierto (licencia GPL).
GNUMERIC [4] es una aplicacion libre (licencia GPL) de tipo hoja de calculo, como
son MS-Excel(tm) y OpenOffice.org Calc (licencia GPL). A la diferencia de los paquetes
mencionados, GNUMERIC no pertenece a una suite; es un programa autonomo. En
c para GNU/Linux N
este trabajo se utilizo Gnumeric version 1.6.3, ( )
ucleo 2.6.15-51386 en una LapTop/Celeron 600 MHz.
A partir de los datos reportados por [7], se genero un archivo de texto (ASCII)
con dos columnas conteniendo, en la primera, columna la temperatura T en K y, en la
segunda, la presion de saturacion ps en kPa. Este archivo es el u
nico que se tiene que
generar para todos los programas utilizados.
Utilizamos dos procedimientos para llevar a cabo la regresion propuesta con GNU7

MERIC. Un metodo corto, utilizando el macro-comando disponible de [Regresion] y un


metodo riguroso, que reproduce la secuencia de calculos de la seccion 3.2.
M
etodo corto.
Se importaron los datos a la hoja de calculo y se generaron siete columnas de los
54 datos disponibles para obtener los valores de ln(ps ), de , y de las cinco funciones fi . Finalmente utilizamos la secuencia de men
us [Tools] > [Statistical Analysis] >
[Regression...], obteniendo la informacion presentada en la figura 1.

Figura 1: Resultado de regresion en GNUMERIC (Metodo corto).

Los resultados obtenidos para los parametros son, hasta los 6 dgitos reportados en
[7], los mismos que en esta referencia y estan mostrados en la tabla 1. Los resultados
desplegados son basicamente identicos a los que arrojan cualquier otra hoja de calculo.
No se proporciona la matriz de varianza covarianza, , ni la matriz de correlacion, pero
s el error en los parametros y sus intervalos de confianza a 95 % seg
un requisitados. El
8

programa devuelve una informacion suficiente y precisa, a


unque, sin la matriz  se tiene
que recurrir a calculos adicionales y generar graficos para explorar a detalle que tan
adecuado es el modelo y que tan correlacionados estan los parametros entre ellos.
M
etodo riguroso
El procedimiento inicial es le mismo que anteriormente hasta el uso del macrocomando de regresion. Para seguir desde ese punto se tienen que generar 43 columnas
de datos adicionales a las 7 ya presentes representando en total 1720 calculos aritmeticos. Treinta de esas columnas contienen 54 filas, y la inversion de la matriz implica
aprender a utilizar el macrocomando MINVERSE() com
un a varias hojas de calculo. La
estadstica de Student, para la evaluacion de los intervalos de confianza, se tiene que obtener de un programa externo (en este caso, el valor se obtuvo de GRETL y es identica
a la que calcula internamente GNUMERIC). Se obtuvo, por supuesto, toda la informacion deseada, incluyendo  y c pero, nuevamente, se requiere un trabajo adicional parar
obtener los graficos de residuos, por ejemplo. y sus estadsticas descriptivas.
Los resultados obtenidos (ver figura 2) son identicos a los que arroja el metodo
corto lo que significa que el macro-comando para regresiones proporciona los resultados
correctos, y es un asunto que era importante averiguar.

4.2.

Aplicaci
on gr
afica: GNUPLOT

GNUPLOT [5] es una utilidad de graficos operada por lineas de comandos al estilo
de varias aplicaciones dise
nadas para UNIX/Linux. Es una aplicacion multi-plataforma,
(independiente de GNU), libre y dirigida a cientficos y estudiantes, para la visualizac para
cion de funciones matematicas y datos. Utilizamos Gnuplot version 4.2.-3. ( )
GNU/Linux en la misma maquina que anteriormente.
Para resolver el problema planteado se uso el mismo archivo de datos anterior y
un guion (Script), es decir un archivo de comandos en formato ASCII. El editor de
texto Xemacs [15] fue utilizado para interpretar el guion. Los guiones de GNUPLOT
son secuencias de instrucciones que responden a un lenguaje extremadamente simple,
donde, por ejemplo, el algebra se escribe con la sintaxis de FORTRAN. Para el caso
presente, se escribio un guion de 22 lneas de texto utilizando tres instrucciones basicas
(SET, PLOT y FIT) y produciendo los resultados de la figura 3.
El comando FIT ajusta una funcion real definida por el usuario a un conjunto
de datos utilizando una implementacion de los mnimos cuadrados no lineales seg
un
el algoritmo de Marquardt-Levenberg. Esto significa que tanto modelos lineales en los
parametros como no lineales pueden ser ajustados. Los resultados del ajuste de modelos
lineales no corresponde estrictamente a la teora de los mnimos cuadrados lineales. Se
9

Figura 2: Resultado de regresion en GNUMERIC (Metodo riguroso).

trata de algo mas general que consiste directamente en la minimizacion de la suma


de los residuos al cuadrado ponderados, (2 ) y no de la resolucion analtica derivada
anteriormente del problema. Sin embargo, los intervalos de confianza de los parametros
estan calculados conforme a lo planteado en la seccion 3.2. Esta estadstica no es siempre
correcta ya que corresponde al estimado que da el analisis de los mnimos cuadrados
lineales. El valor del llamado error asintotico obtenido de esta manera para cada
parametro es en general sobre estimado, a parte si el modelo que se considera, como
es el caso aqu, es efectivamente lineal respecto a sus parametros. GNUPLOT reporta
la matriz de correlacion de los parametros pero no la matriz de varianza covarianza
 que, sin embargo, es facil de hallar, en el caso de un modelo lineal, a partir de la
informacion proporcionada por el programa.
Los resultados de la regresion se recuperan en un archivo de texto (ASCII) y, como
lo muestra la tabla 1, son identicos a los anteriores. Es importante mencionar que tanto
el planteamiento del modelo como la elaboracion de graficos en GNUPLOT, no implican
10

Figura 3: La regresion resuelta por GNUPLOT, con grafico de residuales y barras de


error.

la manipulacion directa de las columnas de datos de entrada. Esas manipulaciones se


hacen internamente mediante estructuras de los comandos en las cuales el usuario solo
requiere tener una referencia las columnas del archivo de entrada, mediante un n
umero.
Esto tiene un inconveniente que es el de no tener acceso facil a estadsticas por columnas,
por ejemplo de los residuos, las cuales son faciles de obtener en una hoja de calculo.

4.3.

Aplicaci
on especializada: GRETL

GRETL [6], es una aplicacion grafica libre (licencia GPL) dedicada al analisis de
regresion y muchos otros aspectos de las estadsticas. Es una herramienta dirigida a
especialistas en econometrica. Sin embargo, es inmediato ubicar las funcionalidades que
permiten hacer regresiones de varios tipos, en especial mediante el metodo de mnimos
cuadrados lineales que nos interesa aqu. GRETL tiene funcionalidades tanto de hoja de

11

calculo como de graficador. GNUPLOT es la aplicacion ligada que produce los graficos
en GRETL, pero no genera las regresiones. De eso se encargan libreras especializadas
en C.
La figura 4 muestra una copia de pantalla de la sesion de GRETL que produjo los
resultados para este trabajo y estan reportados en la tabla 1.

Figura 4: La regresion resuelta por GRETL

c para GNU/Linux en la misma maquina ya menSe utilizo Gretl version 1.7.4 ( )


cionada. El procedimiento para obtener los resultados de la regresion mostrados en la
tabla 1, consiste en importar el mismo archivo de texto de datos usado en todo el trabajo. GRETL reconoce, en este archivo, dos columnas de datos T y ps . Las variables
reducidas, ln(ps ) y las funciones fi (ver seccion 3.2) se construyen mediante expresiones algebraicas a partir de las variables asignadas a las columnas importadas. Esas
expresiones producen nuevas columnas que se pueden manipular, graficar y analizar
estadsticamente, individualmente. Esto es muy u
til para obtener muy rapidamente las
estadsticas sobre los residuos de la correlacion por ejemplo, facilidad que no era inme12

diata en los programas anteriores. Un analisis de regresion como considerado aqu no


tarda mas de 10 minutos, y la sesion, incluyendo los datos, analisis y graficos, se puede
guardar completamente para su reproduccion o modificacion posterior. Se tiene la facilidad de obtener una cantidad impresionante de informacion estadstica de los datos.
A parte de los resultados esperados, que nuevamente son identicos a los obtenidos anteriormente, se tiene acceso a la matriz  normalizada, a los residuos calculados y sus
estadsticas descriptivas, as como a pruebas estadsticas como por ejemplo la prueba
de normalidad de los residuos (observar la grafica de distribucion en la figura 4) o bien
pruebas de influencia de los datos en la regresion. Los resultados numericos se recuperan
en archivos de texto y los graficos en varios formatos estandares portables.

5.

Resultados y discusi
on

Los resultados arrojados por los tres programas presentados en la resolucion del
problema planteado, se encuentran condensados en la tabla 1. Se tomo, arbitrariamente, el caso del uso de GNUMERIC con el metodo corto como referencia para una
comparacion de los resultados. Los datos originales estan dados con 6 cifras decimales
[7]. Para el caso de referencia, elegimos hacer el redondeo hasta la octava decimal para
el valor de los parametros y hasta la sexta para los errores estandares de los mismos.
Los otros casos se pueden as comparar en terminos de n
umeros de cifras decimales
identicas respecto a la referencia
Podemos notar que, por los formatos en que se presentan naturalmente los datos de
salida en GNUPLOT o GRETL, no se alcanza la precision numerica fijada en GNUMERIC. Sin embargo, en GNUPLOT, se tiene acceso a los valores de los parametros por
medio de una instruccion PRINT que los presenta con la precision de la coma flotante
de la maquina. Por eso se indica que s se alcanza la precision de 8 decimales respecto
al caso de referencia. En el caso de GRETL, el formato de salida de los parametros es
de 5 decimales. Es posible cambiar ese formato y alcanzar decimales en el lmite de la
precision aritmetica de la maquina utilizada. Para nuestro proposito, esto es suficiente para mostrar que los tres programas producen calculos basicamente identicos en el
lmite fijado.
La segunda parte de la tabla 1, muestra si se tiene o no acceso a las caractersticas
estadsticas que se han encontrado importantes en la seccion 3.2, y si se tiene acceso
a graficos de manera directa. Los dos programas que permiten acceso a lo esencial
de la informacion importante son GNUPLOT y GRETL, volviendo a mencionar que
GNUPLOT es el generador de los graficos de GRETL.
En la cuestion practica, La implementacion del metodo corto con GNUMERIC
en una clase tardara aproximadamente 40 minutos tomando en cuenta la generacion de
13

los graficos de residuos por ejemplo. Es un tiempo apenas razonable, pero es un metodo
de tipo caja negra. Si los resultados basicos son suficientes para analizar un modelo,
no se aprende nada de la manera en como se hacen los calculos. Al contrario, el metodo
riguroso con GNUMERIC permite ense
nar a detalle la mecanica de la regresion. Sin
embargo, es obvio que implementar eso en clase no es factible.

14

15

no
no
no
no
no

3027.4
-7.640550
2.644067
-2.456301
-4.044549

Val.

Originales

GNUMERIC
corto
Val. Err. Estd.
8.0154605(2) 0.00003(0)
3027.40325(6)
-7.6405499(7) 0.00218(0)
2.6440672(7) 0.00940(9)
-2.4563014(2) 0.01095(1)
-4.0445485(4) 0.01560(7)
6.348E-08
no
no
si
no
no
no

GNUMERIC
riguroso
Val. Err. Estd.
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id-6
id
si
si
si
no
no
no
Val.
id-5,8
id-5,6
id-5,8
id-4,8
id-4,8
id-4,8
id
no
si
si
no
no
si (**)
id-5
id-6
id-5
id-5

Err. Estd.
id-6

GNUPLOT
Val.
id-5
id-5
id-5
id-5
id-5
id-5
id
si (*)
(?)
si
si
si
si (***)

id-6
id-6
id-6
id-6

Err. Estd.
id-6

GRETL

Tabla 1: Resultados Globales. Val.= Valor, Err. Estd.= Error Estandar. La columna Originales se refiere
a los parametros reportados por [7]. Las cifras entre parentesis corresponden al redondeo numerico. id-n =
n
umeros identicos a los presentados, para el caso GNUMERIC corto, hasta la cifra decimal n. id-n,m
significa que, ademas, se tiene acceso al mismo n
umero identico al valor de referencia hasta, por lo menos,
la cifra decimal m. (*): en este caso, la matriz  esta dada en forma normalizada (es decir dividida por su
determinante). (?): en este caso no se ha encontrado una instruccion directa para hallar el dato. E/C = si,
se refiere a la disponibilidad directa de Estadsticas sobre Columnas de datos. (**): mediante instrucciones
programables. (***): mediante macro comandos predefinidos.

Nombre
ln(pc )
(pc ) [kPa]
c1
c1,5
c2
c4,5
2 /(k n)

c
icp,i
tStud.
E/C
Gr
aficos directos

Par
ametros

Una hoja de calculo como GNUMERIC es una herramienta versatil que permite
un acceso casi inmediato a ciertas funciones de gran interes para algunas actividades
de la ingeniera qumica y se puede comprobar la exactitud de los resultados. Para la
practica docente, al igual que otros programas similares, es una herramienta demasiado
demandante en tiempo.
El cuello de botella en esas aplicaciones es el manejo de numerosas columnas de
datos conteniendo expresiones matematicas arbitrariamente complejas. Es una herramienta que se ubica mejor como una herramienta personal para el estudiante o para el
laboratorio que como algo utilizable en clase.
GNUPLOT proporciona un medio extremadamente rapido y confiable para trazar
grandes cantidades de datos o funciones y algebra sobre columnas de datos arbitrariamente complejas. Teniendo el guion apropiado, que nuevamente es solo un peque
no
archivo de texto, la ilustracion del mecanismo de la regresion aparece claramente, de
manera rapida, confiable y visual.
Lo que da un valor didactico inigualable a los guiones de GNUPLOT es que son
usualmente cortos, legibles en cualquier maquina, cualquiera los puede modificar, adaptar a sus necesidades, estudiar y experimentar con ellos sin requerimientos de conocimientos mas alla de una formacion basica en matematicas. La caracterstica mas contundente de GNUPLOT en ese aspecto es que produce graficos con extremada rapidez
y permite hacer calculos arbitrariamente complejos sobre las columnas de un archivo
de datos sin nunca tener que manipularlas directamente. Esto es indudablemente muy
valioso para su uso en clase porque permite dedicarse a explorar la fsica, y ver los
resultados, sin perder el tiempo en generar y acomodar largas y complejas columnas de
datos.
Como herramienta de uso personal, el usuario puede poner en marcha la teora bajo
sus propias decisiones en cuanto al modelo y la representacion de los datos. Esto es
un aspecto importante en la cuestion de la formacion academica y es por eso que se
sugiere el uso de este programa: facilita la experimentacion numerica y el aprendizaje
de algunos metodos de manera agradable y eficiente.
GRETL es una herramienta muy poderosa y especializada. El problema planteado se
resuelve con un nivel de detalle impresionante en menos de 10 minutos. Tal herramienta
podra ser muy u
til en clase pero tiene el riesgo de distraer la atencion del estudiante en
un curso basico por la profundidad a la que lleva el analisis estadstico. Probablemente,
es una herramienta que se podra aprovechar mejor en laboratorios o en cursos mas
especializados, de licenciatura o maestra, o como herramienta de uso personal.

16

6.

Conclusiones

A traves del caso de estudio de la regresion de las presiones de vapor del nhexano,
hemos mostrado que existen herramientas de computo libres que resuelven el problema de manera rigurosa y precisa. Cada una de esas herramientas tiene sus propias
caractersticas que pueden impactar sobre varios aspecto de la labor docente, en especial el aspecto didactico y el aprendizaje. Se trata de programas de uso simple, que no
requieren de mucha infraestructura computacional y que no implican gastos importantes ni por parte de los estudiantes, ni por parte de la institucion educativa donde se
encuentran.
Los programas presentados se podran facilmente adecuar al quehacer docente, con
las siguientes caractersticas: 1. A
un si los programas vienen sin garanta alguna
(por la licencia que los rige), se puede rastrear la calidad de sus resultados y procedimientos haca los estandares reconocidos en materia de precision aritmetica, y, en el
caso presentado, en materia de analisis de regresion. 2. Cualquiera los puede utilizar,
explorar y aprender de sus codigos fuentes o modificar sus funcionalidades libremente.
3. No requieren de una infraestructura computacional especial, y 4. no dependen, por
lo menos los que se mencionaron aqu, de la plataforma en que se quieren usar. As,
un programa utilizado en clase puede ser utilizado en casa o en cualquier otro lugar,
facilitando la resolucion de tareas o problemas en tiempo libre, con la seguridad de un
aprendizaje homogeneo, favoreciendo una actitud de exploracion y experimentacion e
impulsando la curiosidad y el ingenio personal.
El archivo de datos, la hoja de calculo de GNUMERIC, el guion de GNUPLOT y
la sesion de GRETL, que fueron utilizados en este trabajo, estan disponibles mediante
una simple solicitud, por correo electronico, a los autores.

Agradecimientos
Los autores, agradecen el apoyo del programa PIFI, y del IPN a traves del proyecto
SIP-20070980 del cual deriva este trabajo. Tambien agradecemos a los desarrolladores
de los programas, a la GNU y a la FSF por hacer disponible libremente herramientas
de la calidad de las presentadas.

Referencias
[1] http://www.fsf.org/ (15-03-2008).
[2] http://www.gnu.org/ (15-03-2008).
17

[3] http://www.te.ipn.mx/laboratorio/libre/ o //www.comunidades.ipn.mx/softwarelibre/


(22-03-2008).
[4] http://www.gnome.org/projects/gnumeric/ (22-03-2008).
[5] http://www.gnuplot.info/ (22-03-2008).
[6] http://gretl.sourceforge.net/ (22-03-2008).
[7] M. Ewing & J. C. Sanchez Ochoa: Vapor pressure of n-hexane determined by
comparative ebulliometry. J. Chem. Thermodynamics, 38: 283288 (2006).
[8] R. Kleinraham & W. Wagner: J. Chem. Thermodynamics, 18: 739760 (1986).
[9] P. Bevington & D. Robinson: Data Reduction and Error Analysis for the Physical
Sciences. WCB McGraw-Hill (1992).
[10] http://www.ieee.org/ (21-03-2008).
[11] http://physics.nist.gov/cuu/ (20-03-2008).
[12] http://www.npl.co.uk/ (20-03-2008).
[13] http://www.itl.nist.gov/div898/strd/ (20-03-2008).
[14] http://www.npl.co.uk/ Seguir: [Science + Technology] > Mathematics and Scientific Computing > Sofware Support for Metrology ... (22-03-2008).
[15] http://www.xemacs.org/ (24-03-2008).

18

Vous aimerez peut-être aussi