Vous êtes sur la page 1sur 19

UNIVERSIDAD NACIONAL DE INGENIERIA

UNIVERSIDAD NACIONAL DE INGENIERIA


FACULTAD DE INGENIERIA QUIMICA Y TEXTIL
AREA ACADEMICA DE INGENIERIA QUIMICA

TEMA: REGRESIN LINEAL APLICADA A LA INGENIERA


QUMICA
CURSO: CLCULOS EN INGENIERA QUMICA (PI523-A).
PROFESOR: JOS DVILA TAPIA.
ALUMNOS:

ROSARIO LIZ VILLENA ARANCIBIA.

JOSE LUIS RICARDO ARTEAGA OROSCO.

LUIS STEVEN SATISTEBAN OBREGON.

FECHA DE ENTREGA Y EXPOSICIN: 6/12/14

UNIVERSIDAD NACIONAL DE INGENIERIA

NDICE
1. INTRODUCCIN

2. FUNDAMENTO TERICO

2.1. REGRESIN LINEAL SIMPLE

2.1.1. LA MEJOR RECTA DE REGRESIN

2.1.2. ESTIMACIN DE PARAMETROS

2.1.2.1.

MTODO DE MNIMOS CUADRADOS

2.1.2.2.

MTODO DE MXIMA VEROSIMILITUD

2.2. REGRESIN LINEAL MLTIPLE

2.2.1. EL MEJOR HIPERPLANO DE REGRESIN

2.2.2. ESTIMACIN DE PARAMETROS

2.2.2.1.

MTODO DE MNIMOS CUADRADOS

2.3. BONDAD DE AJUSTE

9
10

2.3.1. CONTRASTE DE REGRESIN

10

2.3.2. COEFICIENTE DE DETERMINACIN

13

3. APLICACIN DE LA REGRESIN LINEAL A LA INGENIERA QUMICA

13

3.1. PROBLEMA DE REGRESIN LINEAL SIMPLE

14

3.2. PROBLEMA DE REGRESIN LINEAL MLTIPLE

17

4. CONCLUSIONES

18

5. BIBLIOGRAFA

19

UNIVERSIDAD NACIONAL DE INGENIERIA

1. INTRODUCCION.Histricamente el nombre de regresin lineal se debe a los estudios de Francis Galton en


biologa. Cuando Galton estudiaba la relacin entre las alturas de los Hijos (Y) con la de sus
padres (X) se dio cuenta que los hijos de padres altos son ms altos que la media pero no
tanto como los padres, y los hijos de padres bajos, en general, son ms bajos que la media
pero no tanto como sus padres, es decir, que la altura de los hijos tiende a regresar a la
media, de ah el nombre de regresin.

Alturas de hijo 85cm 0,5 Altura del padre(aprox.)


La regresin lineal es un mtodo matemtico y estadstico utilizado para modelar la
relacin entre variables.
El modelo de regresin lineal simple consiste en relacionar una variable denominada
dependiente (Y) y otra variable denominada independiente o explicativa (X) a travs de
una recta que toma el nombre de recta de regresin.

Y a0 a1 x1 u
En la regresin lineal mltiple manejaremos ms de una variable explicativa, y al igual que
la regresin lineal simple, vamos a considerar que los valores de la variable dependiente Y
han sido generados de una combinacin lineal de los valores de las variables explicativas:

Y b0 b1 x1 b2 x2 ... bk x1 u
Este mtodo se adapta a una amplia variedad de situaciones. Por ejemplo en el campo de
la Fsica se utiliza para caracterizar la relacin entre variables o para evaluar medidas. En
los laboratorios de Qumica se a menudo se usa una regresin lineal para calibrar los
instrumentos de anlisis cuantitativo. En la investigacin social el anlisis de regresin
lineal se utilizar para predecir fenmenos. En el estudio de mercados para determinar en
qu medio invertir, etc.

UNIVERSIDAD NACIONAL DE INGENIERIA

2.1.

FUNDAMENTO TEORICO.-

2.1.1. REGRESION LINEAL SIMPLE:


Supongamos que disponemos de un conjunto de datos con informacin sobre 35 marcas de
cerveza y que estamos interesados en estudiar la relacin existente entre el grado de alcohol de
las cervezas y su contenido calrico. Un buen punto de partida para formarnos una primera
impresin de esa relacin podra ser la representacin de la nube de puntos, tal como se muestra
en el diagrama de dispersin:

Se observa que conforme aumenta el porcentaje de alcohol, tambin aumenta el nmero de


caloras. Adems podemos sealar que en esta muestra no hay cervezas que teniendo alto
contenido de alcohol tengan pocas caloras y tampoco que teniendo muchas caloras tengan poco
alcohol. La mayor parte de las cervezas de la muestra se agrupan entre 4.5 y 5% de alcohol.
Para obtener una descripcin ms concreta de los resultados relacionaremos las variables
mediante una funcin matemtica simple, a primera vista una recta puede ser una buena
aproximacin.

2.1.1. LA MEJOR RECTA DE REGRESION:


En una situacin ideal e irreal en la que te todos los punto de un diagrama de dispersin se
encontraran exactamente en una lnea recta no tendramos que preocuparnos de encontrar la
recta que mejor describa el comportamiento de los puntos, simplemente tomando dos puntos
podra aplicarse relaciones matemticas y determinar fcilmente los valores de los parmetros

a0

y a1 obteniendo el mejor ajuste. Pero en una nube de puntos realista como el de nuestro ejemplo
se podra trazar muchas rectas diferentes y cada una se ajustara tambin diferente a la nube de
puntos.
Existen diferentes mtodos para este ajuste cada uno de ellos intenta minimizar una medida
diferente del grado de ajuste, pero el ms usado es el de la recta que hace mnima la suma de los
cuadrados de las diferencias verticales entre cada punto y la recta.
4

UNIVERSIDAD NACIONAL DE INGENIERIA

2.1.2. ESTIMACION DE PARMETROS:


2.1.2.1. MTODO DE MNIMOS CUADRADOS:
En mnimos cuadrados se estiman los parmetros de la recta que minimice la varianza de la

perturbacin aleatoria o varianza residual, es decir, se buscan unos valores de 0 y 1 de forma


que la distancia de cada punto a la recta de regresin (o valor pronosticado) sea mnimo; esto
equivale a minimizar la varianza residual teniendo en cuenta que la perturbacin es 0.

[ y (Yi )]2
u2
Min i
n
n
2
[ y (a0 a1 x)]
Min i
n

Min( 2 ) Min

Es decir, se calcularn los parmetros de la recta de regresin de forma que dicha recta pase lo
ms cerca posible (en promedio) de todos los puntos.
Derivando la expresin anterior respecto de los parmetros, igualando a cero y aplicando un poco
de algebra obtenemos las expresiones de la estimacin de cada parmetro.
Derivando respecto de

a0

y a (a1x)
U 2
2 ( yi a0 a1xi ) i o
0
a0

a
0
0
0

U 2
2 ( yi a0 a1xi )(1)
a1
n

i 1

i 1

a0 n a1 xi yi

Derivando respecto de

a1

(1)

y a (a1x)
U 2
2 ( y a0 a1x) i o
0
a1
a1
a1 a1

U 2
2 ( yi a0 a1xi )( xi )
a1
n

i 1

i 1

i 1

a0 xi a1 xi2 xi yi
5

(2)

UNIVERSIDAD NACIONAL DE INGENIERIA


Resolviendo las ecuaciones 1 y 2 utilizando los datos de las mediciones tomadas, se determinan
los parmetros de la recta de regresin.

2.1.2.2. MTODO DE MXIMA VEROSIMILITUD:


Si consideramos que la perturbacin aleatoria sigue una distribucin normal, podemos aplicar el
mtodo de estimacin de mxima verosimilitud. La funcin de densidad para un caso concreto es:

l (a0 , a1 , 2 , y )

1
1

exp 2 ( y a0 a1 x) 2
2
2

De donde la funcin de soporte de la muestra, es decir, la verosimilitud de la muestra en estudio


es:

l (a0 , a1, 2 , y)

(2 )

exp 2

( y a0 a1x) 2

El logaritmo de la funcin soporte ser:

l (a0 , a1 , 2 , y )

n
n
1 n
log( 2 ) log(2 ) 2 ( yi a0 a1 xi ) 2
2
2
2 i1

Derivando esta expresin respecto de los parmetros 0 y 1 , e igualando a cero, de forma que se
obtenga unos parmetros que maximicen la verosimilitud de la muestra, obtendremos:
Derivando respecto de

a0

:
n
L
2 ( yi a0 a1 xi )(1) 0
a0
i 1
n

i 1

i 1

a0 n a1 xi yi

Derivando respecto de

a1

:
n
L
2 ( yi a0 a1 xi )( xi ) 0
a1
i 1
n

i 1

i 1

i 1

a0 xi a1 xi2 xi yi
Al coincidir estas ecuaciones con las obtenidas por mnimos cuadrados se demuestra que los
parmetros estimados por ambos mtodos van a coincidir.
6

UNIVERSIDAD NACIONAL DE INGENIERIA

2.2. REGRESION LINEAL MLTIPLE:


En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa lo que nos
significar ms informacin para la construccin del modelo y en consecuencia realizar
estimaciones ms precisas.
Al manejar ms de una variable vamos a considerar que los valores de la variable independiente Y
se generan por una combinacin lineal de los valores de las variables explicativas y un trmino
aleatorio.

Y b0 b1 x1 b2 x2 ... bk x1 u
Los coeficientes se determinarn de manera que la suma de cuadrados entre los valores
observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
La ecuacin mostrada anteriormente recibe el nombre de hiperplano, pues cuando tenemos dos
variables explicativas, en vez de una recta tenemos un plano:

Con tres variables explicativas tendramos un espacio de tres dimensiones y as sucesivamente.


Para hacer menos tedioso el tratamiento de este anlisis utilizaremos un sencillo ejemplo.
Consideremos una muestra de personas como la que sigue a continuacin:

UNIVERSIDAD NACIONAL DE INGENIERIA

Sexo
1
2
3
4
5
6
7
8

Mujer
Mujer
Mujer
Mujer
Mujer
Mujer
Mujer
Mujer

Estatura

Largo de
rostro

Largo de
pie

Largo de
brazo

Ancho
de
espalda

Dimetro
de
crneo

Peso

X1

X6

X2

X3

X4

X5

158
152
168
159
158
164
156
167

39
38
43
40
41
40
41
44

36
34
39
36
36
36
36
37

68
66
72.5
68.5
68.5
71
67
73

43
40
41
42
44
44.5
36
41.5

55
55
54.5
57
57
54
56
58

43
45
48
49
50
51
52
52

La variable dependiente es el peso, y las variables que vamos a utilizar para predecir el peso
reciben el nombre de variables explicativas: estatura, pie, l_brazo, a_espalda, d_craneo.
De manera que el modelo que deseamos construir es:

peso b0 b1 (estatura) b2 ( pie) b3 (l _ brazo) b4 (a _ espalda) b5 (d _ craneo)


En una situacin ideal e irreal en la que te todos los punto de un diagrama de dispersin se
encontraran exactamente en una lnea recta no tendramos que preocuparnos de encontrar la
recta que mejor describa el comportamiento de los puntos, simplemente tomando dos puntos
podra aplicarse relaciones matemticas y determinar fcilmente los valores de los parmetros

a0

y 1 obteniendo el mejor ajuste. Pero en una nube de puntos realista como el de nuestro ejemplo
se podra trazar muchas rectas diferentes y cada una se ajustara tambin diferente a la nube de
puntos.
Existen diferentes mtodos para este ajuste cada uno de ellos intenta minimizar una medida
diferente del grado de ajuste, pero el ms usado es el de la recta que hace mnima la suma de los
cuadrados de las diferencias verticales entre cada punto y la recta.

2.2.1. EL MEJOR HIPERPLANO DE REGRESIN:


De manera anloga al caso de la regresin lineal simple, en la nube de puntos o grafica de
dispersin para la regresin lineal mltiple se pueden trazar muchos hiperplanos de regresin,
pero debemos elegir un criterio para basndonos en l, determinar el mejor hiperplano de
regresin.

UNIVERSIDAD NACIONAL DE INGENIERIA

2.2.2. ESTIMACION DE PARMETROS:


2.2.2.1. MTODO DE MNIMOS CUADRADOS:
Calcularemos un hiperplano de regresin de forma que minimice la varianza residual:

Min( 2 ) Min( yi Yi )2
Utilizando notacin matricial:

u1 y1 Y1
u y Y
2 2 2
u . . y Y

. .
un yn Yn
.Y teniendo en cuenta la definicin de Y :

u1 y1 b0 b1 x1,1 b2 x2,1 b3 x3,1 ... bk xk ,1


u y b b x b x b x ... b x
k
k ,2
2 2 0 1 1,2 2 2,2 3 3,2
yi Yi
.
u .

.
un yn b0 b1 x1,n b2 x2, n b3 x3, n ... bk xk ,n
.Por tanto:

y1 1 x1,1
y 1 x
1,2
2

u .

.
yn 1 x1,n

.
.
.
.

.
.

xk ,1 b0
xk ,2 b1

. y xb

.
xk ,n bk

.La varianza se pude expresar como:

n 2 U 2 u u ( y x b) ( y x b)
.Es decir:
n

(y Y )
i 1

u u f (b)

.La varianza residual es una funcin del vector de parmetros b y la condicin para que tenga un
mnimo ser:
9

UNIVERSIDAD NACIONAL DE INGENIERIA

f (b)
0
b
.Para hacer ms sencilla la derivacin desarrollemos la expresin de la varianza residual:

u u f (b) ( y x b) ( y x b) y y y x b b x y b x x b

f (b) ( y x b) ( y x b)

2 x y 2 x x b
b
b

.Igualando a cero y despejando:

x y x x b
.Y se x x es matriz no singular y por lo tanto tiene inversa, tenemos:

x y x x b
1

.Multiplicando por ( x x ) :

( x x) 1 ( x y ) ( x x) 1 ( x x) b
( x x) 1 ( x y ) b
b ( x x) 1 ( x y )
Esta expresin del estimador de parmetros b .

2.3. BONDAD DE AJUSTE:


2.3.1. CONTRASTE DE REGRESIN:
Para proponer un modelo (ajuste) que explique el comportamiento de una variable dependiente
respecto de sus variables explicativas, como ya hemos visto, se realiza un estudio con pruebas
experimentales (datos de medicin), es decir, estamos sacando conclusiones de una muestra de
un conjunto amplio de datos. Es obvio que distintas muestras van a dar distintos valores de los
parmetros.
Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea
nulo, es decir que el valor de la variable explicativa (x) no van a influir de manera significativa en la
variable y. Teniendo en cuenta el modelo de regresin lineal simple, lo anterior sera equivalente a
afirmar que:

a1 0
10

UNIVERSIDAD NACIONAL DE INGENIERIA


Si esto es cierto, se sigue que:

Y a0 a1 x
Y a0 (0) x
Y a0 a0 Y
Es decir, la medida de la magnitud x no va a proporcionar informacin sobre el comportamiento
de y.
Para aceptar o descartar la posibilidad de nulidad se hace un estudio de la variabilidad (VT), en la
que esta se divide en dos componentes, una componente explicada por el modelo de regresin
(VE) y otra componente no explicada (VNE).
La siguiente igualdad es conocida como el teorema fundamental de la descomposicin de la suma
de cuadrados:

( y y ) (Y y ) ( y Y )
2

VT VE VNE
y

.
.

yi

VNE
Yi
VT

Yprom

..

VE

.
x

xi

2.

Dividiendo la variabilidad total entre sus grados de libertad, obtenemos la varianza estimada de la
variable dependiente:

S y2

VT
n 1

11

UNIVERSIDAD NACIONAL DE INGENIERIA


Dividiendo la variabilidad no explicada entre sus grados de libertad, obtenemos la varianza
residual de la variable dependiente:

S R2

VNE
n2

Dividiendo la varianza explicada entre sus grados de libertad, obtenemos estimador de la varianza
explicada:
2
SVE

VE
2 1

Fuentes

Suma de
cuadrados

Grados de
libertad

VT

( y y)

n 1

VE

(Y y )

2 1

VNE

( y Y )

n2

Estimadores

VT
n 1
VNE
S R2
n2
VE
2
SVE

2 1
S y2

Si los residuos siguen una distribucin normal y b 0 , tenemos que:

VT

n21

VE

12

VNE

n2 2

Por tanto:

VE 1

VNE n 2

VE
F1,n 2
S R2

Es decir, el cociente entre la varianza explicada y la no explicada ser aproximadamente 1.


Adems, al seguir una distribucin F, podemos asignar una medida de probabilidad (p-value) a la
hiptesis de que la varianza explicada es igual a la varianza no explicada.
En caso contrario la varianza no explicada ser muy inferior a la varianza explicada y, por lo tanto
este cociente tendr un valor muy superior a 1.
En general, si p-value es menor que 0.05 se acepta que el modelo de regresin es significativo; en
caso contrario no podemos hablar de regresin pues el modelo sera nulo.
Si aceptamos que el modelo de regresin es significativo, es habitual indicar el p-value como dato
adicional del ajuste.
12

UNIVERSIDAD NACIONAL DE INGENIERIA

2.3.2. COEFICIENTE DE DETERMINACIN (R2):


La varianza residual nos puede indicar como estn de cerca las estimaciones respecto de los
puntos, pero esta varianza est influida por la varianza de la variable dependiente, la cual a su vez
est influida por su unidad de medida. Por lo tanto, una medida adecuada es la proporcin de la
varianza explicada (VE) entre la varianza total (VT); as definimos el coeficiente de determinacin
R2:

VT VE VNE
VT VE VNE
VE VNE
VE
VNE

1
VT VT VT
VT VT
VT
VT

R2

VE VT VNE
VNE

1
VT
VT
VT

Como R2 es el cociente de sumas de cuadrados es siempre positivo.


Si la regresin sera perfecta, la varianza no explicada ser cero, y por lo tanto:

R2

VE
(0)
1
1
VT
VT

3. APLICACION DE LA REGRESION LINEAL A LA INGENIERIA QUMICA.La aplicacin del presente tema de estudio en la carrera de Ingeniera Qumica es muy basto, por
ejemplo para hallar la concentracin de un elemento que es uno de los parmetros de mayor
importancia en los procesos qumicos aplicados en la industria. Esta cuantificacin se puede
obtener mediante un espectrofotmetro, dispositivo que requiere se calibrado. Para ello se
elabora una recta de calibracin que se obtiene a partir de la correlacin entre la absorbancia de
un patrn y la concentracin de la sustancia a controlar, tambin se puede utilizar en la evaluacin
de las constantes en un modelo de promedio de crecimiento de saturacin que caracteriza a la
cintica microbial, entre otros muchos ejemplos por eso a continuacin se explicarn 2 ejemplos
con RLS y RLM:

13

UNIVERSIDAD NACIONAL DE INGENIERIA

3.1. PROBLEMA DE REGRESION LINEAL SIMPLE:

14

UNIVERSIDAD NACIONAL DE INGENIERIA

15

UNIVERSIDAD NACIONAL DE INGENIERIA

16

UNIVERSIDAD NACIONAL DE INGENIERIA

3.2. PROBLEMA DE REGRESION LINEAL MULTIPLE:


3.

17

UNIVERSIDAD NACIONAL DE INGENIERIA

4. CONCLUSIONES.

Ghgfh

18

UNIVERSIDAD NACIONAL DE INGENIERIA

5. BIBLIOGRAFIA.

Repositorio Institucional de la Universidad de Alicante. Artculo sobre Problemas aplicados


a la ingeniera qumica. Alicante, Espaa. Consultado el 15/11/2014.
http://rua.ua.es/dspace/bitstream/10045/16373/9/Microsoft%20Word%20%209.PROBLEMAS%20APLICADOS%20A%20LA%20INGENIERIA%20QUIMICA.pdf

Universidad Politcnica de Cartagena. Departamento de ingeniera minera geolgica y


cartogrfica. Artculo sobre Aplicacin de la difraccin de rayos X. Cartagena, Murcia,
Espaa. Consultado el 15/11/2014.
http://www.upct.es/~dimgc/webjoseperez/DOCENCIA_archivos/Aplicaciones_DRX_Apunt
es_y_ejercicios.pdf

Universidad de Salamanca. Proyecto Studii Salamantini. Curso de Anlisis aplicado a la


Ingeniera Qumica. 2008-09. Tema 1 Introduccin a los mtodos instrumentales de
anlisis. Salamanca, Espaa. Consultado el 15/11/2014. Disponible en:
http://ocw.usal.es/ciencias-experimentales/analisis-aplicado-a-la-ingenieriaquimica/contenidos/course_files/Tema_1.pdf

ngeles Cea DAncona. Departamento de Sociologa IV, Universidad Complutense Madrid.


Artculo sobre Anlisis de regresin lineal. Madrid, Espaa. Consultado el 15/11/2014.
Disponible en:
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales
/analisis_datosyMultivariable/18reglin_SPSS.pdf

Profesor F.J. Barn Lpez. Universidad de Mlaga. Unidad docente, Matemtica aplicada y
estadstica. Artculo sobre Regresin lineal. Mlaga, Espaa. Consultado el 15/11/2014.
Disponible en:
http://matap.dmae.upm.es/WebpersonalBartolo/Probabilidad/15_RegresionLineal.pdf

19