Regresión Lineal

UNIVERSIDAD NACIONAL DE INGENIERIA

FACULTAD DE INGENIERIA QUIMICA Y TEXTIL
AREA ACADEMICA DE INGENIERIA QUIMICA
TEMA: REGRESIN LINEAL APLICADA A LA INGENIERA

QUMICA
CURSO: CLCULOS EN INGENIERA QUMICA (PI523-A).
PROFESOR: JOS DVILA TAPIA.
ALUMNOS:
ROSARIO LIZ VILLENA ARANCIBIA.
JOSE LUIS RICARDO ARTEAGA OROSCO.
LUIS STEVEN SATISTEBAN OBREGON.
FECHA DE ENTREGA Y EXPOSICIN: 6/12/14
NDICE
1. INTRODUCCIN
2. FUNDAMENTO TERICO
2.1. REGRESIN LINEAL SIMPLE
2.1.1. LA MEJOR RECTA DE REGRESIN
2.1.2. ESTIMACIN DE PARAMETROS
2.1.2.1.
MTODO DE MNIMOS CUADRADOS
2.1.2.2.
MTODO DE MXIMA VEROSIMILITUD
2.2. REGRESIN LINEAL MLTIPLE
2.2.1. EL MEJOR HIPERPLANO DE REGRESIN
2.2.2. ESTIMACIN DE PARAMETROS
2.2.2.1.
MTODO DE MNIMOS CUADRADOS
2.3. BONDAD DE AJUSTE
9
10
2.3.1. CONTRASTE DE REGRESIN
10
2.3.2. COEFICIENTE DE DETERMINACIN
13
3. APLICACIN DE LA REGRESIN LINEAL A LA INGENIERA QUMICA
13
3.1. PROBLEMA DE REGRESIN LINEAL SIMPLE
14
3.2. PROBLEMA DE REGRESIN LINEAL MLTIPLE
17
4. CONCLUSIONES
18
5. BIBLIOGRAFA
19
1. INTRODUCCION.Histricamente el nombre de regresin lineal se debe a los estudios de Francis Galton en

biologa. Cuando Galton estudiaba la relacin entre las alturas de los Hijos (Y) con la de sus
padres (X) se dio cuenta que los hijos de padres altos son ms altos que la media pero no
tanto como los padres, y los hijos de padres bajos, en general, son ms bajos que la media
pero no tanto como sus padres, es decir, que la altura de los hijos tiende a regresar a la
media, de ah el nombre de regresin.
Alturas de hijo 85cm 0,5 Altura del padre(aprox.)

La regresin lineal es un mtodo matemtico y estadstico utilizado para modelar la
relacin entre variables.
El modelo de regresin lineal simple consiste en relacionar una variable denominada
dependiente (Y) y otra variable denominada independiente o explicativa (X) a travs de
una recta que toma el nombre de recta de regresin.
Y a0 a1 x1 u
En la regresin lineal mltiple manejaremos ms de una variable explicativa, y al igual que
la regresin lineal simple, vamos a considerar que los valores de la variable dependiente Y
han sido generados de una combinacin lineal de los valores de las variables explicativas:
Y b0 b1 x1 b2 x2 ... bk x1 u
Este mtodo se adapta a una amplia variedad de situaciones. Por ejemplo en el campo de
la Fsica se utiliza para caracterizar la relacin entre variables o para evaluar medidas. En
los laboratorios de Qumica se a menudo se usa una regresin lineal para calibrar los
instrumentos de anlisis cuantitativo. En la investigacin social el anlisis de regresin
lineal se utilizar para predecir fenmenos. En el estudio de mercados para determinar en
qu medio invertir, etc.
2.1.
FUNDAMENTO TEORICO.-
2.1.1. REGRESION LINEAL SIMPLE:

Supongamos que disponemos de un conjunto de datos con informacin sobre 35 marcas de
cerveza y que estamos interesados en estudiar la relacin existente entre el grado de alcohol de
las cervezas y su contenido calrico. Un buen punto de partida para formarnos una primera
impresin de esa relacin podra ser la representacin de la nube de puntos, tal como se muestra
en el diagrama de dispersin:
Se observa que conforme aumenta el porcentaje de alcohol, tambin aumenta el nmero de

caloras. Adems podemos sealar que en esta muestra no hay cervezas que teniendo alto
contenido de alcohol tengan pocas caloras y tampoco que teniendo muchas caloras tengan poco
alcohol. La mayor parte de las cervezas de la muestra se agrupan entre 4.5 y 5% de alcohol.
Para obtener una descripcin ms concreta de los resultados relacionaremos las variables
mediante una funcin matemtica simple, a primera vista una recta puede ser una buena
aproximacin.
2.1.1. LA MEJOR RECTA DE REGRESION:

En una situacin ideal e irreal en la que te todos los punto de un diagrama de dispersin se
encontraran exactamente en una lnea recta no tendramos que preocuparnos de encontrar la
recta que mejor describa el comportamiento de los puntos, simplemente tomando dos puntos
podra aplicarse relaciones matemticas y determinar fcilmente los valores de los parmetros
a0
y a1 obteniendo el mejor ajuste. Pero en una nube de puntos realista como el de nuestro ejemplo
se podra trazar muchas rectas diferentes y cada una se ajustara tambin diferente a la nube de
puntos.
Existen diferentes mtodos para este ajuste cada uno de ellos intenta minimizar una medida
diferente del grado de ajuste, pero el ms usado es el de la recta que hace mnima la suma de los
cuadrados de las diferencias verticales entre cada punto y la recta.
4
2.1.2. ESTIMACION DE PARMETROS:

2.1.2.1. MTODO DE MNIMOS CUADRADOS:
En mnimos cuadrados se estiman los parmetros de la recta que minimice la varianza de la
perturbacin aleatoria o varianza residual, es decir, se buscan unos valores de 0 y 1 de forma

que la distancia de cada punto a la recta de regresin (o valor pronosticado) sea mnimo; esto
equivale a minimizar la varianza residual teniendo en cuenta que la perturbacin es 0.
[ y (Yi )]2
u2
Min i
n
n
2
[ y (a0 a1 x)]
Min i
n
Min( 2 ) Min
Es decir, se calcularn los parmetros de la recta de regresin de forma que dicha recta pase lo
ms cerca posible (en promedio) de todos los puntos.
Derivando la expresin anterior respecto de los parmetros, igualando a cero y aplicando un poco
de algebra obtenemos las expresiones de la estimacin de cada parmetro.
Derivando respecto de
a0
y a (a1x)
U 2
2 ( yi a0 a1xi ) i o
0
a0
a
0
0
0
U 2
2 ( yi a0 a1xi )(1)
a1
n
i 1
i 1
a0 n a1 xi yi
a1
(1)
y a (a1x)
U 2
2 ( y a0 a1x) i o
0
a1
a1
a1 a1
U 2
2 ( yi a0 a1xi )( xi )
a1
n
i 1
i 1
i 1
a0 xi a1 xi2 xi yi
5
(2)

Resolviendo las ecuaciones 1 y 2 utilizando los datos de las mediciones tomadas, se determinan
los parmetros de la recta de regresin.
2.1.2.2. MTODO DE MXIMA VEROSIMILITUD:

Si consideramos que la perturbacin aleatoria sigue una distribucin normal, podemos aplicar el
mtodo de estimacin de mxima verosimilitud. La funcin de densidad para un caso concreto es:
l (a0 , a1 , 2 , y )
1
1
exp 2 ( y a0 a1 x) 2
2
2
De donde la funcin de soporte de la muestra, es decir, la verosimilitud de la muestra en estudio

es:
l (a0 , a1, 2 , y)
(2 )
exp 2
( y a0 a1x) 2
El logaritmo de la funcin soporte ser:
l (a0 , a1 , 2 , y )
n
n
1 n
log( 2 ) log(2 ) 2 ( yi a0 a1 xi ) 2
2
2
2 i1
Derivando esta expresin respecto de los parmetros 0 y 1 , e igualando a cero, de forma que se
obtenga unos parmetros que maximicen la verosimilitud de la muestra, obtendremos:
a0
:
n
L
2 ( yi a0 a1 xi )(1) 0
a0
i 1
n
i 1
i 1
a0 n a1 xi yi
a1
:
n
L
2 ( yi a0 a1 xi )( xi ) 0
a1
i 1
n
i 1
i 1
i 1
a0 xi a1 xi2 xi yi
Al coincidir estas ecuaciones con las obtenidas por mnimos cuadrados se demuestra que los
parmetros estimados por ambos mtodos van a coincidir.
6
2.2. REGRESION LINEAL MLTIPLE:

En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa lo que nos
significar ms informacin para la construccin del modelo y en consecuencia realizar
estimaciones ms precisas.
Al manejar ms de una variable vamos a considerar que los valores de la variable independiente Y
se generan por una combinacin lineal de los valores de las variables explicativas y un trmino
aleatorio.
Y b0 b1 x1 b2 x2 ... bk x1 u
Los coeficientes se determinarn de manera que la suma de cuadrados entre los valores
observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
La ecuacin mostrada anteriormente recibe el nombre de hiperplano, pues cuando tenemos dos
variables explicativas, en vez de una recta tenemos un plano:
Con tres variables explicativas tendramos un espacio de tres dimensiones y as sucesivamente.

Para hacer menos tedioso el tratamiento de este anlisis utilizaremos un sencillo ejemplo.
Consideremos una muestra de personas como la que sigue a continuacin:
Sexo
1
2
3
4
5
6
7
8
Mujer
Mujer
Mujer
Mujer
Mujer
Mujer
Mujer
Mujer
Estatura
Largo de
rostro
Largo de
pie
Largo de
brazo
Ancho
de
espalda
Dimetro
de
crneo
Peso
X1
X6
X2
X3
X4
X5
158
152
168
159
158
164
156
167
39
38
43
40
41
40
41
44
36
34
39
36
36
36
36
37
68
66
72.5
68.5
68.5
71
67
73
43
40
41
42
44
44.5
36
41.5
55
55
54.5
57
57
54
56
58
43
45
48
49
50
51
52
52
La variable dependiente es el peso, y las variables que vamos a utilizar para predecir el peso
reciben el nombre de variables explicativas: estatura, pie, l_brazo, a_espalda, d_craneo.
De manera que el modelo que deseamos construir es:
peso b0 b1 (estatura) b2 ( pie) b3 (l _ brazo) b4 (a _ espalda) b5 (d _ craneo)

En una situacin ideal e irreal en la que te todos los punto de un diagrama de dispersin se
encontraran exactamente en una lnea recta no tendramos que preocuparnos de encontrar la
recta que mejor describa el comportamiento de los puntos, simplemente tomando dos puntos
podra aplicarse relaciones matemticas y determinar fcilmente los valores de los parmetros
a0
y 1 obteniendo el mejor ajuste. Pero en una nube de puntos realista como el de nuestro ejemplo
se podra trazar muchas rectas diferentes y cada una se ajustara tambin diferente a la nube de
puntos.
Existen diferentes mtodos para este ajuste cada uno de ellos intenta minimizar una medida
diferente del grado de ajuste, pero el ms usado es el de la recta que hace mnima la suma de los
cuadrados de las diferencias verticales entre cada punto y la recta.
2.2.1. EL MEJOR HIPERPLANO DE REGRESIN:

De manera anloga al caso de la regresin lineal simple, en la nube de puntos o grafica de
dispersin para la regresin lineal mltiple se pueden trazar muchos hiperplanos de regresin,
pero debemos elegir un criterio para basndonos en l, determinar el mejor hiperplano de
regresin.
2.2.2. ESTIMACION DE PARMETROS:

2.2.2.1. MTODO DE MNIMOS CUADRADOS:
Calcularemos un hiperplano de regresin de forma que minimice la varianza residual:
Min( 2 ) Min( yi Yi )2
Utilizando notacin matricial:
u1 y1 Y1
u y Y
2 2 2
u . . y Y

. .
un yn Yn
.Y teniendo en cuenta la definicin de Y :
u1 y1 b0 b1 x1,1 b2 x2,1 b3 x3,1 ... bk xk ,1

u y b b x b x b x ... b x
k
k ,2
2 2 0 1 1,2 2 2,2 3 3,2
yi Yi
.
u .
.
un yn b0 b1 x1,n b2 x2, n b3 x3, n ... bk xk ,n
.Por tanto:
y1 1 x1,1
y 1 x
1,2
2
u .

.
yn 1 x1,n
.
.
.
.
.
.
xk ,1 b0
xk ,2 b1

. y xb

.
xk ,n bk
.La varianza se pude expresar como:
n 2 U 2 u u ( y x b) ( y x b)
.Es decir:
n
(y Y )
i 1
u u f (b)
.La varianza residual es una funcin del vector de parmetros b y la condicin para que tenga un
mnimo ser:
9
f (b)
0
b
.Para hacer ms sencilla la derivacin desarrollemos la expresin de la varianza residual:
u u f (b) ( y x b) ( y x b) y y y x b b x y b x x b
f (b) ( y x b) ( y x b)
2 x y 2 x x b
b
b
.Igualando a cero y despejando:
x y x x b
.Y se x x es matriz no singular y por lo tanto tiene inversa, tenemos:
x y x x b
1
.Multiplicando por ( x x ) :
( x x) 1 ( x y ) ( x x) 1 ( x x) b
( x x) 1 ( x y ) b
b ( x x) 1 ( x y )
Esta expresin del estimador de parmetros b .
2.3. BONDAD DE AJUSTE:

2.3.1. CONTRASTE DE REGRESIN:
Para proponer un modelo (ajuste) que explique el comportamiento de una variable dependiente
respecto de sus variables explicativas, como ya hemos visto, se realiza un estudio con pruebas
experimentales (datos de medicin), es decir, estamos sacando conclusiones de una muestra de
un conjunto amplio de datos. Es obvio que distintas muestras van a dar distintos valores de los
parmetros.
Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea
nulo, es decir que el valor de la variable explicativa (x) no van a influir de manera significativa en la
variable y. Teniendo en cuenta el modelo de regresin lineal simple, lo anterior sera equivalente a
afirmar que:
a1 0
10

Si esto es cierto, se sigue que:
Y a0 a1 x
Y a0 (0) x
Y a0 a0 Y
Es decir, la medida de la magnitud x no va a proporcionar informacin sobre el comportamiento
de y.
Para aceptar o descartar la posibilidad de nulidad se hace un estudio de la variabilidad (VT), en la
que esta se divide en dos componentes, una componente explicada por el modelo de regresin
(VE) y otra componente no explicada (VNE).
La siguiente igualdad es conocida como el teorema fundamental de la descomposicin de la suma
de cuadrados:
( y y ) (Y y ) ( y Y )
2
VT VE VNE
y
.
.
yi
VNE
Yi
VT
Yprom
..
VE
.
x
xi
2.
Dividiendo la variabilidad total entre sus grados de libertad, obtenemos la varianza estimada de la
variable dependiente:
S y2
VT
n 1
11

Dividiendo la variabilidad no explicada entre sus grados de libertad, obtenemos la varianza
residual de la variable dependiente:
S R2
VNE
n2
Dividiendo la varianza explicada entre sus grados de libertad, obtenemos estimador de la varianza
explicada:
2
SVE
VE
2 1
Fuentes
Suma de
cuadrados
Grados de
libertad
VT
( y y)
n 1
VE
(Y y )
2 1
VNE
( y Y )
n2
Estimadores
VT
n 1
VNE
S R2
n2
VE
2
SVE
2 1
S y2
Si los residuos siguen una distribucin normal y b 0 , tenemos que:
VT
n21
VE
12
VNE
n2 2
Por tanto:
VE 1
VNE n 2
VE
F1,n 2
S R2
Es decir, el cociente entre la varianza explicada y la no explicada ser aproximadamente 1.

Adems, al seguir una distribucin F, podemos asignar una medida de probabilidad (p-value) a la
hiptesis de que la varianza explicada es igual a la varianza no explicada.
En caso contrario la varianza no explicada ser muy inferior a la varianza explicada y, por lo tanto
este cociente tendr un valor muy superior a 1.
En general, si p-value es menor que 0.05 se acepta que el modelo de regresin es significativo; en
caso contrario no podemos hablar de regresin pues el modelo sera nulo.
Si aceptamos que el modelo de regresin es significativo, es habitual indicar el p-value como dato
adicional del ajuste.
12
2.3.2. COEFICIENTE DE DETERMINACIN (R2):

La varianza residual nos puede indicar como estn de cerca las estimaciones respecto de los
puntos, pero esta varianza est influida por la varianza de la variable dependiente, la cual a su vez
est influida por su unidad de medida. Por lo tanto, una medida adecuada es la proporcin de la
varianza explicada (VE) entre la varianza total (VT); as definimos el coeficiente de determinacin
R2:
VT VE VNE
VT VE VNE
VE VNE
VE
VNE
1
VT VT VT
VT VT
VT
VT
R2
VE VT VNE
VNE
1
VT
VT
VT
Como R2 es el cociente de sumas de cuadrados es siempre positivo.

Si la regresin sera perfecta, la varianza no explicada ser cero, y por lo tanto:
R2
VE
(0)
1
1
VT
VT
3. APLICACION DE LA REGRESION LINEAL A LA INGENIERIA QUMICA.La aplicacin del presente tema de estudio en la carrera de Ingeniera Qumica es muy basto, por
ejemplo para hallar la concentracin de un elemento que es uno de los parmetros de mayor
importancia en los procesos qumicos aplicados en la industria. Esta cuantificacin se puede
obtener mediante un espectrofotmetro, dispositivo que requiere se calibrado. Para ello se
elabora una recta de calibracin que se obtiene a partir de la correlacin entre la absorbancia de
un patrn y la concentracin de la sustancia a controlar, tambin se puede utilizar en la evaluacin
de las constantes en un modelo de promedio de crecimiento de saturacin que caracteriza a la
cintica microbial, entre otros muchos ejemplos por eso a continuacin se explicarn 2 ejemplos
con RLS y RLM:
13
3.1. PROBLEMA DE REGRESION LINEAL SIMPLE:
14
15
16
3.2. PROBLEMA DE REGRESION LINEAL MULTIPLE:

3.
17
4. CONCLUSIONES.
Ghgfh
18
5. BIBLIOGRAFIA.
Repositorio Institucional de la Universidad de Alicante. Artculo sobre Problemas aplicados

a la ingeniera qumica. Alicante, Espaa. Consultado el 15/11/2014.
http://rua.ua.es/dspace/bitstream/10045/16373/9/Microsoft%20Word%20%209.PROBLEMAS%20APLICADOS%20A%20LA%20INGENIERIA%20QUIMICA.pdf
Universidad Politcnica de Cartagena. Departamento de ingeniera minera geolgica y

cartogrfica. Artculo sobre Aplicacin de la difraccin de rayos X. Cartagena, Murcia,
Espaa. Consultado el 15/11/2014.
http://www.upct.es/~dimgc/webjoseperez/DOCENCIA_archivos/Aplicaciones_DRX_Apunt
es_y_ejercicios.pdf
Universidad de Salamanca. Proyecto Studii Salamantini. Curso de Anlisis aplicado a la

Ingeniera Qumica. 2008-09. Tema 1 Introduccin a los mtodos instrumentales de
anlisis. Salamanca, Espaa. Consultado el 15/11/2014. Disponible en:
http://ocw.usal.es/ciencias-experimentales/analisis-aplicado-a-la-ingenieriaquimica/contenidos/course_files/Tema_1.pdf
ngeles Cea DAncona. Departamento de Sociologa IV, Universidad Complutense Madrid.

Artculo sobre Anlisis de regresin lineal. Madrid, Espaa. Consultado el 15/11/2014.
Disponible en:
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales
/analisis_datosyMultivariable/18reglin_SPSS.pdf
Profesor F.J. Barn Lpez. Universidad de Mlaga. Unidad docente, Matemtica aplicada y
estadstica. Artculo sobre Regresin lineal. Mlaga, Espaa. Consultado el 15/11/2014.
Disponible en:
http://matap.dmae.upm.es/WebpersonalBartolo/Probabilidad/15_RegresionLineal.pdf
19

Regresión Lineal

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresión Lineal

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD NACIONAL DE INGENIERIA

UNIVERSIDAD NACIONAL DE INGENIERIA

TEMA: REGRESIN LINEAL APLICADA A LA INGENIERA

ROSARIO LIZ VILLENA ARANCIBIA.

JOSE LUIS RICARDO ARTEAGA OROSCO.

LUIS STEVEN SATISTEBAN OBREGON.

FECHA DE ENTREGA Y EXPOSICIN: 6/12/14

UNIVERSIDAD NACIONAL DE INGENIERIA

2.1. REGRESIN LINEAL SIMPLE

2.1.1. LA MEJOR RECTA DE REGRESIN

2.1.2. ESTIMACIN DE PARAMETROS

MTODO DE MNIMOS CUADRADOS

MTODO DE MXIMA VEROSIMILITUD

2.2. REGRESIN LINEAL MLTIPLE

2.2.1. EL MEJOR HIPERPLANO DE REGRESIN

2.2.2. ESTIMACIN DE PARAMETROS

MTODO DE MNIMOS CUADRADOS

2.3. BONDAD DE AJUSTE

2.3.1. CONTRASTE DE REGRESIN

2.3.2. COEFICIENTE DE DETERMINACIN

3. APLICACIN DE LA REGRESIN LINEAL A LA INGENIERA QUMICA

3.1. PROBLEMA DE REGRESIN LINEAL SIMPLE

3.2. PROBLEMA DE REGRESIN LINEAL MLTIPLE

UNIVERSIDAD NACIONAL DE INGENIERIA

1. INTRODUCCION.Histricamente el nombre de regresin lineal se debe a los estudios de Francis Galton en

Alturas de hijo 85cm 0,5 Altura del padre(aprox.)

UNIVERSIDAD NACIONAL DE INGENIERIA

2.1.1. REGRESION LINEAL SIMPLE:

Se observa que conforme aumenta el porcentaje de alcohol, tambin aumenta el nmero de

2.1.1. LA MEJOR RECTA DE REGRESION:

UNIVERSIDAD NACIONAL DE INGENIERIA

2.1.2. ESTIMACION DE PARMETROS:

perturbacin aleatoria o varianza residual, es decir, se buscan unos valores de 0 y 1 de forma

UNIVERSIDAD NACIONAL DE INGENIERIA

2.1.2.2. MTODO DE MXIMA VEROSIMILITUD:

De donde la funcin de soporte de la muestra, es decir, la verosimilitud de la muestra en estudio

El logaritmo de la funcin soporte ser:

UNIVERSIDAD NACIONAL DE INGENIERIA

2.2. REGRESION LINEAL MLTIPLE:

Con tres variables explicativas tendramos un espacio de tres dimensiones y as sucesivamente.

UNIVERSIDAD NACIONAL DE INGENIERIA

peso b0 b1 (estatura) b2 ( pie) b3 (l _ brazo) b4 (a _ espalda) b5 (d _ craneo)

2.2.1. EL MEJOR HIPERPLANO DE REGRESIN:

UNIVERSIDAD NACIONAL DE INGENIERIA

2.2.2. ESTIMACION DE PARMETROS:

u1 y1 b0 b1 x1,1 b2 x2,1 b3 x3,1 ... bk xk ,1

.La varianza se pude expresar como:

UNIVERSIDAD NACIONAL DE INGENIERIA

.Igualando a cero y despejando:

2.3. BONDAD DE AJUSTE:

UNIVERSIDAD NACIONAL DE INGENIERIA

UNIVERSIDAD NACIONAL DE INGENIERIA

Si los residuos siguen una distribucin normal y b 0 , tenemos que:

Es decir, el cociente entre la varianza explicada y la no explicada ser aproximadamente 1.

UNIVERSIDAD NACIONAL DE INGENIERIA

2.3.2. COEFICIENTE DE DETERMINACIN (R2):

Como R2 es el cociente de sumas de cuadrados es siempre positivo.

UNIVERSIDAD NACIONAL DE INGENIERIA

3.1. PROBLEMA DE REGRESION LINEAL SIMPLE:

UNIVERSIDAD NACIONAL DE INGENIERIA

UNIVERSIDAD NACIONAL DE INGENIERIA

UNIVERSIDAD NACIONAL DE INGENIERIA

3.2. PROBLEMA DE REGRESION LINEAL MULTIPLE: