Académique Documents
Professionnel Documents
Culture Documents
Estadı́stica y Probabilidad
Profesor
Carlos Gaviria.
Facultad de Ingenierı́as.
Área de Formación en Ciencias Básicas.
Universidad de San Buenaventura.
Semestre 2019-2
Elementos Preliminares
Idea General.
Uno de los principales objetivos en álgebra lineal es aprender técnicas que
permiten resolver de manera exacta un sistema de ecuaciones lineales Ax = b,
donde A ∈ Rm×n es una matriz de m filas, n columnas y de entradas en el
conjunto de los números reales R; b ∈ Rm es un vector columna formado por m
números reales y x ∈ Rn es un vector columna formado por n números reales. Sin
embargo, existen sistemas de ecuaciones de la forma Ax = b que no tienen
solución, es decir, los teoremas y técnicas algebraicas que permiten hallar
soluciones exactas no funcionan, es por esta razón que la técnica que se describe es
una técnica que permite resolver sistemas de ecuaciones lineales de la forma
Ax = b que se sabe a priori, no son solubles.
Elementos Preliminares
En la Práctica.
Muchos problemas fı́sicos, quı́micos, económicos, de la administración, de la
ingenierı́a, entre otros, cuyo modelo no necesariamente es lineal, se ven
enfrentados a la estimación de ciertas constantes que dichos modelos involucran.
Bajo el contexto de dichos problemas prácticos, se llevan a cabo ciertas mediciones
de las variables involucradas en el problema y como asociado a cualquier medición
existen errores ya sea por el aparato de medida que se usa o por las limitaciones
del ser humano que lleva a cabo este proceso, se conduce necesariamente a el
planteamiento de un sistema de ecuaciones lineales no soluble que se debe resolver
para poder lograr la estimación de las constantes que definen el modelo que
resuelve el problema en cuestión.
En Resumen.
Existen sistemas de ecuaciones lineales de la forma Ax = b que se pueden resolver
de manera exacta y existen sistemas de ecuaciones lineales que también tiene la
forma Ax = b que no tienen una solución exacta, pero que sin embargo son
susceptibles de usarse para estimar constantes que permiten construir un modelo
matemático que resuelve un problema práctico.
Elementos Preliminares
Teorema.
Sean A ∈ Rm×n y b ∈ Rm . El sistema de ecuaciones lineales Ax = b es soluble si y
sólo si el vector b es una combinación lineal de las columnas de A, es decir, Ax = b
es soluble si y sólo si b ∈ R(A).
Observación.
Si A ∈ Rm×n , entonces el espacio columna de la matriz A, que se denota por
R(A), es el espacio vectorial generado por las columnas de A. En sı́mbolos:
Elementos Preliminares
Ejemplo 1.
Suponga que se lanza un objeto desde un edificio de altura y0 metros con una
velocidad inicial de v0 m
s
. De la cinemática se sabe que la ley que describe el
movimiento del objeto, sin considerar la resistencia del aire, está dada por la
siguiente regla de asignación:
g
y(t) = − t2 − v0 t + y0 ,
2
donde g es la gravedad y y(t) es la posición del objeto en el instante t respecto a la
superficie terrestre. Para estimar las constantes g, v0 y y0 se realiza una serie de
mediciones del tiempo transcurrido t y la posición y(t) correspondiente, dando
lugar a los datos (t1 , y(t1 )), (t2 , y(t2 )), · · · , (tm , y(tm )).
Elementos Preliminares
Ejemplo 1. Continuación.
Al reemplazar estos datos en la ecuación y(t) = − g2 t2 − v0 t + y0 , se obtiene el
siguiente sistema de ecuaciones lineales:
− g2 t21 − v0 t1 + y0 = y(t1 )
− g2 t22 − v0 t2 + y0 = y(t2 )
..
.
− g2 t2m − v0 tm + y0 = y(tm )
Como cada medición involucra un error, lo más probable es que este sistema de
ecuaciones no tenga solución, sin embargo, debe calcularse una estimación de g, v0
y y0 . Podrı́a pensarse que para estimar g, v0 y y0 , bastarı́a con tomar tres de estas
ecuaciones y resolver un sistema de ecuaciones lineales 3 × 3, pero además de
resolver un sistema de ecuaciones lineales que no tiene solución se agrava el
problema al buscar un método que permita elegir las tres ecuaciones entre las m
dadas, que se usen para estimar las constantes g, v0 y y0 . Una metodologı́a
natural serı́a elegir aquellas tres ecuaciones que involucren el menor error en las
mediciones del tiempo versus espacio recorrido y descartar las m − 3 ecuaciones
restantes, sin embargo, esta tarea es más complicada que trabajar con todas las
ecuaciones simultáneamente.
Elementos Preliminares
Ejemplo 1. Continuación.
Dicho en otros términos, resolver este sistema de ecuaciones lineales es equivalente
a hallar constantes C, D y F de manera que la parábola dada por la regla de
asignación:
y = Ct2 + Dt + F,
sea la parábola que mejor se ajusta a la nube de puntos (t1 , y(t1 )), (t2 , y(t2 )), · · · ,
(tm , y(tm )). Si las mediciones no tuvieran error, bastarı́a con tomar tres puntos de
esta nube de puntos y resolver el sistema 3 × 3 resultante. Dicho en otros
términos, si las mediciones no tuvieran error, se tendrı́a un modelo determinı́stico,
sin embargo, como con certeza se involucra un error cuando se toman las
mediciones, entonces lo que se busca es un modelo no determinı́stico.
Elementos Preliminares
Ejemplo 1. Continuación.
Se busca entonces, entre las infinitas parábolas, aquella parábola y = Ct2 + Dt + F
que mejor se ajuste a la nube de puntos (t1 , y(t1 )), (t2 , y(t2 )), · · · , (tm , y(tm )). Un
criterio para hallar esta parábola es hallar la parábola que minimiza la suma de
m
ε2i , donde un error εi está dado por:
P
los cuadrados de los errores E(C, D, F ) =
i=1
εi = y(ti ) − yb(ti ),
con y(ti ) la segunda coordenada del punto (ti , y(ti )) y yb(ti ) = Ct2i + Dti + F .
Elementos Preliminares
Ejemplo 1. Continuación.
Se tiene entonces que el criterio para hallar la parábola y = Ct2 + Dt + F que
mejor se ajuste a la nube de puntos (t1 , y(t1 )), (t2 , y(t2 )), · · · , (tm , y(tm )),
consiste en minimizar la función cuya regla de asignación es:
m
X
E(C, D, F ) = ε2i
i=1
Xm
= (y(ti ) − yb(ti ))2
i=1
Xm
= (y(ti ) − (Ct2i + Dti + F ))2
i=1
Elementos Preliminares
Ejemplo 1. Continuación.
Del cálculo se sabe que para minimizar E se deriva respecto a C, respecto a D y
respecto a F , se iguala a cero y se obtiene el siguiente sistema de ecuaciones
lineales 3 × 3.
m m m m
t2i =
P P P P
F 1+D ti + C yi
i=1 i=1 i=1 i=1
m m m m
t2i + C t3i =
P P P P
F ti + D ti yi
i=1 i=1 i=1 i=1
m m m m
t2i + D t3i + C t4i = t2i yi
P P P P
F
i=1 i=1 i=1 i=1
Elementos Preliminares
Ejemplo 1. Continuación.
La forma matricial de este sistema de ecuaciones lineales es el siguiente:
m m m m
2
P P P P
i=1 1 i=1 ti i=1 ti i=1 yi
m m m
F m
2 3
P P P P
i=1 ti i=1 ti i=1 ti D = i=1 ti yi
m m
P 2 P 3 P 4 m
C m
P 2
ti ti ti ti yi
i=1 i=1 i=1 i=1
m m m
t2i
P P P
i=1 1 i=1
ti
i=1
m m m
F
t2i 3
P
ti ∈ R3×3 , x = D ∈ R3 y
P P
i=1 ti
En este caso se tiene que A =
m i=1 i=1 C
P 2 m m
t3i t4i
P P
ti
m i=1 i=1 i=1
P
i=1 yi
m
P 3
b= i=1 ti yi ∈ R .
m
P 2
ti yi
i=1
Carlos Gaviria Estadı́stica y Probabilidad
Regresión Lineal Simple
Regresión Lineal. Mı́nimos Cuadrados Lineales.
Regresión Polinomial.
Regresión Lineal Múltiple
Regresión con Variables Transformadas
Elementos Preliminares
Observación.
Si Ax = b no es soluble, entonces b ∈ / R(A). El objetivo entonces es encontrar un
vector b1 ∈ R(A) tal que el sistema Ax = b1 sea soluble y además b1 sea el vector
del espacio vectorial R(A) más cercano a b en términos de la distancia Euclı́dea.
El único vector que satisface estas dos condiciones es la proyección ortogonal del
vector b sobre el espacio vectorial R(A), esto se formaliza en el siguiente teorema.
Teorema.
Sean A ∈ Rm×n y b ∈ Rm . La proyección vectorial de b sobre el espacio columna
de A, es el único vector de R(A) que tiene la propiedad de que su distancia a b es
menor que la distancia de b a cualquier otro vector de R(A).
Elementos Preliminares
E(x) = kb − Axk,
Observación.
1 El mı́nimo valor que toma la función E de la definición es kb − pk y este valor
de E se alcanza en cada uno de los puntos x0 ∈ Rn tales que Ax0 = p. En
otros términos, E alcanza su mı́nimo valor kb − pk en x0 si y sólo si x0 es
solución de Ax = p.
2 Se dice que toda solución del sistema de ecuaciones lineales Ax = p es
solución en términos de mı́nimos cuadrados del sistema de ecuaciones lineales
Ax = b. La estrategia que consiste en hallar todos los puntos x0 donde la
función error E alcanza su mı́nimo valor se conoce con el nombre de método
de los mı́nimos cuadrados.
Elementos Preliminares
Observación.
Resolver el sistema de ecuaciones lineales Ax = p no es tarea fácil, pues el cálculo
de la proyección vectorial p = proyR(A) b requiere el cálculo de las bases para
R(A) y R(A)⊥ y luego descomponer a b como b = b + (b − p) con p ∈ R(A) y
(b − p) ∈ R(A)⊥ , lo que implica resolver un sistema de m ecuaciones lineales con
m incógnitas. Es por esta razón que se debe buscar otro camino para resolver el
problema. El siguiente teorema proporciona dicho camino.
Teorema
Sean A ∈ Rm×n , b ∈ Rm y p = proyR(A) b. x0 es solución del sistema de
ecuaciones lineales Ax = p si y sólo si x0 es solución del sistema de ecuaciones
lineales AT Ax = AT b.
Observación.
El sistema de ecuaciones lineales AT Ax = AT b recibe el nombre de sistema de
ecuaciones normales asociado al sistema de ecuaciones lineales Ax = b.
Elementos Preliminares
Teorema.
Para toda matriz A ∈ Rm×n se verifica:
1 AT A es simétrica.
2 El rango de AT A es igual a el rango de A.
3 Si las columnas de A son linealmente independientes, entonces la matriz AT A
es invertible.
Elementos Preliminares
Ejemplo 2.
Considere el ejemplo 1, donde el sistema de ecuaciones lineales no soluble
− g2 t21 − v0 t1 + y0 = y(t1 )
− g2 t22 − v0 t2 + y0 = y(t2 )
..
.
− g2 t2m − v0 tm + y0 = y(tm )
Elementos Preliminares
Ejemplo 2. Continuación.
Ahora, el sistema de ecuaciones normales asociado al sistema de ecuaciones
lineales Ax = b es el siguiente:
m m m m
2
P P P P
i=1 1 i=1 ti i=1 ti g i=1 yi
m m m
− m
2
2 3
P P P P
i=1 ti i=1 ti i=1 ti −v0 = i=1 ti yi
m m
P 2 P 3 P 4 m
y 0
m
P 2
ti ti ti ti yi
i=1 i=1 i=1 i=1
Observación.
Note que se llegó al mismo sistema de ecuaciones normales a partir de la derivada
(como en el ejemplo 1) y a partir del teorema anterior.
Elementos Preliminares
Ejemplo 3.
Suponga que se lanza un objeto hacia arriba desde un edificio de altura y0 metros
con una velocidad inicial de v0 m
s
. De la cinemática se sabe que la ley que describe
el movimiento del objeto, sin considerar la resistencia del aire, está dada por la
siguiente regla de asignación:
g
y(t) = − t2 + v0 t + y0 ,
2
donde g es la gravedad y y(t) es la posición del objeto en el instante t respecto a la
superficie terrestre. Suponga que se han hecho las siguientes mediciones:
t(s) 1 2 3 3.5 4
Elementos Preliminares
Ejemplo 3. Continuación.
Al reemplazar estos datos en la regla de asignación y(t) = − g2 t2 + v0 t + y0 se
obtiene el siguiente sistema de ecuaciones lineales:
− g2 + v0 + y0 = 80.12
4 − g2 + 2v0 + y0 = 70.45
9 − g2 + 3v0 + y0 = 50.89
12.5 − g2 + 3.5v0 + y0 = 37.40
16 − g2 + 4v0 + y0 = 21.57
1 1 1 80.12
1 − g2
4 2 70.45
9 3 1 v0 = 50.89
12.5 3.5 1 y0 37.40
16 4 1 21.57
Elementos Preliminares
Ejemplo 3. Continuación.
A partir de la multiplicación matricial se sigue que:
1 1 1
1 4 9 12.5 16 4 2 1 510.25 143.75 42.5
T
1 A A = 1 2 3 3.5 4 9
3 1 = 143.75
42.25 13.5.
1 1 1 1 1 12.5 3.5 1 42.50 13.50 5.0
16 4 1
80.12
1 4 9 12.5 16 70.45 1632.55
AT b = 1 2 3 3.5 4 50.89 = 590.87 .
2
1 1 1 1 1 37.40 260.43
21.57
Elementos Preliminares
Ejemplo 3. Continuación.
Esto es, g = 9.825 sm2 , v0 = 5.201983 m
s
y y0 = 79.796897. Por lo tanto, la parábola
que mejor se ajusta a estos datos es la parábola cuya regla de asignación es:
0.03362069
−0.10086207
b − Ax0 = −0.30034483 ,
0.80241379
−0.43482759
de donde: kb − Ax0 k = 0.934453448.
Idea General.
Suponga que se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) tales que tanto las primeras coordenadas xi para i = 1, 2 · · · , m y las
segundas coordenadas yi para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la lı́nea recta que está representada por la regla de
asignación y = β0 + β1 x y que mejor se ajusta a estos datos. A partir de la nube
de puntos (x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y la regla de asignación y = β0 + β1 x se
obtiene el siguiente sistema de ecuaciones lineales:
β 0 + β 1 x1 = y1
β 0 + β 1 x2 = y2
..
.
β 0 + β 1 xm = ym
Cuya forma matricial Ax = b está dada por:
1 x1 y1
1 x2 y2
β0
. .. β = .. .
.. . 1 .
1 xm ym
Observación.
Recuerde que el objetivo es estimar β0 y β1 de manera que la recta y = β0 + β1 x
sea la recta que mejor se ajuste a los datos (x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y que
esto se logra resolviendo el sistema de ecuaciones lineales AT Ax = AT b.
Observación
Note que:
1 x1
m
P
1 x2 m xi
1 1 ... 1 i=1
1 AT A = . . = m m
.
x1 x2 . . . xn . ..
x2i
P P
. xi
1 xm i=1 i=1
y1
Pm
y2 yi
1 1 ... 1 i=1
AT b = = m .
. . . xn .. P
2
x1 x2
. xi yi
ym i=1
Dado que esta matriz es escalonada se sigue que la estimación βb1 de β1 está dada
por:
m
P m
P
m xi yi
i=1 i=1
P
xi yi − m
i=1
βb1 = !2
m
P
m xi
i=1
x2i −
P
m
i=1
m
P
(xi − x)(yi − y)
i=1
= m
(xi − x)2
P
i=1
Ejemplo 4.
Suponga que se tiene un resorte de longitud natural ` y constante κ de elasticidad.
Según la ley de Hooke, el alargamiento del resorte es directamente proporcional al
modulo de la fuerza que se le aplique, es decir, la fuerza F que hay que aplicarle al
resorte para deformarlo una longitud x está dado por F = κx. Si L es la longitud
total alcanzada por el resorte cuando se deforma una longitud x, entonces
L = ` + x, luego F = κ(L − `), esto es:
1
L = ` + γF, γ = .
κ
Suponga que se han hecho las siguientes mediciones:
Ejemplo 4. Continuación.
Si se reemplazan estos datos en la ecuación L = ` + γF , se obtiene el siguiente
sistema de ecuaciones lineales:
` + 39.21γ = 0.415
` + 44.35γ = 0.417
` + 57.42γ = 0.422
` + 65.21γ = 0.425
` + 78.32γ = 0.430
` + 80.35γ = 0.431
` + 84.53γ = 0.432
El cual no es soluble.
1 39.21 0.415
1 44.35 0.417
1 57.42 0.422
`
1 65.21 = 0.425 .
γ
1 78.32 0.430
1 80.35 0.431
1 84.53 0.432
Carlos Gaviria Estadı́stica y Probabilidad
Regresión Lineal Simple
Regresión Lineal. Mı́nimos Cuadrados Lineales.
Regresión Polinomial.
Regresión Lineal Múltiple
Regresión con Variables Transformadas
Se tiene que:
1 39.21
1 44.35
1
57.42
1 1 1 1 1 1 1
AT A = 1 65.21 =
1
39.21 44.35 57.42 65.21 78.32 80.35 84.53
1 78.32
1 80.35
1 84.53
7.00 449.39
.
449.39 30789.21
0.415
0.417
0.422
1 1 1 1 1 1 1
AT b = 0.425 =
2
39.21 44.35 57.42 65.21 78.32 80.35 84.53
0.430
0.431
0.432
2.972 191.537 .
39.21 −24.98857
44.35 −19.84857
57.42 −6.77857
Si F = 65.21, entonces F = 64.19857 y además F − F 7×1 = 1.01143 ,
3
78.32 14.12143
80.35 16.15143
84.53 20.33143
donde F 7×1 ∈ R7 es un vector columna tal que cada una de sus componentes
es F .
0.415 −0.0095714
0.417 −0.0075714
0.422 −0.0025714
Si L = 0.425, entonces L = 0.4245714, además L − L7×1 = 0.0004286 ,
4
0.430 0.0054286
0.431 0.0064286
0.432 0.0074286
donde L7×1 ∈ R7 es un vector columna tal que cada una de sus componentes
es L.
Ejemplo 4. Continuación.
De esta manera, la estimación de γ está dada por:
`b = L − γ
bF
= 0.4245714 − 64.19857 × 0.0003810414
= 0.4001091
Ejemplo 4. Continuación.
De esta manera, la solución x0 del sistema
Ax = b en términos
de los mı́nimos
`b 0.4001091
cuadrados lineales está dada por x0 = = . Además, el error es:
γ
b 0.0003810414
kb − Ax0 k = 0.0004283436.
por último, la estimación de la constante de elasticidad κ está dada por:
1
κ
b=
γ
b
1
=
0.0003810414
N
= 2624.387
m
Ejemplo 5.
Se determinaron valores del modulo de elasticidad (M OE, la relación de esfuerzo:
esto es, fuerza por unidad de área a deformación por unidad de longitud, en GP a)
y resistencia a la flexión (una medida de la capacidad para resistir la falla en la
flexión en M P a) con una muestra de vigas de concreto de cierto tipo y se
obtuvieron los siguientes datos (tomados de una gráfica que aparece en el artı́culo
Effects of Aggregates and Microfillers on the Flexural Properties of Concrete)
Ejemplo 5. Continuación
Se tiene que:
1 AT A =
27.0 1217.90
.
1217.9 59512.81
2 AT b =
219.8
.
10406.5
Por lo tanto la recta que mejor se ajusta a estos datos está dada por la regla de
asignación:
y = 3.2925001 + 0.1074821x.
Por último, el error es:
kb − Ax0 k = 4.328464
Regresión Polinomial
Idea General.
Suponga que se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) tales que tanto las primeras coordenadas xi para i = 1, 2 · · · , m y las
segundas coordenadas yi para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar el polinomio que está representado por la regla de
asignación y = β0 + β1 x + β2 x2 + · · · βk xk y que mejor se ajusta a estos datos. A
partir de la nube de puntos y la regla de asignación se obtiene el siguiente sistema
de ecuaciones lineales:
β0 + β1 x1 + β2 x21 + · · · βk xk1 = y1
β0 + β1 x2 + β2 x22 + · · · βk xk2 = y2
..
.
β0 + β1 xm + β2 x2m + · · · βk xkm = ym
Donde la forma matricial Ax = b asociada a este sistema está dada por:
Regresión Polinomial
Observación.
El objetivo es estimar β0 , β1 , · · · , βk de manera que el polinomio dado por
y = β0 + β1 x + β2 x2 + · · · βk xk sea el polinomio que mejor se ajuste a los datos
(x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y de nuevo, esto se logra resolviendo el sistema de
ecuaciones lineales AT Ax = AT b.
Regresión Polinomial
Observación.
Se tiene que:
Regresión Polinomial
Observación.
Se tiene que:
1 1 ··· 1
x2 xk
1 x1 1 ··· 1
x1 x2 ··· xm
x2 ··· xk
2 2 x2 1 x2
x
1 x 2 ··· m 2 2
1 AT A =
=
. . . .
. . . . .
. . . . . . . . .
.
. . . . . .
. .
2 ··· k
xk1 xk2 ··· xkm
1 xm xm xm
m m m
x2 xk
P P P
m xi i ··· i
i=1 i=1 i=1
m m m m
2 k+1
P x x3
P P P
i x i i ··· x
i=1 i
i=1 i=1 i=1
.
. . . . .
. . . . .
. . . . .
m m m m
k+1 k+2
xk 2k
P P P P
i x x ··· xi
i i
i=1 i=1 i=1 i=1
Regresión Polinomial
Observación.
Se tiene que:
1 1 ··· 1
x2 xk
1 x1 1 ··· 1
x1 x2 ··· xm
x2 ··· xk
2 2 x2 1 x2
x
1 x 2 ··· m 2 2
1 AT A =
=
. . . .
. . . . .
. . . . . . . . .
.
. . . . . .
. .
2 ··· k
xk1 xk2 ··· xkm
1 xm xm xm
m m m
x2 xk
P P P
m xi i ··· i
i=1 i=1 i=1
m m m m
2 k+1
P x x3
P P P
i x i i ··· x
i=1 i
i=1 i=1 i=1
.
. . . . .
. . . . .
. . . . .
m m m m
k+1 k+2
xk 2k
P P P P
i x x ··· xi
i i
i=1 i=1 i=1 i=1
m P
yi
i=1
1 1 ··· 1
m
P x y
x1 x2 ··· xm y1 i i
i=1
2
x x2 ··· x2
y2 m
1 2 m P 2y
2 AT b = . = x i i .
. . . . . i=1
. . . .
.
.
.
. . .
ym
.
xk xk ··· xk
1 2 m
m .
P k
xi yi
i=1
Regresión Polinomial
Observación.
βb0
βb
1
Para calcular x0 =
.. se debe escalonar la matriz ampliada:
.
βbk
m m m .. m
2 k
P P P P
m xi xi ··· xi . yi
i=1 i=1 i=1 i=1
m
P m m m .. m
k+1
x2i x3i
P P P P
xi ··· xi . xi yi
i=1 i=1 i=1 i=1 i=1
. .. .. .. ..
.. ..
. . . . .
m m m m .
. m
xk+1 xk+2
P k
x2k xki yi
P P P P
xi i i ··· i .
i=1 i=1 i=1 i=1 i=1
Como en el caso de la regresión lineal simple el error está dado por kb − Ax0 k.
Regresión Polinomial
Ejemplo 6.
Considere de nuevo el ejemplo 5. A continuación se ajustarán los datos de M OE
versus resistencia a una parábola cuya regla de asignación está dada por
y = β0 + β1 x + β2 x2 . Se tiene que:
27.00 1217.90 59512.81
1 AT A = 1217.90 59512.81 3188962.46 .
59512.81 3188962.46 187668558.61
219.8
T
2 A b = 10406.5 .
537801.6
Regresión Polinomial
Ejemplo 6. Continuación
Por lo tanto, la parábola que mejor se ajusta a los datos está dada por la regla de
asignación y = 0.453730799 + 0.220525198x − 0.001025466x2 . Por último, el error
es kb − Ax0 k = 4.220408.
Observación.
Ahora, estos datos también se pueden ajustar a un polinomio cúbico cuya regla de
asignación está dada por y = β0 + β1 x + β2 x2 + β3 x3 . En efecto, se tiene que:
5.951281 × 104
27.00 1217.90 3188962
1 AT A =
1217.90 59512.81 3.188962 × 106 187668559 .
59512.81 3188962.46 1.876686 × 108 12002355152
3188962.46 187668558.61 1.200236 × 10 10 819518417625
219.8
10406.5
2 AT b =
537801.6 .
30514158.3
Regresión Polinomial
Ejemplo 6. Continuación
La solución del sistema de ecuaciones AT Ax = AT b en términos de los mı́nimos
cuadrados es:
1.111621 × 101
βb0
−1
−4.344660 × 10
β
b
x0 = b1 = ,
β2 1.176762 × 10−2
−7.887391 × 10−5
βb3
Ası́, el polinomio de grado tres que mejor se ajusta a los datos es:
Regresión Polinomial
Ejemplo 7.
Varios estudios han demostrado que los lı́quenes (ciertas plantas compuestas de un
alga y un hongo) son excelentes bioindicadores de la contaminación del aire. El
artı́culo The Epiphytic Lichen Hypogymnia Physodes as a Biomonitor of
Atmospheric Nitrogen and Sulphur Deposition in Norway (Envir. Monitoring and
Assessment, 1993 : 27 − 47) da los siguientes datos (tomados de una gráfica) sobre
x: Deposición de x = N O3− en húmedo (gN/m2 ) y y: N de liquen ( % de peso en
seco):
Regresión Polinomial
Ejemplo 7. Continuación.
A continuación se halla la recta de regla de asignación y = β0 + β1 x que mejor se
ajusta a estos datos. Recuerde que con los datos dados se obtiene un sistema de
ecuaciones lineales cuya forma matricial es Ax = b donde A ∈ R13×2 , x ∈ R2 y
b ∈ R13 , el cual no tiene solución y por tanto se busca la solución del sistema de
ecuaciones normales AT Ax = AT b en términos de los mı́nimos cuadrados. se tiene
que:
1 AT A =
13.0000 5.9200
.
5.9200 3.8114
2 AT b =
10.4700
.
5.8464
Regresión Polinomial
Ejemplo 7. Continuación.
A continuación se halla la parábola cuya gráfica está dada por la regla de
asignación y = β0 + β1 x + β2 x2 que mejor se ajusta a estos datos. Se tiene que:
13.000000 5.920000 3.811400
1 AT A = 5.920000 3.811400 2.764522.
3.811400 2.764522 2.122728
10.470000
2 AT b = 5.846400 .
4.135162
Regresión Polinomial
Ejemplo 7. Continuación.
A continuación se halla el polinomio cúbico dado por la regla de asignación
y = β0 + β1 x + β2 x2 + β3 x3 que mejor se ajusta a estos datos. Note que:
13.000000 5.920000 3.811400 2.764522
5.920000 3.811400 2.764522 2.122728
1 AT A = .
3.811400 2.764522 2.122728 1.689434
2.764522 2.122728 1.689434 1.379590
10.470000
5.846400
2 AT b =
4.135162 .
3.178735
Regresión Polinomial
Ejemplo 7. Continuación.
A continuación se halla el polinomio de grado 4 dado por la regla de asignación
y = β0 + β1 x + β2 x2 + β3 x3 + β4 x4 que mejor se ajusta a estos datos. Se tiene en
este caso que:
13.000000 5.920000 3.811400 2.764522 2.1227279
5.920000 3.811400 2.764522 2.122728 1.6894341
1 AT A = 3.811400 2.764522 2.122728 1.689434 1.3795904.
2.764522 2.122728 1.689434 1.379590 1.1489678
2.122728 1.689434 1.379590 1.148968 0.9719992
10,470000
5.846400
2 AT b = 4.135162
3.178735
2.552748
Regresión Polinomial
Recuerde que este mismo conjunto de datos se puede ajustar a diferentes curvas.
A continuación se muestran los errores al ajustar los datos a polinomios de grados
superiores.
Grado del Polinomio 5 6 7 8 9
Cuadro: Errores por Ajuste Mediante el Uso de los Mı́nimos Cuadrados del ejemplo 7
Idea General.
Existen modelos que no tienen la forma del modelo de regresión lineal simple
y = β0 + β1 x, sin embargo, mediante alguna transformación matemática se pueden
llevar a esta forma. A continuación se estudian este tipo de modelos y se verá que
la forma en que se hacen las estimaciones es la misma forma en que se hicieron las
estimaciones para un modelo de regresión lineal simple.
Definición.
Una función que relaciona la variable y con la variable x es intrı́nsecamente lineal
si por medio de una transformación de x y/o y, la función se puede expresar como
y 0 = β0 + β1 x0 , donde x0 y y 0 son las transformaciones de la variables x e y,
respectivamente.
x0 = x, y 0 = ln(y), β0 = ln(α), β1 = β.
3 Si y = α + β x1 , entonces:
1 0
x0 = , y = y, β0 = α, β1 = β.
x
4 Si y = α + β ln(x), entonces:
x0 = ln(x), y 0 = y, β0 = α, β1 = β.
Idea General.
En este caso se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) tales que tanto las primeras coordenadas xi para i = 1, 2 · · · , m y las
segundas coordenadas yi > 0 para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la curva exponencial que está representada por la
regla de asignación y = αeβx y que mejor se ajusta a estos datos. Como se dijo
arriba se hace la transformación x0 = x, y 0 = ln(y), β0 = ln(α), β1 = β, dando lugar
al modelo lineal y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ),
· · · , (xm , ym ) y la regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente
sistema de ecuaciones lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0
Idea General.
Cuya forma matricial Ax = b está dada por:
x01
0
1 y1
1 x2 0 y20
β0
. .. β = .. ,
.. . 1 .
1 x0m ym0
Idea General.
Con base en las estimaciones logradas en la sub-sección de regresión lineal simple,
se sigue que:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P
(xi − x) ln(yi ) − ln(y)
i=1
= m
(xi − x)2
P
i=1
βb0 = y 0 − βb1 x0
= ln(y) − βb1 x
Observación.
" # " βb #
βb0 α e 0
Se tiene entonces que x00 =
b
, luego x 0 = = . Además el error está
βb1 βb βb1
dado por kb − Ax00 k.
Ejemplo 8.
Considere nuevamente el ejemplo 5 donde se determinaron valores del módulo de
elasticidad (M OE, la relación de esfuerzo: esto es, fuerza por unidad de área a
deformación por unidad de longitud, en GP a) y resistencia a la flexión (una
medida de la capacidad para resistir la falla en la flexión en M P a) con una
muestra de vigas de concreto de cierto tipo.
Ejemplo 8. Continuación.
Se tiene que:
1 AT A =
27.00 1217.90
.
1217.90 59512.81
2 AT b =
56.1176
.
2586.8180
Ejemplo 8. Continuación.
Ahora, la solución x0 , que se calcula a partir de x00 , está dada por:
" βb #
αb e 0 4.624737
x0 = b = = .
β βb1 0.01212684
Por lo tanto, la curva exponencial que mejor se ajusta a estos datos está dada por
la regla de asignación:
y = 4.624737 exp{0.01212684x}.
Observación.
Note que el error mejora mucho al usar el modelo exponencial en comparación con
el modelo lineal simple, es por esta razón que se prefiere el modelo exponencial.
Idea General.
En este caso se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) tales que tanto las primeras coordenadas xi > 0 para i = 1, 2 · · · , m y las
segundas coordenadas yi > 0 para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la curva potencial que está representada por la
regla de asignación y = αxβ y que mejor se ajusta a estos datos. Se hace la
transformación x0 = ln(x), y 0 = ln(y), β0 = ln(α), β1 = β, dando lugar al modelo
lineal y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) y la regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente sistema de
ecuaciones lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0
Idea General.
Cuya forma matricial Ax = b está dada por:
x01
0
1 y1
1 0
x2 y20
β0
. .. β = .. ,
.. . 1 .
1 x0m 0
ym
Idea General.
Al resolver el sistema de ecuaciones lineales AT Ax = AT b se tiene que:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P
(ln(xi ) − ln(x)) ln(yi ) − ln(y)
i=1
= m
(ln(xi ) − ln(x))2
P
i=1
βb0 = y 0 − βb1 x0
= ln(y) − βb1 ln(x)
Idea General.
" # " βb #
βb0 α e 0
Se tiene entonces que x00 =
b
, luego x 0 = = . Además el error está
βb1 βb βb1
dado por kb − Ax00 k.
Ejemplo 9.
Considere nuevamente el ejemplo 5. A continuación se muestran los datos
transformados para ajustar el modelo potencial.
Ejemplo 9. Continuación.
A partir de estos datos se construye el sistema AT Ax = AT b, donde:
1 AT A =
27.0000 101.9130
.
101.9130 386.3826
2 AT b =
56.1176
.
212.9079
" βb #
α
b e 0 0.7189076
Ahora, la solución x0 es: x0 = b = = , es decir, la curva
β βb1 0.6380759
polinómica que mejor se ajusta a estos datos está dada por la regla de asignación
y = 0.7189076x0.6380759 .
Ejemplo 9. Continuación.
Note que en ese caso el error es más pequeño que el error calculado con el modelo
de regresión lineal simple, polinómica de grados 2 y 3 y además es similar al
calculado con el modelo exponencial. Por esta razón, de todos los modelos usados
hasta el momento para ajustar estos datos, se sigue que los modelos exponencial y
polinómico son los mejores entre los considerados.
Idea General.
En este caso se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) tales que tanto las primeras coordenadas xi 6= 0 para i = 1, 2 · · · , m y las
segundas coordenadas yi para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la curva recı́proca que está representada por la
regla de asignación y = α + β x1 y que mejor se ajusta a estos datos. Se hace la
transformación x0 = x1 , y 0 = y, β0 = α, β1 = β, dando lugar al modelo lineal
y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y la
regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente sistema de ecuaciones
lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0
Idea General.
Cuya forma matricial Ax = b está dada por:
x01
0
1 y1
1 0
x2 y20
β0
. . β = .. .
.. .. 1 .
1 x0m 0
ym
La solución del sistema de ecuaciones lineales AT Ax = AT b es:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P 1 1
xi
− x
(yi − y)
i=1
= m 2
P 1 1
xi
− x
i=1
Idea General.
Además, la estimación βb0 de β0 es:
βb0 = y 0 − βb1 x0
1
= y − βb1
x
" #
βb0
Se tiene entonces que x00 = . Además el error está dado por kb − Ax00 k.
βb1
Ejemplo 10.
Considere nuevamente el ejemplo 5. A continuación se muestran los datos
transformados para ajustar el modelo recı́proco.
1
M OE
0.03356 0.03012 0.02967 0.02833 0.02817 0.02770
Resistencia 5.9 7.2 7.3 6.3 8.1 6.8
1
M OE
0.02762 0.02755 0.02667 0.02653 0.02584 0.02577
Resistencia 7.0 7.6 6.8 6.5 7.0 6.3
1
M OE
0.02525 0.02439 0.02336 0.02336 0.02299 0.02193
Resistencia 7.9 9.0 8.2 8.7 7.8 9.7
1
M OE
0.02174 0.02132 0.02083 0.02028 0.01934 0.01597
Resistencia 7.4 7.7 9.7 7.8 7.7 11.6
1
M OE
0.01433 0.01258 0.01250
Resistencia 11.3 11.8 10.7
1
Cuadro: Datos Transformados de Fuerzas M OE versus Resistencia del Ejemplo 10
Idea General.
En este caso se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) tales que tanto las primeras coordenadas xi > 0 para i = 1, 2 · · · , m y las
segundas coordenadas yi para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la curva semi-logarı́tmica que está representada
por la regla de asignación y = α + β ln(x) y que mejor se ajusta a estos datos. Se
hace la transformación x0 = ln(x), y 0 = y, β0 = α, β1 = β, dando lugar al modelo
lineal y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) y la regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente sistema de
ecuaciones lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0
Idea General.
Cuya forma matricial Ax = b está dada por:
x01
0
1 y1
1 0
x2 y20
β0
. . β = .. ,
.. .. 1 .
1 x0m 0
ym
La solución del sistema de ecuaciones lineales AT Ax = AT b es:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P
ln(xi ) − ln(x) (yi − y)
i=1
= m 2
P
ln(xi ) − ln(x)
i=1
Idea General.
Además, la estimación βb0 de β0 es:
βb0 = y 0 − βb1 x0
= y − βb1 ln(x)
" #
βb0
Se tiene entonces que x00 = . Además el error está dado por kb − Ax00 k.
βb1
Ejemplo 11.
Considere nuevamente el ejemplo 5. A continuación se muestran los datos
transformados para ajustar el modelo semi-logarı́tmico.
Cuadro: Datos Transformados de Fuerzas ln(M OE) versus Resistencia del Ejemplo 11
De esta manera, la curva simi-logarı́tmica que mejor se ajusta a estos datos está
dada por:
y = −13.000634 + 5.601025 ln(x).
Ejemplo 12.
Un péndulo simple se define como una partı́cula de masa m , suspendida de un
punto O mediante una cuerda de longitud ` y de masa despreciable, la cual se
mueve manteniéndose en un mismo plano. Si se asume que las únicas fuerzas que
−
→
actúan sobre la partı́cula son su peso −
→
w y la tensión T sobre la cuerda de la cual
está suspendida y si se considera únicamente el desplazamiento tangente a la
trayectoria, entonces según la segunda ley de Newton se tiene que:
d2 θ
FT = m` ,
dt2
donde FT es la componente tangencial de la fuerza, θ es el ángulo que forma la
cuerda con la vertical y t es la variable temporal. Si se tiene en cuenta que la
fuerza tangencial es FT = −mg sin(θ), esta última expresión queda escrita como:
d2 θ
−mg sin(θ) = m` ,
dt2
donde g es la gravedad.
d2 θ
−gθ = ` .
dt2
Igualando a cero y simplificando esta última expresión se tiene que la ecuación
diferencial que de movimiento para el péndulo simple es:
d2 θ g
+ θ = 0.
dt2 `
La ecuación caracterı́stica asociada aqesta ecuación q
diferencial es la ecuación q
m2 + g` = 0, cuyas raı́ces son m1 = g
`
i y m2 = − g` i, esto es α = 0 y β = g
`
.
d2 θ g
Por lo tanto, la solución de la ecuación diferencial dt2
+ `
θ = 0 es:
Idea General.
En regresión lineal múltiple, el objetivo es construir un modelo lineal que relacione
una variable dependiente (variable respuesta) con respecto a más de una variable
independiente (variables explicativas o predictoras). De esta manera, se tiene un
conjunto de p + 1-tuplas (y11 , x11 , x12 , · · · , x1p ), (y21 , x21 , x22 , · · · , x2p ), · · · ,
(ym1 , xm1 , xm2 , · · · , xmp ), donde (yj1 , xj1 , xj2 , · · · , xjp ) representan las medidas
de las variables y, x1 , x2 , · · · , xp del individuo j-ésimo de la muestra.
Idea General.
El objetivo entonces, es hallar el hiperplano que está representado por la regla de
asignación y = β0 + β1 x1 + β2 x2 + · · · + βp xp y que mejor se ajusta a los datos. A
partir de la nube de puntos(y11 , x11 , x12 , · · · , x1p ), (y21 , x21 , x22 , · · · , x2p ), · · · ,
(ym1 , xm1 , xm2 , · · · , xmp ) y la regla de asignación
y = β0 + β1 x1 + β2 x2 + · · · + βp xp se obtiene el siguiente sistema de ecuaciones
lineales:
β0 + β1 x11 + β2 x12 + · · · + βp x1p = y11
β0 + β1 x21 + β2 x22 + · · · + βp x2p = y21
..
.
β0 + β1 xm1 + β2 xm2 + · · · + βp xmp = ym1
Idea General.
Cuya forma matricial Ax = b está dada por:
β0
1 x11 x12 ··· x1p y11
β1
1 x21 x22 ··· x2p y21
β
. .. .. .. 2 = .. ,
.. .. .. .
. . . . .
1 xm1 xm2 ··· xmp ym1
βp
Note que:
1 1 ··· 1
1 x11 x12 ··· x1p
x11 x21 · · · xm1
1 x21 x22 ··· x2p
x x22 · · · xm2
AT A = 12 . .. .. .. =
1
. .. .. .. ..
. .. . . . .
. . . .
1 xm1 xm2 ··· xmp
x1p x2p · · · xmp
m
P m
P
n xj1 ··· xjp
m j=1 j=1
m m
P 2
P P
j=1 xj1 x j1 · · · x j1 x jp
j=1 j=1
Pm m
P m
P
xj2 xj2 xj1 · · · xj2 xjp .
j=1 j=1 j=1
.. .. ..
..
. . . .
Pm m
P m
P 2
xjp xjp xj1 · · · xjp
j=1 j=1 j=1
m
P
yj1
j=1
m
1 1 ··· 1
P
y11
x j1 y j1
x11 x21 ··· xm1 j=1
y21 m
x x22 ··· xm2
AT b = 12
P
2 . = xj2 yj1 .
. .. .. .. .. j=1
.. . . .
..
ym1
x1p x2p ··· xmp
.
Pm
xjp yj1
j=1
Idea General.
Por lo tanto la solución del sistema de ecuaciones normales AT Ax = AT b se
calcula resolviendo por eliminación Gaussiana la matriz ampliada:
..
m
P m
P m
P
n xj1 ··· xjp . yj1
j=1 j=1 j=1
..
Pm m m m
x2j1
P P P
xj1 ··· xj1 xjp . xj1 yj1
j=1 j=1 j=1 j=1
..
m x m m m
P P P P
j2 xj2 xj1 ··· xj2 xjp . xj2 yj1
j=1 j=1 j=1 j=1
.. .. .. .. ..
. . . . .
..
Pm m m m
x2jp
P P P
xjp xjp xj1 ··· . xjp yj1
j=1 j=1 j=1 j=1