Regresión Lineal Mínimos Cuadrados

Regresión Lineal. Mı́nimos Cuadrados Lineales.
Regresión Lineal Múltiple
Estadı́stica y Probabilidad
Profesor
Carlos Gaviria.
Facultad de Ingenierı́as.
Área de Formación en Ciencias Básicas.
Universidad de San Buenaventura.
Semestre 2019-2
Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple
Regresión Polinomial.
Regresión con Variables Transformadas
Elementos Preliminares
Idea General.
Uno de los principales objetivos en álgebra lineal es aprender técnicas que
permiten resolver de manera exacta un sistema de ecuaciones lineales Ax = b,
donde A ∈ Rm×n es una matriz de m filas, n columnas y de entradas en el
conjunto de los números reales R; b ∈ Rm es un vector columna formado por m
números reales y x ∈ Rn es un vector columna formado por n números reales. Sin
embargo, existen sistemas de ecuaciones de la forma Ax = b que no tienen
solución, es decir, los teoremas y técnicas algebraicas que permiten hallar
soluciones exactas no funcionan, es por esta razón que la técnica que se describe es
una técnica que permite resolver sistemas de ecuaciones lineales de la forma
Ax = b que se sabe a priori, no son solubles.

En la Práctica.
Muchos problemas fı́sicos, quı́micos, económicos, de la administración, de la
ingenierı́a, entre otros, cuyo modelo no necesariamente es lineal, se ven
enfrentados a la estimación de ciertas constantes que dichos modelos involucran.
Bajo el contexto de dichos problemas prácticos, se llevan a cabo ciertas mediciones
de las variables involucradas en el problema y como asociado a cualquier medición
existen errores ya sea por el aparato de medida que se usa o por las limitaciones
del ser humano que lleva a cabo este proceso, se conduce necesariamente a el
planteamiento de un sistema de ecuaciones lineales no soluble que se debe resolver
para poder lograr la estimación de las constantes que definen el modelo que
resuelve el problema en cuestión.
En Resumen.
Existen sistemas de ecuaciones lineales de la forma Ax = b que se pueden resolver
de manera exacta y existen sistemas de ecuaciones lineales que también tiene la
forma Ax = b que no tienen una solución exacta, pero que sin embargo son
susceptibles de usarse para estimar constantes que permiten construir un modelo
matemático que resuelve un problema práctico.

Teorema.
Sean A ∈ Rm×n y b ∈ Rm . El sistema de ecuaciones lineales Ax = b es soluble si y
sólo si el vector b es una combinación lineal de las columnas de A, es decir, Ax = b
es soluble si y sólo si b ∈ R(A).
Observación.
Si A ∈ Rm×n , entonces el espacio columna de la matriz A, que se denota por
R(A), es el espacio vectorial generado por las columnas de A. En sı́mbolos:
R(A) = gen{A(1) , A(2) , · · · , A(n) } = {b ∈ Rm : el sistema Ax = b es soluble},
donde A(i) representa la columna i de la matriz A.

Ejemplo 1.
Suponga que se lanza un objeto desde un edificio de altura y0 metros con una
velocidad inicial de v0 m
s
. De la cinemática se sabe que la ley que describe el
movimiento del objeto, sin considerar la resistencia del aire, está dada por la
siguiente regla de asignación:
g
y(t) = − t2 − v0 t + y0 ,
2
donde g es la gravedad y y(t) es la posición del objeto en el instante t respecto a la
superficie terrestre. Para estimar las constantes g, v0 y y0 se realiza una serie de
mediciones del tiempo transcurrido t y la posición y(t) correspondiente, dando
lugar a los datos (t1 , y(t1 )), (t2 , y(t2 )), · · · , (tm , y(tm )).

Ejemplo 1. Continuación.
Al reemplazar estos datos en la ecuación y(t) = − g2 t2 − v0 t + y0 , se obtiene el
siguiente sistema de ecuaciones lineales:
− g2 t21 − v0 t1 + y0 = y(t1 )
− g2 t22 − v0 t2 + y0 = y(t2 )
..
.
− g2 t2m − v0 tm + y0 = y(tm )
Como cada medición involucra un error, lo más probable es que este sistema de
ecuaciones no tenga solución, sin embargo, debe calcularse una estimación de g, v0
y y0 . Podrı́a pensarse que para estimar g, v0 y y0 , bastarı́a con tomar tres de estas
ecuaciones y resolver un sistema de ecuaciones lineales 3 × 3, pero además de
resolver un sistema de ecuaciones lineales que no tiene solución se agrava el
problema al buscar un método que permita elegir las tres ecuaciones entre las m
dadas, que se usen para estimar las constantes g, v0 y y0 . Una metodologı́a
natural serı́a elegir aquellas tres ecuaciones que involucren el menor error en las
mediciones del tiempo versus espacio recorrido y descartar las m − 3 ecuaciones
restantes, sin embargo, esta tarea es más complicada que trabajar con todas las
ecuaciones simultáneamente.

Dicho en otros términos, resolver este sistema de ecuaciones lineales es equivalente
a hallar constantes C, D y F de manera que la parábola dada por la regla de
asignación:
y = Ct2 + Dt + F,
sea la parábola que mejor se ajusta a la nube de puntos (t1 , y(t1 )), (t2 , y(t2 )), · · · ,
(tm , y(tm )). Si las mediciones no tuvieran error, bastarı́a con tomar tres puntos de
esta nube de puntos y resolver el sistema 3 × 3 resultante. Dicho en otros
términos, si las mediciones no tuvieran error, se tendrı́a un modelo determinı́stico,
sin embargo, como con certeza se involucra un error cuando se toman las
mediciones, entonces lo que se busca es un modelo no determinı́stico.

Se busca entonces, entre las infinitas parábolas, aquella parábola y = Ct2 + Dt + F
que mejor se ajuste a la nube de puntos (t1 , y(t1 )), (t2 , y(t2 )), · · · , (tm , y(tm )). Un
criterio para hallar esta parábola es hallar la parábola que minimiza la suma de
m
ε2i , donde un error εi está dado por:
P
los cuadrados de los errores E(C, D, F ) =
i=1
εi = y(ti ) − yb(ti ),
con y(ti ) la segunda coordenada del punto (ti , y(ti )) y yb(ti ) = Ct2i + Dti + F .

Se tiene entonces que el criterio para hallar la parábola y = Ct2 + Dt + F que
mejor se ajuste a la nube de puntos (t1 , y(t1 )), (t2 , y(t2 )), · · · , (tm , y(tm )),
consiste en minimizar la función cuya regla de asignación es:
m
X
E(C, D, F ) = ε2i
i=1
Xm
= (y(ti ) − yb(ti ))2
i=1
Xm
= (y(ti ) − (Ct2i + Dti + F ))2
i=1

Del cálculo se sabe que para minimizar E se deriva respecto a C, respecto a D y
respecto a F , se iguala a cero y se obtiene el siguiente sistema de ecuaciones
lineales 3 × 3.
m m m m
t2i =
P P P P
F 1+D ti + C yi
i=1 i=1 i=1 i=1
m m m m
t2i + C t3i =
P P P P
F ti + D ti yi
i=1 i=1 i=1 i=1
m m m m
t2i + D t3i + C t4i = t2i yi
P P P P
F
i=1 i=1 i=1 i=1

La forma matricial de este sistema de ecuaciones lineales es el siguiente:
 m m m   m 
2
P P P P
 i=1 1 i=1 ti i=1 ti     i=1 yi 
m m m
 F m 
2 3  
P P P  P 
 i=1 ti i=1 ti i=1 ti  D =  i=1 ti yi 
  
m m
 P 2 P 3 P 4 m
 C  m
P 2 

ti ti ti ti yi
i=1 i=1 i=1 i=1
 m m m 
t2i 
P P P
 i=1 1 i=1
ti
i=1
 
m m m
 F
t2i 3
P 
ti  ∈ R3×3 , x = D ∈ R3 y
P P
 i=1 ti
En este caso se tiene que A =  
m i=1 i=1  C
P 2 m m
t3i t4i
P P 
ti
 m  i=1 i=1 i=1
P
 i=1 yi 
m 
P  3
b= i=1 ti yi  ∈ R .

m 
P 2 
ti yi
i=1
Observación.
Si Ax = b no es soluble, entonces b ∈ / R(A). El objetivo entonces es encontrar un
vector b1 ∈ R(A) tal que el sistema Ax = b1 sea soluble y además b1 sea el vector
del espacio vectorial R(A) más cercano a b en términos de la distancia Euclı́dea.
El único vector que satisface estas dos condiciones es la proyección ortogonal del
vector b sobre el espacio vectorial R(A), esto se formaliza en el siguiente teorema.
Teorema.
Sean A ∈ Rm×n y b ∈ Rm . La proyección vectorial de b sobre el espacio columna
de A, es el único vector de R(A) que tiene la propiedad de que su distancia a b es
menor que la distancia de b a cualquier otro vector de R(A).
Si p = proyR(A) b, entonces por el teorema, el sistema de ecuaciones lineales

Ax = p es soluble y es el más parecido a Ax = b.

Definición. Función Error.

Sea Ax ∈ R(A), b ∈ Rm . La función Error, que se denota por E, es la función
E = (F , Rn , R) cuya gráfica está dada por la regla de asignación:
E(x) = kb − Axk,
donde b − Ax es el vector diferencia entre Ax y b. La función E mide para cada

x ∈ Rn , la distancia Euclı́dea entre el punto Ax de R(A) y el punto b.
Observación.
1 El mı́nimo valor que toma la función E de la definición es kb − pk y este valor
de E se alcanza en cada uno de los puntos x0 ∈ Rn tales que Ax0 = p. En
otros términos, E alcanza su mı́nimo valor kb − pk en x0 si y sólo si x0 es
solución de Ax = p.
2 Se dice que toda solución del sistema de ecuaciones lineales Ax = p es
solución en términos de mı́nimos cuadrados del sistema de ecuaciones lineales
Ax = b. La estrategia que consiste en hallar todos los puntos x0 donde la
función error E alcanza su mı́nimo valor se conoce con el nombre de método
de los mı́nimos cuadrados.

Observación.
Resolver el sistema de ecuaciones lineales Ax = p no es tarea fácil, pues el cálculo
de la proyección vectorial p = proyR(A) b requiere el cálculo de las bases para
R(A) y R(A)⊥ y luego descomponer a b como b = b + (b − p) con p ∈ R(A) y
(b − p) ∈ R(A)⊥ , lo que implica resolver un sistema de m ecuaciones lineales con
m incógnitas. Es por esta razón que se debe buscar otro camino para resolver el
problema. El siguiente teorema proporciona dicho camino.
Teorema
Sean A ∈ Rm×n , b ∈ Rm y p = proyR(A) b. x0 es solución del sistema de
ecuaciones lineales Ax = p si y sólo si x0 es solución del sistema de ecuaciones
lineales AT Ax = AT b.
Observación.
El sistema de ecuaciones lineales AT Ax = AT b recibe el nombre de sistema de
ecuaciones normales asociado al sistema de ecuaciones lineales Ax = b.

Teorema.
Para toda matriz A ∈ Rm×n se verifica:
1 AT A es simétrica.
2 El rango de AT A es igual a el rango de A.
3 Si las columnas de A son linealmente independientes, entonces la matriz AT A
es invertible.

Ejemplo 2.
Considere el ejemplo 1, donde el sistema de ecuaciones lineales no soluble
− g2 t21 − v0 t1 + y0 = y(t1 )
− g2 t22 − v0 t2 + y0 = y(t2 )
..
.
− g2 t2m − v0 tm + y0 = y(tm )
se escribe de forma matricial como:

 2
t1 t1 1  y(t1 )
  
g 
 t22 t2 1 − y(t2 ) 
 2  
 
 −v0 =  . 

 . . .

 .. .. .. 
y0  .. 
t2m tm 1 y(tm )

Ahora, el sistema de ecuaciones normales asociado al sistema de ecuaciones
lineales Ax = b es el siguiente:
 m m m   m 
2
P P P P
 i=1 1 i=1 ti i=1 ti   g   i=1 yi 
m m m
 − m 
2
2 3 
P P P  P 
 i=1 ti i=1 ti i=1 ti  −v0 =  i=1 ti yi 
   
m m
 P 2 P 3 P 4 m
 y 0
 m
P 2 

ti ti ti ti yi
i=1 i=1 i=1 i=1
el cual, según el último teorema es equivalente al sistema de ecuaciones lineales

Ax = p.
Observación.
Note que se llegó al mismo sistema de ecuaciones normales a partir de la derivada
(como en el ejemplo 1) y a partir del teorema anterior.

Ejemplo 3.
Suponga que se lanza un objeto hacia arriba desde un edificio de altura y0 metros
con una velocidad inicial de v0 m
s
. De la cinemática se sabe que la ley que describe
el movimiento del objeto, sin considerar la resistencia del aire, está dada por la
siguiente regla de asignación:
g
y(t) = − t2 + v0 t + y0 ,
2
donde g es la gravedad y y(t) es la posición del objeto en el instante t respecto a la
superficie terrestre. Suponga que se han hecho las siguientes mediciones:
t(s) 1 2 3 3.5 4
y(m) 80.12 70.45 50.89 37.40 21.57
Cuadro: Datos de Tiempos t versus Alturas y del Ejemplo 3

Al reemplazar estos datos en la regla de asignación y(t) = − g2 t2 + v0 t + y0 se
obtiene el siguiente sistema de ecuaciones lineales:
− g2 + v0 + y0 = 80.12
4 − g2 + 2v0 + y0 = 70.45
9 − g2 + 3v0 + y0 = 50.89
12.5 − g2 + 3.5v0 + y0 = 37.40
16 − g2 + 4v0 + y0 = 21.57
La forma matricial de este sistema de ecuaciones lineales es la siguiente:
1 1 1  80.12
   
1 − g2

 4 2 70.45
 9 3 1  v0  = 50.89
   
12.5 3.5 1 y0 37.40
16 4 1 21.57

A partir de la multiplicación matricial se sigue que:
1 1 1
 
   
1 4 9 12.5 16  4 2 1 510.25 143.75 42.5
T
1 A A =  1 2 3 3.5 4  9
 
3 1 = 143.75

42.25 13.5.
1 1 1 1 1  12.5 3.5 1  42.50 13.50 5.0
16 4 1
80.12
 
   
1 4 9 12.5 16 70.45 1632.55
AT b = 1 2 3 3.5 4 50.89 = 590.87 .
2    
1 1 1 1 1 37.40 260.43
21.57
Al resolver el sistema de ecuaciones linealesATgAx T

 =A b mediante
 eliminación
−2 −4.912500
Gaussiana se sigue que la solución es x0 =  v0  =  5.201983 .
y0 79.796897

Esto es, g = 9.825 sm2 , v0 = 5.201983 m
s
y y0 = 79.796897. Por lo tanto, la parábola
que mejor se ajusta a estos datos es la parábola cuya regla de asignación es:
y = −4.912500t2 + 5.201983t + 79.796897
Para calcular el error al estimar − g2 , v0 y y0 se tiene que:
0.03362069
 
−0.10086207
b − Ax0 = −0.30034483 ,
 
 0.80241379 
−0.43482759
de donde: kb − Ax0 k = 0.934453448.

Idea General.
Suponga que se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) tales que tanto las primeras coordenadas xi para i = 1, 2 · · · , m y las
segundas coordenadas yi para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la lı́nea recta que está representada por la regla de
asignación y = β0 + β1 x y que mejor se ajusta a estos datos. A partir de la nube
de puntos (x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y la regla de asignación y = β0 + β1 x se
obtiene el siguiente sistema de ecuaciones lineales:
β 0 + β 1 x1 = y1
β 0 + β 1 x2 = y2
..
.
β 0 + β 1 xm = ym
Cuya forma matricial Ax = b está dada por:
1 x1 y1
   
1 x2   y2 
 β0
. ..  β =  ..  .
  
 .. .  1  . 
1 xm ym

Observación.
Recuerde que el objetivo es estimar β0 y β1 de manera que la recta y = β0 + β1 x
sea la recta que mejor se ajuste a los datos (x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y que
esto se logra resolviendo el sistema de ecuaciones lineales AT Ax = AT b.
Observación
Note que:
1 x1
  
m
P

1 x2  m xi 
1 1 ... 1    i=1
1 AT A = . . = m m
.
x1 x2 . . . xn  . .. 
x2i
 P P 
. xi
1 xm i=1 i=1
y1
  
Pm 
 y2  yi 
1 1 ... 1    i=1 
AT b =  = m .
. . . xn  ..   P
2
x1 x2 
. xi yi
ym i=1

La solución del sistema de ecuaciones lineales AT Ax = AT b está dado por:

   
. .
m . m  m
P . m
P 

 m P P  m xi . yi
xi . yi 

 

i=1 i=1
  i=1 i=1 
 −→
   !2 
  m m m 

 m .   P
xi .
P
xi
P
yi 
m . m   m . m 
x2 i=1 xi yi − i=1 i=1
 P 
x2
P P
xi . xi yi  P P 
i=1 i=1
i
i=1
0 i − m
.
m
i=1 i=1
Dado que esta matriz es escalonada se sigue que la estimación βb1 de β1 está dada
por:
m
P m
P
m xi yi
i=1 i=1
P
xi yi − m
i=1
βb1 = !2
m
P
m xi
i=1
x2i −
P
m
i=1
m
P
(xi − x)(yi − y)
i=1
= m
(xi − x)2
P
i=1

Además, la estimación βb0 de β0 esta dado por:

m
P m
P
yi − βb1 xi
i=1 i=1
βb0 =
m
= y − βb1 x
" #
βb0
Se tiene entonces que x0 = y además el error está dado por kb − Ax0 k.
βb1

Ejemplo 4.
Suponga que se tiene un resorte de longitud natural ` y constante κ de elasticidad.
Según la ley de Hooke, el alargamiento del resorte es directamente proporcional al
modulo de la fuerza que se le aplique, es decir, la fuerza F que hay que aplicarle al
resorte para deformarlo una longitud x está dado por F = κx. Si L es la longitud
total alcanzada por el resorte cuando se deforma una longitud x, entonces
L = ` + x, luego F = κ(L − `), esto es:
1
L = ` + γF, γ = .
κ
Suponga que se han hecho las siguientes mediciones:
F (N ) 39.21 44.35 57.42 65.21 78.32 80.35 84.53
L(m) 0.415 0.417 0.422 0.425 0.430 0.431 0.432
Cuadro: Datos de Fuerzas F versus Longitudes L del Ejemplo 4

Si se reemplazan estos datos en la ecuación L = ` + γF , se obtiene el siguiente
sistema de ecuaciones lineales:
` + 39.21γ = 0.415
` + 44.35γ = 0.417
` + 57.42γ = 0.422
` + 65.21γ = 0.425
` + 78.32γ = 0.430
` + 80.35γ = 0.431
` + 84.53γ = 0.432
El cual no es soluble.
La forma matricial Ax = b de este sistema de ecuaciones lineales es:
1 39.21 0.415
   
1 44.35 0.417
1 57.42 0.422
   
 `
1 65.21 = 0.425 .
  
 γ
1 78.32 0.430
  
1 80.35 0.431
1 84.53 0.432
Se tiene que:
1 39.21
 
1 44.35
1
 57.42

1 1 1 1 1 1 1
AT A = 1 65.21 =
1
 
39.21 44.35 57.42 65.21 78.32 80.35 84.53 
1 78.32

1 80.35
1 84.53

7.00 449.39
.
449.39 30789.21
0.415
 
0.417
0.422


1 1 1 1 1 1 1
AT b = 0.425 =
2
 
39.21 44.35 57.42 65.21 78.32 80.35 84.53 
0.430

0.431
0.432

2.972 191.537 .

39.21 −24.98857
   
 44.35   −19.84857
57.42  −6.77857 
   
Si F = 65.21, entonces F = 64.19857 y además F − F 7×1 =  1.01143 ,
3
   
78.32  14.12143 
   
80.35  16.15143 
84.53 20.33143
donde F 7×1 ∈ R7 es un vector columna tal que cada una de sus componentes
es F .
0.415 −0.0095714
   
0.417 −0.0075714
0.422 −0.0025714
   
Si L = 0.425, entonces L = 0.4245714, además L − L7×1 =  0.0004286 ,
4
   
0.430  0.0054286 
   
0.431  0.0064286 
0.432 0.0074286
donde L7×1 ∈ R7 es un vector columna tal que cada una de sus componentes
es L.

De esta manera, la estimación de γ está dada por:
(F − F 7×1 )(L − L7×1 )

γ
b=
(F − F 7×1 )(F − F 7×1 )
0.7388457
=
1939.017
= 0.0003810414
Por otro lado, la estimación de ` es:
`b = L − γ
bF
= 0.4245714 − 64.19857 × 0.0003810414
= 0.4001091

De esta manera, la solución x0 del sistema
Ax = b en términos
de los mı́nimos
`b 0.4001091
cuadrados lineales está dada por x0 = = . Además, el error es:
γ
b 0.0003810414
kb − Ax0 k = 0.0004283436.
por último, la estimación de la constante de elasticidad κ está dada por:
1
κ
b=
γ
b
1
=
0.0003810414
N
= 2624.387
m

Ejemplo 5.
Se determinaron valores del modulo de elasticidad (M OE, la relación de esfuerzo:
esto es, fuerza por unidad de área a deformación por unidad de longitud, en GP a)
y resistencia a la flexión (una medida de la capacidad para resistir la falla en la
flexión en M P a) con una muestra de vigas de concreto de cierto tipo y se
obtuvieron los siguientes datos (tomados de una gráfica que aparece en el artı́culo
Effects of Aggregates and Microfillers on the Flexural Properties of Concrete)
M OE 29.8 33.2 33.7 35.3 35.5 36.1 36.2 36.3 37.5

Resistencia 5.9 7.2 7.3 6.3 8.1 6.8 7.0 7.6 6.8
M OE 37.7 38.7 38.8 39.6 41.0 42.8 42.8 43.5 45.6

Resistencia 6.5 7.0 6.3 7.9 9.0 8.2 8.7 7.8 9.7
M OE 46.0 46.9 48.0 49.3 51.7 62.6 69.8 79.5 80.0

Resistencia 7.4 7.7 9.7 7.8 7.7 11.6 11.3 11.8 10.7
Cuadro: Datos de Fuerzas M OE versus Resistencia del Ejemplo ??
Se hallará a continuación la recta de mı́nimos cuadrados cuya regla de asignación

es y = β0 + β1 x que mejor se ajusta a estos datos.

Ejemplo 5. Continuación
Se tiene que:

1 AT A =
27.0 1217.90
.
1217.9 59512.81

2 AT b =
219.8
.
10406.5
Al resolver el sistema de ecuaciones lineales AT Ax = AT b se obtiene:
βb0 = 3.2925001, βb1 = 0.1074821.
Por lo tanto la recta que mejor se ajusta a estos datos está dada por la regla de
asignación:
y = 3.2925001 + 0.1074821x.
Por último, el error es:
kb − Ax0 k = 4.328464

Regresión Polinomial
Idea General.
Suponga que se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
algún tipo. El objetivo es hallar el polinomio que está representado por la regla de
asignación y = β0 + β1 x + β2 x2 + · · · βk xk y que mejor se ajusta a estos datos. A
partir de la nube de puntos y la regla de asignación se obtiene el siguiente sistema
de ecuaciones lineales:
β0 + β1 x1 + β2 x21 + · · · βk xk1 = y1
β0 + β1 x2 + β2 x22 + · · · βk xk2 = y2
..
.
β0 + β1 xm + β2 x2m + · · · βk xkm = ym
Donde la forma matricial Ax = b asociada a este sistema está dada por:
1 x1 x21 ··· xk1 β0 y1

    
1 x2 x22 ··· k
x2   β 1   y2 
..   ..  =  ..  .
    
. .. .. ..
 .. . . . .  .   . 
1 xm x2m ··· xkm βk ym

Observación.
El objetivo es estimar β0 , β1 , · · · , βk de manera que el polinomio dado por
y = β0 + β1 x + β2 x2 + · · · βk xk sea el polinomio que mejor se ajuste a los datos
(x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y de nuevo, esto se logra resolviendo el sistema de
ecuaciones lineales AT Ax = AT b.

Observación.
Se tiene que:

Observación.
Se tiene que:
1 1 ··· 1
 
x2 xk
 
1 x1 1 ··· 1
 x1 x2 ··· xm 
x2 ··· xk
 2 2 x2  1 x2
 
x
 1 x 2 ··· m  2 2 
1 AT A = 

 =
 . . . . 
 . . . .   .
 . . . .  . . . . . 
.
. .  . . . . 
 
 . .
2 ··· k
xk1 xk2 ··· xkm
1 xm xm xm
 m m m 
x2 xk
P P P
m xi i ··· i 
 i=1 i=1 i=1
 m m m m
 
2 k+1 
 P x x3
P P P
i x i i ··· x 

 i=1 i 
 i=1 i=1 i=1 
.

 . . . . . 

 . . . . . 
 . . . . . 
 m m m m
 
k+1 k+2
xk 2k
P P P P 
i x x ··· xi
i i
i=1 i=1 i=1 i=1

Observación.
Se tiene que:
1 1 ··· 1
 
x2 xk
 
1 x1 1 ··· 1
 x1 x2 ··· xm 
x2 ··· xk
 2 2 x2  1 x2
 
x
 1 x 2 ··· m  2 2 
1 AT A = 

 =
 . . . . 
 . . . .   .
 . . . .  . . . . . 
.
. .  . . . . 
 
 . .
2 ··· k
xk1 xk2 ··· xkm
1 xm xm xm
 m m m 
x2 xk
P P P
m xi i ··· i 
 i=1 i=1 i=1
 m m m m
 
2 k+1 
 P x x3
P P P
i x i i ··· x 

 i=1 i 
 i=1 i=1 i=1 
.

 . . . . . 

 . . . . . 
 . . . . . 
 m m m m
 
k+1 k+2
xk 2k
P P P P 
i x x ··· xi
i i
i=1 i=1 i=1 i=1
 m P 
yi
 i=1
 


1 1 ··· 1
  m 
   P x y 
 x1 x2 ··· xm y1  i i 
  i=1 
 2
x x2 ··· x2

 y2   m 
 1 2 m    P 2y 
2 AT b =   .   =  x i i .
 
 . . . .   .   i=1 
 . . . . 
.
 .   
.
 
 . . .   
ym 
.

xk xk ··· xk
 
1 2 m 
 m . 

 P k
xi yi

i=1

Observación.
 
βb0
βb 
 1
Para calcular x0 = 
 ..  se debe escalonar la matriz ampliada:

 . 
βbk
 
m m m .. m
2 k
P P P P
 m xi xi ··· xi . yi 

 i=1 i=1 i=1 i=1 

 m
P m m m .. m 
k+1
x2i x3i
P P P P
xi ··· xi . xi yi 


 i=1 i=1 i=1 i=1 i=1 
 . .. .. .. ..
 
 .. .. 
 . . . . . 

m m m m .
. m

xk+1 xk+2
P k
x2k xki yi
P P P P 
xi i i ··· i .
i=1 i=1 i=1 i=1 i=1
Como en el caso de la regresión lineal simple el error está dado por kb − Ax0 k.

Ejemplo 6.
Considere de nuevo el ejemplo 5. A continuación se ajustarán los datos de M OE
versus resistencia a una parábola cuya regla de asignación está dada por
y = β0 + β1 x + β2 x2 . Se tiene que:
 
27.00 1217.90 59512.81
1 AT A =  1217.90 59512.81 3188962.46 .
59512.81 3188962.46 187668558.61
 
219.8
T
2 A b =  10406.5 .
537801.6
Al resolver el sistema de ecuaciones lineales AT Ax = AT b se sigue:

   
βb0 0.453730799
x0 = β1  = 0.220525198  ,
b  
βb2 −0.001025466

Por lo tanto, la parábola que mejor se ajusta a los datos está dada por la regla de
asignación y = 0.453730799 + 0.220525198x − 0.001025466x2 . Por último, el error
es kb − Ax0 k = 4.220408.
Observación.
Ahora, estos datos también se pueden ajustar a un polinomio cúbico cuya regla de
asignación está dada por y = β0 + β1 x + β2 x2 + β3 x3 . En efecto, se tiene que:
5.951281 × 104
 
27.00 1217.90 3188962
1 AT A = 
 1217.90 59512.81 3.188962 × 106 187668559  .
 59512.81 3188962.46 1.876686 × 108 12002355152 
3188962.46 187668558.61 1.200236 × 10 10 819518417625
 
219.8
 10406.5 
2 AT b = 
 537801.6 .

30514158.3

La solución del sistema de ecuaciones AT Ax = AT b en términos de los mı́nimos
cuadrados es:
  
1.111621 × 101

βb0
−1
−4.344660 × 10 
β 
b  
x0 =  b1  =  ,
β2   1.176762 × 10−2 
−7.887391 × 10−5
βb3
Ası́, el polinomio de grado tres que mejor se ajusta a los datos es:
y = 1.111621 × 101 − 4.344660 × 10−1 x + 1.176762 × 10−2 x2 − 7.887391 × 10−5 x3
y el error está dado por kb − Ax0 k = 4.121989.

Ejemplo 7.
Varios estudios han demostrado que los lı́quenes (ciertas plantas compuestas de un
alga y un hongo) son excelentes bioindicadores de la contaminación del aire. El
artı́culo The Epiphytic Lichen Hypogymnia Physodes as a Biomonitor of
Atmospheric Nitrogen and Sulphur Deposition in Norway (Envir. Monitoring and
Assessment, 1993 : 27 − 47) da los siguientes datos (tomados de una gráfica) sobre
x: Deposición de x = N O3− en húmedo (gN/m2 ) y y: N de liquen ( % de peso en
seco):
x 0.05 0.10 0.11 0.12 0.31 0.37 0.42
y 0.48 0.55 0.48 0.50 0.58 0.52 1.02
x 0.58 0.68 0.68 0.73 0.85 0.92
y 0.86 0.86 1.00 0.88 1.04 1.70
Cuadro: Datos de Fuerzas x versus y del Ejemplo 7

A continuación se halla la recta de regla de asignación y = β0 + β1 x que mejor se
ajusta a estos datos. Recuerde que con los datos dados se obtiene un sistema de
ecuaciones lineales cuya forma matricial es Ax = b donde A ∈ R13×2 , x ∈ R2 y
b ∈ R13 , el cual no tiene solución y por tanto se busca la solución del sistema de
ecuaciones normales AT Ax = AT b en términos de los mı́nimos cuadrados. se tiene
que:

1 AT A =
13.0000 5.9200
.
5.9200 3.8114

2 AT b =
10.4700
.
5.8464
La solución y el error del sistema de ecuaciones AT Ax = AT b son:

" #
βb 0.3651043
x0 = b0 = , kb − Ax0 k = 0.6407595.
β1 0.9668317

A continuación se halla la parábola cuya gráfica está dada por la regla de
asignación y = β0 + β1 x + β2 x2 que mejor se ajusta a estos datos. Se tiene que:
 
13.000000 5.920000 3.811400
1 AT A =  5.920000 3.811400 2.764522.
3.811400 2.764522 2.122728
 
10.470000
2 AT b =  5.846400 .
4.135162
La solución y el error del sistema de ecuaciones normales AT Ax = AT b es:

   
βb0 0.5244327
x0 = β1  = −0.1918591 , kb − Ax0 k = 0.5671495.
b  
βb2 1.2562787

A continuación se halla el polinomio cúbico dado por la regla de asignación
y = β0 + β1 x + β2 x2 + β3 x3 que mejor se ajusta a estos datos. Note que:
 
13.000000 5.920000 3.811400 2.764522
 5.920000 3.811400 2.764522 2.122728
1 AT A =  .
 3.811400 2.764522 2.122728 1.689434
2.764522 2.122728 1.689434 1.379590
 
10.470000
 5.846400 
2 AT b = 
 4.135162 .

3.178735
Por lo tanto, la solución del sistema de ecuaciones normales AT Ax = AT b son,

respectivamente:
   
βb0 0.3052446
β  2.5858956 
b  
x0 =  b1  =   , kb − Ax0 k = 0.5045996.
β2  −5.8356252
βb3 4.8598711

A continuación se halla el polinomio de grado 4 dado por la regla de asignación
y = β0 + β1 x + β2 x2 + β3 x3 + β4 x4 que mejor se ajusta a estos datos. Se tiene en
este caso que:
13.000000 5.920000 3.811400 2.764522 2.1227279
 
 5.920000 3.811400 2.764522 2.122728 1.6894341
1 AT A =  3.811400 2.764522 2.122728 1.689434 1.3795904.
 
 2.764522 2.122728 1.689434 1.379590 1.1489678
2.122728 1.689434 1.379590 1.148968 0.9719992
10,470000
 
 5.846400 
2 AT b =  4.135162 
 
 3.178735 
2.552748
Luego la solución y el error del sistema de ecuaciones lineales AT Ax = AT b son:

 
βb0 
0.8456961

βb 
 1   −6.7066324 
x0 = βb2  =  33.9928801  , kb − Ax0 k = 0.4018764.
   
−56.2604786
b   
 β3 
βb4 30.6926206
Recuerde que este mismo conjunto de datos se puede ajustar a diferentes curvas.
A continuación se muestran los errores al ajustar los datos a polinomios de grados
superiores.
Grado del Polinomio 5 6 7 8 9
Error 0.3298284 0.3266604 0.3009773 0.2952418 0.2924726
Cuadro: Errores por Ajuste Mediante el Uso de los Mı́nimos Cuadrados del ejemplo 7
Como se observa a medida que se incrementa el grado del polinomio de ajuste,

disminuye el error, sin embargo, si el grado del polinomio es alto, entonces el
número de parámetros a estimar es alto y recuerde que se buscan modelos que
involucren un error pequeño tales que el número de parámetros a estimar sea
pequeño. Por esta razón no es buena idea elegir el polinomio de grado 9, sin
embargo, en este momento del curso no se pueden usar herramientas de estadı́stica
inferencial que son más poderosas que el error para elegir el mejor modelo.
Simplemente en este punto del curso se dice que se elige un modelo que tenga un
error pequeño y que sea tal que no se tengan que estimar muchos parámetros,
luego se puede elegir el modelo parabólico o cúbico para ajustar los datos dados.

Idea General.
Existen modelos que no tienen la forma del modelo de regresión lineal simple
y = β0 + β1 x, sin embargo, mediante alguna transformación matemática se pueden
llevar a esta forma. A continuación se estudian este tipo de modelos y se verá que
la forma en que se hacen las estimaciones es la misma forma en que se hicieron las
estimaciones para un modelo de regresión lineal simple.
Definición.
Una función que relaciona la variable y con la variable x es intrı́nsecamente lineal
si por medio de una transformación de x y/o y, la función se puede expresar como
y 0 = β0 + β1 x0 , donde x0 y y 0 son las transformaciones de la variables x e y,
respectivamente.

Considere los siguientes modelos:

1 Exponencial: y = αeβx , entonces y 0 = ln(y).
2 Potencial: y = αxβ , entonces x0 = ln(x), y 0 = ln(y).
3 Recı́proca: y = α + β x1 , entonces x0 = 1
x
.
4 Semi-logarı́tmico: y = α + β ln(x), entonces x0 = ln(x).

A partir de la definición se tiene que estos modelos son intrı́nsecamente lineales,

pues mediante alguna transformación en x o en y se pueden llevar a modelos
lineales, en efecto:
1 Si y = αeβx , entonces ln(y) = ln(α) + βx. En este caso se tiene que:
x0 = x, y 0 = ln(y), β0 = ln(α), β1 = β.
2 Si y = αxβ , entonces ln(y) = ln(α) + β ln(x), por lo tanto:
x0 = ln(x), y 0 = ln(y), β0 = ln(α), β1 = β.
3 Si y = α + β x1 , entonces:
1 0
x0 = , y = y, β0 = α, β1 = β.
x
4 Si y = α + β ln(x), entonces:
x0 = ln(x), y 0 = y, β0 = α, β1 = β.
Después de hacer la transformación se trabaja con el nuevo modelo como se hizo

en la sub-sección de regresión lineal simple.

Regresión con Variables Transformadas. Regresión Exponencial.
Idea General.
En este caso se tiene un conjunto de pares ordenados (x1 , y1 ), (x2 , y2 ), · · · ,
segundas coordenadas yi > 0 para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la curva exponencial que está representada por la
regla de asignación y = αeβx y que mejor se ajusta a estos datos. Como se dijo
arriba se hace la transformación x0 = x, y 0 = ln(y), β0 = ln(α), β1 = β, dando lugar
al modelo lineal y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ),
· · · , (xm , ym ) y la regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente
sistema de ecuaciones lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0

Idea General.
x01
 0
1 y1
 
1 x2 0  y20 
 β0

. ..  β =  ..  ,
  
 .. .  1  . 
1 x0m ym0
Para estimar β0 y β1 de manera que la recta y 0 = β0 + β1 x0 sea la recta que mejor

se ajuste a los datos (x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ), se debe resolver el sistema de
ecuaciones lineales AT Ax = AT b.

Idea General.
Con base en las estimaciones logradas en la sub-sección de regresión lineal simple,
se sigue que:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P
(xi − x) ln(yi ) − ln(y)
i=1
= m
(xi − x)2
P
i=1
Además, la estimación βb0 de β0 está dado por:
βb0 = y 0 − βb1 x0
= ln(y) − βb1 x

Observación.
" # " βb #
βb0 α e 0
Se tiene entonces que x00 =
b
, luego x 0 = = . Además el error está
βb1 βb βb1
dado por kb − Ax00 k.

Ejemplo 8.
Considere nuevamente el ejemplo 5 donde se determinaron valores del módulo de
elasticidad (M OE, la relación de esfuerzo: esto es, fuerza por unidad de área a
deformación por unidad de longitud, en GP a) y resistencia a la flexión (una
medida de la capacidad para resistir la falla en la flexión en M P a) con una
muestra de vigas de concreto de cierto tipo.
M OE 29.8 33.2 33.7 35.3 35.5 36.1 36.2 36.3 37.5

Resistencia 5.9 7.2 7.3 6.3 8.1 6.8 7.0 7.6 6.8
M OE 37.7 38.7 38.8 39.6 41.0 42.8 42.8 43.5 45.6

Resistencia 6.5 7.0 6.3 7.9 9.0 8.2 8.7 7.8 9.7
M OE 46.0 46.9 48.0 49.3 51.7 62.6 69.8 79.5 80.0

Resistencia 7.4 7.7 9.7 7.8 7.7 11.6 11.3 11.8 10.7
Cuadro: Datos de Fuerzas M OE versus Resistencia del Ejemplo 8
Antes de ajustar el modelo exponencial se deben transformar los datos.

En la siguiente tabla se muestran los datos transformados.
M OE 29.8 33.2 33.7 35.3 35.5 36.1

ln(Resist) 1.77495 1.97408 1.98787 1.84055 2.09186 1.91692
M OE 36.2 36.3 37.5 37.7 38.7 38.8

ln(Resist) 1.94591 2.02815 1.91692 1.87180 1.94591 1.84055
M OE 39.6 41.0 42.8 42.8 43.5 45.6

ln(Resist) 2.06686 2.19723 2.10413 2.16332 2.05412 2.27213
M OE 46.0 46.9 48.0 49.3 51.7 62.6

ln(Resist) 2.00148 2.04122 2.27213 2.05412 2.04122 2.45101
M OE 69.8 79.5 80.0

ln(Resist) 2.42480 2.46810 2.37024
Cuadro: Datos Transformados de Fuerzas M OE versus ln(Resistencia) (ln(Resist))

del Ejemplo 8
Con estos últimos datos se construye el sistema de ecuaciones AT A = AT b y se

resuelve por eliminación Gaussiana.

Se tiene que:

1 AT A =
27.00 1217.90
.
1217.90 59512.81

2 AT b =
56.1176
.
2586.8180
La solución de este sistema de ecuaciones lineales y el error son respectivamente:

1.53141958
x00 = , kb − Ax00 k = 0.5355772.
0.01212684

Ahora, la solución x0 , que se calcula a partir de x00 , está dada por:
" βb #
αb e 0 4.624737
x0 = b = = .
β βb1 0.01212684
Por lo tanto, la curva exponencial que mejor se ajusta a estos datos está dada por
la regla de asignación:
y = 4.624737 exp{0.01212684x}.
Observación.
Note que el error mejora mucho al usar el modelo exponencial en comparación con
el modelo lineal simple, es por esta razón que se prefiere el modelo exponencial.

Regresión con Variables Transformadas. Regresión Potencial.
Idea General.
(xm , ym ) tales que tanto las primeras coordenadas xi > 0 para i = 1, 2 · · · , m y las
segundas coordenadas yi > 0 para i = 1, 2, · · · , m son tomados bajo mediciones de
algún tipo. El objetivo es hallar la curva potencial que está representada por la
regla de asignación y = αxβ y que mejor se ajusta a estos datos. Se hace la
transformación x0 = ln(x), y 0 = ln(y), β0 = ln(α), β1 = β, dando lugar al modelo
lineal y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) y la regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente sistema de
ecuaciones lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0

Idea General.
x01
 0
1 y1
 
1 0
x2   y20 
 β0
. ..  β =  ..  ,
  
 .. .  1  . 
1 x0m 0
ym

Idea General.
Al resolver el sistema de ecuaciones lineales AT Ax = AT b se tiene que:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P
(ln(xi ) − ln(x)) ln(yi ) − ln(y)
i=1
= m
(ln(xi ) − ln(x))2
P
i=1
Además, la estimación βb0 de β0 esta dado por:
βb0 = y 0 − βb1 x0
= ln(y) − βb1 ln(x)

Idea General.
" # " βb #
βb0 α e 0
Se tiene entonces que x00 =
b
, luego x 0 = = . Además el error está
βb1 βb βb1
dado por kb − Ax00 k.

Ejemplo 9.
Considere nuevamente el ejemplo 5. A continuación se muestran los datos
transformados para ajustar el modelo potencial.
ln(M OE) 3.39451 3.50255 3.51750 3.56388 3.56953 3.58629

ln(Resist) 1.77495 1.97408 1.98787 1.84055 2.09186 1.91692
ln(M OE) 3.58906 3.59181 3.62434 3.62966 3.65584 3.65842

ln(Resist) 1.94591 2.02815 1.91692 1.87180 1.94591 1.84055
ln(M OE) 3.67883 3.71357 3.75654 3.756538 3.772761 3.81991

ln(Resist) 2.06686 2.19723 2.10413 2.16332 2.05412 2.27213
ln(M OE) 3.82864 3.84802 3.87120 3.89792 3.94546 4.13677

ln(Resist) 2.00148 2.04122 2.27213 2.05412 2.04122 2.45101
ln(M OE) 4.24563 4.37576 4.38203

ln(Resist) 2.42480 2.46810 2.37024
Cuadro: Datos Transformados de Fuerzas ln(M OE) versus ln(Resistencia)

(ln(Resist)) del Ejemplo 9

A partir de estos datos se construye el sistema AT Ax = AT b, donde:

1 AT A =
27.0000 101.9130
.
101.9130 386.3826

2 AT b =
56.1176
.
212.9079
La solución de este sistema de ecuaciones lineales y el error son, respectivamente:

−0.3300224
x00 = , kb − Ax00 k = 0.5148331.
0.6380759
" βb #
α
b e 0 0.7189076
Ahora, la solución x0 es: x0 = b = = , es decir, la curva
β βb1 0.6380759
polinómica que mejor se ajusta a estos datos está dada por la regla de asignación
y = 0.7189076x0.6380759 .

Note que en ese caso el error es más pequeño que el error calculado con el modelo
de regresión lineal simple, polinómica de grados 2 y 3 y además es similar al
calculado con el modelo exponencial. Por esta razón, de todos los modelos usados
hasta el momento para ajustar estos datos, se sigue que los modelos exponencial y
polinómico son los mejores entre los considerados.

Regresión con Variables Transformadas. Regresión Recı́proca.
Idea General.
(xm , ym ) tales que tanto las primeras coordenadas xi 6= 0 para i = 1, 2 · · · , m y las
algún tipo. El objetivo es hallar la curva recı́proca que está representada por la
regla de asignación y = α + β x1 y que mejor se ajusta a estos datos. Se hace la
transformación x0 = x1 , y 0 = y, β0 = α, β1 = β, dando lugar al modelo lineal
y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ), · · · , (xm , ym ) y la
regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente sistema de ecuaciones
lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0

Idea General.
x01
 0
1 y1
 
1 0
x2   y20 
 β0
. .  β =  ..  .
  
 .. ..  1  . 
1 x0m 0
ym
La solución del sistema de ecuaciones lineales AT Ax = AT b es:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P 1 1
xi
− x
(yi − y)
i=1
= m 2
P 1 1
xi
− x
i=1

Idea General.
Además, la estimación βb0 de β0 es:
βb0 = y 0 − βb1 x0
1
= y − βb1
x
" #
βb0
Se tiene entonces que x00 = . Además el error está dado por kb − Ax00 k.
βb1

Ejemplo 10.
transformados para ajustar el modelo recı́proco.
1
M OE
0.03356 0.03012 0.02967 0.02833 0.02817 0.02770
Resistencia 5.9 7.2 7.3 6.3 8.1 6.8
1
M OE
0.02762 0.02755 0.02667 0.02653 0.02584 0.02577
Resistencia 7.0 7.6 6.8 6.5 7.0 6.3
1
M OE
0.02525 0.02439 0.02336 0.02336 0.02299 0.02193
Resistencia 7.9 9.0 8.2 8.7 7.8 9.7
1
M OE
0.02174 0.02132 0.02083 0.02028 0.01934 0.01597
Resistencia 7.4 7.7 9.7 7.8 7.7 11.6
1
M OE
0.01433 0.01258 0.01250
Resistencia 11.3 11.8 10.7
1
Cuadro: Datos Transformados de Fuerzas M OE versus Resistencia del Ejemplo 10


Las matrices AT A y AT b asociadas al sistema de ecuaciones lineales AT Ax = AT b
son:

1 AT A =
27.0000000 0,6377175
.
0.6377175 0.0158013

2 AT b =
219.800000
.
4.995762
La solución x00 del sistema de ecuaciones lineales AT Ax = AT b y el error en
términos de los mı́nimos cuadrados son, respectivamente:

14.39684
x00 = , kb − Ax00 k = 4.44535.
−264.87384
De esta manera, la curva recı́proca que mejor se ajusta a estos datos está dada por
la regla de asignación:
1
y = 14.39684 − 264.87384 .
x

Regresión con Variables Transformadas. Regresión Semi-Logarı́tmica.
Idea General.
(xm , ym ) tales que tanto las primeras coordenadas xi > 0 para i = 1, 2 · · · , m y las
algún tipo. El objetivo es hallar la curva semi-logarı́tmica que está representada
por la regla de asignación y = α + β ln(x) y que mejor se ajusta a estos datos. Se
hace la transformación x0 = ln(x), y 0 = y, β0 = α, β1 = β, dando lugar al modelo
lineal y 0 = β0 + β1 x0 . A partir de la nube de puntos (x1 , y1 ), (x2 , y2 ), · · · ,
(xm , ym ) y la regla de asignación y 0 = β0 + β1 x0 se obtiene el siguiente sistema de
ecuaciones lineales:
β0 + β1 x01 = y10
β0 + β1 x02 = y20
..
.
β0 + β1 x0m = ym 0

Idea General.
x01
 0
1 y1
 
1 0
x2   y20 
 β0
. .  β =  ..  ,
  
 .. ..  1  . 
1 x0m 0
ym
La solución del sistema de ecuaciones lineales AT Ax = AT b es:
m
(x0i − x0 )(yi0 − y 0 )
P
i=1
βb1 = m
(x0i − x0 )2
P
i=1
m
P
ln(xi ) − ln(x) (yi − y)
i=1
= m 2
P
ln(xi ) − ln(x)
i=1

Idea General.
Además, la estimación βb0 de β0 es:
βb0 = y 0 − βb1 x0
= y − βb1 ln(x)
" #
βb0
Se tiene entonces que x00 = . Además el error está dado por kb − Ax00 k.
βb1

Ejemplo 11.
transformados para ajustar el modelo semi-logarı́tmico.
ln(M OE) 3.39451 3.50255 3.51750 3.56388 3.56953 3.58629

Resistencia 5.9 7.2 7.3 6.3 8.1 6.8
ln(M OE) 3.58906 3.59181 3.62434 3.62966 3.65584 3.65842

Resistencia 7.0 7.6 6.8 6.5 7.0 6.3
ln(M OE) 3.67883 3.71357 3.75654 3.756538 3.772761 3.81991

Resistencia 7.9 9.0 8.2 8.7 7.8 9.7
ln(M OE) 3.82864 3.84802 3.87120 3.89792 3.94546 4.13677

Resistencia 7.4 7.7 9.7 7.8 7.7 11.6
ln(M OE) 4.24563 4.37576 4.38203

Resistencia 11.3 11.8 10.7
Cuadro: Datos Transformados de Fuerzas ln(M OE) versus Resistencia del Ejemplo 11


Las matrices AT A y AT b asociadas al sistema de ecuaciones lineales AT Ax = AT b
son:

1 AT A =
27.0000 101.9130
.
101.9130 386.3826

2 AT b =
219.8000
.
839.2056
La solución x00 del sistema de ecuaciones lineales AT Ax = AT b y el error en
términos de los mı́nimos cuadrados son, respectivamente:

−13.000634
x00 = , kb − Ax00 k = 4.25063.
5.601025
De esta manera, la curva simi-logarı́tmica que mejor se ajusta a estos datos está
dada por:
y = −13.000634 + 5.601025 ln(x).

Regresión con Variables Transformadas.
Ejemplo 12.
Un péndulo simple se define como una partı́cula de masa m , suspendida de un
punto O mediante una cuerda de longitud ` y de masa despreciable, la cual se
mueve manteniéndose en un mismo plano. Si se asume que las únicas fuerzas que
−
→
actúan sobre la partı́cula son su peso −
→
w y la tensión T sobre la cuerda de la cual
está suspendida y si se considera únicamente el desplazamiento tangente a la
trayectoria, entonces según la segunda ley de Newton se tiene que:
d2 θ
FT = m` ,
dt2
donde FT es la componente tangencial de la fuerza, θ es el ángulo que forma la
cuerda con la vertical y t es la variable temporal. Si se tiene en cuenta que la
fuerza tangencial es FT = −mg sin(θ), esta última expresión queda escrita como:
d2 θ
−mg sin(θ) = m` ,
dt2
donde g es la gravedad.


Ahora, teniendo en cuenta que sin(θ) ≈ θ para ángulos pequeños, entonces se sigue:
d2 θ
−gθ = ` .
dt2
Igualando a cero y simplificando esta última expresión se tiene que la ecuación
diferencial que de movimiento para el péndulo simple es:
d2 θ g
+ θ = 0.
dt2 `
La ecuación caracterı́stica asociada aqesta ecuación q
diferencial es la ecuación q
m2 + g` = 0, cuyas raı́ces son m1 = g
`
i y m2 = − g` i, esto es α = 0 y β = g
`
.
d2 θ g
Por lo tanto, la solución de la ecuación diferencial dt2
+ `
θ = 0 es:
θ(t) = θ0 sin(ωt + α),

q
g
donde ω = `
es la frecuencia angular, θ0 es la amplitud de la oscilación del
péndulo y α es la fase inicial.


De esta manera se tiene que:
θ(t) = θ0 cos(α) sin(ωt) + θ0 sin(α) cos(ωt)

Si β0 = θ0 cos(α) y β1 = θ0 sin(α), entonces se obtiene:
θ(t) = β0 sin(ωt) + β1 cos(ωt),

el cual representa una lı́nea recta, esto es, en el caso del péndulo simple se pueden
usar los mı́nimos cuadrados con la regresión lineal simple.


El estroboscopio es un aparato que emite destellos de luz a una frecuencia
deseada. Mediante la utilización del estroboscopio se tomaron múltiples
exposiciones, en un mismo registro fotográfico, del movimiento de un péndulo de
50cm de longitud y fueron hechas las siguientes mediciones.
Tiempo (Segundos) 0.25 0.50 0.75 1.00 1.25
Ángulo θ (Radianes) 0.26 0.10 -0.16 -0.25 -0.05
Cuadro: Datos de Tiempos t Versus Ángulos θ del Ejemplo ??
Se tiene que g = 9.8 sm2 y ` = 50cm = 0.5m, luego ω = 4.43 m

s
.


A partir de estos datos se obtiene el siguiente sistema de ecuaciones lineales de
tamaño 5 × 2.
0.8945842β0 + 0.4468994β1 = 0.26

0.7995783β0 − 0.6005619β1 = 0.10
−0.1799222β0 − 0.9836808β1 = −0.16
−0.9603925β0 − 0.2786508β1 = −0.25
−0.6784754β0 + 0.7346231β1 = −0.05


Se tiene que:

1 AT A =
2.8546610 −0.1342307
.
−0.1342307 2.1453390

2 AT b =
0.6153592
.
0.2464581
Por lo tanto la solución del sistema de ecuaciones normales AT Ax = AT b y el
error son, respectivamente:
" #
βb 0.2216168
x0 = b0 , kb − Ax0 k = 0.009762309.
β1 0.1287470
Ahora, como β0 = θ0 cos(α) y β1 = θ0 sin(α), entonces θ0 cos(α) = 0.22161680 y

θ0 sin(α) = 0.1287470, de donde:

0.1287470
α = arctan = 0.52629.
0.22161680
Ahora, como θ0 = 0.1287470
sin(α)
, entonces θ0 = 0.2563002. Tanto α como θ0 están
dados en radianes.

Regresión Lineal Múltiple.
Idea General.
En regresión lineal múltiple, el objetivo es construir un modelo lineal que relacione
una variable dependiente (variable respuesta) con respecto a más de una variable
independiente (variables explicativas o predictoras). De esta manera, se tiene un
conjunto de p + 1-tuplas (y11 , x11 , x12 , · · · , x1p ), (y21 , x21 , x22 , · · · , x2p ), · · · ,
(ym1 , xm1 , xm2 , · · · , xmp ), donde (yj1 , xj1 , xj2 , · · · , xjp ) representan las medidas
de las variables y, x1 , x2 , · · · , xp del individuo j-ésimo de la muestra.
Por ejemplo, en la Universidad de San Buenaventura existe interés en estudiar la

deserción estudiantil, entendiendo que un estudiante deserta cuando deja de
estudiar en la Universidad por un año o más. Si y: tiempo que tarda un estudiante
en dejar de estudiar en la Universidad de San Buenaventura, entonces existen
modelos que intentan explicar la variable y por medio de un conjunto de variables
explicativas x1 , x2 , · · · , xp que generalmente son de naturaleza socio económica,
personal y familiar.

Idea General.
El objetivo entonces, es hallar el hiperplano que está representado por la regla de
asignación y = β0 + β1 x1 + β2 x2 + · · · + βp xp y que mejor se ajusta a los datos. A
partir de la nube de puntos(y11 , x11 , x12 , · · · , x1p ), (y21 , x21 , x22 , · · · , x2p ), · · · ,
(ym1 , xm1 , xm2 , · · · , xmp ) y la regla de asignación
y = β0 + β1 x1 + β2 x2 + · · · + βp xp se obtiene el siguiente sistema de ecuaciones
lineales:
β0 + β1 x11 + β2 x12 + · · · + βp x1p = y11
β0 + β1 x21 + β2 x22 + · · · + βp x2p = y21
..
.
β0 + β1 xm1 + β2 xm2 + · · · + βp xmp = ym1

Idea General.
 β0
 
1 x11 x12 ··· x1p y11
  
β1 
1 x21 x22 ··· x2p     y21 
 β  
. .. .. ..   2  =  ..  ,
 
 .. .. ..   . 
. . . .  . 
1 xm1 xm2 ··· xmp ym1
βp
Recuerde que el objetivo es estimar β0 , β1 , β0 , · · · , βp de manera que el

hiperplano y = β0 + β1 x1 + β2 x2 + · · · + βp xp sea el hiperplano que mejor se
ajuste a los datos. Recuerde además que esto se logra resolviendo el sistema de
ecuaciones normales AT Ax = AT b.

Note que:
1 1 ··· 1
 
1 x11 x12 ··· x1p
 
x11 x21 · · · xm1 
 1 x21 x22 ··· x2p 
x x22 · · · xm2  

AT A =  12  . .. .. ..  =
1

 . .. ..   .. ..
. .. . . . . 
 . . . . 
1 xm1 xm2 ··· xmp
x1p x2p · · · xmp
 m
P m
P 
n xj1 ··· xjp

m j=1 j=1 
m m 
P 2
P P 

j=1 xj1 x j1 · · · x j1 x jp 
j=1 j=1

 
Pm m
P m
P 

 xj2 xj2 xj1 · · · xj2 xjp  .
j=1 j=1 j=1 
.. .. ..
 
 .. 

 . . . . 

Pm m
P m
P 2 
xjp xjp xj1 · · · xjp
j=1 j=1 j=1

 m
P 
yj1
 j=1 
m 
1 1 ··· 1
  P 
y11
  x j1 y j1 
x11 x21 ··· xm1  j=1 
  y21   m

x x22 ··· xm2  

AT b =  12
  P 
2  .  =  xj2 yj1  .
 . .. .. ..   ..  j=1
 .. . . . 

..
 
ym1  
x1p x2p ··· xmp 
 . 

Pm 
xjp yj1
j=1

Idea General.
Por lo tanto la solución del sistema de ecuaciones normales AT Ax = AT b se
calcula resolviendo por eliminación Gaussiana la matriz ampliada:
..
 
m
P m
P m
P
 n xj1 ··· xjp . yj1 
 j=1 j=1 j=1 
..
 
Pm m m m 
x2j1
P P P

 xj1 ··· xj1 xjp . xj1 yj1 

j=1 j=1 j=1 j=1 
 
..
m x m m m
P P P P 
 j2 xj2 xj1 ··· xj2 xjp . xj2 yj1 

j=1 j=1 j=1 j=1 
 
 .. .. .. .. .. 

 . . . . . 

..
 
Pm m m m 
x2jp
P P P
xjp xjp xj1 ··· . xjp yj1
j=1 j=1 j=1 j=1

Regresión Lineal Mínimos Cuadrados

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresión Lineal Mínimos Cuadrados

Transféré par

Droits d'auteur :

Formats disponibles

Regresión Lineal. Mı́nimos Cuadrados Lineales.

Regresión Lineal Múltiple

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

R(A) = gen{A(1) , A(2) , · · · , A(n) } = {b ∈ Rm : el sistema Ax = b es soluble},

donde A(i) representa la columna i de la matriz A.

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Si p = proyR(A) b, entonces por el teorema, el sistema de ecuaciones lineales

Carlos Gaviria Estadı́stica y Probabilidad

Definición. Función Error.

donde b − Ax es el vector diferencia entre Ax y b. La función E mide para cada

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

Carlos Gaviria Estadı́stica y Probabilidad

se escribe de forma matricial como:

Carlos Gaviria Estadı́stica y Probabilidad

el cual, según el último teorema es equivalente al sistema de ecuaciones lineales

Carlos Gaviria Estadı́stica y Probabilidad

y(m) 80.12 70.45 50.89 37.40 21.57

Cuadro: Datos de Tiempos t versus Alturas y del Ejemplo 3

Carlos Gaviria Estadı́stica y Probabilidad

La forma matricial de este sistema de ecuaciones lineales es la siguiente:

Carlos Gaviria Estadı́stica y Probabilidad

Al resolver el sistema de ecuaciones linealesATgAx T

Carlos Gaviria Estadı́stica y Probabilidad

y = −4.912500t2 + 5.201983t + 79.796897

Para calcular el error al estimar − g2 , v0 y y0 se tiene que:

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

La solución del sistema de ecuaciones lineales AT Ax = AT b está dado por:

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

Además, la estimación βb0 de β0 esta dado por:

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

F (N ) 39.21 44.35 57.42 65.21 78.32 80.35 84.53

L(m) 0.415 0.417 0.422 0.425 0.430 0.431 0.432

Cuadro: Datos de Fuerzas F versus Longitudes L del Ejemplo 4

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

La forma matricial Ax = b de este sistema de ecuaciones lineales es:

Regresión Lineal Simple

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

(F − F 7×1 )(L − L7×1 )

Por otro lado, la estimación de ` es:

Carlos Gaviria Estadı́stica y Probabilidad

Regresión Lineal Simple

Carlos Gaviria Estadı́stica y Probabilidad