Vous êtes sur la page 1sur 8

M�nimos cuadrados

Ir a la navegaci�nIr a la b�squeda

El resultado del ajuste de un conjunto de datos a una funci�n cuadr�tica.


M�nimos cuadrados es una t�cnica de an�lisis num�rico enmarcada dentro de la
optimizaci�n matem�tica, en la que, dados un conjunto de pares ordenados �variable
independiente, variable dependiente� y una familia de funciones, se intenta
encontrar la funci�n continua, dentro de dicha familia, que mejor se aproxime a los
datos (un "mejor ajuste"), de acuerdo con el criterio de m�nimo error cuadr�tico.

En su forma m�s simple, intenta minimizar la suma de cuadrados de las diferencias


en las ordenadas (llamadas residuos) entre los puntos generados por la funci�n
elegida y los correspondientes valores en los datos. Espec�ficamente, se llama
m�nimos cuadrados promedio (LMS) cuando el n�mero de datos medidos es 1 y se usa el
m�todo de descenso por gradiente para minimizar el residuo cuadrado. Se puede
demostrar que LMS minimiza el residuo cuadrado esperado, con el m�nimo de
operaciones (por iteraci�n), pero requiere un gran n�mero de iteraciones para
converger.

Desde un punto de vista estad�stico, un requisito impl�cito para que funcione el


m�todo de m�nimos cuadrados es que los errores de cada medida est�n distribuidos de
forma aleatoria. El teorema de Gauss-M�rkov prueba que los estimadores m�nimos
cuadr�ticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por
ejemplo, a una distribuci�n normal. Tambi�n es importante que los datos a procesar
est�n bien escogidos, para que permitan visibilidad en las variables que han de ser
resueltas (para dar m�s peso a un dato en particular, v�ase m�nimos cuadrados
ponderados).

La t�cnica de m�nimos cuadrados se usa com�nmente en el ajuste de curvas. Muchos


otros problemas de optimizaci�n pueden expresarse tambi�n en forma de m�nimos
cuadrados, minimizando la energ�a o maximizando la entrop�a.

�ndice
1 Historia
2 Formulaci�n formal del problema bidimensional
3 Soluci�n del problema de los m�nimos cuadrados
3.1 Deducci�n anal�tica de la aproximaci�n discreta m�nimo cuadr�tica lineal
3.1.1 Corolario
3.2 Deducci�n geom�trica de la aproximaci�n discreta m�nimo cuadr�tica lineal
4 M�nimos cuadrados y an�lisis de regresi�n
5 V�ase tambi�n
6 Referencias
7 Enlaces externos
Historia

Karl Friedrich Gauss.


El d�a de A�o Nuevo de 1801, el astr�nomo italiano Giuseppe Piazzi descubri� el
planeta enano Ceres. Fue capaz de seguir su �rbita durante 40 d�as. Durante el
curso de ese a�o, muchos cient�ficos intentaron estimar su trayectoria con base en
las observaciones de Piazzi (resolver las ecuaciones no lineales de Kepler de
movimiento es muy dif�cil). La mayor�a de las evaluaciones fueron in�tiles; el
�nico c�lculo suficientemente preciso para permitir a Franz Xaver von Zach,
astr�nomo alem�n, reencontrar a Ceres al final del a�o fue el de Carl Friedrich
Gauss, por entonces un joven de 24 a�os (los fundamentos de su enfoque ya los hab�a
planteado en 1795, cuando a�n ten�a 18 a�os). Sin embargo, su m�todo de m�nimos
cuadrados no se public� sino hasta 1809, y apareci� en el segundo volumen de su
trabajo sobre mec�nica celeste, Theoria Motus Corporum Coelestium in sectionibus
conicis solem ambientium. El franc�s Adrien-Marie Legendre desarroll� el mismo
m�todo de forma independiente en 1805.

En 1829, Gauss fue capaz de establecer la raz�n del �xito maravilloso de este
procedimiento: simplemente, el m�todo de m�nimos cuadrados es �ptimo en muchos
aspectos. El argumento concreto se conoce como teorema de Gauss-M�rkov.

Formulaci�n formal del problema bidimensional


Sea {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} {\displaystyle {\
{(x_{k},y_{k})\}}_{k=1}^{n}} un conjunto de n puntos en el plano real, y sea
{\displaystyle {\{f_{j}(x)\}}_{j=1}^{m}} {\displaystyle {\{f_{j}(x)\}}_{j=1}^{m}}
una base de m funciones linealmente independiente en un espacio de funciones.
Queremos encontrar una funci�n {\displaystyle f(x)\!} {\displaystyle f(x)\!} que
sea combinaci�n lineal de las funciones base, de modo que {\displaystyle
f(x_{k})\approx y_{k}} {\displaystyle f(x_{k})\approx y_{k}}, esto es:

{\displaystyle f(x)=\sum _{j=1}^{m}c_{j}f_{j}(x)} {\displaystyle f(x)=\sum


_{j=1}^{m}c_{j}f_{j}(x)}

Por tanto, se trata de hallar los m coeficientes {\displaystyle c_{j}}


{\displaystyle c_{j}} que hagan que la funci�n aproximante {\displaystyle f(x)\!}
{\displaystyle f(x)\!} d� la mejor aproximaci�n para los puntos dados
{\displaystyle (x_{k},y_{k})\!} {\displaystyle (x_{k},y_{k})\!}. El criterio de
"mejor aproximaci�n" puede variar, pero en general se basa en aqu�l que minimice
una "acumulaci�n" del error individual (en cada punto) sobre el conjunto total. En
primer lugar, el error (con signo positivo o negativo) de la funci�n {\displaystyle
f(x)\!} {\displaystyle f(x)\!} en un solo punto, {\displaystyle (x_{k},y_{k})}
{\displaystyle (x_{k},y_{k})}, se define como:

{\displaystyle e_{k}=y_{k}-f(x_{k})\!} {\displaystyle e_{k}=y_{k}-f(x_{k})\!}

pero se intenta medir y minimizar el error en todo el conjunto de la aproximaci�n,


{\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} {\displaystyle {\
{(x_{k},y_{k})\}}_{k=1}^{n}}. En matem�ticas, existen diversas formas de definir el
error, sobre todo cuando �ste se refiere a un conjunto de puntos (y no s�lo a uno),
a una funci�n, etc. Dicho error (el error "total" sobre el conjunto de puntos
considerado) suele definirse con alguna de las siguientes f�rmulas:

Error M�ximo: {\displaystyle E_{\infty }(f)=\max(|e_{k}|)} {\displaystyle E_{\infty


}(f)=\max(|e_{k}|)}
Error Medio: {\displaystyle E_{\rm {m}}(f)={\frac {\sum _{k=1}^{n}|e_{k}|}{n}}}
{\displaystyle E_{\rm {m}}(f)={\frac {\sum _{k=1}^{n}|e_{k}|}{n}}}
Error cuadr�tico medio: {\displaystyle E_{\rm {cm}}(f)={\sqrt {\frac {\sum
_{k=1}^{n}(e_{k})^{2}}{n}}}} {\displaystyle E_{\rm {cm}}(f)={\sqrt {\frac {\sum
_{k=1}^{n}(e_{k})^{2}}{n}}}}
La aproximaci�n por m�nimos cuadrados se basa en la minimizaci�n del error
cuadr�tico medio o, equivalentemente, en la minimizaci�n del radicando de dicho
error, el llamado error cuadr�tico, definido como:

{\displaystyle E_{\rm {c}}(f)={\frac {\sum _{k=1}^{n}(e_{k})^{2}}{n}}}


{\displaystyle E_{\rm {c}}(f)={\frac {\sum _{k=1}^{n}(e_{k})^{2}}{n}}}

Para alcanzar este objetivo, se utiliza el hecho que la funci�n f debe poder
describirse como una combinaci�n lineal de una base de funciones. Los coeficientes
de la combinaci�n lineal ser�n los par�metros que queremos determinar. Por ejemplo,
supongamos que f es una funci�n cuadr�tica, lo que quiere decir que es una
combinaci�n lineal, {\displaystyle f(x)=ax^{2}+bx+c\,\!} {\displaystyle
f(x)=ax^{2}+bx+c\,\!}, de las funciones {\displaystyle f_{1}(x)=x^{2}}
{\displaystyle f_{1}(x)=x^{2}}, {\displaystyle f_{2}(x)=x} {\displaystyle f_{2}
(x)=x} y {\displaystyle f_{3}(x)=1} {\displaystyle f_{3}(x)=1} (m=3 en este caso),
y que se pretende determinar los valores de los coeficientes: {\displaystyle
a,b,c\!} {\displaystyle a,b,c\!}, de modo que minimicen la suma (S) de los
cuadrados de los residuos:

{\displaystyle S=\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}=\sum _{i=1}^{n}(y_{i}-


ax_{i}^{2}-bx_{i}-c)^{2}} {\displaystyle S=\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}=\sum
_{i=1}^{n}(y_{i}-ax_{i}^{2}-bx_{i}-c)^{2}}

Esto explica el nombre de m�nimos cuadrados. A las funciones que multiplican a los
coeficientes buscados, que en este caso son: {\displaystyle x^{2}} x^{2},
{\displaystyle x} x y {\displaystyle 1} 1, se les conoce con el nombre de funciones
base de la aproximaci�n, y pueden ser funciones cualesquiera. Para ese caso general
se deduce a continuaci�n la f�rmula de la mejor aproximaci�n discreta (i.e. para un
conjunto finito de puntos), lineal y seg�n el criterio del error cuadr�tico medio,
que es la llamada aproximaci�n lineal por m�nimos cuadrados. Es posible generar
otro tipo de aproximaciones, si se toman los errores m�ximo o medio, por ejemplo,
pero la dificultad que entra�a operar con ellos, debido al valor absoluto de su
expresi�n, hace que sean dif�ciles de tratar y casi no se usen.

Soluci�n del problema de los m�nimos cuadrados


La aproximaci�n m�nimo cuadr�tica consiste en minimizar el error cuadr�tico
mencionado m�s arriba, y tiene soluci�n general cuando se trata de un problema de
aproximaci�n lineal (lineal en sus coeficientes {\displaystyle c_{j}}
{\displaystyle c_{j}}) cualesquiera que sean las funciones base: {\displaystyle
f_{j}(x)} {\displaystyle f_{j}(x)} antes mencionadas. Por lineal se entiende que la
aproximaci�n buscada se expresa como una combinaci�n lineal de dichas funciones
base. Para hallar esta expresi�n se puede seguir un camino anal�tico, expuesto
abajo, mediante el c�lculo multivariable, consistente en optimizar los coeficientes
{\displaystyle c_{j}} {\displaystyle c_{j}}; o bien, alternativamente, seguir un
camino geom�trico con el uso de el �lgebra lineal, como se explica m�s abajo, en la
llamada deducci�n geom�trica. Para los Modelos est�ticos uniecuacionales, el m�todo
de m�nimos cuadrados no ha sido superado, a pesar de diversos intentos para ello,
desde principios del Siglo XIX. Se puede demostrar que, en su g�nero, es el que
proporciona la mejor aproximaci�n.

Deducci�n anal�tica de la aproximaci�n discreta m�nimo cuadr�tica lineal


Sea {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} {\displaystyle {\
{(x_{k},y_{k})\}}_{k=1}^{n}} un conjunto de n pares con abscisas distintas, y sea
{\displaystyle {\{f_{j}(x)\}}_{j=1}^{m}} {\displaystyle {\{f_{j}(x)\}}_{j=1}^{m}}
un conjunto de m funciones linealmente independientes (en un espacio vectorial de
funciones), que se llamar�n funciones base. Se desea encontrar una funci�n
{\displaystyle f(x)} f(x) de dicho espacio, o sea, combinaci�n lineal de las
funciones base, tomando por ello la forma:

{\displaystyle f(x)=c_{1}f_{1}(x)+c_{2}f_{2}(x)+...+c_{m}f_{m}(x)=\sum _{j=1}^{m}


{c_{j}f_{j}(x)}} {\displaystyle f(x)=c_{1}f_{1}(x)+c_{2}f_{2}(x)+...+c_{m}f_{m}
(x)=\sum _{j=1}^{m}{c_{j}f_{j}(x)}}.

Ello equivale por tanto a hallar los m coeficientes: {\displaystyle {\{c_{j}


(x)\}}_{j=1}^{m}} {\displaystyle {\{c_{j}(x)\}}_{j=1}^{m}}. En concreto, se desea
que tal funci�n {\displaystyle f(x)} f(x) sea la mejor aproximaci�n a los n pares
{\displaystyle {(x_{k},y_{k})}_{1}^{n}} {\displaystyle {(x_{k},y_{k})}_{1}^{n}}
empleando, como criterio de "mejor", el criterio del m�nimo error cuadr�tico medio
de la funci�n {\displaystyle f(x)} f(x) con respecto a los puntos {\displaystyle
{(x_{k},y_{k})}_{1}^{n}} {\displaystyle {(x_{k},y_{k})}_{1}^{n}}.

El error cuadr�tico medio ser� para tal caso:

{\displaystyle E_{\rm {cm}}={\sqrt {\frac {\sum _{k=1}^{n}(e_{k})^{2}}{n}}}={\sqrt


{{\frac {1}{n}}\sum _{k=1}^{n}(y_{k}-f(x_{k}))^{2}}}={\sqrt {{\frac {1}{n}}\sum
_{k=1}^{n}(y_{k}-\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))^{2}}}} {\displaystyle E_{\rm
{cm}}={\sqrt {\frac {\sum _{k=1}^{n}(e_{k})^{2}}{n}}}={\sqrt {{\frac {1}{n}}\sum
_{k=1}^{n}(y_{k}-f(x_{k}))^{2}}}={\sqrt {{\frac {1}{n}}\sum _{k=1}^{n}(y_{k}-\sum
_{j=1}^{m}c_{j}f_{j}(x_{k}))^{2}}}}

Minimizar el error cuadr�tico medio es equivalente a minimizar el error cuadr�tico,


definido como el radicando del error cuadr�tico medio, esto es:

{\displaystyle E_{\rm {c}}=\sum _{k=1}^{n}(y_{k}-\sum _{j=1}^{m}c_{j}f_{j}


(x_{k}))^{2}} {\displaystyle E_{\rm {c}}=\sum _{k=1}^{n}(y_{k}-\sum
_{j=1}^{m}c_{j}f_{j}(x_{k}))^{2}}

As�, los {\displaystyle c_{j}} {\displaystyle c_{j}} que minimizan {\displaystyle


E_{\rm {cm}}} {\displaystyle E_{\rm {cm}}} tambi�n minimizan {\displaystyle E_{\rm
{c}}} {\displaystyle E_{\rm {c}}}, y podr�n ser calculados derivando e igualando a
cero este �ltimo:

{\displaystyle {\frac {\partial E_{\rm {c}}}{\partial c_{i}}}=\sum


_{k=1}^{n}2(y_{k}-\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))(-f_{i}(x_{k}))=0}
{\displaystyle {\frac {\partial E_{\rm {c}}}{\partial c_{i}}}=\sum
_{k=1}^{n}2(y_{k}-\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))(-f_{i}(x_{k}))=0}

Siendo i=1,2, . . .,m. Se obtiene un sistema de m ecuaciones con m inc�gnitas, que


recibe el nombre de "Ecuaciones Normales de Gauss". Operando con ellas:

{\displaystyle \sum _{k=1}^{n}(\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))f_{i}(x_{k})=\sum


_{k=1}^{n}y_{k}f_{i}(x_{k})} {\displaystyle \sum _{k=1}^{n}(\sum
_{j=1}^{m}c_{j}f_{j}(x_{k}))f_{i}(x_{k})=\sum _{k=1}^{n}y_{k}f_{i}(x_{k})} para
i=1,2, . . .,m
{\displaystyle \sum _{j=1}^{m}(\sum _{k=1}^{n}f_{i}(x_{k})f_{j}(x_{k}))c_{j}=\sum
_{k=1}^{n}y_{k}f_{i}(x_{k})} {\displaystyle \sum _{j=1}^{m}(\sum _{k=1}^{n}f_{i}
(x_{k})f_{j}(x_{k}))c_{j}=\sum _{k=1}^{n}y_{k}f_{i}(x_{k})}, para i=1,2, . . .,m
Si se desarrolla la suma, se visualiza la ecuaci�n "i-�sima" del sistema de m
ecuaciones normales:

{\displaystyle (\sum _{k=1}^{n}f_{i}(x_{k})f_{1}(x_{k}))c_{1}+(\sum _{k=1}^{n}f_{i}


(x_{k})f_{2}(x_{k}))c_{2}+...+(\sum _{k=1}^{n}f_{i}(x_{k})f_{m}(x_{k}))c_{m}=\sum
_{k=1}^{n}y_{k}f_{i}(x_{k})} {\displaystyle (\sum _{k=1}^{n}f_{i}(x_{k})f_{1}
(x_{k}))c_{1}+(\sum _{k=1}^{n}f_{i}(x_{k})f_{2}(x_{k}))c_{2}+...+(\sum
_{k=1}^{n}f_{i}(x_{k})f_{m}(x_{k}))c_{m}=\sum _{k=1}^{n}y_{k}f_{i}(x_{k})}, para
cada i=1,2, . . .,m
Lo cual, en forma matricial, se expresa como:

{\displaystyle {\begin{bmatrix}
{(f_{1},f_{1})}_{d}&{(f_{1},f_{2})}_{d}&...&{(f_{1},f_{m})}_{d}\\
{(f_{2},f_{1})}_{d}&{(f_{2},f_{2})}_{d}&...&{(f_{2},f_{m})}_{d}\\...&...&...&...\\
{(f_{m},f_{1})}_{d}&{(f_{m},f_{2})}_{d}&...&{(f_{m},f_{m})}_{d}\end{bmatrix}}
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}
{(f_{1},y)}_{d}\\{(f_{2},y)}_{d}\\...\\{(f_{m},y)}_{d}\end{bmatrix}}}
{\displaystyle {\begin{bmatrix}
{(f_{1},f_{1})}_{d}&{(f_{1},f_{2})}_{d}&...&{(f_{1},f_{m})}_{d}\\
{(f_{2},f_{1})}_{d}&{(f_{2},f_{2})}_{d}&...&{(f_{2},f_{m})}_{d}\\...&...&...&...\\
{(f_{m},f_{1})}_{d}&{(f_{m},f_{2})}_{d}&...&{(f_{m},f_{m})}_{d}\end{bmatrix}}
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}
{(f_{1},y)}_{d}\\{(f_{2},y)}_{d}\\...\\{(f_{m},y)}_{d}\end{bmatrix}}}

Siendo {\displaystyle {(a,b)}_{d}} {\displaystyle {(a,b)}_{d}} el producto escalar


discreto, definido para dos funciones dadas h(x) y g(x) como:
{\displaystyle {(h(x),g(x))}_{d}=\sum _{k=1}^{n}h(x_{k})g(x_{k})} {\displaystyle
{(h(x),g(x))}_{d}=\sum _{k=1}^{n}h(x_{k})g(x_{k})},

y para una funci�n h(x) y vector cualquiera u, como:

{\displaystyle {(h(x),u)}_{d}=\sum _{k=1}^{n}h(x_{k})u_{k}} {\displaystyle


{(h(x),u)}_{d}=\sum _{k=1}^{n}h(x_{k})u_{k}}

La resoluci�n de dicho sistema permite obtener, para cualquier base de funciones


derivables localmente, la funci�n f(x) que sea mejor aproximaci�n m�nimo cuadr�tica
al conjunto de puntos antes mencionado. La soluci�n es �ptima �esto es, proporciona
la mejor aproximaci�n siguiendo el criterio de m�nimo error cuadr�tico�, puesto que
se obtiene al optimizar el problema.

Corolario
Si se tratara de hallar el conjunto de coeficientes {\displaystyle \{c_{j}\}}
{\displaystyle \{c_{j}\}} tal que {\displaystyle f(x)} f(x) pase exactamente por
todos los pares {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} {\displaystyle {\
{(x_{k},y_{k})\}}_{k=1}^{n}}, esto es, tales que {\displaystyle f(x)} f(x)
interpole a {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} {\displaystyle {\
{(x_{k},y_{k})\}}_{k=1}^{n}}, entonces tendr�a que cumplirse que:

{\displaystyle \sum _{j=1}^{m}c_{j}f_{j}(x_{k})=y_{k}} {\displaystyle \sum


_{j=1}^{m}c_{j}f_{j}(x_{k})=y_{k}}

Que en forma matricial se expresa como:

{\displaystyle {\begin{bmatrix}f_{1}(x_{1})&f_{2}(x_{1})&...&f_{m}(x_{1})\\f_{1}
(x_{2})&f_{2}(x_{2})&...&f_{m}(x_{2})\\...&...&...&...\\f_{1}(x_{n})&f_{2}
(x_{n})&...&f_{m}(x_{n})\end{bmatrix}}
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}y_{1}\\y_{2}
\\...\\y_{n}\end{bmatrix}}=A\cdot c=b} {\displaystyle {\begin{bmatrix}f_{1}
(x_{1})&f_{2}(x_{1})&...&f_{m}(x_{1})\\f_{1}(x_{2})&f_{2}(x_{2})&...&f_{m}
(x_{2})\\...&...&...&...\\f_{1}(x_{n})&f_{2}(x_{n})&...&f_{m}(x_{n})\end{bmatrix}}
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}y_{1}\\y_{2}
\\...\\y_{n}\end{bmatrix}}=A\cdot c=b}

Esto establece un sistema de n ecuaciones y m inc�gnitas, y como en general n>m,


quedar�a sobredeterminado: no tendr�a siempre una soluci�n general. Por tanto, la
aproximaci�n tratar� en realidad de hallar el vector c que mejor aproxime
{\displaystyle A\cdot c=b} {\displaystyle A\cdot c=b}.

Se puede demostrar que la matriz de coeficientes de las ecuaciones normales de


Gauss coincide con {\displaystyle A^{\mathrm {T} }\cdot A} {\displaystyle
A^{\mathrm {T} }\cdot A}, siendo A la matriz de coeficientes exactas, y como el
t�rmino independiente de las ecuaciones normales de Gauss coincide con el vector
{\displaystyle A^{\mathrm {T} }\cdot b} {\displaystyle A^{\mathrm {T} }\cdot b}, se
tiene que los valores {\displaystyle \{c_{j}\}} {\displaystyle \{c_{j}\}} que mejor
aproximan f(x) pueden calcularse como la soluci�n al sistema:

{\displaystyle A^{\mathrm {T} }\cdot A\cdot c=A^{\mathrm {T} }\cdot b}


{\displaystyle A^{\mathrm {T} }\cdot A\cdot c=A^{\mathrm {T} }\cdot b}

que es, precisamente, el sistema de las ecuaciones normales de Gauss.

Deducci�n geom�trica de la aproximaci�n discreta m�nimo cuadr�tica lineal


La mejor aproximaci�n deber� tender a interpolar la funci�n de la que proviene el
conjunto de pares {\displaystyle (x_{k},y_{k})} {\displaystyle (x_{k},y_{k})}, esto
es, deber� tender a pasar exactamente por todos los puntos. Eso supone que se
deber�a cumplir que:

{\displaystyle f(x_{k})=y_{k}\quad {\text{con }}k=1,2,\dots ,n} {\displaystyle


f(x_{k})=y_{k}\quad {\text{con }}k=1,2,\dots ,n}

Sustituyendo f(x) por su expresi�n como combinaci�n lineal de una base de m


funciones:

{\displaystyle \sum _{j=1}^{m}c_{j}f_{j}(x_{k})=y_{k}\quad


{\text{con }}k=1,\dots ,n} {\displaystyle \sum _{j=1}^{m}c_{j}f_{j}
(x_{k})=y_{k}\quad {\text{con }}k=1,\dots ,n}

Esto es, se tendr�a que verificar exactamente un sistema de n ecuaciones y m


inc�gnitas, pero como en general n>m, dicho sistema estar�a sobredeterminado y, por
tanto, sin soluci�n general. De ah� surge la necesidad de aproximarlo. Dicho
sistema podr�a expresarse en forma matricial como:

{\displaystyle {\begin{bmatrix}f_{1}(x_{1})&f_{2}(x_{1})&...&f_{m}(x_{1})\\f_{1}
(x_{2})&f_{2}(x_{2})&...&f_{m}(x_{2})\\...&...&...&...\\f_{1}(x_{n})&f_{2}
(x_{n})&...&f_{m}(x_{n})\end{bmatrix}}\times
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}y_{1}\\y_{2}
\\...\\y_{n}\end{bmatrix}}} {\displaystyle {\begin{bmatrix}f_{1}(x_{1})&f_{2}
(x_{1})&...&f_{m}(x_{1})\\f_{1}(x_{2})&f_{2}(x_{2})&...&f_{m}
(x_{2})\\...&...&...&...\\f_{1}(x_{n})&f_{2}(x_{n})&...&f_{m}
(x_{n})\end{bmatrix}}\times
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}y_{1}\\y_{2}
\\...\\y_{n}\end{bmatrix}}}

Esto es:

{\displaystyle Ac=b\;} {\displaystyle Ac=b\;}

La aproximaci�n trata de hallar el vector c aproximante que mejor aproxime el


sistema {\displaystyle Ac=b} {\displaystyle Ac=b}. Con dicho vector c aproximante,
es posible definir el vector residuo como:

{\displaystyle r=b-Ac\;} {\displaystyle r=b-Ac\;}

De manera que el m�nimo error cuadr�tico supone minimizar el residuo, definiendo su


tama�o seg�n la norma eucl�dea o usual del residuo, que equivale al error
cuadr�tico:

{\displaystyle \|r\|_{2}={\sqrt {(r,r)_{2}}}={\sqrt {r^{\mathrm {T} }r}}={\sqrt


{\sum _{k=1}^{n}(r_{k})^{2}}}} {\displaystyle \|r\|_{2}={\sqrt {(r,r)_{2}}}={\sqrt
{r^{\mathrm {T} }r}}={\sqrt {\sum _{k=1}^{n}(r_{k})^{2}}}}

siendo {\displaystyle (r,r)_{2}} {\displaystyle (r,r)_{2}} el producto interior o


escalar del vector residuo sobre s� mismo. Si atendemos al sistema {\displaystyle
Ac=b} {\displaystyle Ac=b}, entonces se ve claramente que al multiplicar A y c, lo
que se realiza es una combinaci�n lineal de las columnas de A:

{\displaystyle Ac={\begin{bmatrix}A_{1}&A_{2}&...&A_{m}\end{bmatrix}}\times
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}=c_{1}A_{1}+c_{2}A_{2}+...
+c_{m}A_{m}} {\displaystyle
Ac={\begin{bmatrix}A_{1}&A_{2}&...&A_{m}\end{bmatrix}}\times
{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}=c_{1}A_{1}+c_{2}A_{2}+...
+c_{m}A_{m}}
El problema de aproximaci�n ser� hallar aquella combinaci�n lineal de columnas de
la matriz A lo m�s cercana posible al vector b. Se comprueba que el conjunto de las
columnas de A generan un espacio vectorial o span lineal: {\displaystyle
\operatorname {span} (A_{1},A_{2},...,A_{m})} {\displaystyle \operatorname {span}
(A_{1},A_{2},...,A_{m})}, al que el vector b no tiene porqu� pertenecer (si lo
hiciera, el sistema A�c=b tendr�a soluci�n).

Entonces, de los infinitos vectores del {\displaystyle \operatorname {span}


(A_{1},A_{2},...,A_{m})} {\displaystyle \operatorname {span}
(A_{1},A_{2},...,A_{m})} que son combinaci�n lineal de los vectores de la base, se
tratar� de hallar el m�s cercano al vector b.

De entre todos ellos, el que cumple esto con respecto a la norma eucl�dea es la
proyecci�n ortogonal de b sobre {\displaystyle \operatorname {span}
(A_{1},A_{2},...,A_{m})} {\displaystyle \operatorname {span}
(A_{1},A_{2},...,A_{m})}, y que por tanto hace que el tama�o del vector r, que ser�
el vector que une los extremos de los vectores b y proyecci�n ortogonal de b sobre
el span, sea m�nimo, esto es, que minimiza su norma eucl�dea.

Es inmediato ver que si el residuo une b con su proyecci�n ortogonal, entonces es a


su vez ortogonal al {\displaystyle \operatorname {span} (A_{1},A_{2},...,A_{m})}
{\displaystyle \operatorname {span} (A_{1},A_{2},...,A_{m})}, y a cada uno de los
vectores de la base, esto es, ortogonal a cada columna de A.

La condici�n de minimizaci�n del residuo ser�:

{\displaystyle r\perp \operatorname {span} (A_{1},A_{2}...,A_{m})} {\displaystyle


r\perp \operatorname {span} (A_{1},A_{2}...,A_{m})}

Que es cierto si y solo si:

{\displaystyle r\perp A_{j},\forall j\iff A_{j}\perp r,\forall j\iff


(A_{j},r)_{2}=0=A_{j}^{t}r,\forall j=1,2,...,m} {\displaystyle r\perp A_{j},\forall
j\iff A_{j}\perp r,\forall j\iff (A_{j},r)_{2}=0=A_{j}^{t}r,\forall j=1,2,...,m}

A su vez, cada una de las m condiciones de perpendicularidad se pueden agrupar en


una sola:

{\displaystyle A^{\mathrm {T} }r=0\;} {\displaystyle A^{\mathrm {T} }r=0\;}

Sustituyendo el residuo por su expresi�n:

{\displaystyle A^{\mathrm {T} }(b-Ac)=0\iff A^{\mathrm {T} }Ac=A^{\mathrm {T} }b}


{\displaystyle A^{\mathrm {T} }(b-Ac)=0\iff A^{\mathrm {T} }Ac=A^{\mathrm {T} }b}

Por tanto, la mejor aproximaci�n m�nimo cuadrada lineal para un conjunto de puntos
discretos, sean cuales sean las funciones base, se obtiene al resolver el sistema
cuadrado:

{\displaystyle A^{\mathrm {T} }Ac=A^{\mathrm {T} }b\;} {\displaystyle A^{\mathrm


{T} }Ac=A^{\mathrm {T} }b\;}

A esta ecuaci�n se le llama ecuaci�n normal de Gauss, y es v�lida para cualquier


conjunto de funciones base. Si estas son la unidad y la funci�n x, entonces la
aproximaci�n se llama regresi�n lineal.

M�nimos cuadrados y an�lisis de regresi�n


En el an�lisis de regresi�n, se sustituye la relaci�n
{\displaystyle f(x_{i})\approx y_{i}} {\displaystyle f(x_{i})\approx y_{i}}

por

{\displaystyle f(x_{i})=y_{i}+\varepsilon _{i},} {\displaystyle f(x_{i})=y_{i}


+\varepsilon _{i},}

siendo el t�rmino de perturbaci�n e una variable aleatoria con media cero.


Obs�rvese que estamos asumiendo que los valores x son exactos, y que todos los
errores est�n en los valores y. De nuevo, distinguimos entre regresi�n lineal, en
cuyo caso la funci�n f es lineal para los par�metros a ser determinados (ej., f(x)
= ax2 + bx + c), y regresi�n no lineal. Como antes, la regresi�n lineal es mucho
m�s sencilla que la no lineal. (Es tentador pensar que la raz�n del nombre
regresi�n lineal es que la gr�fica de la funci�n f(x) = ax + b es una l�nea.
Ajustar una curva f(x) = ax2 + bx + c, estimando a, b y c por m�nimos cuadrados es
un ejemplo de regresi�n lineal porque el vector de estimadores m�nimos cuadr�ticos
de a, b y c es una transformaci�n lineal del vector cuyos componentes son f(xi) +
ei).

Los par�metros (a, b y c en el ejemplo anterior) se estiman con frecuencia mediante


m�nimos cuadrados: se toman aquellos valores que minimicen la suma S. El teorema de
Gauss-M�rkov establece que los estimadores m�nimos cuadr�ticos son �ptimos en el
sentido de que son los estimadores lineales insesgados de menor varianza, y por
tanto de menor error cuadr�tico medio, si tomamos f(x) = ax + b estando a y b por
determinar y con los t�rminos de perturbaci�n e independientes y distribuidos
id�nticamente (v�ase el art�culo si desea una explicaci�n m�s detallada y con
condiciones menos restrictivas sobre los t�rminos de perturbaci�n).

La estimaci�n de m�nimos cuadrados para modelos lineales es notoria por su falta de


robustez frente a valores at�picos (outliers). Si la distribuci�n de los at�picos
es asim�trica, los estimadores pueden estar sesgados. En presencia de cualquier
valor at�pico, los estimadores m�nimos cuadr�ticos son ineficientes y pueden serlo
en extremo. Si aparecen valores at�picos en los datos, son m�s apropiados los
m�todos de regresi�n robusta.

V�ase tambi�n
Regresi�n isot�nica
Filtro de m�nimos cuadrados promedio
Estimaci�n de m�nimos cuadrados de coeficientes para regresi�n lineal
Regresi�n lineal
M�nimos cuadrados m�viles
An�lisis de regresi�n
Regresi�n robusta
Valor eficaz
M�nimos cuadrados totales
M�nimos cuadrados ponderados
An�lisis de la varianza
Ecuaciones normales del problema de cuadrados m�nimos
Algoritmo de Levenberg-Marquardt
Referencias
Abdi, H (2003). �[1] (2003). Least-squares.�. M. Lewis-Beck, A. Bryman, T. Futing
(Eds): Encyclopedia for research methods for the social sciences. Thousand Oaks
(CA): Sage. pp. 792-795.

Vous aimerez peut-être aussi