Vous êtes sur la page 1sur 12

Aplicación de la regresión lineal en un problema de pobreza

Application of linear regression on the problem of poverty


Diego Fernando Cardona Madariaga*
Javier Leonardo González Rodríguez**
Miller Rivera Lozano***
Edwin Hernán Cárdenas Vallejo****
Universidad del Rosario

Recibido: 25-07-13 /Aceptado: 01-11-13

Resumen
Este artículo pretende mostrar al profesional de cualquier área, las bondades de la estadística
inferencial en lo referente al análisis de regresión lineal simple. Para ello se recurre a la observación
de algunas situaciones de la administración y la ingeniería y en particular, al desarrollo de un caso
aplicado a la economía colombiana.

Palabras clave: Regresión lineal, estadística inferencial.

Abstract
This article attempts to demonstrate to professionals in any field the importance of inferential
statistics with regard to simple linear regression analysis. To accomplish this we turn to the
observation ofa few situations ofadministration and engineering and in particular, the development
of a case applied to the Colombian economy.

Key words: lineal regression analysis, inferential statistics.

*
Matemático, Ingeniero Civil, MSc y PhD en Ciencias Administrativas; profesor titular de la Escuela de Administración de la Universidad
del Rosario con funciones de director del Doctorado en Ciencias de la Dirección. Correo electrónico: diego.cardona@urosario.
edu.co.
**
Médico, Especialista en Salud Pública y Ph. D. en Economía y Gestión de la Salud; profesor principal de la Escuela de Administración
de la Universidad del Rosario con funciones de director de la Maestría en Administración de la Salud y Especializaciones de Gerencia
en la Salud. Correo electrónico: javier.gonzalez@urosario.edu.co
***
Ingeniero de Sistemas, Especialista en Auditoría de Sistemas e Ingeniería de Software, M. Sc. en Administración; con funciones
de coordinador del Laboratorio de Modelamiento y Simulación en la Escuela de Administración de la Universidad del Rosario.
Correo electrónico: miller.rivera@urosario.edu.co
****
Ingeniero Electrónico, Especialista en Educación Matemática, aspirante a Magister en Educación, con funciones de docencia
en la Secretaría de Educación Distrital de Bogotá y Corporación Unificada Nacional de Educación Superior. Correo electrónico:
edwin_cardenas@cun.edu.co
Aplicación de la regresión lineal en un problema de pobreza
74 Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano, Edwin Hernán Cárdenas Vallejo

Introducción se relacionan dos variables. Debido a ello, hacen


pronósticos a tientas e incluso temerarios; sin
Enlamayoríadelas investigaciones –sin importar el embargo, si dichos profesionales tienen la posibi-
campo del conocimiento en las que se desarrollen– lidad de tomar datos y utilizar un procedimiento
en las cuales se realicen mediciones, observaciones estadístico de análisis para determinar cómo lo
o experimentos de donde se obtengan datos de conocido se relaciona con el evento futuro, podrían
diferentes variables; es fundamental determinar ayudar considerablemente en el mejoramiento
algún tipo de relación de dependencia entre de los procesos que administran o en la solución
las variables con el fin de hacer predicciones o eficaz de los problemas que se les presentan.
pronósticos de eventos futuros de acuerdo con el
comportamiento de ellas. Por ejemplo, existen un El procedimiento estadístico que se utiliza para
gran número de estudios en administración donde este fin se conoce como análisis de regresión
se demuestra la relación de dependencia entre que permite establecer la relación funcional o
los gastos en publicidad y el volumen de ventas ecuación matemática que relaciona las variables,
de cierto producto; también, en economía, se ha así como la fuerza de esa relación.
demostrado la relación entre la demanda u oferta
de cierto producto con respecto al número de El término regresión fue utilizado por primera
artículos que se han colocado en el mercado; y así vez como un concepto estadístico en 1877 por
mismo, la relación entre la variación en el precio de sir Francis Galton, quien llevó a cabo un estudio
ese producto y la cantidad de unidades producidas. que mostró que la estatura de los niños nacidos
de padres altos tiende a retroceder o “regresar”
En medicina, se han efectuado estudios de la hacia la estatura media de la población. Designó
reducción del peso de una persona en términos la palabra regresión como el nombre del proceso
del número de semanas que ha seguido una dieta general de predecir una variable (la estatura de
específica; o la cantidad demedicamento absorbido los niños) a partir de otra (la estatura del padre o
por el organismo en función del tiempo. de la madre). Más tarde, los estadísticos acuñaron
el término regresión múltiple para describir el
En otro caso, los ingenieros civiles saben que el proceso mediante el cual se utilizan varias variables
concreto de alta calidad tiene unos componentes para predecir otra. (Devore, 2005)
específicos en las concentraciones adecuadas y que
la resistencia del material disminuye conforme ese En la terminología de la regresión, la variable que
concreto se mezcle con otros elementos; pero el se va a predecir se llama dependiente, a explicar,
concreto más puro aumenta muchísimo los costos o endógena. La o las variables que se usan para
de la obra, entonces al ingeniero le interesará predecir el valor de la variable dependiente se
hacer un análisis y encontrar la relación entre llaman independientes, explicativas o exógenas.
porcentaje de pureza del concreto y su resistencia
y también la relación entre porcentaje de pureza En general, existen cuatro posibles formas en que
del concreto y costo de la obra para determinar las variables se pueden relacionar, a saber: Relación
el nivel óptimo de resistencia que exige la obra lineal directa, relación lineal inversa, relación no
sin exceder el presupuesto y sin bajar la calidad. lineal directa y relación no lineal inversa (Figura
1), cuya estructura formal y funcional, permite
Algunos profesionales, sin importar su especia- dilucidar con objetividad las actividades orientadas
lidad, confían en su intuición para juzgar como a decidir qué ecuación se debe emplear, cuál ha

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Revista
INTERACCIÓN
75

de ser la ecuación que mejor se ajusta a los datos se aproxima por medio de una línea recta. A esto
y cómo debe validarse la significancia estadística se le llama regresión lineal simple.
de los pronósticos realizados.
Este análisis se aplicará a una situación particular
Figura 1. Tipos de relación entre dos variables. en el campo de la economía.

Una aplicación del modelo de regresión lineal


Con el fin de estudiar este modelo, se emplearán los
datos tomados de una muestra real, extraídos de
un comunicado de prensa que revela el porcentaje
de pobreza, pobreza extrema y el coeficiente de
Gini (indicador de la desigualdad económica en
una población) en los años 2010 y 2011 de las
trece principales ciudades de Colombia.

Muchos autores que han hecho estudios sobre


modelos de regresión, entre los que se pueden
citar a: Anderson, D. R., Sweeney, D. J., & Williams,
T. A. (2001), Devore, J. L. (2005), Evans, M., &
Rosenthal, J. S. (2005), Freund, J. E., & Simon,
En este artículo sedescribirá el análisis deregresión G. A. (1994), Levin, R. I., & Rubin, D. S. (2004)
donde intervienen una variable dependiente y una y Miller, I. (2000); coinciden en que siempre que
independiente, y en la cual la relación entre ellas se analizan datos observados o recopilados para

Tabla 1. Datos de pobreza en Colombia en 2010 y 2011.

Nueva Metodología
Dominio Pobreza Pobreza Extrema Gini
2010 2011 2010 2011 2010 2011
Pasto 43,2 40,6 11,7 8,8 52,3 52,2
Montería 39,7 37,5 6,7 6,5 52,5 53,0
Barranquilla 39,5 34,7 7,4 5,3 49,7 47,2
Cúcuta 39,3 33,9 8,4 5,7 47,9 47,1
Cartagena 34,2 33,4 6,2 4,7 48,9 48,8
Cali 26,1 25,1 6,4 5,2 52,9 50,4
Villavicencio 25,4 23,0 4,8 4,0 46,7 46,7
Ibagué 26,6 22,0 4,3 2,7 49,5 44,9
Pereira 26,8 21,6 3,8 2,2 45,6 45,1
Manizales 23,8 19,2 4,7 2,3 49,5 47,1
Medellín 22,0 19,2 5,6 4,0 53,8 50,7
Bogotá 15,5 13,1 2,6 2,0 52,6 52,2
Bucaramanga 10,9 10,7 1,2 1,1 45,0 44,9

Fuente: DANE (2012)

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Aplicación de la regresión lineal en un problema de pobreza
76 Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano, Edwin Hernán Cárdenas Vallejo

llegar a una función o ecuación matemática que De acuerdo con Anderson, et al. (2001), en este
describa la relación entre las variables por medio de modelo, es una función lineal de (la parte
una regresión, se deben enfrentar tres problemas: ) más que representa el término de
error y explica la variabilidad en que no se puede
1. Decidir qué clase de curva muestran los puntos explicar con la relación lineal. A este término se
y por tanto qué clase de ecuación se debe usar. le asocian los siguientes supuestos
2. Encontrar la ecuación particular que mejor se
ajuste a los datos. 1. El término de error es una variable aleatoria con
3. Demostrar que laecuaciónparticular encontrada media o valor esperado igual a cero;
cumple con ciertos aspectos referentes a los 2. La varianza de , representada por σ2, es igual
méritos de ésta para hacer pronósticos para todos los valores de . Esto implica que
la varianza de y es igual a σ2 y es la misma para
Para decidir qué clase de función podría ajustarse todos los valores de .
a la curva, de acuerdo con las posibilidades de la 3. Los valores de son independientes. El valor de
figura 1, debe hacerse una gráfica de dispersión para un determinado valor de x no se relaciona
de los datos observados. Si en dicha gráfica se con el valor de para cualquier otro valor de ;
aprecia que los puntos se distribuyen alrededor así, el valor de para determinado valor de
de una recta, se procede a realizar un análisis de no se relaciona con el valor de y para cualquier
regresión lineal. otro valor de
4. El término de error, , es una variable aleatoria
Figura 2. Gráfica de dispersión de los datos de con distribución normal.
pobreza en Colombia.
Losvalores delosparámetros noseconocen
y deben estimarse a partir de los datos de la
muestra . Estos coeficientes que se calculan de la
muestra son conocidos como regresores ( ).
La ecuación estimada de regresión es

Para calcular los regresores se emplea el método de


los mínimos cuadrados el cual es un procedimiento
que se remonta al inicio del siglo XIX por el trabajo
del matemático francés Adrien Legendre

Criterio de los mínimos cuadrados


La gráfica de dispersión nos sugiere que existe
una relación lineal entre la variable independiente Este método emplea los datos de la muestra para
porcentaje de pobreza en 2010 y la variable determinar las características de la recta que
dependienteporcentajedepobrezaen2011(Figura2) hacen mínima la suma de los cuadrados de las
desviaciones:
El modelo de regresión lineal simple es:

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Revista
INTERACCIÓN
77

Siendo: respectivamente. Remplazando estos datos en la


ecuación 2, se tiene que la ecuación de regresión
yi = valor observado de la variable dependiente para las variables pobreza en 2010 y pobreza en
para la i-ésima observación. 2011 es:
= valor estimado de la variable dependiente
para la i-ésima observación.

Elcoeficiente también corresponde alapendiente


de la recta. En general, este coeficiente expresa
Minimizar el miembro derecho de la ecuación la razón de cambio entre la variable dependiente
(3) implica calcular las derivadas parciales de con respecto a un cambio unitario en la variable
la expresión con respecto a los coeficientes de independiente .
regresión e igualar a cero las dos derivadas.
Al finalizar este procedimiento se llega a las En el ejemplo, la pendiente de la recta es positiva,
siguientes ecuaciones, conocidas como ecuaciones lo que implica que en las ciudades donde se observó
normales. (Walpole & Myers, 1999) mayor pobreza en 2010, también se observó
mayor pobreza en 2011. Pero como la pendiente
Ecuaciones normales es un número entre cero y uno, significa que el
incremento en el porcentaje de pobreza en 2011
entre una ciudad y otra es menor que en el 2010.

Con respecto a los casos enunciados en la


introducción, se puede decir que si la relación
Donde n es el número de observaciones.
entre los gastos en publicidad y el volumen de
ventas del producto es lineal; el regresor estimado
Alresolver algebraicamente el sistema deecuaciones
indicaría la cantidad en que se incrementan
anterior se obtienen las soluciones para .
las ventas por cada unidad monetaria en que se
incremente el gasto en publicidad.
Con el fin de evitar desarrollos algebraicos y
aritméticos engorrosos se utilizará la hoja de
Así mismo, si la relación entre la cantidad de masa
cálculo EXCEL®. Al ingresar los datos de la tabla 1
que la persona pierde y el número de semanas que
y empleando la herramienta ANÁLISIS DE DATOS
sigue la dieta es lineal; el coeficiente indicaría el
en la opción REGRESIÓN, se obtiene la siguiente
peso perdido por semana y con ello el nutricionista
información:
podría predecir la cantidad de masa que perdería
el paciente en un cierto número de semanas o
Tabla 2. Coeficientes de regresión e intervalos
determinar la cantidad de semanas necesarias
de confianza.
para que el paciente pierda el peso deseado.
Coef Err típ Estad t Probab Inf 95% Sup 95%
Intercep -1,31 1,530 -0,859 0,408 -4,682 2,053
Análisis de regresión
Var X 1 0,941 0,051 18,6 0,000 0,830 1,053 Con el fin de determinar la pertinencia de la
ecuación de regresión hallada, es necesario hacer
En esta tabla los valores de intercepción y variable un análisis de la bondad de ajuste de la recta,
X1 hacen referencia a los coeficientes demostrar si la relación es estadísticamente

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Aplicación de la regresión lineal en un problema de pobreza
78 Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano, Edwin Hernán Cárdenas Vallejo

significativa y validar los supuestos acerca del Existe una relación entre las tres sumas:
término de error.

Para ello se deben calcular los siguientes


estadísticos: Ahora bien, es posible entender cómo se pueden
emplear las tres sumas de cuadrados para
El coeficiente de determinación: suministrar una medida de la bondad de ajuste
para la ecuación de regresión.
Es una medida de la bondad de ajuste para una
ecuación de regresión. Esa ecuación tendría un ajuste perfecto si cada
valor observado de la variable independiente
Para la i-ésima observación de la muestra, la estuviera sobre la línea de regresión. En este caso
desviación entre el valor observado de la variable cada diferencia sería cero, por tanto SSE=0.
dependiente yi y el valor estimado de la variable De la ecuación (4) se tendría que SST=SSR y por
dependiente , se llama i-ésimo residual. consiguiente la relación SSR/SST sería igual a 1
Representa el error que se comete al usar para como el máximo ajuste. De manera análoga, los
estimar yi. ajustes menos perfectos darán como resultado
mayores valores de SSE. En consecuencia, de (4)
La suma de los cuadrados de esos residuales es se deduce que el máximo valor de SSE se tiene
lo que se minimiza en el método de mínimos cuando SSR es cero.
cuadrados. También se le conoce como la suma
de los cuadrados debidos al error (SSE) La relación SSR/SST, se denomina coeficiente de
determinación y se representa por r2.

El valor de SSE es una medida del error que se


comete al usar la ecuación de regresión para Expresando este valor como un porcentaje, se
calcular los valores de la variable dependiente puede interpretar a r2 como el porcentaje de la
en la muestra. variación de los valores de la variable dependiente
que se puede explicar con la ecuación de regresión.
Otro valor de importancia es la medida del error (Levin & Rubin, 2004)
incurrido al usar para estimar yi, llamado suma
total de cuadrados (SST): Para el caso que se está analizando, el programa
EXCEL® entrega también la siguiente información

Tabla 3. Estadísticos de la regresión.


Para saber cuánto se desvían los valores de
medidos en la línea de regresión, de los valores Estadísticas de la regresión
de , se calcula otra suma de cuadrados. A esa Coeficiente de correlación múltiple 0,984467
suma se le llama suma de cuadrados debida a la Coeficiente de determinación R^2 0,969175
regresión, y se representa por SSR.
R^2 ajustado 0,9663728
Error típico 1,73579
Observaciones 13

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Revista
INTERACCIÓN
79

Análisis de varianza en una relación lineal, el coeficiente de


Grados de determinación se puede usar en relaciones no
Suma de cuadrados
libertad lineales y en relaciones con dos o más variables
Regresión 1 1042,046578 independientes. En este sentido, el coeficiente de
Residuos 11 33,14265228 determinación tiene mayor aplicabilidad. (Walpole
Total 12 1075,189231 & Myers, 1999)
Promedio de los
F Valor crítico de F Los coeficientes de determinación y correlación no
cuadrados
1042,046578 345,854 1,16437E-09 son suficientes para llegar a la conclusión acerca
3,012968389
de si la relación es estadísticamente significativa.
Esa conclusión se debe basar en consideraciones
La tabla 3 muestra el valor de SSE, SSR Y SST en la donde intervenga el tamaño de la muestra y las
columna que indica la suma de cuadrados, de alli propiedades de las distribuciones muestrales
se obtiene el coeficiente r2 que aparece (0,969175). adecuadas de los estimadores de los mínimos
Esto revela que la ecuación de regresión explica en cuadrados.
un 96,92% los valores observados de la pobreza
en 2011 según los valores de pobreza en 2010. Pruebas de significancia

En la mayoría de situaciones prácticas no es común La ecuación de regresión lineal simple indica


obtener coeficientes de determinación tan altos, que el valor medio esperado de es una función
pero existen valores aceptables que varían de lineal de :
acuerdo con la rama del conocimiento sobre el
que se verse el estudio o investigación.

Si =0, entonces E(y)= . En este caso el valor


Coeficiente de correlación:
medio de no depende del valor de y se concluye
que no existe relación lineal entre las variables. En
Es la segunda medida que se usa para describir qué
forma análoga, si el valor de no es igual a cero,
tan bien explica una variable a la otra. El coeficiente
se concluye que las dos variables se relacionan.
de correlación de la muestra se denota por r y es
Así, para probar si hay alguna relación importante
la raíz cuadrada del coeficiente de determinación:
de regresión debemos efectuar una prueba de
hipótesis para determinar si el valor de β es cero.
Existendos pruebas queseusancon más frecuencia
El signo del coeficiente indica si la relación es y para ellas se necesita un estimado de la varianza
directa o inversa. del error en el modelo de regresión.

La tabla 3 muestra un coeficiente de correlación Estimado de σ2


muy alto (r = 0,9845), lo que implica una relación
de dependencia lineal muy fuerte entre los valores La varianza de , también representa la varianza
de pobreza de 2010 y 2011 en la principales de los valores de respecto a la línea de regresión.
ciudades de Colombia. Así, la suma de los residuales al cuadrado, SSE, es
una medida de la variabilidad de las observaciones
Es importante resaltar que el coeftciente de reales respecto a la línea de regresión. Cada suma
correlación solo mide la fuerza de asociación de cuadrados tiene asociado un número que

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Aplicación de la regresión lineal en un problema de pobreza
80 Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano, Edwin Hernán Cárdenas Vallejo

llamamos grados de libertad. Se ha demostrado En una gráfica de residuales se puede presentar


que SSE tiene n–2 grados de libertad, porque se alguno de estos patrones.
deben estimar dos parámetros y .
Figura 3. Patrones de una gráfica de residuales.
El error cuadrado medio (s2) es el estimado de σ2.
Se calcula mediante la ecuación:

Desviación estándar de la estimación

El error típico o desviación estándar del estimado


se calcula como la raíz cuadrada de la varianza
del estimado.

La tabla 3 muestra un error típico de 1,73579

Las pruebas de significancia que se efectúan son: Si la relación de dependencia hallada cumple la
la prueba t y la prueba F. hipótesis de que la varianza de es igual para todos
los valores de x y si el modelo de regresión lineal es
La explicación detallada acerca de la obtención de una representación adecuada de la relación entre
estos estadísticos de prueba t y F se encuentra en las variables; entonces, la gráfica debe mostrar
Rivera, M., & Cárdenas V., E. (2013) un patrón muy similar a una franja horizontal de
puntos (figura 3a).
La tabla 3 muestra el valor del estadístico deprueba
F y la tabla 2 el valor del estadístico de prueba t Para el caso que se está analizando, la herramienta
para . En ambos casos el valor de probabilidad o de regresión de EXCEL® da la posibilidad de
valor crítico es practicamente cero lo cual implica mostrar este tipo de gráficas y hacer un análisis
que la relación es estadísticamente significativa. de residuales

Análisis de Residuales Figura 4. Gráfica de residuales.

Este análisis permite validar los supuestos del


modelo con respecto al error y se basa en el examen
de varias gráficas a saber:

• Gráfica delosresiduales en función delavariable


independiente.
• Gráfica de residuales estandarizados.
• Gráfica de probabilidad normal.

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Revista
INTERACCIÓN
81

Esta gráfica no muestra un patrón que haga dudar Uso de la ecuación de regresión para
sobre la hipótesis de que la varianza es constante.
estimar y predecir
La gráfica de residuos estandarizados muestra el
Si el análisis de la ecuación de regresión obtenida
mismopatrónquelaanterioryseusaparaobservar
con los datos demuestra que existe una relación
la existencia de valores atípicos o influyentes. Si el
estadísticamente significativa entre las variables,
error se distribuye en forma normal, los residuos
y si el ajuste que proporciona la ecuación es bueno,
deben estar en el rango de dos desviaciones
esa ecuación podría usarse para estimaciones y
estándar.
predicciones.
Figura 5. Gráfica de residuales estandarizados.
Estimación de intervalo

Al hacer una estimación puntual de un valor de


dado un valor de , no se tiene idea alguna de la
precisión asociada con el valor estimado.

Con ese fin, se determinan estimaciones de


intervalo. El primer tipo de estimado es el de
intervalo de confianza, que es un estimado del valor
medio de para determinado valor de . Elsegundo
tipo es el estimado de intervalo de predicción, que se
usa cuando deseamos un estimado de intervalo de
valor individual de que corresponda adeterminado
En la gráfica se observa que todos los residuales
valor de . Con la estimación puntual se obtiene el
se encuentran en el intervalo de dos desviaciones mismo valor, sea que estemos estimando el valor
estándar. medio de o prediciendo un valor individual de
, pero con los estimados de intervalo se obtienen
La gráfica de probabilidad normal, también se usa
valores distintos. (Freund & Simon, 1994)
para validar el supuesto de que el error tiene una
distribución normal. Esta gráfica debe mostrar
una recta. Estimado del intervalo de confianza del
valor medio de
Figura 6. Gráfico de probabilidad normal.
Al estimar el porcentaje promedio de pobreza en
2011 de todas las ciudades que en 2010 mostraron
un índice de pobreza de 25,3%. El estimado de
E(yp), el valor medio desconocido, es:

Donde es el estimado del valor particular de .

Dado que no se puede esperar que sea


exactamente igual a . Entonces es necesario

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Aplicación de la regresión lineal en un problema de pobreza
82 Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano, Edwin Hernán Cárdenas Vallejo

considerar la varianza de los estimados basados muy bueno (valor de r2 muy alto), puede aplicarse
en la ecuación de regresión. La fórmula para en cualquier intervalo de valores. Aun cuando una
estimar la desviación estándar de dado un valor relación se cumpla para el intervalo de puntos de la
particular de , es: muestra, puedeexistir una relación completamente
distinta para un intervalo diferente. Por ejemplo,
la relación gastos en publicidad y volumen de
ventas puede ser lineal para cierto intervalo de
gasto o inversión publicitaria pero en la medida
que el público conozca del producto y se sature de
La ecuación general para un estimado del intervalo publicidad esa relación ya no será lineal, pues las
de confianza de E(yp) dado un valor particular
ventas no se incrementarán en la misma medida
de es: que incrementa la inversión en publicidad.

Una ecuación de estimación es válida para el


mismo rango dentro del cual se tomó la muestra
En donde el coeficiente de confianza es 1–α y inicialmente (Levin & Rubin, 2004). Sin
se basa en una distribución t con n–2 grados de embargo, si el investigador tiene la certeza de
libertad. que el comportamiento entre las variables será
el mismo en otros intervalos fuera del rango de
Para determinar un estimado de intervalo de la muestra, entonces puede usar la ecuación para
confianza de 95% para el porcentaje promedio hacer predicciones.
de pobreza en 2011 de todas las ciudades que en
2010 mostraron un índice de pobreza de 25,3%,
necesitamos el valor de t para α/2=0.025 y n–2= Estimado del intervalo de predicción para
11 grados de libertad. Así, con =22,5 t0.025=2,201 un valor particular de y
y =0,5111, tenemos:
Para este análisis, se supone que en vez de estimar
el valor medio del porcentaje de pobreza, deseamos
estimar el porcentaje de pobreza en 2011 para la
ciudad de Armenia con un índice de pobreza de
25,3% en 2010.
Entonces, con una confianza del 95% sepuededecir
que el porcentaje promedio de pobreza en 2011
de todas las ciudades que en 2010 mostraron un El estimado para ese valor particular por medio
índice de pobreza de 25,3% está entre 21,375% de la ecuación de regresión es:
y 23,625%.

Obsérvese que la desviación estándar estimada de


Que es el mismo valor que el estimado puntual
expresada en la ecuación (5) es mínima cuando
para el porcentaje promedio.
. Esto implica que se puede hacer el mejor
estimado, o el más preciso, del valor medio de
Para determinar un estimado del intervalo de
siempre que se use el valor medio de .
predicción debemos determinar primero la
varianza asociada al empleo de como estimado
En la estimación y la inferencia, un error común es
de un valor individual de . Esta varianza está
suponer que la línea de regresión, así el ajuste sea
formada por la suma de dos componentes:

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Revista
INTERACCIÓN
83

1. La varianza de los valores individuales de Estimación de los parámetros del modelo


respecto del promedio cuyo estimado es de regresión lineal
2. La varianza asociada al uso de para estimar
E( ) cuyo estimado es . Uno de los conceptos fundamentales sobre el
que se ha basado este análisis, es que la ecuación
Así, el estimado de la varianza de un valor de regresión lineal obtenida a partir de los datos
individual es: de la muestra es un estimado de los parámetros
del modelo para la población. Por lo tanto, es
posible determinar intervalos de confianza para
los coeficientes de la ecuación de regresión:
Por consiguiente, un estimado de la desviación
estándar de un valor un individual de es:

La ecuación general para un estimado del intervalo


de predicción para un valor individual de dado La tabla 2 muestra los valores inferior y superior
un valor particular de x es: para el intervalo de confianza del 95% de los
parámetros del modelo, de tal forma que:

En donde el coeficiente de confianza es 1–α y


se basa en una distribución t con n–2 grados de
libertad.
Con esta información, el investigador encuentra
Para determinar un estimado de intervalo de que la tasa de incremento de la pobreza en
predicción de 95% para el porcentaje de pobreza 2011 está entre 0,83% y 1,053% por cada 1%
en 2011 de la ciudad de Armenia que en 2010 de incremento de la pobreza en 2010 entre una
mostró un índice de pobreza de 25,3%, se necesita ciudad y otra. Además con las predicciones y
el valor de t para α/2=0.025 y n–2= 11 grados de estimaciones hechas puede hacer conclusiones
libertad. Así, con =22,5, t0.025=2,201 y = sobre la situación de pobreza esperada en las
1,8095, se tiene: principales ciudades del país y si este investigador
tiene un cargo de responsabilidad e influencia en
el gobierno colombiano, puede generar propuestas
para disminuir significativamente esos índices.

Finalmente, es importante mencionar que se


Entonces, con una confianza del 95% sepuededecir
puede cometer otro error al utilizar el análisis
que el porcentaje de pobreza en 2011 de la ciudad
de regresión, y es suponer que un cambio en una
de Armenia que en 2010 tenía un porcentaje de
variable es “ocasionado” por un cambio en la otra
pobreza de 25,3% está entre 18,52% y 26,48%.
variable. Los análisis de regresión y correlación no
pueden, de ninguna manera, determinar la causa
De acuerdo con lo anterior, el intervalo de
y el efecto. Si se dice que existe una relación lineal
predicción es mayor que el intervalo de confianza.

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación
Aplicación de la regresión lineal en un problema de pobreza
84 Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano, Edwin Hernán Cárdenas Vallejo

entre el número de canas y de arrugas que van regresión, es unaherramientamuypocoaprovechada


apareciendo en una persona, no se puede decir comolodemuestran un gran número de trabajos de
que una ocasiona la otra pues es muy posible que gradoa nivel deposgradoy trabajos de investigación
existan otras variables asociadas que sean la causa; en los cuales el desarrollo estadístico solo se limita
en este caso la edad de la persona, por ejemplo. a la parte descriptiva y no a la inferencial.

La validez de una conclusión de tipo causa y efecto Referencias


requiere de una justificación teórica, o del buen juicio
por parte del analista. (Anderson, Sweeney, & Anderson, D., Sweeney, D. & Williams, T. (2001).
Williams, 2001) Estadística para administración y economía (7a
ed., Vol. II). México: Thomson.
DANE. (17 de mayo de 2012). “Pobreza en Colombia”.
Conclusiones Comunicado de prensa, 6.
Devore, J. L. (2005). Probabilidad y estadística para
El análisis de regresión lineal simple, como parte
ingeniería y ciencias. (6a ed.). México: Thomson
de la inferencia estadística, es fundamental para Learning.
determinar relaciones de dependencia lineal entre Evans, M. & Rosenthal, J. (2005). Probabilidad y
variables y establecer su validez con el fin de hacer estadística. La ciencia de la incertidumbre.
estimaciones y predicciones dentro de un intervalo Barcelona: Reverté.
de confianza deseado. Freund, J. & Simon, G. (1994). Estadística elemental.
(8a ed.). México: Prentice Hall.
Obtener una ecuación de regresión que describe Levin, R. & Rubin, D. (2004). Estadística para
el comportamiento lineal entre dos variables administración y economía. México: Pearson
Educación.
permite pronosticar valores futuros de la variable Lopera, C. (2002). Análisis de residuales. Universidad
bajo análisis con cierto grado de certeza, lo cual Nacional de Colombia. Disponible en: http://
constituye una herramienta poderosa pues le da www.docentes.unal.edu.co/cmlopera/docs/
al profesional la posibilidad de hacer ajustes en los Estad2/2_RLM/2.(Complemento)Análisis de
procesos, tomar decisiones o establecer políticas. Residuales y Otros en RLM.pdf
Mendoza, H., Vargas, J., López, L. & Bautista, G.
Por ejemplo, si un profesional en ciencias políticas (2002). Métodos de regresión. Bogotá:
o administración pública utiliza el estudio sobre Universidad Nacional de Colombia. Disponible
índices de pobreza realizado con los datos de las en: http://www.virtual.unal.edu.co/cursos/
trece principales ciudades del país yconcluye que los ciencias/2007315/
valores observados y estimados están pordebajo de Miller, I. (2000). Estadística matemática conaplicaciones.
(6a ed.). México: Pearson Educación.
lamediaen América Latina oqueestán pordebajo de
Muñoz, R. (2006). Comprobación de los supuestos del
lameta nacional; podría establecer un programa que modelo de regresión lineal. Cali: Universidad
disminuya en forma eficaz esos índices de pobreza. Autónoma de Occidente. Disponible en: http://
augusta.uao.edu.co/moodle/file.php/284/18_
Así mismo, si un administrador o economista supuestos_de_la_regresion_lineal.pdf
realiza el análisis sobre la relación de dependencia Pacheco, P. (2012). Validación de supuestos.
entre el gasto en publicidad y el volumen de ventas Bogotá. Universidad Nacional de Colombia.
de un producto podría determinar la inversión Disponible en: http://www.virtual.unal.edu.
óptima en publicidad para ese producto y obtener co/cursos/ciencias/dis_exp/und_3/pdf/
validaciondesupuestosunidad 3b[1].pdf
el máximo de ventas o predecir la cantidad de Vilar, J. (2006). Identificación de valores atípicos
unidades vendidas de acuerdo con un valor y observaciones influyentes. La Coruña:
invertido en publicidad. Universidad de La Coruña. Disponible en: http://
www.udc.es/dep/mate/estadistica2/sec4_6.html
Apesardeloimportantequeresultaserparacualquier Walpole, R.& Myers, R. (1999). Probabilidad yestadística
profesional el conocimiento y uso del análisis de para ingenieros. (6a ed.). México: Prentice Hall.

ISSN 1657-7531 | Revista Interacción Vol. 12 | Octubre 2012-2013 | págs. 73-84


Universidad Libre | Facultad de Ciencias de la Educación

Vous aimerez peut-être aussi