Académique Documents
Professionnel Documents
Culture Documents
1.
Introduccin
2. Aspectos Tericos
3. Antecedentes del Problema
4. Desarrollo
5. Hiptesis
6. Interpretacin
7. Conclusin
1. INTRODUCCIN
Si sabemos que existe una relacin entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y
pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados,
etc.), puede darse el problema de que la dependiente asuma mltiples valores para
una combinacin de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemtica y no
necesariamente de causalidad. As, para un mismo nmero de unidades
producidas, pueden existir niveles de costo, que varan empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los
cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin,
en la cual la variable independiente se asocia con un indicador de tendencia central
de la variable dependiente. Cabe recordar que en trminos generales, una funcin
es un tipo de relacin en la cual para cada valor de la variable independiente le
corresponde uno y slo un valor de la variable dependiente.
2. ASPECTOS TERICOS
REGRESIN SIMPLE Y CORRELACIN
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar
para solucionar problemas comunes en los negocios.
2.
La variable Y es aleatoria
3.
4.
5.
6.
152
50
Con estos datos vamos a plantear una ecuacin de regresin simple que nos
permita pronosticar los pesos conociendo las tallas. Utilizaremos = 0.05, y
contrastaremos nuestra hiptesis con la prueba F.
4. DESARROLLO
datos
1
2
3
4
5
6
7
8
9
10
11
12
Representacin Grfica
5. HIPTESIS
HO: No hay relacin entre la variable peso y la variable estatura.
HA: Hay relacin entre la variable peso y la variable estatura.
Tabla de anlisis de varianza
Fuente de
Variacin
Debido a
la regresin
error
total
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y
aceptamos que la variable estatura est relacionada con la variable peso con un
95% de confianza.
Se obtiene:
7. CONCLUSIN
Regresin y correlacin
1.
Introduccin
2. Marco Terico
3. Desarrollo de un Ejercicio
4. Bibliografa
1.
Introduccin
A continuacin, desarrollare el grado de relacin entre dos o mas variables en
lo que llamaremos anlisis de correlacin, Para representar esta relacin
utilizaremos una representacin grfica llamada diagrama de
dispersin, estudiaremos un modelo matemtico para estimar el valor de
una variable basndonos en el valor de otra, en lo que llamaremos anlisis
de regresin. y, finalmente Desarrollaremos un ejercicio aplicando lo
aprendido, donde utilizaremos datos verdaderos de una empresa de servicios
tursticos.
2.
Marco Terico
A fin de facilitar la comprensin del presente trabajo definiremos algunos
conceptos basicos.
Anlisis de Correlacin .- Es el conjunto de tcnicas estadsticas
empleado para medir la intensidad de la asociacin entre dos variables.
El principal objetivo del anlisis de correlacin consiste en determinar que
tan intensa es la relacin entre dos variables. Normalmente, el primer paso es
mostrar los datos en un diagrama de dispersin.
Diagrama de Dispersin.- es aquel grafico que representa la relacin
entre dos variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya
representacin es "Y"
Variable Independiente.- es la variable que proporciona las bases para el
calculo. Cuya representacin es: X1,X2,X3.......
Coeficiente de Correlacin.- Describe la intensidad de la relacin entre
dos conjuntos de variables de nivel de intervalo. Es la medida de la
intensidad de la relacin lineal entre dos variables.
El valor del coeficiente de correlacin puede tomar valores desde menos uno
hasta uno, indicando que mientras ms cercano a uno sea el valor del
coeficiente de correlacin, en cualquier direccin, ms fuerte ser la
asociacin lineal entre las dos variables. Mientras ms cercano a cero sea el
coeficiente de correlacin indicar que ms dbil es la asociacin entre
ambas variables. Si es igual a cero se concluir que no existe relacin lineal
alguna entre ambas variables.
Anlisis de regresin.- Es la tcnica empleada para desarrollar la
ecuacin y dar las estimaciones.
Ecuacin de Regresin.- es una ecuacin que define la relacin lineal
entre dos variables.
Ecuacin de regresin Lineal: Y = a + Bx
Ecuacin de regresin Lineal Mltiple: Y = a + b1X1 + b2X2 + b3X3...
Principio de Mnimos Cuadrados.- Es la tcnica empleada para obtener
la ecuacin de regresin, minimizando la suma de los cuadrados de las
distancias verticales entre los valores verdaderos de "Y" y los valores
pronosticados "Y".
Anlisis de regresin y Correlacin Mltiple.- consiste en estimar
una variable dependiente, utilizando dos o ms variables independientes.
Ecuacin de regresin Mltiple.- La forma general de la ecuacin de
regresin mltiple con dos variables independientes es:
Y' = a + b1X1 + b2X2
X1,X2 : Variables Independientes
a : es la ordenada del punto de interseccin con el eje Y.
b1 : Coeficiente de Regresin (es la variacin neta en Y por cada unidad de
variacin en X1.).
b2 : Coeficiente de Regresin (es el cambio neto en Y para cada cambio
unitario en X2).
Prueba Global.- esta prueba investiga bsicamente si es posible que todas
las variables independientes tengan coeficientes de regresin neta iguales a
0.
3. Desarrollo de un Caso.
Una agencia de Viajes desea saber la relacin que hay entre las ventas, el
550
590
680
700
750
4.
5.
6.
ANLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad
2.- Comisin de vendedores
Variable dependiente:
- Ventas
:Utilizando el Excel obtenemos los siguientes datos.
7.
adrados
9893
107
8000
8.
Coeficient
es
Error
tpico
Intercepci
242459.
n
-289315.16
39
GSTOS
DE
PUBLICID
.
COM. DE
VENDED.
Estadsti Proba
co t
b.
Inf. 95%
Sup.
95%
Inferior
95.0%
Sup.
95.0%
-1.193
0.0790 323.12759
8
65
2570.108
1123.49
336.22
3.342
-2.27
6.55
-0.346
0.7624
5
30.454002
25.922
-323.128
2570.108
-30.454
25.922
57
9.
De aqu se desprende la ecuacin de regresin mltiple:
Y = - 289315 + 1123 X1 - 2.27 X2
10.
Prueba Global: Verificacin de la validez del modelo de regresin Mltiple.
Formulacin de Hiptesis:
Hp: B1 = B2 = 0
Ha: B1 B2 0
11. Si se acepta la hiptesis planteada, significa que ninguno de los factores
(X1,X2) son relevantes para explicar los cambios en Y.
De acuerdo a la tabla de anlisis de la varianza F calculado es 5.58 y el pvalor es 0.15, de lo cual podemos decir que La hiptesis planteada se
rechaza y se acepta la hiptesis alternativa, por que el F calculado es mayor
que el p-valor.
Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los
coeficientes de regresin, no son iguales a cero y, por o tanto son tiles para
las predicciones. El siguiente paso consiste en probar individualmente las
variables para determinar cuales coeficientes de regresin pueden ser cero y
cuales no.
Del anlisis mediante Excell tenemos el siguiente cuadro.
VENTAS VS GASTOS DE PUBLICIDAD
12.
ANLISISDEVARIANZA
GL
Suma de cuadrados
p-Valor
Regresin
33280114360
33280114360
15.6350
0.028865932
Residuos
6385693640
2128564547
Total
39665808000
13.
Coeficiente
s
Error
tpico
Estadst Probab
.t
.
Inf. 95% Sup. 95% Inf. 95% Sup. 95%
Intercepcin
324444.42 185054.6
913371.4 264482.5 913371.4 264482.5
8
4 -1.7532 0.1778
3
8
3
8
GASTOS
DE
PUBLICIDA
D
1111.8722
281.1938
9
2006.757
2006.757
5 216.9869
5
0.003317293
1.10044E-05
R^2 ajustado
-0.333318661
Error tpico
114986.0448
Observaciones
15.
436499.6307
13221790500
16.
.t
Probabilidad
1.539191605
0.22138434
-0.00574575
0.9957763
17.
De acuerdo a los cuadros podemos decir:
- La variable que mas relacin tiene con las Variable Dependiente es decir las ventas
18. es la variable Gastos de Publicidad ya que su R2 "Coeficiente de determinacin" es
19. 79%.
- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene
20. relacin relevante con las Ventas ya que su Coeficiente de determinacin es casi
21. nulo 0.001% .
22.
23.
Bibliografa.
Regresin lineal
Ejemplo de una regresin lineal con una variable dependiente y una variable
independiente.
Contenido
1 Historia
o
1.1 Etimologa
4.1.1 Anlisis
5 Rectas de regresin
6.2 Medicina
7 Vase tambin
8 Referencias
o
9 Enlaces externos
Historia
La primer forma de regresiones lineales documentada fue el mtodo de los mnimos
cuadrados, el cual fue publicado por Legendre en 1805,[1] y por Gauss en 1809.[2] El trmino
"mnimos cuadrados" proviene de la descripcin dada por Legendre "moindres carrs". Sin
embargo Gauss asegur que conoca dicho mtodo desde 1795.
Tanto Legendre como Gauss aplicaron el mtodo para determinar, a partir de observaciones
astronmicas, las rbitas de cuerpos alrededor del sol. En 1821, Gauss public un trabajo
en dnde desarrollaba de manera ms profunda el mtodo de los mnimos cuadrados,[3] y en
dnde se inclua una versin del teorema de Gauss-Mrkov.
Etimologa [editar]
(5)
Los valores
Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son
de la forma:[6]
(6)
donde
es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que
(media cero, varianza constante e igual a un y
con
).
Anlisis
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y,
se obtiene:[7]
(7)
(8)
Calculando
Derivando respecto a
(9)
(10)
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente
solucin para ambos parmetros:[6]
(11)
(12)
Regresin lineal mltiple [editar]
es el error asociado a la medicin i del valor Xip y siguen los supuestos de modo
(media cero, varianza constante e igual a un y
con
(14)
).
(15)
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a
1, el ajuste ser bueno; si r es cercano o igual a 0, se tratar de un ajuste malo. Ambas
rectas de regresin se intersectan en un punto llamado centro de gravedad de la
distribucin.
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues
nos vamos a limitar al caso de la regresin lineal. Con este tipo de regresiones nos
conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos
cantidades a y b tales que se pueda escribir
de forma que
e Y, o bien
3.12.4.1 Observacin
Obsrvese que la relacin 3.12 explica cosas como que si X vara en 1 unidad,
vara la cantidad b. Por tanto:
Por tanto, en el caso de las variables peso y altura lo lgico ser encontrar que b>0.
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a
desarrollar son de forma esquemtica, las que siguen:
1.
Dadas dos variables X, Y, sobre las que definimos
2.
Una aproximacin
de Y, se define a partir de dos cantidades
a y b. Vamos a calcular aquellas que minimizan la funcin
3.
Posteriormente encontraremos frmulas para el clculo directo de a y b
que sirvan para cualquier problema.
3.12.4.2 Regresin de Y sobre X
Una vez que tenemos definido el error de aproximacin mediante la relacin (3.13) las
cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero
(procedimiento de los mnimos cuadrados):
Las mismas conclusiones se sacan cuando intentamos hacer la regresin de X sobre Y, pero
atencin!: Para calcular la recta de regresin de X sobre Y es totalmente incorrecto despejar
de
donde
, del modo
(figura 3.10.)
3.12.4.4 Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas
antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes
estadsticos:
En este punto hay que preguntarse si realmente esta prediccin puede considerarse fiable.
Para dar una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a
continuacin.
3.12.4.5 Propiedades de la regresin lineal
Una vez que ya tenemos perfectamente definida , (o bien
) nos
preguntamos las relaciones que hay entre la media y la varianza de esta y la
de Y (o la de X). La respuesta nos la ofrece la siguiente proposicin:
3.12.4.6 Proposicin
En los ajustes lineales se conservan las medias, es decir
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de
las variables X e Y y sus aproximaciones
es decir,
Demostracin
Basta probar nuestra afirmacin para la variable Y, ya que para X es
totalmente anlogo:
3.12.4.7 Observacin
Como consecuencia de este resultado, podemos decir que la proporcin de
varianza explicada por la regresin lineal es del
Nos gustara tener que r=1, pues en ese caso ambas variables tendran la misma varianza,
pero esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que
y por tanto
El tercer sumando se anula segn las ecuaciones normales expresadas en la relacin (3.15):
Por ello
, y su varianza residual es
Por ello:
Si
el ajuste es bueno (Y se puede calcular de modo bastante
aproximado a partir de X y viceversa).
Si
las variables X e Y no estn relacionadas (linealmente al
menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo
no es seguro que las dos variables no posean ninguna relacin en el caso
r=0, ya que si bien el ajuste lineal puede no ser procentente, tal vez otro
tipo de ajuste s lo sea.
3.12.4.9 Ejemplo
De una muestra de ocho observaciones conjuntas de valores de dos variables
X e Y, se obtiene la siguiente informacin:
Calcule:
1.
La recta de regresin de Y sobre X. Explique el significado de los
parmetros.
2.
El coeficiente de determinacin. Comente el resultado e indique el tanto
por ciento de la variacin de Y que no est explicada por el modelo lineal
de regresin.
3.
Si el modelo es adecuado, cul es la prediccin
para x=4.
Solucin:
1.
En primer lugar calculamos las medias y las covarianza entre ambas
variables:
2.
El grado de bondad del ajuste lo obtenemos a partir del coeficiente de
determinacin:
de la variabilidad de Y en
de variabilidad no explicada.
3.
La prediccin que realiza el modelo lineal de regresin para x=4 es:
la cual hay que considerar con ciertas reservas, pues como hemos visto en el
apartado anterior,hay una razonable cantidad de variabilidad que no es explicada
por el modelo.
3.12.4.10 Ejemplo
En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y
edad, obtenindose los siguientes resultados:
Resultado de las mediciones
edad
12
10
11
10
14
peso
58
42
51
54
40
39
49
56
Existe una relacin lineal importante entre ambas variables? Calcular la recta de regresin
de la edad en funcin del peso y la del peso en funcin de la edad. Calcular la bondad del
ajuste En qu medida, por trmino medio, vara el peso cada ao? En cunto aumenta la
edad por cada kilo de peso?
Solucin:
Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de
correlacin lineal, que vale:
ya que
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ngulo entre el vector
formado por las desviaciones del peso con respecto a su valor medio y el de la edad con
respecto a su valor medio, , es:
es decir, entre esos vectores hay un buen grado de paralelismo (slo unos 19 grados de
desviacin).
La recta de regresin del peso en funcin de la edad es
Por ltimo la cantidad en que vara el peso de un paciente cada ao es, segn la recta de
regresin del peso en funcin de la edad, la pendiente de esta recta, es decir, b1=2,8367
Kg/ao. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre
ambas se rige por la cantidad b2=0,3136 aos/Kg de diferencia.