Vous êtes sur la page 1sur 9

Regresin y Correlacin

La regresin y la correlacin son dos tcnicas estrechamente relacionadas y comprenden una


forma de estimacin.
En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los datos
muestrales para saber que es y como se relacionan entre si dos o mas variables en una poblacin.
El anlisis de correlacin produce un nmero que resume el grado de la correlacin entre dos
variables; y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha
relacin.
El anlisis de correlacin generalmente resulta til para un trabajo de exploracin cuando un
investigador o analista trata de determinar que variables son potenciales importantes, el inters
radica bsicamente en la fuerza de la relacin. La correlacin mide la fuerza de una entre
variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos
matemticos
Los datos necesarios para anlisis de regresin y correlacin provienen de observaciones de
variables relacionadas.
Regresin lineal
La regresin lineal simple comprende el intento de desarrollar una lnea recta o ecuacin
matemtica lineal que describe la reaccin entre dos variables.
La regresin puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos
variables miden aproximadamente lo mismo, pero en las que una variable es relativamente
costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable
no ocurre lo mismo.
La finalidad de una ecuacin de regresin seria estimar los valores de una variable con base en los
valores conocidos de la otra.
Otra forma de emplear una ecuacin de regresin es para explicar los valores de una variable en
trmino de otra. Es decir se puede intuir una relacin de causa y efecto entre dos variables. El
anlisis de regresin nicamente indica qu relacin matemtica podra haber, de existir una. Ni
con regresin ni con la correlacin se pude establecer si una variable tiene causa ciertos valores
de otra variable.
Ecuacin Lineal
Dos caractersticas importantes de una ecuacin lineal
la independencia de la recta
la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura
de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de predecir, y x es la
variable predictora.
Determinacin de la ecuacin matemtica
En la regresin, los valores de y son predichos a partir de valores de x dados o conocidos. La
variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.
Mtodos de mnimos cuadrados
EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce
como mtodo de mnimos cuadrados. La recta resultante presenta 2 caracterstica importantes
es nula la suma desviaciones verticales en los puntos a partir de la recta
es mnima la suma de los cuadrados de dicha desviaciones
(yi - yc)2
En el cual
Yi = valor esperado de y
Yc= valor calculado de y utilizando la ecuacin de mnimos cuadrados con el valor
correspondientes x para yi
Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la
desviacin ecuaciones normales
y = na + (x)
xy= a (x) +b (x2)
En las que n es el numero de pares de observaciones. Evaluando las
cantidades x, y, etc. Se puede
resolver estas dos ecuaciones simultneamente para determinar a b. la ecuaciones puede
despejarse. Se obtuvieron dos formulas aun para a y otra para b.
n(xy)- (x)(y)
b=
n(x2)-(x)2
y - b x
a=
n
Inferencia en el anlisis de regresin
Los supuestos para el anlisis de regresin son como:
Existen datos de medicin para a x y z.
la variable dependiente es una variable aleatoria.
para cada valor de x, existe una distribucin condicional de la qu es de naturaleza normal
la desviacin estndar de toda las distribuciones condicionales son iguales
EL error estndar de estimacin
La determinante primaria de la exactitud es el grado de dispersin de la poblacin: cuanto mas
dispersa este, menor ser la exactitud de la estimacin. El grado de dispersin en la poblacin se
puede estimar a partir del grado de dispersin en las observaciones de la muestra con respecto a la
lnea de regresin calculada, utilizando la formula.
Se = " (yi -yc)
n-2
en la cual:
yi = cada valor de y
yc = valor de lnea de regresin correspondiente a partir de la ecuacin de regresin.
n = nmeros de observaciones.
La formula anterior no se utiliza por lo general para clculos reales, es mas fcil trabajar con la
formula simplificada
Se " y2 - a y - b
xy
n - 2
Inferencia de acerca de la pendiente de unalnea de regresin
Aun cuando es muy poca o nula relacin entre dos variables de aun poblacin, es posible obtener
valores maestrales que hacen que parezca que la variables estn relacionadas, es importantes
probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los
parmetros verdaderos no son cero), Si no existe ninguna relacin se esperara obtener aun
pendiente cero, se pone a prueba la hiptesis nula contra la hiptesis alternativa.
La significacin del coeficiente de regresin se puede probar comparndolo con su desviacin
estndar
t = valor de la muestra - valor esperado
Desviacin estndar
Anlisis de regresin lineal mltiple
La regresin mltiple comprende tres o ms variables. Existe solo una variable dependiente, pero
hay dos o mas tipo independiente. Esta operacin al desarrollo de una ecuacin que se pede
utilizar para predecir valore de y, respecto a valores dados de la diferencia variables
independientes adicionales es incrementar la capacidad predicativa sobre la de la regresin lineal
simple.
Las tcnicas de los mnimos cuadrados se utilizan para obtener ecuaciones de regresin.
Yc= a +b1x1+b2x2+bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes
Un anlisis de regresin simple de dos variable da lugar a la ecuacin de una recta, un problema
de tres variables produce un plano, y un problema de k variables implica un hiperplano de a
(k +1) dimensiones.
Anlisis de Correlacin
EL objetivo de un estudio de correlacin es determinar la consistencia de una relacin entre
observaciones por partes. EL termino correlacin significa relacin mutua, ye que indica el
grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres
tcnicas de correlacin uno para datos de medicin, otro para datos jerarquizados y el ltimo para
clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relacin entre dos variables continuas se resume mediante un coeficiente de
correlacin que se conoce como r de Pearson en honor del gran matemtico Kart Pearson, quien
ideo este mtodo. Esta tcnica es valida mientras si es posible establecer ciertos supuestos bastante
estrictos. Tales supuestos son los siguientes:
Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del anlisisde
referencia de regresin, no es aceptable seleccionar ciertos valores de x, y despus medir y; tanto y
como x deben de variar libremente.
La distribucin conjunta de frecuencia es normal. Esto recibe el nombre de de distribucin
normal divariada.
Carcter de r
El coeficiente de relacin presenta dos propiedades que establecen la naturaleza de una relacin
entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la
pendiente de una recta que podra ajustarse a los datos si estos se graficaran en un diagrama de
dispersin, y la magnitud de r indica cuan cerca esta de la recta tales puntos.
Mtodo practicar para calcular r
Dado que los clculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las
medias del grupo de cada observacin se elevan a cuadrado esas diferencias. Existe una versin, la
cual simplifica los clculos:
r= n ("xy)-("x)("y) _
"n("x2)-("x)2 "n("y2)("y)2
Existen 3 formas posibles para obtener el valor de r en el caso de datos de medicin: estandarizar
cada conjunto y hallar el producto medio, calcular el coeficiente de determinacin r2 y obtener su
raz cuadrada como utilizar la formula. Para un conjunto de datos los tres mtodos producirn el
mismo valor para r no obstante cada mtodo agrega algo a la comprensin del significado del
termino correlacin
Inferencia acerca del coeficiente de correlacin
Intervalo de confianza para la correlacin de la poblacin
El valor del coeficiente de correlacin de la muestra se puede utilizar como un estimado de la
correlacin verdadera de poblacin existen varios mtodos para
obtener un mtodo de confianza para pero quizs la forma mas
directa es usar un diagrama.
Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos)
se indica a lo largo de la escala vertical los posibles valores r de la
muestra se indica en la escala inferior una serie de curvas representan tamao de muestras
seleccionadas.
Prueba de significacin de r
Puede ser necesario evaluar una aseveracin con respecto al valor de
. La forma mas sencilla es obtener un intervalo de confianza para
r y observar si el valor propuesto esta incluido en el intervalo de ser as se rechaza a Ho y se acepta
la alternativa.
Datos jerarquizados de: r Spearman
Es una tcnica no paramtrica que utiliza para medir la fuerza de una relacin por pares de 2
variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un
coeficiente de correlacin estos ejemplos es determinar el grado en el que dos conjuntos de
jerarquizacin concuerdan o no. Esta tcnica tambin se puede extender a calificaciones u otro
tipo de medicin si estas se convierten a rangos.
Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos
conjuntos de rangos: si la suma de stos es pequea, esto significa que hay acuerdo; si la suma es
grande, esto indica lo contrario. EL calculo real de la correlacin comprende la formula.
rsp = 1 - 6"d2
n(n2 -1)
En la cual n es el nmero de observaciones y "d2 es la suma de los cuadrados de la diferencia entre
los rangos. El coeficiente de correlacin de jerarqua obtenido recibe el nombre de r Spearman. La
suma de la diferencia es cero. Esto no sirve como una comprobacin til de los clculos aunque no
es necesaria en la frmula.
El procedimiento es como el siguiente:
Obtener la diferencia en rango para cada par de observaciones
Como comprobaciones, verificar que la diferencias se sumen a 0
elevar el cuadrado la diferencias
sumar los cuadrados de la diferencia para obtener "d2
Calcular rsp
Si el valor rsp es pequeo para situaciones en donde n es mayor que 10, la hiptesis nula de rsp = 0
puede ser probada utilizndola la frmula
rsp - 0
t=
"(1- rsp 2) (n -2)
Datos nominales: el coeficiente de contingencia
Cuando ambas variables se miden en escalas nominales ( es decir , categoras ) , el anlisis es
fcilmente mediante el desarrollo de una tabla de contingencia semejante a la que se utilizo en el
anlisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en realidad de aun extensin
del anlisis de una tabla r * k.
Una medida de relacin es calcular el coeficiente de contingencia en C, donde
x2
C=
X2 + N
Un aspecto interesante de una tabla ji cuadrada es que l tamao mximo posible de x2 es funcin
de N, de las observaciones y del tamao de la tabla.
En le caso de tabla con los valores cuadrado, esto lleva obtener un valor mximo de C de
K - 1
C max =
k
En el cual k es el nmero de fila o columnas. La comprar C con C max se pude obtener una idea
de la intensidad de la asociacin entre la variables.
Esta es una relacin moderada, no muy intensa. Su interpretacin exacta en parte de la naturaleza
de los datos y de los resultados comparables que se obtengan de otros estudios, por lo que es difcil
establecer valores definitivos d intensidades.
Se bebe observar que la formula no frmula no produce automticamente el signo del coeficiente
de contingencia. DE ah que no siempre resulte evidente el existe aun relacin positiva o negativa.
Ventajas:
Nos e requiere de supuestos con respectos a la formula de poblacin
Solamente se necesita una medicin nominal ( categoras)
Limitaciones
El limite superior de C es menor que 1.00 incluso Para un correlacin perfecta.
El lmite superior depende del tamao de la tabla, por lo que no son comparables los coeficientes
de contingencia de tablas de tamao diferente
El coeficiente de contingencia no es directamente comprable con otras medidas de correlacin,
como la r de Pearson y la r de Spearman, o incluso con otras tablas de contingencia de tamao
diferente.
Cada casilla deber tener una frecuencia esperada por lo menos 5.
C max solamente se puede calcular a partir de tabla de valores al cuadrado
EJERCICIOS PAG. 411
1.- Cual es la ecuacin de una recta con las siguientes caractersticas?
pendiente 10.2 y ordenada en el origen 5.0.
Yc=5 +10.2x.
pendiente 55 y ordenada en el origen 0.
Yc=55x.
Pendiente 27 y ordenada en el origen -2.
Yc=-2 +27x.
Pendiente -13 y ordenada en el origen 200.
Yc=200 - 13x.
Pendiente 0 y ordenada en el origen 2.4.
Yc=2.4
2.- Calcule los valores de a y b en la ecuacin lineal yc =a+bx apartir de las grficas de la fig. 14.4.
Yc=6+(7.5/500)x Yc=-1 +(12/4)x
EJERCICIOS PAG. 416
1.- Suponga que una cadena de supermercados financia un estudio sobre los gastos anuales en
comestibles de familias de cuatro miembros. La investigacin se limit a familias con ingresos
netos que van de $ 8,000 a $ 20,000 dlares. Se obtuvo la siguiente ecuacin:
yc =-200 + .10x
y = gastos anuales estimados
x = ingresos netos anuales
Estime los gastos de una familia de cuatro miembros con un ingreso anual de $15,000.
Como queremos estimar el gasto anual, se sustituye el valor de los ingresos(x) en la ecuacin y
queda as:
Yc =-200 +.10(15,000)
Yc =-200 +1500
Yc=1300
Uno de los vicepresidentes se preocupa por el hecho de que aparentemente la ecuacin indica
que una familia con ingreso de $2,000 no gastara nada en alimentos. Cul sera su respuesta?
La respuesta es que no tiene de que preocuparse ya que el gasto est estimado para familias con
ingresos de 8000 a 20000 dlls.
Explique porqu no se podra utilizar en los siguientes casos:
1) estimacin en los gastos de familias de cinco miembros.
No es posible ya que la ecuacin est calculada para una familia de cuatro miembros.
2) estimacin en los gastos de familias cuyos ingresos netos van de $20,000 a $35,000.
No se puede porque la formula se calculo para sueldos menores o iguales a 20,000.
d. Grafique la ecuacin.
2.- Un bufete de ingenieros consultores ha establecido la siguiente relacin con respecto al
rendimiento por galn de automviles estadounidenses de 6 cilindros, cuyo peso vara de 1500 a
3000 libras:
yc=30 - 0.002x
y=rendimiento millas/galn
x=peso del vehculo
Represente esta relacin con una grfica y marque los ejes.
Estime el consumo de gasolina X milla para un auto de peso:
Sustituimos en la formula:
1)2000 lb yc=30 - 0.002(2000)=26
2)1500 lb yc=30 - 0.002(1500)=27
3)2500 lb yc=30 - 0.002(2500)=25
3.- Emplee los siguientes valores de resumen para determinar las ecuaciones de regresin:
a. "x=200, "y=300, "xy=6200, "x2=3600, n=20.
b= 20(6200)-(200)(300)
20(3600)-(200)2
b=2
a=300-b(200)
20
a=-5
Yc =-5 +2x
b. "x=7.2, "y=37, "xy=3100, "x2=620, n=36.
b= 36(3100)-(7.2)(37)
36(620)-(7.2)2
b=5
a=37-b(7.2)
36
a=.028
Yc =5 +.028x
c. "x=700, "y=-250, "xy=-1400, "x2=21000, n=30.
b= 30(-1400)-(700)(-250)
30(21000)-(700)2
b=.95
a=-250-b(700)
30
a=-30.5
Yc =-30.5 +.95x
d. "x=33, "y=207, "xy=525, "x2=750, n=40.
b= 40(525)-(33)(207)
40(750)-(33)2
b=.49
a=207-b(33)
40
a=4.77
Yc =4.77 +x

Vous aimerez peut-être aussi