Vous êtes sur la page 1sur 2

ESTADSTICA

CORRELACIN Y REGRESIN
Introduccin
En diversos problemas vinculados con el
anlisis de la informacin es importante
estudiar las relaciones que puedan existir
entre dos o ms variables. Preguntas
como: las personas con mayor poder
adquisitivo tienen mayor grado de
educacin? o las empresas familiares
pagan mejor a sus empleados? estn
referidas a las relaciones que podran
existir entre las variables "poder
adquisitivo" y "educacin" o "tipo de
empresa" y "sueldo". Las relaciones entre
variables pueden explorarse algunas veces
usando grficos adecuados, pero tambin
existen medidas que indican no solo la
existencia de la relacin sino tambin la
fuerza de esta. A estas medidas se les
llama medidas de correlacin cuando las
variables en estudio son numricas u
ordinales y medidas de asociacin si las
variables son nominales.
El ndice de correlacin de Pearson
Al colocar en el eje X las edades de un
grupo de pacientes de un hospital y en el
eje Y, el nmero de das que cada uno de
ellos ha necesitado para recuperarse
despus de una determinada operacin, se
obtiene el siguiente diagrama de
dispersin.
Ntese que a mayor edad del paciente
acompaa mayor nmero de das
necesarios para recuperarse. Podemos
decir que las variables edad y estada
covaran de manera positiva. Si ocurriera
que a mayor edad es menor la estada se
dice que ambas variables covaran de
manera negativa.

Para confirmar si dos variables


cuantitativas covaran o no, se usa un
ndice que se llama covarianza.
Si se tienen los pares de valores (x1, y1),,
(xn, yn) de las variables X e Y, la
covarianza entre estos valores se define
como:
n

C( x ,y ) Sxy

xi yi
i 1

XY

La covarianza es el promedio de todos los


productos de las desviaciones de las
variables respecto de sus medias, e indica
la relacin lineal que entre ellas puede
existir.
Sin embargo, esta medida no indica la
fuerza de la relacin que pueda existir
entre las variables. Un valor positivo muy
grande o muy pequeo puede deberse
simplemente a las unidades de medicin y
no a que exista mayor o menor grado de
la relacin. Se necesita, por tanto, una
medida que, siendo acotada, no tenga en
cuenta las unidades de medicin. El
artificio, ya utilizado, para obtener la
medida adecuada consiste en expresar la
covarianza en unidades de desviacin
estndar. As se obtiene el ndice de
correlacin lineal de Pearson como

medida para medir la fuerza de la relacin


entre dos variables numricas.
El ndice de correlacin lineal de
Pearson o simplemente ndice de
correlacin se define como:
rxy

C( x ; y )
s x sy

El ndice de correlacin mide la fuerza de


la relacin lineal entre dos variables. Un
ndice de correlacin alto indica que una
lnea recta ajusta bien a la nube de
puntos.
Un ndice de correlacin cercano a 0
indica ausencia de relacin lineal.
En general se cumplen las siguientes
propiedades, que se pueden demostrar:
a) El ndice r est entre 1 y 1.
b) Si el ndice de correlacin es igual a 0,
no existe relacin lineal; sin embargo,
puede existir una relacin no lineal
(cuadrtica, cbica o ms complicada).
c) Si r tiende a 1 o a 1, los puntos tienden
a estar ms alineados. Cuando r es igual a
1 o a 1, los puntos estn perfectamente
alineados.

Para ver el grado de dependencia


debemos considerar r2, el cual se
denomina coeficiente de determinacin
La recta de regresin de mnimos
cuadrados
Ahora la idea es expresar mediante una
relacin matemtica la relacin lineal que
podra existir entre los valores de X e Y. El
modelo de regresin lineal, que se
desarrolla ms adelante, ser la ayuda ms
importante para este propsito. Por ahora
hallaremos la recta que mejor ajusta a la
nube de puntos y que formar parte del
modelo. Esta recta se llama recta de
mnimos cuadrados o de regresin de
Y en X, y se determina a partir de los
pares (x1, y1) (x2, y2),, (xn, yn) de X e Y
usando el mtodo de mnimos cuadrados.
La ecuacin de la recta de mejor ajuste es
de la forma: y = a + bx siendo a y b
los coeficientes que se determinan de tal
manera que la suma:
n

SCD [ yi (a bxi )]2


i 1

sea mnima
La resolucin y uso de la condicin
permite escribir la recta como:

yY

C( x , y )
(x X)
V(x)

Ejemplo. A continuacin, en la tabla se


presentan: los ingresos (X) y los egresos
(Y) de cinco familias. Si una familia
percibe 300, qu nivel de egresos se
puede esperar?
Ingresos 150 180 150 200 250
Egresos 120 170 140 170 200

Vous aimerez peut-être aussi