Vous êtes sur la page 1sur 3

Probabilidad y Estadstica

Notas de Clase

ESTADISTICA DESCRIPTIVA PARA DATOS BIVARIADOS

CORRELACION
Si se analiza la estatura y el peso de los alumnos o alumnas de una clase es muy posible que exista
relacin entre ambas variables: mientras ms alto sea el estudiante, cabe pensar que mayor ser
su peso.
La correlacin es la tcnica que se usa para medir la fuerza de asociacin entre dos variables
aleatorias.
El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las
variables. Este coeficiente se aplica cuando la relacin que puede existir entre las variables es
lineal (es decir, si representramos en un grfico los pares de valores de las dos variables la nube
de puntos se aproximara a una recta).

La medida de asociacin ms utilizada es el coeficiente de correlacin lineal de Pearson, en el


cual, dadas n parejas de datos de la forma (x,y), se calcula aplicando la siguiente frmula:

n( xy ) ( x)( y )
r
n( x 2

) ( x ) 2 n( y 2 ) ( y ) 2
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 . Si "r" > 0, la
correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es
tanto ms fuerte cuanto ms se aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos
suelen pesar ms. Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra e xistir otro tipo de
correlacin (parablica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera prximo
a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relacin de causa-efecto entre
las dos variables, ya que este resultado podra haberse debido al puro azar.

Si r=0 no existe la correlacin lineal, aunque podra existir otro tipo de correlacin
(parablica, exponencial)
Si (0<r<0.19) se dice que la correlacin es positiva muy dbil
Si (0.20<r.39) se dice que la correlacin es positiva dbil
Si (0.4<r.69) se dice que la correlacin es positiva moderada
Si (0.70<r.89) se dice que la correlacin es positiva fuerte
Si (0.90<r<1) se dice que la correlacin es positiva muy fuerte
Si r=1 la correlacin es perfecta.

Si r toma los mismos valores pero con signo contrario (negativo), la correlacin es negativa

El coeficiente de correlacin, r, presenta valores entre 1 y +1.


Probabilidad y Estadstica
Notas de Clase

Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy
dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las variables segn un modelo
lineal y la recta de regresin que se determine tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las variables segn un modelo
lineal y la recta de regresin que se determine tendr pendiente negativa: es decreciente.

REGRESIN LINEAL
Si representamos en un grfico los pares de valores de una distribucin bidimensional: la
variable "x" en el eje horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de
ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre
las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la
recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:

Y a bX

Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra
variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los
parmetros "a" y "b":

El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable
independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b"
determina la pendiente de la recta, su grado de inclinacin. La regresin lineal nos permite
calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de
puntos. El parmetro "b" viene determinado por la siguiente frmula:

n xy x y
b
n x 2 x2

Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parmetro "a"
viene determinado por:

a
y b x
n

Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b"
que hemos calculado.
Probabilidad y Estadstica
Notas de Clase

Interpretacin de a El valor de a representa la ordenada en el origen


En la mayora de los casos este valor no tiene interpretacin pues es el valor que toma la variable Y
cuando X=0.

Interpretacin de b El valor de b (la pendiente) nos indica como aumenta la variable


dependiente Y por cada cambio unitario en la variable independiente X.
Si b>0, indica que la recta es creciente, al aumentar los valores de X aumentan tambin los valores
de Y.
Si b<0, indica que la recta decrece, al aumentar los valores de X disminuyen los valores de Y.

Coeficiente de determinacin r2
Este coeficiente permite medir el porcentaje de variabilidad total de Y que es explicada por la
relacin con X.
Permite tener una idea de que tan eficiente es el modelo de regresin para predecir y estimar los
valores de Y.
Se obtiene elevando al cuadrado el coeficiente de correlacin.

Error estndar de la estimacin


El error estndar, es la precisin o exactitud de la estimacin; es una medida de la dispersin de
los valores observados con respecto a la recta de regresin.

S xy
( y y )
n2

Vous aimerez peut-être aussi