Vous êtes sur la page 1sur 26

ESTADISTICA I

Profesor: Dr. MAS GUILLERMO


CORRELACIÓN Y REGRESIÓN

CORRELACIÓN

La correlación es una técnica estadística usada para determinar la relación entre


dos o más variables. La correlación puede ser de al menos dos variables o de una
variable dependiente y dos o más variables independientes, denominada
correlación múltiple. Es la forma numérica en la que la estadística ha podido
evaluar la relación de dos o más variables, es decir, mide la dependencia de una
variable con respecto de otra variable independiente. Analiza el grado de relación
que existe entre dos variables estadísticas (datos bivariados).
La correlación fue utilizada por primera vez por Sir Francis Galton quien estudió
en profundidad sus propiedades ( fue discípulo Karl Pearson).
Karl Pearson fue profesor de matemáticas aplicadas y mecánica en el “University
College of London”, autor de la prueba Chi-Cuadrado y del análisis de
componentes principales.
Otro estudioso que aporto al estudio al estadístico fue psicólogo Charles Edward
Spearman con su correlación de rangos lo uso por primera vez en 1904 al intentar
construir una teoría de la inteligencia.
En sí, La correlación mide la relación lineal entre dos variables y su sentido (si es
directo o inverso). Cuando la relación es perfectamente lineal dicho coeficiente
vale 1 (ó -1). Cuando el coeficiente tiene un valor próximo a cero, o bien no existe
relación entre las variables analizadas o bien dicha relación no es lineal.

EL COEFICIENTE DE CORRELACION

El coeficiente de correlación es un estadístico que proporciona información sobre


la relación lineal existente entre dos variables cualesquiera. Básicamente, esta
información se refiere a dos características de la relación lineal: la dirección o
sentido y la cercanía o fuerza.
Es importante notar que el uso del coeficiente de correlación sólo tiene sentido si
la relación bivariada a analizar es del tipo lineal. Si ésta no fuera no lineal, el
coeficiente de correlación sólo indicaría la ausencia de una relación lineal más no
la ausencia de relación alguna. Debido a esto, muchas veces el coeficiente de
correlación se define - de manera más general - como un instrumento estadístico
que mide el grado de asociación lineal entre dos variables. La correlación
habitualmente denotada por r se puede estimar de dos maneras diferentes:

- El coeficiente de correlación de Pearson: esta dado por r y es utilizado cuando


ambas variables son cuantitativas siguiendo una distribución normal.
- El coeficiente de correlación de Spearman dado por rs y es utilizado cuando
alguna de las variables es ordinal o incluso dicotómica o para variables
cuantitativas con muestras pequeñas.
Ambos coeficientes son adimensionales y se calculan de forma análoga, aunque
en el caso del coeficiente de Spearman se utilizan los rangos de los valores en
lugar de los valores originales, siendo adecuado para muestras pequeñas puesto
que es robusto a la presencia de “outliers” (valores extremos). El coeficiente de
correlación de Pearson se obtiene calculando en primer lugar la covarianza entre
las variables, que es una medida de asociación con dependencia de las unidades
de medida de las variables. Después se divide por el producto de cada una de las
desviaciones típicas de ambas variables, resultando una medida de asociación
adimensional.Si la relación está limitada a dos variables (si fueran más de dos
variables, este análisis seria de correlación y regresión sería múltiple).
En realidad el término medida de correlación lineal implica encontrar un valor
numérico que exprese el grado de correspondencia o dependencia que existe
entre dos variables.

Total Ocupados entre 25 y 45 años (con ingresos)

Total Ocupados entre 25 y 45 años (con ingresos)


Correlationsa

Ingres o
horario de Cantidad
la Años de de hijos
ocupación estudio Nivel de menores
ppal (aprox.) Instrucción de 12 años
Ingres o horario de la Pears on Correlation 1,000 ,354** ,365** -,072**
ocupación ppal Sig. (2-tailed) , ,000 ,000 ,000
Años de estudio (aprox.) Pears on Correlation ,354** 1,000 ,945** -,223**
Sig. (2-tailed) ,000 , ,000 ,000
Nivel de Instrucción Pears on Correlation ,365** ,945** 1,000 -,217**
Sig. (2-tailed) ,000 ,000 , ,000
Cantidad de hijos Pears on Correlation -,072** -,223** -,217** 1,000
menores de 12 años Sig. (2-tailed) ,000 ,000 ,000 ,
**. Correlation is significant at the 0.01 level (2-tailed).
a. Listwise N=10338

DIAGRAMAS DE DISPERSIÓN

La forma más sencilla que tienen para predeterminar si existe o no correlación entre dos
variables es construir un diagrama de dispersión.La dispersión de estos puntos tienen las
siguientes formas generales:

a. Cuando puntos se localizan en los ejes coordenados y observas que los valores
de la variable X aumentan mientras que los valores de la variable Y disminuyen,
existiria una Correlación lineal negativa. Un ejemplo de ello sería: Una persona se
entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En
la gráfica se describen el nº de errores que corresponden a los intentos realizados.
Observa que hay una correlación muy fuerte (los puntos están "casi" alineados) y
negativa (la recta es decreciente).
a) Si los puntos se van localizando en los ejes coordenados de manera que veas
que si los valores de la variable X aumentan y los valores de la variable y
también aumentan, entonces existe una Correlación Lineal Positiva. Un
ejemplo así ocurre al correlacionar las edades del marido y de la mujer en una
relación de parejas. En este caso a mayor edad del hombre, mayor edad de la
mujer.
b) Cuando los puntos se localizan en el eje de coordenadas y observes que su
relación no es lineal, es decir, aunque su patrón de dispersión está definido,
estas variables presentan una relación no lineal.

c) Cuando los valores de X tienen la misma probabilidad de aparecer aparcadas


con valores de Y o con valores pequeños de Y, decimos que no hay relación
entre X y Y. Por ejemplo: ¿habrá alguna relación entre la estatura de los que
fuman cigarros, con el número de cigarros que fuman a diario? No. entre estas
dos variables (estatura de fumadores y números de cigarros que fuman
diariamente) no existe relación.
Los diagramas de dispersión que acabas de ver te muestran las diferentes relaciones
entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos
señalar que si tanto los valores de X como los valores de Y tienden a seguir un patrón
recto, entonces existe una correlación lineal.

COEFICIENTE DE CORRELACIÓN DE PEARSON

El coeficiente de correlación de Pearson, que se simboliza con la letra minúscula r, se


calcula dividiendo la suma de los productos de las desviaciones de cada variante de X e
Y, con respecto a sus medias (suma que se denomina covarianza de X e Y), por el
producto de las desviaciones estándar de ambas variables. Para su aplicación es
indispensable que la correlación sea lineal. En forma práctica, el coeficiente de
correlación de Pearson es:

Donde N es el número de datos.

Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria
de 10 escuelas para niños superdotados. La razón alumno/maestro es (X) y los
estudiantes que se salen antes de completar el curso es (Y).
De la tabla, ves que en las columnas (1) y (2) se han escrito las puntuaciones
originales. En la columna (3) se obtuvieron los cuadrados de las puntuaciones X y
en la columna (4) los cuadrados de las puntuaciones Y. La columna (5) se forma
con el producto de cada X por cada Y, finalmente se suman los valores de las cinco
columnas y se sustituyen en la fórmula que ya conoces, obteniendo el siguiente
resultado.

Ahora interpretaremos este valor. Para ello es necesario conocer las siguientes
características del coeficiente de correlación lineal.

− El valor de r es un número que satisface la desigualdad –1 ≤ r ≤ 1.

− Cuando la relación de dos variables es perfectamente positiva, o sea cuando al


variar la primera, la segunda varía en las mismas proporciones y en la misma
dirección, el coeficiente de correlación es + 1 (unidad positiva).
− Cuando la relación de dos variables es perfectamente negativa, o sea cuando al
variar la primera, la segunda varía en las mismas proporciones pero en dirección
contraria, el coeficiente de correlación es – 1 (unidad positiva). −
Cuando no existe relación entre las dos variables, o sea cuando al variar la
primera, las variaciones de la segunda no reflejan dependencia o conexión alguna
con las variaciones de la primera, el coeficiente de correlación lineal es cero.
Lo anterior significa que, entre 0 y +1 cabe toda una gama de correlaciones
positivas, que serán tanto más directamente proporcionales, cuanto más se
acerquen a +1.Similarmente entre –1 y 0 cabe toda una gama de correlaciones
negativas, que serán tanto más inversamente proporcionales, cuanto más se
acerquen a –1. Los coeficientes de correlación, cuanto más cerca de cero, indican
menor correlación.

Con todas estas características, podemos interpretar el resultado que calculamos


del coeficiente r de Pearson. Como r = 0.869180 podemos concluir que la
correlación es fuerte y positiva.

COEFICIENTE DE CORRELACION DE SPEARMAN

Este coeficiente se emplea cuando una o ambas escalas de medidas de las variables son
ordinales, es decir, cuando una o ambas escalas de medida son posiciones. El coeficiente
de correlación de Spearman es una técnica no paramétrica que se basa en los rangos en
vez de en los valores originales de la variable. Este coeficiente es una medida de
asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y
compara dichos rangos. El coeficiente de correlación de Spearman es exactamente el
mismo que el coeficiente de correlación de Pearson calculado sobre el rango de
observaciones. En definitiva la correlación estimada entre X e Y se halla calculado el
coeficiente de correlación de Pearson para el conjunto de rangos apareados. El
coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos
presentan valores externos ya que dichos valores afectan mucho el coeficiente de
correlación de Pearson, o ante distribuciones no normales.

El cálculo del coeficiente viene dado por:

En donde d = rxi – ryi es la diferencia entre los rangos de X e Y


Ejemplo ilustrativo N° 1: La siguiente tabla muestra el rango u orden obtenido en
la primera evaluación (X) y el rango o puesto obtenido en la segunda evaluación
(Y) de 8 estudiantes universitarios en la asignatura de Estadística. Calcular el
coeficiente de correlación por rangos de Spearman.

ALUMNOS X Y

Dyana 1 3

Elizabeth 2 4

Mario 3 1

Orlando 4 5

Mathías 5 6

Josué 6 2

Anita 7 8

Lucía 8 7

Solución:

Para calcular el coeficiente de correlación por rangos de Spearman de se llena la


siguiente tabla:
Se aplica la fórmula:

Por lo tanto existe una correlación positiva moderada entre la primera y segunda
evaluación de los 8 estudiantes

REGRESIÓN

El termino de la regresión fue acuñado por Sir Francis galton (1889) antropólogo británico,
que atreves de la ley de regresión filial definió este término.
cuando se quiere predecir una medida basándose en el conocimiento de otra medida. Se
la denomina como regresión estadística y se la define como la tendencia de una medición
extrema que se presentará más cercana a la media en una segunda medición. La
regresión no es más que la manera de encontrar la relación entre dos o más variables X
y Y , como cuando se realizan estudios para predecir las ventas potenciales de un
producto nuevo por ejemplo en términos de precio, etc. La regresión estadística en otras
palabras es la tendencia de una medición extrema a presentarse más cercana a la media
en una segunda medición, se utiliza para predecir una medida basándose en el
conocimiento de otra.

La regresión es una técnica estadística utilizada para simular la relación existente entre
dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita
predecir el comportamiento de una variable dada. La regresión es muy utilizada para
interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo cual es
necesario realizar una selección adecuada de las variables que van a construir las
ecuaciones de la regresión, ya que tomar variables que no tengan relación en la práctica,
nos arrojará un modelo carente de sentido, es decir ilógico.

Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano,


pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica,
Exponencial, Cuadrática, entre otras. Las ecuaciones de cada relación se
presentan en la siguiente tabla.

Ejemplos de regresión:

En muchas ocasiones, se desea conocer algo acerca de la relación o dependencia


entre dos características cuantitativas, o más de una, consideradas sobre la
misma población objeto de estudio (por ejemplo la talla y el peso). Hay muchos
casos en los que ya de antemano se "sospecha" que puede existir algún tipo de
relación, y por consiguiente, se pretende saber por ejemplo, en el caso de que
tengamos únicamente dos variables:

1.- Si ambas variables están realmente relacionadas entre sí o si, por el contrario,
pueden considerarse independientes.

2.- Si existe dependencia, es necesario conocer el "grado de relación", así como


el "tipo" de relación entre ambas.

3.- Si puede predecirse la variable que es considerada como dependiente a partir


de los valores de la otra, que es considerada independiente, y si es así, con qué
precisión.
Regresión lineal

Un modelo de regresión es un modelo que permite describir como influye una


variable X sobre otra variable Y . Es una técnica que permite cuantificar la relación
existente entre variables todas ellas cuantitativas

X: Variable independiente o explicativa o exógena

Y: Variable dependiente o respuesta o endógena

Tenemos la siguiente ecuación:

Y= a + bx

Los modelos de regresión lineal pueden ser:

– Simples: Una sola variable exógena

– Múltiples: Más de una variable exógena

Estos determinan causa y efecto.

Ejemplo:

La ecuación de regresión es:

Y'=48.0+.05143X

 La ecuación cruza al eje Yen $48. Un libro sin las páginas costaría $48.
 La pendiente de la línea es .05143.El costo de cada página adicional de
cinco céntimos.
 El signo del valor de b y el signo del valor de r serán siempre iguales.

Podemos utilizar la ecuación de regresión para estimar valores de Y.


El precio de venta estimado de un libro de 800 páginas es $89.14 , encontrado
por:
Y= 48.0+.05143X
Y=48.0+.05143(800)=89.14
METODO GRAFICO Utilizamos el SPSS

REGRESIÓN LINEAL : Para llevar a cabo un análisis de regresión lineal seleccionamos:


Analizar
Regresión
Lineal… Apareciendo el cuadro de diálogo de la figura 1:
Figura 1
En Dependiente se traslada la variable cuyos valores se desea predecir o resumir.
Bloque 1 de 1. Este recuadro nos sirve para introducir las variables independientes, nos
permite hacer varios análisis de regresión a la vez, alternando los botones anterior y
siguiente, y además no deja elegir el método de introducción de las variables
independientes.
• Independientes se trasladan las variables utilizadas para predecir el valor de la variable
dependiente. También se denominan variables predictoras o variables explicativas.
Para poder ejecutar este procedimiento, la lista debe contener al menos una variable.
• Método: Permite seleccionar el método por el cual se introducen las variables
independientes en el análisis. Nos vale para elegir la mejor ecuación de regresión.
Permite construir una variedad de modelos de regresión a partir del mismo conjunto
de variables:
En Variable de selección se traslada una variable que limite el análisis a un subconjunto de
casos que tengan un valor particular para esta variable. Con Regla… podemos definir el
subconjunto de casos que se emplearán para estimar el modelo de regresión. En Etiquetas
de caso designamos una variable para identificar los puntos de los gráficos. Para cada punto
de un diagrama de dispersión podemos utilizar la herramienta de selección de puntos y
mostrar el valor de la variable de etiquetas de casos correspondiente al caso seleccionado.
AGREGAMOS LOS DATOS QUE NECESITAMOS
Estadísticos Con el botón Estadísticos accedemos al cuadro de diálogo que muestra
la figura 2 que nos vale para solicitar resultados estadísticos opcionales, incluyendo los
coeficientes de regresión, descriptivos, estadísticos de ajuste del modelo,etc.

Señalamos estadísticos y al cliklearlo muestra un recuadro donde cliqueamos en los


valores que nos piden hallar :
Percentiles / Cuartiles.
Cliqueamos en Tendencia central
Media, Mediana y Moda.
También damos clic :
Dispersión
Desviación típica, Varianza y Rango.
Finalmente cliqueamos en:
Distribución
Asimetría y kurtosis
Seguimos con correlaciones bivariadas :
Al terminar de colocar los datos en la correlaciones bivariadas nos vamos a :
Gráficos/Cuadro de diálogos antiguos/Dispersión Puntos

Dispersión simple :
Abrimos una ventana nueva en la que tenemos que cliquear alternando las tres
diferentes variables en el recuadro que señale el Eje Y y el Eje X.

Damos click en el grafico y observamos el nuevo grafico :


Seguimos con pasos importantes expuestos en clases hasta llegar a las correlaciones:

Hacemos clic en Gráficos/Selector de plantillas de tableros


Cliqueamos la imagen de Histograma

Para Regresión lineal seguimos los siguientes pasos:

Colocamos los datos, nombres :


Seguimos los pasos hechos en clases y discriminamos los datos :
SEGÚN LO EXPUESTO, REALIZAMOS EL EJERCICIO CON LOS DATOS
PARAMETRICOS

1. Que talla se espera de un nieto cuyo abuelo mide 1.60

Y= a+bx

Y= Coeficiente no estandarizado + r cuadrado corregido (estatura que esta propuesta)

a= 84.46

b=- (0.04)

Reemplazando:

Y=84,86+ -0,04(1.60)

Y=78,46 cm

Vous aimerez peut-être aussi