Vous êtes sur la page 1sur 9

1

Correlacin y Anlisis de regresin


Coeficiente de correlacin.

Procedimiento que proporciona una medida cuantitativa de la fuerza de


la relacin entre dos variables.
Ejemplo.
El gerente de ventas de Copier Sales of America, que tiene una fuerza de
ventas muy grande en Estados Unidos y Canad, desea determinar si
hay alguna relacin entre el nmero de llamadas de ventas en un mes y
el nmero de copiadoras que se vendieron en l. El gerente selecciona
una muestra aleatoria de 10 representantes de ventas y determina el
nmero de llamadas de ventas que cada uno hizo el mes pasado y el
nmero de copiadoras que vendi. La informacin muestral aparece en
la tabla 13-1.

Al revisar los datos se observa que parece haber una relacin entre el
nmero de llamadas de ventas y el nmero de unidades vendidas. Es
decir, los vendedores que hicieron ms llamadas de venta vendieron
ms unidades. Sin embargo, la relacin no es perfecta o exacta. Por
ejemplo, Soni Jones hizo menos llamadas de ventas que Jeff Hall, pero
vendi ms unidades.

Anlisis de correlacin.
Grupo de tcnicas para medir la asociacin entre dos variables. Donde el
primer paso consiste en trazar los datos en un diagrama de dispersin.
Ejemplo.
Hace poco ascendieron a la seora Marcy Bancer al puesto de gerente
nacional de ventas de Copier Sales of America. Ella desea destacar la
importancia de hacer una ltima llamada de ventas adicional cada da, y
decide reunir informacin sobre la relacin entre el nmero de llamadas

2
de ventas y el nmero de copiadoras vendidas. Y Elabore un diagrama
de dispersin para representar la informacin.

Lectura.
Con base en la informacin de la tabla 13-1, la seora Bancer sospecha
que hay una relacin entre el nmero de llamadas de venta hechas en
un mes y el nmero de copiadoras vendidas. Soni Jones vendi ms
copiadoras el mes anterior, y fue una de las tres representantes que
hicieron 30 llamadas o ms. Por otro lado, Susan Welch y Carlos Ramrez
slo hicieron 10 llamadas de ventas durante el mes anterior. La seora
Welch, junto con otros dos, tuvo el nmero menor de copiadoras
vendidas entre los representantes muestreados. La implicacin es que el
nmero de copiadoras vendidas se relaciona con el nmero de llamadas
de ventas. Conforme aumenta el nmero de llamadas de venta, parece
que el nmero de copiadoras vendidas tambin lo hace. De este modo,
el nmero de llamadas de ventas se considera variable independiente, y
el de copiadoras vendidas, variable dependiente.
La variable independiente proporciona la base para la estimacin. Es la
variable predictora. La variable independiente no es un nmero
aleatorio.
La variable dependiente es la variable que se desea predecir o estimar.
La variable dependiente es aleatoria, esto es, por cada valor dado a la
variable independiente, existen muchos posibles resultados para la
variable dependiente. En este ejemplo, note que cinco representantes
de ventas hicieron 20 llamadas de ventas. El resultado de realizar esta
cantidad de llamadas se traduce en tres valores distintos de variable
dependiente.
Es prctica comn situar la variable dependiente (copiadoras vendidas)
en el eje vertical o
[Y] y la variable independiente (nmero de llamadas de ventas) en el eje
horizontal o [X].

Coeficiente de correlacin de Pearson

3
Describe la fuerza de la relacin entre dos conjuntos de variables en
escala de intervalo o de razn. Se designa con la letra r, y con frecuencia
se le conoce como r de Pearson y coeficiente de correlacin productomomento. Puede adoptar cualquier valor de -1.00 a +1.00, inclusive. Un
coeficiente de correlacin de -1.00 o bien de +1.00 indica una
correlacin perfecta. Por ejemplo, un coeficiente de correlacin para el
caso anterior calculado a +1.00 indicara que el nmero de llamadas de
ventas y la cantidad de copiadoras que vende cada representante estn
perfectamente relacionados en un sentido lineal positivo. Un valor
calculado de -1.00 revela que las llamadas de ventas y el nmero de
copiadoras vendidas estn perfectamente relacionados en un sentido
lineal inverso. En la grfica 13-2 se muestra cmo aparecera el
diagrama de dispersin si la relacin entre los dos conjuntos de datos
fuera lineal y perfecta.

Si no hay ninguna relacin entre los dos conjuntos de variables, la r de


Pearson es cero.
Un coeficiente de correlacin r cercano a 0 (sea 0.08) indica que la
relacin lineal es muy dbil. Se llega a la misma conclusin si r = - 0.08.
Los coeficientes de - 0.91 y + 0.91 tienen una fuerza igual; los dos
indican una correlacin muy fuerte entre las dos variables. Por lo tanto,
la fuerza de la correlacin no depende de la direccin (ya sea - o bien
+).
En la grfica 13-3 se muestran los diagramas de dispersin cuando r =
0, una r dbil (sea
- 0.23), y una r fuerte (sea + 0.87). Observe que, si la correlacin es
dbil, se presenta una dispersin considerable respecto de la recta
trazada a travs del centro de los datos. En el diagrama de dispersin
que representa una fuerte relacin, hay muy poca dispersin respecto
de la recta.

r = es el coeficiente de correlacin.
S y = es la desviacin estndar de Y (la variable dependiente).
S x = es la desviacin estndar de X (la variable independiente)
X, es cualquier valor de la variable independiente que se seleccione.
Y, es cualquier valor de la variable dependiente que se seleccione.
X = es la media de X (la variable independiente).
Y = es la media de Y (la variable dependiente).
Ejemplos.
Utilice los datos de Copier Sales of America que se reportan en la tabla
13-2. Para generar el coeficiente de correlacin de este ejemplo.

Ahora se sustituyen estos valores en la frmula (13-1) para determinar


el coeficiente de correlacin:
r=

(X X )(Y Y )
(n1) S x S y

900
(101)(9.189)(14.337)

= 0.759

Cmo se interpreta una correlacin de 0.759? Primero, es positiva, por


lo que se observa una relacin directa entre el nmero de llamadas de
ventas y el nmero de copiadoras vendidas. Esto confirma el
razonamiento basado en el diagrama de dispersin, grfica 13-4. El valor
de 0.759 est muy cercano a 1.00, y por ende se concluye que la
asociacin es fuerte.
Debe tener mucho cuidado con la interpretacin. La correlacin de 0.759
indica una asociacin positiva fuerte entre las variables. La seora
Bancer acierta al motivar al personal de ventas para hacer llamadas
adicionales, debido a que el nmero de llamadas se relaciona con el
nmero de copiadoras que vende. Sin embargo, ms llamadas de
ventas ocasionan ms ventas? No, aqu no se ha demostrado la causa y
el efecto, slo que hay una relacin entre las dos variables, llamadas de
ventas y copiadoras vendidas.
Si hay una relacin fuerte (sea 0.91) entre dos variables, es factible
suponer que un aumento o una disminucin en una variable causa un
cambio en la otra.
Ejemplo.
Havertys Furniture es un negocio familiar que vende a clientes
minoristas en el rea de Chicago desde hace muchos aos. Tanto en
radio como en televisin e internet, la compaa destaca sus precios
bajos y fciles trminos de crdito. El propietario desea analizar la
relacin entre las ventas y la suma de dinero que gast en publicidad. A
continuacin se presenta la informacin de las ven-tas y de los gastos
publicitarios durante los ltimos cuatro meses.

Mes
Julio
Agosto
Septiemb
re
Octubre

Gastos
Ingresos
publicitari por
os
ventas
2
7
1
3
3
4

8
10

Trace un diagrama de dispersin y determine el coeficiente de


correlacin.
Respuesta.

r = .9648

Anlisis de regresin
El anlisis de regresin se da mediante una ecuacin para expresar la
relacin lineal entre dos variables. Adems, se desea estimar el valor
de la variable dependiente [Y] con base en un valor seleccionado de la
variable independiente [X].

Principio de los mnimos cuadrados

En el anlisis de regresin, el objetivo es utilizar los datos para trazar


una lnea que represente mejor la relacin entre las dos variables.
Nuestro primer enfoque es utilizar un diagrama de dispersin para
visualizar la posicin de la lnea recta que probablemente ajustara los
datos.

Un tcnica que nos proporciona esta lnea de regresin es el mtodo de


minimos cuadrados, llamada comunmente recta del mejor ajuste.

Para ilustrar este concepto, se trazan los mismos datos en las tres
grficas siguientes. Los
puntos son los valores reales de Y, y los asteriscos son los valores
predichos de Y para un
valor dado de X. La recta de regresin de la grfica 13-9 se determin
con el mtodo de los mnimos cuadrados. Es la recta de mejor ajuste
porque la suma de los cuadrados de las des-viaciones verticales
respecto de s misma es mnima.

Donde:

8
Y^ , que se lee Y prima, es el valor de la estimacin de la variable Y
para un valor X selec-cionado.
a, es la interseccin Y. Es el valor estimado de Y cuando X = 0. En
otras palabras, [a] es
el valor estimado de Y donde la recta de regresin cruza el eje Y
cuando X es cero.
b, es la pendiente de la recta, o el cambio promedio en Y^ por cada
cambio de una unidad (ya sea aumento o reduccin) de la variable
independiente X.
X, es cualquier valor de la variable independiente que se seleccione.
La forma general de la ecuacin de la regresin lineal es exactamente la
misma que la ecuacin de cualquier lnea. [a] es la interseccin con Y y
b es la pendiente. El propsito de un anlisis de regresin es calcular los
valores de a y b para desarrollar una ecuacin lineal que se ajuste
mejor a los datos. Las frmulas de a y b son:

Dnde:
r = es el coeficiente de correlacin.
S y = es la desviacin estndar de Y (la variable dependiente).
S x = es la desviacin estndar de X (la variable independiente)

Dnde:
Y = es la media de Y (la variable dependiente).
X = es la media de X (la variable independiente).
Ejemplo.
Recuerde el ejemplo de Copier Sales of America. Con el mtodo de los
mnimos cuadrados, determine una ecuacin lineal que exprese la
relacin entre ambas variables. Cul es el nmero esperado de
copiadoras vendidas de un representante de ventas que hizo 20
llamadas?
Respuesta.
El primer paso para determinar la ecuacin de regresin es encontrar la
pendiente de la recta de regresin de mnimos cuadrados. Es decir, se
necesita el valor de b.

b=r

Sy
Sx

( )

= 0.759

( 14.337
9.189 )

= 1.1842

Despus necesita encontrar el valor de a. Para hacerlo, utilice el valor de


b que recin se calcul, as como las medias del nmero de llamadas de
ventas y del nmero de copiadoras vendidas.
a=

- b X

= 45 1.1842 (22) = 18.9476

As, la ecuacin de regresin es Y^ = 18.9476 + 1.1842X. Por lo tanto,


si un vendedor hace 20 llamadas, debera vender 42.6316 copiadoras,
nmero que se determina por
Y^ = 18.9476 + 1.1842 (20).