Vous êtes sur la page 1sur 76

1.

Introduccin
A continuacin, desarrollare el grado de relacin entre dos o mas variables en lo que
llamaremos anlisis de correlacin, Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin, estudiaremos un modelo
matemtico para estimar el valor de una variable basndonos en el valor de otra, en
lo que llamaremos anlisis de regresin. y, finalmente Desarrollaremos un ejercicio
aplicando lo aprendido, donde utilizaremos datos verdaderos de una empresa de
servicios tursticos.
Ecuacin de regresin Mltiple.- La forma general de la ecuacin de regresin
mltiple con dos variables independientes es:
Y' = a + b1X1 + b2X2
X1,X2 : Variables Independientes
a : es la ordenada del punto de interseccin con el eje Y.
b1 : Coeficiente de Regresin (es la variacin neta en Y por cada unidad de
variacin en X1.).
b2 : Coeficiente de Regresin (es el cambio neto en Y para cada cambio
unitario en X2).

Prueba Global.- esta prueba investiga bsicamente si es posible que todas las
variables independientes tengan coeficientes de regresin neta iguales a 0.
2. Marco Terico
A fin de facilitar la comprensin del presente trabajo definiremos algunos conceptos
basicos.
Anlisis de Correlacin .- Es el conjunto de tcnicas estadsticas empleado para
medir la intensidad de la asociacin entre dos variables.
El principal objetivo del anlisis de correlacin consiste en determinar que tan
intensa es la relacin entre dos variables. Normalmente, el primer paso es mostrar
los datos en un diagrama de dispersin.
Diagrama de Dispersin.- es aquel grafico que representa la relacin entre dos
variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya representacin
es "Y"
Variable I ndependiente.- es la variable que proporciona las bases para el calculo.
Cuya representacin es: X1,X2,X3.......
Coeficiente de Correlacin.- Describe la intensidad de la relacin entre dos
conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la
relacin lineal entre dos variables.
El valor del coeficiente de correlacin puede tomar valores desde menos uno hasta
uno, indicando que mientras ms cercano a uno sea el valor del coeficiente de
correlacin, en cualquier direccin, ms fuerte ser la asociacin lineal entre las dos
variables. Mientras ms cercano a cero sea el coeficiente de correlacin indicar que
ms dbil es la asociacin entre ambas variables. Si es igual a cero se concluir que
no existe relacin lineal alguna entre ambas variables.
Anlisis de regresin.- Es la tcnica empleada para desarrollar la ecuacin y dar las
estimaciones.
Ecuacin de Regresin.- es una ecuacin que define la relacin lineal entre dos
variables.
Ecuacin de regresin Lineal: Y = a + Bx
Ecuacin de regresin Lineal Mltiple: Y = a + b1X1 + b2X2 + b3X3...
Principio de Mnimos Cuadrados.- Es la tcnica empleada para obtener la ecuacin
de regresin, minimizando la suma de los cuadrados de las distancias verticales
entre los valores verdaderos de "Y" y los valores pronosticados "Y".
Anlisis de regresin y Correlacin Mltiple.- consiste en estimar una variable
dependiente, utilizando dos o ms variables independientes.

Y X1 X2
AO VENTAS
GASTOS DE
PUBLICIDAD
COMISIONES DE
VENDEDORES
2000 264000 550 15840
2001 384000 590 19250
2002 400200 680 26013
2003 422400 700 16896
2004 543000 750 16290
3. ANLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad
4. 2.- Comisin de vendedores
5. Variable dependiente:
- Ventas

Utilizando el Excel obtenemos los siguientes datos.
Estadsticas de la Regresin
Coeficiente de correlacin mltiple 0.92092
Coeficiente de determinacin R2 0.84810
R2 ajustado 0.69619
Error tpico 54887.83156
Observaciones 5
6. De aqu se puede decir:
- De acuerdo al valor del coeficiente de correlacin mltiple, podemos afirmar que
la variable X1 (Gastos de Publicidad) y X2 (Comisin de vendedores) se encuentran
asociadas en forma directa de una manera muy fuerte con la variable dependiente
Ventas, en un 92%.
- De acuerdo al Coeficiente de determinacin R2, podemos decir que el 85% de las
ventas pueden ser explicadas por los gastos de publicidad y las comisiones de los
vendedores.
A N L I S I S D E V A R I A N Z A

Grados de
libertad
Suma de
cuadrados
Prom. de los
cuadrados F
Valor crtico
de F
Regresin 2 33640459893 16820229947 5.5832 0.15190282
Residuos 2 6025348107 3012674053

Total 4 39665808000

7.

Coeficie
ntes
Error
tpico
Estadst
ico t
Prob
ab. I nf. 95%
Sup.
95%
I nferior
95.0%
Sup.
95.0%
Intercep
cin
-
289315.
16
242459
.39 -1.193
0.355
13
-
1332534.
446
753904.
118
-
1332534.
446
753904.
118
GSTOS
DE
PUBLIC
ID. 1123.49 336.22 3.342
0.079
08
-
323.1275
965
2570.10
8 -323.128
2570.10
8
COM.
DE
VENDE
D. -2.27 6.55 -0.346
0.762
45
-
30.45400
257 25.922 -30.454 25.922
8.
De aqu se desprende la ecuacin de regresin mltiple:
Y = - 289315 + 1123 X1 - 2.27 X2
9.
Prueba Global: Verificacin de la validez del modelo de regresin Mltiple.
Formulacin de Hiptesis:
Hp: B1 = B2 = 0
Ha: B1 B2 0
10. Si se acepta la hiptesis planteada, significa que ninguno de los factores (X1,X2)
son relevantes para explicar los cambios en Y.
De acuerdo a la tabla de anlisis de la varianza F calculado es 5.58 y el p-valor es
0.15, de lo cual podemos decir que La hiptesis planteada se rechaza y se acepta la
hiptesis alternativa, por que el F calculado es mayor que el p-valor.
Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los
coeficientes de regresin, no son iguales a cero y, por o tanto son tiles para las
predicciones. El siguiente paso consiste en probar individualmente las variables
para determinar cuales coeficientes de regresin pueden ser cero y cuales no.
Del anlisis mediante Excell tenemos el siguiente cuadro.

VENTAS VS GASTOS DE PUBLICIDAD
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.915976333
Coeficiente de determinacin R^2 0.839012642
R^2 ajustado 0.785350189
Error tpico 46136.36902
Observaciones 5
11.
A N L I S I S D E V A R I A N Z A

GL Suma de cuadrados Prom. de los cuadr. F p-Valor
Regresin 1 33280114360 33280114360 15.6350 0.028865932
Residuos 3 6385693640 2128564547

Total 4 39665808000

12.

Coeficien
tes
Error
tpico
Estad
st. t
Proba
b.
Inf.
95%
Sup.
95%
Inf.
95%
Sup.
95%
Intercepci
n
-
324444.4
28
185054.
64
-
1.7532
0.177
8
-
913371.
43
264482.
58
-
913371.
43
264482.
58
GASTOS
DE
PUBLICID
AD
1111.872
2
281.193
89 3.9541
0.028
9
216.986
9
2006.75
75
216.986
9
2006.75
75
13.
VENTAS VS COMISIN DE VENDEDORES
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.003317293
Coeficiente de determinacin R^2 1.10044E-05
R^2 ajustado -0.333318661
Error tpico 114986.0448
Observaciones 5
14.
ANLISIS DE VARIANZA

GL
Suma de
cuadrados
Prom. de los
cuadrados F
Valor crtico
de F
Regresin 1 436499.6307 436499.6307
3.30137E-
05 0.9957763
Residuos 3 39665371500 13221790500

Total 4 39665808000

15.

Coefici
entes
Error
tpico
Estadst
. t
Probabi
lidad
Inferior
95%
Superio
r 95%
Inferior
95.0%
Superio
r 95.0%
Intercepci
n
404199.
6521
262605.
1563
1.53919
1605
0.2213
8434
-
431527.
9414
123992
7.246
-
431527.
9414
123992
7.246
COM. DE
VENDED
ORES
-
0.07846
366
13.6559
4537
-
0.00574
575
0.9957
763
-
43.5378
1731
43.3808
8999
-
43.5378
1731
43.3808
8999
16.
De acuerdo a los cuadros podemos decir:
- La variable que mas relacin tiene con las Variable Dependiente es decir las
ventas
17. es la variable Gastos de Publicidad ya que su R2 "Coeficiente de determinacin" es
18. 79%.
- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene
19. relacin relevante con las Ventas ya que su Coeficiente de determinacin es casi
20. nulo 0.001% .
21. Desarrollo de un Caso.
Una agencia de Viajes desea saber la relacin que hay entre las ventas, el
presupuesto destinado a publicidad, y las comisiones de los vendedores para esto
presenta los siguientes datos. Realice los anlisis respectivos.
22. Bibliografa.
a) LIND, Douglas y MARCHAL, William y MASON, Robert. Estadstica para
administracin y economia. Alfaomega. Colombia 11ava edicin. 2004 Cap.13 y
14
b) CORDOVA, Jorge Herramientas Estadsticas para la Gestin en Salud. JC
ediciones. Versin electrnica (formato CD) Mayo 2003.
c) HILDEBRAND, David y OTT, Lyman. Estadstica Aplicada a la
administracin y a la economia. Adidison wesley Iberoamericana sa. 1997. Cap.
13,14 y 15.


Regresin y Correlacin
La regresin y la correlacin son dos tcnicas estrechamente relacionadas y comprenden
una forma de estimacin.
En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los
datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una
poblacin. El anlisis de correlacin produce un nmero que resume el grado de la
correlacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin
matemtica que describe dicha relacin.
El anlisis de correlacin generalmente resulta til para un trabajo de exploracin cuando
un investigador o analista trata de determinar que variables son potenciales importantes, el
inters radica bsicamente en la fuerza de la relacin. La correlacin mide la fuerza de una
entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en
trminos matemticos
Los datos necesarios para anlisis de regresin y correlacin provienen de observaciones de
variables relacionadas.
Regresin lineal
La regresin lineal simple comprende el intento de desarrollar una lnea recta o ecuacin
matemtica lineal que describe la reaccin entre dos variables.
La regresin puede utilizadas de diversas formas. Se emplean en situaciones en la que las
dos variables miden aproximadamente lo mismo, pero en las que una variable es
relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que
con la otra variable no ocurre lo mismo.
La finalidad de una ecuacin de regresin seria estimar los valores de una variable con base
en los valores conocidos de la otra.
Otra forma de emplear una ecuacin de regresin es para explicar los valores de una
variable en trmino de otra. Es decir se puede intuir una relacin de causa y efecto entre dos
variables. El anlisis de regresin nicamente indica qu relacin matemtica podra haber,
de existir una. Ni con regresin ni con la correlacin se pude establecer si una variable tiene
causa ciertos valores de otra variable.
Ecuacin Lineal
Dos caractersticas importantes de una ecuacin lineal
la independencia de la recta
la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la
altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de
predecir, y x es la variable predictora.
Determinacin de la ecuacin matemtica
En la regresin, los valores de y son predichos a partir de valores de x dados o
conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de
variable independiente.
Mtodos de mnimos cuadrados
EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que
conoce como mtodo de mnimos cuadrados. La recta resultante presenta 2 caracterstica
importantes
es nula la suma desviaciones verticales en los puntos a partir de la recta
es mnima la suma de los cuadrados de dicha desviaciones

(yi - yc)2
En el cual
Yi = valor esperado de y
Yc= valor calculado de y utilizando la ecuacin de mnimos cuadrados con el valor
correspondientes x para yi
Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de
la desviacin ecuaciones normales
y = na + (x)
xy= a (x) +b (x2)
En las que n es el numero de pares de observaciones. Evaluando las cantidades
x, y, etc. Se puede resolver
estas dos ecuaciones simultneamente para determinar a b. la ecuaciones puede despejarse.
Se obtuvieron dos formulas aun para a y otra para b.
n(xy)- (x)(y)
b=
n(x2)-(x)2
y - b x
a=
n
Inferencia en el anlisis de regresin
Los supuestos para el anlisis de regresin son como:
Existen datos de medicin para a x y z.
la variable dependiente es una variable aleatoria.
para cada valor de x, existe una distribucin condicional de la qu es de naturaleza
normal
la desviacin estndar de toda las distribuciones condicionales son iguales
EL error estndar de estimacin
La determinante primaria de la exactitud es el grado de dispersin de la poblacin: cuanto
mas dispersa este, menor ser la exactitud de la estimacin. El grado de dispersin en la
poblacin se puede estimar a partir del grado de dispersin en las observaciones de la
muestra con respecto a la lnea de regresin calculada, utilizando la formula.
Se = " (yi -yc)
n-2
en la cual:
yi = cada valor de y
yc = valor de lnea de regresin correspondiente a partir de la ecuacin de regresin.
n = nmeros de observaciones.
La formula anterior no se utiliza por lo general para clculos reales, es mas fcil trabajar
con la formula simplificada
Se " y2 - a y - b
xy
n - 2
Inferencia de acerca de la pendiente de una lnea de regresin
Aun cuando es muy poca o nula relacin entre dos variables de aun poblacin, es posible
obtener valores maestrales que hacen que parezca que la variables estn relacionadas, es
importantes probar los resultados tales de caculo, a fin determinar si son significativos (es
decir si los parmetros verdaderos no son cero), Si no existe ninguna relacin se esperara
obtener aun pendiente cero, se pone a prueba la hiptesis nula contra la hiptesis
alternativa.
La significacin del coeficiente de regresin se puede probar comparndolo con su
desviacin estndar
t = valor de la muestra - valor esperado
Desviacin estndar
Anlisis de regresin lineal mltiple
La regresin mltiple comprende tres o ms variables. Existe solo una variable
dependiente, pero hay dos o mas tipo independiente. Esta operacin al desarrollo de una
ecuacin que se pede utilizar para predecir valore de y, respecto a valores dados de la
diferencia variables independientes adicionales es incrementar la capacidad predicativa
sobre la de la regresin lineal simple.
Las tcnicas de los mnimos cuadrados se utilizan para obtener ecuaciones de regresin.
Yc= a +b1x1+b2x2+bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes
Un anlisis de regresin simple de dos variable da lugar a la ecuacin de una recta, un
problema de tres variables produce un plano, y un problema de k variables implica un
hiperplano de a
(k +1) dimensiones.
Anlisis de Correlacin
EL objetivo de un estudio de correlacin es determinar la consistencia de una relacin entre
observaciones por partes. EL termino correlacin significa relacin mutua, ye que indica
el grado en el que los valores de una variable se relacionan con los valores de otra. Se
considera tres tcnicas de correlacin uno para datos de medicin, otro para datos
jerarquizados y el ltimo para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relacin entre dos variables continuas se resume mediante un coeficiente de
correlacin que se conoce como r de Pearson en honor del gran matemtico Kart Pearson,
quien ideo este mtodo. Esta tcnica es valida mientras si es posible establecer ciertos
supuestos bastante estrictos. Tales supuestos son los siguientes:
Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del anlisis
de referencia de regresin, no es aceptable seleccionar ciertos valores de x, y despus
medir y; tanto y como x deben de variar libremente.
La distribucin conjunta de frecuencia es normal. Esto recibe el nombre de de
distribucin normal divariada.
Carcter de r
El coeficiente de relacin presenta dos propiedades que establecen la naturaleza de una
relacin entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es
igual al de la pendiente de una recta que podra ajustarse a los datos si estos se graficaran
en un diagrama de dispersin, y la magnitud de r indica cuan cerca esta de la recta tales
puntos.
Mtodo practicar para calcular r
Dado que los clculos necesarios pueden requerir mucho tiempo especialmente cuando se
resta las medias del grupo de cada observacin se elevan a cuadrado esas diferencias.
Existe una versin, la cual simplifica los clculos:
r= n ("xy)-("x)("y) _
"n("x2)-("x)2 "n("y2)("y)2
Existen 3 formas posibles para obtener el valor de r en el caso de datos de medicin:
estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de
determinacin r2 y obtener su raz cuadrada como utilizar la formula. Para un conjunto de
datos los tres mtodos producirn el mismo valor para r no obstante cada mtodo agrega
algo a la comprensin del significado del termino correlacin
Inferencia acerca del coeficiente de correlacin
Intervalo de confianza para la correlacin de la poblacin
El valor del coeficiente de correlacin de la muestra se puede utilizar como un estimado de
la correlacin verdadera de poblacin existen varios mtodos
para obtener un mtodo de confianza para pero quizs la
forma mas directa es usar un diagrama.
Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no
conocidos) se indica a lo largo de la escala vertical los
posibles valores r de la muestra se indica en la escala inferior una serie de curvas
representan tamao de muestras seleccionadas.
Prueba de significacin de r
Puede ser necesario evaluar una aseveracin con respecto al valor de
. La forma mas sencilla es obtener un intervalo de confianza
para r y observar si el valor propuesto esta incluido en el intervalo de ser as se rechaza a
Ho y se acepta la alternativa.
Datos jerarquizados de: r Spearman
Es una tcnica no paramtrica que utiliza para medir la fuerza de una relacin por pares de
2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un
coeficiente de correlacin estos ejemplos es determinar el grado en el que dos conjuntos de
jerarquizacin concuerdan o no. Esta tcnica tambin se puede extender a calificaciones u
otro tipo de medicin si estas se convierten a rangos.
Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos
conjuntos de rangos: si la suma de stos es pequea, esto significa que hay acuerdo; si la
suma es grande, esto indica lo contrario. EL calculo real de la correlacin comprende la
formula.
rsp = 1 - 6"d2
n(n2 -1)
En la cual n es el nmero de observaciones y "d2 es la suma de los cuadrados de la
diferencia entre los rangos. El coeficiente de correlacin de jerarqua obtenido recibe el
nombre de r Spearman. La suma de la diferencia es cero. Esto no sirve como una
comprobacin til de los clculos aunque no es necesaria en la frmula.
El procedimiento es como el siguiente:
Obtener la diferencia en rango para cada par de observaciones
Como comprobaciones, verificar que la diferencias se sumen a 0
elevar el cuadrado la diferencias
sumar los cuadrados de la diferencia para obtener "d2
Calcular rsp
Si el valor rsp es pequeo para situaciones en donde n es mayor que 10, la hiptesis nula de
rsp = 0 puede ser probada utilizndola la frmula
rsp - 0
t=
"(1- rsp 2) (n -2)
Datos nominales: el coeficiente de contingencia
Cuando ambas variables se miden en escalas nominales ( es decir , categoras ) , el anlisis
es fcilmente mediante el desarrollo de una tabla de contingencia semejante a la que se
utilizo en el anlisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en
realidad de aun extensin del anlisis de una tabla r * k.
Una medida de relacin es calcular el coeficiente de contingencia en C, donde
x2
C=
X2 + N
Un aspecto interesante de una tabla ji cuadrada es que l tamao mximo posible de x2 es
funcin de N, de las observaciones y del tamao de la tabla.
En le caso de tabla con los valores cuadrado, esto lleva obtener un valor mximo de C de
K - 1
C max =
k
En el cual k es el nmero de fila o columnas. La comprar C con C max se pude obtener una
idea de la intensidad de la asociacin entre la variables.
Esta es una relacin moderada, no muy intensa. Su interpretacin exacta en parte de la
naturaleza de los datos y de los resultados comparables que se obtengan de otros estudios,
por lo que es difcil establecer valores definitivos d intensidades.
Se bebe observar que la formula no frmula no produce automticamente el signo del
coeficiente de contingencia. DE ah que no siempre resulte evidente el existe aun relacin
positiva o negativa.
Ventajas:
Nos e requiere de supuestos con respectos a la formula de poblacin
Solamente se necesita una medicin nominal ( categoras)
Limitaciones
El limite superior de C es menor que 1.00 incluso Para un correlacin perfecta.
El lmite superior depende del tamao de la tabla, por lo que no son comparables los
coeficientes de contingencia de tablas de tamao diferente
El coeficiente de contingencia no es directamente comprable con otras medidas de
correlacin, como la r de Pearson y la r de Spearman, o incluso con otras tablas de
contingencia de tamao diferente.
Cada casilla deber tener una frecuencia esperada por lo menos 5.
C max solamente se puede calcular a partir de tabla de valores al cuadrado
EJERCICIOS PAG. 411
1.- Cual es la ecuacin de una recta con las siguientes caractersticas?
pendiente 10.2 y ordenada en el origen 5.0.
Yc=5 +10.2x.
pendiente 55 y ordenada en el origen 0.
Yc=55x.
Pendiente 27 y ordenada en el origen -2.
Yc=-2 +27x.
Pendiente -13 y ordenada en el origen 200.
Yc=200 - 13x.
Pendiente 0 y ordenada en el origen 2.4.
Yc=2.4
2.- Calcule los valores de a y b en la ecuacin lineal yc =a+bx apartir de las grficas de la
fig. 14.4.
Yc=6+(7.5/500)x Yc=-1 +(12/4)x
EJERCICIOS PAG. 416
1.- Suponga que una cadena de supermercados financia un estudio sobre los gastos anuales
en comestibles de familias de cuatro miembros. La investigacin se limit a familias con
ingresos netos que van de $ 8,000 a $ 20,000 dlares. Se obtuvo la siguiente ecuacin:
yc =-200 + .10x
y = gastos anuales estimados
x = ingresos netos anuales
Estime los gastos de una familia de cuatro miembros con un ingreso anual de $15,000.
Como queremos estimar el gasto anual, se sustituye el valor de los ingresos(x) en la
ecuacin y queda as:
Yc = -200 + .10(15,000)
Yc = -200 + 1500
Yc=1300
Uno de los vicepresidentes se preocupa por el hecho de que aparentemente la ecuacin
indica que una familia con ingreso de $2,000 no gastara nada en alimentos. Cul sera su
respuesta?
La respuesta es que no tiene de que preocuparse ya que el gasto est estimado para
familias con ingresos de 8000 a 20000 dlls.
Explique porqu no se podra utilizar en los siguientes casos:
1) estimacin en los gastos de familias de cinco miembros.
No es posible ya que la ecuacin est calculada para una familia de cuatro miembros.
2) estimacin en los gastos de familias cuyos ingresos netos van de $20,000 a $35,000.
No se puede porque la formula se calculo para sueldos menores o iguales a 20,000.
d. Grafique la ecuacin.
2.- Un bufete de ingenieros consultores ha establecido la siguiente relacin con respecto al
rendimiento por galn de automviles estadounidenses de 6 cilindros, cuyo peso vara de
1500 a 3000 libras:
yc=30 - 0.002x
y=rendimiento millas/galn
x=peso del vehculo
Represente esta relacin con una grfica y marque los ejes.
Estime el consumo de gasolina X milla para un auto de peso:
Sustituimos en la formula:
1)2000 lb yc=30 - 0.002(2000)=26
2)1500 lb yc=30 - 0.002(1500)=27
3)2500 lb yc=30 - 0.002(2500)=25
3.- Emplee los siguientes valores de resumen para determinar las ecuaciones de regresin:
a. "x=200, "y=300, "xy=6200, "x2=3600, n=20.
b= 20(6200)-(200)(300)
20(3600)-(200)2
b=2
a=300-b(200)
20
a=-5
Yc =-5 +2x
b. "x=7.2, "y=37, "xy=3100, "x2=620, n=36.
b= 36(3100)-(7.2)(37)
36(620)-(7.2)2
b=5
a=37-b(7.2)
36
a=.028
Yc =5 +.028x
c. "x=700, "y=-250, "xy=-1400, "x2=21000, n=30.
b= 30(-1400)-(700)(-250)
30(21000)-(700)2
b=.95
a=-250-b(700)
30
a=-30.5
Yc =-30.5 +.95x
d. "x=33, "y=207, "xy=525, "x2=750, n=40.
b= 40(525)-(33)(207)
40(750)-(33)2
b=.49
a=207-b(33)
40
a=4.77
Yc =4.77 +x
4.- En el caso de cada conjunto represente estos en una grfica y si parece apropiada una
ecuacin lineal, determine los coeficientes a y b a partir de los mismos.
a.
Tamao
Costo
total
x y
20 3500
22 3000
25 2000
30 1600
40 1000
45 800
50 900
55 950
60 1100
63 1300
70 1500
Los datos siguen una tendencia polinomial.
b.
Ventas Ingresos
x y
150 15
201 17
225 20
305 21
370 19
380 23
450 21
510 22
560 25
600 24
685 27
725 30
735 27
"x=5896, "y=291, "xy=141502, "x2=3159126, n=13.
Como parece apropiada una ecuacin lineal, se determinan los coeficientes a y b con la
formula:
b= 13(141502)-(5896)(291)
13(3159126)-(5896)2
b=.2
a=291-b(5896)
13
a=13.48
Yc =13.48+.2x
5.- Determine una ecuacin que describa la relacin entre la frecuencia de accidentes y el
nivel de educacin preventiva
X Y XY X2
150 8.00 1200 22500
200 7.00 1400 40000
300 6.50 1950 90000
450 5.20 2340 202500
500 6.40 3200 250000
600 4.40 2640 360000
800 4.00 3200 640000
900 3.10 2790 810000
3900 44.60 18720 2415000
n=8
Para encontrar la ecuacin se sustituyen los valores en la formula:
b= 8(18720)-(3900)(44.6)
8(18720)-(3900)2
b=.006
a=44.6-b(3900)
8
a=8.44
Yc =8.44+.006x
6.- Una compaa que tiene 15 tiendas ha recopilado datos en relacin con los metros
cuadrados de area de ventas respecto a los ingresos mensuales. Trace una grfica de los
datos, y si parece apropiado un modelo lineal determine la ecuacin de regresin.
Tienda Metros 2 Ingreso

X Y XY X2
a 55 45 2475 3025
o 80 60 4800 6400
j 85 75 6375 7225
e 90 75 6750 8100
k 90 80 7200 8100
d 110 95 10450 12100
n 130 95 12350 16900
g 140 110 15400 19600
c 180 120 21600 32400
l 180 105 18900 32400
b 200 115 23000 40000
i 200 130 26000 40000
h 215 140 30100 46225
f 260 170 44200 67600
m 300 200 60000 90000
15 2315 1615 289600 430075
}Los datos seran:
"x=2315, "y=1615, "xy=289600, "x2=430075, n=15.
Y se sustituyen los valores en la formula:
b= 15(289600)-(2315)(1615)
15(430075)-(2315)2
b=.5543
a=1615-b(2315)
15
a=22.11
Yc =22.11+.5543x
Y la grafica sera:
7.- Vuelva a resolver el ejercicio 5 utilizando accidentes como x y nivel horas instruccin.
Como y compare la ecuacin obtenida con la anterior.
Determine una ecuacin que describa la relacin entre la frecuencia de accidentes y el nivel
de educacin preventiva
Accidentes horas

X Y XY X2
3.10 900 2790 9.61
4.00 800 3200 16
4.40 600 2640 19.36
5.20 450 2340 27.04
6.40 500 3200 40.96
6.50 300 1950 42.25
7.00 200 1400 49
8.00 150 1200 64
44.60 3900.00 18720 268.22
n=8
Para encontrar la ecuacin se sustituyen los valores en la formula:
b= 8(18720)-(44.6)(3900)
8(268.22)-(44.6)2
b=-154.4
a=3900-b(44.6)
8
a=1348
Yc =1348-154.4x
8.- Teniendo:
X 1 2 3 4 5 6 7 28
Y 2 4 5 6 7 7 9 40
Utilice los datos para:
a. Calcular los coeficientes a y b de la ecuacin.
X Y XY X2
1 2 2 1
2 4 8 4
3 5 15 9
4 6 24 16
5 7 35 25
6 7 42 36
7 9 63 49
28 40 189 140
b= 7(189)- (28)(40)
7(140)-(28)2
b=1.036
a= 40-b(28)
7
a=1.57
Yc =1.57+1.036x
b. Duplicar cada valor de x y volver a calcular los coeficientes.
X Y XY X2
2 2 4 4
4 4 16 16
6 5 30 36
8 6 48 64
10 7 70 100
12 7 84 144
14 9 126 196
56 40 378 560
b= 7(378)-(56)(40)
7(560)-(56)2
b=.52
a= 40-b(56)
7
a=1.57
Yc =1.57+.52x
c. Duplicar el valor original de x,y para evaluar de nuevo los coeficientes.
X Y XY X2
2 4 8 4
4 8 32 16
6 10 60 36
8 12 96 64
10 14 140 100
12 14 168 144
14 18 252 196
56 80 756 560
b= 7(756)-(56)(80)
7(560)-(56)2
b=1.036
a= 80-b(56)
7
a=3.14
Yc =3.14+1.036x
d. Utilizar el valor original de x, pero agregando 2 a cada valor original de y, y recalcular la
ecuacin de regresin.
X Y XY X2
1 4 4 1
2 6 12 4
3 7 21 9
4 8 32 16
5 9 45 25
6 9 54 36
7 11 77 49
28 54 245 140
b= 7(245)-(28)(54)
7(140)-(28)2
b=1.036
a= 54-b(28)
7
a=3.57
Yc =1.57+1.036x
9.- Determine una ecuacin predictiva para calcular el monto del seguro, en funcin del
ingreso anual para los siguientes datos:
Ingreso Prima

X Y XY X2
13 5 65 169
16 15 240 256
17 20 340 289
18 10 180 324
20 10 200 400
25 12 300 625
26 15 390 676
32 30 960 1024
38 40 1520 1444
40 50 2000 1600
42 40 1680 1764
287 247 7875 8571
b= 11(7875)-(287)(247)
11(8571)-(287)2
b=1.321
a= 247-b(287)
11
a=-12.01
Yc =-12.01+1.321x
EJERCICIOS PAGINA 435
1.- Determine qu pendientes para los siguientes datos son significativas al nivel 0.05.
Utilice n-2 grados de libertad.
a) DATOS
b= 4
Sb=1
n=12
Solucin:
n-2= 12-2= 10
tprueba= (b-0)/ Sb = (4-0)/1= 4
.025
=.05/2= .025
10 Tt= 2.228
Usando:
b - tSb " B " b + tSb
4-(2.228)(1) " 0 " 4+(2.228)(1)
! !
1.772 " 0 " 6.228
:. Es significativo
b) DATOS
b= -0.15
Sb=0.10
n= 20
Solucin:
n-2= 20-2= 18
Tprueba= (-.015-0)/.10 = -1.5
.025
=.05/2= .025
2.101
Usando:
b - tSb " B " b + tSb
-0.15-(2.101)(.10) " 0 " -0.15+(2.101)(.10)
! !
-0.3601 " 0 " 0.06
:. Se Acepta Ho
DATOS
b= 1.2
Sb=0.6
n= 25
Solucin:
n-2= 25-2= 23
Tprueba= (1.2-0)/0.6 = 2
.025
=.05/2= .025
2.069
Usando:
b - tSb " B " b + tSb
1.2-(2.069)(0.6) " 0 " 1.2+(2.069)(0.6)
! !
-0.027 " 0 " 2.427
:. Se Acepta Ho
DATOS
b= 0.6
Sb=0.2
n= 31
Solucin:
n-2= 31-2= 29
Tprueba= (0.6-0)/0.2 = 3
.025
=.05/2= .025
29 2.045
Usando:
b - tSb " B " b + tSb
0.6-(2..045)(0.2) " 0 " 0.6+(2.045)(0.2)
! !
0.191 " 0 " 1.009
:. Es significativo
e) DATOS
b= -212
Sb=38
n= 50
Solucin:
n>32 z
Tprueba= (-212-0)/38 = -5.57
.06
= .5-.025= .475
1.9 .475
Usando:
b - tSb " B " b + tSb
-212-(1.96)(38) " 0 " -212+(1.96)(38)
! !
-286.48 " 0 " -137.52
:. Es significativo
f) DATOS
b= .015
Sb=0.001
n= 100
Solucin:
n>32 z
Tprueba= (.015-0)/0.001 = 15
0.06
=0.5-.025= 0.195
1.9 .475
Usando:
b-tSb " B " b+tSb
0.015-(1.96)(.001) " 0 " 0.015+(1.96)(.001)
! !
0.013 " 0 " 0.013
:. Se Acepta Ho
2.- Determine intervalos de confianza de 99% para cada uno de estos coeficientes de
regresin, e indique qu pendientes son significativas.
DATOS
b= 8.2
Sb= 4.1
n= 50
.495 .495
z=2.58
b - tSb " B " b + tSb
8.2-(2.58)(4.1) " 0 " 8.2+(2.58)(4.1)
-2.37 a 18.77
:. No significativo
DATOS
b= .13
Sb= .04 .495 .495
n= 30
n-2= 30-2=28
= 0.5-.495=.005
.005
28 t= 2.763
b tSb
.13 (2.763)(.04)
0.02 a 0.2405
:. Significativo
DATOS
b= 5.213
Sb= 1.50 .495 .495
n= 20
n-2= 20-2=18
2.87
b tSb
5.212 (2.87)(1.50)
0.908 a 9.518
:. Significativo
DATOS
b= 145
Sb= 40 .495 .495
n= 60
z= 2.58
b tSb
145 (2.58)(40)
41.8 a 248.2
:. Significativo
DATOS
b= -7.1
Sb= 3.0 .495 .495
n= 9
n-2= 9-2= 7
.005
7 3.499
b tSb
-7.1 (3.499)(3.0)
-17.59 a 3.39
:. No Significativo
3.- Utilizando los siguientes datos:
a) Calcular la ecuacin de regresin
b) Calcular Se y despus Sb.
Determinar si b es significativo, utilizando un intervalo de confianza con
=0.05.
Calificaciones 1. Prueba 2. Prueba
A 80 78
B 95 90
C 88 85
D 98 98
E 94 90
F 74 76
G 81 80
H 86 78
I 90 89
J 69 62
Totales 855 826
y2=69,138
xy=71434
x2=73903

Ecuacin de Regresin:
Yc= a + bx
b= n( xy) -( x)(
y)= 10 (71,434)- (855)(826) = 1.013
n( x2)-( x)2 10(73903)-(855)2
a= y -b x= 826-(1.013)(855)= -
4.02
n 10
Yc= -4.02 + 1.013x
b) Calculo de Se y Sb
Se= y2 - a y -
b xy = 69,138 - (-4.02)(826)-( 1.013)( 71434) =3.330
n-2 10-2
Sb= Se 1 _ =( 3.330) 1 _= 0.118
x2- [( x)2/n] 73903 -
[(855)2/10]
=0.05
0.025 b t Sb
1.013 (2.262)(.118)
0.746 a 1.28
8 2.262
:. Significativo
4.- Diga que ecuacin escribira los datos del ejercicio anterior, si la segunda calificacin
del examen en cada caso es exactamente igual a la primera.
b= n( xy) -( x)(
y)= 10 (73903)- (855)(855) = 1
n( x2)-( x)2 10(73903)-(855)2
a= y -b x= 855-(1)(855)= 0
n 10
Yc= 1x
5.- Calcule r2 utilizando los datos del ejercicio 8, pgina 418.
x y
1 2
2 4
3 5
4 6
5 7
6 7
7 9
28 40
y2= 260
xy= 189
x2= 140
b= n( xy) -( x)(
y)= 7 (189)- (28)( 40) = 1.03
n( x2)-( x)2 7(140)-( 28)2
a= y -bx= 40-(1.03)( 28)= 1.57
n 7
Se= 260- (1.57)(40)-( 1.03)( 189) =0.309
5
Se2= 0.095
Sy2= n( y2)-( y)2/n =7(260)-
(40)2/7= 318.28
n-2 5
r2= 1- Se2 = 1- 0.095= 0.999
Sy2 318.28
6.- Explique por que el valor r2 nunca puede ser negativo
Porque r2= 1- Se2 ; y Se2 siempre debe ser menor que Sy2
Sy2
7.- Calcule r2 para cada uno de los siguientes casos:

a b c d e
Se2 14400 14400 2025 2025 606
Sy2 28800 57600 2500 2200 6060
a.- r2= 1- Se2 = 1- 14400 = 0.5
Sy2 28800
b.- r2= 1- Se2 = 1- 14400= 0.75
Sy2 57600
c.- r2= 1- Se2 = 1- 2025 = 0.19
Sy2 2500
d.- r2= 1- Se2 = 1- 2025 = 0.079
Sy2 2200
e.- r2= 1- Se2 = 1- 606 = 0.9
Sy2 6060
11.- Utilice la siguiente informacin para los clculos:
Yc= 13 + 2x Se= 3 n=10
x= 40 x2=600
a) Estime un intervalo de confianza de 95% para el valor promedio (esperado) de y, si xg
es:
Yc t(Se (1/n)+( xg-x)2 /{ x2-
[( x)2/n]})
DATOS:
1.0
n-2= 10-2 = 8
Yc= 13+2(1) =15
X= x/n= 40/10= 4.0
.025
8 t= 2.306
SUSTITUYENDO EN LA FORMULA
15 2.306 (3.0 (1/10)+( 1.0-4.0)2 /{600-[(40)2/10]})
2.306 (1.04)
12.60 a 17.40
DATOS :
4.0
Yc= 13+2(4) = 21
SUSTITUYENDO EN LA FORMULA
21 2.306 (3.0 (1/10)+( 4.0-4.0)2 /{600-[(40)2/10]})
21 2.306 (0.948)
18.81 a 23.18
DATOS :
8.0
Yc= 13+2(8) = 29
SUSTITUYENDO EN LA FORMULA
29 2.306 (3.0 (1/10)+( 8.0-4.0)2 /{600-[(40)2/10]})
29 2.306 (1.1078)
26.44 a 31.55
b) Obtenga un intervalo de confianza de 95% para un valor individual de y cuando xg es:
Yc t(Se 1+(1/n)+( xg-x)2 /{ x2-
[( x)2/n]})
DATOS :
1.0
Yc= 15
SUSTITUYENDO EN LA FORMULA:
Yc t (Se 1+(1/n)+( xg-x)2 /{ x2-
[( x)2/n]})
15 2.306 (3.175)
7.68 a 22.32
DATOS :
4.0
Yc= 21
SUSTITUYENDO EN LA FORMULA:
Yc t (Se 1+(1/n)+( xg-x)2 /{ x2-
[( x)2/n]})
21 2.306 (3.146)
13.74 a 28.2
DATOS :
8.0
Yc= 29
SUSTITUYENDO EN LA FORMULA:
Yc t (Se 1+(1/n)+( xg-x)2 /{ x2-
[( x)2/n]})
29 2.306 (3.19)
21.62 a 36.38
12.- Cuando xg se hace igual a 0, el intervalo de confianza resultante para el valor
promedio de y se convierte en el intervalo para la ordenada en el origen a.
a) Determine un intervalo de confianza de 95% para a en el ejercicio 11.
DATOS :
Xg= 0
Yc= 13+2(0) = 13
SUSTITUYENDO EN LA FORMULA
13 2.306 (3.0 (1/10)+( 0-4.0)2 /{600-[(40)2/10]})
13 2.306 (1.107)
10.44 a 15.55
Obtenga un intervalo de confianza de 95% y uno de 99% para a, respecto al ejemplo de
la pagina 413.
DATOS:
N.C=95% = .025
N.C=99% = .005
Xg=0
Yc= 2934 -38.56 (0)= 2934
n-2=14-2= 12
x=505
x2=21825
X= 505/14= 36.07
Se=324.55
.025 .005
12 2.179 12 3.055
SUSTITUYENDO EN LA FORMULA
Para 95%
2934 2.179(324.55 (1/14)+( 0-36.07)2 /{21825-[(505)2/14]})
2934 464.78
3398.78 a 2469.21
Para 99%
2934 3.055(324.55 (1/14)+( 0-36.07)2 /{21825-[(505)2/14]})
2934 651.63
3585.632 a 2282.36
Pag 439
Dada la ecuacin de regresin mltiple Yc = -420 + 50X1 + 2.5X2 encuentre Yc para los
siguientes casos:
a) X1 = 15, X2 = 3000
Yc = -420 + 50X1 + 2.5X2
= -420 + 50(15) + 2.5(3000)
= 7830
b) X1 = 10, X2 = 2000
Yc = -420 + 50X1 + 2.5X2
= -420 + 50(10) + 2.5(2000)
= 5080
c) X1 = 20, X2 = 1000
Yc = -420 + 50X1 + 2.5X2
= -420 + 50(20) + 2.5(1000)
= 3080
Dada la ecuacin de la regresin mltiple Yc =0.40+3X1-2X2-X3, calcule Yc para los
siguientes casos:
X1 = 1, X2 = 0.5, X3 = 1.4
Yc = 0.40 + 3X1 - 2X2 - X3
= 0.40 + 3(1) - 2(0.5) - (1.4)
= 1
X1 = 0.6,X2 = 0.4, X3 = 2
Yc = 0.40 + 3X1 - 2X2 - X3
= 0.40 + 3(0.6) - 2(0.4) - (2)
= -0.6
X1 = 0, X2 = 0, X3 = 0
Yc = 0.40 + 3X1 - 2X2 - X3
= 0.40 + 3(0) - 2(0) - (0)
= 0.40
Pag 448
Estandarice cada conjunto de cantidades y calcule el coeficiente de correlacin.
a)
X Y XY
34
30
40
34
39
35
42
45
43
_
X = 38
Sx = 5
21
22
25
28
15
24
24
22
17
_
Y = 22
Sy = 4
714
660
1000
952
585
840
1008
990
731
7480
X = 342 Y = 198
X2 = 13196 Y2 = 4484
XY = 7480
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 9(7480) - (342)(198)
9(13196) - (342)2 9(4484) - (198)2
= - 396 = 0.275
(42.42) (33.94)
b)
X Y XY
3.9
4.6
6.0
2.8
3.1
3.4
4.2
4.0
_
X = 4
Sx = 1
46
46
52
50
48
40
42
44
_
Y = 46
Sy = 4
179.4
211.6
312
140
148.8
136
176.4
176
1480.2
X = 32 Y = 368
X2 = 135.02 Y2 = 17040
XY = 1480.2
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 8(1480.2) - (32)(368)
8(135.02) - (32)2 8(17040) - (368)2
= 65.6 = 0.292
(7.49) (29.93)
Vuelva a calcular r para el ejercicio 1, considerando a las x como y, a las y como x.
Justifique su respuesta en trminos de la frmula de r.
a)
X Y XY
21
22
25
28
15
24
24
22
17
_
X = 22
Sx = 4
34
30
40
34
39
35
42
45
43
_
Y = 38
Sy = 5
714
660
1000
952
585
840
1008
990
731
7480
X = 198 Y = 342
X2 = 4484 Y2 = 13196
XY = 7480
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 9(7480) - (198)( 342)
9(4484) - (198)2 9(13196) - (342)2
= - 396 = 0.275
(33.94) (42.42)
b)
X Y XY
46
46
52
50
48
40
42
44
_
X = 46
Sx = 4
3.9
4.6
6.0
2.8
3.1
3.4
4.2
4.0
_
Y = 4
Sy = 1
179.4
211.6
312
140
148.8
136
176.4
176
1480.2
X = 368 Y = 32
X2 = 17040 Y2 = 135.02
XY = 1480.2
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 8(1480.2) - (368)(32)
8(17040) - (368)2 8(135.02) - (32)2
= 65.6 = 0.292
(29.93) (7.49)
El valor no se ve alterado.
Con base en los datos del ejercicio 1.
Duplique cada valor de x y vuelva a calcular la media y la desviacin estndar de las x.
X Y XY
68
60
80
68
78
70
84
90
86
21
22
25
28
15
24
24
22
17
1428
1320
2000
1904
1170
1680
2016
1980
1462
_
X = 76
Sx = 10
_
Y = 22
Sy = 4
14960
Estandarice los valores de x.
X = 684 Y = 198
X2 = 52784 Y2 = 4484
XY = 14960
Compare estos valores estandarizados con cos obtenidos para las x en el ejercicio 1.
El resultado es el doble
Qu efecto tiene sobre r el duplicar las x?
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 9(14960) - (684)(198)
9(52784) - (684)2 9(4484) - (198)2
= - 792 = 0.275
(84.85) (33.94)
Ninguno
Con base en los datos del ejercicio 1:
Sume 12 a cada valor de x y reste 2 a cada valor de y.
X Y
46
42
19
20
52
46
51
47
54
57
55
23
26
13
22
22
20
15
Calcule la media y la desviacin estndar de cada conjunto, utilizando los valores que se
obtuvieron en el a).
_ _
X = 50 Y = 20
Sx = 5 Sy = 4
Estandarice los valores y comprelos con los valores estandarizados que se obtuvieron en
el ejemplo 1.
XY
874
840
1196
1196
663
1034
1188
1140
825
8956
Qu efecto tiene r el sumar o restar una constante para los valores de x o de y?
Ninguno
Determine el coeficiente de correlacin para los siguientes conjuntos de calificaciones.
Alumno Primer examen Segundo examen XY
1
2
3
4
5
6
7
8
9
10
11
82
84
86
83
88
87
85
83
86
85
87
_
X = 85
92
91
90
92
87
86
89
90
92
90
91
_
Y = 90
7544
7644
7740
7636
7656
7482
7565
7470
7912
7560
7917
84216
X = 936 Y = 990
X2 = 79682 Y2 = 89140
XY = 84216
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 11(84216) - (936)(990)
11(79682) - (936)2 11(89140) - (990)2
= - 264 = 0.625
(20.14) (20.97)
Dados los siguientes conjuntos, calcule el valor de r:
n

X

Y

XY

X2

Y2
a)
2
5
b
)
5
0
c)
1
0
0
60
15
-20
52
20
25
200
146
-3.5
400
204.5
5
592
400
12.5
a) r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 25(200) - (60)(52)
25(400) - (60)2 25(592) - (52)2
= 1880 = 0.214
(80) (109.98)
b) r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 50(146) - (15)(20)
50(204.5) - (15)2 50(400) - (20)2
= 7000 = 0.500
(100) (140)
c) r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 100 (-3.5) - (-20)(25)
100(5) - (-20)2 100(12.5) - (25)2
= 150 = 0.60
(10) (25)
A continuacin se dan las calificaciones de idioma y de matemticas de los exmenes de
admisin de una universidad correspondientes a 7 alumnos.
Alumno Examen Oral Examen de Matemticas
1
2
3
4
5
6
7
420
450
410
360
320
440
400
550
600
520
400
410
425
475
Divida cada calificacin entre 100
Alumno
Examen
Oral
Examen de
Matemticas
XY
1
2
3
4
5
6
7
4.2
4.5
4.1
3.6
3.2
4.4
4.0
5.5
6.0
5.2
4.0
4.1
4.25
4.75
23.1
27
21.32
14.4
13.12
18.7
19
136.64
X = 28 Y = 33.8
X2 = 113.26 Y2 = 166.725
XY = 136.64
Calcule el coeficiente de correlacin
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 7(136.64) - (28)(33.8)
7(113.26) - (28)2 7(166.725) - (33.8)2
= 10.08 = 0.68
(2.96) (4.96)
Determine el coeficiente de correlacin para los datos del siguiente ejercicio:
Horas-hombre x
mes de instruccin
Accidentes x
milln de horas-
hombre
XY
200
500
450
800
900
150
300
600
7.0
6.4
5.2
4.0
3.1
8.0
6.5
4.4
1400
3200
2340
3200
2790
1200
1950
2640
18720
X = 3900 Y = 44.6
X2 = 241500 Y2 = 268.22
XY = 18720
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 8(18720) - (3900)(44.6)
8(2415000) - (3900)2 8(268.22) - (44.6)2
= -24180 = 0.95
(2027.31) (12.51)
Dados los siguientes datos sobre delitos por violencia y temperatura promedio entre 9
p.m. y 2 a.m. las tardes de los sbados en una gran comunidad, represente en una grfica los
datos, y calcule el coeficiente de correlacin:
Delitos/1000
residentes
Temperatura
promedio (F)
XY
5.0
2.2
4.1
5.4
2.8
3.0
3.6
4.9
4.1
4.2
2.0
2.7
3.1
87
50
75
90
55
54
68
85
82
80
45
58
66
435
110
307.5
486
154
162
244.8
416.5
336.2
336
90
156.6
204.6
3439.2
X = 47.1 Y = 895
X2 = 184.97 Y2 = 64453
XY = 3439.2
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 13(3439.2) - (47.1)(184.97)
13(184.97) - (47.1)2 13(64453) - (895)2
= 35997.513 = 0.973
(13.64) (192)
Determine el coeficiente de correlacin en lo referente al nmero de horas estudiadas por
11 alumnos de las calificaciones que obtienen en un examen.
Horas de
estudio
Calificacin XY
2
3
6
4
6
4
7
10
5
5
8
89
95
80
82
85
90
75
70
91
93
74
222.5
285
480
328
510
405
525
700
500.5
465
629
5050
X = 62 Y = 924
X2 = 400 Y2 = 78326
XY = 5050
r = n ( XY) - ( X)(
Y)
n ( X2) - ( X)2 n
( Y2) - ( Y)2
= 11(5050) - (62)(924)
11(400) - (62)2 11(78326) - (924)2
= -1738 = 0.834
(23.57) (88.37)
a) Se sorprendera si sus clculos para un conjunto dado de pares de observaciones
produjeran r = +0.9 y b = -0.9. Por qu si o por qu no?
R = Si, porque r y b siempre tienen el mismo signo
b) Dados los siguientes datos, se sorprendera si ambos conjuntos tuvieran una correlacin
positiva?
R = No, porque en ambos casos los aumentos en X vienen acompaados por incrementos
en Y.
c) Se sorprendera si ambos produjeran r = +1.00? Explquelo.
Conjunto 1 Conjunto 2
X Y X Y
1 0
5 8
0 1
10 4
R = No, porque no se presenta dispersin alrededor de la lnea que tiene dos puntos.
Para cada una de las siguientes situaciones, establezca si el anlisis de correlacin o el
anlisis de regresin seran ms apropiados y por qu?
Un equipo de investigadores quiere determinar si las calificaciones en la universidad son
indicativas de xito en cierto campo.
R = Correlacin, porque produce un nmero que resume el grado de relacin entre dos
variables.
Estime el nmero de kilmetros que es de esperar que recorra un conjunto de llantas
radales antes de que sea necesario sustituirlo.
R = Regresin, porque da lugar a una ecuacin matemtica que describe dicha relacin.
Prediga cunto demorar una persona en determinar un trabajo con base en el nmero de
semanas de entrenamiento.
R = Regresin, porque da lugar a una ecuacin matemtica que describe dicha relacin.
Determine si el nmero de semanas que se pasaron en un curso de adiestramiento, es una
variable importante en el tiempo que toma realizar un trabajo.
R = Correlacin, el investigador o analista trata de determinar qu variables son
potencialmente importantes, y el inters radica bsicamente en la fuerza de la relacin.
El administrador de una tienda quiere estimar las ventas semanales, basndose en las
ventas de lunes y martes.
R = Regresin, porque da lugar a una ecuacin matemtica que describe dicha relacin.
EJERCICIOS PAGINA 454
1.- Para cada coeficiente de correlacin de una muestra, obtenga un intervalo de confianza
de 95% utilizando la fig. 14.22 respecto del coeficiente de correlacin de la poblacin, y
luego determine si la muestra r es significativamente diferente de cero.
r a b c d e
r 0.80 0.10 -0.30 -0.30 -0.30
n 15 15 25 50 100
0.48 a 0.92 Significativo
-0.42 a 0.57 No significativo
-0.62 a 0.10 No significativo
-0.53 a -0.03 Significativo
-0.42 a -0.11 Significativo
2.- Obtenga intervalos de confianza de 95% para la correlacin verdadera de la poblacin
para cada no de los siguientes casos, y despus diga cules valores r no son significativos al
nivel 0.05.

a b c d E f
r 0.10 0.10 0.10 0.70 0.70 0.00
n 20 50 200 50 50 25
Si el cero no est en el intervalo no es significativo:
-0.35 a 0.51 No significativo
-0.18 a 0.37 No significativo
-0.04 a 0.23 Significativo
0.54 a 0.81 Significativo
-0.81 a -0.54 Significativo
-0.39 a 0.39 No significativo
3.- Utilice la frmula:
t= ( r-0)/ (1-r2)/(n-2)
Alumno 1er. examen 2o. examen
1 82 92
2 84 91
3 86 90
4 83 92
5 88 87
6 87 86
7 85 89
8 83 90
9 86 92
10 85 90
11 87 91

X= 85 Y= 90
y el nivel 0.01, y determine cules de los casos siguientes son significativos:
a)
xy=84216
x2= 79682
y2= 89140
n-2= 11-2= 9
r= n( xy)-( x)(
y)_ _ = 11 (84216) - ( 936) ( 990) _ = -0.6
n( x2)-( x)2) *
n( y2)-( y)2 11(79682)-(
79682)2 11(89140)-( 990)2
.005
t= 2.821
t=(-0.6)/ (1-.36)/(11-2) = -2.25 No significativo
b)
x y
5 87
2.2 50
4.1 75
5.4 90
2.8 55
3 54
3.6 68
4.9 85
4.1 82
4.2 80
2 45
2.7 58
3.1 66
47.1 895
xy= 3444.1
x2= 184.97
y2= 64624
r= 13(3444.1)-( 47.1)( 896)_ =0.97
13(184.97)-( 47.1)2) * 13(64624)-( 896)2

n-2= 13-2= 11
t= 0.97 = 14.32 Significativo
(1-0.94)/(11)
.005
11 3.106
c)
Horas estudio Calificacin
2.5 89
3 95
6 80
4 82
6 85
4.5 90
7 75
10 70
5.5 91
5 93
8.5 74
62 924
xy= 5050
x2= 400
y2= 78326
r= 11(5050)-( 62)(924)_ =-0.834
11(400)-( 62)2) * 11(78326)-( 924)2

n-2=11-2= 9
.005
9 3.250
t= -0.834 = -4.53 Significativo
(1-0.69)/(9)

4.- Utilice un intervalo de confianza de 95%, obteniendo a partir de la figura 14.22, a fin de
evaluar cada una de las siguientes afirmaciones:
a) Ho:

= 0.6, H1:

" 0.6, cuando r= 0.4 y n= 50
0.14 a 0.61 Se acepta Ho
b) Ho:

= 0.9, H1:

" 0.9, cuando r= 0.8 y n= 25
0.58 a 0.90 Se acepta Ho
Ho:

= -0.5 , H1:

" -0.5, cuando r= -0.4 y n= 400
-0.32 a -0.48 Se rechaza Ho
5.- En un grupo de investigaciones se estableci una escala del grado de violencia en
programas de TV, para lo cual se calific con 10 programas y recopilaron datos sobre el
porcentaje del teleauditorio de cada uno de ellos.
Programa
2
Grado violencia
(x)
% de teleauditorio
(y)
1 10 15
2 20 16
3 30 20
4 40 24
5 40 25
6 50 30
7 55 30
8 65 35
9 70 35
10 70 35

450 265
xy= 13355
x2= 24150
y2= 7557

a) Establezca una ecuacin predictiva en lo referente al teleauditorio potencial, en trminos
del coeficiente de violencia.
b= n( xy) -( x)(
y)= 10(13355)- (450)( 265) = 0.37
n( x2)-( x)2 7(24150)-( 4502
a= y -b x= 265-(0.37)( 450)= 10
n 8
Yc= 10 + 0.37x
b) Determine el porcentaje de variacin explicada
Se= y2 - a y -
b xy = 7557- (10)( 265)-( 0.37)( 13355) =1.127
n-2 8
Se2 =1.27
Sy2= n( y2)-( y)2/n =(10(7557)-(
265)2)/10= 66.8
n-2 8
r2= 1- Se2 = 1- 1.27= 0.98
Sy2 66.8
c) Calcule o determine el coeficiente de correlacin:
r= n( xy)-( x)(
y) _ = 10 (13355) - (450) (265) _ = 0.99
n( x2)-( x)2) *
n( y2)-( y)2 10(24150)-( 450)2
10(7557)-( 265)2
Qu supuestos fueron necesarios para el inciso a?
Los supuestos de regresin
Para el inciso c?
Los supuestos de correlacin
Es b significativo? Lo es r? (Utilice 0.05)
Sb= Se 1 _ =( 1.127) 1 _= 0.02
x2- [( x)2/n] 24150 -
[(450)2/10]
.025
b t Sb
0.37 (2.306)( 0.02)
0.32388 a 0.41612 Significativo
8 2.306
t= 0.99 = 19.8 Significativo
(1-0.98)/(8)
f) Cul es el intervalo de confianza de 95% para el porcentaje del teleauditorio de un nuevo
programa que presenta un coeficiente de violencia de 60?
DATOS: .025
N.C=95% = .025
Xg=6
Yc= 10 +.37 (6)= 12.22
n-2=10-2= 8 8 2.306
x=450
x2=24150
X= 450/10= 45
Se=1.127
Yc t(Se 1-(1/n)+( xg-x)2 /{ x2-
[( x)2/n]})
12.22 (2.306) (1.127)(1.05)
12.22 (2.7)
9.49 a 14.94
6.- Utilice un intervalo de confianza para valorar esta afirmacin:
Ho:

= -0.45, H1:

" -0.45, =0.05, r= -0.5 y n= 200
-0.6 < p < -0.4
:. Se acepta Ho.
Pag 459
Pruebe cada coeficiente de correlacin al nivel 0.05, para obtener la significacin
utilizando:
Ho : p = o Hl = p " 0
rsp = +0.60, n = 17
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 17 - 2
= 15
Valor Terico
15 2.131 VT = 2.131
Valor Experimental
t =
= = 0.60 = 2.90
1 - rsp2 1 - (60)2
n - 2 17 - 2
VExp = 2.90
Comparacin
2.90 " 2.131
Conclusin: Se rechaza Ho
rsp = +0.45, n = 22
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 22 - 2
= 20
Valor Terico
20 2.086 VT = 2.086
Valor Experimental
t =
= = 0.45 = 2.25
1 - rsp2 1 - (.45)2
n - 2 22 - 2
VExp = 2.25
Comparacin
2.25 " 2.086
Conclusin: Se rechaza Ho
rsp = +0.91, n = 11
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 11 - 2
= 9
Valor Terico
9 2.262 VT = 2.262
Valor Experimental
t =
= = 0.91 = 6.58
1 - rsp2 1 - (.91)2
n - 2 11 - 2
VExp = 6.58
Comparacin
6.58 " 2.262
Conclusin: Se rechaza Ho
rsp = +0.25, n = 32
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 32 - 2
= 30
Valor Terico
30 2.042 VT = 2.042
Valor Experimental
t =
= = 0.25 = 1.41
1 - rsp2 1 - (.25)2
n - 2 32 - 2
VExp = 1.41
Comparacin
1.41 " 2.042
Conclusin: Se acepta Ho
a) Calcular rsp para el ejercicio de la pgina 448 y 449. Concuerdan los resultados con
el valor que se obtuvo utilizando la r de Pearson? Por qu?
Alumn
o
Exame
n Oral
Examen de
Matemtic
Diferencia Diferencia2
as d d2
1
2
3
4
5
6
7
4.2
4.5
4.1
3.6
3.2
4.4
4.0
5.5
6.0
5.2
4.0
4.1
4.25
4.75
+1.3
+1.5
+1.1
+.40
+.90
-.15
+.75

d = 5.8
1.69
2.25
1.21
0.16
0.81
0.02
0.56
d2
=6.7
rsp = 1 - . 6 d2 .
n(n2 - 1)
= 1 -. 6 (6.7) .= 1 - 40.23
7(72 - 1) 336
= 0.88
rsp = 0.88 (r de Pearson = +0.68), la jerarquizacin hace que se desperdicie informacin.
b) Cul mtodo es la mejor tcnica de correlacin, el de Pearson o el de Spearman?
Explquelo brevemente.
Si los datos estn en rangos, o si los supuestos necesarios para la correlacin de
Pearson no son satisfechos, es preferible emplear la de Spearman. Si los supuestos de
Pearson son cumplidos, se debe usar sta, dado que desperdicia menos informacin.
3. Calcule el coeficiente de correlacin de rangos en el caso de los siguientes datos, pruebe
la significacin al nivel 0.01:
Rang
o
Nmer
o 1
Nmer
o 2
d d2
1 3 1 -2 4
2
3
4
5
6
7
8
9
10
11
12
13
14
2
4
1
9
5
6
10
8
11
7
14
12
13
2
3
5
6
4
7
11
9
10
8
12
13
14
0
-1
4
-3
-1
1
1
1
-1
1
-2
1
1

d = 0
0
1
16
9
1
1
1
1
1
1
4
1
1
d2=4
2
rsp = 1 - . 6 d2 .
n(n2 - 1)
= 1 -. 6 (42) .= 1 - 252
14(142 - 1) 2730
= 0.908
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 14 - 2
= 12
Valor Terico
12 3.055 VT = 3.055
Valor Experimental
t =
= = 0.908 = 7.51
1 - rsp2 1 - (.908)2
n - 2 14 - 2
VExp = 7.51
Comparacin
7.51 " 3.055
Conclusin: Se rechaza Ho
Escriba en orden los rangos 1 - 6 y despus forme pares con los mismos en el orden
opuesto. Calcule rsp. Determine este valor en el caso de que los 2 conjuntos de rangos (1 al
6) se encuentren en el mismo orden. Ahora intente reordenar los datos, de manera que rsp
sea aproximadamente igual a cero.
Rango Nmero 1 Nmero 2
1
2
3
4
5
6
1
2
3
4
5
9
1
2
3
4
5
6
Rangos opuestos dan como resultado rsp = -1;
Rangos iguales producen rsp = +1.
A dos gerentes se les pide que jerarquicen a 11 empleados jvenes, de acuerdo con su
potencialidad directiva. Determine el grado en que los dos gerentes concuerdan o no, y
determine si la relacin es significativa o no.
Emplead
o
Rang
o
A
Rang
o
B
d d2
Alfonso
S.
Eduardo
B.
Ana D.
Ramn Z.
Roberto
K.
Martn A.
Alejandro
J.
Guillermo
T.
Nstor T.
Juan H.
Samuel P.
6
7
5
4
9
1
8
2
3
11
10
9
10
8
7
11
1
6
2
4
3
5
3
3
3
3
2
0
-2
0
1
-8
-5

d = 0
9
9
9
9
4
0
4
0
1
64
25
d2=1
34
rsp = 1 - . 6 d2 .
n(n2 - 1)
= 1 -. 6 (134) .= 1 - 804
11(112 - 1) 1320
= 0.391
t =
= = 0.391 = 1.27
1 - rsp2 1 - (.391)2
n - 2 11 - 2
VExp = 1.27
Se aceptan en todos los niveles (no significativo)
EJERCICIOS PAGINA 463
1.- Para cada una de las condiciones siguientes, determine si existe una relacin
significativa entre las dos variables, y si la hay, determine la intensidad.
Tamao de tabla 2 N
a. 4 X 4 150 200 .02
C="(150/150+200)= .65
Cmax= "(3/4)=.86
Debido a que la dif. es poca y el tamao de la tabla es minimo, la intensidad es
moderada
b. 5 X 5 40 200 .05
C="(40/40+200)=.40
Cmax= "(4/5)=.89
Debido a que la dif. es considerable y el tamao de la tabla es poco mas grande, la
intensidad es moderada
c. 3 X 3 250 250 .01
C="(250/250+250)= .70
Cmax= "(2/3)=.816
Debido a que la dif. es muy poca y el tamao de la tabla es chico, la intensidad es alta
d. 6 X 6 130 150 .05
C="(130/130+150)= .68
Cmax= "(5/6)=.91
Debido a que la dif. es considerable y el tamao de la tabla es grande, la intensidad es
moderada
e. 4 X 4 16 100 .05
No existe relacin significativa ya que el valor es muy pequeo.
2.- Se reunieron las calificaciones de lectura y de matemticas de nios de quinto grado,
obtenindose los siguientes resultados. Determine si existe alguna relacin entre las dos
calificaciones para este grupo.
Frecuencia observada

Matemticas

Lectura A B C D Totales
A 20 40 30 0 90
B 30 60 20 10 120
C 50 50 80 60 240
D 0 50 70 30 150
Totales 100 200 200 100 600
Frecuencia esperada

A B C D

15 30 30 15

20 40 40 20

40 80 80 40

25 50 50 25

Se calcula el valor de 2 , bajo la formula de 2="[(fo-fe)2]/fe
1.7 + 3.33 + 0.00 + 15.00 = 20.0
5 + 10.00 + 10.00 + 5.00 = 30.0
2.5 + 11.25 + 0.00 + 10.00 = 23.8
25 + 0.00 + 8.00 + 1.00 = 34.0

= 107.8
Despus se calcula el coeficiente de contingencia C, bajo la formula
C= " 2/( 2+N)
C="107.8/(107.8+600)
C= .39
Se calcula el valor maximo de C, o sea Cmax con la formula:
Cmax= "(k-1)/k
Cmax="3/4=.86
Y como la diferencia entre C y Cmax es grande y la tabla es de valor medio, la
intensidad de la relacin es moderada.
3.- Explique la forma como la tabla de contingencias de 2 y la
prueba de ji cuadrda de la tabla de independencia difieren en lo que respecta al numero de
K y como se marcan las filas y las columnas.
Es fcil pensarlo ya que en una tabla de contingencias solo hay una muestra con
resultados que se encuentran clasificados transversalmente en las casillas; en el caso
de una tabla rXk, hay k muestras. Las escalas de una tabla de contingencias tienen
direccin; en tanto que por lo regular no tienen direccin en una tabla rXk;
4.- Una compaa est considerando la posibilidad de ofrecer a sus empleados un incentivo
econmico para que dejen de fumar o reduzcan su consumo de tabaco, de existir una
correlacin directa entre el fumar y el ausentismo. Analice los datos proporcionados por la
compaa y determine si se deber o no ofrecer el incentivo.

Frecuencia observada

Inasistencias
No
fumador
Ligero Moderado Intenso Totales
0 - 2 10 10 55 65 140
3-4 5 50 30 55 140
5-6 10 70 10 50 140
7 ms 35 70 5 30 140
Totales 60 200 100 200 560
Se calcula el valor de 2 , bajo la formula de 2="[(fo-fe)2]/fe, calculamos la tabla de
frecuencias esperadas.
Frecuencia esperada
15 50 25 50
15 50 25 50
15 50 25 50
15 50 25 50
1.7
+
32.00
+
36.00
+ 4.50
=
74.2
6.7 + 0.00 + 1.00 + 0.50 = 8.2
1.7 + 8.00 + 9.00 + 0.00
=
18.7
27 + 8.00
+
16.00
+ 8.00
=
58.7

=
159.7
Despus se calcula el coeficiente de contingencia C, bajo la formula C= " 2/(2+N)
C="159.7/(159.7+560)
C= .47
Se calcula el valor mximo de C, o sea Cmax con la formula:
Cmax= " (k-1)/k
Cmax="3/4=.86
Y como la diferencia entre C y Cmax es grande y la tabla es de valor medio, la
intensidad de la relacin es moderada o considerable, por lo tanto no se debe ofrecer
ningn incentivo.
X = 450 Y = 180
X2 = 22700 Y2 = 3728
XY = 8956
.025
rsp
.025
rsp
.025
rsp
.025
rsp
.005
rsp
rsp