Académique Documents
Professionnel Documents
Culture Documents
Para ver la utilidad del MegaStat, primero presentaremos el ejemplo con el cual vamos a trabajar.
Se trata del uso de un cajero automtico de un banco cualquiera, la variable AgeCat es la
clasificacin por edad del usuario de este cajero, 1 si es menor de 30 aos, 2 si tiene entre 30 y 50, y
3 si tiene mas de 50. La variable Gender es el genero (sexo) del usuario de este cajero, 1 si es
hombre y 2 si es mujer. Y Seconds es el tiempo en segundo del uso de este cajero.
Estadsticas descriptivas
Ingresar en rango de datos que estn en el Excel.
Media
Error estndar de la
media
Varianza y desviacin
estndar de la muestra Varianza y desviacin
estndar de la poblacin
AgeCat y Gender.
Crosstabulation
Gender
1 2 Total
1 Observed 7 10 17
% of row 41.2% 58.8% 100.0%
% of column 25.0% 45.5% 34.0%
AgeCat % of total 14.0% 20.0% 34.0%
2 Observed 13 8 21
% of row 61.9% 38.1% 100.0%
% of column 46.4% 36.4% 42.0%
% of total 26.0% 16.0% 42.0%
3 Observed 8 4 12
% of row 66.7% 33.3% 100.0%
% of column 28.6% 18.2% 24.0%
% of total 16.0% 8.0% 24.0%
Total Observed 28 22 50
% of row 56.0% 44.0% 100.0%
% of column 100.0% 100.0% 100.0%
% of total 56.0% 44.0% 100.0%
Distribucin binomial.
El 40% de los peruanos leen su contrato de trabajo, incluyendo las letras pequeas. Suponga que
el nmero de empleados que leen su contrato se pueden modelar utilizando una distribucin
binomial. Considerando a un grupo de 5 empleados. Cul es la probabilidad de que al menos 3
lean su contrato?
Se trata de un problema
binomial (existe solo dos
alternativas, o leen o no leen
los contratos)
Distribucin binomial.
Se quiere saber P( x 3)
Binomial distribution
Supongamos que estamos investigando la seguridad de una peligrosa inteleccin de calles, los
registros policacos indican un media de 5 accidentes mensuales en esta interseccin. El numero
de accidentes esta distribuido de acuerdo con una distribucin de Poisson y el departamento de
seguridad vial desea que calculemos la probabilidad de que en cualquier mes ocurra exactamente
3 accidentes.
Se trata de un problema
poisson (los accidentes
ocurren uno detrs de otro, es
decir, existe una cola)
Distribucin poisson
Poisson distribution
Como el tiempo de uso es una variable cuantitativa continua, corresponde a una distribucin normal.
Para esto necesitamos conocer la media y la desviacin estndar del tiempo del uso del cajero (en las
estadsticas descriptivas las calculamos = 39.756 seg. y la = 8.916 seg.)
= 8.916
2.5
= 39.756
10
15
45
x
Distribucin normal
Primero se ingresa el valor de la media, luego el valor de la desviacin estndar, luego el valor de x
y por ultimo presionamos Preview
Distribucin normal
2.5
La probabilidad upper corresponde a la
P( x > 45), es decir todo a la derecha de
45.
Seleccionamos prueba Z
En este caso = 0.05 (nivel de significancia), le corresponde un nivel de confianza del 95%
Prueba de hiptesis de una muestra
7.74 z
No
1.0000 p-value (one-tailed, lower)
Rechazar
Ho
En este caso p es 1.00 y es mayor que . Por lo tanto se acepta la Ho.
Ho: 30 Aceptar
Existe evidencia para aceptar que el tiempo promedio del uso de cajeros es menor a 30 segundos?
Por lo tanto, NO EXISTE evidencia para aceptar que el tiempo promedio del uso del cajero sea menor
que 30 segundos.
Prueba de hiptesis de dos muestras.
Supongamos que deseamos saber si existe evidencia para aceptar que existe diferencia en el tiempo
promedio del uso de cajeros entre hombres y mujeres?
Se ingresa el rango de
datos de hombres
Se ingresa el rango de
datos de mujeres
La Ha es (no igual)
= 0.05
Prueba t
> ?
8.779 8.973 std. dev. Si Aceptar
28 22 n p Ho
48 df
-3.1630 difference (Hombres - Mujeres) No
78.5760 pooled variance
8.8643 pooled std. dev.
2.5255 standard error of difference
Rechazar
0 hypothesized difference Ho
-1.25 t
Como p es 0.2165 y es mayor que (0.05), se
.2165 p-value (two-tailed)
acepta la Ho.
Por lo tanto NO EXISTE evidencia para aceptar que hay diferencie entre el tiempo de uso del cajero
entre hombre y mujeres.
Prueba de Chi cuadrado de independencia
Supongamos que deseamos saber si existe relacin entre las variables Agecat (categoras por edad)
y Gerder (sexo), en nuestro ejemplo.
Para poder hacer una prueba de Chi cuadrado, se requiere que las dos variables sean cualitativas
(nominal ordinal). En nuestro ejemplo, tanto las variables Agecat y Gender son cualitativas.
Se selecciona la prueba
de Chi -cuadrado
Crosstabulation
AgeCat
1 2 3 Total
Gender 1 7 13 8 28
Utilizaremos la siguiente regla:
2 10 8 4 22
Total 17 21 12 50
2.37 chi-square
> ?
Si Son
2 df p independientes
.3062 p-value
No son
Como p es 0.213 y es mayor que (0.05), las independientes
variables Agecat y Gender son independientes.
Anlisis de varianza de un factor
Supongamos que deseamos saber si existe diferencia en el tiempo del uso del cajero de acuerdo a la
categora de edad.
Tenemos una variable cuantitativa (Tiempo) y tres grupos (Egecat), por lo tanto tenemos que utilizar el
ANOVA, como solo se evala el tiempo, entonces es de un factor.
> ?
Si Aceptar
p Ho
No
Rechazar
Ho
Anlisis de varianza de un factor
Existe diferencia en el tiempo del uso del cajero de acuerdo a la categora de edad?.
Por lo tanto, SI EXISTE evidencia de los tiempo de uso de los cajeros de acuerdo a la categora de
edad, son diferentes.
Anlisis de regresin lineal simple
Copy SA, empresa que tiene una gran fuerza de ventas en todo EEUU y Canad, desea determinar
si existe una relacin entre el nmero de llamadas telefnicas de ventas hechas en un mes, y la
cantidad de copiadoras vendidas durante ese lapso. El gerente selecciona al azar una muestra de
10 representantes, y determina el nmero de tales llamadas que hizo cada uno en el mes anterior y
la cantidad de productos vendidos.
Regression Analysis
r 0.576 n 10
r 0.759 k 1
Std. Error 9.901 Dep. Var. N copiadoras
ANOVA table
Source SS df MS F p-value
Regression 1,065.7895 1 1,065.7895 10.87 .0109
Residual 784.2105 8 98.0263
Total 1,850.0000 9
r 0.576
r 0.759
ANOVA table
Source SS df MS F p-value
Regression 1,065.7895 1 1,065.7895 10.87 .0109
Residual 784.2105 8 98.0263
Total 1,850.0000 9
La prueba de ANOVA, me sirve para ver si la correlacin es real o ficticia. S la prueba p es menor que
(0.05), la correlacin es real, caso contrario es ficticia.
En nuestro caso, p es 0.0109 y es menor que (0.05), por lo tanto la correlacin es real.
Anlisis de regresin lineal simple
Se le llama el anlisis de regresin lineal simple, porque es la funcin de una recta del tipo: Y = a + bX
N de copiadoras = a + b N de llamadas
Este valor de r2 me indica que falta una o mas variables independientes para poder pronosticar el N
de copiadoras vendidas con mayor precisin. Supongamos que agregamos la variable Publicidad.
N Copiadoras
N llamadas Publicidad Como existen dos variables independientes: N
vendidas
30 20 25 llamadas (X1) y Publicidad (X2), se utiliza una
regresin lineal mltiple.
60 40 50
40 20 35
60 30 50 Y = a + b X1 + c X2
30 10 40
40 10 50
40 20 50
50 20 60
30 20 40
70 30 80
Se ingresa el rango de datos de las variables independientes X1 y X2, el N llamadas y publicidad
R 0.902
Adjusted R 0.874 n 10
R 0.950 k 2
Std. Error 5.085 Dep. Var. N copiadoras
ANOVA table
Source SS df MS F p-value
Regression 1,668.9655 2 834.4828 32.27 .0003
Residual 181.0345 7 25.8621
Total 1,850.0000 9
R 0.902
Adjusted R 0.874
R 0.950
r2 (coeficiente de determinacin), es ahora 0.902,
r (coeficiente de correlacin), es 0.950,
que el porcentaje (90.2%) de la variable
mejoro tremendamente (antes era 0.7590) dependiente (N de copiadoras vendidas), es
lo que me indica una correlacin muy buena explicada por las variables independientes (el N de
entre las variables. llamadas y la publicidad)
ANOVA table
Source SS df MS F p-value
Regression 1,668.9655 2 834.4828 32.27 .0003
Residual 181.0345 7 25.8621
Total 1,850.0000 9
En nuestro caso, p es 0.0003 y es menor que (0.05), por lo tanto la correlacin es real.
Anlisis de regresin lineal mltiple
Y = a + b X1 + c X2