Guias de Laboratorio

GUA DE LABORATORIO 1
TEMA: MUESTREO PROBABILSTICO
Contenido terico:
Muestreo Aleatorio Simple
Muestreo Aleatorio Sistemtico
Muestreo Aleatorio Estratificado
Todas las aplicaciones se realizarn en base al archivo de datos Employee data.sav,

disponible en el archivo de instalacin del SPSS.
Muestreo Aleatorio Simple

Archivo de datos Employee data.sav :
Observe que en este archivo se han registrado 474 observaciones para un total de 10
variables.
Puede solicitar un reporte de frecuencias para alguna variable de inters, como por
ejemplo Categora laboral (catlab)
Ejercicio 1.
Seleccione una muestra aleatoria simple de 50 empleados
Para ello debe seguir los pasos siguientes:
Datos Seleccionar casos
Por defecto siempre estarn activos Todos los casos. Elija Muestra aleatoria de casos,
haga clik en el botn Ejemplo
Importante:
En la ventana anterior note que: por defecto se encuentra activa, en el
recuadro inferior de Resultado, la opcin: Descartar casos no seleccionados.
Esto permite realizar la seleccin sin eliminar el caso no seleccionado.
En seguida se muestra la siguiente ventana en la que usted puede solicitar al programa

seleccione aproximadamente cierto porcentaje de casos, conocidos tambin como
registros u observaciones, para la muestra.
Tambin puede solicitar al programa la seleccin de un nmero exacto de casos o

registros. Para nuestro caso utilizaremos esta opcin para solicitar que seleccione
exactamente 50 observaciones de los primeros 474 casos.
En esta seleccin se obtuvo una muestra en la que se ha seleccionado las observaciones

9, 10, 12 y otras. Observe que el programa tacha con una lnea oblicua la observacin
que NO ha sido seleccionada. Adems, ha generado una variable Filtro (filter_$) en la
ltima columna en la que ha asignado el cdigo 0 a las observaciones que no han sido
seleccionadas y 1 a las que s han sido seleccionadas.
Si usted vuelve a solicitar un reporte de frecuencias para la variable catlab, observar

que ahora solo son consideradas las 50 observaciones que han sido seleccionadas.
Observacin:
Cualquier anlisis que usted solicite se efectuar solamente sobre las 50

observaciones seleccionadas.
Las observaciones que no han sido seleccionadas no se han perdido,

simplemente por ahora no se encuentran disponibles.
Si desea reestablecer todo el archivo de datos debe hacer lo siguiente:

Datos Seleccionar casos Todos los casos
Observe que ahora ya no se encuentran tachados los nmeros correspondientes a cada

caso. Nuevamente tenemos disponibles TODOS los casos, a pesar que la variable
filter_$ permanezca.
Es muy frecuente observar que quienes se inician en el manejo de esta herramienta
olvidan reestablecer toda la data y luego obtienen resultados solo de la ltima muestra
seleccionada.
Muestreo Aleatorio Sistemtico

La aplicacin del muestreo sistemtico se har siempre sobre el mismo archivo de datos
Employee data.sav :
Ejercicio 2.
Seleccione una muestra aleatoria sistemtica de 50 empleados
Recuerde que para l aplicacin de un muestreo sistemtico debemos determinar el valor
de K correspondiente al salto sistemtico o perodo de seleccin.
N 474
9,48 K 9
n
50
Luego, de los primeros 9 registros del archivo de datos seleccionaremos uno,

aplicando el mismo procedimiento del muestreo aleatorio simple, a este elemento
seleccionado se le conoce como punto de arranque que se le puede denotar como A.
Posteriormente debemos seleccionar a partir de A, incluyendo A, cada 9 registros uno
para la muestra hasta completar los 50 registros solicitados para la muestra.
Por ejemplo: si A = X7 este sera el primer elemento seleccionado.
Luego seleccionamos: X16 , X25 , X34 , , X439 , X448
Para lograr esto con ayuda del SPSS, se debe seguir los pasos siguientes:
Eleccin del Punto de Arranque. Aplicaremos un muestreo aleatorio simple para
seleccionar un caso de los primeros nueve registrados en el archivo de datos.
Datos Seleccionar casos Muestra aleatoria de casos
En nuestro caso se ha seleccionado como Punto de arranque el caso 7: A = X7
Ahora viene la parte ms importante para la seleccin automtica de los siguientes

elementos de la muestra.
Primero recuperamos la seleccin de Todos los casos
8
Luego elegimos la opcin condicional para la seleccin de casos.
Al hacer picar en el botn S la op se mostrar la siguiente ventana, que ofrece una

serie de funciones dentro del Grupo de funciones
10
Dentro del Grupo de funciones Aritmticas podemos encontrar la funcin Mod

(Mdulo) que como seala el cuadro explicativo permite determinar el resto o residuo
de dividir una expresin numrica entre el mdulo.
Para subir la funcin elegida picamos en la flecha
Luego debemos indicar para cada signo de interrogacin lo que mostramos en el

siguiente cuadro.
11
Tenga en cuenta que:

id: es el cdigo del empleado asignado en el archivo de datos
K = 9 : es el periodo de seleccin o salto sistemtico
A = 7 : es el punto de arranque
n = 50 : es el tamao de la muestra
12
Lo que se busca en la primera expresin es encontrar los registros cuya divisin con el
valor de K nos de residuo CERO. La segunda expresin busca establecer un tope hasta
donde se debe verificar estos cocientes. Dado que el valor de K, al ser redondeado al
menor entero, suele ocasionar que sobren casos para realizar ms selecciones, esta
segunda expresin evitar que se tomen ms observaciones que las establecidas para la
muestra.
Observe que:
Si id = 1 1 + (9 7) entre 9 no muestra resto CERO el registro 1 no ser
seleccionado
Si id = 7 7 + (9 7) entre 9 si muestra resto CERO el registro 7 si ser

seleccionado
Si id = 447 447 + (9 7) entre 9 no muestra resto CERO el registro 447 no ser

seleccionado
Si id = 448 448 + (9 7) entre 9 si muestra resto CERO el registro 448 si ser
seleccionado
Picamos en: Continuar Aceptar
13
Observe en el cuadro siguiente que el primer registro seleccionado corresponde al punto

de arranque A = X7 seguido del X7 + 9 = X16
Observe que los dos ltimos casos seleccionados son precisamente: X439 y X448
Muestreo Aleatorio Estratificado

Recuerde que para l aplicacin de esta tcnica de muestreo debemos separar la
poblacin en sub-poblaciones homogneas. En nuestro caso generaremos un archivo
14
para cada estrato. El archivo de datos ha utilizar sigue siendo Employee data.sav. No
olvide que primero debe observar que tenga todos los casos del archivo disponibles.
Ejercicio 3.
Seleccione una muestra aleatoria estratificada de 50 empleados con asignacin
proporcional a la categora laboral.
Dado que la muestra se desea asignar proporcionalmente a la categora laboral podemos
solicitar una tabla de frecuencias para esta variable y as conocer el tamao de cada
estrato
En seguida hacemos los clculos para la determinacin del tamao de muestra para cada
estrato (categora laboral)
Categora Laboral
Administrativo
Seguridad
Directivo
Total
Frecuencia Proporcin
363
27
84
474
,7658
,0570
,1772
1,0
ni = ( Ni / N ) * n
38
3
9
38,3
2,8
8,9
50
Para la conformacin de los estratos hacemos uso de la seleccin condicional:

Datos Seleccionar casos Si se satisface la condicin Si la op
15
Seleccionamos la variable catlab y la igualamos a 1 esto permitir seleccionar todos

los casos cuya categora laboral sea Administrativo (1).
Algo muy importante con el Resultado, ahora solicitaremos que Copie los casos
seleccionados a un nuevo conjunto de datos que llamaremos Administrativo,
obteniendo de esta manera nuestro primer estrato.
16
El resultado ser un nuevo archivo de datos que considera solo los 363 casos
correspondientes a Administrativos.
Repetimos el procedimiento anterior para generar el segundo y tercer estrato que

llamaremos respectivamente: Seguridad (catlab = 2) y Directivo (catlab = 3)
17
18
Observe que hasta aqu se ha logrado conformar el estrato que llamaremos Seguridad
que cuenta con 27 casos registrados.
19
Tenemos el estrato llamado Directivo conformado por 84 casos.

Muestra por estrato. Ahora estamos en condicin de aplicar un muestreo aleatorio
simple por cada estrato, seleccionando el nmero de observaciones calculado al inicio.
20
ADMINISTRATIVO
21
Ahora puede hacer uso de la tercera opcin de Resultados: Eliminar casos no

seleccionados
Es importante que est conciente que al elegir esta opcin los casos no seleccionados
sern eliminados sin posibilidad de volverles a recuperar.
22
Observe que el archivo correspondiente a la muestra seleccionada del estrato de

Administrativos cuenta con 38 casos.
SEGURIDAD
Del estrato Seguridad seleccionaremos con una muestra aleatoria simple de 3 de los 27
casos
No olvide elegir en Resultados la opcin de Eliminar casos no seleccionados. El

resultado debe ser un archivo correspondiente a Seguridad reducido a 3 casos.
23
DIRECTIVO
Si hacemos lo propio para el estrato de Directivos lograremos obtener este archivo
reducido a 9 casos de los 84 que muestra inicialmente.
Finalmente puede unir los tres archivos en uno solo teniendo la muestra total de 50
registros
24
Solicite un reporte de frecuencias para este ltimo archivo
25
Este resultado confirma que la muestra ha sido seleccionada conforme se ha solicitado,

respetando la asignacin proporcional a la categora laboral.
26
TEMA: INTERVALOS DE CONFIANZA Y PRUEBA DE HIPTESIS
Contenido Terico
Intervalo de Confianza y Prueba de Hiptesis para la media poblacional ()

cuando la varianza poblacional (2) es desconocida
Intervalo de Confianza y Prueba de Hiptesis para la diferencia de medias

poblacionales (1- 2) de muestras independientes
Intervalo de Confianza y Prueba de Hiptesis para la diferencia de medias

poblacionales (D) de muestras relacionadas
Introduccin
El SPSS facilita la obtencin de: intervalos de confianza, el valor calculado de la prueba

estadstica y p-valor para evaluar los siguientes parmetros:
Parmetro
Media poblacional ()
Intervalos de Confianza
Pruebas de Hiptesis
Razn de varianzas poblacionales
2
1
22
Diferencia de medias poblacionales

de muestras independientes (1-2)
Diferencia de medias poblacionales

de muestras relacionadas (D)
Antes de iniciar el uso del programa para este tema, cabe indicar lo siguiente:
El SPSS asume siempre (ya sea para analizar uno o dos poblaciones) que las
muestras provienen de poblaciones infinitas. Es decir, no considera en sus clculos
el factor de correccin de poblaciones finitas (f.c.p.f.).
Para el caso de una media poblacional y dos medias poblacionales solo analiza el
caso cuando la varianza poblacional es desconocida. Es decir, siempre usa la
distribucin T tanto para obtener los estadsticos de prueba como los intervalos de
confianza.
Para el caso de pruebas de diferencia de medias poblacionales de muestras
independientes o muestras relacionadas solo realiza la hiptesis cuando el valor
hipottico es igual a cero.
La prueba de hiptesis para la razn de varianzas poblacionales lo realiza mediante
la prueba de Levene y no mediante la prueba F de Fisher.
El p-valor solo lo obtiene para pruebas de tipo bilateral, por lo que se debe tener
mucho cuidado si se quiere utilizar estos valores en casos unilaterales.
26
Conceptos
El p valor (o sig)
Cuando se interpretan los reportes en pruebas de hiptesis, las conclusiones estn
basadas en una regla de decisin; sta se establece tendiendo en cuenta el riesgo que
asume el investigador de cometer un error de tipo I, siendo la probabilidad de este error
el nivel de significacin . Pero en algunas ocasiones, sin embargo, la decisin a tomar
puede realizarse con un nivel de significacin diferente, con lo cual seria til conocer
que tipo de decisin se puede adoptar segn el nivel de significacin real de una prueba
basndose en los datos observados. Este concepto actuar como contrapuesto al nivel de
significacin elegido antes de realizar la prueba.
p-valor: probabilidad que, bajo H0 el estadstico de contraste tome un valor al menos
tan alejado como el realmente obtenido.
Cuanto ms pequeo sea el p-valor mayor es la evidencia en contra de H0.
Intervalo de Confianza y Prueba de Hiptesis para la media

poblacional () cuando la varianza poblacional (2) es desconocida
El acceso se realiza mediante la siguiente secuencia
Analizar Comparar medias Prueba T para una muestra.
Ejemplo1
27
Los conductores metlicos o tubos huecos se usan en el cableado elctrico. En una

prueba de tubos de una pulgada, se obtuvieron los datos siguientes respecto del
dimetro exterior (en pulgadas).
1,281 1,288 1,292 1,289 1,291 1,293 1,293 1,291 1,289 1,288
1,287 1,291 1,290 1,286 1,289 1,286 1,295 1,296 1,291 1,286
Suponga que el dimetro exterior se distribuye normalmente.
a) Determine un intervalo del 90% de confianza para la media del dimetro exterior.
Solucin:
Ingresamos a la opcin indicada anteriormente y pasamos la variable del recuadro
de la izquierda al de la derecha, utilizando el botn
de la siguiente manera:
Como se puede apreciar el recuadro con el nombre Valor de prueba no se ha

considerado en este procedimiento, pues su utilidad es en las pruebas de hiptesis.
Dado que desea un intervalo al 90% de confianza se debe dar un clic en el botn
Opciones con lo cual aparecer la siguiente ventana
28
y all se debe indicar el nivel de confianza, posteriormente dar clic en Continuar para
volver a la ventana principal.
Al hacer clic en aceptar obtenemos:
Estadsticos para una muestra
N
Dimet ro exterior
20
Media
1.28960
Desv iacin
tp.
.003500
Error tp. de
la media
.000783
Estimacin puntual de la media
Prueba para una muestra

Valor de prueba = 0
Dimetro exterior
t
1647.613
gl
19
Sig. (bilateral)
.000
Dif erencia
de medias
1.289600
90% Interv alo de

conf ianza para la
dif erencia
Inf erior
Superior
1.28825
1.29095
Lmite inferior de confianza de la media

Lmite superior de confianza de la media
Segn este resultado el intervalo de confianza para la media se encuentra en el rango de

1,288; 1,291
Tenemos un 90% de confianza de que el intervalo 1,288; 1,291 contenga al al
dimetro medio poblacional de los conductores metlicos usados en el cableado
elctrico
b) Pruebe la hiptesis de que la longitud media del dimetro exterior es de 1,29

pulgadas. Use un nivel de significacin de 0,05
Solucin:
Para probar la hiptesis de que la longitud media del dimetro exterior es de 1,29
procedemos de la misma manera que en la parte a)
29
Las hiptesis a contrastar son:

H 0 : 1,29
H1 : 1,29
= 0,05.
Procedimiento:
Observe que en el recuadro Valor de prueba se ha digitado 1,29 es decir se ha

considerado el valor hipottico.
A pesar que nos indiquen que se utiliza un nivel de significacin de 0,05 este no es
ingresado en la ventana de Opciones como si ocurri en el intervalo de confianza.
Al hacer clic en el botn aceptar obtenemos:
Estadsticos para una muestra

Error tp. de la
N
Dimetro exterior (en pulgadas)
Media
20
Desviacin tp.
1,28960
,003500
media
,000783
Como H 0 : 1,29 frente a H1 : 1,29 se trata por tanto de una prueba de hiptesis
Prueba para una muestra
de dos colas (bilateral), el estadstico de prueba toma el valor -0,511. En este caso no
Valor de prueba = 1.29
podemos rechazar la hiptesis nula, el valor p de 0,615 es mayor que el nivel de
90% Interv alo de
significacin de 0,10.
conf ianza para la
Dimetro exterior
t
-.511
gl
19
Sig. (bilateral)
.615
Dif erencia
de medias
-.000400
dif erencia
Inf erior
Superior
-.00175
.00095
30
Bajo un nivel de significacin del 10% concluimos que la longitud media del dimetro
exterior de los tubos usados en el cableado elctrico es de 1,29 pulgadas
Valor de la estadstica
de prueba
El criterio de decisin se basa

en la comparacin de esta
probabilidad con el nivel de
significacin de la prueba
Observacin:
Puede calcularse el intervalo de confianza de la media sumando a la media
hipottica los valores -0,00175 y 0,00095 de la tabla anterior y obtenemos el
mismo resultado que en la parte a)
Cuando la prueba de hiptesis es de una sola cola se debe observar el signo del
tcalculado
Si el t calculado es negativo:
El sig de una prueba unilateral izquierda es sig/2; y el sig de una prueba
unilateral derecha es 1-sig/2.
Si el t calculado es positivo:
El sig de una prueba unilateral izquierda es 1-sig/2; y el sig de una prueba
unilateral derecha es sig/2.
Por ejemplo si se quieren hacer las siguientes hiptesis

H 0 : 1, 29
H1 : 1, 29
Sig = 0,615/2 = 0,3075
H 0 : 1, 29
H1 : 1, 29
Sig = 1- 0,615/2 = 0,6925
31
Intervalo de Confianza y Prueba de Hiptesis para la diferencia de

medias poblacionales (1- 2) cuando las varianzas poblacionales son
desconocidas y las muestras provienen de poblaciones independientes.

Analizar Comparar medias Prueba T para una muestras independientes
Ejemplo 2.
Se piensa que el rendimiento de combustible en un modelo especfico de automvil

sera ms alto si se utiliza gasolina sin plomo Premium que con la gasolina sin plomo
Normal. A fin de recopilar datos para sustentar esta afirmacin, se selecciona en forma
aleatoria 10 vehculos de una lnea de montaje y se prueban con una marca especifica de
gasolina Premium, adems de seleccionar al azar otros 10 y probarlos con la de gasolina
Normal. Las pruebas se realizan bajo condiciones controladas idnticas. Los datos
resultantes son los siguientes:
Premium
35,0
34,5
31,6
32,4
34,8
31,7
35,4
35,3
36,6
36,0
Normal
40,0
29,6
32,1
35,4
34,0
34,8
34,6
34,8
32,6
32,2
34.5
Suponga que el rendimiento de combustible se distribuye normalmente
32
a) Determine e interprete un intervalo del 99% de confianza para la diferencia

promedio poblacional del rendimiento de la gasolina sin plomo Premium y de la
gasolina sin plomo Normal
Solucin:
Comenzamos introduciendo los datos en el editor Vista de datos del SPSS creando
dos variables (columnas): en la primera columna se deben ingresar todos los datos
de los rendimientos de los dos tipos de gasolinas y en la segunda columna se debe
ingresar cdigos que identifiquen el tipo de gasolina:
1: gasolina sin plomo Premium (deben existir tantos 1 como repeticiones tiene el
tipo de gasolina sin plomo Premium) y
2: gasolina sin plomo normal (deben existir tantos 2 como repeticiones tiene el tipo
de gasolina sin plomo Normal)
Ingresamos a la opcin indicada anteriormente y pasamos los datos de la columna 1
al recuadro de Variables para contrastar y los datos de la columna 2 al recuadro
de Variable de agrupacin, de la siguiente manera:
En Variable de agrupacin se debe definir los cdigos de los grupos que se desean
comparar. Para definir los cdigos se ingresa el al botn Definir grupos y
posteriormente se da un clic en el botn Continuar:
33
Como nos piden un intervalo del 99% de confianza dar un clic al botn Opciones
para definir ah el nivel de confianza.
Los resultados obtenidos se presentan a continuacin:
Estadsticos de grupo
Rend
Tipo_gas
Gasolina sin
plomo premium
Gasolina sin
plomo normal
Desv iacin
tp.
Media
Error tp. de
la media
10
34.370
1.8105
.5725
10
33.980
2.6720
.8450
Prueba de muestras independientes

Prueba de Lev ene
para la igualdad de
v arianzas
F
Rend
Se han asumido
v arianzas iguales
No se han asumido
v arianzas iguales
0,535 >0,01: No se
rechaza la hiptesis
nula de varianzas
iguales
Sig.
.401
.535
Prueba T para la igualdad de medias
gl
Sig. (bilateral)
Dif erencia
de medias
Error tp. de
la dif erencia
99% Interv alo de

conf ianza para la
dif erencia
Inf erior
Superior
.382
18
.707
.3900
1.0207
-2.5479
3.3279
.382
15.825
.707
.3900
1.0207
-2.5955
3.3755
Lmite inferior de
confianza para la
diferencia de
medias asumiendo
varianzas iguales
Lmite Superior de
confianza para la
diferencia de
medias asumiendo
varianzas iguales
Podemos apreciar que el SPSS nos brinda los resultados para varianzas
desconocidas asumiendo varianzas iguales y diferentes.
Para determinar cual de los dos intervalos es el correcto debemos utilizar la Prueba
de Levene y comparar el Sig =0.535 de la Prueba de Levene con el . Como en este
caso el sig> asumimos los resultados obtenidos para varianzas homogneas
34
La interpretacin para el intervalo sera la siguiente:

Existe un 99% de confianza de que el intervalo -2,5479; 3,3279 contenga la
diferencia media poblacional del rendimiento medio de la gasolina sin plomo
Premium y de la gasolina sin plomo Normal.
b) Realice una prueba de hiptesis para comparar la media de rendimiento de

combustible con esas dos gasolinas. Use un nivel de significacin del 1%. Interprete
los resultados en el contexto del problema.
En este caso aprovechamos el reporte anterior para dar respuesta a la siguiente
hiptesis:
H 0 : P2 N2
H 1 : P2 N2
De igual manera que para intervalos de confianza, para determinar si las varianzas
son homogneas o no, debemos hacer uso del Sig =0.535 de la Prueba de Levene y
compararlo con el .
Como en este caso el sig> asumimos los resultados obtenidos para varianzas
homogneas
Para evaluar la hiptesis de inters
H0 : P N
H1 : P N
=0,01
Prueba de muestras independientes
Prueba de Lev ene
para la igualdad de
v arianzas
F
Rend
Se han asumido
v arianzas iguales
No se han asumido
v arianzas iguales
Valor del estadstico de

prueba cuando las
varianzas son similares
Sig.
.401
.535
Prueba T para la igualdad de medias
gl
Sig. (bilateral)
Dif erencia
de medias
Error tp. de
la dif erencia
99% Interv alo de

conf ianza para la
dif erencia
Inf erior
Superior
.382
18
.707
.3900
1.0207
-2.5479
3.3279
.382
15.825
.707
.3900
1.0207
-2.5955
3.3755
p = 0,707 >0,01: No se
rechaza la hiptesis nula
de medias iguales
35
Conclusin:
Bajo un nivel de significacin del 1% concluimos que los rendimientos medios de
ambos tipos de gasolinas no son diferentes.
Intervalo de Confianza y Prueba de Hiptesis para la diferencia de

medias poblacionales (D) de muestras relacionadas
Analizar Comparar medias Prueba T para una muestras relacionadas
Ejemplo 3.
Se realiz un estudio para determinar si el nivel de exportacin (en miles de $) de 10
exportadores de esprragos ha variado. Se recolect la siguiente informacin:
Exportador
Ao
1
10
2006
17,5
17,2
15,8
16,2
17,4
15,8
17,7
17,6
18,3
18.0
2007
19,2
17,4
16.0
18,1
17.0
16,3
18,3
16,4
18.0
19,2
Suponga que el nivel de exportacin se distribuye normalmente
a) Determine e interprete un intervalo del 95% de confianza para la diferencia

promedio del nivel de exportacin en el periodo 2006-2007
36
Solucin:
Comenzamos introduciendo los datos de cada ao en dos columnas diferentes en el
editor Vista de datos del SPSS.
Ingresamos a la opcin indicada anteriormente y pasamos los datos de cada columna
en los recuadros con encabezado Variable1 y Variable2. Esta versin del SPSS
permite hacer varias comparaciones a la vez.
Si quiere hacer la diferencia del segundo grupo menos el primer grupo puede hacer
uso del botn
Los resultados obtenidos se presentan a continuacin:
Estadsticos de muestras relacionadas
Media
Par 1
Desviacin tp.
Error tp. de la
media
ao1
17,1300
10
,90068
,28482
ao2
17,5900
10
1,15993
,36680
Correlaciones de muestras relacionadas

N
Par 1
ao1 y ao2
Correlacin
10
,590
Sig.
,073
37
Prueba de muestras relacionadas

Diferencias relacionadas
95% Intervalo de confianza
para la diferencia
Media
Par 1 ao1 - ao2
-,46000
Desviacin
Error tp. de la
tp.
media
,96171
,30412
Sig.
Inferior
-1,14797
Superior
,22797
t
-1,513
gl
9
El intervalo del 95% confianza que va de [-1,14797; 0,22797] brinda un 95% de

confianza de contener a la diferencia de medias de los niveles de exportacin en el
periodo 2006-2007
c) Realice una prueba de hiptesis para comparar si el nivel de exportacin se ha

mantenido igual. Use un nivel de significacin del 1%. Interprete los resultados en
el contexto del problema.
Para evaluar la hiptesis de inters
H0 : D 0
H1 : D 0
=0,01
sig = 0,165 > no se rechaza H0.
Conclusin
Existe suficiente evidencia estadstica a un nivel de significacin de 0,05 para no
rechazar H0.
Por lo tanto no podemos afirmar que los niveles de exportacin han variado.
38
(bilateral)
,165
TEMA: ANLISIS DE VARIANZA
39
ANLISIS DE VARIANZA DE UNA VA

DISEO COMPLETO AL AZAR
1) Un exceso de ozono en el aire es seal de contaminacin. Se tomaron seis muestras
de aire en cada uno de cuatro sitios industriales y se determin el contenido de
ozono. Las concentraciones de ozono (en partes por milln) se presentan en la
siguiente tabla.
N
1
2
3
4
5
6
I
0,08
0,10
0,09
0,07
0,09
0,06
Sitios
II
0,15
0,09
0,11
0,10
0,08
0,13
III
0,13
0,10
0,15
0,09
0,09
0,17
IV
0,05
0,11
0,07
0,09
0,11
0,08
Creacin del archivo

En la ventana de Vista de variables: genere las variables: ozono y sitio. Los valores de
la variable sitio deben estar codificadas de la siguiente forma:
Digite los datos en Vista de

datos.
40
a) Los datos proporcionan prueba suficiente que indiquen diferencias en el

contenido medio de ozono entre los cuatro sitios? Use 0,05 .
En Dependientes: Ingrese la variable Ozono.

En Factor: Ingrese la variable Sitio.
41
b) Verifique el supuesto de homogeneidad de varianzas. Use 0,05 .
c) A partir de los resultados de (a), use las pruebas de Duncan y DMS para probar
diferencias en los contenidos de concentraciones de ozono de los diferentes

sitios. Use 0,05 .
Para ello, en la ventana de Post hoc, seleccione las pruebas solicitadas.
42
Los resultados obtenidos se muestran a continuacin:

ANOVA de un factor
Con relacin a la pregunta (b), verifique el supuesto de homogeneidad de varianzas.

Use 0,05 .
Las hiptesis a formular son:
H0: Las varianzas del contenido de ozono entre los cuatro sitios son iguales
H1: Al menos una varianza diferente al resto de los lugares.
Como sig =0,151 > 0,05 , entonces no se rechaza el supuesto de homogeneidad de

las varianzas.
Con relacin a la pregunta (a), los datos proporcionan prueba suficiente que indiquen
diferencias en el contenido medio de ozono entre los cuatro sitios? Use =0,05.
Las hiptesis a formular son:

H0: No hay diferencias en el contenido medio de ozono entre los cuatro sitios
H1: S hay diferencias en el contenido medio de ozono entre los cuatro sitios
Como sig =0.035 < 0,05 , entonces se concluye que s hay diferencias en el
contenido medio de ozono entre los cuatro sitios.
43
Pruebas post hoc
Subconjuntos homogneos Grfico de las medias
Una limitacin de esta forma de acceso a la prueba, es que no permite obtener

los residuos del modelo que se establece en el anlisis, en consecuencia no
podemos realizar la verificacin del supuesto de Normalidad de los errores. Por
ello mostraremos otra forma de ingreso a la prueba: Analizar Modelo lineal
general - Univariante
44
Seleccionamos la variable de Dependiente (Concentracin de ozono) y el Factor

(Sitio) lo ubicamos como Factor Fijo.
Luego en Post hoc, seleccionamos el Factor Sitio y lo trasladamos al campo de

Contrastes post hoc. Activamos las pruebas de DMS y Duncan
45
Continuamos y vamos a Guardar, en donde activaremos los Residuos

Estandarizados
Continuamos y vamos a Opciones, para solicitar la Prueba de homogeneidad.

Aqu encontramos el nivel de significacin para las pruebas de Duncan, as que
es importante observar con que nivel de significacin se est realizando el
estudio.
46
Los resultados que se obtienen son los siguientes:
Anlisis de varianza univariante
47
Pruebas post hoc

Sitio
Subconjuntos homogneos
48
Hasta aqu no se ha presentado ninguna salida que permita evaluar la

Normalidad de los Residuos, sin embargo en el archivo correspondiente a vista
de datos podemos observar que aparece una nueva columna denominada RES_1
que corresponden a los Residuos de la variable en estudio
Aplicamos la Prueba no paramtrica de K-S de una muestra
49
Seleccionamos la variable Residuo para Concentracin de ozono y la

tomamos como variable a contrastar
Obtenemos como resultado la tabla correspondiente a la Prueba de

Kolmogorov Smirnov para una muestra de la variable Residuo para
Concentracin.
50
DISEO FACTORIAL: ANOVA DE DOS VAS

Se condujo un experimento para determinar si la temperatura del fuego o la posicin en
el horno afectan la densidad de endurecimiento de un nodo de carbn. Los datos son
los siguientes:
Posicin
800
570
565
583
528
547
521
Temperatura (C)
825
1063
1080
1043
988
1026
1004
850
565
510
590
526
538
532
Analice los datos al nivel de significacin de 0.05.

Solicitando el anlisis para el diseo factorial
51
En Variable dependiente:
colocar densidad
En factores fijos:
posicin y temperatura
Dar click en Modelo
En modelo
Solicitar los grficos de perfil
52
En la primera pantalla, dar clic en Opciones y solicitar el anlisis para verificar la

homogeneidad de varianzas. Tambin solicite las estimaciones para las medias
marginales.
Para obtener las comparaciones mltiples, en la primera pantalla dar click en Post Hoc
y seleccionar DMS (en ingls LSD) y la prueba de Duncan.
53
Para estimar los residuales, siga el procedimiento siguiente:
54
yijk yij.
y ij.
Salidas
Factores inter-sujetos
Temperatura
Posicin
800
825
850
1
2
Eti queta
del valor
800 C
825 C
850 C
Posicin 1
Posicin 2
N
6
6
6
9
9
55
a
Contraste de Levene sobre la igualdad de las varianzas error
Variable dependiente: Densidad

F
2.572
gl1
gl2
5
12
Signif icacin
.084
Contrasta la hiptesis nula de que la v arianza error de la

v ariable dependiente es igual a lo largo de todos los grupos.
a. Diseo:
Interseccin+Temperatura+Posicin+Temperat ura *
Posicin
Pruebas de los efectos i nter-sujetos

Variable dependient e: Densidad
Fuente
Modelo corregido
Interseccin
Temperatura
Posicin
Temperatura * Posicin
Error
Total
Total corregida
Suma de
cuadrados
tipo III
953320.278a
9072380.056
945342.111
7160.056
818.111
5370.667
10031071.0
958690.944
gl
5
1
2
1
2
12
18
17
Media
cuadrtica
190664.056
9072380.1
472671.056
7160.056
409.056
447.556
F
426.012
20270.958
1056.117
15.998
.914
Signif icacin
.000
.000
.000
.002
.427
a. R cuadrado = .994 (R cuadrado corregida = . 992)
Medias marginales estimadas
1. Media global
Media
709.944
Error tp.
4.986
Intervalo de confianza al 95%.

L mite inferior L mite superior
699.080
720.809
2. Temperatura
Estimaciones
Variable dependiente: Densi dad
Temperatura
800 C
825 C
850 C
Media
552.333
1034.000
543.500
Error tp.
8.637
8.637
8.637

533.516
571.151
1015.182
1052.818
524.682
562.318
56
Comparaciones por pares

(I) Temperat ura

800 C
825 C
850 C
Diferenci a ent re
medias (I-J)
-481.667*
8.833
481.667*
490.500*
-8.833
-490.500*
(J) Temperat ura

825 C
850 C
800 C
850 C
800 C
825 C
Error tp.
12.214
12.214
12.214
12.214
12.214
12.214
Intervalo de confianza al 95 %
a
para la di ferencia
a
Significacin L mite inferior L mite superior
.000
-508.279
-455.054
.483
-17.779
35.446
.000
455.054
508.279
.000
463.888
517.112
.483
-35.446
17.779
.000
-517.112
-463.888
Basadas en las medias marginales estimadas.

*. La diferenci a de las medias es significativa al nivel .05.
a. Ajust e para comparaciones mltiples: Diferencia menos significat iva (equivalente a la ausenci a de ajust e).
Contrastes univariados
Suma de
cuadrados
Contraste 945342.111
Error
5370.667
gl
2
12
Media
cuadrtica
472671.056
447.556
F
1056.117
Significacin
.000
Cada prueba F contrasta el efecto si mple de Temperatura en cada combinacin de

niveles del rest o de los efect os mostrados. Est os contrastes se basan en las
comparaciones por pares, linealmente independi entes, ent re las medias marginales
estimadas.
3. Posicin
Estimaciones
Posicin
Posicin 1
Posicin 2
Media
729.889
690.000
Error tp.
7.052
7.052

714.524
745.254
674.635
705.365
Comparaciones por pares

(I) P osicin
Posicin 1
Posicin 2
(J) P osicin
Posicin 2
Posicin 1
Diferenci a ent re
medias (I-J)
39.889*
-39.889*
Error tp.
9.973
9.973
Interval o de confianza al 95 %
a
para la di ferencia
a
Significacin Lmite i nferior Lmite superior
.002
18.160
61.618
.002
-61.618
-18.160
Basadas en las medias marginales estimadas.

*. La diferencia de las medias es si gni fi cativa al nivel .05.
a. Ajust e para comparaci ones mltiples: Diferencia menos significativa (equivalente a l a ausencia de ajuste).
57
Contrastes univariados
Contraste
Error
Suma de
cuadrados
7160.056
5370.667
gl
1
12
Media
cuadrtica
7160.056
447.556
F
15.998
Significacin
.002
Cada prueba F contrasta el efecto si mple de Posi cin en cada combi nacin de nivel es
del resto de los efectos mostrados. Estos contrastes se basan en las comparaciones por
pares, li nealmente independientes, entre las medias marginal es estimadas.
4. Temperatura * Posicin
Variable dependiente: Densi dad
Temperatura
800 C
825 C
850 C
Posicin
Posicin 1
Posicin 2
Posicin 1
Posicin 2
Posicin 1
Posicin 2
Media
572.667
532.000
1062.000
1006.000
555.000
532.000
Error tp.
12.214
12.214
12.214
12.214
12.214
12.214

546.054
599.279
505.388
558.612
1035.388
1088.612
979.388
1032.612
528.388
581.612
505.388
558.612
Pruebas post hoc
Temperatura
Comparaciones mltiples
DMS
(I) Temperatura
800 C
825 C
850 C
(J) Temperatura
825 C
850 C
800 C
850 C
800 C
825 C
Diferencia entre
medias (I-J)
-481.67*
8.83
481.67*
490.50*
-8.83
-490.50*
Error tp.
12.214
12.214
12.214
12.214
12.214
12.214

Significacin Lmite inferior Lmite superior
.000
-508.28
-455.05
.483
-17.78
35.45
.000
455.05
508.28
.000
463.89
517.11
.483
-35.45
17.78
.000
-517.11
-463.89
Basado en las medias observadas.

*. La diferencia de medias es significativa al nivel .05.
58
Densi dad
Duncana,b
Temperatura
850 C
800 C
825 C
Significacin
N
6
6
6
Subconjunto
1
2
543.50
552.33
1034.00
.483
1.000
Se muestran las medias para los grupos en subconjuntos homogneos.

Basado en la suma de cuadrados tipo I
El trmi no error es la Media cuadrti ca (Error) = 447.556.
a. Usa el tamao muestral de la media armnica = 6.000
b. Alfa = .05.
Grficos de perfil
Medias marginales estimadas de Densidad

Posicin
Posicin 1
Posicin 2
1100
1000
900
800
700
600
500
800 C
825 C
850 C
Temperatura
Medias marginales estimadas de Densidad

Temperatura
800 C
825 C
850 C
1100
1000
900
800
700
600
500
Posicin 1
Posicin 2
Posicin
59
DISEO BLOQUES COMPLETOS ALEATORIOS

2) Un ingeniero industrial prueba cuatro distribuciones diferentes para el piso de una
tienda; encarga a cada una de seis cuadrillas construir una subdivisin y mide los
tiempos de construccin (en minutos) como sigue:
Distribucin 1 Distribucin 2 Distribucin 3 Distribucin 4
Cuadrilla A
48.2
53.1
51.2
58.6
Cuadrilla B
49.5
52.9
50.0
60.1
Cuadrilla C
50.7
56.8
19.9
62.4
Cuadrilla D
48.6
50.6
47.5
57.5
Cuadrilla E
47.1
51.8
49.1
55.3
Cuadrilla F
52.4
57.2
53.5
61.7
Pruebe en el nivel de significacin 0,01 si las cuatro distribuciones del piso

producen tiempos de construccin diferentes y si algunas de las cuadrillas de
trabajo son consistentemente ms rpidas al construir la subdivisin que las otras.
Anlisis de varianza utilizando: ANOVA de dos factores
60
61
Los resultados obtenidos son:
62
Pruebas post hoc

Distribucin
63
Cuadrilla
64
Grficos de perfil
65
Anlisis de Normalidad de los Residuos
66
Ejecutamos la prueba de K-S para los Residuos
67
Anlisis de Homogeneidad de varianzas para el Factor Distribucin. Observe

que en esta ocasin ya no consideramos al bloque (Cuadrilla) como un Factor
fijo.
68
Continuar y Aceptar
69
TEMA: PRUEBAS CHI CUADRADO
70
Contenido Terico:
Prueba de Independencia
Prueba de Homogeneidad
Prueba de Bondad de ajuste
Introduccin
Una de las mayores utilidades de la distribucin Ji-Cuadrado est en que permite
comparar frecuencias observadas (frecuencias obtenidas en un experimento o
muestreo) con frecuencias esperadas segn un modelo supuesto (hiptesis nula).
Esta caracterstica de la distribucin Ji-cuadrado permite efectuar las siguientes
pruebas:
Prueba de independencia.
Prueba de homogeneidad de subpoblaciones.
Pruebas de bondad de ajuste a una distribucin de probabilidades.
La metodologa en cada uno de los tres casos es muy similar. La diferencia principal
est en la forma en que se calculan las frecuencias esperadas, ya que estas
dependern de la hiptesis nula en cuestin.
I. PRUEBA DE INDEPENDENCIA Y DE HOMOGENEIDAD

Caso1. Cuando cada fila de la BD representa varios casos.
Los grandes almacenes Premium vende vales de regalo durante la temporada de
Navidad. El gerente de ventas, Leo Marinni, quiere determinar si el valor de un
vale tiene alguna relacin con lo que el cliente compra con dicho vale. Los datos
recogidos de una muestra de clientes que asistieron durante el ltimo mes son:
Departamento
Electrodomsticos
Ropa
Herramientas
Frecuencias observadas
Valor del vale
$10
$50
$100+
22
26
54
33
31
22
41
43
19
Pruebe si el valor del vale se relaciona con lo que el cliente compra. Use = 0,05.
1 Digitar la siguiente base de datos:
71
2 Ponderar los casos.
Ponderar los casos por la variable N clientes (frecuencia)
72
3 Finalmente correr el programa para tablas de contingencia.
Dar clic en Estadsticos para seleccionar la opcin de prueba chi-cuadrado
Para obtener las frecuencias esperadas y los porcentajes fila, columna y total,
ingresar a Casillas y marcar lo que se necesite analizar:
73
Ho: Existe independencia entre variables (departamento y valor del vale)

H1: No existe independencia entre variables
A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de
significacin 5% por lo que se rechaza la hiptesis nula.
Por lo tanto, con un nivel de significacin del 5% no podemos afirmar que exista
independencia entre las variables sujetas a evaluacin.
Caso 2. Cuando cada fila de la BD representa un solo caso.

Para la explicacin del tema tomaremos las variables cualitativas nivel de educacin y
regin de nacimiento de la base de datos encuesta.sav.
Los 300 datos se presentan de la siguiente manera:
74
Luego, en la opcin: estadsticos marcar chi-cuadrado
75
Los resultados que se obtienen se muestran a continuacin:
Ho: Existe independencia entre variables (Regin de nacimiento y nivel educativo)

H1: No existe independencia entre variables
A la vista de los resultados el Valor-P = 0.722 es mayor que nuestro nivel de
significacin 5% por lo que no se rechaza la hiptesis nula.
Por lo tanto, con un nivel de significacin del 5% podemos afirmar que existe
independencia entre las variables sujetas a evaluacin.
76
NOTA: Cabe recordar que la prueba chi-cuadrado propone como condicin que las
frecuencias esperadas sean mayores que 5. En el ltimo reporte del SPSS se indica que
el 48% de las casillas tienen frecuencia esperada inferior a 5 por lo que ser necesario
juntar columnas (en este caso).
II. PRUEBA DE BONDAD DE AJUSTE

SPSS nos permite realizar pruebas de bondad de ajuste. Es decir, contrastar si las
frecuencias observadas en cada una de las clases de una variable categrica varan de
forma significativa de las frecuencias que se esperara encontrar si la muestra hubiese
sido extrada de una poblacin con una determinada distribucin de frecuencias.
Esta prueba Chi-cuadrado se obtiene a partir del men Pruebas no paramtricas
dentro del men principal Analizar. En el cuadro de dilogo debemos introducir la
variable categrica que queremos analizar y posteriormente las frecuencias esperadas
bajo la hiptesis que queremos contrastar.
En el apartado de valores esperados debemos elegir, bien la opcin de homogeneidad
a lo largo de todas las clases, o bien debemos introducir, en el mismo orden en el que
aparecen en el archivo de datos, las frecuencias esperadas.
Debe recordarse que la suma de los valores observados en la muestra debe ser igual a la
suma de valores esperados.
CASO 1. FRECUENCIAS ESPERADAS IGUALES

Tomaremos los datos del archivo: encuesta.sav
77
Seleccionaremos la variable NIVEDUC (Nivel educativo) para determinar, inicialmente

si el porcentaje de personas para cada categora de nivel educativo es el mismo.
La opcin que aparece marcada por defecto en Rango esperado, es decir obtener de
los datos, implica que cada valor de la variable ser considerado una categora.
La opcin que aparece marcada por defecto en Valores esperados, es decir todas las
categoras iguales, implica que la distribucin de probabilidades es uniforme para
todas las categoras consideradas (para nuestro ejemplo 296 datos entre 5 categoras).
Los resultados obtenidos son:
78
Ho: La distribucin de nivel educativo es la misma para las 5 categoras

H1: La distribucin de nivel educativo no es la misma para las 5 categoras
CASO 2. FRECUENCIAS ESPERADAS DESIGUALES

Alternativamente tenemos la opcin de especificar las frecuencias esperadas
porcentuales para cada categora de la variable categrica. El orden en que se
especifiquen los datos corresponde a los valores de la variable en orden ascendente.
Recordemos previamente que la codificacin asignada a esta variable es la siguiente:
79
Asumamos que lo que se propone como hiptesis estipula que el porcentaje de la

categora Primaria es 20%, Secundaria 50%, Preparatoria10%, Universidad 15%,
Especializacin 5%.
En la opcin Valores esperados marcamos valores luego ingresamos cada porcentaje y
pulsamos aadir. Luego aceptar:
Los resultados obtenidos se muestran a continuacin:
80

81
TEMA: REGRESIN LINEAL Y NO LINEAL
82
Contenido Terico:
Matriz de correlaciones.
Regresin lineal simple.
Regresin curvilineal.
Introduccin
En el anlisis estadstico se tienen mtodos que nos permiten determinar si dos o ms
variables se relacionan. La relacin entre variables nos permite disponer de los
elementos suficientes para, en base a una muestra de pares de datos de las variables,
realizar estimaciones de las proyecciones para uno o ms datos de una de las variables
involucradas.
En esta oportunidad nos ocuparemos de la correlacin y la regresin entre los datos de
dos variables numricas utilizando SPSS para el anlisis correspondiente.
A continuacin se muestra la base de datos con la que se explicar los procedimientos
involucrados al realizar un anlisis de regresin lineal simple.
Los datos corresponden a las ventas totales por ao de cada una de 11 regiones en las
que una compaa opera. Dicha compaa se dedica a la venta de repuestos para
automviles. Se pretende estimar el valor de las ventas futuras conociendo el nmero de
distribuidoras establecidas en cada regin y el nmero de automviles vendidos para
cada regin.
83
MATRIZ DE CORRELACIONES
El primer paso que daremos consiste en revisar si existe correlacin entre las variables
de esta base de datos, con este fin realizaremos la matriz de correlaciones. Analizando
esta matriz se podr determinar cul de las variables independientes: Regin, N de
distribuidoras o N de autos vendidos, est ms correlacionada con la variable
dependiente Ventas.
Para realizar la matriz de correlaciones:
Men Analizar >> Correlaciones >> Bivariadas:
En el cuadro dialogo de Correlaciones Bivariadas:
Elige las variables Ventas,

Nro_Distrib y Nro_Autos. Utiliza el
Mouse y la tecla Ctrl.
Arrastra y suelta las variables en el

panel en blanco Variables.
Revise que este activado Pearson en
Coeficiente de correlacin.
84
Clic en aceptar.
Obtenemos el siguiente resultado:
Se observa que la variable ventas est ms correlacionada con la variable Nmero de

distribuidoras (correlacin 0.739) por lo que un primer paso ser realizar un anlisis de
regresin lineal simple con esta variable independiente.
REGRESION LINEAL SIMPLE ENTRE LA

INDEPENDIENTE MS CORRELACIONADA CON Y
VARIABLE
La secuencia es:
85
Analizar >> Regresin >> Lineal, se mostrar el siguiente cuadro de dilogo:
En el cuadro dialogo que se habre:
Arrastre la Variable
Ventas a la casilla de
Dependientes.
Arrastre la variable
Nro_distrb a la casilla de
Independiente.
Clic en Aceptar.
86
Por el momento slo se proceder a obtener la ecuacin del modelo as como algunos
valores representativos para la validacin de dicho modelo.
Un anlisis ms riguroso del modelo y su validacin se har para el caso de regresin
lineal mltiple.
Resultados obtenidos:
Resumen del modelo
Modelo
1
R
.739a
R cuadrado
corregida
.496
R cuadrado
.546
Error tp. de la
estimacin
9.7718
a. Variables predictoras: (Constante), Nro distribuidoras
El coeficiente de determinacin, denotado por R2 (0.546) implica que el 54.6% de

variacin en las ventas pueden ser explicadas por el modelo de regresin.
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
1033.836
859.393
1893.229
gl
1
9
10
Media
cuadrtica
1033.836
95.488
F
10.827
Sig.
.009a
a. Variables predictoras: (Constante), Nro distribuidoras

b. Variable dependient e: Ventas (mills $)
La tabla de Anlisis de Varianza permite realizar la prueba de significacin global del

modelo, se propone las siguientes hiptesis:
H o : 1 0 En forma conjunta las variables no contribuye n al modelo

H1 : i 0
Al menos una variable es significat iva para el modelo
Analizando el P-Valor (0.009) (Sig), el cual es inferior al 5% (nivel de significacin

propuesto usualmente para la prueba), se decide que se debe rechazar la hiptesis nula
con lo cual concluimos que la variable Nmero de distribuidoras s contribuye
significativamente al modelo.
Coeficientesa
Modelo
1
(Constante)
Nro distribuidoras
Coef icientes no
estandarizados
B
Error tp.
10.881
6.409
.012
.004
Coef icientes
estandarizad
os
Beta
.739
t
1.698
3.290
Sig.
.124
.009
a. Variable dependiente: Ventas (mills $)
87
El modelo estimado para el presente caso ser:
Ventas 10.881 0.012( Nro de distribuid oras)

Adems de la prueba de verificacin global se puede realizar la prueba de verificacin
individual de la variable independiente.
H o : i 0 La variable no es significat iva para el modelo

H 1 : i 0 La variable es significat iva para el modelo
Para el caso desarrollado (regresin lineal simple), esta prueba es anloga a la prueba de
verificacin global.
Una forma grfica de verificar la relacin lineal entre Y con X es realizar un grfico de
dispersin, el cul muestra la posible tendencia y/o relacin posible entre variable
dependiente e independiente.
La secuencia para obtener dicho grfico es la siguiente:
88
En este cuadro dialogo se

elige Dispersin simple.
En el cuadro de dilogo (Dispersin simple) se ingresar la informacin de la siguiente

manera:
El resultado que se obtiene es el siguiente:
89
REGRESIN NO LINEAL / CURVILINEAL
En el anlisis de regresin no todas las relaciones de variables se comportan de manera

lineal, en algunos casos la relacin se da de manera curvilnea. Se puede determinar este
tipo de relacin con el anlisis del diagrama de dispersin.
Analizaremos los diferentes modelos curvilneos que puedan formarse para determinar
cul de ellos es el mejor. Los datos se muestran a continuacin:
La secuencia para realizar una regresin curvilnea es la siguiente:
Men Analizar >> Regresin >> Estimacin Curvilnea. . .
Salario a Dependientes
Experiencia
Independientes
Verifique que este

activados los Modelos
de regresin.
Aceptar
90
Como se muestra, tenemos la posibilidad de elegir entre varios modelos. Para

desarrollar nuestro ejemplo hallaremos los coeficientes estimados y la tabla de anlisis
de varianza de los modelos: Lineal, Cuadrtico, Potencia y Exponencial.
Los resultados que obtenemos en la tercera tabla son los siguientes:
Resumen del modelo y estimaciones de los parmetros
Variable dependiente: Salario (miles US$)
Ecuacin
Resumen del modelo
Estimaciones de los parmetros
R
cuadrado
,757
56,218
18
,000
26,270
1,334
Logartmica
,850
102,140
18
,000
18,034
10,768
Inversa
,626
30,149
18
,000
45,516
-34,376
Cuadrtico
,876
60,189
17
,000
19,126
3,363
Potencia
,800
71,854
18
,000
20,614
,309
Exponencial
,645
32,662
18
,000
26,521
,036
Lineal
gl1
gl2
Sig.
Constante
b1
b2
-,087
La variable independiente es: Aos de experiencia.
Se puede apreciar que los Valores P (Sig) son inferiores a = 0.05, por tanto en todos
los casos existe correlacin.
Si estudiamos los valores de R2 (Rcuadrado) nos podemos percatar de que el modelo
cuadrtico es el modelo ms eficiente (ms cercano a 1). Mientras que el modelo
logartmico es el segundo.
Para decidir realizamos nuevamente el anlisis con los modelos con mayor eficiencia
(mayor R2)
91
Logartmica
Resumen del modelo

R
R cuadrado
,922
R cuadrado
Error tpico de
corregida
la estimacin
,850
,842
4,018
La variable independiente es Aos de experiencia.

ANOVA
Suma de
gl
Media
cuadrados
Regresin
Residual
Total
Sig.
cuadrtica
1648,640
1648,640
290,538
18
16,141
1939,178
19
102,140
,000
La variable independiente es: Aos de experiencia.

Coeficientes
Coeficientes no estandarizados
Coeficientes
Sig.
estandarizados
B
Error tpico
ln(Aos de experiencia)
10,768
1,065
(Constante)
18,034
2,099
Beta
,922
10,106
,000
8,590
,000
En este caso el valor P para el coeficiente de la variable independiente (aos de experiencia) es menor que
= 0.05, por tanto se puede decir que es significativa para el modelo.
92
Cuadrtico
Resumen del modelo
R
R cuadrado
,936
R cuadrado
Error tpico de la
corregida
estimacin
,876
,862
3,757

ANOVA
Suma de
gl
Media
cuadrados
Regresin
Residual
Total
Sig.
cuadrtica
1699,211
849,606
239,967
17
14,116
1939,178
19
60,189
,000
Coeficientes
Coeficientes
Sig.
estandarizados
B
Error tpico
Beta
Aos de experiencia
3,363
,519
2,194
6,480
,000
Aos de experiencia ** 2
-,087
,022
-1,367
-4,040
,001
19,126
2,232
8,568
,000
(Constante)
En este caso el valor P para los coeficientes de la variable independiente (aos de experiencia) son
menores que = 0.05, por tanto se puede decir que son significativas para el modelo.
93
Cbico
Resumen del modelo
R
R cuadrado
,936
R cuadrado
Error tpico de la
corregida
estimacin
,876
,853
3,872
La variable independiente esAos de experiencia.
ANOVA
Suma de
gl
Media
cuadrados
Regresin
Residual
Total
Sig.
cuadrtica
1699,253
566,418
239,925
16
14,995
1939,178
19
37,773
,000
Coeficientes
Coeficientes
Sig.
estandarizados
B
Error tpico
Beta
Aos de experiencia
3,300
1,303
2,153
2,532
,022
-,081
,134
-1,259
-,602
,556
,000
,004
-,070
-,053
,959
19,255
3,356
5,737
,000
(Constante)
En este caso el valor P para los coeficientes de grado 2 y 3 de la variable independiente (aos de
experiencia) son mayores que = 0.05, por tanto se puede decir que no son significativas para el modelo.
En este caso el modelo que mejor se ajusta es el cuadrtico.
94
Entonces para la relacin Experiencia Salario el modelo que mejor se ajusta es el

cuadrtico con una eficiencia de 0.876 (R2).
95
TEMA: REGRESIN LINEAL MLTIPLE
96
Contenido:
Correlacin entre las variables del modelo.
Anlisis de Multicolinealidad
Mtodo de seleccin de variables: Hacia delante.
Modelo final.
Supuestos: Normalidad de los errores y homocedasticidad.
Para la explicacin de los procedimientos relacionados con el anlisis de regresin

mltiple, se usar el siguiente caso:
Estudios financieros han mostrado que el precio de una accin (P) est en razn directa del nivel
de endeudamiento de la empresa emisora (D) y con el dividendo (DR), pero en razn inversa del
nmero de acciones en circulacin (SO). Los datos indicados en la tabla estn en dlares para P,
en cientos de dlares para D, en dlares para DR y en millares de acciones en circulacin para
SO.
Precio de una
Nivel de
Dividendo Nmero de acciones
accin (P) endeudamiento (D)
(DR)
en circulacin(SO)
52,50
12,00
2,10
100
14,25
3,40
0,69
37
35,21
7,10
1,70
68
45,21
10,40
1,81
90
17,54
4,00
0,70
32
22,00
5,10
0,88
45
37,10
8,50
1,50
78
29,12
6,70
1,20
60
46,32
10,65
1,85
95
49,30
11,34
2,00
99
Correlacin entre las variables del modelo

En un problema de regresin lineal mltiple, en muchos de los casos las variables
independientes, estn en cierto grado correlacionadas unas con otras. Siempre que sea
posible, debe evitarse incluir variables independientes que estn fuertemente
correlacionadas.
Se realizar el anlisis de las correlaciones entre las variables involucradas en el estudio
97
Se considera las variables independientes: Nivel de endeudamiento de la empresa emisora

(D), Dividendo, nmero de acciones en circulacin
Definimos las variables en SPSS e introducimos los datos:
Para determinar la tabla de correlacin entre las variables involucradas en el modelo realizamos
lo siguiente:
Analizar >> Correlaciones >> Bivariadas
Elija las variables y arrstrelas al

cuadro Variables
Verifique que este activado

Pearson en Coeficientes de correlacin.
Aceptar.
98
Aqu seleccionamos las variables de inters, para obtener el siguiente resultado:

Correlaciones
Precio de
una accin
(Y) (US$)
Correlacin de
Precio de una Pearson
accin (Y)
Sig. (bilateral)
(US$)
N
Correlacin de
Nivel de
Pearson
endeudamien
to (X1) (x100 Sig. (bilateral)
US$)
N
Dividendo
(X2) (US$)
Nmero de
acciones en
circulacin
(X3) (miles)
Correlacin de
Pearson
Sig. (bilateral)
N
Correlacin de
Pearson
Sig. (bilateral)
Nivel de
endeudamient Dividendo (X2)
o (X1) (x100
(US$)
US$)
10
,995
**
,995
**
,985
**
,991
**
,000
,000
,000
10
10
10
**
,000
,965
**
,000
10
10
10
**
**
,965
,991
,000
10
,985
Nmero de
acciones en
circulacin
(X3) (miles)
,975
**
,000
,000
10
10
10
10
**
**
**
,991
,991
,000
,975
,000
,000
,000
10
10
10
10
**. La correlacin es significativa al nivel 0,01 (bilateral).
Podemos observar que existe una alta correlacin entre la variable dependiente (precio
de una accin) y independientes, pero tambin la correlacin es alta entre las variables
independientes.
Correlacin entre las variables del modelo
El problema de multicolinealidad se presenta cuando existe una alta correlacin entre

variables independientes, como es el caso: Nivel de endeudamiento y el Nmero de
acciones en circulacin.0,991. Adems se comprueba la multicolinealidad siguiendo el
criterio propuesto en clase:
Menor correlacin entre Y y las Xs 0,985.
Existe correlacin entre X1 y X3 (entre Nivel de endeudamiento y el Nmero de
acciones en circulacin con un valor de 0,991 mayor que 0,985)
An en la presencia detectada de multicolinealidad estimaremos el modelo para
determinar lo adecuado que puede ser su uso para la prediccin:
Seguimos la siguiente secuencia:
Men Analizar >> Regresin >> Lineales
99
Traslade la variable
Precio de una Accin
(P) a la casilla de
Dependientes.
Traslade las
variables restantes a la
casilla
de
Independientes.
Aceptar
Obtenemos los resultados siguientes:
Resumen del modelo

Modelo
R cuadrado
1,000
R cuadrado
Error tp. de la
corregida
estimacin
1,000
,999
,36223
a. Variables predictoras: (Constante), Nmero de acciones en circulacin

(X3) (miles), Dividendo (X2) (US$), Nivel de endeudamiento (X1) (x100
US$)
El porcentaje de variacin que es explicado por la ecuacin de regresin es del 100%.

a
ANOVA
Modelo
Suma de
gl
Media
cuadrados
Regresin
1
Residual
Total
Sig.
cuadrtica
1685,572
561,857
,787
,131
1686,359
4282,036
,000
a. Variable dependiente: Precio de una accin (Y) (US$)

b. Variables predictoras: (Constante), Nmero de acciones en circulacin (X3) (miles), Dividendo
(X2) (US$), Nivel de endeudamiento (X1) (x100 US$)
100
En forma conjunta las variables son significativas para el modelo, considerando un nivel
de significacin del 5% (P-Valor = 0,000). Las hiptesis que se proponen son las
siguientes:
H0 : i = 0
H1 : i 0
El siguiente cuadro permite analizar la contribucin individual de cada variable
regresora al modelo propuesto:
Coeficientes
Modelo
Coeficientes no
estandarizados
B
Coeficientes
tipificados
Error tp.
(Constante)
-,480
,374
Nivel de endeudamiento
(X1) (x100 US$)
3,371
,294
10,727
-,097
Sig.
Beta
-1,283
,247
,771
11,452
,000
1,022
,422
10,493
,000
,042
-,185
-2,297
,061
1
Dividendo (X2) (US$)
Nmero de acciones en
circulacin (X3) (miles)
En forma individual, slo el trmino constante no es significativo para el modelo pues

su P-Valor (0,247) es mayor al nivel de significacin usual (5%). Las tres variables
contribuyen significativamente al modelo.
H0 : i = 0 La variable i no es significativa para el modelo
H1 : i 0 La variable i es significativa para el modelo
Mtodo de seleccin de variables: Hacia delante.
Se ha determinado hasta el momento que el modelo presenta deficiencias puesto que se

ha detectado un problema de multicolinealidad. Recuerde que se ha observado una alta
correlacin entre las variables: Nivel de endeudamiento (X1) y el Nmero de acciones
en circulacin (X3). La correlacin entre estas dos variables es ms alta que la
correlacin entre el precio de una accin y los dividendos.
El siguiente paso consiste en retirar las variables que presentan multicolinealidad y
analizar el nuevo modelo resultante.
Lo propuesto se puede realizar en la opcin: Mtodo. Al seleccionar Introducir, el
programa ir ingresando variables al modelo y a la vez verificar su contribucin.
101
Procedimiento:
Men Analizar >>
Regresin
>>
Lineales . . .
En el cuadro
dialogo slo se debe
elegir Adelante en
Mtodo.
Aceptar
Obtenemos el siguiente resultado:

Resumen del modelo
Model
o
1
2
R cuadrado
Error tp. de
cuadrado
corregida
la estimacin
,995
,990
,988
1,47901
1,000
,999
,999
,45976
a. Variables predictoras: (Constante), Nivel de endeudamiento (X1)

(x100 US$)
b. Variables predictoras: (Constante), Nivel de endeudamiento (X1)
(x100 US$), Dividendo (X2) (US$)
a
ANOVA
Modelo
Suma de
gl
Media
cuadrados
Regresin
1
cuadrtica
1668,859
1668,859
17,500
2,187
Total
1686,359
Regresin
1684,879
842,440
1,480
,211
1686,359
Residual
Residual
Total
Sig.
762,918
,000
3985,359
,000

b. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$)
c. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2)
(US$)
102
Coeficientes
Modelo
Coeficientes no
Coeficientes
estandarizados
tipificados
B
(Constante)
1
Error tp.
,407
1,332
4,350
,157
(Constante)
-,814
,437
2,785
,186
9,437
1,084
Sig.
Beta
,306
,768
27,621
,000
-1,862
,105
,637
14,943
,000
,371
8,706
,000
,995
(X1) (x100 US$)
(X1) (x100 US$)


Variables excluidas
Modelo
Beta dentro
Sig.
Correlacin
Estadsticos de
parcial
colinealidad
Tolerancia

1
,371
8,706
,000
,957
,069
,279
1,020
,342
,360
,017
-2,297
,061
-,684
,012

2
-,185

b. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$)
c. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$)
Modelo final.
Luego, el programa nos entrega el mejor modelo. En este caso las variables de
prediccin seleccionadas son Nivel de endeudamiento (X1) y Dividendos(X2), observe
que X1 y X3 no deberan de estar juntos en el modelo. Aqu se descart la variable X3.
Ntese que se ha seleccionado el modelo con las variables X1 y X3 puesto que en la
tabla Resumen del modelo, el valor de R cuadrado es mayor que si se eligiera el modelo
con solo la variable X1 (0,990 contra 0,999)
103
Resumen del modelo
Modelo
1,000
R cuadrado
Error tp. de la
corregida
estimacin
R cuadrado
a
,999
,999
,45976
a. Variables predictoras: (Constante), Dividendo (X2), Nivel de

endeudamiento (X1)
ANOVA
Suma de
Modelo
1
cuadrados
Regresin
Residual
Total
gl
Media cuadrtica
1684,879
842,440
1,480
,211
1686,359
Sig.
3985,359
,000
a. Variables predictoras: (Constante), Dividendo (X2), Nivel de endeudamiento (X1)

b. Variable dependiente: Precio de una accin (y)
Coeficientes
Coeficientes no
estandarizados
B
Modelo
(Constante)
Error tp.
Coeficientes
tipificados
Sig.
Beta
,407
1,332
,306
,768
Nivel de endeudamiento (X1) (x100 US$)
4,350
,157
,995 27,621
,000
(Constante)
-,814
,437
-1,862
,105
Nivel de endeudamiento (X1) (x100 US$)
2,785
,186
,637 14,943
,000
9,437
1,084
,371
,000
8,706
Tenemos entonces que:

Precio de una accin = - 0,814 + 2,785 Nivel de endeudamiento + 9,437 Dividendo
Interpretacin: b0: No tiene sentido b1: Para un dividendo constante, por cada $100
adicionales en el Nivel de endeudamiento, el Precio de una accin aumenta en $2,785.
b2: Para un Nivel de endeudamiento constante, por cada dlar adicional en los
dividendos, el Precio de una accin aumenta en $9,437.
104
Supuestos de la regresin lineal mltiple

El modelo de regresin lineal mltiple tiene como supuestos la normalidad de los
errores y la homocedasticidad (igualdad de varianzas a lo largo de la distribucin). Una
forma de diagnostico de estos supuestos se realiza mediante la observacin de la nube
de puntos de la relacion entre los valores predichos (pronosticados) y los errores. La
grfica debe realizarse colocando en el eje Y (eje vertical) los valores de los errores y en
el eje X (eje horizontal) los valores predichos, se espera que los puntos se distribuyan
alrededor del valor de error 0. Si los errores estn ms distribuidos en la zona superior
(errores mayores que cero) o en la zona inferior (errores menores que cero) es seal de
falta de normalidad de los errores. Si la distribucin de los errores tiene forma de
embudo es indicativo de heterocidad y si los errores tienen forma curva indican falta de
linealidad. Otra forma de verificar la normalidad de los errores es la siguiente:
Supuesto de normalidad.
Otro supuesto del modelo es la
normalidad que presentan los
errores. Para verificar este supuesto
podemos realizar el grfico de
probabilidad normal.
Lo primero que se debe hacer es

seleccionar la opcin guardar
y en el cuadro de dilogo que se
muestra marcar las pociones:
Residuos: No tipificados y
Valores
Pronosticados:
No
tipificados . Los valores de los
residuos
se
generaran
automticamente y se guardaran en dos columnas adicionales en nuestra base de datos.
105
El siguiente paso es ingresar a la opcin grficos y marcar la opcin de grfico de

probabilidad normal.
106
Supuesto de homocedasticidad
Analizar/Regresin/lineales en grficos , se selecciona y se transfiere al eje Y la
variable ZRESISD , se selecciona y se transfiere al eje X la variable ZPRED ,
Continuar/ Aceptar.
107

Guias de Laboratorio

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Guias de Laboratorio

Transféré par

Droits d'auteur :

Formats disponibles

GUA DE LABORATORIO 1

TEMA: MUESTREO PROBABILSTICO

Muestreo Aleatorio Simple

Muestreo Aleatorio Sistemtico

Muestreo Aleatorio Estratificado

Todas las aplicaciones se realizarn en base al archivo de datos Employee data.sav,

Muestreo Aleatorio Simple

En seguida se muestra la siguiente ventana en la que usted puede solicitar al programa

Tambin puede solicitar al programa la seleccin de un nmero exacto de casos o

En esta seleccin se obtuvo una muestra en la que se ha seleccionado las observaciones

Si usted vuelve a solicitar un reporte de frecuencias para la variable catlab, observar

Cualquier anlisis que usted solicite se efectuar solamente sobre las 50

Las observaciones que no han sido seleccionadas no se han perdido,

Si desea reestablecer todo el archivo de datos debe hacer lo siguiente:

Observe que ahora ya no se encuentran tachados los nmeros correspondientes a cada

Muestreo Aleatorio Sistemtico

Luego, de los primeros 9 registros del archivo de datos seleccionaremos uno,

En nuestro caso se ha seleccionado como Punto de arranque el caso 7: A = X7

Ahora viene la parte ms importante para la seleccin automtica de los siguientes

Luego elegimos la opcin condicional para la seleccin de casos.

Al hacer picar en el botn S la op se mostrar la siguiente ventana, que ofrece una

Dentro del Grupo de funciones Aritmticas podemos encontrar la funcin Mod

Para subir la funcin elegida picamos en la flecha

Luego debemos indicar para cada signo de interrogacin lo que mostramos en el

Tenga en cuenta que:

Si id = 7 7 + (9 7) entre 9 si muestra resto CERO el registro 7 si ser

Si id = 447 447 + (9 7) entre 9 no muestra resto CERO el registro 447 no ser

Observe en el cuadro siguiente que el primer registro seleccionado corresponde al punto

Muestreo Aleatorio Estratificado

Para la conformacin de los estratos hacemos uso de la seleccin condicional:

Seleccionamos la variable catlab y la igualamos a 1 esto permitir seleccionar todos

Repetimos el procedimiento anterior para generar el segundo y tercer estrato que

Tenemos el estrato llamado Directivo conformado por 84 casos.

Ahora puede hacer uso de la tercera opcin de Resultados: Eliminar casos no

Observe que el archivo correspondiente a la muestra seleccionada del estrato de

No olvide elegir en Resultados la opcin de Eliminar casos no seleccionados. El

Solicite un reporte de frecuencias para este ltimo archivo

Este resultado confirma que la muestra ha sido seleccionada conforme se ha solicitado,

Intervalo de Confianza y Prueba de Hiptesis para la media poblacional ()

Intervalo de Confianza y Prueba de Hiptesis para la diferencia de medias

Intervalo de Confianza y Prueba de Hiptesis para la diferencia de medias

El SPSS facilita la obtencin de: intervalos de confianza, el valor calculado de la prueba

Razn de varianzas poblacionales

Diferencia de medias poblacionales

Diferencia de medias poblacionales

Intervalo de Confianza y Prueba de Hiptesis para la media

Analizar Comparar medias Prueba T para una muestra.

Los conductores metlicos o tubos huecos se usan en el cableado elctrico. En una

Suponga que el dimetro exterior se distribuye normalmente.

Como se puede apreciar el recuadro con el nombre Valor de prueba no se ha

Estimacin puntual de la media

Prueba para una muestra

90% Interv alo de

Lmite inferior de confianza de la media

Segn este resultado el intervalo de confianza para la media se encuentra en el rango de

b) Pruebe la hiptesis de que la longitud media del dimetro exterior es de 1,29

Las hiptesis a contrastar son:

Observe que en el recuadro Valor de prueba se ha digitado 1,29 es decir se ha

Estadsticos para una muestra

El criterio de decisin se basa

Por ejemplo si se quieren hacer las siguientes hiptesis

Sig = 0,615/2 = 0,3075

Sig = 1- 0,615/2 = 0,6925

Intervalo de Confianza y Prueba de Hiptesis para la diferencia de