Académique Documents
Professionnel Documents
Culture Documents
INTRODUCCIN ........................................................................................................ 0
INDICE ........................................................................................................................ 1
POBLACIN Y MUESTRA.......................................................................................... 3
Definiciones ............................................................................................................. 3
Poblacin ................................................................................................................. 4
Muestra .................................................................................................................... 5
Error de Muestreo .................................................................................................... 5
Ventajas del muestreo comparadas con el censo .................................................... 6
Tcnicas de Muestreo .............................................................................................. 7
CLASIFICACIN DE MUESTRAS .............................................................................. 7
Muestreo no probabilstico ....................................................................................... 7
Muestreo probabilstico ............................................................................................ 7
Tipos de muestreo ................................................................................................... 7
NIVEL DE CONFIANZA .............................................................................................. 8
INTERVALO DE CONFIANZA .................................................................................... 9
Intervalo de confianza para la media de una poblacin ........................................... 9
Intervalo de confianza para una proporcin ............................................................12
ERROR TIPO BETA ...................................................................................................12
ERROR TIPO ALFA ...................................................................................................13
ERROR ESTNDAR ..................................................................................................14
TEORA DE PEQUEAS MUESTRAS ......................................................................15
Grado de libertad ....................................................................................................16
Formular nuestra hiptesis nula ..............................................................................16
Hiptesis de investigacin .......................................................................................18
T DE STUDENT .........................................................................................................18
La tabla ...................................................................................................................20
ANLISIS DE LA VARIANZA .....................................................................................21
Bases del anlisis de la varianza ............................................................................21
SUMA DE CUADRADOS ...........................................................................................25
Tipo I .......................................................................................................................26
1
Tipo II. .....................................................................................................................26
Tipo III .....................................................................................................................27
Tipo IV.....................................................................................................................27
APUNTES EN CLASE ................................................................................................28
CONCLUSIN ...........................................................................................................53
BIBLIOGRAFIA ..........................................................................................................54
2
POBLACIN Y MUESTRA
Definiciones
"Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca
de los cuales intentamos sacar conclusiones". Levin & Rubin (1996).
3
Poblacin
Es el conjunto total de individuos, objetos o medidas que poseen algunas
caractersticas comunes obse
4
Muestra
Aleatoria: cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser
incluido.
Error de Muestreo
Cualquiera que lea encuestas en Internet o en los peridicos debe saber que los
errores de muestreo pueden influir enormemente en los datos y llevar a la gente a
sacar conclusiones incorrectas. El error muestral es la diferencia entre un estadstico
y su parmetro correspondiente.
Todo error lo es en relacin a algn patrn o punto de referencia. En el caso del error
muestral, el punto de referencia es la poblacin de la que se obtiene o saca la muestra.
5
Una manera de poder conocer el error muestral es realizar la encuesta, a la vez, en
la muestra y a toda la poblacin. Por ello cabe descartar, en la prctica, el conocimiento
de este error muestral real, porque al exigir realizar la encuesta a toda la poblacin y
no slo a la muestra, la muestra pierde su razn de ser.
6
Tcnicas de Muestreo
Al tomar varias muestras de una poblacin, las estadsticas que calculamos para cada muestra
no necesariamente seran iguales, y lo ms probable es que variaran de una muestra a otra.
CLASIFICACIN DE MUESTRAS
Muestreo no probabilstico
En este tipo de muestreo, puede haber clara influencia de la persona o personas que
seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad.
Salvo en situaciones muy concretas, en la que los errores cometidos no son grandes,
debido a la homogeneidad de la poblacin, en general no es un tipo de muestreo
riguroso y cientfico, dado que no todos los elementos de la poblacin pueden formar
parte de la muestra. Por ejemplo, si hacemos una encuesta telefnica por la maana,
las personas que no tienen telfono o que estn trabajando, no podrn formar parte
de la muestra.
Muestreo probabilstico
En este tipo de muestreo, todos los individuos de la poblacin pueden formar parte de la
muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de
muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y cientfico.
Tipos de muestreo
7
poblacin tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada
por muestreo de juicio se basa en la experiencia de alguien con la poblacin. Algunas veces
una muestra de juicio se usa como gua o muestra tentativa para decidir cmo tomar una
muestra aleatoria ms adelante. Las muestras de juicio evitan el anlisis estadstico necesario
para hacer muestras de probabilidad.
NIVEL DE CONFIANZA
Ejemplos
Para un nivel de confianza del 88%
1- = 0.88
= 0.12
/2 = 0.06
Z/ 2 = Z + 0.06 ; y se suma
P(Z Z 0.06) =0.94 + (1-/2)
Z(0.94)=1.56
8
=0.02
/2=0.01
Z / 2 = Z + 0.01
P(Z Z 0.01) =0.98 + (1-/2); Esto no es una ecuacin matemtica.
Z(0.99)=2.33 Para encontrar este valor recrrase a una tabla de Distribucin Normal
Estndar y, si es del caso, hacer interpolaciones.
INTERVALO DE CONFIANZA
En estadstica, se llama a un par o varios pares de nmeros entre los cuales se estima
que estar cierto valor desconocido con una determinada probabilidad de acierto.
Formalmente, estos nmeros determinan un intervalo, que se calcula a partir de datos
de una muestra, y el valor desconocido es un parmetro poblacional. La probabilidad
de xito en la estimacin se representa con 1 - y se denomina nivel de confianza. En
estas circunstancias, es el llamado error aleatorio o nivel de significacin, esto es,
una medida de las posibilidades de fallar en la estimacin mediante tal intervalo.1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un
intervalo ms amplio tendr ms probabilidad de acierto (mayor nivel de confianza),
mientras que para un intervalo ms pequeo, que ofrece una estimacin ms precisa,
aumenta su probabilidad de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer
la distribucin terica que sigue el parmetro a estimar, .2 Es habitual que el
parmetro presente una distribucin normal. Tambin pueden construirse intervalos
de confianza con la desigualdad de Chebyshev.
En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un
parmetro poblacional que sigue una determinada distribucin de probabilidad, es
una expresin del tipo [1, 2] tal que P[1 2] = 1 - , donde P es la funcin de
distribucin de probabilidad de .
9
expresin: . Esto se representa como sigue: .
10
As:
Aproximaciones para el valor para los niveles de confianza estndar son 1,96
para y 2,576 .6
11
Intervalo de confianza para una proporcin
El intervalo de confianza para estimar una proporcin p, conocida como una proporcin
muestral pn de una muestra de tamao n, a un nivel de confianza del (1-)100% es:
Por el contrario, un error de tipo beta (o error de segunda especie) sucede, cuando se
acepta una hiptesis nula que es falsa. El error de tipo II tambin llamado error de tipo
beta () o falso negativo, es el error que se comete cuando el investigador no rechaza
la hiptesis nula siendo sta falsa en la poblacin. Es equivalente a la probabilidad de
un resultado falso negativo, ya que el investigador llega a la conclusin de que ha sido
incapaz de encontrar una diferencia que existe en la realidad.
12
Contrariamente al error tipo I, en la mayora de los casos no es posible calcular la
probabilidad del error tipo II. La razn de esto se encuentra en la manera en que se
formulan las hiptesis en una prueba estadstica. Mientras que la hiptesis nula
representa siempre una afirmacin enrgica.
Los errores tipo I y tipo II estn relacionados. Una disminucin en la probabilidad de
uno por lo general tiene como resultado un aumento en la probabilidad del otro.
En un estudio de investigacin, el error beta, tambin llamado error tipo II, se comete
cuando el investigador no rechaza la hiptesis nula siendo sta falsa en la poblacin.
Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador
llega a la conclusin de que ha sido incapaz de encontrar una diferencia que existe en
la realidad.
Se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%.
El poder o potencia del estudio representa la probabilidad de observar en
la muestra una determinada diferencia o efecto, si existe en la poblacin. Es el
complementario del error beta (1-beta).
Comentario: En sentido estricto el tipo de error se llama Error tipo II"; beta no es un
error, sino la probabilidad de cometer ese error (error tipo II)
Se define como error de tipo alfa (o error de primera especie), aqul error que se
comete cuando se rechaza una hiptesis nula que es verdadera. Por el contrario, un
error de tipo beta (o error de segunda especie) sucede, cuando se acepta una hiptesis
nula que es falsa.
Un ejemplo de error de tipo alfa se aprecia cuando se rechaza una muestra que se
encuentra dentro de los lmites de tolerancia aceptado. Un ejemplo de error de tipo
beta sera lo contrario, se acepta una muestra que en realidad est fuera de los lmites
de tolerancia.
Hay que destacar que resulta ms trascendente el error de tipo alfa que el error de tipo
beta, puesto que rechazar una hiptesis que resulta ser cierta tiene mayores efectos
que aceptar una hiptesis que realmente sea falsa.
Por lo tanto, se define una hiptesis alternativa, y que es aqulla que establece la
presencia de diferencias entre valores de los parmetros medidos.
Para entender mejor este concepto, supongamos un conjunto de muestras
provenientes de un mineral, cuyo valor medio es del 0,04 % de potasio. Aqu existen
dos posibilidades:
13
a) Si analizamos blancos como muestras desconocidas, y asumimos que existe un
error tipo alfa = 0,023 de rechazar la hiptesis cuando en realidad es cierta, entonces,
de cada 1000 medidas obtendramos 23 cuyo valor sera igual o superior a 0,04 %, O
sea, errneamente supondramos que de cada 1000 muestras, 23 contendran potasio.
Este error conocido como tipo alfa, se le conoce tambin como nivel de significancia.
Alfa, es la probabilidad de rechazar una hiptesis nula cuando en realidad es cierta.
b) Pongamos como ejemplo, que queramos determinar el contenido de potasio en una
muestra mineral. Si aceptamos que bajo 0,04 % no existe potasio, y el contenido medio
de una sustancia es del 0,04 %, entonces, el 50 % de este set de resultados,
considerando un comportamiento normal, se rechazara aunque contuviera el analito.
En el grfico apreciamos este error como tipo beta (se acepta una hiptesis que resulta
ser falsa).
ERROR ESTNDAR
.
El error estndar de la proporcin es:
14
El error estndar de la diferencia de medias es:
.
El error estndar de la diferencia de proporciones es:
En esta unidad se ver un nuevo concepto necesario para poder utilizar a las
tres distribuciones mencionadas. Este concepto es "grados de libertad".
15
Grado de libertad
Esta frmula est basada en n-1 grados de libertad (degrees of freedom). Esta
terminologa resulta del hecho de que si bien s2 est basada
en n cantidades ..., stas suman cero, as que especificar los
valores de cualquier n-1 de las cantidades determina el valor restante. Por ejemplo,
si n=4 y
16
Ejemplos
Un investigador puede postular una hiptesis:
H1: las plantas de tomate exhiben una mayor tasa de crecimiento cuando se plantan
en compost en lugar del suelo.
Y una hiptesis nula:
H0: las plantas de tomate no presentan una mayor tasa de crecimiento cuando se
plantan en el compost en lugar del suelo.
Es importante seleccionar cuidadosamente el texto de la nula y asegurarse de que sea
lo ms especfico posible. Por ejemplo, el investigador puede postular una hiptesis
nula:
H0: las plantas de tomate no muestran ninguna diferencia en sus tasas de crecimiento
cuando se plantan en compost en lugar del suelo.
Hay un gran defecto con esta H0. Si las plantas realmente crecen ms lentamente en
el compost que en el suelo, se llega a un callejn sin salida. H1 no est respaldada y
tampoco la H0, ya que existe una diferencia en las tasas de crecimiento.
Si se rechaza la hiptesis nula y no hay otra opcin, el experimento puede ser invlido.
Por esta razn, la ciencia utiliza una serie de procesos deductivos e inductivos para
asegurar que no existan errores en las hiptesis.
17
Hiptesis de investigacin
T DE STUDENT
18
simtrico en torno a la media. Con estos datos se obtiene unas probabilidades
(clculos aproximados) que se muestran. A1 representa el rea de la zona central y
A2 es el rea de las dos colas de los extremos. La suma de ambas reas es 1.
Si consideramos esos mismos extremos del intervalo en el caso de una distribucin
normal estndar comprobamos que la probabilidad de la zona central (A1) es mayor
para la distribucin normal que para la t de Student. Si el parmetro grados de libertad
es grande la diferencia es pequea.
Partiendo de un intervalo podemos obtener una probabilidad en una distribucin t de
Student. Nos podemos plantear el tamao del intervalo que barre la misma rea bajo
la campana de Gauss. El extremo positivo del intervalo se calcula y se muestra en "x1
Normal". El segmento dibujado de color naranja debajo de las grficas representa ese
intervalo que es de menor amplitud que el correspondiente de la t de Student. Podemos
ver cmo si el parmetro grados de libertad es suficientemente grande la diferencia
entre ambos intervalos es pequea.
Donde:
19
Para el clculo de esta integral existen distintos tipos de Tabla de distribucin t de
Student, en la que para distintos valores de n y de x se puede buscar su probabilidad
acumulada p, veamos una de esas tablas.
La tabla
En esta tabla hay dos entradas, en la fila superior estn los valores de n para los que
se ha calculado la probabilidad, en la columna de la izquierda los de x, para x igual o
mayor que cero, en incrementos de 0,05, para cada valor de n y de la x correspondiente
tenemos la probabilidad acumulada, expresada con tres cifras decimales.
20
ANLISIS DE LA VARIANZA
21
error y se representa por SSE y al denominador grados de libertad por ser los trminos
independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las
distintas muestras), o varianza de los tratamientos, o cuadrados medios de los
tratamientos y representada por MSA o MSB(Mean Square Between). Se calcula a
partir de la varianza de las medias muestrales y es tambin un cociente; al numerador
se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al
denominador (k-1) grados de libertad.
MSA y MSE, estiman la varianza poblacional en la hiptesis de que las k muestras
provengan de la misma poblacin. La distribucin muestral del cociente de dos
estimaciones independientes de la varianza de una poblacin normal es una F con los
grados de libertad correspondientes al numerador y denominador respectivamente,
por lo tanto se puede contrastar dicha hiptesis usando esa distribucin.
Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la
misma varianza, se puede rechazar la hiptesis de que las k medias provengan de una
misma poblacin.
Aceptando que las muestras provengan de poblaciones con la misma varianza, este
rechazo implica que las medias poblacionales son distintas, de modo que con un nico
contraste se contrasta la igualdad de k medias.
Existe una tercera manera de estimar la varianza de la poblacin, aunque no es
independiente de las anteriores. Si se consideran las kn observaciones como una
nica muestra, su varianza muestral tambin es un estimador centrado de s2:
Se suele representar por MST, se le denomina varianza total o cuadrados medios
totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y
se representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:
22
Ejemplos
Con los datos de la encuesta sobre transporte, Enctrans. sav, razonar si puede
aceptarse que el tipo de transporte utilizado, Trans, influye sobre la variable tiempo.
Con la opcin de men Grficos > Barras de error > Simple y con el botn Definir se
selecciona como Variable Tiempo y en Eje de categoras la variable Trans; al aceptar
se obtiene la siguiente representacin grfica:
Como puede observarse, los puntos que representan a las medias de cada grupo
aparecen dispersos a diferentes niveles; sobre todo la media del grupo definido por el
factor Tren. El intervalo de confianza para la media correspondiente al grupo definido
por el factor Metro est contenido dentro del intervalo correspondiente al grupo definido
por el factor Bus, as como, el intervalo correspondiente al factor Coche est contenido
dentro de los intervalos correspondientes definidos por los factores Metro y Otros. El
grfico, por tanto, parece sugerir no una nica poblacin sino tres poblaciones con
distintas medias.
Para realizar el anlisis de la varianza propiamente dicho la secuencia es Analizar >
Comparar medias > ANOVA de un factor. En el cuadro de dilogo se selecciona
Tiempo como variable Dependiente y Trans como Factor. Para contrastar la hiptesis
23
de igualdad de varianzas se abre con el botn correspondiente el cuadro de
dilogo ANOVA de un factor: Opciones y se activa Homogeneidad de varianzas. Si se
desea un anlisis descriptivo del comportamiento de la variable dependiente dentro de
cada grupo se activa tambin la opcin Descriptivos. Al aceptar se obtienen los
siguientes cuadros de resultados:
24
En el cuadro de resultados del ANOVA, el valor del estadstico de prueba, F=6,450, es
significativamente distinto de 1 para cualquier nivel de significacin y, por lo tanto, se
rechaza la hiptesis nula de igualdad de medias y queda confirmada la primera
impresin proporcionada por el grfico de barras de error.
SUMA DE CUADRADOS
25
Para el modelo, puede elegir un tipo de suma de cuadrados. El Tipo III es el ms
utilizado y es el tipo predeterminado.
Tipo I.
Tipo II.
Este mtodo calcula cada suma de cuadrados del modelo considerando slo los
efectos pertinentes. Un efecto pertinente es el que corresponde a todos los efectos
que no contienen el que se est examinando. El mtodo de suma de cuadrados de
Tipo II se utiliza normalmente para:
Un modelo ANOVA equilibrado.
Cualquier modelo que slo tenga efectos de factor principal.
Cualquier modelo de regresin.
Un diseo puramente anidado (esta forma de anidamiento solamente puede
especificarse utilizando la sintaxis).
26
Tipo III.
Tipo IV.
Este mtodo est diseado para una situacin en la que hay casillas perdidas. Para
cualquier efecto F en el diseo, si F no est contenida en cualquier otro efecto,
entonces Tipo IV = Tipo III = Tipo II. Cuando F est contenida en otros efectos, el Tipo
IV distribuye equitativamente los contrastes que se realizan entre los parmetros
en F a todos los efectos de nivel superior. El mtodo de suma de cuadrados de Tipo I
se utiliza normalmente para:
Cualquiera de los modelos que aparecen en los tipos I y II.
Cualquier modelo equilibrado o no equilibrado con casillas vacas.
27
APUNTES EN CLASE
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
CONCLUSIN
53
BIBLIOGRAFIA
Digital
http://metodologiaeninvestigacion.blogspot.com/2010/07/poblacion-y-muestra.html
https://es.wikipedia.org/wiki/Nivel_de_confianza
https://es.wikipedia.org/wiki/Intervalo_de_confianza
http://www.geocities.ws/maag111063/calidad36.html
http://enciclopedia.us.es/index.php/Error_beta
https://explorable.com/es/hipotesis-nula
https://explorable.com/es/hipotesis-de-investigacion
http://www.matematicasvisuales.com/html/probabilidad/varaleat/tstudentprob.html
https://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Distribuci%C3%B3n_t_de_
Student
http://www.hrc.es/bioest/Anova_2.html
http://www.ub.edu/aplica_infor/spss/cap4-7.htm
http://html.rincondelvago.com/suma-de-cuadrados.html
http://www.edukanda.es/mediatecaweb/data/zip/940/page_07.htm
http://www.ub.edu/dppss/pg/gidcav/unitat1/mueserromu1.htm
54