Académique Documents
Professionnel Documents
Culture Documents
Estadstica - Bioestadstica
32
32
FECHAS
1
2
Sbado 02 y Domingo 03
Junio 2012
Sbado 16 y Domingo 17
Junio 2012
HORARIO
08h00 a 18h00
08h00 a 18h00
022-435-825, 099-319-366
6. AGENDA DE TRABAJO
Primer da
CONTENIDOS
HORAS
08h00 a 09h30
(1 hora, 30
minutos)
09h30 a 13h00
(3 hora, 30
minutos)
RECESO
13h00 a 14h00
(1 hora)
14h00 a 18h00
(4 horas)
Segundo da
HORAS
08h00 a 09h00
(1 hora)
09h00 a 11h00
(2 horas)
11h00 a 13h00
(2 horas)
RECESO
13h00 a 14h00
(1 hora)
Tercer da
Sbado 16 de
HORAS
Evaluacin
de
orientacin:
Revisin
de
Junio 2012
individuales y grupales
(30 minutos)
10h00 a 12h00
(2 horas)
12h00 a 13h00
(1 hora)
RECESO
13h00 a 14h00
(1 hora)
15h00 a 18h00
(3 horas)
Cuarto da
HORAS
08h00 a 09h00
(1 hora)
13h00 a 14h00
(1 hora)
14h00 a 16h00
(2 horas)
16h00 a 18h00
(2 horas)
7. METODOLOGA
La metodologa estar basada en principios andraggicos con enfoque al
desarrollo de competencias en los tres niveles: cognitivo, procedimental y
actitudinal.
-
Trabajos grupales:
Trabajos individuales:
Pruebas parciales:
Trabajo final:
2 puntos
2 puntos
4 puntos
2 puntos
9. BIBLIOGRAFIA
Objetivo del tema a estudiar: Identificar los conceptos bsicos que definen a la Estadstica, el
proceso estadstico y su vinculacin con la investigacin cientfica:
Temas a tratar: El proceso estadstico: Parmetro, poblacin, muestra, estadstico, tipos de
datos. La Estadstica Descriptiva e Inferencial respecto al proceso estadstico
1. Qu es La Estadstica?
Es la ciencia que estudia la ordenacin y anlisis de datos muestrales y de las inferencias que
se puedan realizar sobre la poblacin.
La Estadstica se suele dividir en las siguientes reas de estudio:
- Estadstica Descriptiva: Es el estudio de la informacin obtenida a partir de un
conjunto de datos
- Probabilidades: Es el estudio de la incertidumbre y el comportamiento de los datos
- Estadstica Inferencial: Es el estudio de las comprobaciones de hiptesis y de los
comportamientos muestrales
IDEA: Para entender como funciona la Estadstica es necesario conocer El Proceso
Estadstico
2. PROCESO ESTADSTICO:
Poblacin (Parmetro)
Muestra
Estadstico
Estimador
muestral
IDEA: El parmetro es quien determina el tipo de dato que debemos utilizar. Por lo general: Si
queremos estimar , se utilizan datos numricos; Si utilizamos datos categricos, por lo
general se trata de estimar .
Estos datos, se obtienen a partir de las muestras, y deben ser organizados, resumidos,
representados grficamente y se debe sistematizar toda su informacin. Las tcnicas que se
utilizan para este proceso provienen de la Estadstica Descriptiva
Pregunta 3: Es la informacin obtenida en una muestra igual a la informacin que
representa a toda la poblacin? La respuesta es NO. Porque no sabemos que tan confiable
es la muestra. La diferencia entre lo que nos dice la muestra y el valor real de la poblacin, es
lo que se conoce como Error Muestral.
Se puede decir que La Estadstica es la ciencia de la incertidumbre, eso significa que nunca
estaremos 100% seguros de nuestros resultados (a menos que trabajemos con toda la
poblacin). Pero la estadstica nos permite acercarnos al valor real de la poblacin, utilizando
tcnicas que aumentan la confiabilidad de los resultados, tomando en cuenta el
comportamiento de los datos de la poblacin.
Pregunta 4: Qu implica conocer el comportamiento de los datos de la poblacin?
Desde el punto de la estadstica, significa determinar que tan probable es haber obtenido la
informacin de la muestra. Las tcnicas para estudiar el comportamiento de una poblacin
provienen de las Probabilidades
Pregunta 5: Si todas las muestras tienen errores, como podemos determinar el
parmetro? Calculando los estadsticos muestrales (con estadstica descriptiva), conociendo el
comportamiento de la poblacin (asignando probabilidades) y controlando los errores
muestrales, podemos estimar o aproximarnos al valor real del parmetro. Las tcnicas para
controlar los errores muestrales y estimar parmetros poblacionales a partir de los estadsticos,
es el objeto de estudio de la Inferencia Estadstica
IDEA: Para un correcto anlisis e interpretacin de resultados, es necesario que en todo
proceso de investigacin se identifiquen todos los elementos del proceso estadstico:
Poblacin, parmetro, muestra, estadstico y tipo de dato utilizado
IDEA: Las clases se construyen en relacin a los tems desarrollados en los instrumentos de
recoleccin de informacin (preguntas abiertas, cerradas de encuestas, entrevistas, guas, etc.)
PASOS PARA CONSTRUIR UNA TABLA DE FRECUENCIA PARA VARIABLES
NUMERICAS:
1. Identificar el nmero de clases a construir (nc)
2. Identificar el tamao de la muestra n, y calcular el Mximo y el Mnimo.
3. Calcular el Rango R = max min
4. Calcular el Intervalo de clase IC = R / nc
5. Construir los lmites inferiores de clase:
a. Limite inferior de la 1ra clase = Mnimo
b. Limite de la clase siguiente = Limite de la clase anterior + IC
6. Los limites superiores se calculan tomando en cuenta que los lmites superior e
inferior no se superpongan
7. Para cada clase, se calculan las:
Frecuencias absolutas: Contabilizan el nmero de datos en cada clase
Frecuencias relativas (porcentajes): Idem, pero dividido por el tamao
muestral (n)
Frecuencias acumuladas: Se va acumulando el resultado de la clase actual y
todas las anteriores. Puede acumularse la frecuencia absoluta o la frecuencia
relativa
Lim. Inf.
Min
Min + IC
Min + 2 IC
.
Lim. Sup
Frec. Abs
Max (aprox)
F1
F2
F3
.
F1
F1 + F2
F1 + F2 + F3
..
%1 = F1/n
%2 = F2/n
%3 = F3/n
..
%1
%1 + %2
%1 + %2 + %3
suma = n
Suma= 100%
IDEA: Las clases en variables categricas estn determinadas por las mismas categoras. No
se calculan limites, pero si las frecuencias
Qu informacin nos dan las frecuencias?
- Las frecuencias absolutas: nos indica cuantos datos pertenecen a cada clase e permite
identificar las clases ms relevantes
- Las frecuencias relativas: expresan en % la composicin de la muestra por clases, y
comparar informacin entre clases
- Las frecuencias acumuladas: permiten observar la acumulacin desde la primera clase.
Es muy buena para observar tendencias de acumulacin. (Principio de Pareto)
10
11
Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a
*TODA* la poblacin, calculamos un estimador sobre una muestra y confiamos en que sean
prximos (Nunca son iguales debido al error muestral). Ms adelante veremos como elegir
muestras para que el error sea confiablemente pequeo.
Qu informacin podemos obtener de una muestra?
12
X
i
Mediana: Tambin conocida como percentil 50, es el valor en cual el 50% de los datos
estn bajo ella y el otro 50% estn sobre ella. Su posicin se encuentra con la frmula:
Posicin Mediana = (n+1) / 2
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a valores
extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
13
Altura mediana
IDEA: Para identificar los datos atpicos, podemos guiarnos por alguna tcnica grfica
desarrollada en el tema anterior o utilizando las medidas de dispersin.
3. MEDIDAS DE DISPERSIN:
3.1. FUENTES DE VARIABILIDAD tiene mas peso que el promedio
Los estudiantes de Odontologa reciben diferentes calificaciones en la asignatura de Anatoma
(variabilidad).
A qu puede deberse? Diferencias individuales en el conocimiento de la materia.
Podra haber otras razones (fuentes de variabilidad)?
Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. Las
notas seran las mismas en todos? Seguramente No.
Dormir poco el da del examen, el desayuno estaba envenenado!!!!....
Diferencias individuales en la habilidad para hacer un examen.
El examen no es una medida perfecta del conocimiento.
Variabilidad por error de medida.
14
En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la mala
Variabilidad por azar, aleatoriedad.
Las medidas de dispersin miden la variabilidad, independientemente de su causa.
3.2. MEDIDAS DE DISPERSIN EN UNA MUESTRA
IDEA: Con estos valores tratamos de estimar el parmetro (sigma) que es la desviacin
estndar de la poblacin, que es una medida de cmo se agrupan los datos de la poblacin
respecto a su media .
Entre las medidas de dispersin muestrales tenemos:
1. R = Rango = Mximo Mnimo
2. S2 = Varianza
X X
n 1
X X
n 1
La varianza se puede entender como el promedio del cuadrado de las distancias de cada
observacin respecto al promedio, y sus unidades estn siempre al cuadrado. La desviacin
estndar o tpica es igual a la raz cuadrada de la varianza, es siempre un valor positivo, y su
unidad de medida es la misma que corresponde a los datos originales.
Para tener una nocin de lo que representa una desviacin estndar en relacin a las
observaciones, se puede comprobar que el intervalo, que va desde la media mas/menos 2
desviaciones estndar, contiene al menos el 90% de los datos. Por tanto, los valores que no
estn dentro de este intervalo se pueden considerar como valores atpicos.
A mayor dispersin de los datos, mayor varianza y por lo tanto menor confiabilidad.
Homocedasticidad significa que las varianzas entre grupos deben ser iguales.
NOTA IMPORTANTE: Las medidas de tendencia central y de dispersin son diferentes si se
trata de una muestra (estadsticos) o de una poblacin (parmetros) (*Tema de consulta)
Adicionalmente se pueden calcular las medidas de posicin y de forma (curtosis,
cuartiles, etc) Estas medidas se pueden calcular directamente en Excel.
VER HOJA DE TAREA UNO
15
BAJO
MEDIO
ALTO
TOTAL
F. ABS
F. REL
469
46,9%
467
46,7%
64
6,4%
1000
100 %
16
IDEA: Una forma de identificar un suceso es preguntndose de cuantas formas puede ocurrir
dicho suceso
4. TIPOS DE PROBABILIDADES
Los diferentes tipos de probabilidades dependen respecto a que conjunto estamos midiendo:
IDEA: Para entender los conceptos y aplicacin de las probabilidades, es preferible usar
Tablas de Contingencia
17
Frecuencia
s
PESO (A)
EXCELENTE
INSUFICIENT
E
REGULAR
Total general
16
38
1
6
15
10
40
100
6
26
Como podemos observar, en una tabla de contingencia, se tienen las frecuencias absolutas
(por conteo) de cuantos de los 100 bebs analizados pertenecen a cada categora (cruce de la
tabla)
Hay que observar que existe varia informacin a considerar, por ejemplo:
- De los 100 bebs, 50 tienen peso excelente (Total por fila)
- De los 100 bebs, 15 tienen sus padres nivel acadmico secundaria (Total por
columna)
- De los 100 bebs, 8 tienen peso excelente Y tienen sus padres nivel acadmico
secundaria (valor cruce fila columna respecto al total general)
- De los 50 bebs que tienen peso excelente, 8 tienen sus padres nivel acadmico
secundaria (valor cruce fila-columna, respecto al total de Fila)
Pueden establecer en este punto, la diferencia entre cada tipo de informacin?
IDEA: Si queremos analizar la informacin de una sola variable, utilizamos tablas de
distribucin de frecuencia, para analizar dos variables (cruce de datos) utilizamos tablas de
contingencia
IDEA: Estas tablas son muy fciles de construir utilizando el comando Tablas dinmicas de
Microsoft Excel
Probabilidad
es
PESO
ACADEMIC
O
ANALFABET
O
PRIMARIA
SECUNDARI
A
SUPERIOR
Total
general
18
EXCELENTE
INSUFICIENT
E
REGULAR
Total general
0.00%
22.00%
8.00%
20.00%
50.00%
9.00%
12.00%
21.00%
0.00%
16.00%
38.00%
1.00%
6.00%
15.00%
0.00%
6.00%
26.00%
10.00%
40.00%
100.00%
El 50% del total de bebs, tienen peso excelente (probabilidad marginal por fila)
El 15% del total de bebs, tienen sus padres nivel acadmico secundaria
(probabilidad marginal por columna)
El 8% del total de bebs, tienen peso excelente Y tienen sus padres nivel acadmico
secundaria (probabilidad conjunta de interseccin de fila y columna)
Probabilidad
es
PESO
EXCELENTE
INSUFICIENT
E
REGULAR
Total general
ACADEMIC
O
ANALFABET
SECUNDARI
Total
O
PRIMARIA
A
SUPERIOR
general
0.00%
44.00%
16.00%
40.00%
100.00%
90.00%
30.00%
21.00%
0.00%
40.00%
38.00%
10.00%
15.00%
15.00%
0.00%
15.00%
26.00%
100.00%
100.00%
100.00%
El 16% de los bebs con peso excelente, tienen a sus padres con nivel acadmico
secundaria (probabilidad condicional de columna, dada la fila)
Ntese la diferencia entre la tabla anterior y al actual: Qu valor corresponde a nuestro 100%
de anlisis en cada caso?
IDEA: Cuando sucede un evento cuyas probabilidades de ocurrencia son muy bajas
(usualmente menores al 10%) se suele decir que es un evento ESTADISTICAMENTE
SIGNIFICATIVO.. (Tan poco probable Y sin embargo, ocurri!!!!)
Finalmente, cuando se realice un anlisis de porcentajes (probabilidades), siempre hay que
analizar respecto a que grupo se est calculando dicho valor (es decir, si se trata de una
probabilidad marginal, conjunta o condicional)
19
0 P(X = xi) 1;
P(X = xi) = 1
2. DISTRIBUCIONES DISCRETAS
Las distribuciones discretas se presentan en variables discretas. Existen varias distribuciones
de probabilidad, las que vamos a analizar son: Binomial, Hipergeomtrica y de Poisson.
2.1. DISTRIBUCION BINOMIAL
La distribucin binomial, surge de analizar el siguiente suceso: De una poblacin, donde el
porcentaje de xito es conocido, se toma una muestra de n datos, cul es la probabilidad de
que en dicha muestra encuentre x de xitos?
20
DISTRIBUCIN BINOMIAL
P(x) =
n!
x! ( n x )!
(1-
n-x
Donde:
n es el nmero de ensayos.
x es el nmero de xitos
Es la probabilidad del xito en cada ensayo.
Observe que utilizamos la letra griega para denotar un parmetro de una poblacin. No debe
confundirse con la constante matemtica igual a 3.1416.
La distribucin binomial, tiene como media a = n , y su varianza es = n (1 - )
IDEA: Para facilitar el clculo de estas distribuciones se utilizan las Combinaciones: nCr
Ejemplo en clase: Se supone que la tasa de reaccin a una nueva vacuna es del 30% Cul
es la probabilidad de que al aplicar la vacuna en 20 pacientes, 13 de ellos presente alguna
reaccin? Si el porcentaje del 30% se cumpliera, a cuantos se esperara que presenten
alguna reaccin?
3. DISTRIBUCIONES CONTINUAS
Cuando la variable en estudio proviene de un proceso de medicin, es decir, en variables
continuas. Puede tomar infinitos valores y depende del instrumento de medicin. Ejm:
Distribucin Uniforme, Exponencial, Normal.
Por sus aplicaciones estadsticas, estudiaremos la Distribucin Normal, que representa la base
de toda la Inferencia Estadstica.
21
Densidad de Probabilidad
0,15
0,10
0,05
0,00
1
10 11 12 13 14 15 16
Variable Aleatoria X
El rea total debajo de la curva es igual a 1. El rea debajo de la curva comprendida entre -
y + es aproximadamente igual a 0,68 del rea total; entre -2 y +2 es aproximadamente
igual a 0,95 del rea total:
Grfico de la Distribucin Normal
Densidad de Probabilidad
0,25
0,20
0,15
68 % rea
0,10
0,05
295 % rea
0,00
1
10
11
12
13
14
15
16
Variable Aleatoria X
22
Es importante ver que los nicos parmetros necesarios para dibujar el grfico de la
distribucin normal son la Media y desviacin standard de la poblacin. Con estos dos
parmetros sabemos donde situar la campana de Gauss (En el punto correspondiente a la
media) y cual es su ancho (Determinado por la desviacin standard).
La Distribucin normal estndar.
x
,
Sea Z =
Densidad de Probabilidad
0,45
0,40
0,35
=0
= 1
0,30
0,25
0,20
= 15
= 2,5
Cambio de
variable
0,15
0,10
0,05
0,00
-5 -4 -3 -2 -1 0
1 2
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Variables Aleatorias X y Z
El cambio de variable hace que se conserve la forma de la funcin y que sirva para cualquier
poblacin, siempre y cuando esa poblacin tenga una distribucin normal. Cuando queremos
calcular las probabilidades para una poblacin real, calculamos Z y entramos en la tabla de la
funcin normal standard: (ver tabla Z)
Grfico de la Distribucin Normal Standard
Densidad de Probabilidad
0,50
0,45
0,40
Probabilidad de que Z
sea mayor o igual a 1,2
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-4
-3
-2
-1
Variable Aleatoria Z
23
Poblacin (Parmetro)
Muestra
Estadstico
Estimador
muestral
IDEA: A partir de este momento, no trabajamos con valores individuales de la poblacin, sino
con MUESTRAS. Es decir, con los estadsticos muestrales
Los estadsticos muestrales sirven para estimar o acercarnos al valor del parmetro, pero
siempre hay que recordar que el estadstico representa a una muestra de n datos.
PARAMETRO
Media
Poblacional
Varianza
Poblacional
Desviacin
Poblacional
Proporcin
Poblacional
SIMBOLO
FORMULA
X
i
ESTADISTICO
Promedio
Muestral
X
N
SIMBOLO
X
Varianza
Muestral
Desviacin
estndar
muestral
Proporcin
muestral
FORMULA
X
i
X X
n 1
s2
x
n
24
3. APLICACIONES
POBLACIONALES
DEL T.L.C.
PARA MEDIAS
Y PROPORCIONES
x
,
cualquier
Si tomamos una muestra de dicha poblacin, donde n>30, y calculamos su promedio muestral
X-
X , entonces, para calcular las probabilidades respecto a este estadstico sera: Z =
IDEA: Ntese que la frmula anterior cumple todas las caractersticas del TLC, pero tiene
condiciones para ser utilizadas. Ms abajo se tiene un resumen de las condiciones del TLC
La frmula anterior sirve en el caso de medias poblacionales, cuando se tienen muestras
grandes (n >30). La otra pregunta es, qu pasa si n < 30? Simplemente, en lugar de utilizar
la distribucin Z, debemos utilizar otra distribucin llamada t o de Student, la cual la veremos
ms adelante (en el estudio de muestras pequeas). El uso de T implica adems algunas
suposiciones de ndole estadsticas adicionales que deben ser verificadas
En el caso de proporciones poblacionales, tambin se puede aplicar el TLC con sus respectivas
condiciones sobre la frmula de Z
PARAMETRO
Media
Poblacional
(Muestra
Grande)
Media
Poblacional
(Muestra
pequea)
Proporcin
Poblacional
SIMBOLO
T.L.C.
X-
Z =
X-
T = s
p
Z = (1 )
CONDICIONES DE USO
n mayor o igual a 30.
Si no se conoce , se
puede reemplazar por el
estadstico s
n menor a 30
Siempre se debe suponer que
la poblacin es normal ???
Solo se utiliza s
Al menos 5 xitos y 5 fracasos
en la muestra
25
LIC
LSC
Observ que el ancho del intervalo de confianza, nos da una medida del error muestral del
estadstico respecto al parmetro.
T.L.C.
Clculo de las
distribuciones
El valor 1 ( / 2) se
busca en la tabla Z
X T
p Z
p (1 p )
CONDICIONES DE USO
n mayor o igual a 30.
Si no se conoce , se
puede reemplazar por el
estadstico s
n menor a 30
Siempre se debe suponer
que la poblacin es normal
Solo se utiliza s
Al menos 5 xitos y 5
fracasos en la muestra
26
1. INTRODUCCION AL MUESTREO
Si en una investigacin se pudiera abarcar a todos los miembros de una poblacin, la toma de
muestras sera innecesaria, as como los clculos estadsticos de probabilidades para estimar
el grado de representatividad de dicha muestra no tendran sentido, puesto que los atributos
cuantitativos encontrados (si se ha medido bien) al grupo observado sera la poblacin misma.
Tambin habra que considerar si vale la pena tomarse la molestia de extraer una muestra
significativa con procedimientos tcnicamente correctos y rigurosos, cuando la investigacin es
slo un estudio preliminar o exploratorio, cuya metodologa es incierta o bien los instrumentos
de observacin se encuentran en etapas de ensayo y validacin. Todas las etapas del estudio
deberan tener un grado o nivel de rigurosidad similar.
Una buena cantidad de experiencias e investigaciones han eludido el problema de la toma de
muestras con mucho ingenio. Por ejemplo, al comparar dos grupos cursos con caractersticas
similares, a los cuales se les va a aplicar dos metodologas pedaggicas diferentes para
demostrar la efectividad de una de ellas. Los estudiantes podran ser distribuidos en ambos
cursos por una tcnica de pareo .Tambin, es posible realizar un sorteo con una tabla de
nmeros aleatorios (o generando muestras a travs de Excel)
Jean Piaget y su escuela de Ginebra realizaron numerosas investigaciones sobre el desarrollo
psicolgico de los nios, utilizando muestras escogidas o muestras arbitrarias de pocos nios.
Ellos partan de ciertos postulados (principios aceptados que no requieren demostracin) sobre
la uniformidad del desarrollo y de la maduracin biolgica y psicolgica de los seres humanos.
Otro caso, sera el de un inspector sanitario que toma pequeas muestras del agua de una
piscina, para analizar su composicin qumica y la contaminacin bacteriolgica que pudiera
tener el contenido de la alberca; aqu se postula que la solucin del agua es homognea en
toda la piscina.
El muestreo utilizado, as como las forma de delimitar la poblacin objetivo, determinan el valor
de las generalizaciones que se pueden extraer de la muestra escogida.
27
2. MUESTREOS PROBABILISTICOS
A) MUESTRAS ALEATORIAS SIMPLES.
Constituyen la base para los diferentes procedimientos de muestreo aleatorio.
Sus Principales ventajas son:
* Ms econmica que otros procedimientos aleatorios;
* Asegura la equiprobabilidad de la eleccin.
Desventajas:
* No provee suficientes casos de grupos minoritarios.
28
TAMAO MUESTRAL
Media Poblacional
N 2
E2
n=
2
( N 1)
4
Proporcin Poblacional
N pq
2
n = ( N 1) E ( p q )
4
CONDICIONES
N = Tamao poblacional
2 = Varianza poblacional (se
estima de una muestra piloto)
E = mximo error muestral
asignado
p = estimacin de la
proporcin poblacional de
una muestra piloto, o 50%
q = 1 p (probabilidad de
fracaso)
B) MUESTRAS ESTRATIFICADAS
Pueden ser convenientes cuando en la poblacin blanco se presentan categoras o
subconjuntos de individuos que representen un inters particular de observar y
compararlas con otras categoras.
En este caso, su ventaja es: Lograr una muestra ms homognea.
Los criterios para establecer estratos pueden ser las variables: sexo, edad, profesin,
nivel educacional, nivel socioeconmico, nacionalidad, religin, etc.
La investigacin que requiera este tipo de muestra, deber definir los estratos
correspondientes y justificar en el proyecto sus bases de comparacin.
C) MUESTRAS POR CONGLOMERADO.
Se utilizan cuando los individuos constituyen agrupaciones naturales, por ejemplo los
alumnos del mismo curso, las familias nucleares, etc. En este caso, la unidad de
muestreo no es el individuo, sino el conglomerado. Los pasos a seguir ahora, son los
mismos que el grupo anterior; obteniendo un listado de los conglomerados, etc.
Entre sus ventajas se destacan:
* Son ms econmicas y rpidas que el procedimiento anterior, facilitando el trabajo de
los investigadores de campo;
Como desventaja:
* Pueden tener cierta prdida del carcter aleatorio del procedimiento y
* Disminucin de la precisin de sus resultados.
29
Esta ltima crtica pierde fuerza si el nmero de conglomerados es mayor que 30.
3. MUESTREOS NO PROBABILISTICOS
A) MUESTRAS ERRTICAS O CASUALES
Por ejemplo, las personas que van saliendo de la biblioteca o del casino a la hora que
aparece el encuestador. Esta es una tcnica tpica de reporteros de prensa y TV, como
ejemplo las encuestas a boca de urna. Tambin es utilizada por algunas agencias de
publicidad y de estudios de mercado. Tcnicamente es incorrecto hacer
generalizaciones a un grupo mayor que el de los mismos entrevistados (problema de
validez externa).
Ventajas (si las tiene):
* De bajo costo y no requieren de personal entrenado;
* Se sacan conclusiones rpidamente.
Desventajas:
* Carencia de validez externa y confiabilidad;
* Presenta sesgos de muestreo por criterios arbitrarios de seleccin de los sujetos
(aunque el entrevistador no los advierta).
B) MUESTRAS INTENCIONADAS O RACIONALES
En este caso se selecciona a los sujetos de acuerdo a un criterio establecido por un
experto. Por ejemplo, los estudiantes que tienen problemas de aprendizaje, o aquellos
que demuestran ausentismo escolar elevado.
Ventajas:
* Rpida y de bajo costo,
* Tiene una validez relativa para estudios de caso;
* Es muy til para estudios exploratorios,
* Para la optimizacin de instrumentos de observacin,
* Para ampliar el marco terico y la formulacin de hiptesis.
Desventajas:
* Hay problemas en los criterios de seleccin de los sujetos,
* carece de validez externa y confiabilidad al intentar generalizar hacia grupos mayores.
C) MUESTRAS POR CUOTAS
Es equivalente a las muestras aleatorias estratificadas. A los entrevistadores se les fijan
cuotas de individuos, especificndoles sus caractersticas, por ejemplo: solteras, con
hijos o embarazadas o estudiantes varones de pelo largo y con aros. Cada
entrevistador selecciona por su cuenta y entrevista con ayuda de una lista (entrevista
dirigida).
Ventajas:
* Rpida y eficiente;
* Es un sustituto de muestras estratificadas til para estudiantes;
* puede servir para un ensayo preliminar de dicha tcnica.
Desventajas:
* El sesgo del entrevistador para elegir a los sujetos es su defecto ms evidente.
D) MUESTRAS BOLA DE NIEVE
Recomendada para el estudio de casos de inters especial, que son difciles de
identificar, por ejemplo: drogadictos, homosexuales, miembros de una secta, etc. La
tcnica consiste en localizar algunos individuos tpicos, los cuales conducen a otros y
as sucesivamente va creciendo la bola de nieve. Es una tcnica apropiada para la
investigacin cualitativa y estudios de casos.
Ventajas:
* Acumula informacin enriquecedora para construir marcos tericos.
* Recomendada para estudios sociolgicos y problemas sicopedaggicos.
Desventajas:
* Requiere entrevistadores profesionales bien entrenados;
* La interpretacin de los resultados tiene problemas de confiabilidad;
* Puede haber sesgo en la seleccin de los sujetos.
30
Lo que se debe considerar, es que no podemos comparar directamente entre el valor del
parmetro y el estadstico, pues siempre existe el error muestral inherente en la muestra. Por
tanto, para poder comparar las hiptesis debemos considerar los siguientes aspectos:
-
Hiptesis nula H0: Es la hiptesis que se quiere contrastar y es por lo tanto la que se
acepta o rechaza como conclusin del contraste. Trabaja con los signos =; ;
Hiptesis alternativa H1: Es la hiptesis que nos sita como alternativa ante Ho de tal
forma que si se acepta H1 se rechaza Ho y viceversa. Trabaja con los signos , <, >
Error de Tipo 1: Error que se comente en la decisin del contraste cuando se rechaza
la hiptesis nula, siendo correcta.
32
Error de Tipo II: Error que se comente en la decisin del contraste cuando se acepta la
hiptesis nula, siendo falsa. Se le llama (beta)
Realidad
Inocente
veredicto Inocente
OK
Culpable
Error Tipo II
Menos grave
OK
Contraste Bilateral: Es aquel cuya regin crtica est formada por dos conjunto de
puntos de la recta real. Se utiliza en pruebas con signos =;
Contraste Unilateral: Es aquel cuya regin crtica est formada por un solo conjunto
puntos de la recta real. Trabaja con los signos ; ; >; <
33
Las pruebas de hiptesis son quizs unas de las herramientas ms poderosas que tiene la
estadstica, cuyas aplicaciones van desde la medicina y la agricultura, hasta el diseo de
experimentos, finanzas y las investigaciones de mercado.
La forma de calcular estas Pruebas de Hiptesis depende del tipo de prueba que se est
utilizando.
34
TIPO PRUEBA
Prueba Z para
Prueba T para
Prueba Z para
ESTADISTICOS DE PRUEBA
X-
Ztest =
n
X-
Ttest = s
p
Ztest = (1 )
Como se puede observar, el estadstico de prueba es exactamente igual al TLC para cada
parmetro, la nica diferencia es que se utilizan los valores hipotticos de los parmetros para
el clculo respectivo. Cabe recalcar, que las condiciones que se tenan anteriormente para el
uso de TLC se aplican igualmente en este caso.
Tambin es importante recordar que existen varios signos con los que podemos trabajar, y en
funcin de esos signos, hay que determinar:
-
EJEMPLOS DE APLICACIONES:
En los siguientes recortes, identifique la hiptesis nula, la alternativa y si la prueba es bilateral o
unilateral:
Nota:
En las pruebas de hiptesis, es importante que la tomar una decisin, siempre tendremos una
interpretacin asociada a la misma, adems que nunca estaremos 100% de esta decisin,
puesto que la evidencia que tenemos la hemos obtenido a partir de una muestra, que siempre
tendr asociado un error muestral.
35
En estos casos, no nos interesa saber cul es el valor de cada parmetro, sino saber cul es
ms alto respecto al otro, o si efectivamente son iguales. Para estos casos, debemos trabajar
en base a diferencias positivas o negativas:
-
IDEA: Para identificar las pruebas que debemos hacer, primero debemos establecer que tipos
de muestras se tienen en cada poblacin: Pareadas o Independientes
-
IDEA: Las frmulas de clculo suelen ser muy engorrosas. Las aplicaciones se pueden realizar
en Microsoft Excel o en cualquier programa estadstico
La forma de realizar las pruebas es exactamente parecida, es decir, se mantienen los mismos 5
pasos que vimos en los temas anteriores.
36
Poblacin 2 (22)
Muestra 1
Muestra 2
n1 = 9
S1 = 97
n2 = 7
S2 = 83
El estadstico F es: F = (S12)/ (S22) , donde siempre se tiene que: (S12) > (S22)
En el ejemplo analizado, F = 1.37
Para verificar la hiptesis de varianzas iguales, es decir Ho: 12 = 22, frente a su hiptesis
alternativa Ha: 12 22, la idea principal es que el valor de F debe ser cercana a 1
superiormente (pues se tom S12 > S22 ), pero esto no se consigue puesto que se trabaja con
muestras, entonces se debe buscar un valor crtico para F de manera que si este F no supera a
este valor crtico, entonces no se puede rechazar Ho, y se pueden suponer varianzas iguales.
El valor crtico para F (Fc), depender del valor de confianza y de los grados de libertad:
numerador (n1 1) y denominador (n2 1). Para este fin, se utiliza la tabla F. Aunque este
valor es mejor que se calcule por medio de algn programa informtico.
NOTA: En todos estos casos, se est asumiendo que las variables analizadas (es decir, las
diferencias) siguen una distribucin normal. Caso contrario, debemos utilizar pruebas no
paramtricas.
37
1. PRUEBA JI CUADRADA
Esta prueba est diseada para verificar si un conjunto de datos tiene un comportamiento
determinado. Por lo general, los datos se encuentran distribuidos por clases (una tabla de
distribucin de frecuencias, o no tabla de contingencia). Se determina con la frmula:
2
Donde:
-
(Oi Ei ) 2
, con grados de libertad = K m 1,
Ei
Poblacin 2 (2)
Poblacin 3 (3)
Poblacin C (c)
Muestra 1
Muestra 2
Muestra 3
Muestra 1
n1
n2
n3
nc
..........
38
La variacin intramuestral no se debe a los tratamientos, puesto que cada unidad experimental
es diferente en s misma, pero estn sometidas al mismo tratamiento. Como se supone que las
varianzas poblacionales son iguales, entonces esta variacin debe ser igual dentro de cada
muestra.
El efecto de cada tratamiento sobre cada muestra (si este existe) slo est reflejada sobre la
variacin Intermuestral, y esta variacin debe ser mayor a la intramuestral, porque aumenta
mayores fluctuaciones a los datos. En este caso, los tratamientos no son iguales y Ho es
rechazada. Para comparar entonces los tratamientos, se debe comparar sus variaciones
utilizando el estadstico F = Variacin Intermuestral / Variacin Intramuestral.
3.2. CONSTRUCCION DE LA TABLA ANOVA
Los clculos necesarios para construir una tabla ANOVA de un factor implican clculos muy
engorrosos, pero para entender el proceso de anlisis de los resultados, veamos el siguiente
ejemplo:
Usted ha aplicado tres tipos diferentes de programas de capacitacin a sus empleados del
hospital para aumentar sus calificaciones en las evaluaciones internas respectivas. Luego de
dicha capacitacin, usted les ha tomado un examen evaluativo para conocer los resultados de
cada programa:
Nro de
empleados
1
2
3
4
5
Promedio ( X
)
Tipo de capacitacin
Programa 1
Programa 2 Programa
3
85
80
82
72
84
80
83
81
85
80
78
90
*
82
88
80
81
85
X=
ni X i
i 1
n
SUMAS DE CUADRADOS
r
(X
j1 i 1
ij
X) 2
= 251,7
(es decir, a cada valor se le resta la media general y se eleva al cuadrado y se suma)
(Variacin Total)
39
i (X i
X) 2
i 1
= 65,7
(a cada promedio muestral se le resta la media general, se eleva al cuadrado, se multiplica por
el tamao de la muestra y se suma) (Variacin intermuestral)
r
(X
ij
Xi )2
j1 i 1
= 186,0
SST
Media Cuadrada Total = MST = n 1 = 19,4
SSTR
Media Cuadrada del Tratamiento = MSTR = c 1 = 32,9
SST
Media Cuadrada del Error = MSE = n c = 16,9
CALCULO DE F: Como se explic anteriormente, F es la razn entre la variacin intermuestral
y la intramuestral:
MSTR
F = MSE = 1,94
VALOR CRITICO DE F (Fc): Depende del error de confianza , y de los grados de libertad del
numerador (c 1) y del denominador (n c). En nuestro ejemplo, y con un nivel de confianza
de 95%, entonces Fc = F0,05;2;11= 3,98
REGLA DE DECISIN: Ho es rechazada si F > Fc, de lo contrario no se rechaza. En nuestro
caso, como F = 1,94 y Fc = 3,98, entonces Ho no es rechazada. Se puede suponer que los tres
programas de formacin son iguales.
TABLA ANOVA
Fuente de variacin
Intermuestral
(tratamiento)
Intramuestral (error)
Variacin total
Suma
Cuadradas
SSTR
SSE
SST
Grados de Libertad
Medias Cuad.
c1
SSTR / (c -1)
nc
n1
SSE / (n c )
Valor F
Fc
MSTR/MSE
IDEA: El ANOVA de un factor es cuando comparamos efectos solo por columnas, tambin se
puede utilizar para comparar las filas. Esto se conoce que ANOVA de dos factores
40
F;c1;n-c
41
IDEA: Una cosa es establecer una relacin directa o inversa, y otra muy distinta es establecer
causalidad: es decir, que una variacin en X produce una variacin en Y.
Si queremos establecer una relacin de causalidad, debemos establecer primero que tipo de
relacin puede existir entre las variables. Para nuestro anlisis, asumiremos que esta relacin
es lineal.
2. CORRELACION LINEAL
Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible
relacin sea directa o inversa.
r es til para determinar si hay relacin lineal entre dos variables, pero no servir para
otro tipo de relaciones (cuadrtica, logartmica,...)
S xy
SxS y
42
3. REGRESION LINEAL
El anlisis de regresin sirve para predecir una medida en funcin de otra medida (o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
43
b1 r
SY
SX
b0 y b1 x
IDEA: No siempre se tiene una regresin lineal. Tambin puede ser polinomial, exponencial,
logartmica, etc. Asimismo, se puede hacer una regresin con varias variables causales
(mltiple)
Las regresiones son un excelente mtodo de prediccin, siempre y cuando se comprueben
ciertas hiptesis estadsticas (implicara otro curso ms especializado, para aplicaciones de
investigacin predictiva)
44
TAREA GRUPAL:
Grupos de mximo 3 integrantes. Cada grupo deber realizar un bosquejo de investigacin
exploratoria, para lo cual deber realizar las siguientes actividades:
-
Identificar, dentro del contexto educativo, un proceso estadstico sobre el cual quisiera
investigar, para lo cual debe definir claramente:
o
o
o
Una vez identificado las fases del proceso estadstico, debe disear un instrumento de
recoleccin de datos (encuestas) para obtener informacin muestral acerca del
parmetro definido anteriormente, bajo las siguientes condiciones:
o
o
NOTAS: Trate de enfocar la investigacin en una poblacin donde le sea factible conseguir
datos fcil y rpidamente. Todava no debe realizar la recoleccin de datos (aplicar la
encuesta), solo disearla.
45
b. Una prueba de laboratorio para detectar herona en sangre tiene un 92% de precisin. Si se
analizan 72 muestras en un mes, cul es la probabilidad de que:
- 60 o menos estn correctamente evaluadas?
- menos de 60 estn correctamente evaluadas?
- exactamente 60 estn correctamente evaluadas?
46
2,
5
2,
6
2,
7
2,
8
2,
9
3,
0
3,
1
3,
2
3,
3
3,
4
3,
5
3,
6
3,
7
3,
8
3,
9
0,99
38
0,99
53
0,99
65
0,99
74
0,99
81
0,99
87
0,99
90
0,99
93
0,99
95
0,99
97
0,99
98
0,99
98
0,99
99
0,99
99
1,00
00
0,99
40
0,99
55
0,99
66
0,99
75
0,99
82
0,99
87
0,99
91
0,99
93
0,99
95
0,99
97
0,99
98
0,99
98
0,99
99
0,99
99
1,00
00
0,99
41
0,99
56
0,99
67
0,99
76
0,99
82
0,99
87
0,99
91
0,99
94
0,99
95
0,99
97
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
0,99
43
0,99
57
0,99
68
0,99
77
0,99
83
0,99
88
0,99
91
0,99
94
0,99
96
0,99
97
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
0,99
45
0,99
59
0,99
69
0,99
77
0,99
84
0,99
88
0,99
92
0,99
94
0,99
96
0,99
97
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
0,99
46
0,99
60
0,99
70
0,99
78
0,99
84
0,99
89
0,99
92
0,99
94
0,99
96
0,99
97
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
0,99
48
0,99
61
0,99
71
0,99
79
0,99
85
0,99
89
0,99
92
0,99
94
0,99
96
0,99
97
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
0,99
49
0,99
62
0,99
72
0,99
79
0,99
85
0,99
89
0,99
92
0,99
95
0,99
96
0,99
97
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
0,99
51
0,99
63
0,99
73
0,99
80
0,99
86
0,99
90
0,99
93
0,99
95
0,99
96
0,99
97
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
0,99
52
0,99
64
0,99
74
0,99
81
0,99
86
0,99
90
0,99
93
0,99
95
0,99
97
0,99
98
0,99
98
0,99
99
0,99
99
0,99
99
1,00
00
TABLA DE VALORES DE T
ALF 0,2
A
0
G.L 0,1
.
00
3,07
1
8
1,88
2
6
1,63
3
8
1,53
4
3
1,47
5
6
1,44
6
0
1,41
7
5
8 1,39
0,1
5
0,0
75
4,16
5
2,28
2
1,92
4
1,77
8
1,69
9
1,65
0
1,61
7
1,59
0,1
0
0,0
50
6,31
4
2,92
0
2,35
3
2,13
2
2,01
5
1,94
3
1,89
5
1,86
BILATER
0,05 0,04 0,03 0,02 0,01
AL
0,02 0,02 0,01 0,01 0,00 UNILATE
5
0
5
0
5
RAL
12,7 15,8 21,2 31,8 63,6
06
95
05
21
57
4,30 4,84 5,64 6,96 9,92
3
9
3
5
5
3,18 3,48 3,89 4,54 5,84
2
2
6
1
1
2,77 2,99 3,29 3,74 4,60
6
9
8
7
4
2,57 2,75 3,00 3,36 4,03
1
7
3
5
2
2,44 2,61 2,82 3,14 3,70
7
2
9
3
7
2,36 2,51 2,71 2,99 3,49
5
7
5
8
9
2,30 2,44 2,63 2,89 3,35
48
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
7
1,38
3
1,37
2
1,36
3
1,35
6
1,35
0
1,34
5
1,34
1
1,33
7
1,33
3
1,33
0
1,32
8
1,32
5
1,32
3
1,32
1
1,31
9
1,31
8
1,31
6
1,31
5
1,31
4
1,31
3
1,31
1
1,31
0
2
1,57
4
1,55
9
1,54
8
1,53
8
1,53
0
1,52
3
1,51
7
1,51
2
1,50
8
1,50
4
1,50
0
1,49
7
1,49
4
1,49
2
1,48
9
1,48
7
1,48
5
1,48
3
1,48
2
1,48
0
1,47
9
1,47
7
0
1,83
3
1,81
2
1,79
6
1,78
2
1,77
1
1,76
1
1,75
3
1,74
6
1,74
0
1,73
4
1,72
9
1,72
5
1,72
1
1,71
7
1,71
4
1,71
1
1,70
8
1,70
6
1,70
3
1,70
1
1,69
9
1,69
7
6
2,26
2
2,22
8
2,20
1
2,17
9
2,16
0
2,14
5
2,13
1
2,12
0
2,11
0
2,10
1
2,09
3
2,08
6
2,08
0
2,07
4
2,06
9
2,06
4
2,06
0
2,05
6
2,05
2
2,04
8
2,04
5
2,04
2
9
2,39
8
2,35
9
2,32
8
2,30
3
2,28
2
2,26
4
2,24
9
2,23
5
2,22
4
2,21
4
2,20
5
2,19
7
2,18
9
2,18
3
2,17
7
2,17
2
2,16
7
2,16
2
2,15
8
2,15
4
2,15
0
2,14
7
4
2,57
4
2,52
7
2,49
1
2,46
1
2,43
6
2,41
5
2,39
7
2,38
2
2,36
8
2,35
6
2,34
6
2,33
6
2,32
8
2,32
0
2,31
3
2,30
7
2,30
1
2,29
6
2,29
1
2,28
6
2,28
2
2,27
8
6
2,82
1
2,76
4
2,71
8
2,68
1
2,65
0
2,62
4
2,60
2
2,58
3
2,56
7
2,55
2
2,53
9
2,52
8
2,51
8
2,50
8
2,50
0
2,49
2
2,48
5
2,47
9
2,47
3
2,46
7
2,46
2
2,45
7
5
3,25
0
3,16
9
3,10
6
3,05
5
3,01
2
2,97
7
2,94
7
2,92
1
2,89
8
2,87
8
2,86
1
2,84
5
2,83
1
2,81
9
2,80
7
2,79
7
2,78
7
2,77
9
2,77
1
2,76
3
2,75
6
2,75
0
49
0,995
0,990
0,900
0,100
0,050
0,025
0,020
0,010
0,005
0,000
0,010
0,072
0,207
0,412
0,676
0,989
1,344
1,735
2,156
2,603
3,074
3,565
4,075
4,601
5,142
5,697
6,265
6,844
7,434
8,034
8,643
9,260
9,886
10,520
11,160
11,808
12,461
13,121
13,787
0,000
0,020
0,115
0,297
0,554
0,872
1,239
1,646
2,088
2,558
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
8,897
9,542
10,196
10,856
11,524
12,198
12,879
13,565
14,256
14,953
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
13,240
14,041
14,848
15,659
16,473
17,292
18,114
18,939
19,768
20,599
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
5,412
7,824
9,837
11,668
13,388
15,033
16,622
18,168
19,679
21,161
22,618
24,054
25,472
26,873
28,259
29,633
30,995
32,346
33,687
35,020
36,343
37,659
38,968
40,270
41,566
42,856
44,140
45,419
46,693
47,962
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,559
46,928
48,290
49,645
50,993
52,336
53,672
50
51