Introducción a la Inferencia Estadística: Población, Muestra y Errores

INTRODUCCIN
Dicho de otra forma, la finalidad de la Inferencia estadstica es obtener informacin

sobre caractersticas desconocidas de las poblaciones (generalmente cuantificadas
por parmetros) a partir de caractersticas conocidas de las muestras (generalmente
cuantificadas por estadsticos). Incluir poblaciones completas de individuos en la
investigacin suele ser impracticable, y por ello se suele trabajar con grupos pequeos
generalizando los resultados mediante las tcnicas de Estadstica Inferencial.
La estadstica inferencial es necesaria cuando queremos hacer alguna afirmacin

sobre ms elementos de los que vamos a medir. La estadstica inferencial hace que
ese salto de la parte al todo se haga de una manera controlada. Aunque nunca nos
ofrecer seguridad absoluta, s nos ofrecer una respuesta probabilstica. Esto es
importante: la estadstica no decide; slo ofrece elementos para que el investigador o
el lector decidan.
INDICE
INTRODUCCIN ........................................................................................................ 0
INDICE ........................................................................................................................ 1
POBLACIN Y MUESTRA.......................................................................................... 3
Definiciones ............................................................................................................. 3
Poblacin ................................................................................................................. 4
Muestra .................................................................................................................... 5
Error de Muestreo .................................................................................................... 5
Ventajas del muestreo comparadas con el censo .................................................... 6
Tcnicas de Muestreo .............................................................................................. 7
CLASIFICACIN DE MUESTRAS .............................................................................. 7
Muestreo no probabilstico ....................................................................................... 7
Muestreo probabilstico ............................................................................................ 7
Tipos de muestreo ................................................................................................... 7
NIVEL DE CONFIANZA .............................................................................................. 8
INTERVALO DE CONFIANZA .................................................................................... 9
Intervalo de confianza para la media de una poblacin ........................................... 9
Intervalo de confianza para una proporcin ............................................................12
ERROR TIPO BETA ...................................................................................................12
ERROR TIPO ALFA ...................................................................................................13
ERROR ESTNDAR ..................................................................................................14
TEORA DE PEQUEAS MUESTRAS ......................................................................15
Grado de libertad ....................................................................................................16
Formular nuestra hiptesis nula ..............................................................................16
Hiptesis de investigacin .......................................................................................18
T DE STUDENT .........................................................................................................18
La tabla ...................................................................................................................20
ANLISIS DE LA VARIANZA .....................................................................................21
Bases del anlisis de la varianza ............................................................................21
SUMA DE CUADRADOS ...........................................................................................25
Tipo I .......................................................................................................................26
1
Tipo II. .....................................................................................................................26
Tipo III .....................................................................................................................27
Tipo IV.....................................................................................................................27
APUNTES EN CLASE ................................................................................................28
CONCLUSIN ...........................................................................................................53
BIBLIOGRAFIA ..........................................................................................................54
2
POBLACIN Y MUESTRA
El concepto de poblacin en estadstica va ms all de lo que comnmente se conoce

como tal. Una poblacin se precisa como un conjunto finito o infinito de personas u
objetos que presentan caractersticas comunes.
Definiciones
"Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca
de los cuales intentamos sacar conclusiones". Levin & Rubin (1996).
"Una poblacin es un conjunto de elementos que presentan una caracterstica comn".

Cadenas (1974).
El tamao que tiene una poblacin es un factor de suma importancia en el proceso de

investigacin estadstica y en nuestro caso social, y este tamao vienen dado por el
nmero de elementos que constituyen la poblacin, segn el nmero de elementos la
poblacin puede ser finita o infinita. Cuando el nmero de elementos que integra la
poblacin es muy grande, se puede considerar a esta como una poblacin infinita, por
ejemplo; el conjunto de todos los nmeros positivos.
Una poblacin finita es aquella que est formada por un limitado nmero de elementos,
por ejemplo; el nmero de habitantes de una comarca.
Cuando la poblacin es muy grande, es obvio que la observacin y/o medicin de

todos los elementos se multiplica la complejidad, en cuanto al trabajo, tiempo y costos
necesarios para hacerlo. Para solucionar este inconveniente se utiliza una muestra
estadstica.
Las estadsticas de por s no tienen sentido si no se consideran o se relacionan dentro
del contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de
poblacin y de muestra para lograr comprender mejor su significado en la investigacin
educativa o social que se lleva a cabo.
3
Poblacin
Es el conjunto total de individuos, objetos o medidas que poseen algunas
caractersticas comunes obse
rvables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo

alguna investigacin debe de tenerse en cuenta algunas caractersticas esenciales al
seleccionarse la poblacin bajo estudio.
Entre stas tenemos:
Homogeneidad: que todos los miembros de la poblacin tengan las mismas
caractersticas segn las variables que se vayan a considerar en el estudio o
investigacin.
Tiempo: se refiere al perodo de tiempo donde se ubicara la poblacin de inters.

Determinar si el estudio es del momento presente o si se va a estudiar a una poblacin
de cinco aos atrs o si se van a entrevistar personas de diferentes generaciones.
Espacio: se refiere al lugar donde se ubica la poblacin de inters. Un estudio no

puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un rea
o comunidad en especfico.
Cantidad: se refiere al tamao de la poblacin. El tamao de la poblacin es

sumamente importante porque ello determina o afecta al tamao de la muestra que se
vaya a seleccionar, adems que la falta de recursos y tiempo tambin nos limita la
extensin de la poblacin que se vaya a investigar.
4
Muestra
La muestra es un subconjunto fielmente representativo de la poblacin.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione depender de
la calidad y cun representativo se quiera sea el estudio de la poblacin.
Aleatoria: cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser
incluido.
Estratificada: cuando se subdivide en estratos o subgrupos segn las variables o

caractersticas que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la poblacin.
Sistemtica: cuando se establece un patrn o criterio al seleccionar la muestra.

Ejemplo: se entrevistar una familia por cada diez que se detecten.
El muestreo es indispensable para el investigador ya que es imposible entrevistar a

todos los miembros de una poblacin debido a problemas de tiempo, recursos y
esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un
subconjunto de la poblacin, pero que la misma sea lo suficientemente representativa
de sta para que luego pueda generalizarse con seguridad de ellas a la poblacin.
El tamao de la muestra depende de la precisin con que el investigador desea llevar

a cabo su estudio, pero por regla general se debe usar una muestra tan grande como
sea posible de acuerdo a los recursos que haya disponibles. Entre ms grande la
muestra mayor posibilidad de ser ms representativa de la poblacin.
En la investigacin experimental, por su naturaleza y por la necesidad de tener control

sobre las variables, se recomienda muestras pequeas que suelen ser de por lo menos
30 sujetos.
En la investigacin descriptiva se emplean muestras grandes y algunas veces se

recomienda seleccionar de un 10 a un 20 por ciento de la poblacin accesible.
Error de Muestreo
Cualquiera que lea encuestas en Internet o en los peridicos debe saber que los
errores de muestreo pueden influir enormemente en los datos y llevar a la gente a
sacar conclusiones incorrectas. El error muestral es la diferencia entre un estadstico
y su parmetro correspondiente.
Todo error lo es en relacin a algn patrn o punto de referencia. En el caso del error
muestral, el punto de referencia es la poblacin de la que se obtiene o saca la muestra.
5
Una manera de poder conocer el error muestral es realizar la encuesta, a la vez, en
la muestra y a toda la poblacin. Por ello cabe descartar, en la prctica, el conocimiento
de este error muestral real, porque al exigir realizar la encuesta a toda la poblacin y
no slo a la muestra, la muestra pierde su razn de ser.
Cuando se habla de error muestral no se refiere a este error muestral real, no

conocido, sino a un error muestral determinado estadsticamente, de tipo genrico,
vlido para todas las muestras posibles del mismo tamao.
El error muestral estadstico, sirve para darnos, no un error especfico y determinado,
sino nicamente para establecer el intervalo de confianza dentro del que nos movemos
en la muestra, es decir, los limites formados por la medida de la muestra, ms o menos
el error en cuestin, dentro del que se debe encontrar la media del universo, con el
grado de probabilidad con que se trabaje, dos o tres sigmas.
Hay dos formas de estudiar las poblaciones: por censo o por muestreo. En el censo se
analizan todos y cada una uno de los elementos de una poblacin y en el muestreo se
analiza una parte de la poblacin.
Ventajas del muestreo comparadas con el censo
a. Costo reducido. Si la informacin se obtiene nicamente para una parte de la

poblacin, los gastos son menores que los se tendran si se realiza un censo.
b. Mayor rapidez. La informacin puede ser recolectada y procesada ms
rpidamente cuando se selecciona una muestra que cuando se realiza un censo.
c. Mayor exactitud. Cuando los errores ajenos al muestreo son necesariamente
grandes, una muestra puede dar mejores resultados que un censo, ya que esos
errores se controlan con ms facilidad si la operacin es de pequea escala. Como el
volumen de trabajo se reduce, se puede emplear personal calificado y realizar una
supervisin cuidadosa del trabajo de campo y del procesamiento de la informacin,
reduciendo as los errores de no muestreo.
d. Posibilidad de hacerse. En la industria algunas pruebas son destructivas, por lo
tanto, ciertas investigaciones slo pueden realizarse con una muestra de productos.
Por ejemplo, un estudio sobre la duracin de los bombillos o la resistencia de cualquier
material.
6
Tcnicas de Muestreo
Esto no es ms que el procedimiento empleado para obtener una o ms muestras de una

poblacin; el muestreo es una tcnica que sirve para obtener una o ms muestras de
poblacin.
Este se realiza una vez que se ha establecido un marco muestral representativo de la

poblacin, se procede a la seleccin de los elementos de la muestra aunque hay muchos
diseos de la muestra.
Al tomar varias muestras de una poblacin, las estadsticas que calculamos para cada muestra
no necesariamente seran iguales, y lo ms probable es que variaran de una muestra a otra.
CLASIFICACIN DE MUESTRAS
Muestreo no probabilstico
En este tipo de muestreo, puede haber clara influencia de la persona o personas que
seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad.
Salvo en situaciones muy concretas, en la que los errores cometidos no son grandes,
debido a la homogeneidad de la poblacin, en general no es un tipo de muestreo
riguroso y cientfico, dado que no todos los elementos de la poblacin pueden formar
parte de la muestra. Por ejemplo, si hacemos una encuesta telefnica por la maana,
las personas que no tienen telfono o que estn trabajando, no podrn formar parte
de la muestra.
Muestreo probabilstico
En este tipo de muestreo, todos los individuos de la poblacin pueden formar parte de la
muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de
muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y cientfico.
Tipos de muestreo
Existen dos mtodos para seleccionar muestras de poblaciones; el muestreo no aleatorio o de

juicio y el muestreo aleatorio o de probabilidad. En este ltimo todos los elementos de la
7
poblacin tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada
por muestreo de juicio se basa en la experiencia de alguien con la poblacin. Algunas veces
una muestra de juicio se usa como gua o muestra tentativa para decidir cmo tomar una
muestra aleatoria ms adelante. Las muestras de juicio evitan el anlisis estadstico necesario
para hacer muestras de probabilidad.
El tipo de muestra que se seleccione depender de la calidad y cun representativo se quiera

sea el estudio de la poblacin.
1. ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad
de ser incluido.
2. ESTRATIFICADA - cuando se subdivide en estratos o subgrupos segn las variables
o caractersticas que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la poblacin.
3. SISTEMTICA - cuando se establece un patrn o criterio al seleccionar la muestra.
Ejemplo: se entrevistar una familia por cada diez que se detecten.
NIVEL DE CONFIANZA
El nivel de confianza se indica por 1- y habitualmente se da en porcentaje (1-)%.

Hablamos de nivel de confianza y no de probabilidad (la probabilidad implica eventos
aleatorios) ya que una vez extrada la muestra, el intervalo de confianza estar definido
al igual que la media poblacional ()y solo se confa si contendr al verdadero valor
del parmetro o no, lo que si conlleva una probabilidad es que si repetimos el proceso
con muchas medias muestrales podramos afirmar que el (1-)% de los intervalos as
construidos contendra al verdadero valor del parmetro.
Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%
Ejemplos
Para un nivel de confianza del 88%
1- = 0.88
= 0.12
/2 = 0.06
Z/ 2 = Z + 0.06 ; y se suma
P(Z Z 0.06) =0.94 + (1-/2)
Z(0.94)=1.56
Para un nivel de confianza del 98%,

1-=0.98
8
=0.02
/2=0.01
Z / 2 = Z + 0.01
P(Z Z 0.01) =0.98 + (1-/2); Esto no es una ecuacin matemtica.
Z(0.99)=2.33 Para encontrar este valor recrrase a una tabla de Distribucin Normal
Estndar y, si es del caso, hacer interpolaciones.
INTERVALO DE CONFIANZA
En estadstica, se llama a un par o varios pares de nmeros entre los cuales se estima
que estar cierto valor desconocido con una determinada probabilidad de acierto.
Formalmente, estos nmeros determinan un intervalo, que se calcula a partir de datos
de una muestra, y el valor desconocido es un parmetro poblacional. La probabilidad
de xito en la estimacin se representa con 1 - y se denomina nivel de confianza. En
estas circunstancias, es el llamado error aleatorio o nivel de significacin, esto es,
una medida de las posibilidades de fallar en la estimacin mediante tal intervalo.1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un
intervalo ms amplio tendr ms probabilidad de acierto (mayor nivel de confianza),
mientras que para un intervalo ms pequeo, que ofrece una estimacin ms precisa,
aumenta su probabilidad de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer
la distribucin terica que sigue el parmetro a estimar, .2 Es habitual que el
parmetro presente una distribucin normal. Tambin pueden construirse intervalos
de confianza con la desigualdad de Chebyshev.
En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un
parmetro poblacional que sigue una determinada distribucin de probabilidad, es
una expresin del tipo [1, 2] tal que P[1 2] = 1 - , donde P es la funcin de
distribucin de probabilidad de .
Intervalo de confianza para la media de una poblacin
De una poblacin de media y desviacin tpica se pueden

tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media
( ). Se puede demostrar que la media de todas las medias muestrales coincide con la
media poblacional:3
Pero adems, si el tamao de las muestras es lo suficientemente grande,4 la
distribucin de medias muestrales es, prcticamente, una distribucin
normal (o gaussiana) con media y una desviacin tpica dada por la siguiente
9
expresin: . Esto se representa como sigue: .
Si estandarizamos, se sigue que:

En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro del cual
caigan un determinado porcentaje de las observaciones, esto es, es sencillo
hallar z1 y z2tales que P[z1 z z2] = 1 - , donde (1 - )100 es el porcentaje deseado
(vase el uso de las tablas en una distribucin normal).
Se desea obtener una expresin tal que

En esta distribucin normal de medias se puede calcular el intervalo de confianza
donde se encontrar la media poblacional si slo se conoce una media muestral ( ),
con una confianza determinada. Habitualmente se manejan valores de confianza del
95 y del 99 por ciento. A este valor se le llamar (debido a que es el error que
se cometer, un trmino opuesto).
Para ello se necesita calcular el punto o, mejor dicho, su versin

estandarizada o valor crtico junto con su "opuesto en la distribucin" .
Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la
siguiente imagen:
Dicho punto es el nmero tal que:
Y en la versin estandarizada se cumple que:
10
As:
Haciendo operaciones es posible despejar para obtener el intervalo:
De lo cual se obtendr el intervalo de confianza:
Obsrvese que el intervalo de confianza viene dado por la media muestral el
producto del valor crtico por el error estndar .

Si no se conoce y n es grande (habitualmente se toma n 30):5
, donde s es la desviacin tpica de una muestra.
Aproximaciones para el valor para los niveles de confianza estndar son 1,96
para y 2,576 .6
11
Intervalo de confianza para una proporcin
El intervalo de confianza para estimar una proporcin p, conocida como una proporcin
muestral pn de una muestra de tamao n, a un nivel de confianza del (1-)100% es:
En la demostracin de estas frmulas estn involucrados el Teorema Central del

Lmite y la aproximacin de una binomial por una normal.7
ERROR TIPO BETA
Por el contrario, un error de tipo beta (o error de segunda especie) sucede, cuando se
acepta una hiptesis nula que es falsa. El error de tipo II tambin llamado error de tipo
beta () o falso negativo, es el error que se comete cuando el investigador no rechaza
la hiptesis nula siendo sta falsa en la poblacin. Es equivalente a la probabilidad de
un resultado falso negativo, ya que el investigador llega a la conclusin de que ha sido
incapaz de encontrar una diferencia que existe en la realidad.
12
Contrariamente al error tipo I, en la mayora de los casos no es posible calcular la
probabilidad del error tipo II. La razn de esto se encuentra en la manera en que se
formulan las hiptesis en una prueba estadstica. Mientras que la hiptesis nula
representa siempre una afirmacin enrgica.
Los errores tipo I y tipo II estn relacionados. Una disminucin en la probabilidad de
uno por lo general tiene como resultado un aumento en la probabilidad del otro.
En un estudio de investigacin, el error beta, tambin llamado error tipo II, se comete
cuando el investigador no rechaza la hiptesis nula siendo sta falsa en la poblacin.
Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador
llega a la conclusin de que ha sido incapaz de encontrar una diferencia que existe en
la realidad.
Se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%.
El poder o potencia del estudio representa la probabilidad de observar en
la muestra una determinada diferencia o efecto, si existe en la poblacin. Es el
complementario del error beta (1-beta).
Comentario: En sentido estricto el tipo de error se llama Error tipo II"; beta no es un
error, sino la probabilidad de cometer ese error (error tipo II)
ERROR TIPO ALFA
Se define como error de tipo alfa (o error de primera especie), aqul error que se
comete cuando se rechaza una hiptesis nula que es verdadera. Por el contrario, un
error de tipo beta (o error de segunda especie) sucede, cuando se acepta una hiptesis
nula que es falsa.
Un ejemplo de error de tipo alfa se aprecia cuando se rechaza una muestra que se
encuentra dentro de los lmites de tolerancia aceptado. Un ejemplo de error de tipo
beta sera lo contrario, se acepta una muestra que en realidad est fuera de los lmites
de tolerancia.
Hay que destacar que resulta ms trascendente el error de tipo alfa que el error de tipo
beta, puesto que rechazar una hiptesis que resulta ser cierta tiene mayores efectos
que aceptar una hiptesis que realmente sea falsa.
Por lo tanto, se define una hiptesis alternativa, y que es aqulla que establece la
presencia de diferencias entre valores de los parmetros medidos.
Para entender mejor este concepto, supongamos un conjunto de muestras
provenientes de un mineral, cuyo valor medio es del 0,04 % de potasio. Aqu existen
dos posibilidades:
13
a) Si analizamos blancos como muestras desconocidas, y asumimos que existe un
error tipo alfa = 0,023 de rechazar la hiptesis cuando en realidad es cierta, entonces,
de cada 1000 medidas obtendramos 23 cuyo valor sera igual o superior a 0,04 %, O
sea, errneamente supondramos que de cada 1000 muestras, 23 contendran potasio.
Este error conocido como tipo alfa, se le conoce tambin como nivel de significancia.
Alfa, es la probabilidad de rechazar una hiptesis nula cuando en realidad es cierta.
b) Pongamos como ejemplo, que queramos determinar el contenido de potasio en una
muestra mineral. Si aceptamos que bajo 0,04 % no existe potasio, y el contenido medio
de una sustancia es del 0,04 %, entonces, el 50 % de este set de resultados,
considerando un comportamiento normal, se rechazara aunque contuviera el analito.
En el grfico apreciamos este error como tipo beta (se acepta una hiptesis que resulta
ser falsa).
ERROR ESTNDAR
A la desviacin estndar de la distribucin muestral de un estadstico se le

denomina error estndar del estadstico en cuestin.
As, cuando el muestreo se hace con reemplazo el error estndar de la media es:
.
El error estndar de la proporcin es:
14
El error estndar de la diferencia de medias es:
.
El error estndar de la diferencia de proporciones es:
Tambin se puede hablar del error estndar de la varianza ), o de la mediana (

), as como de otros estadsticos.
TEORA DE PEQUEAS MUESTRAS
En las unidades anteriores se manej el uso de la distribucin z, la cual se

poda utilizar siempre y cuando los tamaos de las muestras fueran mayores
o iguales a 30 en muestras ms pequeas si la distribucin o las
distribuciones de donde proviene la muestran o las muestras son normales.
En esta unidad se podrn utilizar muestras pequeas siempre y cuando la

distribucin de donde proviene la muestra tenga un comportamiento normal.
Esta es una condicin para utilizar las tres distribuciones que se manejarn
en esta unidad; t de student, X2 ji-cuadrada y Fisher.
A la teora de pequeas muestras tambin se le llama teora exacta del

muestreo, ya que tambin la podemos utilizar con muestras aleatorias de
tamao grande.
En esta unidad se ver un nuevo concepto necesario para poder utilizar a las
tres distribuciones mencionadas. Este concepto es "grados de libertad".
Para definir grados de libertad se har referencia a la varianza muestral:
15
Grado de libertad
Esta frmula est basada en n-1 grados de libertad (degrees of freedom). Esta
terminologa resulta del hecho de que si bien s2 est basada
en n cantidades ..., stas suman cero, as que especificar los
valores de cualquier n-1 de las cantidades determina el valor restante. Por ejemplo,
si n=4 y
; y , entonces automticamente tenemos ,

as que slo tres de los cuatro valores de estn libres lo determinamos 3 grados
de libertad.
Entonces, en esta unidad la frmula de grados de libertad ser n-1 y su
simbologa En estadstica, los grados de libertad son el nmero de piezas
independientes de datos usados en clculos. El nmero de grados de libertad
es usado para medir qu tan exacta es la muestra de la poblacin usada en la
investigacin para representar a la poblacin por entero. Mientras ms grados de
libertad, ms seguros podemos estar de que la poblacin por entero ha sido
muestreada correctamente.
Formular nuestra hiptesis nula
La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se

representa por H0. Rechazar H0 implica aceptar una hiptesis alternativa (H1).
La hiptesis nula (H0) constituye una parte esencial de cualquier diseo de
investigacin y siempre es puesta a prueba, aunque sea indirectamente.
La definicin simplista de la hiptesis nula es casi contraria a la de la hiptesis
alternativa (H1), aunque el principio es un poco ms complejo.
La hiptesis nula (H0) es una hiptesis que el investigador trata de refutar, rechazar o
anular.
Generalmente, "nula" se refiere a la opinin general de algo, mientras que la hiptesis
alternativa es lo que el investigador realmente piensa que es la causa de un fenmeno.
La conclusin de un experimento siempre se refiere a la nula, es decir, rechaza o
acepta la H0 en lugar de la H1.
A pesar de esto, muchos investigadores descuidan la hiptesis nula cuando
estn probando hiptesis, lo que constituye una prctica mala y puede tener efectos
adversos.
16
Ejemplos
Un investigador puede postular una hiptesis:
H1: las plantas de tomate exhiben una mayor tasa de crecimiento cuando se plantan
en compost en lugar del suelo.
Y una hiptesis nula:
H0: las plantas de tomate no presentan una mayor tasa de crecimiento cuando se
plantan en el compost en lugar del suelo.
Es importante seleccionar cuidadosamente el texto de la nula y asegurarse de que sea
lo ms especfico posible. Por ejemplo, el investigador puede postular una hiptesis
nula:
H0: las plantas de tomate no muestran ninguna diferencia en sus tasas de crecimiento
cuando se plantan en compost en lugar del suelo.
Hay un gran defecto con esta H0. Si las plantas realmente crecen ms lentamente en
el compost que en el suelo, se llega a un callejn sin salida. H1 no est respaldada y
tampoco la H0, ya que existe una diferencia en las tasas de crecimiento.
Si se rechaza la hiptesis nula y no hay otra opcin, el experimento puede ser invlido.
Por esta razn, la ciencia utiliza una serie de procesos deductivos e inductivos para
asegurar que no existan errores en las hiptesis.
Muchos cientficos descuidan la hiptesis nula, suponiendo que es simplemente lo

contrario a la alternativa, pero lo correcto es tomarse un tiempo para crear una
hiptesis slida. No es posible cambiar una hiptesis retrospectivamente, ni siquiera
la H0.
17
Hiptesis de investigacin
Una hiptesis de investigacin es una declaracin que realizan los investigadores

cuando especulan sobre el resultado de una investigacin o experimento.
Todo diseo experimental verdadero debe tomar esta declaracin como el ncleo de
su estructura, como el objetivo final de cualquier experimento.
La hiptesis se genera a travs de una serie de medios, pero generalmente es el
resultado de un proceso de razonamiento inductivo donde las observaciones conducen
a la formacin de una teora. Luego, los cientficos utilizan una serie de mtodos
deductivos para llegar a una hiptesis que sea verificable, falsable y realista.
El paso anterior a una hiptesis es un problema de investigacin, generalmente
enmarcado como una pregunta. Podra preguntar qu o por qu est sucediendo algo.
Por ejemplo, para utilizar un tema de actualidad, podramos preguntarnos por qu las
poblaciones de bacalao del Atlntico Norte se estn reduciendo. La pregunta del
problema podra ser: por qu est disminuyendo la cantidad de bacalao en el
Atlntico Norte?
Esto es demasiado amplio como declaracin y no es verificable por ningn
medio cientfico razonable. Simplemente se trata de una pregunta tentativa derivada
de las revisiones de la bibliografa y la intuicin. Muchas personas podran pensar que
el instinto y la intuicin no son cientficos, pero muchos de los grandes saltos cientficos
fueron resultado de "corazonadas".
La hiptesis de investigacin constituye una reduccin del problema, lo que produce
algo verificable y falsable. En el ejemplo anterior, un investigador podra especular que
la disminucin de las poblaciones de peces se debe a la sobrepesca prolongada. Los
cientficos deben generar una hiptesis verificable y realista en torno a la cual puedan
construir el experimento.
T DE STUDENT
Las distribuciones t de Student son parecidas a la normal. Se pueden utilizar para

hacer estimaciones de la media cuando se desconoce la varianza (es lo habitual) y se
usan muestas pequeas.
Los intervalos as obtenidos son, no podra ser de otra manera, ms grandes y menos
precisos que los que se obtendran si supusieramos conocida la varianza en una
distribucin normal.
En el applet comparamos distribuciones t de Student con la normal estndar. Podemos
elegir el valor del parmetro "grados de libertad" y modificar los extremos del intervalo
18
simtrico en torno a la media. Con estos datos se obtiene unas probabilidades
(clculos aproximados) que se muestran. A1 representa el rea de la zona central y
A2 es el rea de las dos colas de los extremos. La suma de ambas reas es 1.
Si consideramos esos mismos extremos del intervalo en el caso de una distribucin
normal estndar comprobamos que la probabilidad de la zona central (A1) es mayor
para la distribucin normal que para la t de Student. Si el parmetro grados de libertad
es grande la diferencia es pequea.
Partiendo de un intervalo podemos obtener una probabilidad en una distribucin t de
Student. Nos podemos plantear el tamao del intervalo que barre la misma rea bajo
la campana de Gauss. El extremo positivo del intervalo se calcula y se muestra en "x1
Normal". El segmento dibujado de color naranja debajo de las grficas representa ese
intervalo que es de menor amplitud que el correspondiente de la t de Student. Podemos
ver cmo si el parmetro grados de libertad es suficientemente grande la diferencia
entre ambos intervalos es pequea.
La Distribucin t de Student, tiene por funcin de densidad:
Donde el parmetro n de , se denomina grados de libertad de la distribucin.

La distribucin t de Student existe para todos los valores de x reales, y es simtrica
respecto al eje y.
La distribucin de probabilidad de esta funcin para valores menores de un x dado,
que representamos por
Donde:
19
Para el clculo de esta integral existen distintos tipos de Tabla de distribucin t de
Student, en la que para distintos valores de n y de x se puede buscar su probabilidad
acumulada p, veamos una de esas tablas.
La tabla
En esta tabla hay dos entradas, en la fila superior estn los valores de n para los que
se ha calculado la probabilidad, en la columna de la izquierda los de x, para x igual o
mayor que cero, en incrementos de 0,05, para cada valor de n y de la x correspondiente
tenemos la probabilidad acumulada, expresada con tres cifras decimales.
20
ANLISIS DE LA VARIANZA
El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar

dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos
medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por
dos motivos:
En primer lugar, y como se realizaran simultnea e independientemente varios
contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar
aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo
que, en la hiptesis nula, hay una probabilidad a. Si se
realizan m contrastesindependientes, la probabilidad de que, en la hiptesis nula,
ningn estadstico supere el valor crtico es (1 - a)m, por lo tanto, la probabilidad de
que alguno lo supere es 1 - (1 - a)m, que para valores de a prximos a 0 es
aproximadamente igual a a m. Una primera solucin, denominada mtodo de
Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m, aunque resulta un
mtodo muy conservador.
Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras
provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las
comparaciones, la hiptesis nula es que todas las muestras provienen de la misma
poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza
necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.
El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto:
es un mtodo que permite comparar varias medias en diversas situaciones; muy
ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del
anlisis multivariante.
Bases del anlisis de la varianza
Supnganse k muestras aleatorias independientes, de tamao n, extradas de una

nica poblacin normal. A partir de ellas existen dos maneras independientes de
estimar la varianza de la poblacin s2
1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza
dentro de las muestras), o varianza de error, o cuadrados medios del error, y
habitualmente representada por MSE(Mean Square Error)
o MSW (Mean Square Within) que se calcula como la media de las k varianzas
muestrales (cada varianza muestral es un estimador centrado de s2 y la media
de k estimadores centrados es tambin un estimador centrado y ms eficiente que
todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del
21
error y se representa por SSE y al denominador grados de libertad por ser los trminos
independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las
distintas muestras), o varianza de los tratamientos, o cuadrados medios de los
tratamientos y representada por MSA o MSB(Mean Square Between). Se calcula a
partir de la varianza de las medias muestrales y es tambin un cociente; al numerador
se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al
denominador (k-1) grados de libertad.
MSA y MSE, estiman la varianza poblacional en la hiptesis de que las k muestras
provengan de la misma poblacin. La distribucin muestral del cociente de dos
estimaciones independientes de la varianza de una poblacin normal es una F con los
grados de libertad correspondientes al numerador y denominador respectivamente,
por lo tanto se puede contrastar dicha hiptesis usando esa distribucin.
Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la
misma varianza, se puede rechazar la hiptesis de que las k medias provengan de una
misma poblacin.
Aceptando que las muestras provengan de poblaciones con la misma varianza, este
rechazo implica que las medias poblacionales son distintas, de modo que con un nico
contraste se contrasta la igualdad de k medias.
Existe una tercera manera de estimar la varianza de la poblacin, aunque no es
independiente de las anteriores. Si se consideran las kn observaciones como una
nica muestra, su varianza muestral tambin es un estimador centrado de s2:
Se suele representar por MST, se le denomina varianza total o cuadrados medios
totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y
se representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:
Fuente de variacin G.L. SS MS F
Entre grupos k-1 SSA SSA /(k-1) MSA /MSE

Tratamientos
Dentro (n-1)k SSE SSE /k(n-1)
Error
Total kn-1 SST
F se usa para realizar el contraste de la hiptesis de medias iguales. La regin

crtica para dicho contraste es F > Fa(k-1,(n-1)k)
22
Ejemplos
Con los datos de la encuesta sobre transporte, Enctrans. sav, razonar si puede
aceptarse que el tipo de transporte utilizado, Trans, influye sobre la variable tiempo.
Con la opcin de men Grficos > Barras de error > Simple y con el botn Definir se
selecciona como Variable Tiempo y en Eje de categoras la variable Trans; al aceptar
se obtiene la siguiente representacin grfica:
Como puede observarse, los puntos que representan a las medias de cada grupo
aparecen dispersos a diferentes niveles; sobre todo la media del grupo definido por el
factor Tren. El intervalo de confianza para la media correspondiente al grupo definido
por el factor Metro est contenido dentro del intervalo correspondiente al grupo definido
por el factor Bus, as como, el intervalo correspondiente al factor Coche est contenido
dentro de los intervalos correspondientes definidos por los factores Metro y Otros. El
grfico, por tanto, parece sugerir no una nica poblacin sino tres poblaciones con
distintas medias.
Para realizar el anlisis de la varianza propiamente dicho la secuencia es Analizar >
Comparar medias > ANOVA de un factor. En el cuadro de dilogo se selecciona
Tiempo como variable Dependiente y Trans como Factor. Para contrastar la hiptesis
23
de igualdad de varianzas se abre con el botn correspondiente el cuadro de
dilogo ANOVA de un factor: Opciones y se activa Homogeneidad de varianzas. Si se
desea un anlisis descriptivo del comportamiento de la variable dependiente dentro de
cada grupo se activa tambin la opcin Descriptivos. Al aceptar se obtienen los
siguientes cuadros de resultados:
Este cuadro contiene un anlisis descriptivo de la variable dependiente por grupos, as

como, los lmites superior e inferior para la media de cada grupo al 95% de confianza.
El estadstico de Levene toma un valor lo suficientemente pequeo para no rechazar

la hiptesis de homocesdaticidad a los niveles de significacin habitual.
24
En el cuadro de resultados del ANOVA, el valor del estadstico de prueba, F=6,450, es
significativamente distinto de 1 para cualquier nivel de significacin y, por lo tanto, se
rechaza la hiptesis nula de igualdad de medias y queda confirmada la primera
impresin proporcionada por el grfico de barras de error.
SUMA DE CUADRADOS
No todo nmero puede ser representado como suma de dos cuadrados.

Pierre de Fermat (1601-1665) ,conocido como el padre de la Teora de Nmeros, en
carta de 25 de diciembre de 1640, dirigida a Marn Mersenne, fraile franciscano,
enunci el teorema que afirmaba que un nmero primo de la forma 4 n + 1 , puede
expresarse de una manera como suma de dos cuadrados. Aada, que si un nmero
primo, que es suma de dos cuadrados, se multiplica por otro primo que tambin es
suma de dos cuadrados, el producto sera la suma de dos cuadrados, de dos formas
distintas.
Fermat, tambin afirm, que ningn nmero primo de la forma 4n+3 puede expresarse
como suma de dos cuadrados.
Existe una frmula sencilla, ya usada por Diofanto : 2 2 2 2 2 2 2 2
(a + b) (c + d) = ( a c + b d ) + ( a d - b c ) = ( a c - b d ) + ( a d + b c ) que permite
observar que el producto de dos nmeros ,que son suma de dos cuadrados , es
tambin suma de dos cuadrados.
Entre otros matemticos que estudiaron este problema, podemos citar a Bachet, en
sus comentarios al Libro de Diofanto, Franois Vite y Albert Girad (1595-1632).
Este afirmaba, que un nmero es suma de dos cuadrados, si es un cuadrado, o es el
2, o es 1 ms mltiplo de 4, o un producto de tales nmeros. La parte difcil de este
Teorema, es probar qu condiciones son suficientes.
25
Para el modelo, puede elegir un tipo de suma de cuadrados. El Tipo III es el ms
utilizado y es el tipo predeterminado.
Tipo I.
Este mtodo tambin se conoce como el mtodo de descomposicin jerrquica de la

suma de cuadrados. Cada trmino se corrige slo respecto al trmino que le precede
en el modelo. El mtodo Tipo I para la obtencin de sumas de cuadrados se utiliza
normalmente para:
Un modelo ANOVA equilibrado en el que se especifica cualquier efecto principal antes
de cualquier efecto de interaccin de primer orden, cualquier efecto de interaccin de
primer orden se especifica antes de cualquier efecto de interaccin de segundo orden,
y as sucesivamente.
Un modelo de regresin polinmica en el que se especifica cualquier trmino de orden
inferior antes que cualquier trmino de orden superior.
Un modelo puramente anidado en el que el primer efecto especificado est anidado
dentro del segundo efecto especificado, el segundo efecto especificado est anidado
dentro del tercero, y as sucesivamente. Esta forma de anidamiento solamente puede
especificarse utilizando la sintaxis.
Tipo II.
Este mtodo calcula cada suma de cuadrados del modelo considerando slo los
efectos pertinentes. Un efecto pertinente es el que corresponde a todos los efectos
que no contienen el que se est examinando. El mtodo de suma de cuadrados de
Tipo II se utiliza normalmente para:
Un modelo ANOVA equilibrado.
Cualquier modelo que slo tenga efectos de factor principal.
Cualquier modelo de regresin.
Un diseo puramente anidado (esta forma de anidamiento solamente puede
especificarse utilizando la sintaxis).
26
Tipo III.
Es el mtodo predeterminado. Este mtodo calcula las sumas de cuadrados de un

efecto de diseo como las sumas de cuadrados, corregidas respecto a cualquier otro
efecto que no contenga el efecto, y ortogonales a cualquier efecto (si existe) que
contenga el efecto. Las sumas de cuadrados de Tipo III tienen una gran ventaja por
ser invariables respecto a las frecuencias de casilla, siempre que la forma general de
estimabilidad permanezca constante. As, este tipo de sumas de cuadrados se suele
considerar de gran utilidad para un modelo no equilibrado sin casillas perdidas. En un
diseo factorial sin casillas perdidas, este mtodo equivale a la tcnica de cuadrados
ponderados de las medias de Yates. El mtodo de suma de cuadrados de Tipo III se
utiliza normalmente para:
Cualquiera de los modelos que aparecen en los tipos I y II.
Cualquier modelo equilibrado o desequilibrado sin casillas vacas.
Tipo IV.
Este mtodo est diseado para una situacin en la que hay casillas perdidas. Para
cualquier efecto F en el diseo, si F no est contenida en cualquier otro efecto,
entonces Tipo IV = Tipo III = Tipo II. Cuando F est contenida en otros efectos, el Tipo
IV distribuye equitativamente los contrastes que se realizan entre los parmetros
en F a todos los efectos de nivel superior. El mtodo de suma de cuadrados de Tipo I
se utiliza normalmente para:
Cualquiera de los modelos que aparecen en los tipos I y II.
Cualquier modelo equilibrado o no equilibrado con casillas vacas.
27
APUNTES EN CLASE
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
CONCLUSIN
La estadstica inferencial es la tcnica de la que se obtienen conclusiones en base a

la informacin parcial o incompleta que ya se obtuvo anteriormente mediante la
estadstica descriptiva; sta tiene como propsito dar una conclusin acertada de los
datos que se presentaron. Se puede decir que la estadstica desde los comienzos de
la civilizacin han existido formas sencillas de estadstica, pues ya se utilizaban
representaciones grficas y otros smbolos para contar el nmero de personas,
animales o ciertas cosas.
La estadstica trata en primer lugar, de acumular la masa de datos numricos

provenientes de la observacin de multitud de fenmenos, procesndolos de forma
razonable. Mediante la teora de la probabilidad analiza y explora la estructura
matemtica subyacente al fenmeno del que estos datos provienen y, trata de sacar
conclusiones y predicciones que ayuden al mejor aprovechamiento del fenmeno.
53
BIBLIOGRAFIA
Digital
http://metodologiaeninvestigacion.blogspot.com/2010/07/poblacion-y-muestra.html
https://es.wikipedia.org/wiki/Nivel_de_confianza
https://es.wikipedia.org/wiki/Intervalo_de_confianza
http://www.geocities.ws/maag111063/calidad36.html
http://enciclopedia.us.es/index.php/Error_beta
https://explorable.com/es/hipotesis-nula
https://explorable.com/es/hipotesis-de-investigacion
http://www.matematicasvisuales.com/html/probabilidad/varaleat/tstudentprob.html
https://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Distribuci%C3%B3n_t_de_
Student
http://www.hrc.es/bioest/Anova_2.html
http://www.ub.edu/aplica_infor/spss/cap4-7.htm
http://html.rincondelvago.com/suma-de-cuadrados.html
http://www.edukanda.es/mediatecaweb/data/zip/940/page_07.htm
http://www.ub.edu/dppss/pg/gidcav/unitat1/mueserromu1.htm
54

Introducción a la Inferencia Estadística: Población, Muestra y Errores

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introducción a la Inferencia Estadística: Población, Muestra y Errores

Transféré par

Droits d'auteur :

Formats disponibles

INTRODUCCIN

Dicho de otra forma, la finalidad de la Inferencia estadstica es obtener informacin

La estadstica inferencial es necesaria cuando queremos hacer alguna afirmacin

El concepto de poblacin en estadstica va ms all de lo que comnmente se conoce

"Una poblacin es un conjunto de elementos que presentan una caracterstica comn".

El tamao que tiene una poblacin es un factor de suma importancia en el proceso de

Cuando la poblacin es muy grande, es obvio que la observacin y/o medicin de

rvables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo

Tiempo: se refiere al perodo de tiempo donde se ubicara la poblacin de inters.

Espacio: se refiere al lugar donde se ubica la poblacin de inters. Un estudio no

Cantidad: se refiere al tamao de la poblacin. El tamao de la poblacin es

La muestra es un subconjunto fielmente representativo de la poblacin.

Estratificada: cuando se subdivide en estratos o subgrupos segn las variables o

Sistemtica: cuando se establece un patrn o criterio al seleccionar la muestra.

El muestreo es indispensable para el investigador ya que es imposible entrevistar a

El tamao de la muestra depende de la precisin con que el investigador desea llevar

En la investigacin experimental, por su naturaleza y por la necesidad de tener control

En la investigacin descriptiva se emplean muestras grandes y algunas veces se

Cuando se habla de error muestral no se refiere a este error muestral real, no

Ventajas del muestreo comparadas con el censo

a. Costo reducido. Si la informacin se obtiene nicamente para una parte de la

Esto no es ms que el procedimiento empleado para obtener una o ms muestras de una

Este se realiza una vez que se ha establecido un marco muestral representativo de la

Existen dos mtodos para seleccionar muestras de poblaciones; el muestreo no aleatorio o de

El tipo de muestra que se seleccione depender de la calidad y cun representativo se quiera

El nivel de confianza se indica por 1- y habitualmente se da en porcentaje (1-)%.

Para un nivel de confianza del 98%,

Intervalo de confianza para la media de una poblacin

De una poblacin de media y desviacin tpica se pueden

Si estandarizamos, se sigue que:

Se desea obtener una expresin tal que

Para ello se necesita calcular el punto o, mejor dicho, su versin

Dicho punto es el nmero tal que:

Y en la versin estandarizada se cumple que:

Haciendo operaciones es posible despejar para obtener el intervalo:

De lo cual se obtendr el intervalo de confianza:

Obsrvese que el intervalo de confianza viene dado por la media muestral el

producto del valor crtico por el error estndar .

, donde s es la desviacin tpica de una muestra.

En la demostracin de estas frmulas estn involucrados el Teorema Central del

ERROR TIPO BETA

ERROR TIPO ALFA

A la desviacin estndar de la distribucin muestral de un estadstico se le

Tambin se puede hablar del error estndar de la varianza ), o de la mediana (

TEORA DE PEQUEAS MUESTRAS

En las unidades anteriores se manej el uso de la distribucin z, la cual se

En esta unidad se podrn utilizar muestras pequeas siempre y cuando la

A la teora de pequeas muestras tambin se le llama teora exacta del

Para definir grados de libertad se har referencia a la varianza muestral:

; y , entonces automticamente tenemos ,

Formular nuestra hiptesis nula

La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se

Muchos cientficos descuidan la hiptesis nula, suponiendo que es simplemente lo

Una hiptesis de investigacin es una declaracin que realizan los investigadores

Las distribuciones t de Student son parecidas a la normal. Se pueden utilizar para

La Distribucin t de Student, tiene por funcin de densidad:

Donde el parmetro n de , se denomina grados de libertad de la distribucin.

El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar

Bases del anlisis de la varianza

Supnganse k muestras aleatorias independientes, de tamao n, extradas de una

Fuente de variacin G.L. SS MS F

Entre grupos k-1 SSA SSA /(k-1) MSA /MSE