Vous êtes sur la page 1sur 43

ESTADÍSTICA APLICADA Inferencia estadística

INFERENCIA ESTADÍSTICA

INTRODUCCIÓN.
El empleo de encuestas es uno de los métodos de investigación más utilizados en
la actualidad. La realidad, en continuo cambio y con muchísimas opciones diferentes, es
muy difícil de abarcar en su totalidad. Por este motivo se hace necesario seleccionar una
parte lo más pequeña posible, pero representativa del total, en la que sea posible medir
las características deseadas. Esta necesidad ha obligado a crear un instrumento
matemático que llamamos muestreo.

Las muestras que se elijan para hacer un estudio deben ser lo más pequeñas
posible por exigencias de tiempo y coste. Además, el aumento del número de datos no
siempre acarrea una mayor certeza, ya que más importante que escoger muchos datos es
que los datos estén bien seleccionados, con el fin de que sean representativos de la
población que se desea estudiar. Se verá como el azar juega un papel importante en la
elección de la muestra para que ésta sea representativa.

En este tema estudiaremos dos parámetros de una población: la media de una


determinada característica numérica y la proporción o porcentaje de la población que
comparte un determinado rasgo común.

La inferencia estadística se basa en resultados de la teoría de la probabilidad, los


cuales nos aseguran, que al estudiar la media o la proporción de muestras, tomadas
adecuadamente en la población, estas características serán muy similares a las de la
población total.

El método de inferencia estadística hace estimaciones de lo que ocurre en toda la


población estudiando lo que ocurre en una parte de la misma (la muestra). Como se
pretende sacar conclusiones sobre el total de la población a partir de una muestra de la
misma, estas conclusiones estarán sujetas a error. La teoría de la probabilidad permite
también acompañar a la estimación muestral de una media o de una proporción, en una
población, de la probabilidad de que el error cometido no exceda de un determinado
valor, o del riesgo (probabilidad de equivocación) que se corre al aceptar o al rechazar
una hipótesis sobre los valores de la media o de la proporción de la población.

Ahora bien, la inferencia se hace a partir de muestras que deben estar


debidamente escogidas. Por esta razón trataremos previamente a los métodos de la
inferencia, las técnicas de muestreo, es decir, las diversas formas de poder seleccionar
una muestra que sea adecuada para realizar las inferencias, controlando el posible error.

Para trabajar este tema se necesita el manejo de los números combinatorios


como herramienta de cálculo y el conocimiento y uso de la distribución normal y sus
propiedades.

Finalmente, insistir en la importancia de la inferencia estadística como disciplina


fundamental en todas las áreas científicas, tanto naturales como sociales.

Sandoval - Alonzo Torres 1


ESTADÍSTICA APLICADA Inferencia estadística

POBLACIÓN Y MUESTRA.

En el campo de la Estadística el concepto de población se encuentra próximo a


la noción general de grupo o conjunto.

Definición.

POBLACIÓN.
Se llama población o universo a cualquier conjunto, colectivo o
colección finita o infinita de individuos o elementos.

Una población puede ser, no sólo un conjunto de personas, sino también un


conjunto de animales, objetos, fenómenos, medidas, .....

Ejemplo:
Si pasamos un test a todos los alumnos españoles de una determinada edad, los
resultados obtenidos constituyen una población de medidas de la capacidad a la que se
derige el test.

Definición.

CENSO.
Se da el nombre de censo a la enumeración y anotación de ciertas
características de todos los elementos de una población.

Ejemplo:
El profesor-tutor de un grupo de un instituto realiza un listado de los alumnos/as
de su tutoría, en la incluye, nombre y apellidos, nombre de los padres, domicilio,
teléfono, número de hermanos y asignaturas pendientes del curso anterior. Este sería un
ejemplo de censo de la población formada por el alumnado del grupo en cuestión.

Las poblaciones en Estadística pueden ser finitas o infinitas. Una población es


finita cuando consta de un número limitado de unidades, y una población es infinita
cuando su tamaño es indefinidamente grande.

Ejemplo:
- Si consideramos el número de hermanos que tienen los alumnos/as de un
curso de un instituto determinado, estaríamos hablando de una población
finita. Habría tantos valores como alumnos/as haya en dicho curso.
- Si obtenemos una serie de medidas del tiempo que tarda un alumno en
resolver una división de dos cifras, estas medidas pueden consideradas parte
de un conjunto mucho mayor, de tamaño indefinidamente grande,
constituido por todas las medidas que obtendríamos si repitiésemos la
experiencia una y otra vez.
- Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos el
valor de la cara superior. Tal experiencia puede ser repetidamente hasta el
infinito, por lo que cualquier conjunto de resultados podría ser considerado
una parte extraída de una población indefinidamente grande.
En definitiva, con frecuencia, las poblaciones en Estadística suelen ser
consideradas infinitas.

Sandoval - Alonzo Torres 2


ESTADÍSTICA APLICADA Inferencia estadística

El gran tamaño que presentan algunas poblaciones es precisamente la principal


razón que hace recomendable reducir su estudio a muestras obtenidas de ellas.

Definición.

MUESTRA.
Se define muestra como una parte o subconjunto de una población,
debidamente elegida, que se somete a observación científica en representación
de la misma, con el propósito de obtener resultados válidos para el total de la
población.

Para que una muestra se considere válida debe cumplir que:

 Su tamaño sea proporcional al tamaño de la población.


 No haya distorsión en la elección de los elementos de la muestra.
 Sea representativa.

Un estudio exhaustivo cuyos datos se utilizan para multitud de trabajos e


investigaciones es el Censo de Población. Requiere un gran esfuerzo tanto económico
como de medios y en él se recaba información de todos los habitantes de un país. Sin
embargo, para el conocimiento de algunas características de la población, se utilizan
métodos alternativos que reducen el costo y el tiempo. Los modelos reducidos de la
población, constituidos por las muestras, tienen como finalidad obtener resultados que
puedan ser aplicables (extrapolables) a la población.

Las principales razones que inducen a tomar muestras son:

a) El coste temporal. Estudiar una población de tamaño considerable exige una


dedicación de tiempo que retrasaría enormemente las investigaciones en
marcha y prolongaría en exceso la realización de los estudios. A veces, esto
último podría entrar además en conflicto con el carácter vivo, cambiante, en
continua evolución de las realidades que ocupan el interés de los
investigadores en el campo de las ciencias sociales, cuyo estudio desde una
perspectiva sincrónica, requiere la concreción en segmentos temporales
limitados. Por ejemplo, si queremos saber cómo ha afectado a la intención de
voto de los españoles determinadas declaraciones de un destacado líder
político no disponemos de un tiempo indefinido, porque otros hechos o
declaraciones posteriores influirían en las opiniones y tendencias de la
población. En este caso, sería necesario recurrir a un muestreo que permita
abordar el estudio con un bajo coste temporal.
b) El coste económico. La inversión en recursos temporales y humanos
necesaria para abordar algunos problemas de investigación sería elevada si
pretendiéramos abarcar a la población. La recogida de los datos que
posteriormente van a ser analizados estadísticamente requiere desplegar
estrategias que exigen disponer de recursos. El envío de cuestionarios por
correo, la realización de entrevistas por parte de personas especializadas, el
desplazamiento de observadores a los lugares estudiados, etc., suponen un
coste económico que queda reducido si nos limitamos al estudio de una
muestra extraída de la población.

Sandoval - Alonzo Torres 3


ESTADÍSTICA APLICADA Inferencia estadística

c) El impacto sobre la realidad estudiada. Cuando el estudio realizado pudiera


provocar efectos en los sujetos, parece adecuado limitar la realización de
experimentos a ámbitos reducidos. Por ejemplo, la medición de los
resultados de un nuevo método de aprendizaje de la lectura habría de hacerse
sobre un número reducido de alumnos, sin extender a toda la población la
nueva metodología hasta no confirmar los resultados positivos de la misma.
d) Una población homogénea. Si la población es homogénea se pueden obtener
muy buenos resultados a partir de cualquier muestra.
e) La falta de personal. Si no se dispone de suficiente personal preparado para
llevar a cabo un estudio exhaustivo, también resulta aconsejables hacer un
muestreo.

Por otro lado, el uso del muestreo presenta limitaciones, entre estas destacamos:

a) El riesgo que supone la toma de una muestra que pueda no ser representativa.
b) Cuando es necesaria información de todos los elementos de la población.
c) Cuando no se domina bien la técnica de muestreo.
d) Cuando la población esté formada por un número muy pequeño de
elementos, ya que una ligera equivocación en la toma de la muestra puede
originar grandes errores.

Para el investigador tienen especial interés las muestras en la medida en que


permiten generalizar los resultados de un estudio a las poblaciones de las que fueron
extraídas. Para que ello sea posible es necesario que el muestreo se realice siguiendo
determinados procedimientos que garanticen la representatividad de la muestra y, por
tanto, las posibilidades de generalización.

PARÁMETRO Y ESTIMADOR DE UN PARÁMETRO.

La Estadística Descriptiva se ocupa del estudio de series de puntuaciones, para


las cuales se calculan las medias, varianza, desviación típica, etc.

Definición.

PARÁMETRO.
Se denomina parámetro a todo valor que sirva para describir un
conjunto de datos.

Ejemplo:
Supongamos que tenemos la estatura, medida en centímetros, de un grupo de
diez jóvenes: {170, 172, 180, 175, 178, 194, 178, 165, 170, 178}. La estatura media es
de 176 centímetros y la desviación típica es (aproximadamente) de 7.5 centímetros. La
media y la desviación típica son valores que describen al conjunto de estaturas, y serían
ejemplos de parámetros.

En cambio, en la Estadística Inferencial se estudian conjuntos de puntuaciones,


las muestras, con el fin de generalizar los resultados a conjuntos de puntuaciones más
amplios, las poblaciones, de las que fueron extraídos.

Sandoval - Alonzo Torres 4


ESTADÍSTICA APLICADA Inferencia estadística

Definición.

ESTADÍSTICO Y ESTIMADOR DE UN ESTADÍSTICO.


Los valores que describen a las poblaciones recibirán el nombre de
parámetros o estadísticos, mientras que las medidas que describen el
comportamiento de una muestra se denomina estimador del parámetro o
estimador del estadístico.

Ejemplo:
A partir del valor alcanzado por la media en una muestra podríamos intentar
estimar el valor de la media de en la población. Así, si los diez jóvenes del ejemplo
anterior son alumnos/as elegidos al azar de una escuela de baloncesto, intentaríamos
deducir la estatura media de los integrantes de dicha escuela, tomando como referencia
los 176 centímetros obtenidos.

TIPOS DE MUESTREO.

Definición.

MUESTREO.
Se llama muestreo al procedimiento mediante el cual elegimos a las
unidades estadísticas que forman la muestra, dentro del conjunto que constituye
la población.

Diremos que el muestreo es probabilístico cuando todos los elementos


de la población poseen un probabilidad conocida (o calculada de antemano), no
nula, de ser elegidos para formar parte de la muestra. Se contrapone al llamado
muestreo no probabilístico, en el que, o bien no se conoce la probabilidad de
que los elementos de la población sean seleccionados para la muestra, o bien
para parte de ellos esta probabilidad es nula y, por tanto, no es posible llevar a
cabo inferencias estadísticas.

Lógicamente, el muestreo que se encuentra en la base de la mayoría de los


métodos de la Estadística Inferencial es el muestreo probabilístico. Para llevarlo a cabo
es necesario que la selección pueda considerarse como una prueba o experimento
aleatorio o de azar, de los que constituyen la base de la teoría de la probabilidad en la
cual se fundamenta la estadística matemática.

Las generalizaciones de resultados, a partir del estudio de muestras extraídas


mediante procedimientos de muestreo no probabilístico, nos impiden conocer el margen
de error con el que hacemos las generalizaciones a la población. En cambio, el muestreo
probabilítico permite hacer inferencias sobre la población, y gracias a los
procedimientos de la Estadística Inferencial podemos conocer el error con el que se
realizan las generalizaciones.

En las páginas siguientes, se describen muestreos probabilísticos (muestreo


aleatorio con y sin reposición, muestreo aleatorio sistemático, muestreo estratificado,
muestreo por conglomerados, muestreo polietápico) y muestreos no probabilíticos
(muestreo intencional, por cuotas, incidental y accidental), pero antes incluiremos dos

Sandoval - Alonzo Torres 5


ESTADÍSTICA APLICADA Inferencia estadística

conceptos que aparecen al referirnos al muestreo: factor o coeficiente de elevación y


fracción de muestreo.

Definiciones.

FACTOR DE ELEVACIÓN.
Se denomina factor o coeficiente de elevación al cociente entre el
N
tamaño de la población y el tamaño de la muestra, . Representa el número de
n
elementos que hay en la población por cada elemento de la muestra.

FRACCIÓN DE MUESTREO.
Se denomina fracción de muestreo al cociente entre el tamaño de la
n
muestra y el tamaño de la población, . Si se multiplica por 100, representa el
N
porcentaje de la población que representa la muestra.

A) MUESTREOS PROBABILÍSTICOS.

Muestreo aleatorio simple con y sin reposición. Se denomina muestreo


aleatorio simple a aquel en que todos los elementos de la población tienen la misma
probabilidad de formar parte de la muestra y ésta es determinada únicamente por el
azar. Se trata de un tipo de muestreo probabilístico que permite con facilidad llevar a
cabo inferencias estadísticas y calcular la probabilidad de error asociada a las mismas.

Concretando, el muestreo aleatorio simple consiste en seleccionar n elementos


con o sin reemplazamiento de entre los N elementos que componen la población, de tal
modo que todas las muestras de tamaño n que se puedan formar tengan la misma
probabilidad de ser elegidas.

Si la muestra se selecciona sin reemplazamiento (es decir, cuando un elemento


ha sido extraído queda descartado de cara a la siguiente extracción) se habla de
muestreo aleatorio sin reposición, también llamado muestreo irrestrictamente
aleatorio.

Si la muestra se selecciona con reemplazamiento (es decir, el elemento elegido


en cada extracción vuelve a ser incluido en la población antes de extraer el siguiente
elemento) se habla de muestreo aleatorio con reposición, también llamado
generalmente muestreo aleatorio simple.

Si bien los dos métodos son distintos, cuando el tamaño de la población es


infinito o tan grande que pueda considerarse como infinito, ambos métodos llegan a las
n
mismas conclusiones. Si la fracción de muestreo es mayor de 0.1 (se muestrea más
N
del 10 % de la población) la diferencia entre ambos métodos puede ser apreciable,
llegando a conclusiones contradictorias según se aplique un método u otro.

Sandoval - Alonzo Torres 6


ESTADÍSTICA APLICADA Inferencia estadística

Ejemplo:
En el muestreo aleatorio sin reposición, el número de muestras de tamaño n que
N
se pueden formar es:   , y, por tanto, la probabilidad de elegir una muestra
n
determinada es: p 
1

N  n! · n! .
N N!
 
n

La probabilidad de que un elemento determinado de la población forme parte de


n
la muestra viene dada por p  .
N

En efecto:
 N  1
 
casos favorables  n  1  N  1! · N  n! · n! n
p    .
casos posibles N N  n! · n  1! · N! N
 
n

En la práctica el procedimiento de muestreo aleatorio consiste en extraer al azar


los elementos que constituyen la muestra, obteniendo la muestra unidad a unidad. Para
ello, si la población es finita, se enumeran los elementos de la población desde 1 hasta
N, y se extraen a continuación n elementos usando una urna o un bombo. Este
procedimiento, aunque sencillo, requiere tener unos medios materiales: un bombo o una
urna, papeles numerados o bolas numeradas, etc., por lo que se suelen utilizar otras
alternativas como las tablas de números aleatorios o la generación de números aleatorios
con la calculadora.

Las tablas de números aleatorios son tablas de números colocados de tal forma
que no exista ninguna relación entre ellos sea cual sea el sentido en que los leamos. Al
final de los contenidos teóricos de este tema aparece una tabla de números aleatorios.

Ejemplo:
Si en una población de 834 individuos deseamos extraer una muestra de 42,
asignaríamos un número a cada uno de los 834 elementos de la población. Para
determinar los 42 elementos de la muestra, marcaríamos un número en la tabla de
números aleatorios al azar y a partir de éste leeríamos en dicha tabla números de tres
dígitos en cualquier dirección, desestimando los que superen 834.

También podríamos encontrar estos 42 números generando números de forma


aleatoria con la calculadora. Así:
- Con la calculadora Texas Instruments TI-92, utilizando la orden “rand(834)”,
obtendríamos números entre 1 y 834.
- Con la calculadora CASIO fx-180P, debemos utilizar la sucesión de teclas,
“INV” “(·) RAN”, y descartamos los números que superen 834.

Sandoval - Alonzo Torres 7


ESTADÍSTICA APLICADA Inferencia estadística

Muestreo aleatorio sistemático. El muestreo aleatorio sistemático resulta ser un


procedimiento más cómodo que el muestreo aleatorio, con o sin reposición, cuando la
población o la muestra que vamos a extraer son grandes. En lugar de recurrir a
papeletas, bolas, tablas de números aleatorios o calculadora, puede determinarse la
muestra eligiendo sistemáticamente, en una relación ordenada de los individuos de la
población, aquellos que se encuentren a una distancia determinada. Suponiendo que el
tamaño de la muestra es N y que la muestra que queramos extraer constara de n
individuos, procederíamos del siguiente modo:

N
a) Calculamos el coeficiente de elevación, k .
n
b) Elegimos aleatoriamente un número m comprendido entre 1 y k.
c) Determinamos la muestra sumándole repetidamente k al número, m,
elegido.

La muestra estará constituida por los individuos:

m, m  k , m  2k , m  3k , ........, m  n  1k

Para que la muestra conserve el carácter aleatorio, debemos procurar que la


ordenación de los individuos de la población no presente tendencias que hagan recaer la
elección sistemática sobre unidades que no sean representativas de la heterogeneidad de
la población.

Ejemplo:
Supongamos que queremos hacer una investigación en un instituto de 720
alumnos y alumnas, de los que queremos tomar una muestra de 80 individuos. En
primer lugar, ordenar todos los alumnos y alumnas alfabéticamente sería un buen
criterio de ordenación. Sin embargo, disponer los alumnos situando una tras otra las
listas de los alumnos/as de cada clase, en las que estos aparezcan por orden de
calificaciones, podría llevar a que se seleccionaran sistemáticamente los alumnos/as con
calificaciones altas y no los de las calificaciones bajas, o viceversa.
Una vez ordenados adecuadamente, calculamos el coeficiente o factor de
720
elevación  9 . Elegimos aleatoriamente un número entre 1 y 9 (tabla de números
80
aleatorios, calculadora, .....). Si el número obtenido fuese 6, los individuos
seleccionados serían:
{6, 15 (= 6+9), 24 (= 6+2 · 9), 33 (=6+3 · 9), ........, 717 (=6+79 · 9)}

Evidentemente, k no suele ser un número entero. Si se desprecian los decimales


ocurrirá que una parte de los sujetos que se encuentran al final de la ordenación pierden
toda posibilidad de ser elegidos. Una solución podría consistir en mantener los
decimales del coeficiente k y redondear el resultado de las sumas al número entero más
próximo, una vez que se han realizado todas ellas. Otra sería, sumar alternativamente las
cantidades Ent(k) y Ent(k) +1.

Además del procedimiento que acabamos de exponer, existen otras formas de


muestreo que también se consideran muestreos sistemáticos. Por ejemplo, para elegir
una muestra de personas, podemos seleccionar una o varias letras del abecedario y
tomar como muestra todos los sujetos cuyo apellido comience por esa(s) letra(s).

Sandoval - Alonzo Torres 8


ESTADÍSTICA APLICADA Inferencia estadística

Muestreo estratificado. El muestreo estratificado se realiza cuando queremos


garantizar cierta representatividad de la muestra respecto de alguna característica. Para
ello, en función de esa característica, dividimos la población de tamaño N en K estratos
o subpoblaciones de tamaños respectivos N1 , N 2 , N3 , ........, N K y elegimos de forma
aleatoria (mediante sorteo, tablas, procedimientos sistemáticos, .....) submuestras de
tamaños n1 , n2 , n3 , ........, nk en cada estrato, asegurándonos de este modo de que
todas las subpoblaciones estarán representadas en la muestra. La muestra total será la
suma de las submuestras elegidas en cada estrato, es decir, n  n1  n2  n3  ........  nk .

Cabe diferenciar entre muestreo estratificado con asignación proporcional o de


afijación proporcional, muestreo estratificado con asignación constante o de afijación
igual y muestreo estratificado con asignación óptima.

En el muestreo estratificado con asignación proporcional, o de afijación


proporcional, se respeta la importancia cuantitativa de cada estrato, asignando en la
muestra un número de individuos proporcional al tamaño del estrato en la población.

n1 n n n n
 2  3  .......... ..  k 
N1 N 2 N 3 Nk N

En el muestreo estratificado con asignación constante, o de afijación igual,


todos los estratos contribuyen a la muestra con idéntico número de individuos, con
independencia de cual sea la importancia numérica de dicho estrato.

Finalmente, se habla de muestreo estratificado con asignación óptima cuando


la contribución de cada estrato se determina a partir de parámetros ya conocidos de la
población.

Ejemplo:
Se desea extraer una muestra de 60 alumnos y alumnas de un centro escolar en el
que hay 500 matriculados, de los que 300 son niños y 200 son niñas, para estimar la
estatura media.
 Si se utiliza un muestreo estratificado de afijación igual deberíamos
seleccionar 30 niños y 30 niñas.
 Si se utiliza un muestreo estratificado de asignación proporcional deberíamos
escoger 36 niños y 24 niñas.
 Si conocemos la variabilidad de la característica considerada, y sabemos que
la varianza en el caso de los alumnos es de 15 cm y en las alumnas 5 cm, la
proporción de alumnos a alumnas sería de 3 : 1, y usando un muestreo
estratificado de asignación óptima, los tamaños de las submuestras deberían
ser de 45 niños y 15 niñas.

Lógicamente, el menos recomendable de los tres tipos de muestreo estratificado


es el de asignación constante, ya que asigna el mismo tamaño a cada estrato, y como
consecuencia se favorece a los estratos de menor tamaño y perjudica a los grandes, en
cuanto a la precisión de los resultados que obtengamos.

Sandoval - Alonzo Torres 9


ESTADÍSTICA APLICADA Inferencia estadística

Muestreo por conglomerados. El muestreo por conglomerados se utiliza


cuando las unidades de la población presentan alguna forma de agrupamiento, que
permite elegir grupos en lugar de individuos. De esta forma, el acceso a la muestra
queda facilitado considerablemente, al quedar reunidos en una serie de grupos los
individuos que la constituyen. Al realizar el muestreo, seleccionaríamos aleatoriamente
una serie de grupos o conglomerados, tratando de reunir el número total de individuos
que pretendemos incluir en la muestra. Los conglomerados deben ser lo más
representativos posible de la población, es decir, deben representar la heterogeneidad de
la población del estudio y ser entre sí homogéneos.

Este procedimiento no requiere construir censos o listados completos de los


elementos de la población, que son sustituidos en este caso por los censos de
conglomerados. En realidad, el muestreo por conglomerados no es más que la
aplicación de los muestreos aleatorios con o sin reposición, sistemático o estratificado al
caso en que la unidad de muestreo no son los individuos sino los grupos de individuos.
Usando este procedimiento se evita la dispersión de unidades a la que conducen otros
tipos de muestreo, y se reducen los costes y el tiempo de un trabajo de recogida de
datos.

Cuando los conglomerados se corresponden con zonas geográficas, y se define


el conglomerado como un área o parte bien limitada del terreno, se denomina muestreo
por áreas.

Ejemplo:
Si queremos hacer un estudio sobre la influencia de un determinado pienso en el
engorde de cerdos criados en granjas, podemos seleccionar aleatoriamente las granjas y
luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cada
granja o de una muestra representativa de la población de cerdos de la misma.

Muestreo polietápico. En el muestreo polietápico las unidades que finalmente


componen la muestra se determinan en etapas sucesivas. Se trata de un caso particular
del muestreo por conglomerados, en el que la unidad final no son los conglomerados
sino subdivisiones de éstos. Por tanto, será interesante aplicarlo cuando los
conglomerados contengan un elevado número de individuos y resulte aconsejable hacer
una selección entre ellos.

Si únicamente desarrollamos dos etapas, muestreo bietápico, el procedimiento


consistiría en la selección de los conglomerados en la primera etapa, y la selección de
los individuos en la segunda.

No obstante, el muestreo polietápico puede extenderse a más de dos etapas


dando lugar a una selección sucesiva de unidades cada vez menores, que están
jerarquizadas de tal modo que la unidades de la primera etapa son divisibles en unidades
de la segunda etapa, éstas a su vez en unidades de la tercera etapa, y así hasta alcanzar
las unidades que finalmente constituirán la muestra. Estas unidades finales no
necesariamente han de ser los individuos.

En cada etapa, la selección de las unidades podrá hacerse siguiendo


procedimientos de muestreo aleatorio, sistemático o estratificado.

Sandoval - Alonzo Torres 10


ESTADÍSTICA APLICADA Inferencia estadística

Ejemplo:
En el ejemplo anterior referido al estudio sobre la influencia de un determinado
pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de toda
España. Entonces, en una primera etapa, podríamos seleccionar de forma aleatoria una
serie de provincias; en segundo lugar, en cada una de las provincias seleccionar también
aleatoriamente algunas comarcas (bien delimitadas); posteriormente, dentro de cada
comarca elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar
todos los cerdos o una muestra de ellos elegida adecuadamente.

B) MUESTREOS NO PROBABILÍSTICOS.

Muestreo intencional u opinático. En el muestreo intencional u opinático la


representatividad depende de la intención u opinión de la persona que selecciona la
muestra, y que, según su criterio, procura que sea representativa. Por tanto, la
evaluación de la representatividad es subjetiva. En este caso, la composición de la
muestra puede estar influida por las preferencias o tendencias, aun las inconscientes, del
individuo que la obtiene, y no sólo por factores objetivos que son los que deben tenerse
en cuenta de modo riguroso, como ocurre en el muestreo probabilístico.

Ejemplo:
Se pretende hacer una encuesta en un instituto, entre los alumnos de 4º de
E.S.O., para saber la modalidad de Bachillerato que seguirán los que continúen
estudiando. El Jefe de Estudios pregunta a unos cuantos alumnos de cada grupo de 4º de
E.S.O., con el único criterio de que piensa que esos seguirán estudiando.

Este tipo de muestreo carece, pues, de una base teórica satisfactoria a pesar de lo
cual su uso está bastante generalizado, especialmente el llamado muestreo por cuotas.

Muestreo por cuotas. En el muestreo por cuotas, el investigador establece


estratos de la población, determina el número de individuos a seleccionar en cada uno
de ellos y elige intencionadamente individuos para completar las cuotas establecidas. Se
asemeja al muestreo por estratos en cuanto que supone un conocimiento previo de la
población, que permite diferenciar segmentos o estratos dentro de la misma, pero se
distancia de aquel por el hecho de que aquí los individuos que constituyen la cuota
aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en
función de otros criterios (accesibilidad, comodidad, economía, etc.). La única
condición impuesta es que los individuos cumplan los requisitos fijados en las cuotas.

Ejemplo:
El agente visitador o entrevistador recoge información de personas o familias en
número proporcional al de las que cumplen determinadas condiciones en la población, y
puede elegirlas a su arbitrio dentro de grupos establecidos por sexo, edad o ciertos
niveles socioeconómicos. Así, se podría fijar que el 15 % de la muestra ha de constar de
mujeres que tengan menos de 40 años, sean de clase media y habiten en determinado
barrio, y esta sería la única condición para seleccionar este 15 % de la muestra.

El muestreo por cuotas no es un muestreo probabilístico, y por tanto, no permite


llevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido.

Sandoval - Alonzo Torres 11


ESTADÍSTICA APLICADA Inferencia estadística

Muestreo incidental. En el muestreo incidental el investigador determina


deliberadamente qué individuos formarán parte de la muestra, tratando de recoger a los
casos considerados típicamente representativos de la población. Los criterios de
elección suelen basarse generalmente en el conocimiento teórico sobre el tema de
estudio. Pero, en definitiva, a pesar de la posible buena intención y conocimiento del
tema y de la población que tenga el investigador, la muestra no servirá para hacer
inferencias a toda la población ya que siempre cabe que pueda estar distorsionada por
tendencias o preferencias subconscientes o inconscientes del investigador.

Ejemplo:
Para estimar el problema de absentismo escolar, un investigador puede
seleccionar los alumnos de un centro situado en una zona de trabajadores agrícolas
temporeros que han de desplazarse en determinadas épocas del año, los alumnos de un
centro situado en una barriada marginal de una gran ciudad y los de un centro
residencial, dado que por su conocimiento teórico del problema sabe que éstos
representan los diferentes tipos de comportamientos en relación con la asistencia a
clase.

Muestreo accidental. En el muestreo accidental, también llamado sin norma,


circunstancial o errático, se seleccionan determinados individuos o grupos de
individuos sin que exista ningún criterio aparente. La muestra se toma de cualquier
manera, a la aventura, por razones de comodidad o por las circunstancias que rodean al
proceso o a capricho. Este tipo de muestreo se considera el más alejado de la posibilidad
de generalizar a la población los resultados obtenidos.

Sólo si la población es homogénea la representatividad de la muestra puede ser


satisfactoria. A veces la uniformidad puede sustituirse por una buena mezcla antes de
tomar muestras, como en el caso de los avisos “agítese antes de usar”, o bien cuando se
barajan los naipes o se hacen girar las bolas dentro de un bombo.

Ejemplo:
Estas muestras se emplean a menudo en la vida corriente, por ejemplo, en el
comercio cuando se supone que un trozo de tela o un sorbo de vino, representa bien a
los artículos completos. Por otra parte, influye en la adopción de este procedimiento en
estas cuestiones de la realidad cotidiana el hecho de que, en caso de equivocación, las
consecuencias no serían demasiado graves.

Una broma final.


El uso de un muestreo no probabilístico podría llevarnos a consecuencias
curiosas. Imaginemos un investigador que hace un estudio sobre la respuesta anímica
ante la lluvia. Este investigador está de vacaciones en un complejo turístico de Vera,
durante una semana de principios de otoño. Sabe que en Almería la probabilidad de que
llueva es mínima. Curiosamente, aparecen las nubes y empieza a llover. Decide
aprovechar para recoger unas entrevistas de personas de una zona muy seca en la que
llueve. Pero como no tenía previsto que lloviera, no ha traído paraguas, y pregunta a las
personas que están en el bar social del complejo turístico. Todos se quejan de la lluvia.
“En Almería no debería llover”. Le sorprende la respuesta.... No ha tenido en cuenta que
la muestra ha de ser tomada aleatoriamente. Y, los turistas que vienen a Almería esperan
que el Sol forme parte del paisaje como el “desierto” de Tabernas.

Sandoval - Alonzo Torres 12


ESTADÍSTICA APLICADA Inferencia estadística

INFERENCIA ESTADÍSTICA.

Llamamos inferencia al paso de lo particular a lo general, no en el sentido de la


inducción completa utilizada en matemáticas, sino tal como se emplea en las ciencias de
la naturaleza. Se podría decir que es una afirmación relativa a poblaciones estadísticas,
efectuada a partir de ciertas observaciones con determinada medida de incertidumbre.
Podemos considerar como un problema crucial de la Estadística el de “inferir la
población” o afirmar algo sobre ella a partir de una muestra. Esto equivale a basar
conclusiones y/o decisiones en la ignorancia o incertidumbre parciales.

Para que la inferencia sea la más satisfactoria posible en una situación


determinada se emplean técnicas estadístico-matemáticas, que permiten estimar, por
medio de muestras, las características de una población, sustituyendo las conjeturas más
o menos ingeniosas por procedimientos objetivos cuya representatividad puede medirse.

En conclusión, el problema fundamental que trata de resolver la Inferencia


estadística es obtener de las propiedades de la muestra las de la población en estudio.

DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO.

Supongamos que en una población de tamaño N hemos atribuido a cada


elemento de la población un valor de acuerdo con determinada característica X que
hemos medido. Podemos seleccionar una muestra de tamaño n y calcular un estadístico,
por ejemplo, la media, para los n valores seleccionados. Si volvemos a extraer muestras
aleatorias y repetimos la operación sucesivamente, lograremos reunir un número
elevado de medias.

Con las medias obtenidas, podemos construir una distribución de frecuencias


para los valores de las medias, X . Pues bien, a medida que aumenta el número de
muestras extraídas de tamaño n, esa distribución se aproxima a una distribución teórica
que denominaremos distribución muestral del estadístico media.

Definición.

DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO.


La distribución muestral de un estadístico se define como la función
de probabilidad (o función de densidad de probabilidad) del estimador de ese
estadístico. Es decir, se trata de una función que expresa la probabilidad
asociada a cada posible valor del estadístico obtenido a partir de una muestra
aleatoria de tamaño n.

Ejemplo:
Para ilustrar este concepto, construiremos la distribución muestral del estadístico
media, X , cuando extraemos muestras aleatorias de tamaño 2 en una población
constituida por los valores {1, 2, 3}. La muestra estará formada por los valores de las
dos variables aleatorias: x1 (resultado de la primera selección) y x2 (resultado de la
segunda elección). A su vez, la media muestral X es también una variable aleatoria,
puesto que se obtiene por combinación lineal de las dos variables aleatorias x1 y x2 .

Sandoval - Alonzo Torres 13


ESTADÍSTICA APLICADA Inferencia estadística

Formaremos muestras de tamaño 2 recurriendo a dos vías diferentes:

a) Procedimiento empírico.- Seleccionamos al azar una muestra con reposición


de 2 elementos y calculamos su media. Repetimos el proceso hasta un total
de 20 veces. Los resultados de este proceso podrían ser, por ejemplo:

x1 1 1 2 2 2 1 2 3 3 1
x2 2 3 1 3 2 3 1 1 3 1
x 1.5 2 1.5 2.5 2 2 1.5 2 3 1

x1 1 2 3 3 2 1 1 3 3 1
x2 2 3 3 2 1 2 2 2 1 3
x 1.5 2.5 3 2.5 1.5 1.5 1.5 2.5 2 2

La distribución de frecuencias para los valores de la media


obtenidos quedaría tal y como muestra la siguiente tabla:

x ni fi
1 1 0.05
1.5 7 0.35
2 6 0.30
2.5 4 0.20
3 2 0.10

Así habremos construido una distribución muestral empírica.

b) Procedimiento teórico.- Sin tener que extraer repetidas muestras para


calcular la media de los valores que las componen, podemos construir una
distribución muestral teórica, valiéndonos de conceptos probabilísticos. Así
podemos determinar las 9 muestras aleatorias posibles con reposición a partir
de la población considerada y calcular las respectivas medias.

x1 1 1 1 2 2 2 3 3 3
x2 1 2 3 1 2 3 1 2 3
x 1 1.5 2 1.5 2 2.5 2 2.5 3

Teniendo en cuenta las medias de las nueve muestras posibles,


todas ellas equiprobables, puedo construir la función de probabilidad
para la variable aleatoria X .

x ni fi
1 1 1/9 = 0.11
1.5 7 2/9 = 0.22
2 6 3/9 = 0.33
2.5 4 2/9 = 0.22
3 2 1/9 = 0.11

Sandoval - Alonzo Torres 14


ESTADÍSTICA APLICADA Inferencia estadística

Conociendo esta distribución muestral teórica, se tiene que la probabilidad de


obtener el valor X  1 para la media de una muestra extraída al azar de la población es
 
p X  1  0'11 , mientras que la probabilidad de obtener el valor X  2 es
pX  2  0'33. Es decir, en un 11 % de los casos, la muestra tendrá como media 1 y
en un 33 % de los casos, el valor de la media de la muestra será 2.

Como afirmábamos anteriormente, la distribución muestral empírica de un


estadístico se aproxima a la distribución muestral teórica a medida que aumenta el
número de muestras extraídas. Las frecuencias relativas obtenidas empíricamente llegan
a coincidir con las probabilidades teóricas cuando el número de muestras crece
indefinidamente.

Veamos someramente otro ejemplo.

Supongamos que la población es P = {1, 2, 3, 5} y que representa el tiempo (en


horas diarias) que cada uno de un grupo de cuatro estudiantes de la universidad dedican
al estudio.

Siguiendo la misma técnica utilizada en ejemplo anterior tenemos:

a) El conjunto de muestras de tamaño 2 de la población P tiene 16 elementos


diferentes.

Medias de las muestras de tamaño 2.


1 2 3 5
1 1 1.5 2 3
2 1.5 2 2.5 3.5
3 2 2.5 3 4
5 3 3.5 4 5

La información que da la tabla anterior se puede organizar en una tabla


de distribución de frecuencias del siguiente modo:

Distribución de medias muestrales (n = 2)


x ni
1 1
1.5 2
2 3
2.5 2
3 3
3.5 2
4 2
5 1

Hemos construído la distribución muestral de medias de tamaño 2. Esa


distribución, igual que toda distribución, tiene gráfica de una determinada forma,
una media, una desviación típica, etc.

Sandoval - Alonzo Torres 15


ESTADÍSTICA APLICADA Inferencia estadística

b) El conjunto de muestras de tamaño 3 de la población P tiene 64 elementos


diferentes. Y procediendo de un modo análogo podemos obtener la siguiente
tabla:

Distribución de medias muestrales (n = 3)


x ni
1 1
4/3 3
5/3 6
2 7
7/3 9
8/3 9
3 10
10/3 6
11/3 6
4 3
13/3 3
5 1

Así hemos construido la distribución muestral de medias de tamaño 3.

c) Igual podemos hacer la distribución muestral de medias de tamaño 4. En este


caso hay 256 muestras diferentes.

Distribución de medias muestrales (n = 4)


x ni
1 1
5/4 4
6/4 10
7/4 16
2 23
9/4 28
10/4 34
11/4 32
3 31
13/4 24
14/4 22
15/4 12
4 10
17/4 4
18/4 4
5 1
T= 256

Sandoval - Alonzo Torres 16


ESTADÍSTICA APLICADA Inferencia estadística

En resumen, se han construido las tres distribuciones muestrales de


medias, asociadas con la población P. Las características de la población P y de
las tres distribuciones muestrales se exponen a continuación.

Tamaño Media Desviación Típica


Población 4 2.75 1.479016
Distribución muestral de medias, n = 2 16 2.75 1.045825
Distribución muestral de medias, n = 3 64 2.75 0.853912
Distribución muestral de medias, n = 4 256 2.75 0.73509

Distribución de la población.

Distribución de las medias de las muestras de tamaño 2.

Distribución de las medias de las muestras de tamaño 3.

Distribución de las medias de las muestras de tamaño 4.

Al observar las gráficas anteriores se comprueba que la gráfica de la población


es uniforme y los diagramas de las distribuciones muestrales van aproximándose a la
curva normal a medida que el tamaño de las muestras se aumenta.

También vemos que las medias de las cuatro distribuciones coinciden, y en


cambio, las desviaciones típicas disminuyen a medida que aumenta el tamaño de las
muestras.

Sandoval - Alonzo Torres 17


ESTADÍSTICA APLICADA Inferencia estadística

Veamos como se relacionan la desviación típica de la población con la


desviación típica de la distribución muestral y con el tamaño de las muestras. Obsérvese
que:

1.045825033  2  1.479019945

0.853912565  3  1.479019948

0.739509972  4  1.479019944

Los tres productos dan, prácticamente, el mismo resultado que el valor de la


desviación típica de la población. En realidad, el producto entre la desviación típica de
la distribución muestral de las medias y la raíz cuadrada del tamaño de las muestras es
igual a la desviación típica de la población (la inexactitud de los resultados anteriores se
debe a las aproximaciones tomadas).

Lo trabajado anteriormente nos conduce al enunciado de uno de los resultados


más útiles en estadística: el conocido como TEOREMA DEL LÍMITE CENTRAL:

TEOREMA CENTRAL DEL LÍMITE.


Existen muchos fenómenos que se pueden considerar como una suma de una
serie de efectos parciales independientes. Y puede ocurrir que, aunque esos efectos no
se ajusten a una normal, el fenómeno resultante tienda a la distribución normal. Este
resultado conocido como Teorema central del límite, fue enunciado, por primera vez,
por Pierre Simon de Laplace (1.749 – 1.827), y fue Liapunov (1.857 – 1.917) dio en
1.901 una demostración rigurosa del teorema.

TEOREMA CENTRAL DEL LÍMITE.


“Consideramos una población cuya medida es  y cuya desviación típica
es . Si de esa población se extraen, al azar, todas las muestras de tamaño n,
obtenidas con reposición y con orden, se puede construir una distribución de
medias muestrales, la cual tiene forma aproximadamente normal cuando n es
suficientemente grande. Además, la media  X y la desviación típica  X de esa
distribución muestral están relacionadas con la media y la desviación típica de la
población del siguiente modo.


 y   ”
X X n

Tras la lectura del teorema central del límite, cabe preguntarse: ¿qué entendemos
por un n sufucientemente grande?.

 Si la población de partida es normal, la distribución de medias


muestrales también es normal, cualquiera que sea n.
 Si la población de partida no es normal, la distribución de las medias
muestrales es normal n es mayor o igual que 30, n  30 .

Sandoval - Alonzo Torres 18


ESTADÍSTICA APLICADA Inferencia estadística

DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES.

Definición.

DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES.


Dada una población X. Consideramos todas las muestras posibles de
tamaño n en la población. Y en cada una de esas muestras se determina su
media. La distribución de todas las medias muestrales se denomina distribución
de las medias muestrales, X .

Cuando realizamos un muestreo sin reposición en una población finita de media


 y desviación típica , la variable aleatoria X tiene como media y desviación típica:

 
X
 N n
  ·
X n N 1

donde N y n son los tamaños de la población y la muestra, respectivamente.

En la práctica, las poblaciones de las que se extraen las muestras son


indefinidamente grandes, o al menos, el tamaño de las muestras está por debajo del 5 %
del tamaño de las poblaciones. En estos casos el muestreo sin reposición puede
considerarse equivalente al muestreo con reposición.

En los casos de poblaciones finitas con reemplazamiento o infinitas con o sin


reemplazamiento se tiene:

 
X

 
X n

Pero por el teorema del límite central sabemos que la distribución muestral de
las medias se acerca a la distribución normal cuando aumenta el tamaño de la muestra.

Insistimos, cuánto más se aleje la distribución poblacional del modelo normal,


más debe incrementarse el tamaño de la muestra para que la distribución muestral de la
media se aproxime a una curva normal. Por tanto, en la práctica:

a) Si la población es normal no habrá ningún problema al afirmar que la


  
distribución muestral de la media es normal N   ,  .
 n
b) Si la distribución poblacional no es normal, se asume que la
distribución muestral de las medias se aproxima a la normal
  
N   ,  cuando el tamaño de la muestra es mayor o igual que 30.
 n

Sandoval - Alonzo Torres 19


ESTADÍSTICA APLICADA Inferencia estadística

Puesto que X presenta una distribución muestral normal, la variable tipificada


Z X se distribuye normalmente N (0 , 1).

X 
Z 
X 
n

Sin embargo, no siempre conocemos el valor del parámetro . Cuando  es


desconocido, podemos utilizar una estimación de su valor y calculamos la desviación
típica de la media muestral (también llamado error típico) por la siguiente formula:

s s
  n 1  n
X n n 1

Es decir, nos basamos en la desviación típica (sn) de una muestra aleatoria


extraída de la población.

Observación importante:

Cuando n  30 podemos aceptar como desviación típica de distribución


muestral de medias la desviación típica de la muestra.

Ejemplos:
- Consideremos la población P = {5, 7, 9}. Supongamos que formamos todas
las posible muestras de tamaño 2 extraíbles de esta población, sin reposición:
{5 , 7}, {5 , 9}, {7 , 5}, {7 , 9}, {9 , 5}, {9 , 7}.
En cada una estas medias calculamos la correspondiente media:
{5 , 7} 6, {5 , 9} 7, {7 , 5} 6,
{7 , 9} 8, {9 , 5} 7, {9 , 7} 8.
La distribución de medias muestrales es:
X 6 7 8 Total
Ni 2 2 2 6

Puedes comprobar fácilmente que:


 X  7 , es igual a   7 .
 N  n 1.6399 3  2
 X  0.8165.... , es igual a ·  ·  0.81995.. .
n N 1 2 3 1

- Consideremos la población P = {5, 7, 9}. Supongamos que formamos todas


las posible muestras de tamaño 2 extraíbles de esta población, con
reposición:
{5 , 5}, {5 , 7}, {5 , 9}, {7 , 5}, {7 , 7}, {7 , 9}, {9 , 5}, {9 , 7}, {9 , 9}.
En cada una estas medias calculamos la correspondiente media:
{5 , 5} 5, {5 , 7} 6, {5 , 9} 7,
{7 , 5} 6, {7 , 7} 7, {7 , 9} 8,
{9 , 5} 7, {9 , 7} 8, {9 , 9} 9.

Sandoval - Alonzo Torres 20


ESTADÍSTICA APLICADA Inferencia estadística

La distribución de medias muestrales es:


X 5 6 7 8 9 Total
Ni 1 2 3 2 1 9

Puedes comprobar fácilmente que:


 X  7 , que es igual a   7 .
 1.6399
 X  1.1547.... , que es igual a   1.1547.. .
n 2

DISTRIBUCIÓN MUESTRAL DE LAS PROPORCIONES.

Definición.

DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES.


Dada una población X. Consideramos todas las muestras posibles de
tamaño n en la población. Y en cada una de esas muestras se determina
proporción de individuos que poseen una determinada característica. La
distribución de todas las proporciones muestrales (de la característica estudiada)
se denomina distribución de las proporciones muestrales, X p .

Se puede demostrar que:

Sea p la proporción de individuos que poseen la característica estudiada


y q = 1 – p la proporción de los que no la poseen.

La distribución muestral de las proporciones, X p , se distribuye


 p · q 
aproximadamente como una distribución normal N  p , , de media
 n 
p·q
p y desviación típica , cuando n es suficientemente grande y p no se
n
acerca ni a 0 ni a 1, verificando n · p  5 y n · q  5 , y la población es infinita o
finita con reemplazamiento.

No obstante, la extracción de las muestras de una población de tamaño N se


puede realizar con reemplazamiento o sin reemplazamiento, verificándose:

a) Si la población es indenidamente grande (infinita) o finita con


reemplazamiento tenemos:

 p
p
pq
 
p n

Sandoval - Alonzo Torres 21


ESTADÍSTICA APLICADA Inferencia estadística

b) Si la población es finita y la extracción se hace sin reemplazamiento,


tenemos:

 p
p
pq N  n
  ·
p n N 1

Ejemplo:
- Consideramos la población P = {1, 2, 3}. La proporción de cifras pares es
1 2
p  y de cifras impares es q  . Las muestras con reemplazamiento de tamaño 2 y
3 3
sus correspondientes proporciones p’ de cifras pares son:
Muestra 1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3
p’ 0 0.5 0 0.5 1 0.5 0 0.5 0

Con todas las proporciones consideradas como valores de una variable


estadística calculamos su media y su desviación típica.
Xp ni
0 4
0.5 4
1 1
9

Obtenemos así la distribución muestral de las proporciones, X p , de media y


desviación típica:
1 1
p  y p 
3 3
Pero también podemos obtener la desviación típica así:
1 2
·
p· q 1
   3 3 
p n 2 3

- Consideramos la población P = {1, 2, 3}. La proporción de cifras pares


1 2
es p  y de cifras impares es q  . Las muestras sin reemplazamiento de tamaño 2
3 3
y sus correspondientes proporciones p’ de cifras pares son:
Muestra 1,2 1,3 2,1 2,3 3,1 3,2
p’ 0.5 0 0.5 0.5 0 0.5

Con todas las proporciones consideradas como valores de una variable


estadística calculamos su media y su desviación típica.
Xp ni
0 2
0.5 4
6

Sandoval - Alonzo Torres 22


ESTADÍSTICA APLICADA Inferencia estadística

Obtenemos así la distribución muestral de las proporciones, X p , de media y


desviación típica:
1 1 1
  y   
p 3 p 18 3 2
Pero también podemos obtener la desviación típica así:
1 2
·
p· q N n 3 2 1 1 1
  ·  3 3 ·  · 
p n N 1 2 3 1 3 2 3 2

ESTIMACIÓN DE PARÁMETROS.

Si  es un parámetro característico de una población, cuyo valor desconocemos,



a partir de las muestras extraídas de esa población podemos calcular un estadístico E ,
que nos permita estimar el valor del parámetro poblacional. Por ejemplo, sea la media 
de edad de los alumnos universitarios españoles. El estadístico X calculado a partir de
muestras de alumnos universitarios puede ser considerado un estimador del parámetro
media, .

En una población, cualquier parámetro  es único. En cambio, cada una de las



posibles muestras de esa población puede tener diferentes valores del estadístico E . El
estadístico que tomamos como estimador es por tanto una variable, mientras que el
parámetro es una constante. Cada uno de los valores del estimador constituye una
estimación del parámetro. En el ejemplo sobre las edades de los alumnos universitarios,
extraemos 5 muestras aleatorias y calculamos la media de edad de cada una de ellas. Las
respectivas medias X 1 , X 2 , X 3 , X 4 y X 5 son estimaciones , puesto que hemos
tomado el estadístico X como estimador de .

Pero para que un estadístico sea tomado como estimador de un parámetro


poblacional, debemos contar con ciertas garantías de que los valores del estadístico
(estimaciones) se aproximan al verdadero valor del parámetro. Una de las condiciones
básicas es que la muestra sea representativa de la población, a lo que contribuye
especialmente el que la muestra sea aleatoria.

Recordamos que definimos estimador como un estadístico que permite obtener


un valor aproximado para alguna característica de la población. Cada uno de los valores
de ese estadístico representan una estimación. Mientras que el estimador es una variable
aleatoria, la estimación es un valor numérico alcanzado por esa variable aleatoria.

La estimación de un parámetro se puede hacer mediante estimación puntual o


por estimación por intervalos. La estimación puntual consiste en obtener un único valor
del parámetro poblacional a partir de las observaciones muestrales, y se llama así
porque se le puede asignar un punto sobre la recta real. Mientras que en la estimación
por intervalo se obtienen dos puntos, que definen un intervalo en la recta real que
contendrá el valor del parámetro desconocido con cierta seguridad.

Sandoval - Alonzo Torres 23


ESTADÍSTICA APLICADA Inferencia estadística

ESTIMACIÓN POR INTERVALOS.

En la estimación por intervalos atribuimos al parámetro desconocido un


segmento de posibles valores entre los que se encuentra, con elevada probabilidad, el
valor verdadero del parámetro. Es decir, para estimar el valor del parámetro , podemos
ofrecer un intervalo de puntuaciones dentro del cual se encuentra, con una probabilidad
conocida, el valor buscado. Por ejemplo, podríamos determinar que con una
probabilidad de 0.90, el valor de  se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimación por intervalos resulta imprescindible


apoyarse en la distribución muestral de los estadísticos utilizados como estimadores.
Por ejemplo el estadístico X , estimador de . Sabemos que si extraemos muestras de
una población en la que la media es  y la varianza  2 , la distribución muestral de X
2
tiene como media  y como varianza  X2  . Si el tamaño n de las muestras es
n
suficientemente grande, la distribución muestral del estadístico X tiende al modelo
  
normal N   ,  .
 n

ERROR MUESTRAL.
Siempre que tomamos una muestra en representación de toda la población se
comete un error. Normalmente existe una diferencia entre los valores obtenidos a partir
de la muestra y los correspondientes a la población. Pero cuando hablamos del error
muestral no nos referimos al error real que hemos obtenido nosotros, sino a un error
determinado estadísticamente, válido para todas las posibles muestras del mismo
tamaño.

Sea x la media de una muestra de tamaño n y sea  la media poblacional de la


población de tamaño N. Obteniendo todas las muestras de tamaño n y calculando la
media x de cada una, se obtiene una distribución normal, llamada distribución muestral
de las medias o distribución de las medias muestrales X .

La curva de Gauss representa la distribución de todas las medias de tamaño n


obtenidas en la población. La media de las medias coincide con la media de la
población, obteniéndose muchas muestras cuyas medias, x , son iguales o muy cercanas
a  y muy pocos casos de medias muestrales, alejadas o muy alejadas de la media
proporcional .

Definición.

ERROR MUESTRAL.
Se define el error muestral o error de muestreo como la desviación
típica de la distribución muestral de las medias o de las proporciones.

Sandoval - Alonzo Torres 24


ESTADÍSTICA APLICADA Inferencia estadística

Recordamos que, para la distribución de las medias muestrales y para la


distribución de las proporciones muestrales, respectivamente:

 Cuando la población es finita y la extracción es con reemplazamiento, o


cuando la población es infinita:

 p·q
  ,  
X n p n

 Cuando la población es finita y la extracción es sin reemplazamiento:

 N n p· q N n
  · ,   ·
X n N 1 p n N 1

ERROR MÁXIMO ADMISIBLE.

  
La distribución muestral de las medias sigue una ley normal N   , 
 n
y su representación gráfica es la curva de Gauss. Estadísticamente nunca se puede
abarcar toda el área comprendida entre la curva de Gauss y el eje OX, por ser éste una
asíntota de la curva, siendo preciso fijar el área se pretende abarcar. Esta área, (1-),
recibe el nombre de nivel de confianza porque representa el área que contendrá,
probablemente, el valor de la media poblacional . Se expresa en tanto por ciento.

Definición.

NIVEL DE CONFIANZA.
Se denomina nivel de confianza o coeficiente de confianza a la
probabilidad de que el estimador por intervalo cubra el verdadero valor del
parámetro que se pretende estimar. Se expresa por 1 - .

Estrictamente, establece el porcentaje de muestras (de un tamaño dado) en las


que el estadístico que deseamos estimar tiene un valor dentro del intervalo estimado. Un
nivel de confianza de 90% o del 95% indica que, de toda el área encerrada por la curva
de Gauss y el eje OX, probablemente el 90% o el 95% de las veces contendrá a la media
poblacional , desestimando el 10% o el 5%, restante.

Sandoval - Alonzo Torres 25


ESTADÍSTICA APLICADA Inferencia estadística

Definición.

NIVEL DE SIGNIFICACIÓN.
Se denomina nivel de significación o nivel de riesgo a la diferencia
entre la certeza y el nivel de confianza deseado. Por tanto, se expresa por .

Definición.

ERROR MÁXIMO ADMISIBLE.


Se define el error máximo admisible como el valor “d” que verifica que
la probabilidad de que la media muestral x y la media poblacional  difieran en
menos de la cantidad “d ” con el nivel de confianza elegido (1 - ):


p   x  d  1 
De lo anterior se deduce:

p  d    x  d  1 
O lo que es lo mismo:

p x  d    x  d  1 
Si:
d X entonces  
p x   X    x   X  0.6826

d  2 X entonces p x  2 X    x  2 X  0.9544 
d  3 X entonces px  3 X
   x  3 X   0.9973
Es decir:
d X para un nivel de confianza del 68.26 %.
d  2 X para un nivel de confianza del 95.44 %.
d  3 X para un nivel de confianza del 99.73 %.

En general:

p x  k X    x  k X  1  
Para una variable tipificada, el valor de k se obtiene así:

p k  Z  k   1    p k  Z  k   pZ  k   pZ  k  


 pZ  k   1  pZ  k   2 pZ  k   1  1  

De donde:

pZ  k   1 
2

cuyo valor lo podemos obtener en la tabla N(0 , 1) para una valor dado .

Sandoval - Alonzo Torres 26


ESTADÍSTICA APLICADA Inferencia estadística

Valores de k, más usuales, según el nivel de confianza 1 - 

1- 50 % 68’2 % 90 % 95 % 95’5 % 99 % 99’7 %


K 0.67 1 1.65 1.96 2 2.58 3

En el caso de las proporciones:

f p· q f p · q 
p  k  p k  1
n n n n 

El error máximo admisible “d” y el error muestral  x o  p están relacionados


por el valor k obtenido a partir del nivel de confianza (1 - ). Así:

Error máximo admisible para la estimación de la media poblacional:



 d  k · X  k · (población infinita o finita con reemplazamiento).
n
 N n
 d  k · X  k · · (población finita sin reemplazamiento).
n N 1

Error máximo admisible para la estimación de la proporción poblacional:


p· q
 d  k · p  k · (población infinita o finita con reemplazamiento).
n
p· q N n
 d  k · p  k · · (población finita sin reemplazamiento).
n N 1

TAMAÑO DE LA MUESTRA.

Las encuestas se realizan en una muestra representativa de la población. Su


tamaño varía de unas encuestas a otras y viene recogido en la llamada ficha técnica. En
dicha ficha técnica debe aparecer: el tamaño de la muestra, el nivel de confianza y el
margen de error. El tamaño “n” de la muestra depende del tamaño N de la población, del
nivel de confianza (1 - ) adoptado y del error máximo admisible “d”.

DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES:

 Para una población infinita, o finita con reemplazamiento, a partir de la


expresión que relaciona el error máximo admisible o margen de error d y el
error muestral  p se tiene:

p· q k 2 · p ·q
d  k ·  k· n 
p n d2

Cuando no se conoce la proporción “p”, se estima para el caso más desfavorable,


es decir, que tanto “p” como “q” sean el 50%.

Sandoval - Alonzo Torres 27


ESTADÍSTICA APLICADA Inferencia estadística

 Para una población finita y muestreo sin reemplazamiento se tiene, a partir


de la expresión del error máximo admisible:

p· q N n k 2 · N · p· q
d  k ·  k· · n
p n N 1 N  1·d 2  k 2· p · q

DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES.

 Para poblaciones infinitas o poblaciones finitas con reemplazamiento, la


expresión que relaciona el error máximo admisible d y el error muestral  x
nos permite obtener el tamaño de la muestra:
 k 2 · 2
d  k ·  k · n 
X n d2

 Si la población es finita y el muestreo es sin reemplazamiento, el tamaño


sería:

 N n N · k 2·  2
d  k ·  k· · n 
X n N 1 d 2·N  1  k 2·  2

INTERVALO DE CONFIANZA DE LA MEDIA.

En una población cuya distribución es conocida, pero con algún parámetro


desconocido, podemos estimar dicho parámetro a partir de una muestra representativa.
Estamos trabajando en el caso de la estimación de parámetros mediante un intervalo de
confianza. En este apartado determinaremos el intervalo de confianza para la media.

El intervalo de confianza [a , b] debe contener a la media poblacional  con un


nivel de confianza 1-

p(a    b)  1  

El valor 1- que indica con qué probabilidad el intervalo [a , b] contiene el


valor real del parámetro estimado  , se elige previamente, siendo un número real
comprendido entre 0 y 1. El valor 1- se expresa en porcentaje.

Sea X una variable aleatoria con distribución N (, ) y x1, x2, ......, xn, una
muestra aleatoria de tamaño n. La distribución muestral de las medias X sigue una ley
   X 
normal N   ,  y la variable tipificada Z  es una distribución N(0,1).
 n 
n
Recordemos que si la población no es normal basta con tomar una muestra
suficientemente grande.

Sandoval - Alonzo Torres 28


ESTADÍSTICA APLICADA Inferencia estadística

Gráficamente:

 
 
p  z  Z  z   1  
  

 2 2

Sustituyendo:
 
 
 X 
p z   z   1
   
 2 2 
 n

o bien:
 
 
 X
p z   z   1
   
 2 2 
 n

de donde:
 
   
p X  z ·    X  z ·   1
  n  n

 2 2 

En la práctica no se suelen tomar distintas muestras para calcular el intervalo de


confianza, se toma una sola, de ahí que X  x .

El intervalo de confianza parte del conocimiento de un estadístico, x , obteniendo


en una muestra de tamaño n y mediante una estimación se obtiene un intervalo que
cuenta con una probabilidad del 95%, del 90%, etc., es decir, (1-)% de contener el
parámetro desconocido media poblacional  .

Sandoval - Alonzo Torres 29


ESTADÍSTICA APLICADA Inferencia estadística

CUANDO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.

En este caso, el intervalo de confianza de la media poblacional  es:

 
   
x  z · , xz · 
  n  n

 2 2 

CUANDO NO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.

En este caso, cuando la muestra está formada por 30 o más de 30 individuos u


observaciones, se puede obtener el intervalo de confianza de la media poblacional a
partir de la expresión:

 
 s s 
x  z · , xz · 
  n  n

 2 2 

siendo s la desviación típica de la muestra.

Observaciones.

Para establecer los intervalos de confianza:

 Cuando no se conoce la desviación típica de la población, siendo rigurosos


se debe usar el parámetro muestral raíz cuadrada de la cuasi varianza, s n21 ,
para estimar dicha desviación típica poblacional.
 x 
2
 x · ni

2 i
Recordamos la expresión de la cuasivarianza: s n 1 , de
n 1
 x 
2
 x · ni
donde se tiene: s n1 
i
, que sería el valor que debería sustituir a
n 1
la desviación típica poblacional. No obstante, si n  30 se puede utilizar la
desviación típica muestral.
 En el caso de que el muestreo no sea con reemplazamiento y la población sea
N n
finita, se debe multiplicar el error muestral por el factor , donde N es
N 1
el tamaño de la población y n el tamaño de la muestra. Así, el intervalo de
confianza sería:

 
  N n  N n 
x  z · · , xz · · 
  n N 1  n N 1 

 2 2 

Sandoval - Alonzo Torres 30


ESTADÍSTICA APLICADA Inferencia estadística

INTERVALO DE CONFIANZA DE LA PROPORCIÓN.

Para estimar la proporción “p” de elementos que posee una característica de una
f
población, lo hacemos mediante una muestra de tamaño n en donde p'  es la
n
proporción de elementos que poseen la característica determinada y q’ = 1 - p’ la
proporción de elementos que no la poseen.

La distribución de las proporciones muestrales se distribuye de acuerdo a una


 pq  p' p
normal N  p,  , lo que permite tipificar la variable Z  que sigue una
 n  pq
n
distribución N(0,1) y obtener con un nivel de confianza (1-), el intervalo de confianza
para el parámetro poblacional p, a partir de la expresión:

 
 
 p' p
p  z   z   1  
 pq 
 
 2 n 2

o lo que es igual:
 
 
p  p'
p  z  z   1

 pq 
 
 2 n 2 
de donde:

 
 pq pq 
p p' z ·  p  p' z ·   1
  n  n 

 2 2 

p ·q
El error máximo admisible d  z · , tiene el grave inconveniente de
 n
2
que está dado en función de p. Por tanto, una vez extraída la muestra y obtenida la
proporción muestral p’, debemos estimar los valores de p y q, mediante: p = p’ y q = q’.

Cuando n es grande, n  30 , (y, además, n · p  5 y n · q  5 ) para determinar


f
el intervalo de confianza se puede sustituir el parámetro p por p'  de la muestra,
n
resultando:

 p' q' p' q' 


p p' z  ·  p  p' z  ·   1
 2
n 2
n 

Sandoval - Alonzo Torres 31


ESTADÍSTICA APLICADA Inferencia estadística

Ejemplos:
- Supongamos que deseamos valorar el grado medio de conocimientos en
historia de una población de varios miles de estudiantes. Sabemos que la
desviación típica poblacional es de 2.3 puntos. Nos proponemos estimar la
media poblacional, , pasando una prueba a 100 alumnos, con un nivel de
confianza del 95 %. Calculamos la media en la muestra, resultando ser de
6.32. Para hacer esta estimación vamos a construir el intervalo de confianza
de  con un nivel de confianza del 95 %.
El intervalo de confianza para la media en poblaciones infinitas o finitas con
reemplazamiento, caso que suponemos (de varios miles), es:
 
   
x  z · , xz · 
  n  n 
 2 2 
En nuestro ejemplo:
   0.05
Como: p Z  z    1   1   0.975, tenemos z   1.96 , y así:
 2 
2 2 2

 2.3 2.3 
 6.32  1.96 · , 6.32  1.96· 
 100 100 
De donde, operando, tenemos el intervalo de confianza buscado:
5.87 , 6.77
- Para estimar la media de los resultados que obtendrían al resolver un cierto
test los alumnos de 4 % de E.S.O. de toda una comunidad autónoma, se les
pasa dicho test a 400 de ellos escogidos al azar. Los resultados obtenidos en
dicha muestra dan una media de 3.25 con una desviación típica de 1.12. A
partir de ellos, pretendemos estimar el valor de la media de la población con
un nivel de confianza del 95 %. En este caso se procedería como en el caso
anterior, sólo que deberemos utilizar el valor de desviación típica muestral en
lugar de la poblacional, cosa que se puede hacer ya que el tamaño de la
muestra es superior a 30. En definitiva, el intervalo de confianza para la
media poblacional sería:
 
 s s 
x  z · , xz · 
  n  n 
 2 2 
 1.12 1.12 
 3.25  1.96 · , 3.25  1.96 · 
 400 400 
Y así el intervalo buscado es: 3.14 , 3.36
- De la duración de un proceso sabemos que la desviación típica poblacional
es 0.5 segundos. ¿Cuál es el número mínimo de medidas que hay que realizar
para que, con un nivel de confianza del 99 %, el error de estimación no
exceda de 0. 1 segundos?.
  
Al nivel de confianza del 99 % ( = 0.01), p Z  z    1  , corresponde
 2 
2
un z   2.575 .
2

Sandoval - Alonzo Torres 32


ESTADÍSTICA APLICADA Inferencia estadística


Obtenemos el tamaño n de la muestra a partir de la relación: z  · d,
2 n
 z ·  
2

 2   2.575 · 0.5 
2

de donde: n    . Es decir, n     165.76 y el tamaño


 d   0.1 
 
de la muestra debe ser 166 medidas (el menor entero mayor que 165.76).
- Un monitor de un gimnasio quiere estimar la estatura media de todos los
asociados al mismo, con un error menor de 0.5 cm, utilizando una muestra de
30 asociados. Sabiendo que la desviación típica  = 5.3 cm, ¿cuál sería el
nivel de confianza con el que se realiza la estimación?.
 5.3
Como, el error d es: d  z  · , tenemos: 0.5  z  · , y de aquí
2 n 2 30

deducimos: z   0.52 . Ahora bien, pZ  0.52  1  , que nos permite
2
2
despejar el coeficiente de significación:   2 · 1  pZ  0.52 , y al
sustituir,   2 · 1  0.6985  2 · 0.3015  0.6030. Y finalmente, el nivel de
confianza, 1    1  0.6030  0.3970, sería del 39.7 %.
- Tomada una muestra de 300 personas mayores de 15 años en una gran
ciudad, se encontró que 104 de ellas leían el periódico regularmente. Con
estos datos queremos hallar, con un nivel de confianza del 90 %, un intervalo
de confianza para la proporción de lectores de periódicos entre los mayores
de 15 años.
Un nivel de confianza del 90 % nos da un z   1.645, y la proporción
2
104
muestral obtenida es p'   0.347 . Así, el error máximo admisible sería
300
p' · q' 0.347 · 0.653
d  z ·  1.645 ·  0.045 , y con este dato tenemos
2
n 300
que el intervalo buscado se obtendrá como: 0.347  0.045 , 0.347  0.045 ,
o lo que es lo mismo el intervalo de confianza es: 0.302 , 0.392 . O sea, con
un nivel de confianza del 90 %, la proporción de lectores de periódicos, en el
colectivo total, está entre el 30.2 % y el 39.2 %.
- Teniendo en cuenta los resultados del ejemplo anterior, se pretende repetir la
experiencia para conseguir una cota de error de 0.01 con el mismo nivel de
confianza del 90 %. ¿Cuántos individuos debe tener la muestra?.
p' · q'
De la expresión del error, d  z  · , podemos despejar el tamaño de
2
n
2
z  · p' · q'
1.6452 · 0.347 · 0.653
la muestra: n  2
  6131.6 . Es decir, la
d2 0.012
muestra debe contar con un mínimo de 6132 individuos. Con esta muestra, se
volvería a calcular la proporción muestral de lectores de periódicos p’’, y con
ella se determinaría el intervalo de confianza (p’’- 0.01 , p’’ + 0.01).

Sandoval - Alonzo Torres 33


ESTADÍSTICA APLICADA Inferencia estadística

CONTRASTE DE HIPÓTESIS.

El contraste de hipótesis o la prueba de decisión estadística permite


comprobar ciertas afirmaciones que realizamos acerca de una población, referidas a sus
parámetros o a la forma en que se distribuye. Mediante este tipo de pruebas podríamos
decidir acerca del ajuste de las distribuciones observadas a distribuciones teóricas, la
existencia de diferencias entre grupos, relaciones entre variables, etc.

Definición.

TEST ESTADÍSTICO.
Un test estadístico es un procedimiento para, a partir de una muestra
aleatoria y significativa, extraer conclusiones que permitan aceptar o rechazar
una hipótesis previamente emitida sobre el valor de un parámetro desconocido
de esa población.

HIPÓTESIS ESTADÍSTICAS.

En cualquier estudio sobre la realidad el investigador se plantea interrogantes a


los que trata de dar respuesta o temas de interés sobre los que pretende incrementar su
conocimiento. En la indagación sobre esos interrogantes, el investigador formula
hipótesis, que son posibles soluciones o respuestas a los problemas planteados. Tales
hipótesis permanecerán en el terreno de la conjetura hasta tanto no sean comprobadas.
La estadística permite comprobar hipótesis científicas a partir de los datos recogidos
sobre un problema, pero para ello es necesario que tales hipótesis sean formuladas en
términos estadísticos. Es decir, las hipótesis científicas tienen que ser operativizadas
previamente, expresadas en forma de afirmaciones acerca de parámetros. Por tanto, en
una prueba de decisión estadística no contrastamos directamente las hipótesis
científicas, sino que trabajamos con hipótesis estadísticas que son una traducción de
aquellas. Tras comprobar la hipótesis estadística, podemos inferir que la hipótesis
científica queda validada.

Las hipótesis estadísticas son proposiciones acerca de parámetros de la


población (media, proporciones, varianza, diferencia de medias, etc.) o de su
distribución. Cuando llevamos a cabo una prueba estadística, estamos trabajando con
una hipótesis nula, que simbolizaremos por H0. Junto a esta, consideramos la hipótesis
alternativa, opuesta a la anterior, que queda simbolizada por H1.

Veamos en qué consiste cada una de ellas:

 Hipótesis nula (H0). Establece una hipótesis que provisionalmente se


considera como verdadera.
 Hipótesis alternativa (H1). Toda hipótesis nula va acompañada de una
hipótesis alternativa, la cual afirma el supuesto contrario de la hipótesis
nula.

Puesto que cada una de estas hipótesis afirma lo contrario que la otra es
incompatible que ambas sean ciertas. Por tanto, si llegamos a la conclusión de que la
hipótesis nula no se cumple, podemos afirmar que se cumple la hipótesis alternativa y
viceversa.

Sandoval - Alonzo Torres 34


ESTADÍSTICA APLICADA Inferencia estadística

CONTRASTE DE HIPÓTESIS PARA LA MEDIA.

El proceso que se sigue para contrastar un hipótesis respecto a la media, a través


de una muestra es el siguiente:

 Establecer la hipótesis nula, H0. En ella supondremos que la media, , es


igual al valor  0 .

H 0 :   0

Esta hipótesis se denomina hipótesis nula porque parte del supuesto


de que es nula la diferencia entre el valor verdadero de la media y su valor
hipotético.

 Establecer la hipótesis complementaria a la hipótesis nula, que es la


hipótesis alternativa:

H1 :   0

 Definir la ley de probabilidad de la población y de la muestra, que en nuestro


caso es la ley de distribución normal.

 Se establece el nivel de confianza, 1 - , o el correspondiente nivel de


significación, .

 Determinar la zona de aceptación de H0. Para ello partimos del intervalo de


confianza antes visto:

 
   
p x  z ·    x  z ·   1
  n  n

 2 2 

restando x a los tres miembros y operando, se obtiene:

 
   
p   z ·  x    z ·   1
  n  n

 2 2 

 Si el valor de la media x de la muestra está dentro del intervalo, se acepta la


hipótesis nula H0 y en caso contrario se rechaza, admitiendo la hipótesis
alternativa H1. La zona de rechazo se denomina región crítica.

Un contraste de hipótesis no establece la verdad de la hipótesis, sino un criterio de


aceptación de la misma y la decisión se toma a partir de una muestra y con un
determinado nivel de significación.

Sandoval - Alonzo Torres 35


ESTADÍSTICA APLICADA Inferencia estadística

CONTRASTES BILATERALES Y UNILATERALES.

Las hipótesis nula y la hipótesis alternativa deben ser mutuamente excluyentes y


complementarias, y el contraste de hipótesis puede ser bilateral o unilateral.

 Cuando la región crítica se situa a ambos lados de la zona de de aceptación


de la hipótesis nula se denomina contraste bilateral o contraste de dos
colas.
    

 z z
2 2
HIPÓTESIS:

H 0 :   0
H1 :    0

Región de aceptación:

 
 0  z ·  , 0  z ·  
 n 
 2 n 2

Región de rechazo o crítica:

 
x  0  z · o x  0  z ·
2 n 2 n

Observación.
Cuando la desviación típica poblacional no sea conocida, y la muestra sea
suficientemente grande podremos utilizar la desviación típica de la muestra o, en su
caso, la indique la hipótesis.

Ejemplo:
Se cree que el cociente intelectual medio de los estudiantes de una universidad
es 113, con una desviación típica de 7. Para contrastar la hipótesis, se extrae una
muestra de 180 estudiantes y se obtiene en estos estudiantes un cociente intelectual
medio de 115. ¿Podemos aceptar la hipótesis con un nivel de significación del 5 %?.
Hipótesis nula, H 0 :   113.
Hipótesis alternativa, H1 :   113 .

Sandoval - Alonzo Torres 36


ESTADÍSTICA APLICADA Inferencia estadística

Como el tamaño de la muestra es superior a 30, las medias muestrales se


 7 
distribuirían (si la hipótesis fuese cierta) según una ley N 113,  .
 180 
La región de aceptación al nivel de confianza del 95 % es
 7 
 = 111.98 , 114.02 .
7
113  1.96 · , 113  1.96 ·
 180 180 
En la muestra hemos obtenido una media de 115, que no pertenece a la región de
aceptación sino que pertenece a la región crítica. Por tanto, con un nivel de confianza
del 95 % rechazamos la hipótesis nula, y aceptamos la alternativa, es decir, no podemos
dar por bueno que el cociente intelectual medio de los alumnos de esa universidad sea
de 113.

 Cuando la región crítica se sitúa en una de las dos colas, se denomina


contraste unilateral o contraste de una cola.

CONTRASTE UNILATERAL DERECHO. La región crítica se sitúa en el


lado derecho.


z

HIPÓTESIS:

H 0 :   0
H1 :    0

Región de aceptación:

  
   ,  0  z · 
 n

Región de rechazo:

  
 0  z · ,   
 n 

Observación.
Es importante hacer notar que al quedar la región crítica en una sola cola,
determinamos z , con la condición pZ  z   1   .

Sandoval - Alonzo Torres 37


ESTADÍSTICA APLICADA Inferencia estadística

CONTRASTE UNILATERAL IZQUIERDO. La región crítica se sitúa en el


lado izquierdo.



-z

HIPÓTESIS:

H 0 :   0
H1 :    0

Región de aceptación:

  
  0  z · ,   
 n 

Región de rechazo:

  
   ,  0  z · 
 n

Ejemplo:
El peso de los pollos de una granja es una distribución normal de media 2.6 kg y
desviación típica 0.5. Se experimenta un nuevo tipo de alimentación con 50 crías.
Cuando se hacen adultos se les pesa y se obtiene una media de 2.78 kg. Vamos a
contrastar la hipótesis de que el peso medio de la población no aumenta con un nivel de
significación del 1 %.
Hipótesis nula: H 0 :   2.6
Hipótesis alternativa: H 1 :   2.6
Como el nivel de confianza es del 99 %, pZ  z   0.99 , de donde se obtiene
 0.5 
que z  2.33. Y, por tanto, la región de aceptación es:    , 2.6  2.33 ·  , o sea,
 50 
  , 2.76 . Ahora comprobamos que el valor obtenido mediante la muestra queda en
la región crítica, fuera de la región de aceptación, y por esto, rechazamos la hipótesis
nula y aceptamos la alternativa con un nivel de significación del 1 %. Es decir,
aceptamos que la población aumentará de peso con la nueva alimentación utilizada en la
granja.

Sandoval - Alonzo Torres 38


ESTADÍSTICA APLICADA Inferencia estadística

CONTRASTE DE HIPÓTESIS PARA LA PROPORCIÓN.

CONTRASTE BILATERAL.

HIPÓTESIS:

H 0 : p  p0
H 1 : p  p0

Región de aceptación:

 
 p q p q 
p z · 0 0 , p z · 0 0 
 0  n 0  n 
 2 2 

Región crítica o de rechazo:

p q p q
p'  p  z · 0 0 o p'  p  z · 0 0
0  n 0  n
2 2

Ejemplo:
Un dentista afirma que el 40 % de los niños de diez años presentan indicios de
caries dental. Tomada una muestra de 100 niños, se observó que 30 presentaban indicios
de caries. Utilizando la aproximación normal queremos comprobar, con un nivel de
significación del 5 %, si el resultado proporcionado por la muestra permite rechazar la
hipótesis del dentista.
Hipótesis nula: H 0 : p  0.4
Hipótesis alternativa: H 1 : p  0.4
Un nivel de significación del 5 % determina que z   1.96 , y tenemos la
2
siguiente región de aceptación:
 
 p q p q 
p z · 0 0 , p z · 0 0 
 0  n 0  n 

 2 2 
 
 0.4  1.96 · 0.4 · 0.6 , 0.4  1.96 · 0.4 · 0.6 
 100 100 

0.304 , 0.496
Es decir, si la hipótesis nula fuese cierta, con un nivel de significación del 5 %,
la proporción de niños con indicios de caries en esa población estaría comprendida entre
el 30.4 % y el 49.6 %. Comprobamos que la proporción obtenida en la muestra queda en
la región crítica, y por esto, rechazamos la hipótesis nula y aceptamos la alternativa con
ese nivel de significación. Es decir, rechazamos la hipótesis del dentista, y aceptamos
que el porcentaje de niños con indicios de caries es distinto del 40 %.

Sandoval - Alonzo Torres 39


ESTADÍSTICA APLICADA Inferencia estadística

CONTRASTE UNILATERAL DERECHO.

HIPÓTESIS:

H 0 : p  p0
H 1 : p  p0

Región de aceptación:

 p ·q 
0 , p  z · 0 0 
 0  n 
 
Región crítica:

 p q 
p  z · 0 0 , 1
 0  n 
 

Ejemplo:
Según la ley electoral de cierto país, para obtener representación parlamentaria,
un partido político ha de conseguir más del 5 % de los votos. Poco antes de celebrarse
las elecciones, una encuesta realizada sobre 1000 ciudadanos elegidos al azar revela que
sólo 65 de ellos votarán al partido V. ¿Puede estimarse, con un nivel de significación
del 1 %, que V no tendrá representación parlamentaria?. ¿Y con un nivel de
significación del 5 %?
Hipótesis nula: H 0 : p  0.05
Hipótesis alternativa: H1 : p  0.05
Un nivel de significación del 5 % determina que z  2.33 , ( pZ  z   0.99 ),
y tenemos la siguiente región de aceptación:
 p ·q 
0 , p  z · 0 0 
 0  n 
 
 0.05 · 0.95 
0 , 0.05  2.33 ·
 1000 
0 , 0.066
Es decir, si la hipótesis nula fuese cierta, con un nivel de significación del 1 %,
la proporción de votantes de V sería inferior al 6.6 %. Comprobamos que la proporción
 65 
obtenida en la muestra   0.065 , es de un 6.5 % y queda en la región de
 1000 
aceptación, y por esto, aceptamos la hipótesis nula, y rechazamos la hipótesis
alternativa, con ese nivel de significación. Es decir, aceptamos que el partido tendrá
menos del 5 % de los votos y por tanto no tendrá representación parlamentaria. Si el test
lo hiciésemos con un nivel de significación del 5 %, la región de aceptación sería
0 , 0.061 y rechazaríamos la hipótesis nula. Y, por tanto, con ese nivel de
significación diríamos que si tendría representación parlamentaria el partido V.

Sandoval - Alonzo Torres 40


ESTADÍSTICA APLICADA Inferencia estadística

CONTRASTE UNILATERAL IZQUIERDO.

HIPÓTESIS:

H 0 : p  p0
H 1 : p  p0

Región de aceptación:

 p ·q 
p z · 0 0 , 1
 0  n 
 

Región crítica:

 p q 
0 , p  z · 0 0
 0  n 
 

Ejemplo:
En las últimas votaciones, hace un año, el 53 % de los votantes de un pueblo
estaban a favor del alcalde. Se acaba de realizar una encuesta a 360 personas elegidas al
azar y 176 de ellas estaban a favor del alcalde. ¿Se puede afirmar con un nivel de
confianza del 90 % que el alcalde no pierde popularidad?
Test de hipótesis para la proporción (unilateral izquierdo).
Hipótesis nula: H 0 : p  0.53
Hipótesis alternativa: H1 : p  0.53
Es decir, la hipótesis nula mantiene que la proporción de votos favorable al
alcalde es la misma de las pasadas elecciones o ha aumentado.
Un nivel de confianza del 90 %, nos da un z  1.28 ( z  1.2817 ,
interpolando).
Región de aceptación:
 
 p  z · p0 · q0 , 1
 0  n 
 
 
 0.53  1.28 · 0.53 · 0.47 , 1
 360
 
0.496 , 1
Consideramos ahora los resultados de la muestra: un 48.9 % estuvieron a favor
 176 
del alcalde   0.489 , y como este resultado cae fuera de la región de aceptación
 360 
rechazamos la hipótesis nula, y aceptamos que el alcalde ha perdido popularidad. No
podemos considerar que el alcaldde no la haya perdido.

Sandoval - Alonzo Torres 41


ESTADÍSTICA APLICADA Inferencia estadística

ERRORES EN EL CONTRASTE DE HIPÓTESIS.

Al aplicar un test estadístico, podemos cometer dos tipos de errores.

ERROR DE TIPO I. Se comete cuando la hipótesis nula es verdadera y, como


consecuencia del contraste, se rechaza.

ERROR DE TIPO II. Se comete cuando la hipótesis nula es falsa y, como


consecuencia del contraste, se acepta.

Naturalmente, al aplicar el test ignoramos si cometemos error o no lo


cometemos. Lo que si podemos hacer es intentar evaluar la probabilidad de cometer
error de uno u otro tipo y diseñar el experimento de modo que dichas probabilidades de
error se reduzcan al máximo.

Ejemplo:
Las estaturas de las alumnas de COU eran, en 1990, de media 167 cm y
desviación típica 7 cm. Emitimos la hipótesis de que las actuales alumnas de 2º de
Bachillerato tienen la misma media. Vamos a contrastar la hipótesis mediante una
muestra de tamaño 60 y con un nivel de significación del 0.1.
Hipótesis nula: H 0 :   167
Hipótesis alternativa: H1 :   167
La región de aceptación sería: 165.51 , 168.49
Si al extraer la muestra obtenemos una media de 168.72 cm, rechazamos la
hipótesis nula. Pero podemos estar equivocados. Es decir, podemos cometer un error de
tipo I.
Si al extraer la muestra obtenemos una media de 168.12 cm, aceptamos la
hipótesis nula. Si estuviéramos equivocados se cometería un error de tipo II.

Cuando se acepta la hipótesis nula H0 decimos que la diferencia existente entre


el valor del parámetro formulado por la hipótesis nula y el valor que le correspondería,
según la información que proporciona la muestra, es no significativa, mientras que si se
rechaza la hipótesis nula H0 para  = 5% decimos que existe una diferencia
significativa y para  = 1% decimos que existe una diferencia muy significativa.

PROBABILIDAD DE COMETER UN ERROR DE UN TIPO U OTRO.

La probabilidad de cometer error de tipo I es precísamente , el nivel de


significación, pues si la hipótesis es verdadera, nos exponemos a rechazar el  · 100 %
de las medias muestrales. Esta probabilidad no depende del tamaño de la muestra.

La probabilidad de cometer un error de tipo II depende del verdadero valor de 


y del tamaño de la muestra. Si suponemos que se comete un error de tipo II, y si  es el
verdadero valor de la media y 0 el que le atribuimos mediante la hipótesis nula, estos
valores son distintos.

Sandoval - Alonzo Torres 42


ESTADÍSTICA APLICADA Inferencia estadística

En los gráficos siguientes la curvas de línea continua representan la verdadera


distribución de las medias muestrales (media ). Las curvas de línea discontinua son las
supuestas distribuciones (media 0). Sobre ellas se construyen los intervalos de
aceptación. El área marcada nos da, en cada caso, la proporción de muestras para las
cuales se aceptaría la hipótesis nula y, por tanto, se cometería un error de tipo II. Es
claro que para muestras grandes esta probabilidad es mucho menor.

n pequeño

n grande

Sandoval - Alonzo Torres 43

Vous aimerez peut-être aussi