Vous êtes sur la page 1sur 15

ESTADISTICA INFERENCIAL

INFERENCIAL, ESTIMACION Y CONTRASTE DE HIPOTESIS

Concepto de la Estadística inferencial

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por
medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su
objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la
información numérica de la muestra.i

Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión
teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer
inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a
preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos
de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre
variables de Sam (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series
de tiempo y minería de datos.

Definición de Estadística Inferencial

De acuerdo con el diccionario de la Real Academia Española, inferir significa "sacar una consecuencia o
deducir algo de otra cosa".

El principal objetivo de la Estadística consiste en poder decir algo con respecto a un gran conjunto de personas,
mediciones u otros entes (población) con base en las observaciones hechas sobre sólo una parte (muestra) de
dicho gran conjunto. La capacidad para "decir algo" sobre poblaciones con base en muestras está basada en
supuestos con respecto a algún modelo de probabilidad que permite explicar las características del fenómeno
bajo observación.

Al conjunto de procedimientos estadísticos en los que interviene la aplicación de modelos de probabilidad y


mediante los cuales se realiza alguna afirmación sobre poblaciones con base en la información producida por
muestras se le llama Inferencia Estadística o Estadística Inferencial.

1
INDICE

1.- Estudio de la estadística inferencial

2.- Método

2 Planteamiento del problema

3 Elaboración de un modelo

4 Extracción de la muestra

5 Tratamiento de los datos

6 Estimación de los parámetros

7 Contraste de hipótesis

8 Conclusiones

9 Fuente

1.- Estudio de la estadística inferencial

 Toma de muestras o muestreo, que se refiere a la forma adecuada de considerar una muestra que permita
obtener conclusiones estadísticamente válidas y significativas.
 Estimación de parámetros o variables estadísticas, que permite estimar valores poblacionales a partir de
muestras de mucho menor tamaño.
 Contraste de hipótesis, que permite decidir si dos muestras son estadísticamente diferentes, si un determinado
procedimiento tiene un efecto estadístico significativo, etc.
o Diseño experimental.
o Inferencia bayesiana.
o Métodos no paramétricos.

Estadística inferencial

Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste de hipótesis. En
ambos casos se trata de generalizar la información obtenida en una muestra a una población. Estas técnicas
exigen que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras aleatorias, por la tanto la
situación habitual es la que se esquematiza en la figura

2
Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la
denominada población de muestreo: población (la mayor parte de las veces no definida con precisión) de la
cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización está amenazada por dos
posibles tipos de errores: error aleatorio que es el que las técnicas estadísticas permiten cuantificar y
críticamente dependiente del tamaño muestral, pero también de la variabilidad de la variable a estudiar y
el error sistemático que tiene que ver con la diferencia entre la población de muestreo y la población diana y
que sólo puede ser controlado por el diseño del estudio.
El tamaño muestral juega el mismo papel en estadística que el aumento de la lente en microscopía: si no se ve
una bacteria al microscopio, puede ocurrir que:

- la preparación no la contenga
- el aumento de la lente sea insuficiente.

Para decidir el aumento adecuado hay que tener una idea del tamaño del objeto.
Del mismo modo, para decidir el tamaño muestral:

i) en un problema de estimación hay que tener una idea de la magnitud a estimar y del error aceptable.
ii) en un contraste de hipótesis hay que saber el tamaño del efecto que se quiere ver.

2.- Método

2.1- Planteamiento del problema

Suele iniciarse con una fijación de objetivos o algunas preguntas como:

¿cuál será la media de esta población respecto a tal característica?

3
¿se parecen estas dos poblaciones?

¿hay alguna relación entre...?

En el planteamiento se definen con precisión la población, la característica a estudiar, las variables, etc.

Se analizan también en este punto los medios de los que se dispone y el procedimiento a seguir.

2.2- Elaboración de un modelo

Se establece un modelo teórico de comportamiento de la variable de estudio. En ocasiones no es posible diseñar


el modelo hasta realizar un estudio previo. Los posibles modelos son distribuciones de probabilidad.

2.2.1- Cálculo del tamaño muestral para contrastes sobre medias

Sea el contraste (bilateral)


H0: = 0

H1: > 0

Para calcular el tamaño muestral debemos,


además de fijar y , concretar H1

Concretando H1: = 0 + .

Si n suficientemente grande para poder usar la


normal, es decir

resulta que

Si el contraste fuera a dos colas habría que cambiar z por z

2.3- Extracción de la muestra

Se usa alguna técnica de muestreo o un diseño experimental para obtener información de una pequeña parte
de la población.

2.3.1- Cálculo del tamaño muestral para contrastes sobre medias

4
Sea el contraste (bilateral)
H0: = 0

H1: > 0

Para calcular el tamaño muestral debemos,


además de fijar y , concretar H1

Concretando H1: = 0 + .

Si n suficientemente grande para poder usar la


normal, es decir

resulta que

Si el contraste fuera a dos colas habría que cambiar z por z

Distribución muestral de medias

Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del límite central) que la fdp de
la media muestral es también normal con media m y varianza s2/n. Esto es exacto para poblaciones normales

y aproximado (buena aproximación con n>30) para poblaciones cualesquiera. Es decir es el error
típico, o error estándar de la media.

¿Cómo usamos esto en nuestro problema de estimación?


1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1 (la llamada z); pero haciendo
la transformación (llamada tipificación)

una normal de media m y desviación s se transforma en una z.

5
Llamando za al valor de una variable normal
tipificada que deja a su derecha un área bajo la curva
de a, es decir, que la probabilidad que la variable sea
mayor que ese valor es a(estos son los valores que
ofrece la tabla de la normal)

podremos construir intervalos de la forma

para los que la probabilidad es 1 - a.

Teniendo en cuenta la simetría de la normal y manipulando algebraícamente

que también se puede escribir

o, haciendo énfasis en que es el error estándar de la media,

Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un intervalo de este tipo se le
denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, o nivel de significación de 100a%.

El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor se le denomina

estimación puntual y se dice que es un estimador de m.

6
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20 en la que se

calcula se puede decir que mtiene una probabilidad de 0,95 de estar comprendida en el intervalo

que sería el intervalo de confianza al 95% para m

En general esto es poco útil, en los casos en que no se conoce m tampoco suele conocerse s2; en el caso más
realista de s2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdpcontinua para
la que hay tablas) en lugar de la z.

o, haciendo énfasis en que es el error estándar estimado de la media,

Este manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando n es grande
(>30) se puede sustituir t por zsin mucho error.

2.4- Tratamiento de los datos

En esta fase se eliminan posibles errores, se depura la muestra, se tabulan los datos y se calculan los valores
que serán necesarios en pasos posteriores, como la media muestral, la varianza muestral, etc.

Los métodos de esta etapa están definidos por la Estadística Descriptiva.

2.4.1- Comparación de medias

La hipótesis nula
H0: = d0
Generalmente d0=0

Hay 3 situaciones distintas:

1º conocidos (poco frecuente).

7
2º desconocidos pero iguales.

3º desconocidos pero distintos.

Los estadísticos son distintos (z en 1 y t en 2 y 3) pero el procedimiento es el mismo. En los 3 casos se supone
que las muestras son independientes; si no lo fueran hay otro estadístico (t pareada).

Todos asumen normalidad. Si no se cumpliera hay que usar los llamados test no paramétricos.

Ejemplo

En un ensayo clínico para evaluar un hipotensor se compara un grupo placebo con el grupo tratado. La variable

medida es la disminución de la presión sistólica y se obtiene: grupo placebo n = 35; = 3,7 mm de Hg. y s2 =

33,9; grupo tratado n = 40; = 15,1 mm de Hg. y s2 = 12,8. ¿Es eficaz el tratamiento?

Se trata de un contraste sobre diferencias de medias


H0: T P = 0
H1: T P> 0

Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales o distintas, para ello se
plantea el contraste

H0:

H1:

El estadístico es , para el que p<0,05, en consecuencia rechazamos


la H0 y concluimos que las varianzas son distintas. Por lo tanto usaríamos la t para varianzas distintas. Haciendo
los cálculos t=-10,2 p<0,05 rechazamos la H0 y concluimos que las medias son distintas.

Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2
variables: Trata (con un código distinto para cada grupo, p.e. 0 para placebo y 1 para tratado) y Diferen con la
diferencia de presión arterial para cada individuo al acabar el estudio y al empezar. Originalmente en el archivo
podría haber una variable con la presión al empezar y otra al acabar y se crearía la diferencia con la opción:
Transformar ---> Calcular. Para calcular la t desplegamos los menús que se ven en la gráfica:

8
Y el programa calcula la t para varianzas iguales y distintas y realiza el contraste para las varianzas. Para el
contraste sobre las varianza el SPSS no usa la prueba descrita más arriba, sino la de Levene que no asume
normalidad y se puede usar para comparar varias varianzas.

Estadísticos del grupo

TRATA N Media Desviación típ. Error típ. de la media


DIFEREN 0 35 3,729 5,666 ,958
1 40 15,075 3,576 ,565

Prueba de muestras independientes

9
Prueba dePrueba
LeveneT para la igualdad de medias
para la igualdad de
varianzas

F Sig. t gl Sig. (bilateral)


Diferencia
Error de
típ
Intervalo
de la de confianza
medias diferencia
para la diferencia
Inferior Superior

DIFEREN
Se han 10,431
asumido
,002 -10,50373 ,000 -11,346 1,080 -13,500 -9,193
varianzas
iguales
No se han -10,20155,909 ,000 -11,346 1,112 -13,575 -9,118
asumido
varianzas
iguales

¿Qué nos está diciendo este resultado? Que si el tratamiento fuera igual de eficaz que el placebo, la
probabilidad de haber obtenido una diferencia entre ambos como la que hemos encontrado o mayor es muy
pequeña (<0,000) ¿Bastaría esto para convencernos de que debemos tratar con este tratamiento?

2.5- Estimación de los parámetros

Con determinadas técnicas se realiza una predicción sobre cuáles podrían ser los parámetros de la población.

2.5.1- Estimación de parámetros

En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la


familia (normal, binomial,...) pero no los parámetros. Para calcularlos necesitaríamos tener todos los posibles
valores de la variable, lo que no suele ser posible.
La inferencia estadística trata de cómo obtener información (inferir) sobre los parámetros a partir de
subconjuntos de valores (muestras) de la variable.

Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para calcularla.
Estimación: Proceso por el que se trata de averiguar un parámetro de la población representado, en general,

por q a partir del valor de un estadístico llamado estimador y representado por


El problema se resuelve en base al conocimiento de la "distribución muestral" del estadístico que se use.
¿Qué es esto? Concretemos, p.e. en la media (m). Si para cada muestra posible calculamos la media muestral

( ) obtenemos un valor distinto ( es un estadístico: es una variable aleatoria y sólo depende de la muestra),

habrá por tanto una fpd para , llamada distribución muestral de medias. La desviación típica de esta

10
distribución se denomina error típico de la media. Evidentemente, habrá una distribución muestral para cada
estadístico, no sólo para la media, y en consecuencia un error típico para cada estadístico.
Si la distribución muestral de un estadístico estuviera relacionada con algún parámetro de interés, ese
estadístico podría ser un estimador del parámetro.

2.6- Contraste de hipótesis

Los contrastes de hipótesis son técnicas que permiten simplificar el modelo matemático bajo análisis.
Frecuentemente el contraste de hipótesis recurre al uso de estadísticos muestrales.

2.6.1- Contrastes de hipótesis

Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o no. Las
hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto si se aceptan
como si se rechazan se puede cometer un error.

La hipótesis formulada con intención de rechazarla se llama hipótesis nulay se representa por H0. Rechazar
H0 implica aceptar una hipótesis alternativa (H1).

La situación se puede esquematizar:

H0 cierta H0 falsa
H1 cierta

H0 rechazada Error tipo I ( ) Decisión correcta (*)

H0 no rechazada Decisión correcta Error tipo II ( )

(*) Decisión correcta que se busca

= p(rechazar H0|H0 cierta)


= p(aceptar H0|H0 falsa)
Potencia =1- = p(rechazar H0|H0 falsa)

Detalles a tener en cuenta

1 y están inversamente relacionadas.


2 Sólo pueden disminuirse las dos, aumentando n.

Los pasos necesarios para realizar un contraste relativo a un parámetro son:

11
1. Establecer la hipótesis nula en términos de igualdad

2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo del interés del
investigador

en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral (derecho en el 2º
caso, o izquierdo en el 3º) o una cola.

3. Elegir un nivel de significación: nivel crítico para

4. Elegir un estadístico de contraste: estadístico cuya distribución muestral se conozca en H0 y que esté
relacionado con y establecer, en base a dicha distribución, la región crítica: región en la que el estadístico
tiene una probabilidad menor que si H0 fuera cierta y, en consecuencia, si el estadístico cayera en la misma,
se rechazaría H0.

Obsérvese que, de esta manera, se está más seguro cuando se rechaza una hipótesis que cuando no. Por eso se
fija como H0 lo que se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada, simplemente no se
ha podido rechazar. Por otro lado, la decisión se toma en base a la distribución muestral en H0, por eso es
necesario que tenga la igualdad.

5. Calcular el estadístico para una muestra aleatoria y compararlo con la región crítica, o equivalentemente,
calcular el "valor p" del estadístico (probabilidad de obtener ese valor, u otro más alejado de la H0, si H0 fuera
cierta) y compararlo con .

Ejemplo:

Estamos estudiando el efecto del estrés sobre la presión arterial. Nuestra hipótesis es que la presión sistólica
media en varones jóvenes estresados es mayor que 18 cm de Hg. Estudiamos una muestra de 36 sujetos y
encontramos

1. Se trata de un contraste sobre medias. La hipótesis nula (lo que queremos rechazar) es:

12
2. la hipótesis alternativa

es un contraste lateral derecho.

3. Fijamos "a priori" el nivel de significación en 0,05 (el habitual en Biología).

4. El estadístico para el contraste es

y la región crítica T>t


Si el contraste hubiera sido lateral izquierdo, la región crítica sería T<t1-
y si hubiera sido bilateral T<t1- /2 o T>t /2

En este ejemplo t(35)0,05=1,69.

5. Calculamos el valor de t en la muestra

no está en la región crítica (no es mayor que 1,69), por tanto no rechazamos H0.

Otra manera equivalente de hacer lo mismo (lo que hacen los paquetes estadísticos) es buscar en las tablas el
"valor p" que corresponde a T=0,833, que para 35 g.l. es aproximadamente 0,20. Es decir, si H0 fuera cierta,
la probabilidad de encontrar un valor de T como el que hemos encontrado o mayor (¿por qué mayor? Porque
la H1 es que es mayor , lo que produciría una media muestral mayor y por tanto mayor valor de t) es 0,20,
dicho de otra manera la probabilidad de equivocarnos si rechazamos H0 es 0,20, como la frontera se establece
en 0,05 no la rechazamos.

Este valor crítico de 0,05 es arbitrario pero es la convención habitual. ¿Cuán razonable es?

Problema al respecto : en la hipótesis de que un mazo de cartas esté bien barajado, la probabilidad de que al
sacar dos cartas sean, p.e.:1 el as de oros y 2 el rey de bastos es 1/40 x 1/39=0,000833.

Si hacemos la experiencia y obtenemos ese resultado ¿rechazaríamos la hipótesis de que el mazo está bien
barajado? ¿Cuánto se parece esto a la lógica del contraste de hipótesis?

13
Volvamos al problema del estrés. Como no se rechaza H0, se puede cometer un error tipo II. ¿Cuál es ?. De
hecho, sería la información relevante a comunicar en este estudio (la probabilidad del error que se pude cometer
en él). Habitualmente, sin embargo, no se da porque los paquetes estadísticos no la calculan.
Para calcularla se debe concretar H1, p.e. = 20 (el criterio para este valor no es estadístico)

=p(aceptar H0|H1 cierta)

Supongamos que el tamaño muestral sea suficientemente grande para poder aproximar t a z.

¿Cuándo se acepta H0? si z 1,69

es decir, se acepta H0 si

¿Qué probabilidad hay de encontrar si = 20 (zona verde del gráfico)? En esta hipótesis lo que
se distribuye como una z esestadistica inferencial

14
CONCLUSIONES

se critica el modelo y se hace un balance. Las conclusiones obtenidas en este punto pueden servir para tomar
decisiones o hacer predicciones.

El estudio puede comenzar de nuevo a partir de este momento, en un proceso cíclico que permite conocer cada
vez mejor la población y características de estudio.

REFERENCIAS

Inferencia Estadística (2ª Edición Revisada). ISBN 978-84-9828-131-6. Consultado el 27 de abril de 2010.

Estadística inferencial

15

Vous aimerez peut-être aussi