Vous êtes sur la page 1sur 15

INSTITUTO TECNOLOGICO DE MINATITLAN

ALUMNA:
ANA ROSARIO PAXTIAN SOSME


MATERIA:
ESTADISTICA INFERENCIAL 1

TEMA:
UNIDAD 4

ESPECIALIDAD:
INGENIERIA EN GESTION EMPRESARIAL


MAESTRO:
ING. ANGEL SOLANO GONZALEZ
4.2 Distribucin normal y Distribucin t de Student.

La Distribucin T de Student

En la generalidad de los casos, no disponemos de la desviacin standard de la poblacin,
sino de una estimacin calculada a partir de una muestra extrada de la misma y por lo
tanto no podemos calcular Z. En estos casos calculamos el estadstico T:



donde S es la desviacin standard muestral, calculada con n-1 grados de libertad.

Ntese que utilizamos S, la Desviacin Standard de una Muestra, en lugar de , la
Desviacin Standard de la Poblacin.

El estadstico T tiene una distribucin que se denomina distribucin T de Student, que
est tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calcul la
desviacin standard. La distribucin T tiene en cuenta la incertidumbre en la estimacin
de la desviacin standard de la poblacin, porque en realidad la tabla de T contiene las
distribuciones de probabilidades para distintos grados de libertad.

La distribucin T es mas ancha que la distribucin normal tipificada Para un nmero de
grados de libertad pequeo. Cuando los grados de libertad tienden a infinito, la
distribucin T tiende a coincidir con la distribucin normal standard. Es decir, en la medida
que aumentemos el nmero de observaciones de la muestra, la desviacin standard
calculada estar mas prxima a la desviacin standard de la poblacin y entonces la
distribucin T correspondiente se acerca a la distribucin normal standard. El uso de la
distribucin T presupone que la poblacin con que estamos trabajando tiene una
distribucin normal.

Distribucin de Promedios Muestrales

Para comprender que significa distribucin de promedios muestrales, vamos a suponer
que realizamos un experimento con bombos como los usados en la lotera. Colocamos un
nmero muy grande de bolas blancas en un bombo blanco, en cada una de las cuales
figura un dato X. Este bombo representa la poblacin de observaciones X, y tiene media
m y varianza s2. Supongamos que a continuacin hacemos los siguiente:
1) Tomamos una muestra de n=10 bolas blancas.

2) Calculamos la media y la anotamos en una bola azul.

3) Colocamos la bola azul en un segundo bombo de color azul.

4) Devolvemos las bolas blancas a su bombo y le damos vueltas.

5)Repetimos toda la operacin muchas veces hasta que el bombo azul est lleno
de bolas azules.

Entonces, los nmeros del bombo azul forman una poblacin de promedios muestrales.
Esta es una poblacin derivada de la anterior, y tiene la misma media o promedio que la
distribucin original, pero su varianza es un ensimo de la varianza de la distribucin
original:


La distribucin de medias muestrales est situada en el mismo lugar (alrededor de la
misma media) que la distribucin original, pero es mucho mas estrecha, porque su
varianza es la dcima parte de la varianza original. La distribucin original de
observaciones representada por el bombo blanco se denomina comnmente distribucin
madre o base. Al construir la poblacin de promedios muestrales, realizbamos
extracciones de 10 bolas blancas despus de dar vueltas al bombo. Es decir, que
estbamos realizando un muestreo aleatorio de la poblacin madre, porque cada una de
las bolas blancas tena la misma posibilidad de ser elegida para integrar la muestra.
Aunque la poblacin original no sea de distribucin normal, si el muestreo es aleatorio, la
poblacin de promedios muestrales se aproximar a la normalidad, es decir, ser casi de
distribucin normal. Este efecto se debe a un teorema de estadstica matemtica
denominado Teorema Central del Lmite. En resumen, si se cumple la hiptesis de
muestreo aleatorio, tenemos:

En general, en los problemas que se presentan habitualmente, existe una poblacin de
observaciones cualesquiera, de la cual tomamos una muestra aleatoria, por medio de la
cual intentamos conocer todo lo que sea posible acerca de la poblacin de la cual fue
extrada. El promedio de la muestra de n elementos pertenece a la distribucin de
promedios muestrales de la poblacin original. Es decir, que el promedio de la muestra
que obtuvimos es uno de los muchos promedios muestrales que se distribuyen alrededor
de m con desviacin standard.
Por lo tanto, si la muestra es mas grande (n mayor), estaremos en una distribucin de
promedios con desviacin standard mas pequea, por lo cual, el promedio de la muestra
estar mas cerca del promedio del universo. Es por esto que es razonable pensar que el
promedio de la muestra es una estimacin del universo.
La Distribucin Normal

Una distribucin muy importante es la Distribucin Normal o de Gauss. La ecuacin
matemtica de la funcin de Gauss es la siguiente:







La distribucin normal es una curva con forma de campana, con eje de simetra en el
punto correspondiente al promedio del universo .
La distancia entre el eje de simetra de la campana y el punto de inflexin de la curva es
igual a , la desviacin standard de la poblacin.

El rea total debajo de la curva es igual a 1. El rea debajo de la curva comprendida entre
- y + es aproximadamente igual a 0,68 del rea total; entre - 2 y + 2 es
aproximadamente igual a 0,95 del rea total:
Es importante ver que los nicos parmetros necesarios para dibujar el grfico de la
distribucin normal son y (Media y desviacin standard de la poblacin). Con estos dos
parmetros sabemos dnde situar la campana de Gauss (En el punto correspondiente a
la media) y cul es su ancho (Determinado por la desviacin standard).
Cuando nos encontramos con una poblacin de observaciones, si podemos afirmar que la
distribucin correspondiente es normal, slo hace falta estimar la media y la desviacin
standard para tener toda la informacin necesaria acerca de dicha poblacin.
4.3 Pruebas de significancia.
A pesar de las limitaciones de la estadstica, el trmino "estadsticamente significativo"
invade la literatura mdica y se percibe como una etiqueta que indicase "garanta de
calidad".
El considerar el trmino significativo implica utilizar trminos comparativos de dos
hiptesis. Los test de hiptesis son test de significacin estadstica que cuantifican hasta
que punto la variabilidad de la muestra puede ser responsable de los resultados de un
estudio en particular. La H
o
(hiptesis nula) representa la afirmacin de que no hay
asociacin entre las dos variables estudiadas y la H
a
(hiptesis alternativa) afirma que hay
algn grado de relacin o asociacin entre las dos variables. Nuevamente la estadstica
nos muestra su utilidad ya que nos ayuda a tomar la decisin de que hiptesis debemos
elegir. Dicha decisin puede ser afirmada con una seguridad que nosotros previamente
decidimos. El nivel de significacin se estableci siguiendo los comentarios del
estadstico Fisher que seal "...es conveniente trazar una lnea de demarcacin a partir
de la cual podamos decir: o bien hay algo en el tratamiento.... El mecanismo de los
diferentes test se realiza aunque con matices siempre de la siguiente forma: En primer
lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si
esta magnitud o valor absoluto es mayor que un error estndar definido multiplicado por
una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto
aceptamos la hiptesis alternativa y rechazamos la hiptesis nula.
El tamao muestral afecta a la probabilidad de la significacin estadstica a travs del
error estndar que se hace ms pequeo cuantos ms pacientes tenga el estudio. As
pues el valor de la "p" es funcin de la magnitud de la diferencia entre los dos grupos o
dos variables y del tamao de la muestra. Por esta razn una pequea diferencia puede
ser estadsticamente significativa si disponemos de un tamao muestral lo
suficientemente grande y por el contrario un efecto o diferencia relativamente grande
puede no alcanzar la significacin estadstica si la variabilidad es grande debida a un
pequeo tamao muestral. Por estas razones los valores de la "p" deben ser
considerados solo como una gua y no como base de conclusiones definitivas e
irrevocables.
Error de tipo I ()
Al realizar el test estadstico, podramos correr el riesgo de equivocarnos al rechazar la
hiptesis nula. La probabilidad de rechazar la hiptesis nula cuando en realidad es
verdadera (error de tipo I) se le denomina nivel de significacin y es la "p". Esta
probabilidad de rechazar la hiptesis nula cuando es verdadera se le conoce tambin
como error alfa. La "p" no es por tanto un indicador de fuerza de la asociacin ni de su
importancia.
La significacin estadstica es por tanto una condicin resultante del rechazo de una
hiptesis nula mediante la aplicacin de una prueba estadstica de significacin. El nivel
de significacin es el riesgo o la probabilidad que voluntariamente asume el investigador
de equivocarse al rechazar la hiptesis nula, cuando en realidad es cierta. Este riesgo se
establece normalmente en 0.05 0.01.
El proceso de poner a prueba una hiptesis involucra una toma de decisiones para
rechazar o no la hiptesis nula. Aunque los valores de la "p" son los de una variable
continua, se utiliza para forzar una decisin cualitativa, tomando partido por una u otra
hiptesis. Si p < 0.05 se considera significativo, en cuyo caso se rechaza la hiptesis nula
y no significativo si p> 0.05 en cuyo caso no se rechaza. Una "p" pequea significa que la
probabilidad de que los resultados obtenidos se deban al azar es pequea. Los
sinnimos de la expresin estadsticamente significativos se muestran en la Tabla 1
(5)

Error de tipo II ()
El riesgo alfa a ("p") indica la probabilidad de cometer un error de tipo I (falso positivo). El
error de tipo I, es por lo tanto rechazar la H
o
cuando en realidad es verdadera. Se podra
considerar que para evitar este tipo de error deberamos de elegir un nivel de confianza
ms elevado, sin embargo al aumentar el nivel de confianza aumenta la probabilidad de
cometer el error de tipo II. El error de tipo II consiste en aceptar la hiptesis nula cuando
es falsa y esto se conoce como el error de tipo II o Beta (b ) (falso negativo)
(6)
(Tabla 2).
En la ejecucin de un estudio determinado no es posible saber si estamos cometiendo el
error de tipo I o error de tipo II, sin embargo hay una serie de recomendaciones que
podramos seguir para disminuir dichos errores.
Recomendaciones para disminuir el error de tipo I:
- Disponer de una teora que gue la investigacin, evitando el "salir de
pesca" con el ordenador buscando asociaciones entre variables.
- Disminuir el nmero de test estadsticos llevados a cabo en el estudio.
- Depurar la base de datos para evitar errores de valores extremos que
puedan producir hallazgos significativos.
- Utilizar valores de alfa ms reducidos (0.01 0.001).
- Reproducir el estudio. Si al reproducir el estudio se obtienen resultados
similares, estaremos ms seguros de no estar cometiendo el error de tipo I.
Recomendaciones para disminuir el error de tipo II:
- Incrementar el tamao de la muestra.
- Estimar el poder estadstico del estudio.
- Incrementar el tamao del efecto a detectar.
- Incrementar el valor de alfa.
- Utilizar test paramtricos (ms potentes) en lugar de test no paramtricos.

4.4 Comparacin de dos muestras independientes: Pruebas t para las diferencias entre
dos medias.

En muchos estudios, incluidos la mayora de los ensayos clnicos, es necesario comparar
ciertas caractersticas en dos o ms grupos de sujetos. Tal sera el caso, por ejemplo, si
pensamos que un tratamiento nuevo puede tener un porcentaje de mejora mayor que
otro estndar, o cuando nos planteamos si los nios de las distintas comunidades
autnomas tienen o no la misma altura. En este artculo se analizar nicamente el
problema de la comparacin de dos grupos con respecto a una variable continua. La
eleccin de un mtodo de anlisis apropiado en este caso depender de la naturaleza de
los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se
comparan dos o ms grupos de observaciones pueden darse dos tipos de diseo: aquel
en el que las observaciones se refieren a dos grupos independientes de individuos, o el
caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones
diferentes. El tipo de metodologa ser distinto segn el caso en el que nos encontremos.
Otro aspecto a tener en consideracin ser el tipo y distribucin de los datos. Para grupos
independientes, los mtodos paramtricos requieren que las observaciones en cada
grupo provengan de una distribucin aproximadamente normal con una variabilidad
semejante, de modo que si los datos disponibles no verifican tales condiciones, puede
resultar til una transformacin
1,2,3
de los mismos (aplicacin del logaritmo, raz cuadrada,
etc.) o, en todo caso, se debera recurrir a la utilizacin de procedimientos no
paramtricos
4
.
Normalmente en este tipo de anlisis podremos establecer una hiptesis de partida
(hiptesis nula), que generalmente asume que el efecto de inters es nulo, por ejemplo
que la tensin arterial es la misma en hombres y mujeres o que dos tratamientos para la
hipercolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la
probabilidad de haber obtenido los datos observados si esa hiptesis es correcta. El valor
de esta probabilidad coincide con el valor-p que nos proporciona cada test estadstico, de
modo que cuanto menor sea ste ms improbable resulta que la hiptesis inicial se
verifique.
En un primer apartado, se presentar el test t de Student para dos muestras
independientes, introduciendo las modificaciones necesarias en el caso de que la
variabilidad de ambos grupos sea distinta. A continuacin se introducir el test t de
Student para el caso de dos muestras dependientes.

t de Student para dos muestras independientes

Uno de los anlisis estadsticos ms comunes en la prctica es probablemente el utilizado
para comparar dos grupos independientes de observaciones con respecto a una variable
numrica. Como ejemplo, consideremos los datos que se muestran en la,
correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias
distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada
una de las dietas.
Como ya se ha adelantado, la aplicacin de un contraste paramtrico requiere la
normalidad de las observaciones para cada uno de los grupos. La comprobacin de esta
hiptesis puede realizarse tanto por mtodos grficos (por medio de histogramas,
diagramas de cajas o grficos de normalidad) como mediante tests estadsticos
5
(test de
Kolmogorov-Smirnov, test de Shapiro-Wilks). Un nmero suficiente de observaciones
(digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la
utilizacin del mismo test. As mismo, este tipo de metodologa exigir que la varianza en
ambos grupos de observaciones sea la misma. En primer lugar se desarrollar el test t de
Student para el caso en el que se verifiquen ambas condiciones, discutiendo
posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean
similares.
formalmente el caso en el que las varianzas no sean similares.
Bajo las hiptesis de normalidad e igual varianza la comparacin de ambos grupos puede
realizarse en trminos de un nico parmetro como el valor medio (Figura 1a), de modo
que en el ejemplo planteado la hiptesis de partida ser, por lo tanto:
H
0
: La media de peso inicial es igual en ambos grupos
Se denotar por {X
1
, X
2
,...,X
n
} e {Y
1
,Y
2
,...,Y
m
} al peso observado en cada uno de los
sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigir
que coincida el nmero de observaciones en cada uno de los grupos que se comparan,
de modo que en el ejemplo n=40 y m=35.
4.5 Prueba de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones
normales.

Recibi este nombre en honor a Sir Ronald Fisher, uno de los fundadores de la
estadstica moderna. Esta distribucin de probabilidad se usa como estadstica
prueba en varias situaciones. Se emplea para probar si dos muestras provienen de
poblaciones que poseen varianzas iguales. Esta prueba es til para determinar si
una poblacin normal tiene una mayor variacin que la otra y tambin se aplica
cuando se trata de comparar simultneamente varias medias poblacionales.

Cuando se extraen muestras aleatorias independientes de dos poblaciones
normales con varianzas iguales es decir = entonces / tiene
una distribucin de probabilidad en el muestreo repetido que los expertos en
estadstica conocen como Distribucin F.

Al igual que con la distribucin x, la forma de la Distribucin F es asimetrica y
depende del nmero de grados de libertad asociados con y
representados como gl1=(n1-1) y gl2=(n2-1), respectivamente.


DISTRIBUCIN FISHER

Es la distribucin muestral aplicable para la relacin de dos varianzas.
Teorema. Si U y W son dos variables aleatorias independientes, cada una con
distribucin Chi Cuadrado con v1 y v2 grados de libertad, respectivamente,
entonces la distribucin de la siguiente variable aleatoria


Para manejar las tablas de Fisher del libro de Introduccin a la Inferencia
Estadstica del autor Genther, se tendr que buscar primero los grados de libertad
dos para luego localizar el rea correspondiente, relacionndola con los grados de
libertad uno, para calcular el valor de F.
Las tablas tienen la siguiente estructura:
v1
a

v2

1

2 3 . .. 500

0,050
0,025
0,010
0,005
3 10,13
17,44
34,12
55,55


El valor de 17,44 es el correspondiente a una Fisher que tiene 1 grado de libertad
uno y 3 grados de libertad dos con un rea de cero a Fisher de 0.025. Si lo vemos
graficamente:



Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma
depende de dos variables que son los grados de libertad.

Ejemplos :

1.-Encontrar el valor de F, en cada uno de los siguientes casos:
a) El rea a la derecha de F, es de 0.25 con v1=4 y v2=9.
b) El rea a la izquierda de F, es de 0.95 con v1=15 y v2=10.
c) El rea a la derecha de F es de 0.95 con con v1=6 y v2=8.
d) El rea a la izquierda de F, es de 0.10 con con v1=24 y v2=24

Solucin:

a) Como el rea que da la tabla es de cero a Fisher, se tiene que localizar primero
los grados de libertad dos que son 9, luego un rea de 0.75 con 4 grados de libertad
uno.






b) En este caso se puede buscar el rea de 0.95 directamente en la tabla con sus
respectivos grados de libertad.

c) Se tiene que buscar en la tabla un rea de 0.05, puesto que nos piden un rea a la
derecha de F de 0.95.

d) Se busca directamente el rea de 0.10, con sus respectivos grados de libertad.


Si s2 y s2 representan las varianzas de las muestras aleatorias independientes de
tamao n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas
=10 y = 15, respectivamente, encuentre P(s12/s22 > 1.26).
4.6 Comparaciones de dos muestras pareadas
Una de las hiptesis sobre las que habitualmente se fundamentan las pruebas
estadsticas de comparacin de grupos es que las observaciones pertenecientes a cada
una de las muestras son independientes entre s, no guardan relacin; siendo
precisamente ese uno de los objetivos de la aleatorizacin (eleccin aleatoria de los
sujetos o unidades de observacin, asignacin aleatoria del tratamiento a cada paciente,
etc). Sin embargo, como veremos en este artculo, la falta de independencia entre las
observaciones de los grupos puede ser una caracterstica de diseo del estudio para
buscar fundamentalmente una mayor eficiencia del contraste estadstico al disminuir la
variabilidad. En otras ocasiones con este tipo de diseo pareado lo que se busca es dar
una mayor validez a las inferencias obtenidas, controlando o eliminando la influencia de
variables extraas cuyo efecto ya es conocido o sospechado, y no se desea que
intervenga en el estudio actual pudiendo enmascarar el efecto del tratamiento o de la
variable de inters.
4.7 Modelo totalmente aleatorio: anlisis de varianza de un factor.
El diseo de experimentos es una tcnica estadstica en la cual una variable aleatoria
cuantitativa es explicada en trminos de una o ms variables aleatorias cualitativas. A
las variables aleatorias cualitativas se las denomina factores, y a los distintos
valores que pueden tomar dichos factores se los denomina niveles o tratamientos,
el nmero de tratamientos de un factor se denota por a. La respuesta que se observa
en cada uno de los tratamientos es una variable aleatoria.

Los datos tpicos para un modelo unifactorial se tabulan como se muestra en la
siguiente tabla:

Tratamiento
(nivel)
Observaciones Total Promedio
1 Y
11
Y
12
. Y
1n
Y
1.


Y . 1

2 Y
21
Y
22
. Y
2n
Y
2.


Y . 2

.

.

.


.

.

.

a Y
a1
Y
a2
. Y
an
Y
a.


Ya.

Y
..

Y..


Estas observaciones se pueden escribir por medio un modelo estadstico lineal como
el siguiente:
m j y l i Cov y N
n j
a i
y
lm ij ij ij i ij
= = e e e

=
=
e + + = ), , ( ) , 0 (
, , 2 , 1
, , 2 , 1
2
o t


donde y
ij
es la j-sima observacin del i-simo tratamiento, es un parmetro comn
de todos los tratamientos denominado media global, t
i
es un parmetro nico para el
i-simo tratamiento llamado efecto del tratamiento i-simo, y c
ij
es la componente
aleatoria del error, donde c
ij
~ N(0, o
2
) y se supone es constante para todos los
tratamientos.
Seleccin del tamao de muestra para estimar la diferencia de dos medias.
Suponga que se tienen dos poblaciones distintas, la primera con media
1
y desviacin
estndar
1
, y la segunda con media
2
y desviacin estndar
2.
Ms an, se elige
una muestra aleatoria de tamao n
1
de la primera poblacin y una muestra independiente
aleatoria de tamao n
2
de la segunda poblacin; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se
llama distribucin muestral de las diferencias entre medias o la distribucin
muestral del estadstico

La distribucin es aproximadamente normal para n
1
30 y n
2
30. Si las poblaciones son
normales, entonces la distribucin muestral de medias es normal sin importar los tamaos
de las muestras.
En ejercicios anteriores se haba demostrado que y que , por lo que no es
difcil deducir que y que .
La frmula que se utilizar para el calculo de probabilidad del estadstico de diferencia de
medias es:

Ejemplo:
En un estudio para comparar los pesos promedio de nios y nias de sexto grado en una
escuela primaria se usar una muestra aleatoria de 20 nios y otra de 25 nias. Se sabe
que tanto para nios como para nias los pesos siguen una distribucin normal. El
promedio de los pesos de todos los nios de sexto grado de esa escuela es de 100 libras
y su desviacin estndar es de 14.142, mientras que el promedio de los pesos de todas
las nias del sexto grado de esa escuela es de 85 libras y su desviacin estndar es de
12.247 libras. Si representa el promedio de los pesos de 20 nios y es el promedio
de los pesos de una muestra de 25 nias, encuentre la probabilidad de que el promedio
de los pesos de los 20 nios sea al menos 20 libras ms grande que el de las 25 nias.
Solucin:
Datos:
1
= 100 libras
2
= 85 libras
1
= 14.142 libras
2
= 12.247 libras
n
1
= 20 nios
n
2
= 25 nias
= ?

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de nios sea
al menos 20 libras ms grande que el de la muestra de las nias es 0.1056.