Vous êtes sur la page 1sur 63

Pruebas de Hiptesis

Estadstica inferencial
Marzo de 2014
El rol de la hiptesis
La hiptesis es central a toda construccin
de conocimiento.
Puede ser el punto inicial de una
investigacin de carcter confirmatorio.
Puede ser el punto final de una investigacin
de carcter exploratorio.
Teora
Hechos
Hiptesis
Deducir
Inducir
Qu es una hiptesis?
Una proposicin acerca del comportamiento de
algn fenmeno.
Esta proposicin se simplifica y se
especifica como una relacin entre dos
aspectos de un fenmeno.
reconociendo que hay muchos ms aspectos
que influyen.
La estadstica tiene, a menudo, el objetivo
de poner a prueba estas hiptesis.
Hiptesis Conceptual
El planteamiento de la proposicin a nivel
abstracto
Los ingresos varan entre tipos de
personas.
La tendencia poltica de una persona
depende de su afiliacin religiosa.
Pases ms pobres tienen peor
distribuciones de ingreso.
Hiptesis Operacional
El planteamiento de la proposicin a nivel
concreto (operacional)
Los ingresos mensuales, por concepto de
sueldo en pesos chilenos, varan entre
hombres y mujeres.
El partido poltico a que pertenece una
persona depende de si es catlico,
protestante o judo.
Mientras ms bajo el PIB/capita de un pas,
mayor es el coeficiente Gini de ese pas.
Noten que, en estos ejemplos, las variables
SI nos indican cmo observar el fenmeno.
Hiptesis Nula (H
o
)
La negacin de la hiptesis operacional:
Los ingresos mensuales, por concepto de
sueldo en pesos chilenos, NO varan entre
hombres y mujeres.
El partido poltico a que pertenece una
persona NO depende de si es catlico,
protestante o judo.
Mientras ms bajo el PIB/capita de un pas,
MENOR O IGUAL es el coeficiente Gini de ese
pas.
Hiptesis Estadstica
Hiptesis
Operacional
H
1
:
H

M

H
1
: < 0
Hiptesis Nula
H
O
:
H
=
M

H
O
: 0
Asociacin v/s Causacin
Al plantear una hiptesis, es importante
establecer si la hiptesis simplemente apunta
a la existencia de una relacin o si implica
una situacin de causa y efecto.
Causalidad requiere:
Establecer una asociacin (relacin)
Establecer un orden en el tiempo
Descartar relaciones espurias.
Hiptesis y Nivel de Medicin
Los ingresos mensuales, en trminos de sueldo
en pesos chilenos, varan entre hombres y
mujeres. (Numrica y Categrica)
El partido poltico a que pertenece una
persona depende de si es catlico,
protestante o judo. (Categrica y
Categrica)
Mientras ms bajo el PIB/capita de un pas,
mayor es el coeficiente Gini de ese pas.
(Numrica y Numrica)
Cmo se pone a prueba una
hiptesis?
Para empezar, la estadstica pone a prueba la
hiptesis nula.
Luego de tomar una decisin sobre la
hiptesis nula, esto se interpreta como apoyo
o carencia de apoyo para nuestra hiptesis
operacional.
Ese apoyo (o falta de), a su vez, se
interpreta como apoyo (o falta de) para
nuestra hiptesis conceptual.
La lgica de la prueba de hiptesis
Partimos del supuesto que tenemos una muestra
y queremos saber qu ocurre en la poblacin.
La hiptesis nula se considera lo esperado.
Los datos obtenidos se considera lo
observado.
La prueba de hiptesis se convierte en una
comparacin entre lo esperado y lo observado.
Volviendo al ejemplo de diferentes sueldos
entre hombres y mujeres...
La hiptesis nula establece que el sueldo
promedio de los hombres es igual al sueldo
promedio de las mujeres (diferencia
esperada = 0)
Sin embargo, en promedio, los hombres ganan
$70,000 ms por mes que las mujeres
(diferencia observada = $70,000).

La pregunta ahora es, la diferencia que he
observado en mi muestra, refleja una
diferencia real en la poblacin?
Para poder responder eso necesito calcular
ciertos estadgrafos que me permitan decidir
si rechazo o no rechazo mi hiptesis nula.
Paramtrica o no paramtrica?
Para usar tcnicas paramtricas:
Se supone variables de tipo numrica,
Que se distribuyen normalmente,
Y que tengamos, mnimamente, 30 casos por
grupo (si estamos comparando grupos) o 30
casos por variables (si estamos
correlacionando dos variables).
Tengan presentes que estos criterios son
orientadores, no son dogma.
Paramtrica No Paramtrica
2 variables
categricas

2

1 variable
categrica
y 1
numrica
2 grupos:
t de Student
2 grupos:
U de Mann-Whitney
>2 grupos:
ANOVA
>2 grupos:
H de Kruskal-
Wallis
2 variables
numricas
Correlacin de
Pearson y
Regresin
Correlacin de
Spearman
Paramtrica No Paramtrica
Cuando las muestras son pareadas. . .
1 variable
categrica
y 1
numrica
2 grupos:
t de Student
para muestras
relacionadas
2 grupos:
Prueba de
Wilcoxon
>2 grupos:
MLG para
medidas
repetidas
>2 grupos:
Prueba de
Friedman
Volviendo a la lgica...
La idea es establecer un umbral (un valor
crtico) que me permita decir, con un cierto
grado de confianza, que lo que he observado
efectivamente refleja una realidad externa y
no se deba solamente a errores de medicin o
de muestreo.
Entonces, con los datos observados calculo un
estadgrafo (valor observado) que contrasto
con el umbral (valor crtico).
Si el valor observado es mayor o igual que el
valor crtico...
Rechazo la hiptesis nula,
Apoyo la hiptesis operacional, y
Apoyo la hiptesis conceptual.
Si el valor observado es menor que el valor
crtico...
NO rechazo la hiptesis nula,
NO apoyo la hiptesis operacional, y
NO apoyo la hiptesis conceptual.

Errores
Como la estadstica es una ciencia
probabilstica (y no determinstica), siempre
existe la posibilidad de cometer errores.
Por suerte, las probabilidades de cometer
errores pueden ser calculadas.
Esos clculos de probabilidades se basan en
la lgica del rea bajo a curva normal.
Tipos de errores
Al tomar las decisiones en funcin de mis
valores crticos y observados, yo puedo
cometer 2 tipos de errores:
Rechazar una hiptesis nula que no debera
ser rechazada (que es verdadera); y
No rechazar una hiptesis nula que debera
ser rechazada (que es falsa).
( )
( ) II Error tipo Correcto H rechazo No
Correcto I Tipo Error H Rechazo
falsa H verdadera H
O
O
O O
El error |
Es difcil de calcular, por ende quiero
simplemente hacer dos comentarios al
respecto:
Est fuertemente vinculado a lo que se
denomina la potencia de una prueba
estadstica (su capacidad de detectar
diferencias pequeas); y
Su relacin con el error tipo o no es
lineal y s es muy compleja.
El error o
Es posible que el error tipo o probablemente
ya lo hayan visto.
Recuerden que cuando se habla de Intervalos
de Confianza, a menudo se dice que queremos
estar 95% seguros de nuestros resultados.
A esto le llamamos el nivel de confianza.
El o es el grado de inseguridad (1 0.95)...
La probabilidad de cometer un error
La tradicin en el mundo de la ciencia (y esto
es comn en casi todas las ciencias, tanto las
sociales como las naturales), es que la
probabilidad de cometer un error no debera
ser mayor a 0.05 (5%, o 1 en 20).
A veces, se puede usar 0.01 o 0.001 pero 0.05
es lo ms comn.
Cuando podemos estar 95% seguro (o ms) de
nuestra decisin de rechazar la hiptesis
nula, se dice que el resultado es
significativo.
Los pasos (clsicos) para probar
hiptesis
1. Decida sobre el valor de o con que quiere
trabajar (que probabilidad de cometer un
Error Tipo I est dispuesto a correr);
2. Identifique el valor crtico (el umbral)
utilizando una tabla especialmente diseada
para estos fines (disponibles en todo texto
de estadstica; Tablas de z, t, F, Chi,
etc.);
3. Calcule el valor observado (el estadgrafo)
con los datos a su disposicin;
4. Compare el valor observado con el valor
crtico; y
5. Tome una decisin...
1. Si v
o
> v
c
Rechace H
o

2. Si v
o
< v
c
No rechace H
o
6. En funcin de su decisin anterior, apoye o
no apoye su hiptesis operacional y, por
ende, su hiptesis conceptual.
7. NOTA BENE: En la estadstica nunca se
prueba una hiptesis, solamente se apoya!!
Los pasos (modernos) para probar
hiptesis
1. Decida sobre el valor de o con que quiere
trabajar (que probabilidad de cometer un
Error Tipo I est dispuesto a correr);
2. Pdale al computador que calcule el
estadgrafo correspondiente y que informe
sobre su significancia;
La significancia es el clculo exacto
de la probabilidad de cometer un error
tipo o.
3. Identifique el valor de la significancia
(sig., p, prob., etc.);
4. Compare sig. con o.
5. Tome una decisin:
1. Si sig. s o Rechace H
o

2. Si sig. > o No rechace H
o
6. En funcin de su decisin anterior, apoye o
no apoye su hiptesis operacional y, por
ende, su hiptesis conceptual.

Ejercicios
Asociacin entre variables categricas
Formar grupos de 4 personas para la prxima
clase traer una encuesta a 80 personas que
les permita probar una hiptesis de
asociacin entre variables.
Definir las variables de preferencia
dicotmicas

Definir la pregunta
Definir la hiptesis nula y operacional
Traer datos para prximo laboratorio
Aproximndonos a la prueba de
hiptesis formal
Supongamos que tenemos una tabla de
contingencia de la preferencia de 200
estudiantes de psicologa para las
especializaciones clnica o laboral.
Distribucin de estudiantes segn
sexo y especialidad
Laboral Clinico
Hombres 100
Mujeres 100
120 80
Laboral Clinico
Hombres 100
Mujeres 100
120 80
Qu esperaramos si no hubiera
relacin?
Laboral Clinico
Hombres 100
Mujeres 100
120 80
Veamos ahora los resultados
encontrados en el ao 2011
Existir asociacin entre el sexo y la
especialidad escogida?
Laboral Clnico
Hombres 25 75 100
Mujeres 95 5 100
120 80
Aparentemente hay diferencias importantes
con lo que estbamos esperando en la primara
tabla?

Qu podramos hacer con esta informacin
para responder nuestra pregunta?

Podemos comparar lo que esperbamos con
lo que se observ realmente.

Y cmo lo hacemos?
Si restamos tendramos algo as
O E O - E
25 60 -35
75 40 35
95 60 35
5 40 -35
Ahora sabemos cunto se diferencia
cada celda de la tabla de lo
esperado

Pero si quiero llegar a un
estadgrafo que exprese toda es
deviacin?
Debo usar algunas tcnicas del semestre
pasado y algunas nuevas.
O E O - E (O - E)
2
(O - E)
2
/E
25 60 -35 1225 20.42
75 40 35 1225 30.63
95 60 35 1225 20.42
5 40 -35 1225 30.63
Algo ms de formalidad
Para desarrollar este ejercicio podemos
recurrirla prueba de _
2*
de Pearson.

Compara una distribucin de frecuencia
observada con la distribucin de
frecuencia esperada. Cunado hay dos
variables nos permite evaluar si existe
asociacin entre ellas.

_
2
es tanto una prueba estadstica como una distribucin matemtica. Adems hay
otros anlisis estadsticos que generan chi-cuadrado-

La formula de chi cuadrado
( )


=
E
E O
2
2
_
Chi-cuadrado es la suma del cuadrado de
las diferencias entre la frecuencia
observada y la esperada.

Entonces mientras mayor sea el valor de
_2, es mayor la diferencia entre lo
esperado y lo observado.
Supuestos de la Prueba chi cuadrado
Independencia de los datos. Cada sujeto
debe contribuir a solo una celda en la
tabla de contingencia. No se puede usar
para medidas repetidas.
Las frecuencias esperadas para cada
celda deben ser mayores de 5. Esta
asuncin se relaciona con la prdida de
potencia
Desarrollemos el ejemplo
H0= el sexo y la eleccin son independientes
H1= existe asociacin entre el sexo y la
eleccin
Siguiendo la lgica de la prueba de
hiptesis debemos definir un valor
alfa. Tomaremos 95%.
El valor crtico lo vamos a buscar en
la distribucin de chi cuadrado que al
igual que la Normal se encuentra
tabulada.
Tabla chi cuadrado

Si se fijan en la tabla aparece una
columna diferente a la tabla de la
distribucin normal que dice df que
quiere decir grados de libertad.
En la prueba chi-cuadrado los gl se
calcula
g.l = (nmero de filas - 1) *

(nmero de
columnas - 1).

En el ejemplo:

g.l=(2 -1)*(2-1)=1
Laboral Clnico
Hombres 25 75 100
Mujeres 95 5 100
120 80
Revisando la tabla con 1 gl el valor
critico para una probabilidad de 0.05 o
alfa 95% es 3.84.

Si tuviramos que calcularlo a mano





Ya tenemos calculado lo que nos pide la
formula.
O E O - E (O - E)
2
(O - E)
2
/E
25 60 -35 1225 20.42
75 40 35 1225 30.63
95 60 35 1225 20.42
5 40 -35 1225 30.63
_
2
= 20.42+ 30.63+ 20.42+ 30.63
_
2
= 102.1

Ahora debemos revisar si ese valor es
suficientemente grande para decir que hay
asociacin entre el sexo y la eleccin de
especialidad.


Nuestro valor de _
2
= 102.1 fue
mayor a ese valor crtico por un
amplio margen.
Entonces podemos rechazar la
hiptesis nula (independencia)


Veamos cmo se hace en SPSS
Abrimos el archivo con los datos brutos
(EjemploChi.sav).
El archivo tiene 2 columnas(y una de
ID) porque son 2 variables las que nos
interesa estudiar.
Vamos a: Analizar > Estadsticos
Descriptivos>Tablas de contingencia
Arrastramos las variables

En el botn estadsticos marcamos:

Phi y V de Cramer

Phi se usa para tablas 22. Se calcula
dividiendo el valor de chi-cuadrado por
el tamao de la muestra y calculando la
raz de ese valor
Para tablas de 3x2 hacia arriba se usa
V de Cramer porque phi no funciona bien
en esos casos
Lambda () de Goodman y Kruskal
Mide la reduccin en el error que se
logra cuando se usa una variable para
predecir la pertenencia a la otra.
Un valor de 1 significa que una
variable predice perfectamente la otra
y 0 que no se relaciona con ella
En el casillas marcamos:

Los resultados

Pruebas de chi-cuadrado

Valor gl
Sig. asinttica
(bilateral)
Sig. exacta
(bilateral)
Sig. exacta
(unilateral)
Chi-cuadrado de Pearson 102,083
a
1 ,000

Correccin por continuidad
b
99,188 1 ,000

Razn de verosimilitudes 117,035 1 ,000

Estadstico exacto de Fisher

,000 ,000
Asociacin lineal por lineal 101,573 1 ,000

N de casos vlidos 200

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 40,00.
b. Calculado slo para una tabla de 2x2.



Medidas simtricas

Valor Sig. aproximada
Nominal por nominal Phi -,714 ,000
V de Cramer ,714 ,000
Coeficiente de contingencia ,581 ,000
N de casos vlidos 200


Como lo reportamos
Al informar chi-cuadrado de Pearson
simplemente damos el valor de la prueba con
sus gl y el valor de significacin. Como tal,
se podra informar:
Se observ una asociacin significativa
entre el sexo y la preferencia por la mencin
en clnica o laboral _2(1)=102.083 p < .001,
.Las mujeres tienden a escoger la mencin
laboral y los hombres a preferir la clnica.
El estadstico V de Cramer alcanz un valor de
0.71 p< 0.01 que indica una asociacin de
rango medio alto entre ambas variables