02 - Pruebas de Hipótesis Bivariadas

El rol de la hiptesis Pruebas de Hiptesis Bivariadas
Dr. Omar A. Barriga

Departamento de Sociologa Universidad de Concepcin La hiptesis es central a toda construccin de conocimiento. Puede ser el punto inicial de una investigacin de carcter confirmatorio. Puede ser el punto final de una investigacin de carcter exploratorio.
Teora
Deducir
Qu es una hiptesis?
No es ms que una proposicin acerca del comportamiento de algn fenmeno. Normalmente esa proposicin se simplifica al especificarla como una relacin entre dos aspectos del fenmeno reconociendo que hay muchos ms aspectos que influyen. La estadstica tiene, a menudo, el objetivo de poner a prueba estas hiptesis.
Hiptesis
Inducir
Hechos
Hiptesis Conceptual
El planteamiento de la proposicin a nivel abstracto
Los ingresos varan entre tipos de personas. La tendencia poltica de una persona depende de su afiliacin religiosa. Pases ms pobres tienen peor distribuciones de ingreso.
Hiptesis Operacional
El planteamiento de la proposicin a nivel concreto (operacional)
Los ingresos mensuales, por concepto de sueldo en pesos chilenos, varan entre hombres y mujeres. El partido poltico a que pertenece una persona depende de si es catlico, protestante o judo. Mientras ms bajo el PIB/capita de un pas, mayor es el coeficiente Gini de ese pas.
Noten que, en estos ejemplos, las variables no nos indican cmo observar el fenmeno.
Noten que, en estos ejemplos, las variables SI nos indican cmo observar el fenmeno.
Hiptesis Nula (Ho)

La negacin de la hiptesis operacional:
Los ingresos mensuales, por concepto de sueldo en pesos chilenos, NO varan entre hombres y mujeres. El partido poltico a que pertenece una persona NO depende de si es catlico, protestante o judo. Mientras ms bajo el PIB/capita de un pas, MENOR O IGUAL es el coeficiente Gini de ese pas.
Hiptesis Estadstica
Hiptesis Operacional H1: H ? M H1: ? < 0 Hiptesis Nula HO: H = M HO: ? = 0
Asociacin v/s Causacin

Al plantear una hiptesis, es importante establecer si la hiptesis simplemente apunta a la existencia de una relacin o si implica una situacin de causa y efecto. Causalidad requiere:
Establecer una asociacin (relacin) Establecer un orden en el tiempo Descartar relaciones espurias.
Hiptesis y Nivel de Medicin

Los ingresos mensuales, en trminos de sueldo en pesos chilenos, varan entre hombres y mujeres. (Numrica y Categrica) El partido poltico a que pertenece una persona depende de si es catlico, protestante o judo. (Categrica y Categrica) Mientras ms bajo el PIB/capita de un pas, mayor es el coeficiente Gini de ese pas. (Numrica y Numrica)
Cmo se pone a prueba una hiptesis?

Para empezar, la estadstica pone a prueba la hiptesis nula. Luego de tomar una decisin sobre la hiptesis nula, esto se interpreta como apoyo o carencia de apoyo para nuestra hiptesis operacional. Ese apoyo (o falta de), a su vez, se interpreta como apoyo (o falta de) para nuestra hiptesis conceptual.
La lgica de la prueba de hiptesis

Partimos del supuesto que tenemos una muestra y queremos saber qu ocurre en la poblacin. La hiptesis nula se considera lo esperado. Los datos obtenidos se considera lo observado. La prueba de hiptesis se convierte en una comparacin entre lo esperado y lo observado. Volviendo al ejemplo de diferentes sueldos entre hombres y mujeres...
La hiptesis nula establece que el sueldo promedio de los hombres es igual al sueldo promedio de las mujeres (diferencia esperada = 0) Sin embargo, en promedio, los hombres ganan $70,000 ms por mes que las mujeres (diferencia observada = $70,000).
Paramtrica o no paramtrica?
Para usar tcnicas paramtricas:
Se supone variables de tipo numrica, Que se distribuyen normalmente, Y que tengamos, mnimamente, 30 casos por grupo (si estamos comparando grupos) o 30 casos por variables (si estamos correlacionando dos variables).
La pregunta ahora es, la diferencia que he observado en mi muestra, refleja una diferencia real en la poblacin? Para poder responder eso necesito calcular ciertos estadgrafos que me permitan decidir si rechazo o no rechazo mi hiptesis nula.
Tengan presentes que estos criterios son orientadores, no son dogma.
Paramtrica 2 variables categricas 1 variable categrica y 1 numrica 2 grupos: t de Student >2 grupos: ANOVA Correlacin de Pearson y Regresin
No Paramtrica ?2 2 grupos: U de Mann-Whitney >2 grupos: H de Kruskal-Wallis Correlacin de Spearman
Paramtrica
No Paramtrica
Cuando las muestras son pareadas. . . 2 grupos: 2 grupos: t de Student para Prueba de Wilcoxon muestras 1 variable relacionadas categrica y 1 numrica >2 grupos: >2 grupos: MLG para Prueba de Friedman medidas repetidas
2 variables numricas
Volviendo a la lgica... La idea es establecer un umbral (un valor crtico) que me permita decir, con un cierto grado de confianza, que lo que he observado efectivamente refleja una realidad externa y no se deba solamente a errores de medicin o de muestreo. Entonces, con los datos observados calculo un estadgrafo (valor observado) que contrasto con el umbral (valor crtico).
Si el valor observado es mayor o igual que el valor crtico...

Rechazo la hiptesis nula, Apoyo la hiptesis operacional, y Apoyo la hiptesis conceptual.
Si el valor observado es menor que el valor crtico...

NO rechazo la hiptesis nula, NO apoyo la hiptesis operacional, y NO apoyo la hiptesis conceptual.
Errores
Como la estadstica es una ciencia probabilstica (y no determinstica), siempre existe la posibilidad de cometer errores. Por suerte, las probabilidades de cometer errores pueden ser calculadas. Esos clculos de probabilidades se basan en la lgica del rea bajo a curva normal.
Tipos de errores
Al tomar las decisiones en funcin de mis valores crticos y observados, yo puedo cometer 2 tipos de errores:
Rechazar una hiptesis nula que no debera ser rechazada (que es verdadera); y No rechazar una hiptesis nula que debera ser rechazada (que es falsa).
El error
H O verdadera Correcto H O falsa Error tipo II ( ) Correcto
Rechazo H O No rechazo H O
Error Tipo I (a )
Es difcil de calcular, por ende quiero simplemente hacer dos comentarios al respecto:
Est fuertemente vinculado a lo que se denomina la potencia de una prueba estadstica (su capacidad de detectar diferencias pequeas); y Su relacin con el error tipo no es lineal y s es muy compleja.
El error
Es posible que el error tipo probablemente ya lo hayan visto... Recuerden que cuando se habla de Intervalos de Confianza, a menudo se dice que queremos estar 95% seguros de nuestros resultados. A esto le llamamos el nivel de confianza. El es el grado de inseguridad (1 0.95)... La probabilidad de cometer un error
La tradicin en el mundo de la ciencia (y esto es comn en casi todas las ciencias, tanto las sociales como las naturales), es que la probabilidad de cometer un error no debera ser mayor a 0.05 (5%, o 1 en 20). A veces, se puede usar 0.01 o 0.001 pero 0.05 es lo ms comn. Cuando podemos estar 95% seguro (o ms) de nuestra decisin de rechazar la hiptesis nula, se dice que el resultado es significativo.
Los pasos (clsicos) para probar hiptesis

1. Decida sobre el valor de con que quiere trabajar (que probabilidad de cometer un Error Tipo I est dispuesto a correr); 2. Identifique el valor crtico (el umbral) utilizando una tabla especialmente diseada para estos fines (disponibles en todo texto de estadstica; Tablas de z, t, F, Chi, etc.); 3. Calcule el valor observado (el estadgrafo) con los datos a su disposicin;
4. Compare el valor observado con el valor crtico; y 5. Tome una decisin...

1. Si vo vc Rechace Ho 2. Si vo < vc No rechace Ho
6. En funcin de su decisin anterior, apoye o no apoye su hiptesis operacional y, por ende, su hiptesis conceptual. 7. NOTA BENE: En la estadstica nunca se prueba una hiptesis, solamente se apoya!!
Los pasos (modernos) para probar hiptesis

1. Decida sobre el valor de con que quiere trabajar (que probabilidad de cometer un Error Tipo I est dispuesto a correr); 2. Pdale al computador que calcule el estadgrafo correspondiente y que informe sobre su significancia;
La significancia es el clculo exacto de la probabilidad de cometer un error tipo .
3. Identifique el valor de la significancia (sig., p, prob., etc.); 4. Compare sig. con . 5. Tome una decisin:
1. Si sig. Rechace Ho 2. Si sig. > No rechace Ho
6. En funcin de su decisin anterior, apoye o no apoye su hiptesis operacional y, por ende, su hiptesis conceptual.
El uso del Chi
La Prueba del Chi-Cuadrado
Cuando el inters es establecer si existe una relacin entre dos variables categricas. Esta prueba es no-paramtrica; es decir, no se intenta estimar un parmetro. Lo que s se busca es establecer si las frecuencias observadas se deben a un fenmeno aleatorio o sistemtico; es decir, si son independientes o no. El Chi-cuadrado parte con una Tabla de Contingencia.
Independencia
Para variables categricas, dos variables son estadsticamente independientes cuando:
Dentro de cada una de las categoras de la primera variable hay proporciones idnticas de la segunda variable; y Dentro de cada una de las categoras de la segunda variable hay proporciones idnticas de la primera variable.
La Prueba de Hiptesis
Hiptesis operacional: que SI existe relacin entre las variables; es decir, que son dependientes la una de la otra. Hiptesis nula: que NO existe relacin entre las variables; es decir, que son independientes la una de la otra. La prueba: contrastar lo observado con lo esperado bajo la hiptesis nula.
La hiptesis nula en la prueba de Chi-cuadrado es la independencia estadstica.
El contraste: si la diferencia entre lo observado y lo esperado es suficientemente grande, puedo tener seguridad de que la diferencia se debe a algn fenmeno sistemtico y no al simple azar o errores de medicin o muestreo. El procedimiento: establecer un estadgrafo y un umbral (valor observado y valor crtico). La decisin: comparar los dos y tomar una decisin sobre si rechazo Ho o no. El estadgrafo: el Chi-cuadrado (2).
El 2 Observado
2 o = j =1 i =1 C F
( f f )
ij ij
f ij
C = # de Columnas ( j ) F = # de Filas ( i ) f ij = frecuencia observada celda ij f ij = frecuencia esperada celda ij
El 2 Crtico
Obtenido de una tabla estndar (disponible en cualquier texto de estadstica) usando:
El (probabilidad de rechazar una Ho que no debera ser rechazada) que estamos dispuestos a aceptar; y Los grados de libertad, que es el nmero de filas menos uno multiplicado por el nmero de columnas menos uno. g.l. = (F-1)(C-1)
Un ejemplo
Volvamos al ejemplo que us al presentar las Tablas de Contingencia: Sexo e Hinchada. Hiptesis conceptual: Diferentes equipos de ftbol atraen diferentes tipos de personas. Hiptesis operacional: El sexo de una persona influye sobre su condicin de hincha del Colo-Colo, de la Universidad de Chile o de la Universidad Catlica.
Hiptesis nula: El sexo de una persona NO influye sobre su condicin de hincha del Colo-Colo, de la Universidad de Chile o de la Universidad Catlica. Datos: respuestas de 150 encuestados a las preguntas:
Sexo? Entre el Colo-Colo, la Chile y la Catlica, de cul se siente ms hincha?
Frecuencias Observadas
Hombres Mujeres Total Colo Chile Catlica Total 50 20 10 80 20 30 20 70 70 50 30 150
Los datos se han resumido en la siguiente Tabla de Frecuencias Observadas.
Marginales en Fila
Hombres Colo Chile Catlica Total 53.3% 46.7% 100% Mujeres Total
Marginales en Columna
Hombres Mujeres Colo Chile Catlica Total Total 46.7% 33.3% 20.0% 100%
10
Porcentajes-Fila Observados
Hombres Mujeres Total Colo Chile Catlica Total 71.4% 40.0% 33.3% 53.3% 28.6% 60.0% 66.7% 46.7% 100% 100% 100% 100%
Porcentajes-Fila Esperados (bajo Ho)

Hombres Mujeres Total Colo Chile Catlica Total 53.3% 53.3% 53.3% 53.3% 46.7% 46.7% 46.7% 46.7% 100% 100% 100% 100%
Porcentajes-Columna Observados
Hombres Mujeres Colo Chile Catlica Total 62.5% 25.0% 12.5% 100% 28.6% 42.9% 28.6% 100% Total 46.7% 33.3% 20.0% 100%
Porcentajes-Columna Esperados (bajo Ho)

Hombres Mujeres Colo Chile Catlica Total 46.7% 33.3% 20.0% 100% 46.7% 33.3% 20.0% 100% Total 46.7% 33.3% 20.0% 100%
11
La pregunta...
Cul tendra que ser la distribucin interna de la Tabla de Contingencia , manteniendo las frecuencias marginales, bajo la condicin de independencia planteada por la hiptesis nula (Ho)? La respuesta, redondeada a un decimal, est en la siguiente Tabla de Frecuencias Esperadas. Queda como ejercicio la verificacin que los porcentajes fila y columna son igual a los porcentajes marginales.
Frecuencias Esperadas
Hombres Mujeres Total Colo Chile Catlica Total 37.3 26.7 16.0 80 32.7 23.3 14.0 70 70 50 30 150
Clculo de Frecuencias Esperadas

Hombres Mujeres Total Colo Chile Catlica Total
n1 n1 n n2 n1 n n3 n1 n n1 n2 n n2 n2 n n3 n2 n
Diferencia entre fe y fo
Hombres Mujeres 37.3 50 32.7 20 26.7 20 23.3 30 16.0 10 14.0 20
n1 n2 n3 n
Colo Chile Catlica
n1
n2
12
(fe fo)
Hombres 12.7 6.7 6 Mujeres 12.7 6.7 6
( fe fo)2
Hombres 161.29 44.89 36.00 Mujeres 161.29 44.89 36.00
Colo Chile Catlica
Colo Chile Catlica
(fe fo)2 / fe
Hombres 4.32 1.68 2.25 Mujeres 4.93 1.93 2.57
2 =
j =1 i =1
2
( f f )
ij ij
f ij
Colo Chile Catlica
= (4.32 + 1.68 + 2.25) + (4.93 + 1.93 + 2.57 ) = (8.25) + (9.43) = 17.68
13
La decisin clsica (con Tablas)

o2 = 17.68 c2 = 5.991 ( = 0.05 y g.l. = 2) c2 = 9.210 ( = 0.01 y g.l. = 2) o2 > c2 Rechazo hiptesis nula de independencia entre las dos variables; y Apoyo, con un 95% (o 99%) grado de confianza que sexo e hinchada se relacionan.
La decisin moderna (con computador)

o2 = 17.6055357 Sig. = 0.00015058 Sig. Rechazo hiptesis nula de independencia entre las dos variables; y Apoyo, con un 95% (o 99% o 99.9%) grado de confianza que sexo e hinchada se relacionan.
El problema de bajos efectivos

Un problema que se presenta con el Chicuadrado es el problema de bajos efectivos que hace referencia a valores esperados, en una o ms celdas de la tabla, de menos de 5. Como los valores esperados son el denominador de la frmula, valores esperados pequeos inflan indebidamente el aporte de esa celda al Chi-cuadrado.
Si la tabla es de 22...
Una forma de superar el problema es usando la Correccin de Yates que simplemente le resta 0.5 a la diferencia entre la frecuencia observada y la esperada para cada celda antes de cuadrarla; despus se usa como cualquier Chi-cuadrado observado.
2 Yates
j =1 i =1
( f
ij
f ij 0 . 5 f ij
14
Otra forma de superar el problema cuando la Tabla es de 22, especialmente cuando la muestra es pequea (menor a aprox. 30 casos), es la Prueba Exacta de Fisher. El clculo es engorroso pero la interpretacin es simple... El resultado de la Prueba Exacta de Fisher es la probabilidad exacta de obtener la distribucin observada si las variables son realmente independientes... Es decir, la probabilidad de cometer un error tipo o la significancia.
El problema del n
Los clculos del Chi-cuadrado son sumamente sensibles al tamao de la muestra. Si la muestra fuese 15, manteniendo las proporciones iguales, el o2 baja a 1.76 y la significancia sube a 0.415. Si la muestra fuese 1500, manteniendo las proporciones iguales, el o2 sube a 176 y la significancia baja a 5.99 10-39
(= 0.00000000000000000000000000000000000000599)
Significancia v/s Fuerza

El hecho que el o2 nos puede indicar que las variables no son independientes... ...pero que esa decisin puede depender del tamao de la muestra... ...nos lleva a incorporar un nuevo elemento al estudio de la relacin entre dos variables... ...la fuerza de la relacin!
La Fuerza de la Relacin
Es una medida de cuan fuerte es la relacin entre dos variables. Por definicin, una relacin no significativa indica que no existe relacin;
Es decir, fuerza = 0.
Hombres Colo Chile Total 36 24 60
Mujeres Total 24 16 40 60 40 100
15
Al otro extremo tenemos una relacin perfecta

Es decir, fuerza = 1. El sexo de una persona me deja saber exactamente cual es su equipo.
En la prctica es difcil encontrar una relacin con fuerza = 0.

Casi siempre existe algo de fuerza, aunque sea debido a errores aleatorios, de medicin o muestreo. Podemos repensar la significancia como una fuerza significativamente diferente de 0; es decir, es lo suficientemente grande como para rechazar la hiptesis de que es 0?
Hombres Colo Chile Total 60 0 60
Mujeres Total 0 40 40 60 40 100
En la prctica tambin es difcil encontrar una relacin perfecta (con fuerza = 1).
Si fuese tan aparente, quin necesita la estadstica?
Normalmente la fuerza de una relacin se mide con algn tipo de medida que vara entre -1 y 1.
Inversa o Negativa Directa o Positiva
Como podrn ver, al decir que una relacin es directa o inversa est implcita la idea de direccin.
A mayor variable A, mayor variable B; o A mayor variable A, menor variable B.
-1 -0.75 -0.5 -0.25 Perfecta Mediana Fuerte Dbil
0 Nula
0.5 0.75 1 Perfecta Mediana Dbil Fuerte
0.25
Para que esto haga sentido, requiere que las variables sean, al menos, ordinales. Por ende, con dos variables categricas, solo se puede hablar de direccin con variables ordinales, no las nominales.
16
Medidas de Fuerza con variables nominales

Existen muchas medidas de fuerza para dos variables nominales:
Phi cuadrada (2) Phi () Q de Yule Lambda () Coeficiente de Contingencia (C) V de Cramer (V) Etc.
Medidas de Fuerza con variables ordinales

Existen muchas medidas de fuerza para dos variables ordinales:
Gamma (G) tau b (b) tau c (c) d de Sommers (dyx) Etc.
Cul usar?
Responder a esta pregunta est mucho ms all del alcance de esta asignatura. Requiere la consideracin de temas como:
Tamao de la Tabla; Simetra o Asimetra de la relacin; Interpretabilidad; Experiencia
Reduccin Proporcional de Error (PRE)

Medidas PRE (Proportional Reduction of Error) tienen la gran ventaja que su valor numrico se puede entender como la reduccin porcentual en errores de prediccin sobre una variable teniendo conocimiento de la otra variable. No quiero entrar al clculo propiamente tal pero si quiero que quede clara su lgica.
Sin embargo, a m me gustan las medidas PRE por su interpretacin intuitiva... Una de ellas es lambda.
17
Colo Chile Catlica Total
Hombres Mujeres Total 50 20 70 20 30 50 10 80 20 70 30 150
Colo Chile Catlica Total
Hombres Mujeres Total 50 20 70 20 30 50 10 80 20 70 30 150
Dada la informacin en la Tabla, si saco un caso al azar de una bolsa y me preguntan de qu equipo es, mi respuesta sera el Colo (por ser el ms frecuente); pero cometera 80 errores (50 + 30).
Si hago lo mismo, pero esta vez me dicen el sexo del caso, dira el Colo si es hombre (cometiendo 30 errores) y la Chile si es mujer (cometiendo 40 errores) y, en total, cometera 70 errores.
Noten que, al tener conocimiento del sexo (de una variable) reduje la cantidad de errores de prediccin de hinchada (la otra variable) de 80 a 70. Esa es la reduccin de error, para hacerla proporcional hay que estandarizarla de alguna forma...
Lambda
# de errores sin - # de errores con # de errores sin 80 70 10 = = = 0.125 12.5% 80 80 ?=
La relacin sexo hinchada es dbil dado un de 0.125. Teniendo conocimiento de sexo, logro reducir los errores de prediccin de hinchada en 12.5%.
18
# de errores sin - # de errores con # de errores sin 80 70 10 = = = 0.125 12.5% 80 80 ?=
Medidas PRE
La interpretacin simple de las medidas PRE las hacen sumamente tiles en la estadstica. Sin embargo, no siempre es posible usar una de estas medidas. Un buen texto, como el Spiegel de Tcnicas No-Paramtricas o el Snedecor y Cochran, tiene buenos tratamientos de estas tcnicas. La lgica del PRE la veremos de nuevo.
Fjense que si no reduzco ningn error, el numerador es 0 (80 80 = 0) y, por ende, = 0 (no hay relacin). Si elimino todos los errores, el numerador es 80 (80 0 = 80) y, por ende, = 1 (relacin perfecta).
Resolviendo el Ejemplo
En base a nuestra muestra de 150 casos, podemos afirmar lo siguiente:
La hiptesis que sexo afecta el equipo del cual uno es hincha es apoyada (2 = 17.6; p 0.01); La relacin es relativamente dbil ( = 0.125); y La distribucin por sexo dentro de la categora hincha del Colo es la que ms se distancia de la independencia (contribucin porcentual al 2 52%).
El Anlisis?
Los tres comentarios que aparecen en la pgina anterior son los resultados del procesamiento estadstico. An falta el anlisis!! Reconociendo que aqu falta el contexto de un marco referencial.
Cmo podemos darle sentido a ese resultado? Cmo podramos intentar explicarlo? Qu prximo paso es sugerido por el anlisis?
19
Descriptivos Sexo Hombre Mujer Estadstico Error tp. Estadstico Error tp. 10.37 .213 10.06 .200 9.95 9.67 10.79 10.48 12.00 17.708 4.208 0 20 20 4.00 -.443 -.276 10.45 10.15 11.00 19.082 4.368 0 21 21 6.00 -.283 -.553
La diferencia entre 2 medias:

La prueba de t de Student
ESC
Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis
Lmite inferior Lmite superior
.124 .247
.112 .223
Estadsticos de grupo
De hecho, las dos submuestras tienen medias diferentes

Hombres = 10.37 Mujeres = 10.06
ESC Sexo N Media Desviacin tp. Error tp. de la media Hombre 390 10.37 4.208 .213 Mujer 477 10.06 4.368 .200
Y distribuciones diferentes.
20
La pregunta fundamental que hay que hacerse es: Es suficientemente grande la diferencia observada en mi muestra para poder decir con un cierto grado de confianza que efectivamente refleja una diferencia real en la poblacin?
Para poder responder a esa pregunta utilizamos la siguiente formula. Esta frmula supone varianzas desiguales para los dos grupos. El resultado de esta frmula es un t observado (to).
to =
(X
X 2 ) 0
2 s12 s2 + N1 N 2
to =
XH XM
2 s12 s2 + N1 N 2
Prueba de Levene para la igualdad de varianzas Prueba T para la igualdad de medias Prueba de muestras independientes ESC Se han No se han asumido asumido varianzas varianzas iguales iguales 1.680 .195 1.043 1.047 865 842.169 .297 .296 .31 .293 Inferior Superior -.270 .882 .31 .292 -.268 .879
10.37 10.06 17.7 19.1 + 390 477 0.31 0.31 = = 1.07 0.045 + 0.040 0.29
F Sig. t gl Sig. (bilateral) Diferencia de medias Error tp. de la diferencia 95% Intervalo de confianza para la diferencia
21
La diferencia observada en la muestra no parece reflejar una diferencia real en la poblacin. De hecho, si generalizara esa diferencia a la poblacin, correra una probabilidad de 0.3 de cometer un error tipo alfa. Una probabilidad de cometer un error de 3 en 10 es inaceptable.
Anlisis de Varianza (ANOVA)
El Problema
Me interesa estudiar las diferencias en nivel de educacin de mujeres en las diferentes comunas de la Provincia de Concepcin.
Existe una relacin entre comuna y educacin de las mujeres? Entre cuales comunas se dan las diferencias? Se pueden armar subconjuntos homogneos de comunas (que no sean diferentes entre si)?
Los Datos
La encuesta CASEN de 1998 Seleccionando:
Provincia = 83 (Concepcin) Sexo = 2 (mujer)
NT = 3312 Comunas = 8
La CASEN 98 es representativa solamente para estas 8 comunas.
22
Las Comunas
1. 2. 3. 4. 5. 6. 7. 8. Concepcin Talcahuano Penco Tom Lota Coronel San Pedro Chiguayante
Las hiptesis
Conceptual: Existe una relacin entre comuna y educacin de las mujeres en la Provincia de Concepcin. Operacional: Las medias de aos de escolaridad de las mujeres son diferentes para las 8 comunas
1 2 3 4 5 6 7 8
Nula: Las medias de aos de escolaridad de las mujeres son iguales para las 8 comunas.
1 = 2 = 3 = 4 = 5 = 6 = 7 = 8
ESC COMUA CONCEPCION TALCAHUANO PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE Total Mean 11.04 9.79 9.39 8.78 8.30 9.36 9.54 9.33 9.50 Std. Deviation 4.17 4.16 3.73 4.19 4.01 4.05 4.67 4.21 4.23 N 495 490 363 377 392 395 387 413 3312
Todas las comunas juntas
-3
12
15
18
21
24
27
30
23
Las 4 primeras distribuciones

40 30
Por comuna
20
10
Mean +- 4 SD ESC
-10
-20
N= 495 490 363 377 392 395 387 413
CONCEPCION
PENCO TOME
LOTA
SAN PEDRO DE LA PAZ CORONEL CHIGUAYANTE
TALCAHUANO
-3
12
15
18
21
24
27
30
COMUA
A primera vista...
Hay pequeas diferencias entre las comunas en cuanto al:
Centro de la distribucin de los casos Amplitud de la distribucin de los casos
La duda que surge ahora es si esas diferencias se deben a diferencias reales en las subpoblaciones o a errores de medicin, muestreo, etc.
En otras palabras, las 8 comunas representan 8 muestras diferentes de una sola poblacin homognea o representan 8 subpoblaciones diferentes? o una combinacin de lo anterior? Una forma de pensarlo es mediante los intervalos de confianza para cada comuna!
24
Intervalos de confianza
12 11
Formalicemos esto un poco...
10
(X X)
i
95% CI ESC
n 1
Recuerdan esto? Es la frmula para la varianza de una muestra. El numerador es la Suma de Cuadrados
7
N= 495 490 363 377 392 395 387 413
CONCEPCION
PENCO TOME
LOTA
SAN PEDRO DE LA PAZ CORONEL CHIGUAYANTE
TALCAHUANO
COMUA
SC = X i X
Cada caso de mi muestra tiene un valor (Xi) que est a una distancia dada de la media de mi muestra ( X-barra ). Todas esas diferencias se elevan al cuadrado y se suman para obtener la Suma de Cuadrados En el caso de los 3312 casos en mi muestra actual, esa suma es de 59201.95. (Si divido por 3311 me da una varianza de 17.88 y una desviacin estndar de 4.23.)
(X X) = (X X )
i i T
Llamemos esa media la media total... ...es decir, la media de la muestra de toda la poblacin.
Juguemos con esa distancia...
25
Digamos que esa distancia puede reflejar dos elementos diferentes... ...por un lado, parte de esa distancia puede deberse a una distancia entre el valor del caso dado y la media de la subpoblacin a la que pertenece (por ejemplo, la media de Penco, si el caso es de Penco)... ...y por el otro, parte de esa distancia puede deberse a una distancia entre la media de esa subpoblacin y la media total (la diferencia entre la media de Penco y la media total).
(X
ij
X T ) = (X ij X j ) + (X j X T )
Donde : X ij es el valor del i - simo caso del j - simo grupo X j es la media del j - simo grupo (submuestra) X T es la media Total (muestra)
Ejemplo
(X
ij
X T = X ij X j + X j X T
) (
) (
) )
X ij X T = X ij X j + X j X T X ij = X ij X j + X j X T + X T X ij = X T + X j X T + X ij X j X ij = X T + j + ij X ij = media total + efecto grupo + error particular
) (
La altura promedio del curso es 165cm La altura promedio de los hombres el 175cm El efecto hombre es de 10cm Juan mide 180cm 180 = 165 + 10 + 5 Valor observado = media total + efecto grupo + error particular
26
Volviendo a la hiptesis
La hiptesis nula es que las medias de las subpoblaciones son iguales... ...es decir, NO HAY EFECTO GRUPO! Por lo tanto, bajo la hiptesis nula...
Sigamos formalizando...
X i = XT + 0 + i
Si no hay efecto grupo...
ij
) ( ) ( ) (X X ) = (X X ) + (X X ) (X X ) = (X X ) + n (X X )
ij
(X
ij ij
XT = Xij X j + X j XT
2 2 T ij j j
ij
SCT = SCD + SCE
Entonces...
(X (X (X (X
XT XT XT XT
) = (X
2 2 2
ij
X j + n j X j XT
2
X j = XT
ij
ij
ij
SC T = SC D SC E = 0
) = (X ) = (X ) = (X
2
ij
XT + n j XT XT
2
ij
XT XT
ij
) ( ) + n (0) ) +0
2 j 2
Bajo la hiptesis nula, yo esperara que la Suma de Cuadrados entre grupos fuese 0. Sin embargo, como siempre hay una probabilidad que, an bajo la H0, en mi muestra aparezca un poco de SCE , la pregunta ahora es:
Es la SCE observada lo suficientemente grande como para poder descartar la posibilidad que se debe simplemente a errores de medicin y/o muestreo (es decir, se debe a un efecto grupo)?
27
ANOVA
La respuesta estadstica a la interrogante planteada se llama el Anlisis de Varianza, ANDEVA o ANOVA (del ingls). El ANOVA calcula un estadgrafo llamado la Razn F observada, que se compara con una Razn F crtica obtenida de una tabla.
Lo que efectivamente se examina en un ANOVA es que el grado de variabilidad dentro de los grupos sea, de alguna forma, menor al grado de variabilidad que existe entre los grupos. Puesto de otra manera, que el efecto de pertenencia al grupo sea suficientemente grande como para establecer con un grado de confianza que las medias son diferentes.
1.0
1.4
1.8
2.2
2.6
3.0
3.4
3.8
4.2
4.6
5.0
2.0
2.2
2.4
2.6
2.8
3.0
3.2
3.4
3.6
3.8
4.0
28
La variabilidad dentro de los grupos se mide usando la media cuadrtica J nj dentro (MCD), que es la suma de cuadrados SC D = X ij X j j=1 i =1 dentro dividido por SC D N-J-1, denominado MC D = grados de libertad N J 1 del denominador o dentro.
La variabilidad entre los grupos se mide usando la media cuadrtica entre J (MCE) que es la suma SC E = n j X j X T de los cuadrados j=1 entre dividido por JSC E 1, denominado MC E = grados de libertad J 1 del numerador o entre.
La lgica del test es la siguiente: si la razn entre la variabilidad entre los grupos es suficientemente mayor que la variabilidad dentro de los grupos, probablemente existe una diferencia significativa entre grupos en la poblacin. Desde el punto de vista matemtico, esta razn se llama la razn F y se calcula dividiendo la media cuadrtica entre (MCE ) por la media cuadrtica dentro (MCD). Es decir...
La Razn F
El Fo es el estadgrafo observado. El Fc es el valor crtico, el umbral, que se extrae de una tabla con parmetros:
nivel alfa grados de libertad numerador [J-1] grados de libertad denominador [N-J-1].
MCE Fo = MCD
29
Si el Fo es mayor que el Fc, podemos generalizar esa relacin de la muestra a la poblacin con un grado de confianza correspondiente al nivel alfa que utilizamos. Los paquetes estadsticos nos dan el significado de la razn F. Es decir, nos dan la probabilidad de cometer un error tipo alfa si generalizamos de nuestra muestra. Normalmente si ese valor es menor que 0.05, podemos generalizar. Lo que generalizamos es que existe una relacin entre las variables.
ANOVA ESC Sum of Squares 2003.550 57198.399 59201.949 df 7 3304 3311 Mean Square 286.221 17.312 F 16.533 Sig. .000
Between Groups Within Groups Total
La decisin
Fo > Fc
Fo = 16.533 Fc = 2.01 (con a = 0.05, g.l.num = 7, g.l.den = [3304])
Pero, entre cuales?

El ANOVA simplemente nos indica que existe una relacin, no nos identifica cuales son los grupos que se diferencian entre si; es decir, cuales medias son diferentes y cuales no lo son en la poblacin. Esto, que normalmente se denomina contrastes post hoc, se hace de varias formas. La ms comn es el HSD (Honestly Significant Difference) de Tukey.
Sig. < a
0.000 < 0.05
En ambos casos, rechazo la nula y apoyo la hiptesis de que s hay diferencias entre las medias de las comunas.
30
Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference (I-J) 1.25* 1.25*
Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference 5.43E-02 (I-J) 1.25* -2.26*
-1.01* -.61 .48 -.58 -.76 -.55 -2.74* -1.49* -1.09* -.48 -1.06* -1.24* -1.04* -1.68* -.43 -2.64E-02 .58 1.06* -.18 2.79E-02
(I) COMUA CONCEPCION CONCEPCION
(J) COMUA TALCAHUANO TALCAHUANO
Std. Error .27
Sig. .000 .000
95% Confidence Interval Lower Bound Upper Bound 2.06 .45 2.06
TALCAHUANO
PENCO
TOME
PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION
1.65* 2.26* 2.74* 1.68* 1.50* 1.71* -1.25* .40 1.01* 1.49* .43 .25 .45 -1.65* -.40 .61 1.09* 2.64E-02 -.15 5.43E-02
.29 .28 .28 .28 .28 .28 .27 .29 .29 .28 .28 .28 .28 .29 .29 .31 .30 .30 .30 .30
.000 .000 .000 .000 .000 .000 .000 .864 .010 .000 .801 .987 .731 .000 .864 .489 .008 1.000 1.000 1.000
.78 1.40 1.89 .83 .65 .87 -2.06 -.47 .14 .63 -.43 -.61 -.39 -2.53 -1.27 -.32 .17 -.89 -1.07 -.85
2.53 3.12 3.60 2.53 2.36 2.55 -.45 1.27 1.87 2.34 1.28 1.11 1.30 -.78 .47 1.54 2.01 .94 .77 .96
(I) COMUA CONCEPCION TOME
LOTA
CORONEL
CHIGUAYANTE (J) COMUA TALCAHUANO CONCEPCION TALCAHUANO PENCO LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME LOTA SAN PEDRO DE LA PAZ CHIGUAYANTE
Std. Error .30 .27 .28 .29 .31 .30 .30 .30 .30 .28 .28 .30 .30 .30 .30 .29 .28 .28 .30 .30 .30 .30 .29
Sig. 1.000 .000 .010 .489 .748 .521 .188 .572 .000 .000 .008 .748 .008 .001 .010 .000 .801 1.000 .521 .008 .999 1.000
95% Confidence Interval Lower Bound -.85 Upper Bound .96 .45 2.06 -3.12 -1.40
-1.87 -1.54 -.43 -1.49 -1.67 -1.45 -3.60 -2.34 -2.01 -1.39 -1.96 -2.14 -1.92 -2.53 -1.28 -.94 -.33 .16 -1.08 -.86 -.14 .32 1.39 .33 .15 .34 -1.89 -.63 -.17 .43 -.16 -.34 -.15 -.83 .43 .89 1.49 1.96 .73 .92
Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference (I-J) 1.25* -1.50*
-.25 .15 .76 1.24* .18 .20 -1.71* -.45 -5.43E-02 .55 1.04* -2.79E-02 -.20
Grupos homogeneos?
(J) COMUA TALCAHUANO CONCEPCION
TALCAHUANO PENCO TOME LOTA CORONEL CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ
(I) COMUA CONCEPCION LA PAZ SAN PEDRO DE
Std. Error .27 .28

.28 .30 .30 .30 .30 .29 .28 .28 .30 .30 .29 .29 .29
Sig. .000 .000

.987 1.000 .188 .001 .999 .997 .000 .731 1.000 .572 .010 1.000 .997
95% Confidence Interval Lower Bound Upper Bound .45 2.06 -2.36 -.65
-1.11 -.77 -.15 .34 -.73 -.69 -2.55 -1.30 -.96 -.34 .15 -.92 -1.10 .61 1.07 1.67 2.14 1.08 1.10 -.87 .39 .85 1.45 1.92 .86 .69
CHIGUAYANTE
Sabiendo que existen diferencias entre algunas comunas y no entre otras, me puedo hacer la siguiente pregunta:
Qu grupos puedo construir para que las comunas dentro de cada grupo no sean diferentes entre si; es decir, que los grupos sean homogeneos?
*. The mean difference is significant at the .05 level.
31
ESC Subset for alpha = .05 2 3 8.30 8.78 8.78 9.33 9.36 9.39 9.54
La Fuerza de la Relacin
1 4 9.33 9.36 9.39 9.54 9.79 .775 11.04 1.000
COMUA Tukey HSDa,b LOTA TOME CHIGUAYANTE CORONEL PENCO SAN PEDRO DE LA PAZ TALCAHUANO CONCEPCION Sig.
N 392 377 413 395 363 387 490 495
.717
.154
Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = 409.075. b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed.
La medida de fuerza de asociacin entre una variable continua y una variable categrica es el eta cuadrado (2), que vara de 0 a 1 y se puede interpretar como la proporcin de la variacin en la variable continua explicada por la variable categrica.
2 =
SCE SCT
SC E 2 = SCT 2004 59201 = 0.034 =
En conclusin
Apoyo mi hiptesis que Comuna y escolaridad de las mujeres se asocian (F = 16.533, p < 0.000). La relacin es muy dbil (? 2 = 0.034). Existen 3 grupos de comunas homogeneos:
Concepcin (alta escolaridad) Lota y Tom (baja escolaridad) Las 5 restantes (mediana escolaridad)
32
Coordenadas
Correlacin y Regresin
X 1 4 7 3 8 5 9 2
Y 5 5 8 2 5 6 8 4
El Plano Cartesiano
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
La ubicacin de los puntos sobre el plano cartesiano no es un resumen de la informacin porque est el dato exacto representado en el plano. Cmo podemos resumir esa nube de puntos? Pidindole a las herramientas matemticas que trate de ajustar una lnea que capture la esencia de esa forma que vemos en el plano...
33
y=0,464968x+3,10828
y=0,051297x^2-0,053551x+4,039459
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
y=-0,045301x^3+0,719084x^2-2,788718x+6,832107
y=0,02843x^4-0,618735x^3+4,577348x^2-12,510745x+13,923185
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
34
y=0,018203x^5-0,422215x^4+3,456364x^3-11,810434x^2+15,799565x-2,020962
y=0,001162x^6-0,016608x^5-0,015505x^4+1,119963x^3-4,988162x^2+6,46096x+2,483871
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
y=0,006027x^7-0,209971x^6+2,984983x^5-22,24861x^4+92,700478x^3-211,756719x^2+239
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
Obviamente, la ultima lnea es la que mejor se ajusta a los 8 puntos en el plano... Pero la ecuacin que define esa lnea tiene 8 elementos Y = (0,006027x^7) (0,209971x^6) + (2,984983x^5) (22,24861x^4) + (92,700478x^3) (211,756719x^2) + (239,024248x) (95,500437) Es esto un buen resumen?
35
La Lnea Recta
Dado que la estadstica busca resmenes que representen la tendencia general... ... Y que nosotros deberamos tener bastante claro la forma en que opera la matemtica de la lnea recta... ...Se hace lo posible para ajustar una lnea recta a los datos y ver cuan bien se ajustan los datos a esa representacin.
a = la interseccin de la lnea recta con el eje vertical b = la pendiente, el cambio en Y para un cambio de una unidad en X
Y = a + bX
Lnea o Lneas
Como se podrn imaginar, existe una infinidad de lneas que se pueden trazar por la nube de puntos...
y=0,464968x+3,10828
10 9 8 7 6 5 4
X = 1
b = Y = 0.46
a = 3.1
3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
36
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4
y = 2+0,7x
Cmo s cual es la mejor?

Mediante lo que se llama la lnea de mnimos cuadrados ordinarios (OLS, en ingls). Antes de poder entrar a lo que es OLS, tenemos que plantear lo que es la lnea de regresin.
6
y = 4,2+0,3x
8
Points
10
y = 3,1+0,46x
Yi = Yi = a + bX
Si yo pienso en la lnea de regresin como un resumen general de la tendencia observada en la lnea de puntos... ...y tengo presente que no todos los puntos van a estar en esa lnea... ...para cada punto habr una diferencia entre el valor observado de Y (Yi) y el valor esperado de Y (Yi) para un valor dado de X... ...es decir, un error.
Yi = a + bX + Yi = a + bX
Y Y = a + bX + a + bX = i i Y Y = 2 i i Yi Yi = 2
2 2
) (
37
Cmo calcularla?
La mejor lnea es aquella lnea definida por Y-gorro (Yi) en la cual la suma de errores cuadrados sea lo mas pequeo posible... ...es decir que el cuadrado sea mnimo... ...por ende, lnea de mnimos cuadrados.
b=
(X (X
i i
)( Y X )( X
X
i i
) = xy X ) x
2
a = Y bX
Por suerte, la lnea de mnimos cuadrados se puede calcular algebraicamente... ...mejor an, los computadores (y hasta algunos calculadores) lo hacen fcilmente.
Y=3.11+0.46X
Ahora tengo una ecuacin de una lnea recta que mejor resume la tendencia general en esa nube de puntos. Pero si bien es la mejor, an no s exactamente cuan buena es. Para poder responder a esa incgnita, puedo medir el grado en el cual los puntos se dispersan en torno a esa lnea.
La Correlacin
La Correlacin (de Pearson) es una medida de cuan bien se ajustan los datos a esa lnea. Est compuesta por dos elementos:
Un valor numrico (de 0 a 1) que me indica el grado de ajuste
0 = ningn ajuste 1 = ajuste perfecto
Un signo (+/-) que me indica la direccin de la relacin (positiva/directa o negativa/inversa)
38
La Correlacin
rxy
(X X )(Y Y ) = s = ss x y
2 2
xy
x y
Para el ejemplo que venimos trabajando, el valor de la correlacin de Pearson (r) es +0.68. Es decir, es una relacin moderada y directa. Sin embargo, esta es la correlacin observada en mi muestra... ...y quiero saber si esta correlacin se puede generalizar a la poblacin del cual se sac la muestra con un cierto grado de confianza.
Si mi hiptesis es que existe una correlacin en la poblacin

?0
to =
Mi hiptesis nula es que no existe esa correlacin o, en otras palabras, que la correlacin en la poblacin es cero.
?=0
(1 r )/(n 2)
2
Est lo suficientemente lejos de 0 mi correlacin observada como para poder rechazar la hiptesis nula con un 95% grado de confianza?
Este to debe ser comparado con un tc para ver si rechazo o no rechazo la hiptesis nula. Los paquetes estadsticos entregan un significado para el r calculado. La correlacin es direccional, por ende hay que tener cuidado con las decisiones.
39
to = =
0.68
(1 0.46) / (8 2)
0.68 = 0.68 0.3
0.68 0.54 6
Si bien el r nos da una medida de ajuste de los datos a la lnea, no tiene un sentido intuitivo en cuanto a la fuerza de la relacin. Este se puede dar al elevar el r al cuadrado
r2 = coeficiente de determinacin 1 r2 = coeficiente de indeterminacin
0.09 = 2.28 t c (2colas) = 2.45 (1cola) = 1.94
El r2 se puede interpretar como la proporcin de variacin en una variable explicada por la otra.
Un r de 0.68 nos arroja un r2 de 0.46...

Una de las variables explica el 46% de la variacin en la otra. El 46% de la variacin de las variables es compartida
Los Datos (107 pases, 1995)

COUNTRY Afghanistan Argentina Armenia Australia Austria Azerbaijan Bahrain Bangladesh Barbados Belarus Belgium LITERACY 29 95 98 100 99 98 77 35 99 99 99 BABYMORT 168.0 25.6 27.0 7.3 6.7 35.0 25.0 106.0 20.3 19.0 7.2
Tengan presente que la correlacin es una medida de asociacin, no implica una relacin de causa y efecto. La lnea de regresin, sin embargo, si plantea una relacin causal...
40
Scatterplot (X,Y)
LITERACY vs. BABYMORT (Casewise MD deletion) 180 180
Scatterplot (con Coordenadas)

LITERACY vs. BABYMORT (Casewise MD deletion)
(29,168)
140
140
(18,118)
(27,137)
(40,113) (61,94) (73,85) (38,76) (60,67)
100 BABYMORT BABYMORT
100
60
60
(97,53) (98,35) (68,22)
20
20
-20 10 30 50 LITERACY 70 90 110
-20 10 30 50 LITERACY 70 90 110
Scatterplot (con Identificadores)

LITERACY vs. BABYMORT (Casewise MD deletion) 180
Case 1
Medias de X e Y
X-barra = 78.3; Y-barra = 42.7

180
140
Case 17
Case 22
140
Case 62 Case 38 Case 107 Case 86 Case 52
100 BABYMORT
60
Case 104 Case 6 Case 98
BABYMORT 110
100
60
20
20
-20 10 30 50 LITERACY 70 90
-20 10 30 50 LITERACY 70 90 110
41
Lnea de Regresin
Ecuacin de Regresin
BABYMORT = 160.73 - 1.507 * LITERACY
140
180
140
100 BABYMORT
BABYMORT 100
60
60
20
Y
10 30 50 LITERACY 70 90 110
20
-20
-20 10 30 50 LITERACY 70 90 110
Bandas de Error
Correlacin
BABYMORT = 160.73 - 1.507 * LITERACY

180 180
Correlation: r = -.9005
140
140
BABYMORT
60
BABYMORT 10 30 50 LITERACY 70 90 110
100
100
60
20
20
-20
-20 10 30 50 LITERACY 70 90 110
42
Lnea de Regresin
Descomposicin de la Varianza
(Y Y ) = Y Y + Y Y (Y Y ) = Y Y + Y Y (Y Y ) = Y Y + Y Y
i i 2 2 2 i i 2 2 i i
Y
140 100 BABYMORT
(Y Y )
i i
Yi Y = Yi Y Y + Y
(Y Y )
i
60
(Y Y )
i
20
Y
10 30 50 LITERACY 70 90 110
-20
SCTotal = SC Error + SC Re gresin
Tabla de ANOVA
Resultados
Effect Regress. Residual Total
Sums of Squares 126066.8 29400.8 155467.7
df 1 105
Mean Squares 126066.8 280.0
STAT. MULTIPLE REGRESS. Regression Summary for Dependent Variable: BABYMORT
F 450.2261
p-level .000000
N=107 Intercpt LITERACY BETA St. Err. of BETA
R= .90049312 R= .81088786 Adj. R= .80908679 F(1,105)=450.23 p<.00000 Std.Error of estimate: 16.733 St. Err. of B 5.794299 .071026
B 160.7317 -1.5071
t(105) 27.7396 -21.2185
p-level 0.000000 .000000
-.900493
.042439
43
Interpretaciones
Beta () Por un cambio de una unidad de desviacin estndar en X, Y cambia en unidades de desviacin estndar.
Por un aumento de una unidad de desviacin estndar en alfabetismo, mortalidad infantil baja en 0.9 unidades de desviacin estndar.
Coeficiente b
Para Intercept, es la interseccin de la lnea con el eje vertical... Es decir, el valor de mortalidad infantil cuando alfabetismo es 0 (160.7 muertes por mil nacimientos) Para alfabetismo, es la pendiente de la lnea de regresin o el efecto de alfabetismo sobre mortalidad infantil...
Por un aumento de 1 punto porcentual en alfabetismo, mortalidad infantil baja en 1.5 muertes por 1000.
Error Estndar de Beta La desviacin estndar de la distribucin muestral de betas.
Error Estndar de b La desviacin estndar de la distribucin muestral de bs. t(105) los valores de t observados tanto para la interseccin como la pendiente. El 105 hace referencia a los grados de libertad.
b to = = e.e.b e.e.
p-level la probabilidad exacta de cometer un error tipo alfa al rechazar la hiptesis nula de que la pendiente es igual a cero en la poblacin; es decir, que alfabetismo no afecta mortalidad infantil (pendiente = 0). Fjense que, en el caso de la regresin simple (solamente una variable independiente), existe la siguiente relacin:
to2 = Fo Esta relacin tambin se da cuando se hace un ANOVA con 2 grupos y el F se compara con t.
44
Matriz de correlaciones
Variable URBAN URBAN 1.0000 p= --.6496 p=.000 -.7332 p=.000 .6199 p=.000 * * * * * * LITERACY .6496 p=.000 1.0000 p= ---.9005 p=0.00 .5518 p=.000 * * * * * * BABYMORT -.7332 p=.000 -.9005 p=0.00 1.0000 p= ---.6409 p=.000 * * * * * * GDP_CAP
Correlations (WORLD95.STA 25v*109c)

LITERACY
BABYMORT
.6199 p=.000 .5518 p=.000 -.6409 p=.000 1.0000 p= ---
* * * * * *
LITERACY
BABYMORT
GDP_CAP
GDP_CAP
Correlations (WORLD95.STA 25v*109c)

LITERACY
Ahora, qu?
La complejidad de la vida social es tal que las representaciones de relaciones entre 2 variables no son adecuadas para representar nuestro mundo. Es por eso que la estadstica bivariada tiene poca utilidad en las Cs.Ss. de hoy. Para reflejar esa complejidad de una forma un poco ms fiel a la realidad, tenemos que entrar en el tema de estadstica multivariada.
BABYMORT
GDP_CAP
45

02 - Pruebas de Hipótesis Bivariadas

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

02 - Pruebas de Hipótesis Bivariadas

Transféré par

Droits d'auteur :

Formats disponibles

El rol de la hiptesis Pruebas de Hiptesis Bivariadas

Dr. Omar A. Barriga

Hiptesis Nula (Ho)

Asociacin v/s Causacin

Hiptesis y Nivel de Medicin

Cmo se pone a prueba una hiptesis?

La lgica de la prueba de hiptesis

Tengan presentes que estos criterios son orientadores, no son dogma.

No Paramtrica ?2 2 grupos: U de Mann-Whitney >2 grupos: H de Kruskal-Wallis Correlacin de Spearman

Si el valor observado es mayor o igual que el valor crtico...

Si el valor observado es menor que el valor crtico...

Los pasos (clsicos) para probar hiptesis

4. Compare el valor observado con el valor crtico; y 5. Tome una decisin...

Los pasos (modernos) para probar hiptesis

El uso del Chi

La Prueba del Chi-Cuadrado

La hiptesis nula en la prueba de Chi-cuadrado es la independencia estadstica.

C = # de Columnas ( j ) F = # de Filas ( i ) f ij = frecuencia observada celda ij f ij = frecuencia esperada celda ij

Los datos se han resumido en la siguiente Tabla de Frecuencias Observadas.

Porcentajes-Fila Esperados (bajo Ho)

Porcentajes-Columna Esperados (bajo Ho)

Clculo de Frecuencias Esperadas

Colo Chile Catlica

Colo Chile Catlica

Colo Chile Catlica

Colo Chile Catlica

= (4.32 + 1.68 + 2.25) + (4.93 + 1.93 + 2.57 ) = (8.25) + (9.43) = 17.68

La decisin clsica (con Tablas)

La decisin moderna (con computador)

El problema de bajos efectivos

Significancia v/s Fuerza

Hombres Colo Chile Total 36 24 60

Mujeres Total 24 16 40 60 40 100

Al otro extremo tenemos una relacin perfecta

En la prctica es difcil encontrar una relacin con fuerza = 0.

Hombres Colo Chile Total 60 0 60

Mujeres Total 0 40 40 60 40 100

-1 -0.75 -0.5 -0.25 Perfecta Mediana Fuerte Dbil

0.5 0.75 1 Perfecta Mediana Dbil Fuerte

Medidas de Fuerza con variables nominales

Medidas de Fuerza con variables ordinales

Reduccin Proporcional de Error (PRE)

Colo Chile Catlica Total

Hombres Mujeres Total 50 20 70 20 30 50 10 80 20 70 30 150

Colo Chile Catlica Total

Hombres Mujeres Total 50 20 70 20 30 50 10 80 20 70 30 150

# de errores sin - # de errores con # de errores sin 80 70 10 = = = 0.125 12.5% 80 80 ?=

La diferencia entre 2 medias:

Lmite inferior Lmite superior

De hecho, las dos submuestras tienen medias diferentes

Anlisis de Varianza (ANOVA)

Todas las comunas juntas

Las 4 primeras distribuciones

SAN PEDRO DE LA PAZ CORONEL CHIGUAYANTE

Formalicemos esto un poco...

SAN PEDRO DE LA PAZ CORONEL CHIGUAYANTE

Juguemos con esa distancia...

X ij X T = X ij X j + X j X T X ij = X ij X j + X j X T + X T X ij = X T + X j X T + X ij X j X ij = X T + j + ij X ij = media total + efecto grupo + error particular

SCT = SCD + SCE

Between Groups Within Groups Total

Pero, entre cuales?

(I) COMUA CONCEPCION CONCEPCION

(J) COMUA TALCAHUANO TALCAHUANO