Académique Documents
Professionnel Documents
Culture Documents
Teora
Deducir
Qu es una hiptesis?
No es ms que una proposicin acerca del comportamiento de algn fenmeno. Normalmente esa proposicin se simplifica al especificarla como una relacin entre dos aspectos del fenmeno reconociendo que hay muchos ms aspectos que influyen. La estadstica tiene, a menudo, el objetivo de poner a prueba estas hiptesis.
Hiptesis
Inducir
Hechos
Hiptesis Conceptual
El planteamiento de la proposicin a nivel abstracto
Los ingresos varan entre tipos de personas. La tendencia poltica de una persona depende de su afiliacin religiosa. Pases ms pobres tienen peor distribuciones de ingreso.
Hiptesis Operacional
El planteamiento de la proposicin a nivel concreto (operacional)
Los ingresos mensuales, por concepto de sueldo en pesos chilenos, varan entre hombres y mujeres. El partido poltico a que pertenece una persona depende de si es catlico, protestante o judo. Mientras ms bajo el PIB/capita de un pas, mayor es el coeficiente Gini de ese pas.
Noten que, en estos ejemplos, las variables no nos indican cmo observar el fenmeno.
Noten que, en estos ejemplos, las variables SI nos indican cmo observar el fenmeno.
Hiptesis Estadstica
Hiptesis Operacional H1: H ? M H1: ? < 0 Hiptesis Nula HO: H = M HO: ? = 0
La hiptesis nula establece que el sueldo promedio de los hombres es igual al sueldo promedio de las mujeres (diferencia esperada = 0) Sin embargo, en promedio, los hombres ganan $70,000 ms por mes que las mujeres (diferencia observada = $70,000).
Paramtrica o no paramtrica?
Para usar tcnicas paramtricas:
Se supone variables de tipo numrica, Que se distribuyen normalmente, Y que tengamos, mnimamente, 30 casos por grupo (si estamos comparando grupos) o 30 casos por variables (si estamos correlacionando dos variables).
La pregunta ahora es, la diferencia que he observado en mi muestra, refleja una diferencia real en la poblacin? Para poder responder eso necesito calcular ciertos estadgrafos que me permitan decidir si rechazo o no rechazo mi hiptesis nula.
Paramtrica 2 variables categricas 1 variable categrica y 1 numrica 2 grupos: t de Student >2 grupos: ANOVA Correlacin de Pearson y Regresin
Paramtrica
No Paramtrica
Cuando las muestras son pareadas. . . 2 grupos: 2 grupos: t de Student para Prueba de Wilcoxon muestras 1 variable relacionadas categrica y 1 numrica >2 grupos: >2 grupos: MLG para Prueba de Friedman medidas repetidas
2 variables numricas
Volviendo a la lgica... La idea es establecer un umbral (un valor crtico) que me permita decir, con un cierto grado de confianza, que lo que he observado efectivamente refleja una realidad externa y no se deba solamente a errores de medicin o de muestreo. Entonces, con los datos observados calculo un estadgrafo (valor observado) que contrasto con el umbral (valor crtico).
Errores
Como la estadstica es una ciencia probabilstica (y no determinstica), siempre existe la posibilidad de cometer errores. Por suerte, las probabilidades de cometer errores pueden ser calculadas. Esos clculos de probabilidades se basan en la lgica del rea bajo a curva normal.
Tipos de errores
Al tomar las decisiones en funcin de mis valores crticos y observados, yo puedo cometer 2 tipos de errores:
Rechazar una hiptesis nula que no debera ser rechazada (que es verdadera); y No rechazar una hiptesis nula que debera ser rechazada (que es falsa).
El error
H O verdadera Correcto H O falsa Error tipo II ( ) Correcto
Rechazo H O No rechazo H O
Error Tipo I (a )
Es difcil de calcular, por ende quiero simplemente hacer dos comentarios al respecto:
Est fuertemente vinculado a lo que se denomina la potencia de una prueba estadstica (su capacidad de detectar diferencias pequeas); y Su relacin con el error tipo no es lineal y s es muy compleja.
El error
Es posible que el error tipo probablemente ya lo hayan visto... Recuerden que cuando se habla de Intervalos de Confianza, a menudo se dice que queremos estar 95% seguros de nuestros resultados. A esto le llamamos el nivel de confianza. El es el grado de inseguridad (1 0.95)... La probabilidad de cometer un error
La tradicin en el mundo de la ciencia (y esto es comn en casi todas las ciencias, tanto las sociales como las naturales), es que la probabilidad de cometer un error no debera ser mayor a 0.05 (5%, o 1 en 20). A veces, se puede usar 0.01 o 0.001 pero 0.05 es lo ms comn. Cuando podemos estar 95% seguro (o ms) de nuestra decisin de rechazar la hiptesis nula, se dice que el resultado es significativo.
6. En funcin de su decisin anterior, apoye o no apoye su hiptesis operacional y, por ende, su hiptesis conceptual. 7. NOTA BENE: En la estadstica nunca se prueba una hiptesis, solamente se apoya!!
3. Identifique el valor de la significancia (sig., p, prob., etc.); 4. Compare sig. con . 5. Tome una decisin:
1. Si sig. Rechace Ho 2. Si sig. > No rechace Ho
6. En funcin de su decisin anterior, apoye o no apoye su hiptesis operacional y, por ende, su hiptesis conceptual.
Cuando el inters es establecer si existe una relacin entre dos variables categricas. Esta prueba es no-paramtrica; es decir, no se intenta estimar un parmetro. Lo que s se busca es establecer si las frecuencias observadas se deben a un fenmeno aleatorio o sistemtico; es decir, si son independientes o no. El Chi-cuadrado parte con una Tabla de Contingencia.
Independencia
Para variables categricas, dos variables son estadsticamente independientes cuando:
Dentro de cada una de las categoras de la primera variable hay proporciones idnticas de la segunda variable; y Dentro de cada una de las categoras de la segunda variable hay proporciones idnticas de la primera variable.
La Prueba de Hiptesis
Hiptesis operacional: que SI existe relacin entre las variables; es decir, que son dependientes la una de la otra. Hiptesis nula: que NO existe relacin entre las variables; es decir, que son independientes la una de la otra. La prueba: contrastar lo observado con lo esperado bajo la hiptesis nula.
El contraste: si la diferencia entre lo observado y lo esperado es suficientemente grande, puedo tener seguridad de que la diferencia se debe a algn fenmeno sistemtico y no al simple azar o errores de medicin o muestreo. El procedimiento: establecer un estadgrafo y un umbral (valor observado y valor crtico). La decisin: comparar los dos y tomar una decisin sobre si rechazo Ho o no. El estadgrafo: el Chi-cuadrado (2).
El 2 Observado
2 o = j =1 i =1 C F
( f f )
ij ij
f ij
El 2 Crtico
Obtenido de una tabla estndar (disponible en cualquier texto de estadstica) usando:
El (probabilidad de rechazar una Ho que no debera ser rechazada) que estamos dispuestos a aceptar; y Los grados de libertad, que es el nmero de filas menos uno multiplicado por el nmero de columnas menos uno. g.l. = (F-1)(C-1)
Un ejemplo
Volvamos al ejemplo que us al presentar las Tablas de Contingencia: Sexo e Hinchada. Hiptesis conceptual: Diferentes equipos de ftbol atraen diferentes tipos de personas. Hiptesis operacional: El sexo de una persona influye sobre su condicin de hincha del Colo-Colo, de la Universidad de Chile o de la Universidad Catlica.
Hiptesis nula: El sexo de una persona NO influye sobre su condicin de hincha del Colo-Colo, de la Universidad de Chile o de la Universidad Catlica. Datos: respuestas de 150 encuestados a las preguntas:
Sexo? Entre el Colo-Colo, la Chile y la Catlica, de cul se siente ms hincha?
Frecuencias Observadas
Hombres Mujeres Total Colo Chile Catlica Total 50 20 10 80 20 30 20 70 70 50 30 150
Marginales en Fila
Hombres Colo Chile Catlica Total 53.3% 46.7% 100% Mujeres Total
Marginales en Columna
Hombres Mujeres Colo Chile Catlica Total Total 46.7% 33.3% 20.0% 100%
10
Porcentajes-Fila Observados
Hombres Mujeres Total Colo Chile Catlica Total 71.4% 40.0% 33.3% 53.3% 28.6% 60.0% 66.7% 46.7% 100% 100% 100% 100%
Porcentajes-Columna Observados
Hombres Mujeres Colo Chile Catlica Total 62.5% 25.0% 12.5% 100% 28.6% 42.9% 28.6% 100% Total 46.7% 33.3% 20.0% 100%
11
La pregunta...
Cul tendra que ser la distribucin interna de la Tabla de Contingencia , manteniendo las frecuencias marginales, bajo la condicin de independencia planteada por la hiptesis nula (Ho)? La respuesta, redondeada a un decimal, est en la siguiente Tabla de Frecuencias Esperadas. Queda como ejercicio la verificacin que los porcentajes fila y columna son igual a los porcentajes marginales.
Frecuencias Esperadas
Hombres Mujeres Total Colo Chile Catlica Total 37.3 26.7 16.0 80 32.7 23.3 14.0 70 70 50 30 150
Diferencia entre fe y fo
Hombres Mujeres 37.3 50 32.7 20 26.7 20 23.3 30 16.0 10 14.0 20
n1 n2 n3 n
n1
n2
12
(fe fo)
Hombres 12.7 6.7 6 Mujeres 12.7 6.7 6
( fe fo)2
Hombres 161.29 44.89 36.00 Mujeres 161.29 44.89 36.00
(fe fo)2 / fe
Hombres 4.32 1.68 2.25 Mujeres 4.93 1.93 2.57
2 =
j =1 i =1
2
( f f )
ij ij
f ij
13
Si la tabla es de 22...
Una forma de superar el problema es usando la Correccin de Yates que simplemente le resta 0.5 a la diferencia entre la frecuencia observada y la esperada para cada celda antes de cuadrarla; despus se usa como cualquier Chi-cuadrado observado.
2 Yates
j =1 i =1
( f
ij
f ij 0 . 5 f ij
14
Otra forma de superar el problema cuando la Tabla es de 22, especialmente cuando la muestra es pequea (menor a aprox. 30 casos), es la Prueba Exacta de Fisher. El clculo es engorroso pero la interpretacin es simple... El resultado de la Prueba Exacta de Fisher es la probabilidad exacta de obtener la distribucin observada si las variables son realmente independientes... Es decir, la probabilidad de cometer un error tipo o la significancia.
El problema del n
Los clculos del Chi-cuadrado son sumamente sensibles al tamao de la muestra. Si la muestra fuese 15, manteniendo las proporciones iguales, el o2 baja a 1.76 y la significancia sube a 0.415. Si la muestra fuese 1500, manteniendo las proporciones iguales, el o2 sube a 176 y la significancia baja a 5.99 10-39
(= 0.00000000000000000000000000000000000000599)
La Fuerza de la Relacin
Es una medida de cuan fuerte es la relacin entre dos variables. Por definicin, una relacin no significativa indica que no existe relacin;
Es decir, fuerza = 0.
15
En la prctica tambin es difcil encontrar una relacin perfecta (con fuerza = 1).
Si fuese tan aparente, quin necesita la estadstica?
Normalmente la fuerza de una relacin se mide con algn tipo de medida que vara entre -1 y 1.
Inversa o Negativa Directa o Positiva
Como podrn ver, al decir que una relacin es directa o inversa est implcita la idea de direccin.
A mayor variable A, mayor variable B; o A mayor variable A, menor variable B.
0 Nula
0.25
Para que esto haga sentido, requiere que las variables sean, al menos, ordinales. Por ende, con dos variables categricas, solo se puede hablar de direccin con variables ordinales, no las nominales.
16
Cul usar?
Responder a esta pregunta est mucho ms all del alcance de esta asignatura. Requiere la consideracin de temas como:
Tamao de la Tabla; Simetra o Asimetra de la relacin; Interpretabilidad; Experiencia
Sin embargo, a m me gustan las medidas PRE por su interpretacin intuitiva... Una de ellas es lambda.
17
Dada la informacin en la Tabla, si saco un caso al azar de una bolsa y me preguntan de qu equipo es, mi respuesta sera el Colo (por ser el ms frecuente); pero cometera 80 errores (50 + 30).
Si hago lo mismo, pero esta vez me dicen el sexo del caso, dira el Colo si es hombre (cometiendo 30 errores) y la Chile si es mujer (cometiendo 40 errores) y, en total, cometera 70 errores.
Noten que, al tener conocimiento del sexo (de una variable) reduje la cantidad de errores de prediccin de hinchada (la otra variable) de 80 a 70. Esa es la reduccin de error, para hacerla proporcional hay que estandarizarla de alguna forma...
Lambda
# de errores sin - # de errores con # de errores sin 80 70 10 = = = 0.125 12.5% 80 80 ?=
La relacin sexo hinchada es dbil dado un de 0.125. Teniendo conocimiento de sexo, logro reducir los errores de prediccin de hinchada en 12.5%.
18
Medidas PRE
La interpretacin simple de las medidas PRE las hacen sumamente tiles en la estadstica. Sin embargo, no siempre es posible usar una de estas medidas. Un buen texto, como el Spiegel de Tcnicas No-Paramtricas o el Snedecor y Cochran, tiene buenos tratamientos de estas tcnicas. La lgica del PRE la veremos de nuevo.
Fjense que si no reduzco ningn error, el numerador es 0 (80 80 = 0) y, por ende, = 0 (no hay relacin). Si elimino todos los errores, el numerador es 80 (80 0 = 80) y, por ende, = 1 (relacin perfecta).
Resolviendo el Ejemplo
En base a nuestra muestra de 150 casos, podemos afirmar lo siguiente:
La hiptesis que sexo afecta el equipo del cual uno es hincha es apoyada (2 = 17.6; p 0.01); La relacin es relativamente dbil ( = 0.125); y La distribucin por sexo dentro de la categora hincha del Colo es la que ms se distancia de la independencia (contribucin porcentual al 2 52%).
El Anlisis?
Los tres comentarios que aparecen en la pgina anterior son los resultados del procesamiento estadstico. An falta el anlisis!! Reconociendo que aqu falta el contexto de un marco referencial.
Cmo podemos darle sentido a ese resultado? Cmo podramos intentar explicarlo? Qu prximo paso es sugerido por el anlisis?
19
Descriptivos Sexo Hombre Mujer Estadstico Error tp. Estadstico Error tp. 10.37 .213 10.06 .200 9.95 9.67 10.79 10.48 12.00 17.708 4.208 0 20 20 4.00 -.443 -.276 10.45 10.15 11.00 19.082 4.368 0 21 21 6.00 -.283 -.553
ESC
Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis
.124 .247
.112 .223
Estadsticos de grupo
ESC Sexo N Media Desviacin tp. Error tp. de la media Hombre 390 10.37 4.208 .213 Mujer 477 10.06 4.368 .200
Y distribuciones diferentes.
20
La pregunta fundamental que hay que hacerse es: Es suficientemente grande la diferencia observada en mi muestra para poder decir con un cierto grado de confianza que efectivamente refleja una diferencia real en la poblacin?
Para poder responder a esa pregunta utilizamos la siguiente formula. Esta frmula supone varianzas desiguales para los dos grupos. El resultado de esta frmula es un t observado (to).
to =
(X
X 2 ) 0
2 s12 s2 + N1 N 2
to =
XH XM
2 s12 s2 + N1 N 2
Prueba de Levene para la igualdad de varianzas Prueba T para la igualdad de medias Prueba de muestras independientes ESC Se han No se han asumido asumido varianzas varianzas iguales iguales 1.680 .195 1.043 1.047 865 842.169 .297 .296 .31 .293 Inferior Superior -.270 .882 .31 .292 -.268 .879
10.37 10.06 17.7 19.1 + 390 477 0.31 0.31 = = 1.07 0.045 + 0.040 0.29
F Sig. t gl Sig. (bilateral) Diferencia de medias Error tp. de la diferencia 95% Intervalo de confianza para la diferencia
21
La diferencia observada en la muestra no parece reflejar una diferencia real en la poblacin. De hecho, si generalizara esa diferencia a la poblacin, correra una probabilidad de 0.3 de cometer un error tipo alfa. Una probabilidad de cometer un error de 3 en 10 es inaceptable.
El Problema
Me interesa estudiar las diferencias en nivel de educacin de mujeres en las diferentes comunas de la Provincia de Concepcin.
Existe una relacin entre comuna y educacin de las mujeres? Entre cuales comunas se dan las diferencias? Se pueden armar subconjuntos homogneos de comunas (que no sean diferentes entre si)?
Los Datos
La encuesta CASEN de 1998 Seleccionando:
Provincia = 83 (Concepcin) Sexo = 2 (mujer)
NT = 3312 Comunas = 8
La CASEN 98 es representativa solamente para estas 8 comunas.
22
Las Comunas
1. 2. 3. 4. 5. 6. 7. 8. Concepcin Talcahuano Penco Tom Lota Coronel San Pedro Chiguayante
Las hiptesis
Conceptual: Existe una relacin entre comuna y educacin de las mujeres en la Provincia de Concepcin. Operacional: Las medias de aos de escolaridad de las mujeres son diferentes para las 8 comunas
1 2 3 4 5 6 7 8
Nula: Las medias de aos de escolaridad de las mujeres son iguales para las 8 comunas.
1 = 2 = 3 = 4 = 5 = 6 = 7 = 8
ESC COMUA CONCEPCION TALCAHUANO PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE Total Mean 11.04 9.79 9.39 8.78 8.30 9.36 9.54 9.33 9.50 Std. Deviation 4.17 4.16 3.73 4.19 4.01 4.05 4.67 4.21 4.23 N 495 490 363 377 392 395 387 413 3312
-3
12
15
18
21
24
27
30
23
Por comuna
20
10
Mean +- 4 SD ESC
-10
-20
N= 495 490 363 377 392 395 387 413
CONCEPCION
PENCO TOME
LOTA
TALCAHUANO
-3
12
15
18
21
24
27
30
COMUA
A primera vista...
Hay pequeas diferencias entre las comunas en cuanto al:
Centro de la distribucin de los casos Amplitud de la distribucin de los casos
La duda que surge ahora es si esas diferencias se deben a diferencias reales en las subpoblaciones o a errores de medicin, muestreo, etc.
En otras palabras, las 8 comunas representan 8 muestras diferentes de una sola poblacin homognea o representan 8 subpoblaciones diferentes? o una combinacin de lo anterior? Una forma de pensarlo es mediante los intervalos de confianza para cada comuna!
24
Intervalos de confianza
12 11
10
(X X)
i
95% CI ESC
n 1
Recuerdan esto? Es la frmula para la varianza de una muestra. El numerador es la Suma de Cuadrados
7
N= 495 490 363 377 392 395 387 413
CONCEPCION
PENCO TOME
LOTA
TALCAHUANO
COMUA
SC = X i X
Cada caso de mi muestra tiene un valor (Xi) que est a una distancia dada de la media de mi muestra ( X-barra ). Todas esas diferencias se elevan al cuadrado y se suman para obtener la Suma de Cuadrados En el caso de los 3312 casos en mi muestra actual, esa suma es de 59201.95. (Si divido por 3311 me da una varianza de 17.88 y una desviacin estndar de 4.23.)
(X X) = (X X )
i i T
Llamemos esa media la media total... ...es decir, la media de la muestra de toda la poblacin.
25
Digamos que esa distancia puede reflejar dos elementos diferentes... ...por un lado, parte de esa distancia puede deberse a una distancia entre el valor del caso dado y la media de la subpoblacin a la que pertenece (por ejemplo, la media de Penco, si el caso es de Penco)... ...y por el otro, parte de esa distancia puede deberse a una distancia entre la media de esa subpoblacin y la media total (la diferencia entre la media de Penco y la media total).
(X
ij
X T ) = (X ij X j ) + (X j X T )
Donde : X ij es el valor del i - simo caso del j - simo grupo X j es la media del j - simo grupo (submuestra) X T es la media Total (muestra)
Ejemplo
(X
ij
X T = X ij X j + X j X T
) (
) (
) )
) (
La altura promedio del curso es 165cm La altura promedio de los hombres el 175cm El efecto hombre es de 10cm Juan mide 180cm 180 = 165 + 10 + 5 Valor observado = media total + efecto grupo + error particular
26
Volviendo a la hiptesis
La hiptesis nula es que las medias de las subpoblaciones son iguales... ...es decir, NO HAY EFECTO GRUPO! Por lo tanto, bajo la hiptesis nula...
Sigamos formalizando...
X i = XT + 0 + i
Si no hay efecto grupo...
ij
) ( ) ( ) (X X ) = (X X ) + (X X ) (X X ) = (X X ) + n (X X )
ij
(X
ij ij
XT = Xij X j + X j XT
2 2 T ij j j
ij
Entonces...
(X (X (X (X
XT XT XT XT
) = (X
2 2 2
ij
X j + n j X j XT
2
X j = XT
ij
ij
ij
SC T = SC D SC E = 0
) = (X ) = (X ) = (X
2
ij
XT + n j XT XT
2
ij
XT XT
ij
) ( ) + n (0) ) +0
2 j 2
Bajo la hiptesis nula, yo esperara que la Suma de Cuadrados entre grupos fuese 0. Sin embargo, como siempre hay una probabilidad que, an bajo la H0, en mi muestra aparezca un poco de SCE , la pregunta ahora es:
Es la SCE observada lo suficientemente grande como para poder descartar la posibilidad que se debe simplemente a errores de medicin y/o muestreo (es decir, se debe a un efecto grupo)?
27
ANOVA
La respuesta estadstica a la interrogante planteada se llama el Anlisis de Varianza, ANDEVA o ANOVA (del ingls). El ANOVA calcula un estadgrafo llamado la Razn F observada, que se compara con una Razn F crtica obtenida de una tabla.
Lo que efectivamente se examina en un ANOVA es que el grado de variabilidad dentro de los grupos sea, de alguna forma, menor al grado de variabilidad que existe entre los grupos. Puesto de otra manera, que el efecto de pertenencia al grupo sea suficientemente grande como para establecer con un grado de confianza que las medias son diferentes.
1.0
1.4
1.8
2.2
2.6
3.0
3.4
3.8
4.2
4.6
5.0
2.0
2.2
2.4
2.6
2.8
3.0
3.2
3.4
3.6
3.8
4.0
28
La variabilidad dentro de los grupos se mide usando la media cuadrtica J nj dentro (MCD), que es la suma de cuadrados SC D = X ij X j j=1 i =1 dentro dividido por SC D N-J-1, denominado MC D = grados de libertad N J 1 del denominador o dentro.
La variabilidad entre los grupos se mide usando la media cuadrtica entre J (MCE) que es la suma SC E = n j X j X T de los cuadrados j=1 entre dividido por JSC E 1, denominado MC E = grados de libertad J 1 del numerador o entre.
La lgica del test es la siguiente: si la razn entre la variabilidad entre los grupos es suficientemente mayor que la variabilidad dentro de los grupos, probablemente existe una diferencia significativa entre grupos en la poblacin. Desde el punto de vista matemtico, esta razn se llama la razn F y se calcula dividiendo la media cuadrtica entre (MCE ) por la media cuadrtica dentro (MCD). Es decir...
La Razn F
El Fo es el estadgrafo observado. El Fc es el valor crtico, el umbral, que se extrae de una tabla con parmetros:
nivel alfa grados de libertad numerador [J-1] grados de libertad denominador [N-J-1].
MCE Fo = MCD
29
Si el Fo es mayor que el Fc, podemos generalizar esa relacin de la muestra a la poblacin con un grado de confianza correspondiente al nivel alfa que utilizamos. Los paquetes estadsticos nos dan el significado de la razn F. Es decir, nos dan la probabilidad de cometer un error tipo alfa si generalizamos de nuestra muestra. Normalmente si ese valor es menor que 0.05, podemos generalizar. Lo que generalizamos es que existe una relacin entre las variables.
ANOVA ESC Sum of Squares 2003.550 57198.399 59201.949 df 7 3304 3311 Mean Square 286.221 17.312 F 16.533 Sig. .000
La decisin
Fo > Fc
Fo = 16.533 Fc = 2.01 (con a = 0.05, g.l.num = 7, g.l.den = [3304])
Sig. < a
0.000 < 0.05
En ambos casos, rechazo la nula y apoyo la hiptesis de que s hay diferencias entre las medias de las comunas.
30
Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference (I-J) 1.25* 1.25*
Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference 5.43E-02 (I-J) 1.25* -2.26*
-1.01* -.61 .48 -.58 -.76 -.55 -2.74* -1.49* -1.09* -.48 -1.06* -1.24* -1.04* -1.68* -.43 -2.64E-02 .58 1.06* -.18 2.79E-02
95% Confidence Interval Lower Bound Upper Bound 2.06 .45 2.06
TALCAHUANO
PENCO
TOME
PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION
1.65* 2.26* 2.74* 1.68* 1.50* 1.71* -1.25* .40 1.01* 1.49* .43 .25 .45 -1.65* -.40 .61 1.09* 2.64E-02 -.15 5.43E-02
.29 .28 .28 .28 .28 .28 .27 .29 .29 .28 .28 .28 .28 .29 .29 .31 .30 .30 .30 .30
.000 .000 .000 .000 .000 .000 .000 .864 .010 .000 .801 .987 .731 .000 .864 .489 .008 1.000 1.000 1.000
.78 1.40 1.89 .83 .65 .87 -2.06 -.47 .14 .63 -.43 -.61 -.39 -2.53 -1.27 -.32 .17 -.89 -1.07 -.85
2.53 3.12 3.60 2.53 2.36 2.55 -.45 1.27 1.87 2.34 1.28 1.11 1.30 -.78 .47 1.54 2.01 .94 .77 .96
LOTA
CORONEL
CHIGUAYANTE (J) COMUA TALCAHUANO CONCEPCION TALCAHUANO PENCO LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME LOTA SAN PEDRO DE LA PAZ CHIGUAYANTE
Std. Error .30 .27 .28 .29 .31 .30 .30 .30 .30 .28 .28 .30 .30 .30 .30 .29 .28 .28 .30 .30 .30 .30 .29
Sig. 1.000 .000 .010 .489 .748 .521 .188 .572 .000 .000 .008 .748 .008 .001 .010 .000 .801 1.000 .521 .008 .999 1.000
95% Confidence Interval Lower Bound -.85 Upper Bound .96 .45 2.06 -3.12 -1.40
-1.87 -1.54 -.43 -1.49 -1.67 -1.45 -3.60 -2.34 -2.01 -1.39 -1.96 -2.14 -1.92 -2.53 -1.28 -.94 -.33 .16 -1.08 -.86 -.14 .32 1.39 .33 .15 .34 -1.89 -.63 -.17 .43 -.16 -.34 -.15 -.83 .43 .89 1.49 1.96 .73 .92
Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference (I-J) 1.25* -1.50*
-.25 .15 .76 1.24* .18 .20 -1.71* -.45 -5.43E-02 .55 1.04* -2.79E-02 -.20
Grupos homogeneos?
(J) COMUA TALCAHUANO CONCEPCION
TALCAHUANO PENCO TOME LOTA CORONEL CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ
95% Confidence Interval Lower Bound Upper Bound .45 2.06 -2.36 -.65
-1.11 -.77 -.15 .34 -.73 -.69 -2.55 -1.30 -.96 -.34 .15 -.92 -1.10 .61 1.07 1.67 2.14 1.08 1.10 -.87 .39 .85 1.45 1.92 .86 .69
CHIGUAYANTE
Sabiendo que existen diferencias entre algunas comunas y no entre otras, me puedo hacer la siguiente pregunta:
Qu grupos puedo construir para que las comunas dentro de cada grupo no sean diferentes entre si; es decir, que los grupos sean homogeneos?
31
ESC Subset for alpha = .05 2 3 8.30 8.78 8.78 9.33 9.36 9.39 9.54
La Fuerza de la Relacin
1 4 9.33 9.36 9.39 9.54 9.79 .775 11.04 1.000
COMUA Tukey HSDa,b LOTA TOME CHIGUAYANTE CORONEL PENCO SAN PEDRO DE LA PAZ TALCAHUANO CONCEPCION Sig.
.717
.154
Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = 409.075. b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed.
La medida de fuerza de asociacin entre una variable continua y una variable categrica es el eta cuadrado (2), que vara de 0 a 1 y se puede interpretar como la proporcin de la variacin en la variable continua explicada por la variable categrica.
2 =
SCE SCT
En conclusin
Apoyo mi hiptesis que Comuna y escolaridad de las mujeres se asocian (F = 16.533, p < 0.000). La relacin es muy dbil (? 2 = 0.034). Existen 3 grupos de comunas homogeneos:
Concepcin (alta escolaridad) Lota y Tom (baja escolaridad) Las 5 restantes (mediana escolaridad)
32
Coordenadas
Correlacin y Regresin
X 1 4 7 3 8 5 9 2
Y 5 5 8 2 5 6 8 4
El Plano Cartesiano
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
La ubicacin de los puntos sobre el plano cartesiano no es un resumen de la informacin porque est el dato exacto representado en el plano. Cmo podemos resumir esa nube de puntos? Pidindole a las herramientas matemticas que trate de ajustar una lnea que capture la esencia de esa forma que vemos en el plano...
33
y=0,464968x+3,10828
y=0,051297x^2-0,053551x+4,039459
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
y=-0,045301x^3+0,719084x^2-2,788718x+6,832107
y=0,02843x^4-0,618735x^3+4,577348x^2-12,510745x+13,923185
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
34
y=0,018203x^5-0,422215x^4+3,456364x^3-11,810434x^2+15,799565x-2,020962
y=0,001162x^6-0,016608x^5-0,015505x^4+1,119963x^3-4,988162x^2+6,46096x+2,483871
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
y=0,006027x^7-0,209971x^6+2,984983x^5-22,24861x^4+92,700478x^3-211,756719x^2+239
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
Obviamente, la ultima lnea es la que mejor se ajusta a los 8 puntos en el plano... Pero la ecuacin que define esa lnea tiene 8 elementos Y = (0,006027x^7) (0,209971x^6) + (2,984983x^5) (22,24861x^4) + (92,700478x^3) (211,756719x^2) + (239,024248x) (95,500437) Es esto un buen resumen?
35
La Lnea Recta
Dado que la estadstica busca resmenes que representen la tendencia general... ... Y que nosotros deberamos tener bastante claro la forma en que opera la matemtica de la lnea recta... ...Se hace lo posible para ajustar una lnea recta a los datos y ver cuan bien se ajustan los datos a esa representacin.
a = la interseccin de la lnea recta con el eje vertical b = la pendiente, el cambio en Y para un cambio de una unidad en X
Y = a + bX
Lnea o Lneas
Como se podrn imaginar, existe una infinidad de lneas que se pueden trazar por la nube de puntos...
y=0,464968x+3,10828
10 9 8 7 6 5 4
X = 1
b = Y = 0.46
a = 3.1
3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
36
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4
y = 2+0,7x
6
y = 4,2+0,3x
8
Points
10
y = 3,1+0,46x
Yi = Yi = a + bX
Si yo pienso en la lnea de regresin como un resumen general de la tendencia observada en la lnea de puntos... ...y tengo presente que no todos los puntos van a estar en esa lnea... ...para cada punto habr una diferencia entre el valor observado de Y (Yi) y el valor esperado de Y (Yi) para un valor dado de X... ...es decir, un error.
Yi = a + bX + Yi = a + bX
Y Y = a + bX + a + bX = i i Y Y = 2 i i Yi Yi = 2
2 2
) (
37
Cmo calcularla?
La mejor lnea es aquella lnea definida por Y-gorro (Yi) en la cual la suma de errores cuadrados sea lo mas pequeo posible... ...es decir que el cuadrado sea mnimo... ...por ende, lnea de mnimos cuadrados.
b=
(X (X
i i
)( Y X )( X
X
i i
) = xy X ) x
2
a = Y bX
Por suerte, la lnea de mnimos cuadrados se puede calcular algebraicamente... ...mejor an, los computadores (y hasta algunos calculadores) lo hacen fcilmente.
Y=3.11+0.46X
Ahora tengo una ecuacin de una lnea recta que mejor resume la tendencia general en esa nube de puntos. Pero si bien es la mejor, an no s exactamente cuan buena es. Para poder responder a esa incgnita, puedo medir el grado en el cual los puntos se dispersan en torno a esa lnea.
La Correlacin
La Correlacin (de Pearson) es una medida de cuan bien se ajustan los datos a esa lnea. Est compuesta por dos elementos:
Un valor numrico (de 0 a 1) que me indica el grado de ajuste
0 = ningn ajuste 1 = ajuste perfecto
38
La Correlacin
rxy
(X X )(Y Y ) = s = ss x y
2 2
xy
x y
Para el ejemplo que venimos trabajando, el valor de la correlacin de Pearson (r) es +0.68. Es decir, es una relacin moderada y directa. Sin embargo, esta es la correlacin observada en mi muestra... ...y quiero saber si esta correlacin se puede generalizar a la poblacin del cual se sac la muestra con un cierto grado de confianza.
to =
Mi hiptesis nula es que no existe esa correlacin o, en otras palabras, que la correlacin en la poblacin es cero.
?=0
(1 r )/(n 2)
2
Est lo suficientemente lejos de 0 mi correlacin observada como para poder rechazar la hiptesis nula con un 95% grado de confianza?
Este to debe ser comparado con un tc para ver si rechazo o no rechazo la hiptesis nula. Los paquetes estadsticos entregan un significado para el r calculado. La correlacin es direccional, por ende hay que tener cuidado con las decisiones.
39
to = =
0.68
(1 0.46) / (8 2)
0.68 = 0.68 0.3
0.68 0.54 6
Si bien el r nos da una medida de ajuste de los datos a la lnea, no tiene un sentido intuitivo en cuanto a la fuerza de la relacin. Este se puede dar al elevar el r al cuadrado
r2 = coeficiente de determinacin 1 r2 = coeficiente de indeterminacin
El r2 se puede interpretar como la proporcin de variacin en una variable explicada por la otra.
Tengan presente que la correlacin es una medida de asociacin, no implica una relacin de causa y efecto. La lnea de regresin, sin embargo, si plantea una relacin causal...
40
Scatterplot (X,Y)
LITERACY vs. BABYMORT (Casewise MD deletion) 180 180
140
140
(18,118)
(27,137)
100
60
60
20
20
Medias de X e Y
LITERACY vs. BABYMORT (Casewise MD deletion)
140
Case 17
Case 22
140
Case 62 Case 38 Case 107 Case 86 Case 52
100 BABYMORT
60
BABYMORT 110
100
60
20
20
-20 10 30 50 LITERACY 70 90
41
Lnea de Regresin
LITERACY vs. BABYMORT (Casewise MD deletion) 180
Ecuacin de Regresin
LITERACY vs. BABYMORT (Casewise MD deletion)
140
180
140
100 BABYMORT
BABYMORT 100
60
60
20
Y
10 30 50 LITERACY 70 90 110
20
-20
Bandas de Error
LITERACY vs. BABYMORT (Casewise MD deletion)
Correlacin
LITERACY vs. BABYMORT (Casewise MD deletion)
Correlation: r = -.9005
140
140
BABYMORT
60
100
100
60
20
20
-20
42
Lnea de Regresin
LITERACY vs. BABYMORT (Casewise MD deletion) 180
Descomposicin de la Varianza
(Y Y ) = Y Y + Y Y (Y Y ) = Y Y + Y Y (Y Y ) = Y Y + Y Y
i i 2 2 2 i i 2 2 i i
Y
140 100 BABYMORT
(Y Y )
i i
Yi Y = Yi Y Y + Y
(Y Y )
i
60
(Y Y )
i
20
Y
10 30 50 LITERACY 70 90 110
-20
Tabla de ANOVA
Resultados
df 1 105
F 450.2261
p-level .000000
N=107 Intercpt LITERACY BETA St. Err. of BETA
R= .90049312 R= .81088786 Adj. R= .80908679 F(1,105)=450.23 p<.00000 Std.Error of estimate: 16.733 St. Err. of B 5.794299 .071026
B 160.7317 -1.5071
-.900493
.042439
43
Interpretaciones
Beta () Por un cambio de una unidad de desviacin estndar en X, Y cambia en unidades de desviacin estndar.
Por un aumento de una unidad de desviacin estndar en alfabetismo, mortalidad infantil baja en 0.9 unidades de desviacin estndar.
Coeficiente b
Para Intercept, es la interseccin de la lnea con el eje vertical... Es decir, el valor de mortalidad infantil cuando alfabetismo es 0 (160.7 muertes por mil nacimientos) Para alfabetismo, es la pendiente de la lnea de regresin o el efecto de alfabetismo sobre mortalidad infantil...
Por un aumento de 1 punto porcentual en alfabetismo, mortalidad infantil baja en 1.5 muertes por 1000.
Error Estndar de b La desviacin estndar de la distribucin muestral de bs. t(105) los valores de t observados tanto para la interseccin como la pendiente. El 105 hace referencia a los grados de libertad.
b to = = e.e.b e.e.
p-level la probabilidad exacta de cometer un error tipo alfa al rechazar la hiptesis nula de que la pendiente es igual a cero en la poblacin; es decir, que alfabetismo no afecta mortalidad infantil (pendiente = 0). Fjense que, en el caso de la regresin simple (solamente una variable independiente), existe la siguiente relacin:
to2 = Fo Esta relacin tambin se da cuando se hace un ANOVA con 2 grupos y el F se compara con t.
44
Matriz de correlaciones
Variable URBAN URBAN 1.0000 p= --.6496 p=.000 -.7332 p=.000 .6199 p=.000 * * * * * * LITERACY .6496 p=.000 1.0000 p= ---.9005 p=0.00 .5518 p=.000 * * * * * * BABYMORT -.7332 p=.000 -.9005 p=0.00 1.0000 p= ---.6409 p=.000 * * * * * * GDP_CAP
BABYMORT
* * * * * *
LITERACY
BABYMORT
GDP_CAP
GDP_CAP
Ahora, qu?
La complejidad de la vida social es tal que las representaciones de relaciones entre 2 variables no son adecuadas para representar nuestro mundo. Es por eso que la estadstica bivariada tiene poca utilidad en las Cs.Ss. de hoy. Para reflejar esa complejidad de una forma un poco ms fiel a la realidad, tenemos que entrar en el tema de estadstica multivariada.
BABYMORT
GDP_CAP
45