Académique Documents
Professionnel Documents
Culture Documents
Por ejemplo, la universidad entrega la nómina total de estudiantes de la universidad, y sale que la
media de los estudiantes de la universidad es de 23 años, ese es el valor poblacional. Uno hace la
muestra de 300 casos y efectivamente da en la muestra una media de 30 años. En este caso, uno
ingreso el valor de 30, lo prueba con el parámetro poblacional de 23 años y la prueba dirá si el valor
está dentro de lo permitido, o si hubo un error dentro de las encuestas realizadas.
La prueba T para muestras independientes: sirve para comparar 2 grupos que eran personas
diferentes.
En la vista de variables uno puede ver que variables le asigno, por ejemplo: 1 y 4 (GIF)
Prueba T
Con un valor de 0,000 rechazamos la igualdad de medias, lo que podemos decir es: la media de
esperanza de vida femenina de los países africanos respecto a la de los países de la OCDE es
significativamente (estadísticamente) diferente.
Significación de 0,148. Por lo tanto asumimos varianzas iguales, por lo que nos olvidamos de la fila
de abajo.
Valor de significación bilateral de 0,933. Se acepta por lo tanto la igualdad de las medias.
Prueba ANOVA: Con ANOVA es posible poner todos los grupos, no solamente 2 variables.
La lógica de ANOVA para dar la significación de 0,000 es sacar los estadísticos inter-grupos e intra-
grupos.
De aquí se sacan dos valores, el primero reconoce la variable esperanza de vida / región económica.
En el valor inter-grupos saca una diferencia en virtud de las diferencias entre los grupos y saca un
valor final.
Además, lo complementa con el valor intra-grupos que son las diferencias entre los valores de los
grupos mismos. Diferencias entre cada una de las categorías.
Si uno toma el valor de la suma de cuadrados y lo divide por los grados de libertad dan la media
cuadrática.
Hipótesis nula: No hay diferencias entre las medias entre las categorías.
Mayor a 0,05: Si fuese mayor, se acepta la hipótesis nula y se rechaza la hipótesis alternativa.
Menor a 0,05: Con un valor menor a 0,05 vamos a rechazar la hipótesis nula. Es decir, aceptar la
hipótesis alternativa que postula la existencia de diferencias entre las medias.
Hipótesis alternativa: No quiere decir que todas las medias son diferentes, quiere decir que existe
al menos una media que es diferente al resto (no podemos saber que media es, solo sabemos que
no son todas iguales).
El más importante es la normalidad de las variables. Pero ANOVA en grupos de casos no demasiado
grandes, igual soporta bien cuando no hay normalidades tan similares.
TABLA DE GIF
Tukey es una prueba que trata de agrupar a las medias en sus conjuntos, establecer categorías de
medias.
Por ejemplo: podemos concluir que si bien eran 6 valores, Tukey lo puede reducir a 4. Estos son los
grupos de variables realizables. Las 2 pruebas nos dicen que la media de África es imposible de juntar
con algún otro valor.
Nos dice que la media de Europa Oriental con los países de la OCDE también es posible de agruparlos
en una categoría.
Es un análisis para ver cómo se comportan las medias y sus posibles relaciones.
En este caso Tukey no nos aporta demasiada información, en otros casos nos puede dividir las
variables de mejor manera, esa es su finalidad.
Numérica – Numérica -> Correlación de Pearson y Spearman / y Regresión -> Ambas son pruebas
paramétricas.
En el diagnostico descriptivo, la lógica que tienen las variables no nos sirve de mucho, ya que si son
numéricos o categóricas, para un análisis descriptivo no tendrá mucho sentido, salvo que queramos
sacar una media aritmética en una variable categórica.
Cuando vamos más allá del análisis descriptivo, si nos va a importar cada variable ya que cada una
tendrá una prueba estadística diferente de acuerdo a su lógica.
Recordar que T de Student y ANOVA son pruebas paramétricas (cuando la distribución de la variable
es normal).
Por lo tanto Chi cuadrado es una prueba no paramétrica, a través de Chi cuadrado no voy a poder
establecer resultados que se generalicen al resto de la población. Solo pueden ser útiles para la
muestra específica.
¿Cuál es la lógica de Chi Cuadrado? La lógica de esta prueba es si dos variables categóricas están o
no relacionadas.
Lo que busca es obtener la relación mediante un estadístico que se llama estadístico de Chi
cuadrado, su lógica parte de la hipótesis de que las variables “quizás” no deberían comportarse de
igual manera.
Para que no hayan diferencias, las variables deberían comportarse de la misma manera (53,3%,
46,7%) y esto sería la hipótesis nula.
Sin embargo como observamos que las variables son diferentes, podemos pensar que existe una
diferencia (hipótesis alternativa).
Chi cuadrado no nos dice cual variable influye sobre cual, esto puede ser realizado por medio de
inferencias básicas.
Las tablas de contingencia sirven para cruzar 2 variables de tipo categóricas, en este caso Equipo /
Sexo.
Ejemplo tabla de contingencia estadístico Chi cuadrado: http://i.imgur.com/Y1OoNat.gif
Con un Chi-cuadrado de Pearson de 17,602 y 2 grados de libertad, podemos ver que se rechaza la
hipótesis nula.
Con un valor menor a 0,05 rechazamos hipótesis nula. Ósea, el género con el equipo de futbol si
están relacionados.
Para que Chi cuadrado funcione de buena manera, no debería ninguno de los cruces ser menor a 5
casos. (a) Si tenemos por ejemplo una muestra de 10 personas, con tablas de 3 x 3, no nos va a
funcionar. Y Chi cuadrado nos avisara el porcentaje de casillas que tienen una frecuencia esperada
menor a 5. En este caso ninguna tiene menos de 5. El valor máximo puede ser de 20% en una o dos
casillas.
Si tenemos 10 casillas que representan a un 80%, significa que Chi cuadrado no servirá y sus
resultados no pueden ser tomados en cuenta.
Archivo pain_medication.sav
Con estos datos ¿Podemos hacer una diferenciación entre hombre y mujer? Para esto lo podemos
hacer con una tabla de contingencia.
Tabla de contingencia: http://i.imgur.com/IJqVhtY.gif
Ahora si podemos saber, observando esta tabla que en salud pobre hay mayor cantidad de mujeres.
En salud razonable y buena se encuentran muy similares los hombres.
Aquí podemos observar que es mayor a 0,05 por lo que no podemos rechazar la hipótesis nula, así
que debemos aceptarlo y afirmar que el sexo no tiene nada que ver con la salud de una persona
(0,103).
Lo que hace es buscar “ver” cuánto error reduce en la predicción de una variable, al incorporar
una segunda. A diferencia de Chi cuadrado, esto busca visualizar cuanto reduce el porcentaje el
tomar una u otra variable.
Lambda se interpreta entre valores que van desde el 0 al 1. Cercanos al 0, la variable no reduce en
nada y cercanos a 1, lo reduce significativamente.
Lambda dice cuanto me reduce una variable al establecer la relación con la otra. El resultado de Chi
cuadrado nos dio que no había relación entre salud y sexo. Al ingresar Lambda, podemos ver que
tan baja es esta relación entre las variables.
Lo que hace Lambda entonces es sacar 3 valores, simétricos, genero dependiente y salud general
dependiente.
Genero dependiente: El género será dependiente (0,91). El género influye sobre la Salud.
Salud general dependiente: La salud general será dependiente (0,18). La salud influye sobre el
género.
En este caso de los valores de Lambda, nos interesa Salud general dependiente (0,018).
Una hipótesis podría decir que el género de una persona influye sobre su salud. (Más
posiblemente correcta)
Una hipótesis diría que la salud de una persona influye sobre el género.
El programa nunca dirá cuál es la relación de las variables, uno debe a través de la lógica saber las
relaciones de las variables.
Con un 0,018 (0,018%) podemos decir la salud no influye prácticamente en nada en la salud en
general.
Para calcular el porcentaje 28 + 83 / 200: 0,555
Esa es la posibilidad de que yo me equivoque al tomar una persona con salud buena y ver las otras
variables.
Tomando en consideración al sexo, en los hombres, lo más probable es tomar un hombre con salud
razonable y una mujer con salud buena.
Entonces, para saber las probabilidades de los errores de clasificación sumo los 2 errores posibles
de hombre y mujer (0,265 + 0,28) y obtenemos 0,545: Error de clasificación considerando el sexo.
Entonces, ahora calculamos el error de clasificación de 0,555 pero calculándola con el nuevo error
de clasificación de 0,545 dará un nuevo error de clasificación (0,555 – 0,545) de 0,01.
Este 0,01 es el valor que se logró reducir del valor inicial que tenía.
Para saber esto, dividimos entre 0,01 y 0,555 con lo que obtendremos un valor lambda de 0,01801
que puede verse en Salud general dependiente de la primera tabla.
Numérica – Numérica -> Correlación de Pearson y Spearman / y Regresión -> Ambas son pruebas
paramétricas.
La correlación es una prueba estadística para medir la relación entre dos variables numéricas.
“Si en todos los países de Mundo_1995, la esperanza de vida femenina se relaciona con la esperanza
de vida masculina” (¿Mayor esperanza femenina = mayor esperanza masculina?)
Alto x – Bajo y
Alto y – Bajo x
(Cuando una sube, la otra baja / Cuando una variable baja, la otra sube)
La correlación solo mide relación entre dos variables y no la causalidad (en la regresión si es posible
medir causalidad).
0 = correlación nula
Valores cercanos a 0 será ausencia de correlación, mientras que cercanos a 1, tendrán una
correlación que se define en base a cuan cercano se encuentren.
Con valores cercanos al 0,75/-0,75: una correlación fuerte y es generalmente lo más aceptado
dentro de los resultados.
Una variable con si misma nos dará un puntaje de 1 ya que cada punto coincide con el punto de la
otra variable (1 es a 1 o variable perfecta)
Una correlación de Pearson se utiliza cuando todas las variables son normales.
Cuando nos aparece que las variables no tienen una distribución normal, vamos a utilizar una
correlación de Spearman.
Tau-b de Kendall nos servirá para hacer correlaciones entre variables ordinales.
Nos dice por lo tanto que es casi perfecta y que además es lineal positiva.
Además, nos debemos fijar en el nivel de error que en este caso es de un 0,000.
Los países que tienen una esperanza de vida femenina alta, también lo tendrá la esperanza de
vida masculina.
Por último, si nos fijamos en el 0,982** lo que nos dice es que la correlación es significativa. (**)
Tabla de correlación bivariada con múltiples variables: http://i.imgur.com/96pRaqn.gif
Por ejemplo: En esperanza de vida femenina tenemos que observar los siguientes valores:
Tasa de natalidad / esperanza de vida femenina: -0,861 (a medida que una aumenta la otra
disminuye)
Casos de sida / esperanza de vida femenina: 0,019 (correlación directa casi nula)
Como el nivel de significación es de 0,846 aquí se puede concluir que: Si uno dice que la correlación
existe, tengo un 0,846 o 84,6% de probabilidades de que me equivoque por cada vez que haga
esta correlación.
Los N son 104, 107, 108, etc. debido a la cantidad de casos perdidos que puedan existir.
Entre producto interior bruto per-cápita y esperanza de vida femenina: Existe una correlación lineal
positiva mediana, con un nivel de error inferior a 0,05 o 0.
La lectura práctica será: A medida que aumenta el producto interior bruto, aumentará la
esperanza de vida femenina (o al revés: a medida que disminuye el producto interior/interno
bruto, disminuirá la esperanza de vida femenina).
Entre casos de SIDA y esperanza de vida masculina: Existe una correlación nula.
Entre tasa de natalidad y habitantes en ciudades: Existe una correlación lineal negativa con una
fuerza de correlación mediana, con un nivel de error de 0, quiere decir que al aumentar una variable,
la otra disminuye.
Correlación 1 bivariada http://i.imgur.com/ofazKuS.gif
Ho = No están relacionadas
Cuando el valor estadístico es menor a 0,05, se rechaza la hipótesis nula y aceptamos la hipótesis
alternativa. Es decir, la esperanza de vida masculina está relacionada con la esperanza de vida
femenina.
Es posible ver que entre esperanza de vida masculina y esperanza de vida femenina hay una
correlación lineal positiva
Variable espúrea: Es una variable que está detrás de una correlación entre otras 2 variables, pero
que sin embargo nosotros debemos buscar esa variable espúrea para poder determinar si una
relación es efectiva o no.
La correlación parcial intenta mostrar si existen variables espúreas que puedan estar afectando el
resultado.
Lo que hace es buscar donde hay mayores diferencias entre los valores de una correlación.
La distancia euclidiana es buscar cual es el valor, cuantificarlo, mediante el cruce que se da por una
lógica de cruce de variables.
Acerbaján / Afganistán = 38,013 demasiado alejados las variables de las esperanzas de vida
femenina y masculina.
De = Raiz cuadrada de 16 + 25
De = Raiz cuadrada de 41
De = 6,403
Lo que esto permite es ver las distancias entre las variables, las cuales deben ser analizadas para
captar su significado.
Fin de correlaciones
Regresión lineal
La correlación nos entrega solo relación entre las variables, pero no nos habla de cómo se traduce
esa relación, o cuales son las causalidades de esa relación.
http://i.imgur.com/kd5zISD.gif
Nos dice que el modelo 1, en donde la variable predictor son las personas alfabetizadas en
porcentajes. Estos valores son:
Va a corresponder al mismo valor que si uno hiciera una correlación entre las 2 variables.
R cuadrado corregida = 0,748 y 0,746. El R cuadrado corregido, reduce los errores que podrían
provocar una cantidad demasiado grande de variables independientes o muchos casos.
Equivale a la desviación típica de los residuos, los espacios entre la línea perfecta de la regresión y
lo que se dio.
Calcula la suma del cuadrado de la regresión, del residuo y sus grados de libertad, y entrega el valor
de F.
Con un R cuadrado bajo, la pendiente no crecería mucho, pero como es de F = 309, vemos que la
pendiente es alta.
Entre las personas alfabetizadas y la esperanza de vida femenina si hay una relación estadística.
Coeficientes tipificados = Para comparar variables que no tuvieran las mismas unidades de medida.
Coeficientes no estandarizados.
Constante = B0
Variable 1 (% alfabetizadas) = B1
Por cada 1% que aumento el porcentaje de personas alfabetizadas se espera que la esperanza de
vida femenina, aumente en 0,4 años (0,402).
Regresion 2
http://i.imgur.com/psZCmhC.gif
Hay relación entre las variables
Por cada 1% de habitantes en ciudades, se espera de que la esperanza de vida femenina aumente
en 0,325 (0,3 años).
http://i.imgur.com/gCadHlQ.gif
Explica en un 81.
Si uno se fija en el error de la estimación, de 5,380 se bajó a 4,655. Mejora la bondad de ajuste del
modelo.
Hay relación entre las variables.
Lo primero es que hay que ver que ambos estén aportando al modelo y que no tengan un error
demasiado alto, ambas deberían estar bajo 0,05.
Por cada 1% que aumente las personas alfabetizadas, se espera que aumente la esperanza de vida
femenina en un 0,301 o 0,3 años o 4 meses.
Si tuviese un signo negativo (- ,301) se espera que la esperanza de vida femenina disminuya en 0,3
años.
Regresión 3
http://i.imgur.com/Swk5bgE.gif
Hay relación
Sirven los 3.
Fijarse que aquí la ingesta diaria de calorías: por cada 1 caloría que aumente la ingesta diaria, la
esperanza de vida femenina aumenta en 0,005 años.
Por cada 100 calorías que aumente la ingesta diaria, la esperanza de vida femenina aumenta en 0,5
años.
Los betas sirven para comparar variables con distintas unidades de medida. Dentro de estas
variables la más importante del modelo es personas alfabetizadas (basándonos en el Beta, 0,545 vs
0,244 vs 0,236).
Si agregamos una cuarta variable, población en miles tiene un sig de 0,431 por lo que lo más
recomendable es sacarla.
http://i.imgur.com/kd5zISD.gif
El error no tiene una interpretación como en las otras, lo ideal es que el error tipo sea 0. Sin embargo
cuando son bajos podemos aceptar el modelo.
Esto va muy relacionado con el R cuadrado, si es bajo, hay que observar el error tipo. Si el R cuadrado
es alto, el error tipo puede ser más alto.
En el ANOVA podemos ver si el modelo sirve o no, fijarse en la significación.
Entonces, hay que estar atentos al R cuadrado (alto o bajo), el error tipo de la estimación y
finalmente el ANOVA que debe tener una sig menor a 0,05.
2do La independencia: los residuos deben ser independientes entre sí. (Los residuos son los
espacios que quedan en la recta, para medir los residuos se debe usar la prueba de Durbin-Watson).
3ro supuesto: La homocedasticidad: Se refiero a que la varianza de los residuos sea constante.
4to supuesto: Que las variables tengan una linealidad normal, especialmente la dependiente. Se
miden a través de una prueba de Kolmogorov-Smirnoff.
Valores cercanos a 0 mostrarán una autocorrelación positiva, valores cercanos a 4 va a mostrar una
autocorrelación negativa.