Recursos Informáticos para Manejo de Información Cuantitativa y Cualitativa

La prueba T para una muestra: Es la que menos se usa.
Se utiliza si se tienen los parámetros de

población.
Por ejemplo, la universidad entrega la nómina total de estudiantes de la universidad, y sale que la
media de los estudiantes de la universidad es de 23 años, ese es el valor poblacional. Uno hace la
muestra de 300 casos y efectivamente da en la muestra una media de 30 años. En este caso, uno
ingreso el valor de 30, lo prueba con el parámetro poblacional de 23 años y la prueba dirá si el valor
está dentro de lo permitido, o si hubo un error dentro de las encuestas realizadas.
La dificultad es que no siempre se saben los parámetros poblacionales.
La prueba T para muestras independientes: sirve para comparar 2 grupos que eran personas
diferentes.
Por ejemplo: hombres y mujeres en cuanto a su ingreso.
La prueba T para muestras relacionadas: Se comparan las mismas variables en 2 periodos de

tiempo, por ejemplo: entre el ingreso del 2.000 y el del año 2.010.
La limitante de la prueba T solo sirve para comparar 2 categorías.
En la vista de variables uno puede ver que variables le asigno, por ejemplo: 1 y 4 (GIF)
Prueba T
Prueba T independiente: http://i.imgur.com/Z4uLQaf.gif
[Conjunto_de_datos1] C:\Users\Luis\Desktop\Mundo 1995.sav
Con un valor de 0,000 rechazamos la igualdad de medias, lo que podemos decir es: la media de
esperanza de vida femenina de los países africanos respecto a la de los países de la OCDE es
significativamente (estadísticamente) diferente.
Significación de 0,148. Por lo tanto asumimos varianzas iguales, por lo que nos olvidamos de la fila
de abajo.
Valor de significación bilateral de 0,933. Se acepta por lo tanto la igualdad de las medias.
Prueba T independiente entre grupos 1 y 5: http://i.imgur.com/MwKazpl.gif
¡Recordar identificar si hacer prueba T para muestras independientes o relacionadas!
Esta T student es numérica con categórica. Esperanza de vida con Región.
Prueba ANOVA: Con ANOVA es posible poner todos los grupos, no solamente 2 variables.
El factor debe ser nominal u ordinal.
ANOVA de un factor esperanza de vida / región económica: http://i.imgur.com/lq6alvl.gif
La lógica de ANOVA para dar la significación de 0,000 es sacar los estadísticos inter-grupos e intra-
grupos.
De aquí se sacan dos valores, el primero reconoce la variable esperanza de vida / región económica.
En el valor inter-grupos saca una diferencia en virtud de las diferencias entre los grupos y saca un
valor final.
Además, lo complementa con el valor intra-grupos que son las diferencias entre los valores de los
grupos mismos. Diferencias entre cada una de las categorías.
Ejemplo: todas las diferencias de los países dentro de Europa.
Los grados de libertad inter-grupos son debido al número de categorías -1 (N-1)

Mientras que intra-grupos son el número de las categorías (108 grupos – las 6 categorías)
Si uno toma el valor de la suma de cuadrados y lo divide por los grados de libertad dan la media
cuadrática.
¿Qué decisión podríamos tomar?
Hipótesis nula: No hay diferencias entre las medias entre las categorías.
(Recordar: siempre es el rechazo a cualquier variación).
Aquí hay 2 opciones: mayor a 0,05 o menor a 0,05.
Mayor a 0,05: Si fuese mayor, se acepta la hipótesis nula y se rechaza la hipótesis alternativa.
Menor a 0,05: Con un valor menor a 0,05 vamos a rechazar la hipótesis nula. Es decir, aceptar la
hipótesis alternativa que postula la existencia de diferencias entre las medias.
Hipótesis alternativa: No quiere decir que todas las medias son diferentes, quiere decir que existe
al menos una media que es diferente al resto (no podemos saber que media es, solo sabemos que
no son todas iguales).
ANOVA de un factor Post hoc y opciones: http://i.imgur.com/KP7wE0g.gif
Las más importantes de Post hoc son: Tukey, Tukey-b y Games-Howell.
Tukey y Tukey-B: Son si asumimos varianzas iguales.
Games-Howell: Si no asumimos varianzas iguales.
El más importante es la normalidad de las variables. Pero ANOVA en grupos de casos no demasiado
grandes, igual soporta bien cuando no hay normalidades tan similares.
Donde más falla es en la normalidad de las variables.
TABLA DE GIF
Aquí estamos comparando las medias.

En virtud esto, podemos cifrar que hay al menos una media diferente.
Gráfico de las medias
Nos aporta información de que no todas las medias son iguales.

Por ejemplo:
OCDE: Aparece una diferencia de las medias con un error típico y una significación.
Se simplifica más con decir que esa simplificación son simplemente diferencias menores a 0,05
respecto a las otras categorías. Esto quiere decir que son niveles de error, o diferencias.
Si la media de la OCDE es distinta a la de Europa Oriental, estoy cometiendo un error de 46% (0,464)
pero, yo podría decir que la esperanza media es diferente a la de Asia /Pacifico, África, Oriente
Medio y América Latina.
Esta prueba me va a permitir ver que categorías dentro del análisis son diferentes y en qué
porcentaje.
La media de Europa Oriental me dice que solamente es distinta de Asia / Pacifico (0,003) y África
(0,000)
La media de África es estadísticamente diferente al del resto de las medias. (Todas con 0,000).
Todo esto surge del ANOVA que nos decía que existía al menos una diferente, gracias a esto nos
dice que es la de África, ya que es diferente a todas.
Oriente medio (5) con América Latina (6) aquí vemos que, con un 100% (1,000) de error, no existe
diferencia entre ambas.
Existen 2 posibilidades o mayores a 0,005 o menores a 0,005. Solo cuando sean menores podemos
decir que las medias son estadísticamente diferentes.
Es decir, América Latina es estadísticamente diferente a la OCDE y a África. Mientras que es
absolutamente igual a Oriente Medio.
Subconjuntos homogéneos (hecho a partir del GIF anterior).
Tukey es una prueba que trata de agrupar a las medias en sus conjuntos, establecer categorías de
medias.
Por ejemplo: podemos concluir que si bien eran 6 valores, Tukey lo puede reducir a 4. Estos son los
grupos de variables realizables. Las 2 pruebas nos dicen que la media de África es imposible de juntar
con algún otro valor.
Nos dice que la media de Europa Oriental con los países de la OCDE también es posible de agruparlos
en una categoría.
Es un análisis para ver cómo se comportan las medias y sus posibles relaciones.
En este caso Tukey no nos aporta demasiada información, en otros casos nos puede dividir las
variables de mejor manera, esa es su finalidad.
Numérica – Numérica -> Correlación de Pearson y Spearman / y Regresión -> Ambas son pruebas
paramétricas.
Categórica – Categórica -> Chi cuadrado -> No paramétrico
Numérica – Categórica -> T Student y ANOVA -> Paramétrico
En el diagnostico descriptivo, la lógica que tienen las variables no nos sirve de mucho, ya que si son
numéricos o categóricas, para un análisis descriptivo no tendrá mucho sentido, salvo que queramos
sacar una media aritmética en una variable categórica.
Cuando vamos más allá del análisis descriptivo, si nos va a importar cada variable ya que cada una
tendrá una prueba estadística diferente de acuerdo a su lógica.
Lo que hemos visto es una relación entre numérica – categórico (T student)
Ejemplo: Categórico (Nominales y ordinales) Sexo / Numérico Ingreso
Recordar que T de Student y ANOVA son pruebas paramétricas (cuando la distribución de la variable
es normal).
Chi cuadrado nos permite hacer comparaciones entre 2 variables categóricas.
Ejemplo: Si el sexo de una persona influye en su condición religiosa.
No existe una prueba paramétrica para medir variables categórica / categórica.
Por lo tanto Chi cuadrado es una prueba no paramétrica, a través de Chi cuadrado no voy a poder
establecer resultados que se generalicen al resto de la población. Solo pueden ser útiles para la
muestra específica.
¿Cuál es la lógica de Chi Cuadrado? La lógica de esta prueba es si dos variables categóricas están o
no relacionadas.
Lo que busca es obtener la relación mediante un estadístico que se llama estadístico de Chi
cuadrado, su lógica parte de la hipótesis de que las variables “quizás” no deberían comportarse de
igual manera.
Ejemplo de Chi cuadrado: http://i.imgur.com/SBEi13A.gif
Para que no hayan diferencias, las variables deberían comportarse de la misma manera (53,3%,
46,7%) y esto sería la hipótesis nula.
Sin embargo como observamos que las variables son diferentes, podemos pensar que existe una
diferencia (hipótesis alternativa).
Chi cuadrado no nos dice cual variable influye sobre cual, esto puede ser realizado por medio de
inferencias básicas.
Las tablas de contingencia sirven para cruzar 2 variables de tipo categóricas, en este caso Equipo /
Sexo.
Ejemplo tabla de contingencia estadístico Chi cuadrado: http://i.imgur.com/Y1OoNat.gif
Con un Chi-cuadrado de Pearson de 17,602 y 2 grados de libertad, podemos ver que se rechaza la
hipótesis nula.
La respuesta vendría entonces del valor 0,000
Con un valor menor a 0,05 rechazamos hipótesis nula. Ósea, el género con el equipo de futbol si
están relacionados.
¡Recordar que Chi cuadrado sirve para comparar 2 variables categóricas!
Para que Chi cuadrado funcione de buena manera, no debería ninguno de los cruces ser menor a 5
casos. (a) Si tenemos por ejemplo una muestra de 10 personas, con tablas de 3 x 3, no nos va a
funcionar. Y Chi cuadrado nos avisara el porcentaje de casillas que tienen una frecuencia esperada
menor a 5. En este caso ninguna tiene menos de 5. El valor máximo puede ser de 20% en una o dos
casillas.
Si tenemos 10 casillas que representan a un 80%, significa que Chi cuadrado no servirá y sus
resultados no pueden ser tomados en cuenta.
Archivo pain_medication.sav
Tabla de frecuencia género / salud general: http://i.imgur.com/LM1zalK.gif
Con estos datos ¿Podemos hacer una diferenciación entre hombre y mujer? Para esto lo podemos
hacer con una tabla de contingencia.
Tabla de contingencia: http://i.imgur.com/IJqVhtY.gif
Ahora si podemos saber, observando esta tabla que en salud pobre hay mayor cantidad de mujeres.
En salud razonable y buena se encuentran muy similares los hombres.
De aquí puede surgir la pregunta de la relación entre género y salud.
Para saber esto, podemos utilizar Chi cuadrado.
Tabla de contingencia con Chi cuadrado: http://i.imgur.com/bVpHGbJ.gif
Aquí podemos observar que es mayor a 0,05 por lo que no podemos rechazar la hipótesis nula, así
que debemos aceptarlo y afirmar que el sexo no tiene nada que ver con la salud de una persona
(0,103).
Marcar Lambda: http://i.imgur.com/dzSCLQg.gif
Lambda es una técnica no para buscar precisamente relación entre variables.
Lo que hace es buscar “ver” cuánto error reduce en la predicción de una variable, al incorporar
una segunda. A diferencia de Chi cuadrado, esto busca visualizar cuanto reduce el porcentaje el
tomar una u otra variable.
Lambda se interpreta entre valores que van desde el 0 al 1. Cercanos al 0, la variable no reduce en
nada y cercanos a 1, lo reduce significativamente.
Se utiliza para categórico con categórico.
Lambda dice cuanto me reduce una variable al establecer la relación con la otra. El resultado de Chi
cuadrado nos dio que no había relación entre salud y sexo. Al ingresar Lambda, podemos ver que
tan baja es esta relación entre las variables.
Lo que hace Lambda entonces es sacar 3 valores, simétricos, genero dependiente y salud general
dependiente.
Estos 3 valores son:
Simétrico: ninguna de las variables tiene una lógica dependiente
Genero dependiente: El género será dependiente (0,91). El género influye sobre la Salud.
Salud general dependiente: La salud general será dependiente (0,18). La salud influye sobre el
género.
Al igual que ANOVA es un diagnostico post hoc, sirve para corroborar.
En este caso de los valores de Lambda, nos interesa Salud general dependiente (0,018).
Es decir, el Género -> Salud (puede influir en la salud)
Por lo tanto el valor que nos interesa es 0,018.
Una hipótesis podría decir que el género de una persona influye sobre su salud. (Más
posiblemente correcta)
Una hipótesis diría que la salud de una persona influye sobre el género.
El programa nunca dirá cuál es la relación de las variables, uno debe a través de la lógica saber las
relaciones de las variables.
Con un 0,018 (0,018%) podemos decir la salud no influye prácticamente en nada en la salud en
general.
Para calcular el porcentaje 28 + 83 / 200: 0,555
Esa es la posibilidad de que yo me equivoque al tomar una persona con salud buena y ver las otras
variables.
Tomando en consideración al sexo, en los hombres, lo más probable es tomar un hombre con salud
razonable y una mujer con salud buena.
Entonces, para saber las probabilidades de los errores de clasificación sumo los 2 errores posibles
de hombre y mujer (0,265 + 0,28) y obtenemos 0,545: Error de clasificación considerando el sexo.
Entonces, ahora calculamos el error de clasificación de 0,555 pero calculándola con el nuevo error
de clasificación de 0,545 dará un nuevo error de clasificación (0,555 – 0,545) de 0,01.
Este 0,01 es el valor que se logró reducir del valor inicial que tenía.
¿Qué porcentaje es lo que yo logré reducir?
Para saber esto, dividimos entre 0,01 y 0,555 con lo que obtendremos un valor lambda de 0,01801
que puede verse en Salud general dependiente de la primera tabla.
Numérica – Numérica -> Correlación de Pearson y Spearman / y Regresión -> Ambas son pruebas
paramétricas.
(Con archivo Mundo_1995)
La correlación es una prueba estadística para medir la relación entre dos variables numéricas.
“Si en todos los países de Mundo_1995, la esperanza de vida femenina se relaciona con la esperanza
de vida masculina” (¿Mayor esperanza femenina = mayor esperanza masculina?)
La correlación más utilizada es la bivariada.
Este procedimiento se conoce como correlación LINEAL.
Existen 2 tipos de correlaciones:
Correlaciones lineales positivas:
Alto x – Alto y / Bajo x – Bajo y

(Cuando una sube, la otra también sube / Cuando una variable baja, la otra también baja)
Correlaciones lineales negativas:
Alto x – Bajo y
Alto y – Bajo x
(Cuando una sube, la otra baja / Cuando una variable baja, la otra sube)
La correlación sirve para cuantificar el grado de relación entre 2 variables numéricas.
La correlación solo mide relación entre dos variables y no la causalidad (en la regresión si es posible
medir causalidad).
La interpretación de una correlación toma valores entre 0 y 1 (o entre el -1, 0 y 1)
1 = correlación lineal perfecta directa o positiva
-1 = correlación lineal perfecta inversa o negativa
0 = correlación nula
Valores cercanos a 0 será ausencia de correlación, mientras que cercanos a 1, tendrán una
correlación que se define en base a cuan cercano se encuentren.
Aquí entra un concepto clave que es la fuerza de la correlación.
Con valores cercanos al 0,25/-0,25: una correlación débil/muy débil.
Con valores cercanos al 0,50/-0,50: una correlación mediana.
Con valores cercanos al 0,75/-0,75: una correlación fuerte y es generalmente lo más aceptado
dentro de los resultados.
Una variable con si misma nos dará un puntaje de 1 ya que cada punto coincide con el punto de la
otra variable (1 es a 1 o variable perfecta)
Una correlación de Pearson se utiliza cuando todas las variables son normales.
Cuando nos aparece que las variables no tienen una distribución normal, vamos a utilizar una
correlación de Spearman.
El problema de Spearman es que no es una prueba paramétrica.
Tau-b de Kendall nos servirá para hacer correlaciones entre variables ordinales.
Bilateral o unilateral dependerá si conocemos para donde irán las 2 variables.
Si es unilateral nosotros conocemos la lógica de las variables (si es positiva/directa o

negativa/inversa)
Marcar las correlaciones significativas = se señalan a través de un asterisco *.
Tabla de correlación bivariada: http://i.imgur.com/VvvVPdq.gif

Aquí podemos ver por ejemplo que la Esperanza de vida femenina con Esperanza de vida masculina
están correlacionadas en un 0,982 (98,2%).
Nos dice por lo tanto que es casi perfecta y que además es lineal positiva.
Además, nos debemos fijar en el nivel de error que en este caso es de un 0,000.
Podemos concluir que:
Entonces, al aumentar la esperanza de vida femenina, también aumentará la esperanza de vida

masculina.
O, al disminuir la esperanza de vida femenina, también lo hará la esperanza de vida masculina.
Los países que tienen una esperanza de vida femenina alta, también lo tendrá la esperanza de
vida masculina.
Por último, si nos fijamos en el 0,982** lo que nos dice es que la correlación es significativa. (**)
Tabla de correlación bivariada con múltiples variables: http://i.imgur.com/96pRaqn.gif
Por ejemplo: En esperanza de vida femenina tenemos que observar los siguientes valores:
Tasa de natalidad / esperanza de vida femenina: -0,861 (a medida que una aumenta la otra
disminuye)
Casos de sida / esperanza de vida femenina: 0,019 (correlación directa casi nula)
Para confirmar esto, uno revisa el nivel de error.
Como el nivel de significación es de 0,846 aquí se puede concluir que: Si uno dice que la correlación
existe, tengo un 0,846 o 84,6% de probabilidades de que me equivoque por cada vez que haga
esta correlación.
Los N son 104, 107, 108, etc. debido a la cantidad de casos perdidos que puedan existir.
El nivel de error siempre estará relacionado con el valor de la correlación.
Entre producto interior bruto per-cápita y esperanza de vida femenina: Existe una correlación lineal
positiva mediana, con un nivel de error inferior a 0,05 o 0.
La lectura práctica será: A medida que aumenta el producto interior bruto, aumentará la
esperanza de vida femenina (o al revés: a medida que disminuye el producto interior/interno
bruto, disminuirá la esperanza de vida femenina).
Entre casos de SIDA y esperanza de vida masculina: Existe una correlación nula.
Entre tasa de natalidad y habitantes en ciudades: Existe una correlación lineal negativa con una
fuerza de correlación mediana, con un nivel de error de 0, quiere decir que al aumentar una variable,
la otra disminuye.
Correlación 1 bivariada http://i.imgur.com/ofazKuS.gif
Ha = Esperanza de vida masculina está relacionada con esperanza de vida femenina
Ho = No están relacionadas
Cuando el valor estadístico es menor a 0,05, se rechaza la hipótesis nula y aceptamos la hipótesis
alternativa. Es decir, la esperanza de vida masculina está relacionada con la esperanza de vida
femenina.
Correlación 2 Bivariada excluir casos según lista http://i.imgur.com/EvH8uK8.gif
(Seleccionar medias y desviaciones típicas, y excluir casos según lista)

Al excluir caso según lista, SPSS hace los análisis para todas las variables que tengan valores
perdidos.
No excluye solo a las parejas de casos perdidos, sino que a la lista.
Gráfico de dispersión simple http://i.imgur.com/ASsjB56.gif
Es posible ver que entre esperanza de vida masculina y esperanza de vida femenina hay una
correlación lineal positiva
Gráfico de dispersión simple http://i.imgur.com/fZ2e3lU.gif

Aquí podemos ver que no existe correlación entre esperanza de vida femenina y casos de sida
Variable espúrea: Es una variable que está detrás de una correlación entre otras 2 variables, pero
que sin embargo nosotros debemos buscar esa variable espúrea para poder determinar si una
relación es efectiva o no.
Correlación de orden cero = correlaciones bivariadas

Correlación parcial http://i.imgur.com/g1OcBn4.gif
La correlación se sustenta por si sola al tener una correlación de 0,970.
La correlación parcial intenta mostrar si existen variables espúreas que puedan estar afectando el
resultado.
Correlación parcial http://i.imgur.com/27IrcNK.gif

La distancia es una medida estadística que nos va a informar de la similaridad o la disimilaridad de
valores.
Similaridad = cercanía entre los valores.
Disimilaridad = lejanía entre los valores.
Lo que hace es buscar donde hay mayores diferencias entre los valores de una correlación.
La distancia euclidiana es buscar cual es el valor, cuantificarlo, mediante el cruce que se da por una
lógica de cruce de variables.
Para el plano bidimensional (2 variables).
Correlación distancias http://i.imgur.com/RDzyZ2N.gif
La distancia me va a decir cuan distantes están ambas variables
Ejemplos: Acerbaján / Acerbaján = 0
Acerbaján / Afganistán = 38,013 demasiado alejados las variables de las esperanzas de vida
femenina y masculina.
Lógica de la correlación de distancias.
Alemania = espvidaf 79 espvidam 73
Argentina = espvidaf 75 espvidam 68
De = Raiz cuadrada de (x2-x1)2 + (y2-y1)2

De = Raiz cuadrada de (79-75)2 + (73-68)2
De = Raiz cuadrada de (4)2 + (5)2
De = Raiz cuadrada de 16 + 25
De = Raiz cuadrada de 41
De = 6,403
Lo que esto permite es ver las distancias entre las variables, las cuales deben ser analizadas para
captar su significado.
Fin de correlaciones
Regresión lineal
La correlación nos entrega solo relación entre las variables, pero no nos habla de cómo se traduce
esa relación, o cuales son las causalidades de esa relación.
El paso previo a una regresión
Es para 2 variables de tipo escala.
Se usa la regresión cuando tenemos identificada una variable dependiente.
Hay que identificar 2 conceptos claves, la variable dependiente y la variable independiente.
Regresion lineal simple
http://i.imgur.com/kd5zISD.gif
[Conjunto_de_datos1] C:\Users\Luis\Desktop\Mundo 1995.sav
Nos dice que el modelo 1, en donde la variable predictor son las personas alfabetizadas en
porcentajes. Estos valores son:
R = Se denomina coeficiente de correlación múltiple.
Va a corresponder al mismo valor que si uno hiciera una correlación entre las 2 variables.
R cuadrado = Coeficiente de determinación, en la práctica, esto es el porcentaje de variación que

explica la variable independiente que introducimos. En este caso, el % de personas alfabetizadas en
cuanto a los cambios que pueden causar en la esperanza de vida femenina.
El % de personas alfabetizadas me explican el 74% de la esperanza de vida femenina.
R cuadrado corregida = 0,748 y 0,746. El R cuadrado corregido, reduce los errores que podrían
provocar una cantidad demasiado grande de variables independientes o muchos casos.
Equivale a la desviación típica de los residuos, los espacios entre la línea perfecta de la regresión y
lo que se dio.
Son la diferencia entre los valores esperados y los valores observados.
El R cuadrado va siempre entre 0 y 1.
Calcula la suma del cuadrado de la regresión, del residuo y sus grados de libertad, y entrega el valor
de F.
Fijarse en el F y Sig (mayor o menor a 0,05).
Nos va a indicar el grado de la fuerza de esta regresión.
Con un R cuadrado bajo, la pendiente no crecería mucho, pero como es de F = 309, vemos que la
pendiente es alta.
Entre las personas alfabetizadas y la esperanza de vida femenina si hay una relación estadística.
Si la significancia fuese mayor a 0,05, no tendría caso observar el R cuadrado.

Nos entrega los coeficientes no estandarizados y los coeficientes tipificados.
Coeficientes tipificados = Para comparar variables que no tuvieran las mismas unidades de medida.
Coeficientes no estandarizados.
La constante es el origen de la recta de la regresión. Ósea, la constante es donde comienza la línea

de la regresión. En este caso es 38,5. Nos dice que una persona que tuviera 0% de alfabetización,
tendría en promedio 38,5 años.
Constante = B0
Variable 1 (% alfabetizadas) = B1
El B1 entonces corresponde a la variable dependiente por cada unidad de cambio en la

independiente.
Por cada 1% que aumento el porcentaje de personas alfabetizadas se espera que la esperanza de
vida femenina, aumente en 0,4 años (0,402).
Regresion 2
http://i.imgur.com/psZCmhC.gif
Hay relación entre las variables
Por cada 1% de habitantes en ciudades, se espera de que la esperanza de vida femenina aumente
en 0,325 (0,3 años).
Regresión lineal múltiple
http://i.imgur.com/gCadHlQ.gif
Es una regresión con más de 2 predictores
Explica en un 81.
Si uno se fija en el error de la estimación, de 5,380 se bajó a 4,655. Mejora la bondad de ajuste del
modelo.
Hay relación entre las variables.
Lo primero es que hay que ver que ambos estén aportando al modelo y que no tengan un error
demasiado alto, ambas deberían estar bajo 0,05.
Por cada 1% que aumente las personas alfabetizadas, se espera que aumente la esperanza de vida
femenina en un 0,301 o 0,3 años o 4 meses.
Si tuviese un signo negativo (- ,301) se espera que la esperanza de vida femenina disminuya en 0,3
años.
Regresión 3
http://i.imgur.com/Swk5bgE.gif
Hay relación
Sirven los 3.
Cuando uno va incorporando más variables los betas cambian.
Fijarse que aquí la ingesta diaria de calorías: por cada 1 caloría que aumente la ingesta diaria, la
esperanza de vida femenina aumenta en 0,005 años.
Es posible de multiplicar por 10, 100, 1000, etc. Y quedaría así:
Por cada 100 calorías que aumente la ingesta diaria, la esperanza de vida femenina aumenta en 0,5
años.
Los betas sirven para comparar variables con distintas unidades de medida. Dentro de estas
variables la más importante del modelo es personas alfabetizadas (basándonos en el Beta, 0,545 vs
0,244 vs 0,236).
Si agregamos una cuarta variable, población en miles tiene un sig de 0,431 por lo que lo más
recomendable es sacarla.
Primer ejercicio de regresión:
http://i.imgur.com/kd5zISD.gif
Tenemos que pensar en la teoría que pueda sustentar la regresión.
El error no tiene una interpretación como en las otras, lo ideal es que el error tipo sea 0. Sin embargo
cuando son bajos podemos aceptar el modelo.
Esto va muy relacionado con el R cuadrado, si es bajo, hay que observar el error tipo. Si el R cuadrado
es alto, el error tipo puede ser más alto.
En el ANOVA podemos ver si el modelo sirve o no, fijarse en la significación.
Entonces, hay que estar atentos al R cuadrado (alto o bajo), el error tipo de la estimación y
finalmente el ANOVA que debe tener una sig menor a 0,05.
La regresión lineal tiene algunos supuestos, o condiciones que debe cumplir.
1ro Linealidad: Cuando uno mete muchas variables.
2do La independencia: los residuos deben ser independientes entre sí. (Los residuos son los
espacios que quedan en la recta, para medir los residuos se debe usar la prueba de Durbin-Watson).
3ro supuesto: La homocedasticidad: Se refiero a que la varianza de los residuos sea constante.
4to supuesto: Que las variables tengan una linealidad normal, especialmente la dependiente. Se
miden a través de una prueba de Kolmogorov-Smirnoff.
5to supuesto: La NO colinealidad de las variables.
La interpretación de Durbin-Watson toma valores entre 0 y 4.
Valores cercanos a 0 mostrarán una autocorrelación positiva, valores cercanos a 4 va a mostrar una
autocorrelación negativa.
Valores cercanos a 2, mostrarán la ausencia de autocorrelación.
Los valores de Durbin-Watson deberían estar entre 1.5 y 2.5.

Recursos Informáticos para Manejo de Información Cuantitativa y Cualitativa

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Recursos Informáticos para Manejo de Información Cuantitativa y Cualitativa

Transféré par

Droits d'auteur :

Formats disponibles

La prueba T para una muestra: Es la que menos se usa.

Se utiliza si se tienen los parámetros de

La dificultad es que no siempre se saben los parámetros poblacionales.

Por ejemplo: hombres y mujeres en cuanto a su ingreso.

La prueba T para muestras relacionadas: Se comparan las mismas variables en 2 periodos de

La limitante de la prueba T solo sirve para comparar 2 categorías.

Prueba T independiente: http://i.imgur.com/Z4uLQaf.gif

[Conjunto_de_datos1] C:\Users\Luis\Desktop\Mundo 1995.sav

Prueba T independiente entre grupos 1 y 5: http://i.imgur.com/MwKazpl.gif

¡Recordar identificar si hacer prueba T para muestras independientes o relacionadas!

Esta T student es numérica con categórica. Esperanza de vida con Región.

El factor debe ser nominal u ordinal.

ANOVA de un factor esperanza de vida / región económica: http://i.imgur.com/lq6alvl.gif

Ejemplo: todas las diferencias de los países dentro de Europa.

Los grados de libertad inter-grupos son debido al número de categorías -1 (N-1)

¿Qué decisión podríamos tomar?

(Recordar: siempre es el rechazo a cualquier variación).

Aquí hay 2 opciones: mayor a 0,05 o menor a 0,05.

ANOVA de un factor Post hoc y opciones: http://i.imgur.com/KP7wE0g.gif

Las más importantes de Post hoc son: Tukey, Tukey-b y Games-Howell.

Tukey y Tukey-B: Son si asumimos varianzas iguales.

Games-Howell: Si no asumimos varianzas iguales.

Donde más falla es en la normalidad de las variables.

Aquí estamos comparando las medias.

Gráfico de las medias

Nos aporta información de que no todas las medias son iguales.

Categórica – Categórica -> Chi cuadrado -> No paramétrico

Numérica – Categórica -> T Student y ANOVA -> Paramétrico

Lo que hemos visto es una relación entre numérica – categórico (T student)

Ejemplo: Categórico (Nominales y ordinales) Sexo / Numérico Ingreso

Chi cuadrado nos permite hacer comparaciones entre 2 variables categóricas.

Ejemplo: Si el sexo de una persona influye en su condición religiosa.

No existe una prueba paramétrica para medir variables categórica / categórica.

Ejemplo de Chi cuadrado: http://i.imgur.com/SBEi13A.gif

La respuesta vendría entonces del valor 0,000

¡Recordar que Chi cuadrado sirve para comparar 2 variables categóricas!

Tabla de frecuencia género / salud general: http://i.imgur.com/LM1zalK.gif

De aquí puede surgir la pregunta de la relación entre género y salud.

Para saber esto, podemos utilizar Chi cuadrado.

Tabla de contingencia con Chi cuadrado: http://i.imgur.com/bVpHGbJ.gif

Marcar Lambda: http://i.imgur.com/dzSCLQg.gif

Lambda es una técnica no para buscar precisamente relación entre variables.

Se utiliza para categórico con categórico.

Estos 3 valores son:

Simétrico: ninguna de las variables tiene una lógica dependiente

Al igual que ANOVA es un diagnostico post hoc, sirve para corroborar.

Es decir, el Género -> Salud (puede influir en la salud)

Por lo tanto el valor que nos interesa es 0,018.

¿Qué porcentaje es lo que yo logré reducir?

(Con archivo Mundo_1995)

La correlación más utilizada es la bivariada.

Este procedimiento se conoce como correlación LINEAL.

Existen 2 tipos de correlaciones:

Correlaciones lineales positivas:

Alto x – Alto y / Bajo x – Bajo y

Correlaciones lineales negativas:

La correlación sirve para cuantificar el grado de relación entre 2 variables numéricas.

La interpretación de una correlación toma valores entre 0 y 1 (o entre el -1, 0 y 1)

1 = correlación lineal perfecta directa o positiva

-1 = correlación lineal perfecta inversa o negativa

Aquí entra un concepto clave que es la fuerza de la correlación.

Con valores cercanos al 0,25/-0,25: una correlación débil/muy débil.

Con valores cercanos al 0,50/-0,50: una correlación mediana.