Vous êtes sur la page 1sur 23

COMO DESCRIBIR UNA VARIABLE CATEGÓRICA

Primero debemos detectar los valores categóricos y esto se hace cuando se determina los
valores finales, por lo que en la variable PAIS representa una variable categórica, pero esta
variable también se puede representar con números (VAR0001) por lo que esta variable
representa a la variable PAIS, VAR0001 no es numérico sino más bien representa a una
categórica.

Cuando se ingresa en forma de texto se puede ingresar palabras erróneas, pero si se trabaja con
el tipo como en la variable VAR0001 no se comete errores, solo se selecciona.

Por lo que es importante que una variable categórica representada por la variable PAIS y que
sus valores categóricos sean representados por números.

Luego, ANALIZAR, ESTADISTICA DESCRIPTIVA, frecuencias y seleccionamos la variable VAR0001


cuyo tipo es numérico (icono es representado por ESCALA) y aceptamos y vemos la tabla de
frecuencias.
El porcentaje válido representa cuando al ingresar los datos en algunas celdas se ponen en
blanco o cero valores.

COMO DESCRIBIR UNA VARIABLE NUMÉRICA


Existe un sin número de medir las variables numéricas y la podemos agrupar de la siguiente
manera:

MEDIDAS DE TENDENCIA CENTRAL

- Media aritmética: promedio de sumar todos los datos y dividirlos entre el número de
ellos.
- Mediana: Corresponde al valor central previo ordenamiento
- Moda: El valor que más se repite

Si la media, la mediana y la moda son iguales entonces estamos en una distribución


normal.

Como se calcula estas medidas:

Analizar, Estadística descriptiva, Frecuencias, seleccionamos EDAD, luego estadísticos y


seleccionamos Media, Mediana, Moda, luego continuar y aceptar.

MEDIDAS DE DISPERSIÓN

- Desviación estándar: Nos menciona cuan dispersos están los datos con respecto a la
media.
- Varianza: Viene a ser el cuadrado de la desviación y para la mayoría de los
procedimientos estadísticos se trabaja con la varianza y no con la desviación estándar.
La desviación estándar tiene las unidades de la variable original.
- Error Típico: Es una especie de desviación estándar pero no para los datos sino más bien
para la media por eso que también se le conoce como error típico de la media.

Como se calcula:

Analizar, Estadística descriptiva, Frecuencias, seleccionamos PESO, deseleccionamos la


opción de MOSTRAR TABLAS DE FRECUENCIAS, ya que se trata de una variable numérica,
luego estadísticos y seleccionamos Desviación típica, varianza y Media de error estándar,
luego continuar y aceptar.
MEDIDAS DE POSICIÓN

- Percentiles: Si dividimos a todo el grupo en 100 partes entonces tenemos 99 cortes


- Cuartiles: Si dividimos a todo el grupo en 4 partes entonces tenemos 3 cortes
- Deciles: Si dividimos a todo el grupo en 10 partes entonces tenemos 9 cortes

Como se calcula:

Analizar, Estadística descriptiva, Frecuencias, seleccionamos TALLA, deseleccionamos la


opción de MOSTRAR TABLAS DE FRECUENCIAS, ya que se trata de una variable numérica,
luego estadísticos y seleccionamos los CUARTILES Q1, Q2 y Q3, podemos pedir los DECILES
para dividir en 10 grupos iguales, y también podemos seleccionar los PERCENTILES de
cualquier magnitud por ejemplo 23, AÑADIR, luego continuar y aceptar.
Los deciles son 10, 20, 30, 40, 50, 60, 70, 80 y 90, los cuartiles es el 25, 50 y 75 y finalmente
el percentil 23.

MEDIDAS DE FORMA

- Asimetría: Se mide con el coeficiente de Pearson; el valor del coeficiente es positivo,


cuando existe asimetría a la derecha o la cola está a la derecha y negativo cuando existe
asimetría a la izquierda o cola hacia la izquierda, si el valor es cero es una curva simétrica

- Apuntamiento o Curtosis: Se mide con el coeficiente de apuntamiento de curtosis; si el


valor es positivo entonces es una campana muy concentrada o leptocúrtica y si el valor
del coeficiente es negativo es aplanada o platicúrtica y si el valor es 0 entonces es una
campana ni muy elevada ni muy aplanada es decir mesocórtica.

Como se calcula:

Analizar, Estadística descriptiva, Frecuencias, seleccionamos IMC, deseleccionamos la


opción de MOSTRAR TABLAS DE FRECUENCIAS, ya que se trata de una variable numérica,
luego estadísticos y seleccionamos Asimetría y Curtosis, luego continuar y aceptar.
Se puede ver que los valores son positivos.

TABLA DE CONTINGENCIA (contingencia – asociación)

O tabla de doble entrada o tabla cruzada, análisis bi variado del análisis relacional:

Tiene 2 variables, por ejemplo: Fumar y Cáncer que son variables categóricas.

Da cáncer a aquellos que más fuman y como se demuestra esto es con la tabla de contingencia.

Analizar, estadísticas descriptivas y tabla de contingencia.

LAS CONSECUENCIAS SIEMPRE VAN EN LAS COLUMNAS (CANCER DE PULMÓN)

LAS VARIABLES INDENDIENTES VAN EN LAS FILAS (HABITOS DE FUMAR)

De 29 personas que tienen un desempeño laboral alto, 12 tienen de 0 a 2 inasistencias.

Estos 12 de las 29 personas hacen el 41.4%

CALCULAR Y RECODIFICAR VARIABLES (Peso Talla)

DEL PESO Y LA TALLA SE PUEDE CALCULAR EL INDICE DE MASA CORPORAL Y A PARTIR DE ESTE
VALOR SE CALCULA LOS VALORES U OBTENER EL ESTADO NUTRICIONAL DE LAS PERSONAS.

NOS VAMOS A TRANSFORMAR Y LUEGO CALCULAR VARIABLE y en variable de destino escribir:


IMC, y en expresión numérica se debe colocar la formula respectiva: Peso/(talla*talla) y luego
aceptar.

Luego se debe ir a transformar y la opción recodificar en distintas variables para hallar el ESTADO
NUTRICIONAL

Aceptar y veremos la columna NUTRICIONAL.

Luego nos vamos a vista de variables para dar los valores como sigue:

1: Desnutrido

2: Eutrófico
3: Sobrepeso

4: Obesidad

5: Obesidad mórbida

Ahora se puede encontrar las frecuencias para luego interpretar.

CHI CUADRADO Y COMO SE CALCULA (Chi Cuadrado 2 muestras independientes)

Se trabaja con variables categóricas nominales (dicotómicas y politómicas) y permite reconocer


la asociación.

Analizar, estadísticos descriptivos, tablas de contingencia, luego se asigna las variables a las filas
y columnas, se compara a través de las columnas por lo que es importante colocar en la
ubicación adecuada la variable en la columna y se expresa a través de los porcentajes, luego a
casillas y se selecciona en porcentaje columna, continuar, Estadístico se chequea el chi
cuadrado, continuar y aceptar. LAS FILAS SE UTILIZAN PARA HALLAR LAS FRECUENCIAS.

Al analizar las frecuencias, se puede definir que: ¿será que el género femenino tiene un bajo
rendimiento laboral? (62.3%), los datos tomados de esta tabla no son lo suficientemente
confiables, por lo que recurriremos a una prueba estadística que nos permita definir ello:

Recurriremos al chi cuadrado:

Tenemos el valor asignado al chi cuadrado y el P VALOR O DENOMINADO SIGNIFICANCIA


ASINTÓTICA (BILATERAL), este valor es la magnitud del error en caso de que aceptemos la
hipótesis de que el empleado de género femenino está asociado con el bajo nivel de rendimiento
laboral.

Para ello es importante definir el nivel de significancia o grado de error que estamos dispuestos
a aceptar como válida nuestra conclusión. Habitualmente este nivel de significancia o alfa (α) es
del 5% o 0.05, por lo que el valor arrojado está por debajo del 0.05, muy bajo que quiere decir
que estamos aceptando este error al aceptar la hipótesis y que estaríamos definiendo la
asociación entre el género y el rendimiento laboral.

TEST DE MCNEMAR (AntesDespues)

Identifica modificaciones de una variable categórica a través del tiempo.

Cuando se trata de dos variables (antes y después) en medio de ellos deberá haber 1 variable (si
hay una manipulación entonces se trata de un experimento, pero si se trata de un periodo de
observación en este caso se trata de un estudio operacional), por lo tanto, el test de McNemar
sirve tanto para estudios observacionales y experimentales y a la vez deberá ser LONGITUDINAL
o por lo menos debe tener dos medidas.

Para esto es necesario aplicar el ritual de la significancia estadística:

1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: (si es que no ha existido modificación)
H1: Hipótesis alterna o hipótesis del investigador: (qué quiere saber el investigador entre
el antes y el después, es que ha habido modificación)
2. Nivel de significancia: 5% ó 0.05
3. Estadístico de prueba: Test de McNemar
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.

Entonces vamos a Analizar, estadístico descriptivo, tablas cruzadas, en filas antes y en columnas
después, en estadísticos seleccionamos solo McNemar, continuar y en casillas seleccionamos en
porcentajes TOTAL, continuar y aceptar.

En la tabla podemos apreciar que hay personas que antes y después tienen depresión, pero
también hay que antes tenían depresión y después no o viceversa.

En la siguiente tabla, lo que nos interesa es el P VALOR o SIGNIFICANCIA EXACTA (BILATERAL),


que en este caso es de 0.424 y éste por encima del nivel de significancia (0.05), y si P VALOR
ESTA POR DEBAJO DE 0.05 ENTONCES RECHAZAMOS LA HIPÓTESIS NULA PARA QUEDARNOS
CON LA HIPÓTESIS DEL INVESTIGADOR.

TEST EXACTO DE FISHER (Fisher)

Test de probabilidad utilizado cuando las dos variables que participan en el análisis son fijas
(MARGINAL FIJAS), las distribuciones finales de estas 2 variables no se pueden modificar en este
caso son experimentales.

Analizar, Estadística descriptiva, tablas cruzadas, filas frejoles y columnas larvas y aceptar y se
tiene la tabla de contingencia, tenemos 18 frejoles de la variedad 1 y 16 variedad 2 y únicamente
20 larvas, además que los totales no deberán cambiar durante todo el estudio es decir que, si
tenemos 20 larvas, este 20 deberá ser hasta el final y así lo mismo es con los demás (a esto se
llama MARGINAL FIJO) lo único que puede cambiar son los valores del centro, pero los totales
no.

A esto se llama Fisher exacto, y los valores deben ser menores a 35.

Nos vamos a analizar, estadística descriptiva, tablas cruzadas, estadística, seleccionamos chi
cuadrado y saldrá la tabla en donde podremos encontrar estadística exacta de Fisher y veremos
el p valor o significancia bilateral que este caso será: 1.00 por lo que no es menor que 0.05.

T DE STUDENT PARA MUESTRAS INDEPENDIENTES (t student muestras independientes.sav)

Clásicamente, cuando queremos comparar 2 grupos y la variable que queremos comparar es


una variable numérica, pensamos en la T de student para muestras independientes (cuando se
trata de 2 grupos que no tienen ninguna relación entre ellos), por ejemplo, el peso del recién
nacido en varones y mujeres y la pregunta es: ¿será que el recién nacido varón tendrá el mismo
peso que las mujeres?, si no hay diferencia entonces no hay razón de investigar, pero si el
investigador piensa que hay diferencia entre los grupos, entonces se deberá de investigar, por
lo tanto:

1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: (que los dos grupos no son distintos, es decir
que son iguales, que son homogéneos)
H1: Hipótesis alterna o hipótesis del investigador: (qué quiere saber el investigador
piensa que hay diferencia a es diferente que b, o el grupo 1 es diferente que el 2)
2. Nivel de significancia: 5% ó 0.05
3. Estadístico de prueba: t de student para muestras independientes
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.

Analizar, comparar medias, t de student para muestras independientes, el peso en variables para
contrastar y el sexo en variables de agrupación.

En la tabla de resultado nos damos cuenta que la media es diferente entre varones y damas,
pero a nosotros lo que nos interesa saber si es significativa, por lo que nos vamos a la tabla de
prueba de t para muestras independientes, y en la columna t (valor del estadístico) se puede ver
el siguiente valor 2,431, pero actualmente este valor ya no nos sirve, lo que nos sirve es el P
VALOR (Significancia bilateral) que es la magnitud del error que nos da el siguiente valor 0,022,
por lo que P<0.05, entonces rechazamos la hipótesis nula y aceptamos la hipótesis del
investigador (de diferencias), entonces podremos decir que el peso de los RN mujeres es
diferente que el peso del RN varón.

T DE STUDENT PARA MUESTRAS RELACIONADAS (t student muestras relacionadas.sav)

Comparación entre 2 grupos numéricos y que pertenecen al mismo grupo, tenemos el peso de
mujeres embarazadas, y después de 3 meses después del parto, entonces de nuevo se vuelve a
pesar, por lo que podremos decir si hay INCREMENTO o DISMINUCIÓN entre este grupo, esto
significa de una HIPÓTESIS DE UNA SOLA COLA,

1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo:
H1: Hipótesis alterna o hipótesis del investigador: Busca saber si hay diferencia
(incremento gracias al embarazo)
2. Nivel de significancia: 5% ó 0.05
3. Estadístico de prueba: t de student para muestras relacionadas
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.

Analizar, comparar medias, prueba T para muestras relacionadas,


Luego aceptar.

La tabla resultante, comparamos las muestras y se ve que sí hay diferencia entre ambas por lo
que nos vamos a la tabla de muestras relacionadas y nos vamos a la columna t (estadístico t),
pero lo que más nos interesa es el P VALOR y tiene el siguiente VALOR 0,634, entonces
podremos decir que esta cifra está por encima del nivel de significancia (0.05), por lo que
aceptamos la hipótesis nula.

CORRELACION DE PEARSON

La asociación que trabajábamos con las variables categóricas, se trasladan a la correlación


cuando trabajamos con variables numéricas, de manera que la asociación y la correlación sigan
siendo lo mismo, lo común entre ambas es que tienen VARIABLES ALEATORIOS (es decir que su
distribución no la conocemos hasta la recolección de datos), en el ejemplo se ha recolectado la
hemoglobina de 90 mujeres durante la gestación y también se ha evaluado el peso de los Recién
Nacidos con la finalidad de que si el valor de la hemoglobina de la madre está relacionada con
el peso de su hijo ya que estamos determinando la validez a través de la CORRELACIÓN DE
PEARSON, pero también podemos esto categorizar para aplicar CHI CUADRADO (clasificando la
hemoglobina como normal y bajo y el peso como adecuado y bajo (ASOCIACIÓN)), Analizar,
Correlaciones, y Bivariadas, seleccionamos ambas variables, por defecto está seleccionado
Pearson, si queremos trabajar con datos ordinales se selecciona Tau-b Kendall y Spearman es
la versión no paramétrica de Pearson.

El índice de correlación es 0.979, pero la significancia (bilateral) es igual a 0.000 y es menor que
el nivel de significancia (0.05) por lo que rechazamos la hipótesis nula y aceptamos la hipótesis
del investigador.

ES BUENA, YA QUE LO QUE BUSCA EL INVESTIGADOR ES LA CORRELACIÓN ENTRE AMBAS


VARIABLES.

LA VALIDACIÓN SE DA CON EL INDICE DE PEARSON (cumplimiento de Indice de R y Rho) que en


este caso el valor es 0.979 y LA SIGNIFICANCIA (BILATERAL= 0.000)

Indices R y Rho Interpretación

0.00 – 0.20 Intima correlación

0.20 – 0.40 escasa correlación

0.40 – 0.60 moderada correlación

0.60 – 0.80 buena correlación

0.80 – 1.00 muy buena correlación

ANALISIS DE LA VARIANZA ANOVA

Cuando queremos comparar 2 grupos y las variables a contrastar es una variable numérica
utilizamos la T de student para muestras independientes, pero que pasaría si lo grupos que
comparamos es más de 2 en este caso utilizamos el Análisis de la Varianza con un Factor o
Análisis de la Varianza de una Vía.

Con el ejemplo: Analizar, comparar medias, Anova de un factor, la variable que vamos a
contrastar será el PESO y el factor será Procedencia, OPCIONES se selecciona los DESCRIPTIVOS.

Aceptar.
En el resultado se puede ver las medias de los pesos por ciudades, y se ve en la tabla de ANOVA
y que varía de un lugar a otro.

La pregunta es:

SI EL PESO PROMEDIO DIFIERE EN ESTAS 4 LOCALIDADES O SI EL PESO PROMEDIO ES EL


MISMO.

1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: HIPÓTESIS DE IGUALDAD.
H1: Hipótesis alterna o hipótesis del investigador: El investigador siempre busca
diferencias. HIPÓTESIS DE DIFERENCIAS.
2. Nivel de significancia: 5% o 0.05
3. Estadístico de prueba: Análisis de la varianza ANOVA
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.

La tabla de ANOVA tiene su estadístico (Columna F), pero lo importante es la SIGNIFICANCIA


ASINTÓTICA que en este caso es el 0.469 por lo que podemos apreciar que el P-VALOR es mayor
que 0.05 determinamos la hipótesis de Igualdad.

Si P VALOR hubiera sido menor, entonces determinaríamos que existe diferencia entre ciudades,
pero la pregunta es determinar cuál es esa diferencia entre ciudades (cuál es la diferencia entre
Arequipa y Tacna, Arequipa y Puno, etc…), para ello necesitamos el cálculo de POST HOC
debemos irnos:

Analizar, comparar medias, Anova de un factor, Post Hoc y elegimos TUKEY, Continuar y Aceptar
y vemos la siguiente tabla:
Podemos ver que, en la columna de la Significancia Asintótica, ninguna de los resultados es
mayor de 0.05. y en la siguiente tabla podemos ver que

Se puede ver que solo aparece una columna (la 1), la cual nos indica que no existe diferencia ya
que se encuentran en la misma columna, pero si se hubiera visto la columna 2 se podría ver la
diferencia significativa entre la columna 2 y la columna 1.

También se puede ver la significancia entre los grupos y que en este caso es de 0.451. significa
también que no existe diferencia entre grupos.

REGRESIÓN LINEAL SIMPLE

Se da cuando previamente se ha demostrado relación entre 2 variables, pero no solamente en


una relación aleatoria sino una relación causal, es que esta regresión corresponde a un MODELO
PREDICTIVO, mientras que una CORRELACION corresponde a una PRUEBA DE HIPÓTESIS, en el
ejemplo tenemos una variable Y (Rendimiento Académico) y X (Horas de estudio a la semana),
en este caso ya sabemos que existe relación entre ellos (a más horas de estudio mayor es el
rendimiento), entonces no vamos a realizar la PRUEBA DE HIPOTESIS, lo que vamos hacer es
construir un modelo para predecir el rendimiento académico en función al número de estudios
a la semana, suponiendo que el rendimiento académico depende únicamente de cuantas horas
una persona lo dedica al estudio una semana.

Analizar, Regresión y Lineales, en dependiente colocamos rendimiento académico y en


independientes horas de estudio a la semana y a ésta también podemos colocar otras variables
que influyan en el rendimiento académico.

En la Tabla Resumen del modelo podemos ver que en la columna R (R de Pearson) tenemos un
valor de 0.847 y el R cuadrado (columna) es de 0.718 por lo que, si sacamos un porcentaje,
estamos hablando de un 71.8% un valor muy alto para poder mencionar que: ¿es posible
construir un modelo de regresión a partir de estas 2 variables? (incluso el R cuadrado ajustado)
también arroja 70.8%. y la respuesta nos da ANOVA – Análisis de la Varianza (cuadro siguiente)
y al ver la Significancia (Sig) se puede ver que es de 0.000 y esta es menor a 0.05, por lo que SI
ES POSIBLE CONSTRUIR UN MODELO DE REGRESIÓN CON ESTAS 2 VARIABLES ANALIZADAS.
Por lo que la ecuación se da de la siguiente manera: 𝑌 = 𝑎 + 𝑏𝑋, por lo que deberemos de
reemplazar con los valores calculados en la tabla siguiente de coeficientes (a es la constante y
b es el coeficiente):

𝑌 = 5.728 + 0.582𝑋
Y si en esta tabla nos vamos a la columna (t – t de student) nos da la acertividad para la columna
de Significancia en donde podemos ver que ambos valores son menores que 0.05 por loq e tanto
la constante y el coeficiente para las horas de estudio a la semana, son significativos.

PRUEBA DE NORMALIDAD – KOLMOGOROV SMINORV

Cuando queremos comparar 2 grupos y éstos tienen distribución normal podemos construir los
diagramas de caja y bigotes en función al error típico de la media para los límites de la caja; si
la línea media de una caja se puede proyectas sobre el otro y éste se encuentra dentro de la caja
entonces hay igualdad, pero sí de ambos no están dentro, entonces son diferentes (PARA
AMBOS EXISTE SIMETRIA)

Pero qué pasa si una de las cajas es ASIMÉTRICA y a otra no.

Qué pasa si dejamos de extender las cajas ASIMÉTRICAS para llevarlos a un estado SIMÉTRICO,
estaríamos en la posición como el caso anterior.

LLEGAMOS A LA CONCLUSIÓN DE QUE PARA COMPARAR DOS GRUPOS LAS CAJAS DEBEN SER
SIMÉTRICAS ES DECIR DEBE HABER UNA DISTRIBUCIÓN NORMAL.
¿Cómo demostramos que existe DISTRIBUCIÓN NORMAL en los grupos de las VARIABLES?

Es utilizando la prueba de KOLMOGOROV – SMIRNOV

En el ejemplo: tenemos un conjunto de recién nacidos que pertenecen a 2 ciudades, por lo que
debemos determinar la NORMALIDAD DE UNA DISTRIBUCIÓN:

Analizar, Pruebas no paramétricas, Cuadro de diálogos antiguos, K-S de una muestra, luego
trasladamos la variable a analizar (PESO RN), dejar por defecto la elección y Aceptar.

1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: HIPÓTESIS DE HOMOGENEIDAD.
H1: Hipótesis alterna o hipótesis del investigador: HIPÓTESIS DE DIFERENCIAS.
2. Nivel de significancia: 5% o 0.05
3. Estadístico de prueba: Prueba de normalidad KOLMOGOROV SMIRNOV
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.

Vemos en la tabla de resultado lo siguiente:

Vemos que la Significancia Asintótica es menor que 0.05, por lo que rechazamos la nula y
aceptamos la alterna, es decir que hay DIFERENCIA ENTRE LA DISTRIBUCIÓN DE LA VARIABLE
ANALIZADA Y LA DISTRIBUCIÓN DE LA VARIABLE NORMAL, entonces no hay homogeneidad
entre ambas distribuciones.

Ahora analizaremos la normalidad para cada uno de los grupos, recordando que se tiene 2
grupos:

Datos, Segmentar Archivo, seleccionamos la opción de Organizar los resultados por Grupos y
seleccionamos procedencia y le damos Aceptar y veremos que en la MATRIZ DE DATOS HACE
MENCIÓN DE DIVIDO O SEMENTADO POR PROCEDENCIA;

Ahora nos vamos nuevamente a analizar la normalidad:


Analizar, pruebas no paramétricas, Cuadro de diálogos antiguos, K-S de 1 muestra y como ya
todo está configurado simplemente Aceptar.

Vemos que la NORMALIDAD SE HA EVALUADO POR GRUPOS:

Luego debemos medir para cada comparación la significancia Asintótica (bilateral) y comparar
con 0.05 por lo que en el primer gráfico no podemos rechazar la H. NULA en cambio en el
segundo gráfico SÍ RECHAZAMOS LA H. NULA.
Si ambas hubieran sido mayores a 0.05 entonces nos quedaríamos con la H. DE
HOMOGENEIDAD por lo que diríamos que LA DISTRIBUCIÓN DE LA VARIABLE ANALIZADA ES
IGUAL A LA DISTRIBUCION NORMAL Y POR TANTO DIREMOS QUE TIENEN NORMALIDAD Y SI
PODEMOS COMPARAR LOS 2 GRUPOS.

HOMOGENEIDAD DE VARIANZAS TEST DE LEVENE

Cuando queremos comparar grupos tenemos que asegurarnos que la variabilidad de un grupo
sea igual o por lo menos no distinta del otro grupo, ¿para qué?, para poder proyectar la línea
media de un grupo sobre el otro y en el caso de que esta proyección esté en el interior de la caja
lleguemos a la conclusión de que son iguales, o si la proyección está por fuera de la caja
lleguemos a la conclusión de que son diferentes.

Qué pasaría si la longitud de una de las cajas no es igual a la del grupo comparativo, veamos en
este caso se ha encogido (CASO 1), es menor, y la proyección de la línea media del primer grupo
está por fuera de la caja del segundo, aunque la proyección del segundo sobre el primero se ha
mantenido ¿qué ha sucedido?, es que la segunda caja o variable está más concentrada y por eso
su caja es de menor magnitud.

Veamos un segundo caso (CASO 2), cuando la caja se extiende por incremento de variabilidad,
entonces la proyección de la línea media sobre el primer grupo está fuera de la caja, pero por
haber proyectado la caja del segundo la línea media del primero está en su interior, en ambos
casos (caso 1 y caso 2) no podemos decidir si hay diferencias o no ¿por qué?, porque la
variabilidad de los 2 grupos es distinta (el tamaño de las cajas son distintas) para el caso 1 y 2.
Quiere decir que cuando queremos comparar 2 grupos, los tamaños de las cajas deben ser
iguales y esto expresado en términos de variabilidad significa que las varianzas sean iguales,
sean homogéneas también llamada como homogeneidad de varianzas o también
homocedasticidad.

Por lo que, para comparar la varianza de estos 2 grupos, nos vamos al SPSS:

Analizar, comparar medias, prueba de t para muestras independientes, en la variable a


contrastar el Peso del RN y en la variable de agrupación, la procedencia, definiendo grupos (1 y
2 por la procedencia que se ha colocado en la vista de variables), continuar y aceptar.

En la tabla resultante de la Prueba de muestras independientes se puede ver que existe una
columna de prueba de LEVENE de igualdad de varianzas y en su columna F (su estadístico) se ve
su valor de 0.03 y en el VALOR P (prueba de significancia) el valor de 0.955 y si nos vamos a la
siguiente descripción:

1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: HIPÓTESIS DE HOMOGENEIDAD.
H1: Hipótesis alterna o hipótesis del investigador: HIPÓTESIS DE DIFERENCIAS.
2. Nivel de significancia: 5% o 0.05
3. Estadístico de prueba: HOMOGENEIDAD de varianzas Test de LEVENE
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.

Por valor quiere decir que aceptamos la hipótesis nula y rechazamos la del investigador, ya que
0.955>0.05 por lo que se interpretará que las varianzas de estos 2 grupos son iguales y no
distintas que sería la hipótesis del investigador.

Entonces hay HOMOGENEIDAD de varianzas:


Pero qué hubiera pasado si PVALOR era menor que 0.05, se daría que habría diferencia de
varianzas y estaríamos en el siguiente caso (HETEROGENEIDAD):

En el siguiente gráfico, podemos ver que ésta se divide en 2 filas: una cuando se asume varianzas
iguales (Prueba Levene) y la otra cuando no se asumen varianzas iguales (t de student)

Si quisiéramos comparar el grupo 1 con el 3, nos vamos al SPSS:

Analizar, comparar medias, prueba de t para muestras independientes, y en definir grupos


colocamos en vez de 2 el 3 o el 4, pero que pasaría si queremos compara los 4 grupos al mismo
tiempo:

Analizar, comparar medias, ANOVA de un factor, en lista dependiente el PESO y en FACTOR la


Procedencia, y en opciones, prueba de homogeneidad de varianzas, continuar y Aceptar y
podemos ver en la tabla resultante la prueba de significancia de los 4 valores (para ello deberán
tener los 4 los valores llenos).

U DE MANN WITHNEY PARA VARIABLES ORDINALES

Cuando queremos comparar 2 grupos (hombres y mujeres) y la variable a comparar (variable


aleatoria) es una variable categórica utilizamos el Test de chi cuadrado de homogeneidad, pero
si esta variable que queremos comparar es una variable numérica utilizamos T de student para
muestras relacionadas, ahora qué prueba estadística utilizamos si la variable aleatoria o variable
a evaluar es una variable ORDINAL, en este caso tendremos que aplicar la prueba de U de Mann
Withney, tenemos un grupo de niños tanto de sexo femenino y masculino y en ellos se ha
evaluado el grado de Hipertrofia, se sospecha que la severidad de hipertrofia es distinta en
hombres y mujeres por lo tanto planteamos lo siguiente:

1. Formulación de la hipótesis:
H0: Hipótesis nula o hipótesis de trabajo: HIPÓTESIS DE HOMOGENEIDAD.
H1: Hipótesis alterna o hipótesis del investigador: HIPÓTESIS DE DIFERENCIAS.
2. Nivel de significancia: 5% o 0.05
3. Estadístico de prueba: U de Mann Withney
4. Estimación del p-valor:
5. Toma de decisión: SI p<0.05 entonces rechazamos la hipótesis nula.
Nos quedamos con la hipótesis del investigador.

En donde en la hipótesis del investigador hay diferencia entre el grado de hipertrofia en hombres
y mujeres y en la hipótesis nula se dirá que el grado de hipertrofia no es distinta entre hombres
y mujeres, por lo que se deberá trabajar con una variable de comparación o aleatoria que es
Ordinal (Leve, Moderado y severo).

Analizar, pruebas no paramétricas, cuadros de diálogos antiguos, 2 muestras independientes


(varones y mujeres son muestras independientes), grado de hipertrofia va a la lista a contrastar
variables y el Sexo irá a la variable de agrupación, en definir grupos se colocará 1 para varones
y 2 para mujeres

Luego Aceptar.

En los resultados, podremos ver que:

La prueba de Mann Withney arroga un P Valor de 0.001 y es menor que el grado de significancia
por lo que aceptamos la hipótesis del investigador y rechazamos la nula.
En la data no podemos confundir los datos del grado de hipertrofia, ya que se puede datos
numéricos y que se podría confundir con T de Student, pero en realidad no es ya que son
categóricas ordinal.

PRUEBA DE RANGOS DE WILCOXON

Tenemos un grupo de personas que tienen sobrepeso, se ha hecho una evaluación inicial y se
les ha incluido dentro de un programa, 3 meses después se ha hecho una evaluación del peso,
siendo que el peso es un valor numérico nos podemos ver tentados a realizar una prueba de T
para muestras relacionadas, pero la T es paramétrica (solamente se puede aplicar cuando existe
distribución normal), entonces antes de aplicar tenemos que demostrar si existe tal distribución,
pero la distribución normal no se prueba en la medida antes ni en la medida después si no en la
variable DIFERENCIA DE PESO (en este caso no existe) por lo que la vamos a calcular:

Transformar, calcular variable, variable destino: Diferencia, expresión numérica: PesoA-PesoD:

Aceptar y en nuestra matriz de datos se ha creado una nueva variable: Diferencia, ahora
analizaremos

Analizar, pruebas no paramétricas, cuadros de diálogos antiguos, prueba de K-S, y trasladamos


la variable Diferencia y seleccionamos Normal, Aceptar:

Por lo que al ver que P Valor es menor al nivel de significancia, por lo que podemos mencionar
que nos quedamos con la HIPOTESIS DE LA DIFERENCIA Y RECHAZAMOS LA HOMOGENEA, por
lo tanto, llegamos a la conclusión que no existe NORMALIDAD (La distribución de la variable es
diferente a la normal), por lo que no se puede aplicar una PRUEBA PARAMÉTRICA SINO NO
PARAMÉTRICA, y aquí es donde entra la prueba de Wilcoxon que es la comparación de la T de
Student para muestras independientes.

Analizar, pruebas no paramétricas, cuadros de diálogos antiguos, 2 muestras relacionadas,


trasladamos las 2 variables y por defecto esta seleccionado Wilcoxon:

Aceptar y vemos la tabla resultante:

Vous aimerez peut-être aussi