Académique Documents
Professionnel Documents
Culture Documents
Supondremos que el Nivel de Significacin es predeterminado y que de las poblaciones tomaremos muestras de
tamaos conocidos n1 y n2 , respectivamente asumiendo normalidad de datos, i.e. Yi ~ N ( i , i2 ) i = 1,2 , para
simplificar el anlisis.
1.2 Caso de Muestras Relacionadas (Antes-Despus)
Este caso se presenta cuando por cuestiones de control, es necesario trabajar con los mismos sujetos en ambas
muestras (por ejemplo, en estudios con Test-Retest, o Antes-Despus) o con sujetos "emparejados" (como en el
caso de estudios con Gemelos). Cada sujeto proporciona dos valores: uno para Y1 ("Antes" o "Test") y otro para
Y2 ("Despus" o "Retest").
n1 = n2 = n , donde n es el nmero de casos vlidos en el estudio y la hiptesis nula H0 es la de no diferencia
entre el "antes" y el "despus", esto es H 0 : 1 = 2
El estadstico de contraste para H0 es t =
D =Y1 Y 2
D
, donde D = Y1 Y2 es la diferencia "antes"-"despus",
SD
n
es la media de esta diferencia y S D es su correspondiente desviacin estndar. S D puede ser
En realidad esta prueba es una adaptacin de la prueba sobre la media de una poblacin, pues si
D = (Y1 Y2 ) , entonces ya sabemos que D = ( 1 2 ) y por tanto H 0 : 1 = 2 equivale a H 0 : D = 0 .
Si H 0 es verdadera, el estadstico t =
n
La ventaja de esta prueba es que elimina otras fuentes de diferencias entre casos, ajenas al Factor bajo estudio.
La regin crtica o zona de rechazo de H 0 , depende de cmo sea H 1
Hiptesis Nula
H 0 : 1 = 2
t1 y t1 / 2
D
tiene distribucin t-Student con k=(n-1) grados de libertad.
SD
Hiptesis Alterna
Rechazar H 0 si
Tipo de contraste
H 1 : 1 > 2
t > t1
Unilateral derecho
H 1 : 1 < 2
t < t1
Unilateral izquierdo
| t |> t1 / 2
H 1 : 1 2
percentiles 1 y 1 / 2 de la tabla t(k=n-1)
Bilateral
Estadstico de contraste F =
S12
, donde S i2 es la varianza de la muestra tomada de la poblacin
2
S2
N ( i , i2 ) i = 1,2
H 0 : 12 = 22 verdadera F =
2
1
2
2
S
~ F ( n1 1, n 2 1)
S
Hiptesis Nula
Hiptesis Alterna
Rechazar H 0 si
Tipo de contraste
H 0 : 12 = 22
H 1 : 12 22
F > F1 / 2 o F < F / 2
Bilateral
El estadstico de contraste es t =
(Y 1 Y 2 )
S 2p
n1
S p2
(n1 1) S12 + (n 2 1) S 22
donde S =
.
(n1 + n 2 2)
2
p
n2
Hiptesis Nula
H 0 : 1 = 2
t1 y t1 / 2
Hiptesis Alterna
Rechazar H 0 si
Tipo de contraste
H 1 : 1 > 2
t > t1
Unilateral derecho
H 1 : 1 < 2
t < t1
Unilateral izquierdo
| t |> t1 / 2
H 1 : 1 2
percentiles 1 y 1 / 2 de la tabla t ( k = n1 + n2 2)
Bilateral
2
2
Como las varianzas poblacionales son diferentes, no podemos combinar las varianzas muestrales S1 y S en
una varianza ponderada y debemos mantenerlas separadas por lo que el estadstico de contrastes es de la forma
t=
(Y 1 Y 2 )
S12 S 22
+
n1 n2
El problema es que la distribucin de este estadstico t no es exactamente la t de Student y hay dos valores para
los grados de libertad: ( n1 1) y ( n2 1) , de modo que se necesita una solucin de compromiso
En la metodologa de Welch que usa SPSS, se calcula un promedio ponderado k de los grados de
libertad ( n1 1) y ( n2 1) , usando la frmula
2
S12 S 22
+
n1 n 2
k=
2
2
S12
S 22
n1 + n2
n1 1
n2 1
Con este valor de k (redondeado) se va a la tabla t-Student de acuerdo al nivel de significacin y el tipo de
hiptesis alterna H 1 uni o bilateral
Hiptesis Nula
Hiptesis Alterna
Rechazar H 0 si
Tipo de contraste
H 1 : 1 > 2
t > t1
Unilateral derecho
H 1 : 1 < 2
t < t1
Unilateral izquierdo
H 0 : 1 = 2
t1 y t1 / 2
| t |> t1 / 2
H 1 : 1 2
Bilateral
percentiles 1 y 1 / 2 de la tabla t (k ) con k grados de libertad
( 1 2 )
Observaciones:
Los test anteriores se pueden aplicar al caso ms general H0:1-2=d0, donde d0 es un valor predeterminado.
Slo cambia el numerador del estadstico t que es ahora igual a [ (Y 1 Y 2 ) d 0 ]
Es recomendable tener tamaos de muestra iguales. Esta precaucin es importante sobre todo en el caso de
heterogeneidad de varianzas.
4
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Hemos asumido normalidad de datos. Pero se ha probado que las pruebas t-Student pueden aplicarse incluso si
no hay normalidad; basta con que las distribuciones de las respuestas sean simtricas. En este caso, es de suma
importancia que n1 = n2.
2. Contrastes acerca de la Diferencia de Proporciones
2.1 Contexto General
Tenemos una caracterstica cualitativa A que se presenta en una Poblacin 1 en proporcin P1 y en otra Poblacin
2 en proporcin P2. Deseamos contrastar la hiptesis H0:P1=P2 a partir de respectivas muestras de tamaos n1 y n2,
apropiadamente grandes y a un nivel de significacin predeterminado.
2.2 Caso de Muestras Independientes
Este caso se presenta cuando tenemos dos poblaciones diferentes e independientes y queremos ver si son
equivalentes (u homogneas) en relacin a una caracterstica cualitativa A. Para ello tomamos muestras grandes e
independientes una de la otra, de las respectivas poblaciones. La hiptesis de equivalencia equivale a H 0 : P1 = P2
El estadstico de contraste es Z =
( p1 p 2 )
donde p =
pq pq
+
n1
n2
n1 p 1 + n 2 p 2
n1 + n 2
y q = 1 p , siendo p j la proporcin
H 0 : P1 = P2
Z1 y Z1 / 2
Hiptesis Alterna
Rechazar H 0 si
Tipo de contraste
H 1 : P1 > P2
Z > Z1
Unilateral derecho
H 1 : P1 < P2
Z < Z 1
Unilateral izquierdo
| Z |> Z1 / 2
H 1 : P1 P2
percentiles 1 y 1 / 2 de la tabla N ( 0,1)
Bilateral
Este test se usa con tamaos de muestra de 20 casos como mnimo, por poblacin.
El contraste puede modificarse para cubrir la hiptesis general H 0 : P1 P2 = D0 , donde D0 es una cantidad
predeterminada. El estadstico Z cambia a Z =
( p 1 p 2 ) D0
p1 q 1
p2 q2
+
n1
n2
proporcin promedio, pues sta no tiene sentido en este caso.
Sin A
a
c
(a+c)
H 0 : P1 = P2
Z1 y Z1 / 2
Total
(a+b)
(c+d)
n
(d a)
y la Regla de Decisin depende de la forma de H 1 , segn:
(d + a)
Hiptesis Nula
Con A
b
d
(b+d)
Hiptesis Alterna
Rechazar H 0 si
Tipo de contraste
H 1 : P1 > P2
Z > Z1
Unilateral derecho
H 1 : P1 < P2
Z < Z 1
Unilateral izquierdo
| Z |> Z1 / 2
H 1 : P1 P2
percentiles 1 y 1 / 2 de la tabla N ( 0,1)
Bilateral
Este test se usa si (a+d) > 10, en caso contrario no es fiable y hay que aplicar otra prueba, llamada Prueba
Exacta de Fisher.
Esta prueba tambin permite comparar proporciones de dos caractersticas cualitativas diferentes pero medidas
en los mismos sujetos.
(O E ) 2
E ,que mide la discrepancia entre H 0 y los datos observados.
Se rechazar H 0 : P1 = P2 = ... = Pk si 2 =
(O E ) 2
> 12 donde 12 es el percentil
E
de la Tabla
2 con (k-1)grados de libertad. Si se rechaza H 0 , luego se aplica contrastes por pares para identificar las
6
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
poblaciones diferentes. En este caso hay que tener cuidado de la capitalizacin del azar: haciendo muchos
contrastes aumenta la probabilidad de cometer al menos un error entre estos contrastes.
Con SPSS la metodologa es exactamente igual a la aplicada en la comparacin de dos proporciones para muestras
independientes.
Esta prueba asume muestras grandes pues se apoya en la aproximacin de la distribucin de p usando la
distribucin normal. Una regla es que no debe aplicarse el contraste 2 si ms del 20% de las celdas o casillas
tienen una frecuencia esperada Eij menor que 5. En el caso de k = 2 poblaciones, no se debe usar si n.. < 20
o si siendo n.. < 40 , alguna Eij es menor que 5.
SPSS calcula el % de celdas con frecuencia esperada pequea (Eij<5) y nos los proporciona, como precaucin
por si este porcentaje pasa del 20% del total de celdas. En este caso hay que usar la significacin exacta.
Total
ni
Media
Varianza
Datos
Y11 Y12 ... Y 1 j ... Y 1 n 1
Y1.
n1
Y1
S12
Y2.
n2
Y2
S 22
Yi.
ni
Yi
S i2
Yk .
nk
Yk
S k2
Y..
Y ..
S2
Total
Donde:
ni
ni
S i2 = Varianza de la muestra #i, Y.. = Yij = Suma de valores en todas las muestras ,
i =1 j =1
N = ni = Tamao global de muestra, Y.. = Media global y S 2 = Varianza global. En este contexto:
i =1
(Y
ij
(Y
ij
La cantidad
(Y
Y.. ) 2 se conoce como la Variabilidad entre sujetos o Entre muestras (Between groups
en SPSS) o tambin como la Suma de Cuadrados entre de muestras. Mide las diferencias entre sujetos que
se deben a que provienen de poblaciones distintas o de tratamientos/niveles distintos en el factor bajo
estudio. Se denotar SCTR
La cantidad
(Y
ij
en SPSS) o tambin Suma de Cuadrados dentro de muestras. Mide las diferencias entre casos dentro de
cada muestra o sea es la variabilidad debida al azar y no al factor bajo estudio. Se denotar SCE.
Si H 0 : 1 = 2 = ... = k es cierta, las diferencias entre medias Yi se deben slo al azar y ambas sumas de
cuadrados mediran lo mismo: el efecto del azar.
La varianza por tratamiento o Cuadrado medio entre tratamientos (Between groups) denotada CMTR se define
como CMTR = SCTR /( k 1)
La varianza del azar o Cuadrado Medio Dentro de Muestras o Residual (Within Groups) denotada CME se
define como CME = SCE /( N k ) y en verdad es un promedio ponderado de las varianza muestrales S i2 pues
k
CME =
(n
i =1
k
1) S i2
(n
1)
SCE
N k
i =1
Si H 0 : 1 = 2 = ... = k es cierta, las diferencias entre medias Yi se deben slo al azar y ambos cuadrados
medios mediran lo mismo: la varianza del azar 2
Y debieran ser iguales.
Por lo anterior, un estadstico apropiado para contrastar H 0 : 1 = 2 = ... = k es la variable F de Fisher, dada
por F = CMTR / CME : Para ver si se rechaza H 0 o no, se compara F con el percentil F1 de la distribucin F
de Fisher con ( k 1) y ( N k ) grados de libertad:
Si F > F1 se rechaza H 0 : 1 = 2 = ... = k y se admite que al menos dos medias poblacionales son diferentes.
Los pasos anteriores se presentan en una Tabla de Anlisis de Varianza de la forma:
8
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Anlisis de Varianza de un Factor (One Way ANOVA)
Sig.
Suma de
Grados de
Variabilidad
Media cuadrtica
F de Fisher
(o F1 )
Cuadrados
libertad
Del Factor o
CMTR = SCTR /( k 1) F = CMTR / CME
SCTR
k 1
Entre Grupos
Del Error o
CME = SCE /( N k )
Dentro de
SCE
N k
Grupos
Total
SCT
N 1
4.2 Contrastes Especficos.
Comparaciones Planeadas o Ad Hoc.
En este caso, antes de tomar las muestras haba hiptesis especficas que indicaban las poblaciones que eran
diferentes, esto es, no haba intencin de comparar todos los pares posibles, sino algunos casos especficos. Esto se
puede hacer con la Prueba t-Student modificada.
Para comparar las Poblaciones #s y #m ( H 0 : s = m ):
Se calcula t =
Y s Y m
que se compara con un valor tabular de la distribucin t de Student, segn sea H1
CME CME
+
ns
nm
Hiptesis
Nula
Hiptesis
Alterna
H1 : s > m
H 0 : s = m
Rechazar H 0
si
t > t1
Tipo de contraste
H1 : s < m
t < t1
Unilateral derecho
Unilateral
izquierdo
H1 : s m
t > t1 / 2
Bilateral
t1 y t1 / 2 percentiles 1 y 1 / 2 de la tabla t ( N k )
Aqu t1 t1 / 2 son los respectivos percentiles 1 1 / 2 de la tabla t-Student con (N-k) grados de
libertad (o sea con los grados de libertad del CME).
Comparaciones No Planeadas o Post Hoc.
En este caso, antes de tomar las muestras no se tena hiptesis sobre cules poblaciones diferan, y se deben comparar todos los pares posibles, porque previamente no haba idea de dnde se encontrara la diferencia de resultar
significativa la Prueba F del Anlisis de Varianza. Para situaciones como esta, hay varias alternativas, pero la ms
conservadora y estricta es la Prueba de Scheffe que consiste en:
a) Para cada par H 0 : s = m , formar el estadstico Fsm =
nn
(Y s Y m ) 2
s m
CME
n s + nm
9
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
denomina Sig.que es la base para rechazar o aceptar H0, donde el sistema es el de siempre, comparar Sig.
con el nivel predeterminado
Finalmente SPSS muestra el Contraste de Scheffe o contrastes t-Student segn sea el caso y se haya pedido,
para hacer los contrastes especficos de haber lugar para ello.
Si se solicita, SPSS muestra el Test de Levene de homogeneidad de varianzas que sirve para verificar si este
supuesto clave se cumple o no y grficos de medias para inspeccionar visualmente las diferencias.
Sobre los Supuestos. Ya se mencion que estamos asumiendo normalidad, independencia y homogeneidad de
varianzas. Estos supuestos no siempre se cumplen y es necesario informarse de las consecuencias:
derados o controlados).
Por lo general, los niveles del factor son escogidos y predeterminados por el experimentador. En este caso los
coeficientes i son parmetros fijos que miden los diferentes efectos. Pero existen casos donde los Niveles
posibles son tan numerosos, que el experimentador los selecciona al azar, como una muestra representativa de
los distintos niveles que se podra aplicar y se llama un modelo de efectos aleatorios.
10
SCTR
y es la proporcin de varianza total generada por las poblaciones. Se interpreta
SCT
anlogamente a como se interpreta el R 2 , por ejemplo un R2 >0.25 se considera grande
Se define como
Coeficiente Eta (
)
Se define como =
SCTR
y es la correlacin tipo Pearson entre la variable respuesta Y y la
SCT
variable cualitativa X=Poblacin, con k categoras o valores. Se le aplica el Criterio de Cohen para
correlaciones. As, por ejemplo, un > 0.5 se considera grande.
5. Anlisis de Varianza con Dos Factores o ANOVA TWO WAY
5.1 Utilidad.
Permite estudiar el efecto de dos factores a la vez: Factor A (filas) con i = 1,2,...,a niveles, y Factor B (columnas)
con j = 1,2,...,b niveles, que son aplicados simultneamente a las unidades experimentales. Cada combinacin AiBj
de niveles o tratamientos se aplica a n unidades. El tamao global de muestra es N=n
a
b. Esta estrategia permite
estudiar los efectos de A, de B y sobre todo la interaccin entre A y B, es decir un efecto especial que se
presenta debido a la combinacin de los factores. Esta es la utilidad bsica de este diseo.
Si hacemos una tabla con a filas y b columnas, cada celdilla representa una combinacin de tratamientos de A y
de B que al ser aplicada, genera una poblacin cuya media podemos denotar mediante ij = Media de la poblacin
cuando se aplica el nivel #i del Factor A y el Nivel #j del Factor B.
Por ejemplo, para un factorial con a=2 y b=4, podramos representar las 2x4=8 subpoblaciones mediante 8 medias:
Factor A
Nivel A1
Nivel A2
Efecto de B
Nivel B1
11
21
1
Factor B
Nivel B2
Nivel B3
12
22
2
13
23
3
Nivel B4
Efecto de A
14
24
4
1
2
si las medias de las filas son iguales, o sea contrastar H0: 1 = 2 Este efecto se llama Efecto principal de A.
El Efecto de B, obtenido promediando a travs de los niveles del Factor A, y que es representado por los
promedios de las columnas 1 , 2 , 3 y 4 . Una prueba para este efecto consiste en ver si las medias de las
columnas son iguales, o sea contrastar H0: 1 = 2 = 3 = 4 Este efecto se llama Efecto principal de B.
La Interaccin de A y B ocurre cuando el efecto de un factor no es el mismo a todos los niveles del otro
factor. Es el efecto especial que se presenta debido a la combinacin de los factores, por ejemplo, si tenemos
que las diferencias ( 11 - 21 ), ( 12 - 22 ), ( 13 - 23 ), etc. no son todas iguales, diremos que hay interaccin entre
A y B.
5.2 Elementos y Metodologa.
Sea Yijk el puntaje de obtenido al aplicar el i-simo nivel de A y el j-simo nivel de B en la unidad experimental k
(i=1,2,...,a; j=1,2,...,b y k=1,2,.. ..,n).
11
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Los supuestos son los mismos del anlisis con un factor, esto es, asumimos normalidad de datos, independencia y
varianzas homogneas.
En este diseo, al igual que en el caso de un Factor, hay casos de Efectos Fijos, de Efectos Aleatorios y modelos
Mixtos. El caso ms frecuente es el de Efectos Fijos y es el que desarrollaremos primero.
Modelo de Efectos Fijos
El modelo lineal es Yijk= + i + j + (
)ij + ijk para i=1, 2,...,a; j=1,2,...,b; k=1,2,...,n.
es una media general;
i es efecto del Nivel i del Factor A;
j es el efecto del Nivel j del Factor B;
()ij es el efecto de la Interaccin entre los niveles;
ijk es un residuo o error aleatorio
Como en el caso de un solo factor, la suma de cuadrados total SCT se divide ahora en cuatro componentes : Suma
de Cuadrados de A (SCA), Suma de Cuadrados de B (SCB), Suma de Cuadrados de la Interaccin (SCAB) y
Suma de Cuadrados del Error (SCE), de modo que SCT = SCA + SCB + SCAB + SCE
Como en el caso ONE-WAY, se calculan los Cuadrados Medios dividiendo las respectivas Sumas de Cuadrados
entre los respectivos Grados de Libertad. Y tambin los resultados se presentan en una Tabla de Anlisis de
Varianza de Dos Factores (Two Way ANOVA).
ANALISIS DE VARIANZA (DOS FACTORES o TWO WAY ANOVA)
Fuente de
variacin
Grados de
Libertad
Suma de
Cuadrados
Cuadrado
Medio
F de
Fisher
Factor A
a-1
SCA
CMA=SCA/(a-1)
FA=CMA/CME
Factor B
b-1
SCB
CMB=SCB/(b-1)
FB=CMB/CME
Interaccin A*B
(a-1)(b-1)
SCAB
CMAB=SCAB/(a-1)(b-1)
FAB=CMAB/CME
Error
ab(n-1)
SCE
CME=SCE/ab(n-1)
Total
abn-1
SCT
Sig.
de F
Y ij Y i ' j '
, donde CME es el Cuadrado Medio del Error (que SPSS llama Error Mean
CME CME
+
nij
ni ' j '
Square). El valor de t se compara con un valor tabular de la distribucin t de Student con los grados de libertad
del Error (que SPSS llama Error df), segn sea H1:
H 0 : ij = i ' j '
t > t1
Unilateral derecho
t < t1
Unilateral izquierdo
H 1 : ij i ' j '
| t |> t1 / 2
Bilateral
t1 y t1 / 2 percentiles 1 y 1 / 2 de la tabla t ( df
del
12
Error )
Aqu t1 t1 / 2 son los respectivos percentiles 1 1 / 2 de la tabla t-Student con los grados de libertad
del CME ab(n-1).
Solucin con SPSS
Aplicando el procedimiento General Linear Model Univariate de SPSS e indicando la variable dependiente y los
factores SPSS muestra un cuadro llamado Tests of Between-Subjects Effects, donde presenta los diferentes Fs y
su significacin. Se evala la significacin de cada factor por separado y tambin la interaccin. Adems se reporta
el coeficiente R2 (Squared) que est entre 0 y 1, cuanto ms cercano a 1 es, ms fuerte es el efecto de los factores.
Para interpretar cmo se dan los efectos, hay que mirar el cuadro adjunto de estadsticas (medias) y algn grfico
de medias que aclare los resultados.
Observaciones:
Los Supuestos son los mismos del ANOVA ONE WAY y las recomendaciones son idnticas.
Si los tamaos de muestra son distintos, no es posible separar los Efectos Principales de la Interaccin de modo
nico. Este caso requiere tcnicas especiales y la ayuda de un especialista.
Modelo de Efectos Aleatorios
Aunque la ecuacin es la misma del modelo de efectos fijos, en el Modelo de Efectos Aleatorios: i , j y ()ij
son variables aleatorias. Las Sumas de Cuadrados y los Cuadrados Medios son iguales
Modelo de Mixto
En el Modelo de Mixto: A es Fijo y B es Aleatorio. Las Sumas de Cuadrados y los Cuadrados Medios son iguales
Tanto en el modelo de efectos aleatorios como en el mixto, el procedimiento con SPSS no cambia, basta
indicar al programa cul factor es fijo o aletorio.
5.3 Tamao del efecto: Coeficiente Eta
El tamao del efecto se mide anlogamente a como se hace en el ANOVA One way con el Coeficiente Eta2 (
2)
SCTR
y es la proporcin de varianza total generada por los factore. Se interpreta anlogamente a como se
SCT
interpreta el R 2 , por ejemplo un R2 >0.25 se considera grande
2 =
Coeficiente Eta (
)
Se define como =
SCTR
y es la correlacin tipo Pearson entre la variable respuesta Y y los
SCT
factores. Se le aplica el Criterio de Cohen para correlaciones. As, por ejemplo, un > 0.5 se considera grande.
6. Contrastes no paramtricos
6.1 Uso
Cuando no se puede asumir normalidad de datos por asimetra extrema o por ser las variables respuesta no
cuantitativas.
Por lo general para cada contraste paramtrico de los estudiados hasta ahora, hay un equivalente no paramtrico
que es alternativo pero menos potente: Para un mismo tamao de muestra n y un mismo nivel , el contraste no
paramtrico tiene menor probabilidad de detectar una H1 verdadera.
13
Uso
Alternativa a la prueba t-Student para dos muestras relacionadas
Fundamento
Si X e Y denotan las dos variables relacionadas, la hiptesis a probar es H0: P( X < Y ) = P( X > Y ). Esta hiptesis
equivale a la de similar posicin central de las respectivas distribuciones y por comodidad, la representaremos
como H0: MeX = MeY donde Me representa la Mediana de la respectiva distribucin.
Si H0 es verdadera y formamos las diferencias di=Xi-Yi, al ordenarlas esperamos que el nmero de diferencias
positivas sea igual al nmero de diferencias negativas y que el nmero de diferencias grandes y negativas sea igual
al nmero de diferencias grandes y positivas. Por tanto, si encontramos que existen pocas diferencias de un signo
dado y que la suma de los rangos de estas diferencias es pequea, entonces tenemos evidencia de que H0 no se
cumple y podemos rechazarla. El estadstico de contraste se llama T de Wilcoxon.
Metodologa con SPSS
Para someter a prueba H0, examinar la significacin verdadera en el cuadro Test statistics (SPSS hace contraste a
dos colas) y de resultar rechazada H0, examinar el cuadro Descriptive Statistics para ver si se cumple su H1
Si n es grande ( n > 27 en este test) probablemente SPSS muestre la significacin aproximada para n grande, que
llama Asymptotic (asinttica), pues muchas veces la significacin exacta supera la memoria del computador.
6.3 Prueba U De Mann-Whitney.
Uso
Alternativa a la prueba t-Student para muestras independientes
Fundamento
Si X e Y denotan la variable respuesta en las respectivas muestras, la hiptesis a probar es H0:P(X < Y) =
P(X >Y). Esta hiptesis equivale a la de similar posicin central de las distribuciones y por comodidad, la
representaremos como H0: MeX = MeY.
Si H0 es cierta, al juntar muestras es de esperar que las puntuaciones X e Y se intercalen. Si una de las muestras
ocupa consistentemente lugares bajos, pensaremos que H0 no es cierta. Como no tiene sentido usar directamente
las puntuaciones originales, las pasamos a rangos para el anlisis. El estadstico de contraste se llama U de Man
Whitney
Metodologa con SPSS
Para someter a prueba H0 hay que examinar la significacin verdadera en el cuadro Test statistics (SPSS hace
contraste a dos colas) y de resultar rechazada H0, examinar el cuadro Descriptive Statistics para ver si se
cumple su H1. Si n es grande (n > 40 en este test) probablemente SPSS muestre la significacin aproximada
para n grande, que l llama Asymptotic (asinttica), pues muchas veces la significacin exacta supera la
memoria del computador.
6.4 Prueba H de Kruskal-Wallis (Anova No Parametrico).
Uso
Equivalente no paramtrico del ANOVA One Way por falta de normalidad por asimetra extrema o varianzas
heterogneas. La hiptesis es la de igual tendencia central en k poblaciones, y se quiere contrastar H0 a partir de k
muestras independientes.
Fundamento
Al juntar muestras y ordenar por rangos, si H0 es cierta se espera que las muestras se intercalen o se distribuyan
homogneamente en los rangos. Si alguna muestra ocupa rangos extremos, hay indicios de la falsedad de la
hiptesis. Por comodidad escribiremos H0 como H0:Me1 = Me2 = ... =Mek
Metodologa en SPSS
Para contrastar H0:Me1 = Me2 = ... =Mek basta examinar la significacin en el cuadro Test statistics (SPSS presenta
significacin exacta y asinttica si el tamao global de muestra es grande y en este caso usar la exacta) para ver si
se rechaza H0 o no.
Este contraste se apoya en la aproximacin de la distribucin binomial a la normal, por lo que slo debe usarse si
ni 5. En caso contrario hay que usar pruebas exactas.
14
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Como en el ANOVA One-Way, se trata de una prueba de descarte. De ser significativa, hay que ubicar las
diferencias usando Mann-Whitney.
6.5 Contraste de Normalidad
Uso
Para ver si una muestra de datos proviene de una distribucin normal
Fundamento
El contraste ms aplicado es el Test de Kolmogorov y Smirnov, que se apoya en la comparacin de la distribucin
acumulativa de la variable de la muestra versus la distribucin acumulativa de una distribucin normal que tenga la
misma media y varianza que la muestra. Este contraste asume muestras grandes (n > 50 y de preferencia alrededor
de 100 casos), en caso contrario, se aplica la variante de Saphiro y Wilk.
En todos los casos H0 es H0:La distribucin en Normal.
El contraste de Normalidad en SPSS
Se encuentra en dos mdulos de SPSS: en el Nonparametric Test, como procedimiento One Sample Kolmogorov
Smirnov y en el mdulo Descriptive Statistics, como opcin del procedimiento Explore, que adems proporciona
pruebas grficas de normalidad. Este segundo mdulo es preferible por ser ms completo. Si se rechaza H0 se
concluye que no hay normalidad. Esta prueba es bastante sensible y compara contra una distribucin exactamente normal, algo ideal. Por eso, con muestras grandes de todos modos saldr significativo.
Pruebas grficas de normalidad
Se usan para chequear a ojo si habra falta de normalidad extrema, pues los procedimientos paramtricos como
pruebas t-Student o ANOVA pueden aplicarse cuando la falta de normalidad no sea extrema.
Histograma de frecuencias: Si es marcadamente asimtrico hay razn para sospechar falta de normalidad.
Diagrama de Percentiles (Q-Q Plot en SPSS) donde en el eje horizontal van los percentiles de la muestra y en el
eje vertical van los percentiles de la distribucin normal Z obtenida una normal de misma media y desviacin
estndar que la muestra. Si hay normalidad los puntos deben caer en lnea recta o siguiendo la recta, con
algunos puntos arriba y otros debajo de la recta. En caso contrario no hay normalidad.
Pruebas descriptivas de normalidad
Usan los coeficientes de asimetra y de curtosis, y sirven ms bien para ver si la falta de normalidad es severa:
Si la asimetra (en valor absoluto) pasa de 3, hay asimetra severa (y por tanto no hay normalidad)
Si la curtosis (en valor absoluto) pasa de 10, hay curtosis severa (y por tanto no hay normalidad).
Si se compara dos o ms grupos, lo mejor es hacer pruebas de normalidad dentro de cada grupo por
separado y no en global.
7. Anlisis Factorial
Se usa en Psicometra como una herramienta para verificar la validez conceptual o validez de constructo de una
prueba psicomtrica, entendiendo constructo como un concepto no observable pero s inferible a travs de de la
conducta, se trata de una definicin terica de determinado rasgo psicolgico. Para registrar el grado de presencia
del constructo en una persona podemos hacer preguntas a la persona e inferir de sus respuestas la magnitud del
constructo en ella. Esta ltima alternativa es lo que se llama definicin operacional del constructo y que se usa
en Psicometra.
Una Prueba psicomtrica o Test es un conjunto de preguntas organizadas y con opciones de respuesta
predefinidas, construida a partir de un anlisis terico y tambin de contenido. Las preguntas o tems son
manifestaciones del constructo
En Estadstica:
El constructo se llama Variable latente: una variable que es no observable directamente.
Las preguntas o Items que usamos para registrar el constructo, se llaman Variables Manifiestas: variables
observables o registrables que se asumen como manifestaciones de la variable latente
15
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Con varias preguntas, para tener una sola medida del constructo se suele sumar o promediar las puntuaciones de
las respuestas y en este caso se dice que el test es de tems sumables. Lo anterior slo tiene sentido o validez si,
en efecto, las preguntas miden fundamentalmente el mismo constructo o rasgo. En caso contrario no tiene sentido
la suma.
7.1 Modelo de Anlisis Factorial
Variables:
Los rasgos psicolgicos que forman el constructo son las Dimensiones o Factores del Test y los tems asociados
a estos rasgos.
Los tems del test, que s son observables, son manifestaciones de los factores o dimensiones del test. Los tems
son variables dependientes o causadas por los Factores
Ecuaciones:
Tenemos un test con p preguntas o tems, cuyas respuestas se codifican generando p variables cuantitativas:
X 1 , X 2 ,..., X p
En el test hay m dimensiones o factores F1 , F2 ,..., Fm (pueden ser m reas o aspectos de un mismo rasgo o m
rasgos distintos) que generan las respuestas a las preguntas de modo que hay proporcionalidad entre la
magnitud de la dimensin y el valor de la variable (la magnitud de la respuesta).
Cada tem o variable X i responde proporcional y principalmente a alguno de los m factores F j
X i = lij F j + i
i = 1,2,..., p
j =1
Las ecuaciones representan matemticamente las relaciones tericas entre rasgos (las dimensiones o reas
del test) y respuestas o conductas asociadas
Supuestos (Axiomas):
(1) F j es variable estandarizada (puntuacin Zeta) con media 0 y varianza 1
(2) i , el efecto del azar en X i , tiene media 0 pero su porpia varianza V ( i ) = 2i i = 1,2,..., p . Esto quiere
decir que el efecto de azar es especfico para cada variable, el azar no afecta a todas las respuestas del test por
igual. La varianza del azar se llama varianza especfica y se denota V ( i ) = i2
(3) Hay independencia entre i y cualquier factor F j , de modo que i F j = 0
(4) Los factores son independientes {F j } ( F j F j ' = 0 ). Este supuesto no es obligatorio y muchas veces se
levanta. Cuando se asume (4) el modelo se llama Modelo Factorial Ortogonal, en caso contrario, cuando los
factores tienen correlaciones, se llama Modelo Factorial Oblcuo
7.2 Consecuencias del modelo factorial
En las varianzas:
m
V ( X i ) = (lij ) + V ( i ) = (lij ) 2 + i2
2
j =1
j =1
i = 1,2,..., p . La cantidad
(l
j =1
ij
asociada o explicada por los factores comunes a los p tems y por eso se llama comunalidad del tem X i y se
denota hi2 . Es frecuente que los tems se estandaricen o pasen a puntuaciones Z de modo que V ( X i ) = 1 y en este
contexto se tiene la ecuacin:
m
16
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
Por analoga con el anlisis de regresin se define:
Comunalidad = hi2 =Proporcin de varianza de X i asociada a los factores comunes = Proporcin de diferencias
observadas en las respuestas de las personas en el tem i, que se deben a la diferente intensidad con que se
presentan los factores en ellas
Varianza especfica = i2 = Varianza residual (o del azar y/o otros factores no previstos) en X i = Proporcin de
diferencias observadas en las respuestas que no se deben al constructo sino que se deben al azar o a otros factores
no previstos y especficos a la conducta registrada en la pregunta o tem i del test.
En las correlaciones Item-Factor:
Bajo el supuesto (4) se cumple X i F j = lij : La constante de propocionalidad lij (carga factorial en la jerga
estadstica) es precisamente la correlacin entre el Factor F j y el tem X i . En este contexto para ver si un tem
dado corresponde a un factor, basta identificar la carga lij ms grande (en valor absoluto). Si se cumple el supuesto
(4) bastara aplicar el criterio de Cohen para correlaciones a la carga factorial del item con el factor. Los puntos de
corte clsicos son: carga lij en valor absoluto mayor o igual que 0.3 o carga lij mayor o igual que 0.5
La correlacin entre el tem X i y el tem X i ' es rX X = lij li ' j = Suma de productos de las correspondientes
i i'
j =1
cargas factoriales.
7.3 Estimacin de las cargas factoriales
El proceso tiene dos etapas:
(1) Determinar el nmero m de factores. Esto puede ser identificando o hallando el valor de m (Anlisis
exploratorio) o confirmando un valor de m ya conocido o predeterminado (Anlisis confirmatorio).
(2) Estimar cada carga factorial lij . Esto implica hallar la correlacin entre cada tem y cada uno de los m
factores, interpretando cada factor a partir de los tems que correlacionan ms con l y midiendo el efecto
factorial tanto en cada tem (va la comunalidad) como en el total de tems de la prueba (va la suma de
comunalidades)
7.3.1 Mtodos para determinar m= # de factores:
Nota: Existe otro mtodo ms moderno que SPSS no usa, aunque se puede programar para aplicarlo y es el
Anlisis paralelo de Horn, que consiste en comparar sucesivamente la varianza de cada factor de la muestra real
con la correspondiente varianza de factores calculados sobre una muestra de nmeros al azar del mismo tamao y
cantidad de variables de la base de datos: Si un factor de la muestra real tiene varianza mayor que el equivalente de
la muestra de nmeros al azar, entonces es significativo y se toma en cuenta. El proceso se detiene cuando un
factor de la muestra real no supera a su equivalente de la muestra de nmeros al azar.
17
X i ), viendo las correspondientes cargas factoriales lij ms grandes en valor absoluto y luego asignamos cada
tem X i a uno de los m factores F j : aqul con mayor carga factorial absoluta lij
Luego observamos el conjunto o cluster de variables ms asociadas a cada factor F j y a continuacin le damos
a cada factor F j el significado o sentido promedio de las variables X i del cluster.
Cuando hay ms de un factor, se aplica la tcnica de las rotaciones: un reclculo de las cargas factoriales,
que partiendo de las estimaciones iniciales de lij , redistribuye la varianza de cada factor o componente, aunque no
cambia la varianza total. Sabremos que la rotacin ha sido exitosa cuando veamos que los tems asignados a un
factor (por sus cargas factoriales ms grandes) conforman un factor fcilmente explicable, o sea, identifican bien a
su respectivo constructo
Las rotaciones son de dos tipos:
Ortogonales (Perpendiculares): Mantienen factores Fj que no correlacionan entre s. Los mtodos
ortogonales en SPSS son:
Varimax: El ms usado de todos. Maximiza la varianza de las cargas factoriales dentro de cada factor y as obliga
a las variables a asociarse a un solo factor.
Quartimax: Maximiza la varianza de las cargas factoriales dentro de cada variable y obliga a los factores a
asociarse a una sola variable. Tiende a dar variables con ms de un factor
Equamax: Es una combinacin de los dos anteriores
Oblicuas (no ortogonales):Al girar los ejes, stos pueden formar un ngulo ms o menos cerrado, los factores
resultantes son correlacionados, no son independientes. Los mtodos oblicuos de SPSS son:
Oblimin: El ms usado dentro de los oblicuos, tiende a formar factores con la mayor correlacin pero con
estructura lo ms simple (tems cargados con la menor cantidad de factores).
Promax: Es una combinacin de oblimn y varimax de modo que los factores son lo menos correlacionados dentro
de lo posible. Es un mtodo de auge reciente.
Con rotaciones oblcuas, las cargas factoriales lij no coindicen con las correlaciones Item-Factor y se
18
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
7.4 Estimacin de factores
Interpretados los factores, puede ser que se necesite estimar la "cantidad" de cada factor que tiene cada unidad o
sujeto. En principio no es posible obtener estimaciones exactas, pues por definicin los factores no son
medibles directamente; pero s es posible obtener "medidas indirectas". Hay dos sistemas:
De Clculo agregado, donde los factores se miden promediando o sumando directamente las variables que
estn asociadas a l, ya sea como promedio simple o como promedio ponderado (donde la ponderacin est
asociada a la carga factorial o es la carga factorial misma). Esto no siempre es posible, si es que las variables
tienen unidades de medida distintas. Se usa mucho en construccin de pruebas o Psicometra.
Mtodos Anlticos, donde los factores se estiman apelando a algn sistema estadstico de regresin, siendo
las estimaciones iniciales de los factores, las componentes principales o cantidades anlogas. Los mtodos del
SPSS producen factores (factor scores) con media 0 y son:
(a)
(b)
(c)
Regression: Produce factor scores con media cero, que pueden estar correlacionadas.
Anderson: Produce factor scores independientes con media cero y varianza 1 siempre.
Bartlett: Produce factor scores con media cero.
En el caso de pruebas psicomtricas no es recomendable dejar que SPSS calcule los factores con alguno
de sus mtodos, pues son ms bien ciegos, pegados a la comodidad estadstica y menos a la teora
psicolgica.
19
8.1 Uso
Cuando tenemos una variable Y cuya evolucin queremos seguir en un grupo de participantes, en diversas ocasiones, cada una de las cuales suele estar en un contexto especfico o tratamiento (este conjunto de contextos o
repeticiones se llama factor intrasujetos). Tambin puede ser cuando tenemos k variables respuesta Y1, Y2,,Yk
medidas en los mismos participantes y que son comparables entre ellas (o sea estn en la misma escala).
Se desea ver si las medias o las medianas (segn el caso) de las k variables son iguales o si difieren, quiz con un
patrn de evolucin o tendencia caracterstica.
Adems hay algunos otros factores cuyo efecto en esa evolucin o tendencia se quiere identificar. El anlisis se
llama de anlisis de medidas repetidas porque cada individuo es medido sucesivas veces, o sea se repite la
medicin de Y en cada participante k veces y por tanto los datos estn correlacionados.
Si la variable Y es ordinal o no tiene distribucin normal, la prueba ms usada es el Test o Prueba de
Friedman, que compara las k medianas de las muestras relacionadas. Es una prueba o test mnibus y de ser
significativa, los contrastes especficos siguientes son sucesivas pruebas T de Wilcoxon por pares o pruebas U de
Mann-Whitney
Si la variable Y es cuantitativa con distribucin normal y se satisfacen ciertos supuestos, la prueba de
eleccin es el ANOVA para medidas repetidas, donde, como en el ANOVA One Way o Two Way, se contrasta
la existencia de un efecto de diferencia entre repeticiones, tomando en cuenta el efecto de los factores si los hay
y las posibles interacciones. Anlogamente al ANOVA, tambin habr contrastes Post Hoc o contrastes Ad Hoc
segn sea el caso.
8.2 Caso No paramtrico
Con una variable Y ordinal o con distribucin no normal, cuya evolucin se sigue en un grupo de participantes, en
k ocasiones, que generan las mediciones o repeticiones Y1, Y2, ,Yk. O tambin cuando hay k atributos medidos
ordinalmente o con falta de normalidad Y1, Y2, ,Yk que se quieren comparar. Asumimos independencia entre
casos distintos pero no entre mediciones repetidas en cada caso o sujeto.
El plan de anlisis estadstico comprende:
Un Test mnibus para la hiptesis global H0:Me1=Me2==Mek
Contrastes especficos segn las hiptesis previas por contrastar o las comparaciones mltiples que haya que
hacer para detectar los pares diferentes.
Si adems hay factores cuyo efecto se desea estudiar, no hay una prueba no paramtrica que haga este trabajo,
pero se pueden aplicar contrastes separados por los niveles de los factores y estudiar el conjunto de resultados.
8.2.1 Test mnibus (Prueba de Friedman para k muestras relacionadas)
Contrasta H0:Me1=Me2==Mek vs H1:Al menos dos medianas son diferentes. Su lgica es similar a la de otras
pruebas basadas en rangos o puestos, esto es, se ordenan las puntuaciones dentro de cada sujeto y si H0 es cierta,
las k mediciones debieran intercalarse y por tanto sus rangos o puestos correspondientes debieran ser similares. Lo
mismo debiera ocurrir con las mediciones de los otros sujetos. Comparando los rangos promedio se calcula la
probabilidad de que siendo cierta H0 se obtenga rangos promedio como los que aparecen en nuestros datos. Si esta
probabilidad o significacin es muy pequea, sabemos que podemos rechazar H0.
Metodologa en SPSS
Para contrastar H0:Me1=Me2==Mek
Digitar la base con los datos de cada participante en cada variable del grupo Y1, Y2, ,Yk de mediciones, en
un columnas diferentes. Si hubiera otras variables como factores, stas van como identificadoras de cada grupo
en una columna por factor.
Aplicar la secuencia de comandos:
Analizar
Pruebas no paramtricas Cuadros de dilogo antiguos
k muestras relacionadas
Variables de prueba: Pasar las variables Y1, Y2,, Yk Opciones: Estadsticos: check en Descriptivos
y en Cuartiles Continuar
Exact
check en Exact
Continuar
Aceptar.
Examinar la significacin en el cuadro Estadsticos de contraste (de preferencia la significacin exacta, la
asinttica slo si el tamao global de muestra es grande e impide obtener la exacta) para ver si se rechaza H0 o
20
FORMULAS ESTADISTICA II - FORMULAS ESTADISTICA II -FORMULAS ESTADISTICA II
no. Si se rechaza H0, usar las estadsticas descriptivas (medianas) del cuadro Estadsticas descriptivas de SPSS
para tener idea de cules mediciones difieren ms.
8.2.2 Contrastes especficos
Si se llega a rechazar H0:Me1=Me2==Mek, se pasa a comparar las variables Y1 , Y2 ,..., Yk , ya sea en ciertos pares,
si es que hay hiptesis previas, o todos los pares, si no se tiene hiptesis previas. En el ltimo caso, hay que tener
cuidado con la capitalizacin del azar y para ello, hay que trabajar con un nivel ms exigente, por ejemplo, no
0.05, sino 0.01; Dado que se trata de muestras relacionadas, se usan sucesivas pruebas T de Wilcoxon para pares
relacionados. Otra alternativa es trabajar slo a nivel descriptivo. Si hubiera factores cuyos niveles deseamos
comparar, se aplican pruebas U de Mann Whitney.
8.3 Caso paramtrico: Anlisis de varianza de medidas repetidas con distribucin normal
Bajo el supuesto de normalidad, con este modelo podemos analizar el efecto (los cambios) del factor repeticiones o
intra-sujetos asociado a las k mediciones Y1, Y2,,Yk de una variable Y observada en k situaciones distintas (o
de k variables Y1, Y2,,Yk comparables) en los mismos n casos. Adicionalmente se estudia el efecto de los niveles
de otros factores inter-sujetos A, B, etc., es decir que las correspondientes combinaciones AiBj se aplican a grupos
distintos e independientes de casos.
Este diseo requiere menos casos que un diseo de ANOVA factorial y controla mejor la variacin al azar entre
sujetos pero al precio de tener que controlar el efecto de posible contaminacin por repeticiones, esto es que
como son los mismos participantes, adems de las diferencias ocasionadas por los contextos hay una diferencia
generada por el aprendizaje o el efecto residual de la medicin anterior, entre dos mediciones consecutivas.
Supuestos
Adems de los supuestos del ANOVA se asumir que las varianzas de las diferencias entre las mediciones intrasujetos son iguales y que lo mismo sucede con sus correlaciones (esfericidad). SPSS verifica este supuesto con
el Test W de Mauchly: Si se rechaza la hiptesis de esfericidad, SPSS hace una correccin en el estadstico F del
anlisis al presentar el Anlisis de varianza del contraste de diferencias entre repeticiones Y1, Y2,,Yk. Presenta
dos correcciones de F: la de Greenhouse-Geisser y la de Huynh-Feldt, junto con los correspondientes contrastes.
La de Greenhouse-Geisser es ms conservadora y es la que usaremos.
Metodologa en SPSS
Digitar la base con los datos de cada participante en cada variable del grupo Y1, Y2, ,Yk de mediciones, en
un columnas diferentes. Si hubiera otras variables como factores, stas van como identificadoras de cada grupo
en una columna por factor.
Aplicar la secuencia bsica de comandos es:
Analizar
Modelo lineal general
Medidas repetidas
Nombre del factor intra-sujetos: reemplazar el
nombre factor1 por uno ms especfico si se desea
Nmero de niveles: poner el nmero k de
repeticiones
Aadir
Definir
Variables intra-sujetos: Pasar las sucesivas mediciones Y1,,Yk
Factores inter-sujetos: Pasar los factores inter-sujetos
Opciones: check en Estadsticos descriptivos
Continuar
Grficos: Eje horizontal axis: poner el factor intra-sujetos; Lneas separadas: poner un
factor inter-sujetos Aadir
Continuar
Aceptar.
Examinar la significacin en la tabla Prueba de esfericidad de Mauchlyb para ver si se cumple el supuesto de
homogeneidad de varianzas y correlaciones (esfericidad). La hiptesis nula H0 es que s se cumple el supuesto:
Si no se rechaza H0 (la esfericidad) pasar a la tabla Pruebas de efectos intra-sujetos y ver las significacin del
factor intra-sujetos (y la de interacciones con factor inter-sujeto si lo hubiera) asumiendo esfericidad
Si se rechaza la hiptesis H0 de esfericidad, ver las significacin del factor intra-sujetos (y la de interacciones
con factor inter-sujeto si lo hubiera) usando la prueba de Greenhouse-Geisser.
Si hubiera hiptesis de tendencias lineal, cuadrtica o cbica en la evolucin de los sujetos, examinar la tabla
Pruebas de contrastes intra-sujetos (factor intra-sujeto) y ver las significaciones para saber cules tendencias se
presentan y si cambian con los niveles del factor inter-sujeto. Apoyarse en las estadsticas y grfico para
interpretar mejor, de ser necesario.
Para evaluar el o los factores inter-sujetos examinar las significaciones tabla Pruebas de los efectos intersujetos. Pero si ha habido interaccin con el factor inter-sujeto, esto ltimo es lo importante.