Curso Avanzado Statistica 2012

Departamento de Matemticas y Computacin
Curso avanzado de anlisis

de datos con Statistica

Mayo-Junio de 2012

Curso avanzado de anlisis de datos con Statistica.
A cargo de: rea de Estadstica e Investigacin Operativa. Departamento de Matem-
ticas y Computacin. Universidad de La Rioja.
Horario: Das 29, 31 de mayo, 5 y 7 de junio, de 16:00 a 19:00
Lugar: Aula Informtica n 4 del CCT.
Profesores: Juan Carlos Fillat Ballesteros
Despacho 226 del edificio Vives. juan-carlos.fillat@unirioja.es
Zenaida Hernndez Martn
Despacho 227 del edificio Vives. zenaida.hernandez@unirioja.es
David Ortigosa Martnez
Despacho 206 del edificio Vives. david.ortigosa@unirioja.es
Montserrat San Martn Prez
Despacho 227 del edificio Vives. montse.sanmartin@unirioja.es
Objetivo: El objetivo de este curso es Introducir algunos temas no elementales del
anlisis estadstico de datos a quienes poseen conocimientos bsicos de Es-
tadstica Descriptiva e Inferencial, utilizando STATISTICA.
Programa: El curso consta de 4 sesiones con los siguientes contenidos:
1. Contrastes no paramtricos
1.1. Pruebas de normalidad
1.2. Contrastes de localizacin
1.3. Contrastes para 2 muestras relacionadas
1.4. Contrastes para 2 muestras independientes
1.5. Contrastes para k muestras relacionadas
1.6. Contrastes para k muestras independientes
1.7. Contrastes para variables cualitativas
2. Anlisis de varianza
2.1. ANOVA bsico
2.2. Comparacin de grupos especficos
2.3. Ajuste del nivel de significacin en comparaciones mltiples
3. Regresin lineal mltiple
3.1. Modelos de regresin simple
3.2. Contrastes de hiptesis en el modelo de regresin lineal simple
3.3. Condiciones tericas del modelo de regresin lineal simple
3.4. Predicciones
3.5. Modelo de regresin lineal mltiple
3.6. Novedades en el caso mltiple
3.7. Condiciones tericas del modelo de regresin lineal mltiple
3.8. Comentarios finales
4. Introduccin al anlisis multivariante: anlisis de componentes principales
4.1. Introduccin al anlisis de componentes principales
4.2. Cmo llevar a cabo un anlisis de componentes principales?
4.3. Anlisis de componentes principales vs anlisis factorial
4.4. La rotacin de los factores
Anexo: Trabajo final
Web: www.unirioja.es/cu/zehernan
Sesin 1.
CONTRASTES NO PARAMTRICOS

Al estimar los parmetros de un modelo se supone que los datos constituyen una mues-
tra aleatoria de una distribucin que, salvo por sus parmetros, es conocida.
La primera etapa de un estudio consiste, por tanto, en contrastar si las hiptesis bsicas
no estn en contradiccin con la muestra. As, las primeras pruebas no paramtricas
analizan:
- si la distribucin supuesta es consistente con los datos, denominadas pruebas de
bondad de ajuste: test de la _
2
, de Kolmogorov-Smirnov, de Shapiro-Wilk y de
Jarque-Bera
Por otra parte, cul es el efecto de un modelo distinto al supuesto?
El utilizar un modelo falso nos puede llevar a conclusiones no vlidas o, aunque sean
vlidas, dejan de ser ptimas. Por ejemplo, los procedimientos que suponen normalidad
llevan a estimaciones poco precisas cuando esta hiptesis no es vlida, lo que se traduce
en intervalos innecesariamente grandes o contrastes poco potentes. Por tanto, deberemos
utilizar procedimientos alternativos que no requieran de suposiciones sobre la poblacin
salvo, en algunos casos, la de que sea continua.
Cuando tenemos una muestra utilizamos:
- contrastes de localizacin: test de los signos y de los rangos con signo de Wil-
coxon
En el caso de querer contrastar diferencias con dos o ms muestras tenemos:
- dos muestras relacionadas: test de los signos, de los rangos con signo de Wil-
coxon
- dos muestras independientes: test de rachas de Wald-Wolfowitz, de Kolmogo-
rov-Smirnov y de la U de Mann-Whitney
- k muestras relacionadas: test de Friedman y de Kendall
- k muestras independientes: test de Kruskal Wallis y de la mediana
- para variables cualitativas: test de Cochran
Ventajas de la utilizacin de pruebas no paramtricas frente a las paramtricas
- No requieren de la suposicin de normalidad u otra distribucin
- En general, son de fcil clculo e interpretacin
- A veces, no es necesario tener observaciones exactas, sirve con saber el orden de
dichas observaciones
Desventajas de la utilizacin de pruebas no paramtricas frente a las paramtricas
- Debido a que no es necesario que las observaciones sean tan exactas se pierde
informacin
- A menudo no son tan eficaces como las pruebas paramtricas

Curso avanzado de anlisis de datos con Statistica Mayo de 2012

Antes empezar con los distintos contrastes deberemos descargar el fichero revisin.sav
con el que estaremos trabajando durante la sesin.

Contenido del fichero revisin.sav:
De entre los trabajadores de un determinado sector productivo de una comunidad au-
tnoma, se toma una muestra. El archivo revisin.sav contiene, para los 47 trabaja-
dores de la muestra, los datos de las siguientes variables:
ID: Cdigo de identificacin del empleado
tabaco: Relacin con el tabaco (1=Fumador, 2=Menos de un ao de exfumador,
3=Entre 1 y 5 aos de exfumador, 4=No fumador)
act_fsica: Nivel de actividad fsica (0=Sedentario, 1=no sedentario)
act_laboral: Actividad laboral (1=Operario, 2=Supervisor, 3=Administrativo,
4=Gerente)
IMC_06: ndice de Masa Corporal en la revisin de 2006 (0=Sin sobrepeso,
1=Con sobrepeso)
1=Con sobrepeso)
1=Con sobrepeso)
colesterol_06: Nivel de colesterol en sangre en la analtica de 2006, en mg/dl
glucosa_06: Nivel de glucosa en sangre en la analtica de 2006, en mg/dl

Sesin 1. Contrastes no paramtricos 7

1.1. Pruebas de normalidad

Estos procedimientos tratan de averiguar si nuestros datos pueden proceder de una va-
riable con distribucin normal (Ho).

1.1.1. Contraste de la _
2
de Pearson de bondad de ajuste

Los contrastes de la
2
_ comparan las frecuencias observadas frente a las esperadas con
la hiptesis que se contrasta.

Para la aplicacin del contraste es necesario que la muestra sea grande (mnimo 25), las
observaciones deben estar agrupadas en clases (al menos 5 clases), que cada clase tenga
al menos 5 datos y que la frecuencia esperada sea tambin de al menos 5.

El estadstico de la
2
_ tiene la siguiente expresin:
( )

i i
i i
E
E O
2
que sigue una distribucin
2
_
Donde:
i
O y
i
E son, para cada clase, las frecuencias observadas y esperadas respecti-
vamente.

Cuando deseamos realizar un contraste de bondad de ajuste, el estadstico de la
2
_ de
Pearson sigue una distribucin asinttica
2
_ con k r 1 grados de libertad siendo k
el nmero de clases y r el nmero de parmetros estimados del modelo. Es decir:

( )
2
1
1
2
~

=

r k
k
i i
i i
np
np n
_

La aplicacin ms frecuente de este contraste para la normalidad es a problemas de
muestra grande y donde y
2
o se estiman a partir de los datos mediante x y
2
s por lo
que la distribucin del estadstico ser de una
2
3 k
_ .

Si la variable sigue una ley normal, se espera que no haya mucha diferencia entre la
frecuencia observada y la esperada por lo que se rechaza la normalidad para valores
grandes del estadstico.

1.1.2. Contraste de Kolmogorov Smirnov

Este contraste de bondad de ajuste compara la probabilidad acumulada de la distribu-
cin terica de una variable continua frente a la emprica mediante el estadstico D de
Kolmogorov Smirnov.
El estadstico de Kolmogorov Smirnov es ) x ( F ) x ( F sup D
n R x
=
e

siendo ) x ( F y ) x ( F
n
las frecuencias relativas acumuladas tericas y observadas res-
pectivamente.


Los valores crticos para este contraste estn tabulados en el supuesto de que no se re-
quiera de la estimacin de parmetros, sin embargo, cuando el contraste necesita de la
estimacin de parmetros, esta tabulacin clsica conduce a un contraste muy conserva-
dor, es decir, tiende a aceptar la hiptesis nula.
Para mejorar el contraste, Lilliefors tabul el estadstico D de Kolmogorov Smirnov
cuando estimamos los parmetros media ( ) y varianza (
2
o ) de la distribucin normal
con sus valores muestrales x y
2
s . Se rechaza la normalidad para valores grandes del
estadstico D.

1.1.3. Contraste de Shapiro y Wilk

Existen grficos de probabilidad para contrastar la normalidad. Que comparan la proba-
bilidad acumulada observada (la que proporcionan los datos) frente a la probabilidad
acumulada esperada (la obtenida de la distribucin terica a contrastar).
Para poder aceptar la distribucin terica los puntos se agruparn en torno a una lnea
recta.
El estadstico W de Shapiro Wilk es el coeficiente de determinacin del ajuste de esos
puntos a la recta por lo que valores grandes del estadstico (cerca de 1) nos llevan a
aceptar la hiptesis de normalidad.
Este contraste se aplica cuando el tamao de la muestra es de, como mucho, 50.

1.1.4. Contrastes de Asimetra, Curtosis y test de Jarque-Bera

De la observacin de la asimetra y curtosis de grficos como el histograma, grfico de
tallos y hojas y diagrama de cajas podemos tambin darnos cuenta de la necesidad de no
aceptar la normalidad en casos con una gran asimetra o una curtosis muy alejada de la
de la curva normal.

Adems, los coeficientes de asimetra A y curtosis K son 0 bajo la hiptesis de normali-
dad por lo que valores alejados de 0 en esos coeficientes nos indican la posible no nor-
malidad de los datos.
Para tamaos de muestra grande (n al menos 50) el coeficiente de asimetra A sigue
una distribucin normal de media 0 y varianza n 6 .
Para tamaos de muestra grande (n al menos 200) el coeficiente de custosis K sigue
una distribucin normal de media 0 y varianza n 24 .
Valores pequeos de estos estadsticos nos permiten aceptar la normalidad de los datos.

Por otra parte, el test de Jarque-Bera es un contraste de normalidad basado en los coefi-
cientes de asimetra y curtosis:
|
.
|
\
|
+ =
2 2
4
1
2
K A
n
JB
que, para tamaos de muestra grande, sigue una distribucin
2
_ con 2 grados de liber-
tad. Se utiliza habitualmente en anlisis de series temporales.


STATISTICA:

Podemos utilizar los distintos contrastes de normalidad desde varias opciones del men:

- Estadsticas bsicas y tablas / Estadsticas descriptivas donde podemos obtener el
contraste de Kolmogorov-Smirnov con y sin la correccin de Lilliefors y el contraste
de Shapiro - Wilk

- Estadsticas bsicas y tablas / Prueba t, muestra simple donde podemos obtener el
diagrama de probabilidad de la normal aunque este contraste grfico siempre ser
menos objetivo que uno basado en un estadstico con un p-valor.


- Ajuste de distribucin donde podemos obtener el contraste de Kolmogorov-
Smirnov con y sin la correccin de Lilliefors y el contraste de la _
2

- Grficos / Histogramas donde podemos obtener el contraste de Kolmogorov-
Smirnov con y sin la correccin de Lilliefors y el de Shapiro - Wilk


- Grficos / Grficos 2D / Diagramas de probabilidad normal donde podemos ob-
tener el contraste de Shapiro - Wilk

La exploracin de los datos ayuda a determinar si son adecuadas las tcnicas estadsti-
cas que est teniendo en consideracin para el anlisis de los datos. Si no se puede acep-
tar la normalidad de estos, el usuario necesita utilizar pruebas no paramtricas.

EJERCICIO 1.1
Contrasta la normalidad de la variable colesterol_07

Dado el tamao de la muestra (n = 47) podemos utilizar los contrastes de Shapiro
Wilk (n < 50), _
2
(n > 25) y el de Kolmogorov Smirnov Lilliefors,

El diagrama de probabilidad normal al que le aadimos el contraste de Shapiro Wilk
nos permite contrastar la normalidad

Diagrama de probabilidad normal de colesterol_07
REVISIN.sta 13v*47c
120 140 160 180 200 220 240 260 280 300
Valor observado
-3
-2
-1
0
1
2
3
V
a
l
o
r

n
o
r
m
a
l

e
s
p
e
r
a
d
o
colesterol_07: 'SW-W' =0,9698; p =0,2615


y con las tablas de frecuencias observadas y esperadas obtenemos los contrastes de la _
2

y de Kolmogorov Smirnov Lilliefors.

Los tres contrastes nos permiten aceptar la hiptesis de normalidad de la distribucin de
la que proceden las observaciones de colesterol_07. En todos los casos el valor p es
grande.

Aunque ya hemos obtenido todos los contrastes de normalidad, vamos a completar el
estudio con un histograma con los contrastes de Kolmogorov Smirnov y Shapiro
Wilk.

Histograma:colesterol_07
K-S d=,10072, p>.20; Lilliefors p>.20
Shapiro-Wilk W=,96985, p=,26145
120 140 160 180 200 220 240 260 280 300
X <=Lmite de la categora
0
2
4
6
8
10
12
14
N

d
e

o
b
s
.


EJERCICIO 1.2
Estudia la hiptesis de normalidad de glucosa_07 y glucosa_08.

EJERCICIO 1.3
Contrasta la hiptesis de normalidad de la variable que mide la diferencia de nivel de
glucosa entre 2007 y 2008

EJERCICIO 1.4
Estudia la hiptesis de normalidad de colesterol_07 para los trabajadores sedentarios y
para los no sedentarios por separado.

EJERCICIO 1.5
A la vista de los resultados obtenidos, podemos aceptar que se verifican las condicio-
nes para realizar un contraste sobre la media de la variable colesterol_07?

EJERCICIO 1.6
A la vista de los resultados obtenidos, podemos aceptar que se verifican las condicio-
nes para realizar un contraste sobre la diferencia de medias entre glucosa_07 y gluco-
sa_08?


1.2. Contrastes de localizacin

Estos contrastes tratan de analizar si la muestra puede procede de una poblacin con una
determinada medida de posicin. La hiptesis nula conjetura que determinado percentil
toma cierto valor. Nos vamos a centrar en el caso del percentil 50, es decir, la mediana.
Tenemos, por tanto, el contraste:
=
=
u
u
Me H
Me H
:
:
1
0

1.2.1. Prueba de los signos

Si aceptamos que la hiptesis nula es cierta y la mediana es u, la probabilidad de que un
elemento de la muestra sea superior a u es , por tanto, en una muestra de tamao n
cabe esperarse que el nmero de valores superiores a u sea de aproximadamente la mi-
tad. Se rechazar la hiptesis nula si aparece un nmero excesivamente alto o excesiva-
mente bajo respecto al 50%.

Los valores crticos de este contraste se determinan a partir de la distribucin binomial
puesto que el estadstico B que mide el nmero valores de la muestra superiores a u
sigue una ley binomial B(n,).

Adems, en el caso de n grande, puede utilizarse la aproximacin a la distribucin
normal por el teorema de Moivre.

1.2.2. Prueba de los rangos con signo de Wilcoxon

A diferencia del anterior, este contraste tiene en cuenta, no slo, el signo de las diferen-
cias entre los valores de la muestra y la mediana que queremos contrastar, si no tam-
bin, la magnitud de tales diferencias.

Este contraste utiliza los estadsticos
+
T y
T de Wilcoxon que se obtienen de sumar

los rangos, para las diferencias respecto a u en valor absoluto, de los valores superiores
o inferiores a u respectivamente. Es decir, asignamos a cada elemento de la muestra,
i
x , el rango,
i
R , que obtenemos de ordenar los valores u
i
x con lo que:
>
+
=
u
i
x
i
R T y
<
=
u
i
x
i
R T .
(para los empates se asigna la media de los rangos)

Si u es la mediana cabe esperarse que
+
T y
T sean aproximadamente iguales y, a su

vez, aproximadamente iguales a la mitad de la suma de todos los rangos, con lo que,
teniendo en cuenta que ( )n n n T T + = + + + = +
+ +
1 2 1
2
1
, tanto
+
T como
T deber-
an estar alrededor de ( )n n + 1
4
1
.

Para n > 30, los estadsticos de Wilcoxon siguen aproximadamente una ley normal de

media = =
n n+1
( )
4
y

varianza = o
2
=
n n+1
( )
2n+1
( )
24

Cuando n s 30 los valores crticos estn tabulados

1.3. Contrastes para 2 muestras relacionadas

Estos contrastes tratan de ver si dos muestras pueden proceder de la misma poblacin o
de poblaciones similares cuando las muestras estn relacionadas.

Dos de los contrastes para esta situacin son: el test de los signos y el test de los rangos
con signo de Wilcoxon, es decir, los que se utilizan en el caso de estar interesados en
contrastar la mediana para una sola muestra.

Para poder utilizar estos contrastes deberemos obtener, para cada caso, las diferencias
entre las dos muestras. Por tanto, contrastaremos como en el apartado anterior si la me-
diana de la diferencia es 0 no, es decir:
=
=
0 :
0 :
1
0
dif
dif
Me H
Me H

STATISTICA

Tanto si decidimos realizar un contraste de localizacin de una muestra como si tene-
mos dos muestras relacionadas la opcin es Estadsticas / no-paramtricos / Compa-
rando dos muestras dependientes (variables)

Cuando queramos contrastar la mediana de una muestra deberemos crear una variable
que contenga, en todos los casos, dicho valor a contrastar.

EJERCICIO 1.7
Podemos aceptar que la mediana de la variable que mide el colesterol en 2007 es de
180 mg/dl?, es decir, la mitad de los trabajadores del sector tiene un colesterol inferior
a 180 mg/dl y la otra mitad superior?

Primero debemos crear la variable que toma constantemente el valor 180. Vamos a lla-
marla valor_180, despus aplicamos los test de los signos y de Wilcoxon a las variables
(relacionadas) colesterol_07 y valor_180


En ambos contrastes el p-valor nos indica que no podemos aceptar la hiptesis de que
la mediana sea de 180 mg/dl.

EJERCICIO 1.8
Podemos aceptar que el colesterol de los trabajadores del sector ha variado de 2006 a
2007?


Los dos contrastes nos proporcionan un p-valor igual a 0 lo que nos lleva a aceptar que
ha habido cambios en el colesterol de los trabajadores del sector de 2006 a 2007.

EJERCICIO 1.9
Podemos aceptar que el nivel de glucosa de los trabajadores del sector ha variado de
2007 a 2008?

EJERCICIO 1.10
Podemos aceptar que el colesterol de los trabajadores sedentarios ha variado de 2007
a 2008?

EJERCICIO 1.11
Podemos aceptar que el nivel de glucosa de los trabajadores no sedentarios ha varia-
do de 2007 a 2008?


1.4. Contrastes para 2 muestras independientes

Estos contrastes tratan de estudiar si dos muestras pueden proceder de la misma pobla-
cin o de poblaciones similares cuando las muestras son independientes.
Los contrastes que implementa STATISTICA son: el test de Rachas de Wald-
Wolfowitz, el de Kolmogorov-Smirnov y el de Mann-Whitney-Wilcoxon,

1.4.1. Contraste de Rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz contrasta si es aleatorio el orden de aparicin de
los valores de las dos muestras si stos estn ordenados (Ho).
Una racha es una secuencia de observaciones de la misma muestra, por ejemplo, la si-
guiente secuencia:
son 6 rachas
El nmero total de rachas de las muestras proporcionan un indicio de si hay o no aleato-
riedad en su aparicin. Un nmero reducido de rachas (el caso extremo es 2) es indicio
de que los valores de la muestras no aparecen de forma aleatoria. Tambin un nmero
excesivamente alto parece indicarlo.
Para tamaos de muestra suficientemente grande, es decir, cuando n
1
n
2
>20 (
1
n ta-
mao de la primera muestra y
2
n de la segunda) la variable que mide el nmero de
rachas se aproxima a una distribucin normal de media:
1
2
2 1
2 1
+
+
=
n n
n n

y varianza:
( ) ( ) 1
) 2 ( 2
2 1
2
2 1
2 1 2 1 2 1 2
+ +

=
n n n n
n n n n n n
o

1.4.2. Contraste de Kolmogorov-Smirnov para 2 muestras

Este test se aplica a variables de tipo continuo y utiliza el estadstico de Kolmogorov-
Smirnov , comparando las frecuencias relativas acumuladas de las dos muestras.
El estadstico de Kolmogorov Smirnov es ) ( ) ( sup
2 1
x F x F D
n n R x
=
e

siendo ) (
1
x F
n
y ) (
2
x F
n
las frecuencias relativas acumulada observadas para las dos
muestras.
Si la hiptesis nula es cierta, la diferencia entre ) (
1
x F
n
y ) (
2
x F
n
no ser muy grande por
lo que se rechaza Ho para valores grandes del estadstico.

1.4.3. Contraste de la U de Mann-Whitney-Wilcoxon

Este test se aplica a variables de tipo continuo y utiliza el estadstico de la U de Mann
Whitney que mide, de entre el total de pares formados entre un elemento de cada mues-
tra, el nmero de ellos en los que el valor de la primera muestra es inferior al valor de la
segunda.

Si aceptamos que la hiptesis nula de igualdad entre las muestras es cierta, la probabili-
dad de que un valor de la primera muestra sea inferior a otro de la segunda es . Si te-
nemos muestras de tamao n
1
y n
2
, el total de pares formados entre un elemento de ca-
da muestra es
2 1
n n y, por tanto, el nmero esperado de pares en los que el valor de la
primera muestra es inferior al valor de la segunda es 2
2 1
n n . Rechazaremos H
0
para
valores excesivamente grandes o pequeos del estadstico.

Los valores crticos de este contraste aparecen en el Anexo (tabla T.4).
Adems, si n
1
n
2
> 20, una generalizacin del Teorema del Lmite Central nos per-
mite aproximar el estadstico U a una distribucin Normal N( , o ) con

=
n
1
n
2
2
y

o
2
=
n
1
n
2
(n
1
+ n
2
+1)
12

STATISTICA

Para contrastar diferencias entre dos muestras independientes la opcin es Estadsticas /
no-paramtricos / Comparando dos muestras independientes (grupos).

EJERCICIO 1.12
Podemos aceptar que existen diferencias segn la actividad fsica en el nivel de gluco-
sa en el ao 2007?


Vistos los p-valores, podemos aceptar que no hay diferencias significativas en el nivel
de glucosa en 2007 entre los sedentarios y los no sedentarios, ni siquiera en cuanto a la
dispersin.

EJERCICIO 1.13
Podemos aceptar que existen diferencias segn la actividad fsica en el nivel de coles-
terol en el ao 2006?

EJERCICIO 1.14
Podemos aceptar que existen diferencias entre operarios y supervisores en el nivel de
colesterol en el ao 2008?

EJERCICIO 1.15
Podemos aceptar que existen diferencias entre operarios y administrativos en el nivel
de glucosa en el ao 2008?


1.5. Contrastes para k muestras relacionadas

Estos contrastes tratan de ver si ms de dos muestras pueden proceder de la misma po-
blacin o de poblaciones similares cuando las muestras estn relacionadas.

Los contrastes que implementa STATISTICA son: el de Friedman y el de Kendall.

1.5.1. Test de Friedman

Este contraste, junto con el de Kendall, se utiliza para detectar posibles diferencias entre
ms de 2 muestras relacionadas siendo la hiptesis nula la no existencia de diferencias
entre las k muestras relacionadas.
Este contraste utiliza los rangos
ij
R obtenidos de ordenar los k valores del caso i que
por tanto variarn de 1 a k.
Despus, para cada muestra, se obtiene el rango medio:
n
R
R
n
i
ij
j
=
=
1

Si las muestras son similares es esperable que la diferencia entre estos rangos medios no
sea muy grande. Para esto se utiliza el estadstico de Friedman que sigue una distribu-
cin asinttica
2
_ con k-1 grados de libertad y se rechaza la hiptesis nula para valores
grandes del estadstico.

1.5.2. Test de Kendall

Este contraste se basa en el coeficiente de concordancia de Kendall que sirve para anali-
zar el grado de coincidencias entre los k conjuntos de rangos.

Diremos que la concordancia es mxima si para los n casos cada muestra ha obtenido el
mismo rango. Por el contrario, diremos que la concordancia es mnima si se tienen ran-
gos distintos.
Teniendo en cuenta qu ocurre con la suma de rangos para cada sujeto en estas situacio-
nes extremas se construye el coeficiente de concordancia de Kendall que toma valores
entre 0 y 1 (0 para la ausencia de concordancia, 1 para la total concordancia).

La hiptesis nula de no existencia de diferencias entre las k situaciones es la misma que
ausencia de concordancia entre los rangos de los casos, por lo que la rechazaremos para
valores del coeficiente significativamente distintos de 0.

Adems, este coeficiente se puede transformar en el estadstico de Friedman por lo que
estamos ante el mismo contraste.

STATISTICA

Para contrastar diferencias entre dos muestras relacionadas la opcin es Estadsticas /
no-paramtricos / Comparando muestras dependientes mltiples (variables)


EJERCICIO 1.16
Podemos aceptar que existen diferencias en el nivel de glucosa de los trabajadores en
los 3 aos?

Atendiendo al p-valor y al coeficiente de concordancia de Kendall podemos concluir
que las muestras no son similares y que hay una alta concordancia entre los rangos.

EJERCICIO 1.17
Podemos aceptar que existen diferencias en el nivel de nivel de colesterol de los traba-
jadores en los 3 aos?

EJERCICIO 1.18
Podemos aceptar que existen diferencias en el nivel de nivel de glucosa de los supervi-
sores en los 3 aos?


1.6. Contrastes para k muestras independientes

Estos contrastes tratan de ver si ms de dos muestras pueden proceder de la misma po-
blacin o de poblaciones similares cuando las muestras son independientes.

Los contrastes que implementa STATISTICA son: el de la mediana y el de Kruskall-
Wallis

1.6.1. Test de la mediana

La hiptesis nula de este contraste es que las k muestras proceden de poblaciones con la
misma mediana.

El procedimiento consiste en obtener la mediana conjunta de las muestras. Despus ob-
tener, para cada muestra, el nmero de observaciones con valores inferiores o iguales a
la mediana y con valores superiores a la mediana. Con estas frecuencias se tiene una
tabla de doble entrada a la que se puede aplicar un test de la
2
_ .

1.6.2. Test de Kruskal-Wallis

Esta prueba es la generalizacin de la U de Mann Whitney para ms de 2 muestras
independientes.
En este contraste se obtienen los rangos de las observaciones de todas las muestras de
forma conjunta, posteriormente se calcula la suma de rangos de cada muestra. Si la
hiptesis nula de que las k muestras proceden de la misma poblacin o de poblaciones
similares es esperable que las sumas de los rangos no sean muy distintos. El estadstico
utilizado es el que da nombre al contraste que sigue asintticamente una distribucin
2
_ con k-1 grados de libertad.

STATISTICA

Para contrastar diferencias entre dos muestras independientes la opcin es Estadsticas /
no-paramtricos / Comparando muestras independientes mltiples (grupos)

EJERCICIO 1.19
Podemos aceptar que existen diferencias entre los distintos grupos de trabajadores en el
nivel de colesterol en 2007?


El test de la mediana utiliza el contraste de la
2
_ por lo que debe cumplir que la fre-
cuencia esperada para cada clase sea superior a 5. Se podra pasar por alto para supervi-
sores y administrativos con frecuencias esperadas cerca de 5 pero no para el grupo de
gerentes en el que son inferiores a 1. Adems, Statistica no proporciona el p-valor para
el test de Kruskal-Wallis, podramos obtenerlo utilizando la distribucin
2
_ pero slo
hay un gerente por lo que, en ese caso, la muestra es muy pequea.
Si se cambian los grupos uniendo el de administrativos con el de gerentes, las muestras
ahora son de mayor tamao, los contrastes quedan de la siguiente forma:

?
0,961

Ambos test nos proporcionan un alto p-valor con lo que aceptamos que no existen dife-
rencias de colesterol en los 3 grupos de trabajadores en el ao 2007.

EJERCICIO 1.20
Podemos aceptar que existen diferencias entre operarios, supervisores y administrati-
vos en el nivel de glucosa en 2006?, y en el 2007 y 2008?


1.7. Contrastes para variables cualitativas

Estos contrastes tratan de analizar diferencias entre dos o ms muestras procedentes de
variables cualitativas.

1.7.1. Test de Cochran

Este contraste es especfico para variables dicotmicas con los mismos valores, en este
caso dos o ms. Generalmente se utiliza para evaluar las variaciones de una variable
dicotmica medida en varias circunstancias, por ejemplo, la variacin de n individuos
sometidos a k pruebas donde cada una de ellas slo puede evaluarse como xito o fra-
caso.
La hiptesis nula del contraste es que el nmero de repeticiones de uno de los valores es
el mismo en todas las muestras.
El estadstico Q de Cochran tiene la siguiente expresin:
( )
=
-
=
-

=
n
i
i
k
j
j
X X kn
X X k k
Q
1
2
1
2
) 1 (
siendo
-
-
muestra por xitos de medio nmero el
muestra la en xitos de nmero el
caso el en xitos de nmero el
X
j X
i X
j
i

que sigue una distribucin
2
_ con k-1 grados de libertad.
Se rechazar la hiptesis nula para valores excesivamente grandes del estadstico.

EJERCICIO 1.21
Podemos aceptar que el ndice de Masa Corporal de los trabajadores del sector ha va-
riado de 2006 a 2007?

En este caso, las variables son dicotmicas con los mismos valores por lo tanto un test
adecuado es el de Cochran:

El p-valor nos indica que no hay diferencias significativas en el IMC de los trabajadores
de 2006 a 2007.

EJERCICIO 1.22
Podemos aceptar que el ndice de Masa Corporal de los trabajadores del sector ha va-
riado de 2006 a 2008?

EJERCICIO 1.23
Podemos aceptar que existen diferencias en el IMC de los trabajadores sedentarios en
los 3 aos?

Sesin 2.
ANLISIS DE VARIANZA

2.1. ANOVA bsico

En la tabla siguiente se presentan los datos recogidos en un experimento realiza-
do en el departamento de psiquiatra de una universidad. Los investigadores estaban
interesados en el efecto del tipo de informacin recibida sobre la susceptibilidad hip-
ntica. Un total de 36 individuos fueron asignados a cuatro grupos (9 a cada uno), co-
rrespondientes a los cuatro tipos de informacin proporcionada: Activa programada,
activa, pasiva, y sin informacin (grupo control). Se aplic a los sujetos la Escala de
Susceptibilidad Hipntica de Stanford (ESHS). Valores ms elevados indican mayor
susceptibilidad hipntica.

Grupo 1
Informacin activa
programada
Grupo 2
Informacin activa
Grupo 3
Informacin pasiva
Grupo 4
Sin informacin
(Grupo control)
4 10 4 4
7 6 6 2
5 3 5 5
6 4 2 7
10 7 10 5
11 8 9 1
9 5 7 3
7 9 6 6
8 7 7 4

El anlisis estadstico de estos datos ir destinado a averiguar si la puntuacin
obtenida en la ESHS depende del tipo de informacin recibida. Dicho de otra manera,
nos preguntamos si existen diferencias significativas entre las puntuaciones de los cua-
tro grupos. La comparacin de varios grupos respecto a una respuesta cuantitativa se
realiza mediante el llamado Anlisis de la Varianza (suponiendo que se satisfagan razo-
nablemente las condiciones tericas de aplicacin, de las que hablaremos ms adelante).
Dividiremos el anlisis en fases.


2.1.1. Fase 1: Estudio descriptivo de los datos (grfico y analtico)

Diagrama de dispersin (Grficos>Diagramas de dispersin) y grfico de cajas
(Grficos>Grficos 2D>Diagramas de caja)

Activa programada Activa Pasiva Sin informacin
Tipo de informacin
0
2
4
6
8
10
12
E
s
c
a
l
a

s
u
s
c
e
p
t
i
b
i
l
i
d
a
d

h
i
p
n
t
i
c
a

Activa programada Activa Pasiva Sin informacin
Tipo de informacin
0
2
4
6
8
10
12
E
s
c
a
l
a

s
u
s
c
e
p
t
i
b
i
l
i
d
a
d

h
i
p
n
t
i
c
a

Sesin 2. Anlisis de la varianza 29

Estadsticos descriptivos (Estadsticas>Estadsticas/Tablas bsicas, seleccionar Es-
tadsticas descriptivas, seleccionar la variable, activar un anlisis por grupo, en
la pestaa Avanzado seleccionar los estadsticos deseados)

2.1.2. Fase 2: Comparacin global de las cuatro medias.

Las hiptesis a contrastar son

H
0
:
1
=
2
=
3
=
4

H
1
: No todas las medias son iguales

Utilizaremos un nivel de significacin o = 0.05. Statistica nos proporciona los resulta-
dos siguientes (Estadsticas>Estadsticas/Tablas bsicas, seleccionar Anlisis de
variancia Breakdown & de una va, seleccionar las variables dependiente y de
agrupamiento, pulsar el botn Anlisis de variancia, en la pestaa Descriptivos se
pueden solicitar para cada grupo los estadsticos que se deseen):

Como el p-valor del contraste p=0.0246 es inferior al nivel de significacin ele-
gido, concluimos que la hiptesis nula no se sostiene, es decir, existen diferencias signi-
ficativas entre los cuatro grupos respecto a la variable susceptibilidad hipntica.

Es posible que este contraste no tenga en si mismo demasiado inters para el
investigador, pero siempre merece la pena realizarlo porque entre los resultados aparece
un estadstico fundamental: la estimacin de la varianza comn a todos los grupos CM
in-
tra
= 5.028.

2.1.3. Fase 3: Intervalos de confianza para las medias de grupo.

Los intervalos de confianza para las medias de grupo ya haban sido obtenidos
en la Fase 1. Sin embargo, en el contexto de la comparacin de los cuatro grupos, es
mejor calcular dichos intervalos utilizando la mejor estimacin disponible de la varianza
comn a las cuatro poblaciones (CM
intra
= 5.028). Para ello tenemos que seguir los si-
guientes pasos:


1) Ejecutamos Estadsticas/Anlisis de variancia. Se abre la ventana Anlisis de va-
riancia/Anlisis de variancia multivariante generales(ANOVA/MANOVA):

2) En Tipo de anlisis seleccionamos Anl. de var. de una va.
En Mtodo de especificacin seleccionamos Dilogo rpido de espec.
Pulsamos Aceptar. Se abre la ventana ANOVA/MANOVA Anl. de var. de una
va:

3) En la pestaa Men bsico, pulsamos el botn Variables. Se abre la ventana Selec.
var. dependientes y una variable predictora categrica (factor):


4) En la lista de la izquierda seleccionamos la variable dependiente (la 2: pun-
tos_ESHS). En la lista de la derecha seleccionamos la variable de agrupamiento (la 1:
tipo_info). Pulsamos Aceptar. Volvemos a la ventana anterior. Pulsamos Aceptar. Se
abre la ventana Anlisis de variancia Resultados 1:

5) En la pestaa Medias, pulsamos el botn Observado, no ponderado:


Aparece en nuestro libro de trabajo una nueva hoja con los intervalos que busc-
bamos:

2.1.4. Fase 4: Clculo de tamaos de efecto (effect sizes).

Para terminar nuestro Anlisis de la Varianza bsico, realizaremos algunas con-
sideraciones en relacin con la llamada magnitud (o tamao) de efecto (effect size).
Tanto en los estudios experimentales como en los observacionales, nos proponemos
investigar el efecto de un factor (variable explicativa o tratamiento) sobre una respuesta.
Sera importante, no slo saber si el efecto observado en los datos es estadsticamente
significativo, sino tambin poder medir la intensidad del efecto del tratamiento sobre
la respuesta. La situacin es anloga a la de medir el grado de asociacin entre dos va-
riables. Es lo que hacemos, por ejemplo, con el conocido coeficiente de correlacin li-
neal cuando factor y respuesta son cuantitativas continuas.

Si el factor se presenta en dos niveles y la respuesta es continua, podemos medir
el efecto del factor sobre la respuesta simplemente mediante la diferencia de medias de
grupo
2 1
x x . Es preferible, no obstante, calcular un tamao de efecto estandarizado,
para lo cual dividimos la diferencia de medias por una estimacin de la variabilidad de
las poblaciones:
comb
s
x x
g
2 1

=

donde s
comb
representa una estimacin combinada de la desviacin tipica de ambas
poblaciones.

En un Anlisis de Varianza, el factor se presenta en k niveles, y podemos reali-
zar este clculo para cada pareja de medias de grupo, utilizando el cuadrado medio intra
(CM
intra
) como medida de variabilidad:

2 / 1
int
) (
ra
j i
ij
CM
x x
g

=
(i,j = 1,...,k, i = j)

Esto es engorroso y difcil de interpretar, por lo que podramos utilizar la mxi-
ma de estas cantidades, que corresponde, desde luego, a la diferencia entre las medias
de grupo ms grande y ms pequea, y mide el mximo efecto observado en los datos:


2 / 1
int
min max
) (
ra
CM
x x
= o

Para nuestro experimento sobre susceptibilidad hipntica tendramos:

49 . 1
) 028 . 5 (
11 . 4 44 . 7
2 / 1
=
= o

Una receta casera para interpretar el valor obtenido es la siguiente:

o alrededor de 0.25 : Tamao de efecto pequeo
o alrededor de 0.75: Tamao de efecto mediano
o alrededor de 1.25: Tamao de efecto grande

Para nuestro ejemplo, concluiramos, por tanto, que se ha observado un tamao de efec-
to grande. Esta cantidad o no es proporcionada por Statistica, por lo que tendremos
que obtenerla a mano.

Un enfoque alternativo para medir la magnitud del efecto observado consiste en
calcular la desviacin tpica de las medias de grupo (unas medias de grupo muy simila-
res indicaran un pequeo tamao de efecto):

2 / 1
2
) (
1
|
.
|
\
|
=

x x
k
s
i m

y estandarizarla respecto a CM
intra
:

2 / 1
int
) (
ra
m
CM
s
f =

Esta cantidad recibe el nombre de f de Cohen, y tampoco se puede obtener con
Statistica. Una receta casera para su interpretacin es:

f alrededor de 0.10: Tamao de efecto pequeo
f alrededor de 0.25: Tamao de efecto mediano
f alrededor de 0.40: Tamao de efecto grande

Para nuestro experimento sobre susceptibilidad hipntica tendramos:

f = 1.235/(5.028)
1/2
= 0.55,

concluyendo, de nuevo, que se ha observado un tamao de efecto grande.


Una medida de tamao de efecto que podemos obtener directamente con Statis-
tica es la llamada q
2
(eta cuadrado). No es ms que la proporcin que representa la
suma de cuadrados entre dentro de la suma de cuadrados total (es el equivalente del
coeficiente de determinacin en regresin):

total
entre
SC
SC
=
2
q

Esta medida tomar valores entre 0 y 1, siendo la magnitud del efecto tanto ma-
yor cuanto ms nos acerquemos a 1. En nuestro ejemplo se obtiene:

q
2
= 53.861/214.750 = 0.2508

proporcin baja que indica un efecto de pequea magnitud (esta aparente contradiccin
nos recuerda que los distintos mtodos disponibles no son matemticamente equivalen-
tes, y pueden conducir a resultados poco concluyentes).

Para obtener q
2
con Statistica debemos proceder como sigue:

En la ventana Anlisis de variancia Resultados 1, obtenida en el punto 4 de la
Fase 3 anterior, pulsamos el botn Tamao de los efectos. Obtenemos una nueva hoja
en nuestro libro de trabajo, que contiene, entre otros resultados, el valor de q
2
:

Adems de q
2
, es posible utilizar tambin q, que es la raiz cuadrada positiva de
q
2
(el equivalente del coeficiente de correlacin en regresin).

Aunque sea proporcionada directamente por Statistica (y otros programas esta-
dsticos), su uso no est especialmente recomendado, debido sobre todo a que tiende a
sobreestimar el valor del correspondiente parmetro poblacional. En su lugar, podemos
utilizar e
2
(omega cuadrado), que corrige el sesgo positivo de q
2
. Viene dada por:

Intra Total
Intra Entre
CM SC
CM k SC
+

=
) 1 (
2
e

donde:


SC
Entre
: Suma de cuadrados entre grupos
SC
Total
: Suma de cuadrados total
CM
Intra
: Cuadrado medio dentro de grupos
k: nmero de grupos que se estn comparando

Una regla casera para interpretar el valor de e
2
es la siguiente:

e
2
alrededor de 0.01: Tamao de efecto pequeo
e
2
alrededor de 0.06: Tamao de efecto mediano
e
2
alrededor de 0.15: Tamao de efecto grande

En nuestro ejemplo se obtiene:
176 . 0
028 . 5 750 . 214
) 028 . 5 ( 3 861 . 53
2
=
+
= e
lo que indica que estamos ante un efecto grande.

Muchos autores desaconsejan utilizar medidas de magnitud de efecto en el con-
texto de la comparacin global de ms de dos medias, ya que resultan difciles de inter-
pretar: En qu consiste el efecto? Por qu es grande? Estas preguntas no siempre son
fciles de responder.

EJERCICIO 2.1

Realizar un ANOVA bsico para el siguiente experimento.

En la tabla siguiente se presentan los datos recogidos en un experimento realiza-
do en el departamento de medicina de una universidad. Los investigadores estaban inte-
resados en la efectividad de distintos tratamientos para la reduccin de la presin san-
gunea. Un total de 20 individuos con diagnstico de hipertensin fueron asignados a
cuatro grupos (5 a cada uno), correspondientes a las cuatro modalidades de tratamiento
consideradas: Frmacos, biofeedback, dieta, y una combinacin de todos ellos. La va-
riable respuesta medida es la presin sangunea sistlica despus de dos semanas de
tratamiento. Valores ms elevados indican menor eficacia del tratamiento.

Grupo 1
Frmacos
Grupo 2
Biofeedback
Grupo 3
Dieta
Grupo 4
Combinacin
84 81 98 91
95 84 95 78
93 92 86 85
104 101 87 80
80 108 94 81


2.2. Comparacin de grupos especficos

Generalmente no interesa nicamente realizar una comparacin global de los k
grupos en consideracin, sino que alguna de las preguntas de investigacin hace refe-
rencia a alguna comparacin especfica entre ellos. Supongamos, por ejemplo, que se
estn comparando cuatro grupos definidos por distintos tratamientos: sin tratamiento,
con tratamiento 1, con tratamiento 2, y con tratamiento 3. Una pregunta interesante sera
la de si es mejor tratar (con cualquiera de los tres tratamientos) que no tratar. Para res-
ponder a esta pregunta es necesario comparar el grupo sin tratamiento con el grupo
con tratamiento (que est formado por los otros tres grupos). Tambin podra intere-
sarnos saber, por ejemplo, si el tratamiento 1 es mejor que el tratamiento 3. Estas pre-
guntas tienen sentido al margen de que un test global de todos los grupos haya resultado
significativo o no. De hecho, es perfectamente vlido abordarlas directamente, sin nece-
sidad de realizar dicho test global (excepto, como ya hemos mencionado, para estimar la
varianza comn a todos los grupos: CM
intra
).

Adems, desde un punto de vista conceptual y metodolgico es necesario que
comprendamos la diferencia entre dos tipos de comparaciones entre grupos especficos:
las planificadas de antemano y las sugeridas por los datos. A veces se engloban ambas
bajo la denominacin de comparaciones a posteriori (despus de obtener un resultado
global significativo), aunque se pueden realizar antes de, o incluso en lugar de, la com-
paracin global. Vamos a empezar a fijar ideas sobre un ejemplo.

Un equipo de psiclogos de la educacin de una universidad est investigando la
influencia de las recompensas sobre el aprendizaje de los nios (de ambos sexos). En
cuatro grupos, de cinco nios cada uno, aplica 4 niveles de recompensa: Constante
(100%), frecuente (66%), infrecuente (33%), e inexistente (0%). La variable respuesta
es el nmero de intentos para resolver un rompecabezas. Los datos recogidos se presen-
tan en la tabla siguiente:

Nivel de recompensa
Constante
(100%)
Frecuente
(66%)
Infrecuente
(33%)
Inexistente
(0%)
12 9 15 17
13 10 16 18
11 9 17 12
12 13 16 18
12 14 16 20

La comparacin global de estos cuatro grupos mediante el Anlisis de la Varian-
za proporciona una estimacin de la varianza comn CM
intra
= 3.8750 con N k = 20
4 = 16 grados de libertad. El p-valor del contraste vale p = 0.0003, por lo que se rechaza
la hiptesis nula, y se concluye que existen diferencias significativas entre los cuatro
grupos, es decir, se ha detectado en las muestras observadas un efecto significativo del
nivel de recompensa sobre el ritmo de aprendizaje de los nios.

Adems de (o en lugar de) realizar la comparacin global de los cuatro grupos,
algunas preguntas que podran interesar son:


a) Una recompensa constante produce un aprendizaje ms rpido que una frecuente,
infrecuente o inexistente?
b) Una recompensa frecuente produce un aprendizaje ms rpido que una infrecuente o
inexistente?
c) Una recompensa infrecuente produce un aprendizaje ms rpido que una inexisten-
te?
Si denotamos por
1
(constante),
2
(frecuente),
3
(infrecuente) y
4
(inexisten-
te) las medias poblacionales correspondientes a cada nivel de recompensa, estas pregun-
tas pueden ser contestadas contrastando las siguientes hiptesis:

Pregunta H
0
H
1

a
3
4 3 2
1

+ +
=
3
4 3 2
1

+ +
=
b
2
4 3
2

+
=
2
4 3
2

+
=
c
4 3
=
4 3
=

En todos los casos las hiptesis nulas establecen que cierta combinacin lineal
de las medias poblacionales vale cero. Adems, los coeficientes de dichas combinacio-
nes lineales suman cero. Una combinacin lineal de las medias poblacionales con coefi-
cientes de suma cero recibe el nombre de contraste. En general, un contraste viene
dado por:
k k
k
i
i i
c c c c + + + = =
=

2 2 1 1
1

con
0
2 1
1
= + + + =
=
k
k
i
i
c c c c

Para evitar manejar cifras redondeadas, conviene utilizar coeficientes enteros. Para
ello podemos multiplicar todos los coeficientes de un contraste por una constante
apropiada. Los coeficientes de los contrastes asociados con nuestras hiptesis son:

Pregunta Coeficientes Coeficientes enteros
a |
.
|
\
|

3
1
3
1
3
1
1 ( ) 1 1 1 3
b |
.
|
\
|

2
1
2
1
1 0 ( ) 1 1 2 0
c ( ) 1 1 0 0 ( ) 1 1 0 0

Para obtener las correspondientes pruebas de significacin con Statistica segui-
remos los siguientes pasos:


1) Repetir los pasos de la Fase 3 anterior (apartado 2.1.3, pag. 29) hasta el punto 4, en el
que se abre la ventana Anlisis de variancia Resultados 1. Activar la pestaa Compa-
raciones:

2) Pulsar el botn Contrastes para medias de mn. cuad. Se abre la ventana Especifi-
car contrastes para este factor. Introducir los coeficientes de los contrastes por co-
lumnas, tal como se indica (slo se pueden encargar tres de una vez). Pulsar Aceptar.
Regresamos a la ventana anterior.

3) Pulsar el botn Calcular. Aparecen tres nuevas hojas en nuestro libro de trabajo. En
la segunda de ellas aparecen los resultados de los contrastes de hiptesis:


Ahora podemos responder a nuestras preguntas:

Pregunta a: Si, una recompensa constante produce un aprendizaje significativamente
ms rpido (media 12 intentos) que una recompensa frecuente, infrecuente
o inexistente (media 14.67 intentos), ya que
p-valor = 0.0184 < 0.05
y rechazamos H
0
.

Pregunta b: Si, una recompensa frecuente produce un aprendizaje significativamente
ms rpido (media 11 intentos) que una recompensa infrecuente o inexis-
tente (media 16.5 intentos), ya que
p-valor = 0.0001 < 0.0005
y rechazamos H
0
.

Pregunta c: No, una recompensa infrecuente no produce un aprendizaje significativa-
mente ms rpido (media 16 intentos) que una recompensa inexistente
(media 17 intentos), ya que
p-valor = 0.4336 > 0.05
y aceptamos H
0
.

Obsrvese que Statistica proporciona intervalos de confianza para los contrastes
considerados, los cuales vienen dados por la expresin:

| |
o o

e s t IC
k N 2 / ; 1
) (

=

Los grados de libertad de la abscisa t a utilizar en el intervalo son los asociados
con la estimacin de la varianza comn a todos los grupos (CM
intra
= 3.8750), que son
en nuestro ejemplo N k = 20 4 = 16. Tenemos a mano estos resultados en la tercera
del grupo de tres hojas que acabamos de incorporar a nuestro libro de trabajo:


Si, en la misma ventana (Anlisis de variancia Resultados 1), pulsamos el bo-
tn Exhibir medias de mn. cuad., aparecer una nueva hoja en el libro de trabajo que
contiene las medias de grupo, las cuales viene bien tener a mano a la hora de las inter-
pretaciones:

Intervalo para el contraste correspondiente a la pregunta a:

) 534 . 1 , 466 . 14 ( ) 050 . 3 )( 12 . 2 ( 8 ) (
1 95 . 0
= = IC
(las pequeas diferencias respecto al resultado proporcionado por Statistica se deben a
los redondeos)

Debemos estar atentos al hecho de que es preciso dividir por 3 este intervalo pa-
ra recuperar la escala original de los datos:

) 511 . 0 , 822 . 4 ( ) 3 / (
1 95 . 0
= IC

Interpretacin: Para un nivel de confianza del 95%, la diferencia en nmero de
intentos entre los nios que reciben una recompensa constante y los que reciben una
recompensa frecuente, infrecuente o inexistente se sita entre 4.82 y 0.51.

Intervalo para el contraste correspondiente a la pregunta b:

) 429 . 6 , 571 . 15 ( ) 156 . 2 )( 12 . 2 ( 11 ) (
2 95 . 0
= = IC

Dividiendo por 2 obtenemos el intervalo en la escala original de los datos:

) 215 . 3 , 785 . 7 ( ) 2 / (
1 95 . 0
= IC

intentos entre los nios que reciben una recompensa frecuente y los que reciben una
recompensa infrecuente o inexistente se sita entre 7.79 y 3.22.


Intervalo para el contraste correspondiente a la pregunta c:

) 639 . 1 , 639 . 3 ( ) 245 . 1 )( 12 . 2 ( 1 ) (
3 95 . 0
= = IC

Este intervalo ya est expresado directamente en la escala original de los datos.

intentos entre los nios que reciben una recompensa infrecuente y los que no reciben
ninguna recompensa se sita entre 3.64 y 1.64.

Obsrvese que este intervalo contiene el valor 0, hiptesis que no ha podido ser
rechazada, mientras que los dos intervalos anteriores no contenan el valor 0, y tal hip-
tesis fue rechazada.

EJERCICIO 2.2

En la seccin de traumatologa de un hospital se ha realizado una intervencin
qirrgica en la rodilla a 24 varones entre 18 y 30 aos. Interesa investigar la relacin
entre el estado de forma fsica previo a la intervencin (por debajo de la media, en la
media, por encima de la media) y el tiempo (das) requerido para completar con xito la
rehabilitacin postquirrgica mediante fisioterapia. Los datos recogidos se presentan en
la tabla siguiente:

Estado de forma fsica previo
Por debajo de
la media
En la media
Por encima de
la media
29 30 26
42 35 32
38 39 21
40 28 20
43 31 23
40 31 22
30 29
42 35
29
33

Ayuda al equipo de investigacin a responder a las siguientes cuestiones:
a) Los pacientes por encima de la media completan su fisioterapia ms deprisa
que los dems pacientes?
b) Los pacientes en la media completan su fisioterapia ms deprisa que los pa-
cientes por debajo de la media?
c) Los pacientes en la media completan su fisioterapia ms despacio que los
pacientes por encima de la media?


2.3. Ajuste del nivel de significacin en comparaciones mltiples.

Como sabemos, cuando se realizan mltiples pruebas de significacin para un
nivel dado o, el nivel de significacin global para el conjunto de todas las pruebas pue-
de ser bastante ms elevado que dicho o. Dado que el nivel de significacin es una pro-
babilidad de error (el error de tipo I: rechazar una hiptesis nula cierta, es decir, concluir
que existe una diferencia cuando en realidad no existe), es importante mantenerlo en
niveles aceptables. En la siguiente tabla se presentan, para distintos valores del nmero
de pruebas realizadas (al nivel 0.05), la probabilidad de cometer algn error y el nmero
esperado de errores.

N de pruebas
n
Probabilidad de
algn error
1 - (1 - 0.05)
n

N esperado de
errores
0.05n
1 0.05 0.05
5 0.23 0.25
10 0.40 0.50
15 0.54 0.75
20 0.64 1.00
25 0.72 1.25

Vamos a ver en este apartado algunas de las tcnicas disponibles en Statistica
para abordar este problema. La idea bsica es la de controlar o, no al nivel de cada
prueba individual, sino al nivel del experimento completo. Sin embargo, las cosas toda-
va se complican un poquito ms si tenemos en cuenta que se pueden plantear dos tipos
de pruebas: las pruebas planificadas de antemano y las pruebas post hoc (a poste-
riori).

Una prueba planificada de antemano es aquella que el investigador ha decidido
realizar antes de examinar los datos de su experimento. Llamadas algunas veces pruebas
a priori, emanan de las teoras o la experiencia del investigador, y forman parte de una
estrategia de anlisis de datos denominada confirmatoria. Por su parte, una prueba post
hoc se plantea despus de observar los resultados del experimento. Vienen sugeridas por
los datos, y forman parte de una estrategia de anlisis denominada exploratoria.

Planteemos una situacin hipottica con el fin de entender mejor las implicacio-
nes de estas dos clases de pruebas. Dos investigadores realizan un experimento con cua-
tro grupos: A, B, C y D. El investigador 1, antes de realizar el experimento plantea la
siguiente hiptesis, que desea poner a prueba para un nivel de significacin o = 0.05:
2 2
4 3 2 1
+
=
+

El investigador 2 no posee inicialmente ninguna hiptesis. Se realiza el experi-
mento y se obtienen las siguientes medias de grupo:

Grupo
A B C D
2.0 1.5 5.0 6.0

A la vista de estos resultados, el investigador 2 decide plantear la siguiente hiptesis,
que tambin desea poner a prueba para un nivel de significacin o = 0.05:

2 2
4 3 2 1
+
=
+

Estn planteando ambos investigadores la misma hiptesis? Supongamos que se hubie-
ran obtenido otras medias de grupo diferentes:

Grupo
A B C D
2.0 5.0 1.5 6.0

Cambiaran en algo los anlisis planteados por nuestros investigadores? El investiga-
dor 1 tena una hiptesis independiente de los resultados del experimento y seguir in-
sistiendo en poner a prueba:
2 2
4 3 2 1
+
=
+

El investigador 2, que no parta de ninguna hiptesis previa, a la vista de los nuevos
resultados posiblemente planteara la hiptesis:
2 2
4 2 3 1
+
=
+

La eleccin del investigador 2 viene determinada por el orden de las medias de grupo.
La hiptesis que plantea es, en realidad:
2 2
1 max max 1 min min +
+
=
+

Supongamos que la hiptesis nula es cierta, y que las diferencias entre las medias de
grupo se deben nicamente al azar. El investigador 1 est asumiendo realmente un ries-
go del 5%, mientras que el investigador 2 est utilizando en contra de la hiptesis nula
la variabilidad aleatoria de los datos, y su probabilidad de cometer un error de tipo I
puede ser mucho mayor que 0.05. En trminos ms tcnicos, las distribuciones muestra-
les asociadas con ambas hiptesis son muy diferentes.

Importante: La idea que debe quedar clara en este punto es que ambos tipos de pruebas
se enfrentan al problema de las comparaciones mltiples, pero las pruebas post hoc se
enfrentan adems al problema de estar capitalizando diferencias debidas al azar. Vea-
mos algunos de los mtodos disponibles en Statistica (y alguno no disponible) para
abordar estos dos tipos de situaciones.

2.3.1.-Mtodos para pruebas planificadas de antemano.

Supongamos que se dispone de un conjunto de contrastes planificados de ante-
mano. En este caso no tenemos que preocuparnos por el papel del azar en la determina-
cin de nuestros contrastes. Slo tenemos que preocuparnos de que la probabilidad de
error est controlada globalmente para el conjunto de nuestros contrastes. Disponemos
para ello de la llamada Correccin de Bonferroni.

Correccin de Bonferroni


Si planteamos realizar c contrastes, manteniendo el nivel de significacin global
en un valor o
g
dado, el mtodo de Bonferroni consiste en realizar cada prueba indivi-
dual con un nivel de significacin o = o
g
/c. Generalmente elegiremos o
g
= 0.05, y, por
tanto, tendremos o = 0.05/c. La opcin Bonferroni del Statistica slo es til si esta-
mos interesados en realizar todas las comparaciones dos a dos. En otro caso deberemos
aplicar la correccin manualmente.

Correccin de Dunn-Sidk

Este mtodo no est disponible en Statistica, por lo que si nos interesa debere-
mos aplicarlo manualmente. Consiste en realizar cada prueba individual con un nivel de
significacin dado por
c
g
1
) 1 ( 1 o o =
Habitualmente elegiremos o
g
= 0.05, con lo que se tendr:
c
1
) 95 . 0 ( 1 = o
Suele argumentarse a favor de la correccin de Dunn-Sidk, que la de Bonferro-
ni es demasiado conservadora, pero en la prctica ambas conducen a resultados bastante
parecidos.

EJEMPLO:

Se est investigando el efecto sobre la memoria de un entrenamiento en estrate-
gias. Para ello se divide una muestra de nios de 6 aos de edad en un grupo que recibe
el entrenamiento y otro grupo de control. Se divide anlogamente una muestra de nios
de 8 aos de edad. La variable respuesta es el resultado obtenido en una prueba de me-
moria (a mayor puntuacin, mejor memoria). Los investigadores se plantean de antema-
no las tres preguntas siguientes:
a) Existen diferencias, respecto a la memoria, entre el grupo entrenado y el gru-
po de control, en nios de 6 aos de edad?
b) Existen diferencias, respecto a la memoria, entre el grupo entrenado y el
grupo de control, en nios de 8 aos de edad?
c) Existen diferencias, respecto a la memoria, entre los nios entrenados y los
nios control, al margen de su edad?

Cada una de estas preguntas corresponde a un contraste cuyos coeficientes vie-
nen dados en la siguiente tabla:

Nios de 6 aos Nios de 8 aos
Pregunta
Entrenado Control Entrenado Control
a 1 -1 0 0
b 0 0 1 -1
c 0.5 -0.5 0.5 -0.5

Una vez realizado el estudio se obtuvieron los siguientes datos:

Nios de 6 aos Nios de 8 aos
Entrenado Control Entrenado Control
6 5 6 3
5 3 9 7
7 1 9 6
5 5 4 3
3 3 5 4
4 4 6 7

Al realizar el anlisis de la varianza con el Statistica obtenemos un resultado no
significativo:

Si concluyramos que no existen diferencias entre los cuatro grupos y diramos
por finalizado el anlisis, nuestras preguntas de investigacin quedaran sin respuesta.
Un resultado global no significativo no implica que cualquier comparacin particular
entre los grupos vaya a resultar no significativa. Debemos, pues, continuar nuestro an-
lisis realizando las pruebas de significacin para los tres contrastes de inters. Los resul-
tados son los siguientes (sin aplicar ninguna correccin por comparaciones mltiples):

Hemos obtenido un resultado significativo para el contraste 3, que corresponde a
la comparacin entre nios entrenados y nios control al margen de la edad.

En Statistica podemos acceder a la opcin Bonferroni siguiendo los siguien-
tes pasos:

1) Repetir los pasos de la Fase 3 anterior (apartado 2.1.3, pag. 29) hasta el punto 4, en el
que se abre la ventana Anlisis de variancia Resultados 1:

2) Pulsar el botn Ms resultados. La ventana pasa a ofrecer un mayor nmero de pes-
taas y opciones. Activar la pestaa Post-hoc:

3) Pulsar el botn Bonferroni. Aparecer en nuestro libro de trabajo una nueva hoja con
los p-valores de las comparaciones dos a dos de los cuatro grupos:

Resulta, pues, que esta opcin slo nos resulta til si las comparaciones en las
que estamos interesados son las de todas las parejas de medias. Adems la correccin de
Dunn-Sidk no est disponible en ningn caso. Para nuestros tres contrastes las correc-
ciones hay que hacerlas manualmente. Veamos:

Estamos poniendo a prueba simultneamente tres contrastes, de manera que te-
nemos c = 3. Para un nivel de significacin global o
g
= 0.05, las frmulas para las co-
rrecciones de Bonferroni y Dunn-Sidk proporcionan niveles de significacin individua-
les:
Bonferroni o = 0.05/3 = 0.0167
Sidak o = 1 - (1 - 0.05)
1/3
= 0.0170

Ahora tenemos que comparar los p-valores obtenidos para nuestros contrastes con es-
tos niveles de significacin corregidos, y declararlos significativos o no, segn pro-
ceda, para el nivel global 0.05. Los tres p-valores son mayores que los alfas corregi-
dos, por lo que concluimos que ninguno de los tres es significativo al nivel global
0.05. Las respuestas a nuestras tres preguntas de investigacin son tres noes.

2.3.2. Mtodos para pruebas a posteriori sugeridas por los datos.

En principio las correcciones de Bonferroni y Dunn-Sidk no son apropiadas
para pruebas a posteriori, ya que controlan el problema de las comparaciones mltiples
pero no tienen en cuenta el problema de las comparaciones sugeridas por los datos. Sin
embargo, no es incorrecto utilizarlas para pruebas a posteriori en el caso particular de
que estemos interesados en todas las comparaciones entre parejas de medias. En este
caso se tendr c = k(k - 1)/2.

A continuacin indicamos las condiciones en las que estn indicadas algunas de
las pruebas a posteriori disponibles en el Statistica.


Prueba DMS (Diferencia Significativa Mnima) de Fisher

Botn Dif. sig. mn. (LSD) de Fisher

1) Estamos interesados en todas las comparaciones entre parejas de medias
2) La prueba global de la igualdad de las k medias ha resultado significativa
3) Tenemos un mximo de tres grupos.

Prueba de Tukey

Para grupos del mismo tamao: Botn Prueba de la dif. sig. hon. (HSD) de Tukey
Para grupos de tamaos desiguales: Botn Prueba HSD desigual N de Tukey

1) Estamos interesados en la comparacin entre las medias mxima y mnima
(para otras comparaciones entre medias esta prueba resulta conservadora).

Prueba de Dunnett

Botn Dunnett (especificar antes si queremos contrastes unilaterales o bilaterales, y
cul es el grupo control)

1) Estamos interesados en la comparacin de cada una de las medias con la me-
dia de un grupo control.
2) Los tamaos de grupo son iguales

Prueba S-N-K (Student-Newman-Keuls)

Botn Newman-Keuls

Es una modificacin de la prueba de Tukey que tiene en cuenta la distancia
entre las medias a comparar (no slo el orden). En realidad no controla el nivel de signi-
ficacin global del experimento, por lo que no suele recomendarse su uso.

Sesin 3.
REGRESIN LINEAL MLTIPLE

En el fichero estudiantes.sta disponemos de informacin proporcionada por una institu-
cin educativa estadounidense referida a n = 24 alumnos. Concretamente, las puntuaciones obte-
nidas en lectura, escritura, matemticas, ciencias y sociales.

Nuestro objetivo es el siguiente: construir un modelo lineal (modelo de regresin lineal
mltiple) que explique el comportamiento de lectura (Y, variable dependiente o explicada) a
partir de las k = 4 variables escritura, matemticas, ciencias y sociales (X
1
, X
2
, X
3
, X
4
, varia-
bles independientes o explicativas). Cumplir dicho objetivo tendra una doble utilidad, la pro-
piamente explicativa, y la predictiva.

Para explicar de forma sencilla los fundamentos y herramientas de la regresin y familia-
rizarnos con STATISTICA, vamos a simplificar un poco el anterior problema, plantendonos
como objetivo construir un modelo lineal (modelo de regresin lineal simple) que explique el
comportamiento de lectura (Y, variable dependiente) a partir de escritura (X, variable indepen-
diente, es decir, k = 1). Posteriormente, estudiaremos el caso mltiple siguiendo el mismo es-
quema y prestando atencin a las novedades.

3.1. Modelos de Regresin Simple
Al disponer de una nica variable independiente puede sernos til una representacin gr-
fica por medio de un Grfico de Dispersin. Con STATISTICA puede hacerse yendo a la opcin
Grficos/Diagramas de dispersin

Eligiendo como variable X, escritura, y como variable Y, lectura, en la pestaa Avan-
zado tenemos a nuestra disposicin multitud de opciones; de momento nos fijamos (luego volve-
remos sobre algunas otras), en el tipo de ajuste:
Curso avanzado de Anlisis de datos con Statistica. Mayo de 2012

Seleccionando el LINEAL y pulsando en Aceptar, obtenemos:

Seleccionamos entre los disponibles el tipo de ajuste en el que estamos interesados:
LINEAL Y = B
0
+ B
1
X
LOGARTMICO
Y = B
0
+ B
1
Log(X)
POLINOMIO Y = B
0
+ B
1
X + B
2
X
2
EXPONENCIAL Y = B
0
e
B
1
X

Notas:
1) Por defecto el ordenador toma el orden 2 (cuadrtico) en el ajuste polinomial y base
10 en el logartmico. En la pestaa Opciones 2, podemos elegir mayores rdenes en el
primero (cbico, bicuadrtico o quntico) o utilizar base e en el segundo.
2) Intuitivamente es fcil entender qu representa la curva de ajuste: es la que ms cer-
ca est del conjunto de puntos entre las de su tipo. Hay muchas formas de medir dis-
tancias, y la ms habitual y la que emplea STATISTICA por defecto- es por mnimos
cuadrados. Otras posibilidades son: DIST. POND. POR MIN.
2
que pondera la fun-
cin de prdida por 1/x
2
y EXP. NEG. POND. POR MIN.
2
pondera por e
-x
.
3) Las restantes opciones no ajustan una curva concreta sino la combinacin de varias:
SPLINE construye polinomios de forma que pasen por todos los puntos.
LOWESS construye rectas de regresin entre puntos prximos.

Sesin 3. Regresin Lineal Mltiple. 51

Diagrama de dispersin de lectura contra escritura
Estudiantes 5v*24c
lectura =13,8833+0,7057*x
25 30 35 40 45 50 55 60 65 70
escritura
20
30
40
50
60
70
80
l
e
c
t
u
r
a

Y la impresin que proporciona el grfico es que el modelo lineal
Y =
0
B +
1
B

X = 138833 + 07057

X
recoge cierta tendencia aunque no es del todo satisfactorio. Vamos a comprobarlo.

EJERCICIO 3.1
Dibuja la recta de regresin con las bandas de confianza y de regresin (las explicaremos luego).
EJERCICIO 3.2
Dibuja los diagramas con las otras posibilidades de ajuste.
Nota: Por qu
0
B ,
1
B

en vez de B
0
, B
1
? Hay que tener en cuenta que los valores que acaba-
mos de calcular a partir de los datos de la muestra son slo estimaciones de los desconocidos
parmetros poblacionales.

RECORDATORIO: INFERENCIA ESTADSTICA
Hasta ahora, lo nico que hemos hecho ha sido describir el comportamiento de los 24 estu-
diantes de nuestra muestra. Supongamos que queremos ir ms all: buscamos generalizar, inferir
la informacin que hemos obtenido, para una poblacin a la que representa la muestra. Esque-
mticamente:
1) Hemos obtenido una MUESTRA de 24 estudiantes.
2) Acabamos de describir la muestra:
Y = 138833 + 07057

X
3) Con la informacin obtenida en el paso anterior, qu somos ca-
paces de inferir para toda la poblacin? es bueno o no el modelo
Y = 138833 + 07057 X? nos dar buenas predicciones?
Nota: La primera condicin que se tiene que cumplir para poder decir
algo fiable sobre una poblacin a partir de una muestra, es que dicha
muestra sea representativa (respecto a la variable o variables de inte-
rs). Una forma de que as sea sera tomarla aleatoria. En todo lo que
sigue, consideraremos que la muestra ha sido obtenida aleatoriamente
dentro de la poblacin que nos interesa estudiar.

POBLACIN

Vamos a ver cmo decidir si el ajuste es bueno ms all de la subjetiva impresin propor-
cionada por el grfico. Si nos fijamos, disponemos de:
Y
j
que son los valores observados de la puntuacin en lectura
j
los valores pronosticados por el modelo, que podemos calcular sin ms que sustituir
en la anterior ecuacin los valores de X = escritura
y as, comparando los valores de Y
j
con los de
j
podemos estudiar la bondad del modelo. Por
ejemplo, si calculamos:
SC
TOTAL
=
2
9
1
) ( Y Y
j
j

=
= 2411333
SC
REGRESIN
=
2
9
1
)
( Y Y
j
j

=
= 783744
SC
RESIDUAL
=
2
9
1
)
(
j
j
j
Y Y
=
= 1627589
SC
TOTAL =
SC
REGRESIN +
SC
RESIDUAL
podemos definir:
R
2
= SC
REGRESIN
/
SC
TOTAL = 0325

Notas importantes:
1) R
2
se dice coeficiente de determinacin del modelo de regresin (lineal en este caso). Es
una estimacin del coeficiente de determinacin poblacional desconocido, al que es habi-
tual denotar
2
.

2) Es un parmetro que se calcula e interpreta igual, independientemente del modelo de re-
gresin que se est estudiando.
3) Nos proporciona la proporcin de variabilidad de la variable dependiente Y que es expli-
cada por la variable independiente X considerando el modelo de regresin (lineal en este
caso). En nuestro ejemplo, podemos concluir que (para la muestra) el modelo de regre-
sin lineal, considerando escritura como variable independiente, explica un 325% de la
variabilidad que existe en la variable lectura.
4) El coeficiente de determinacin tiene algunas pegas y, para corregirlas, se define, a partir
de l, el R
2
ajustado.
Todos estos clculos (y otros que iremos comentando), nos los hace STATISTICA acudiendo
a la opcin Estadsticas/Regresin mltiple donde eligiendo como variable dependiente lectu-
ra y como independiente escritura, haciendo clic en Aceptar, obtenemos:

Adems, el programa nos ha proporcionado los resultados de algunos contrastes de hip-
tesis (inferencia estadstica), para comprobar la bondad del anterior como modelo para toda la
poblacin. Los vemos a continuacin.

Y =
0
B +
1
B

X = 138833 + 07056*X
Resumen de la regresin para variable dependiente: lectura (Estudiantes
R =,57010979 R=,32502517 R ajustado =,29434450
F(1,22)=10,594 p<,00363 Error est. de la estima8,6012
N=24
Beta Err.est.
de Beta
B Err.est.
de B
t(22) nivel-p
Interseccin
escritura
13,88326 10,22416 1,357887 0,188265
0,570110 0,175159 0,70565 0,21680 3,254813 0,003631
Anlisis de varianci; Var.lectura (Estudiantes)
Efecto
Sumas de
Cuadrado
gl Media
Cuadrado
F nivel-p
Regresi
Residual
Total
783,744 1 783,7440 10,59381 0,003631
1627,589 22 73,9813
2411,333

3.2. Contrastes de Hiptesis en el Modelo de Regresin Lineal Simple

3.2.1. Contraste de regresin (Anlisis de la Varianza):
Contrasta la bondad del modelo lineal para la poblacin de la que proceden los datos de
la muestra. En trminos del coeficiente de determinacin poblacional sera:
H
0

2
=0
H
1

2
=0
Bajo ciertas condiciones tericas, que enseguida indicaremos, este contraste se resuelve
construyendo una F de Snedecor y estudiando la significacin alcanzada.
F = MC
REGRESIN
/
MC
RESIDUAL
donde
MC
REGRESIN
= SC
REGRESIN
/
GL
EXPLICADA
MC
RESIDUAL
= SC
RESIDUAL
/
GL
RESIDUAL
Notas:
1) MC = Media Cuadrtica. GL = Grados de Libertad.
2) En general GL
REGRESIN
= nmero de variables independientes (k =1 en nuestro caso) y
GL
RESIDUAL
= n k 1 = 22.
3) As, para el problema que estamos estudiando, como el valor del estadstico F = 1059
nos proporciona un p-valor = 0003631, rechazamos H
0
.

3.2.2. Contraste sobre los coeficientes del modelo
En este caso, la pendiente de la recta,
H
0
B
1
= 0

H
1
B
1
= 0
tomndose la decisin a partir de una t de Student con n 2 grados de libertad, obtenindose
t = 32448, p-valor = 0003631.
y la constante,
H
0
B
0
= 0

H
1
B
0
= 0
que, bajo ciertas condiciones tericas, nos lleva a tomar la decisin a partir de una t de Student
con n 2 grados de libertad. En nuestro caso, t = 13579, p-valor = 0188.
Nota: En el caso de la regresin lineal simple, el contraste sobre B
1
es equivalente al contraste
de regresin (hay regresin lineal si tenemos una recta con su correspondiente pendiente!).
EJERCICIO 3.3
Interpreta los resultados obtenidos en los contrastes de los coeficientes.

3.3. Condiciones tericas del Modelo de Regresin Lineal Simple
El modelo de regresin que acabamos de ver necesita del cumplimiento de ciertas condi-
ciones:
1) Slo la variable dependiente Y se trata como aleatoria. La variable independiente X se su-
pone dada al observar Y.
2) Las observaciones de Y, (Y
1
, Y
2
,...,Y
n
) han de ser independientes.
3) Hiptesis estructural del modelo. Para cada individuo de la poblacin se cumple que
Y = B
0
+ B
1
X + U siendo U una perturbacin aleatoria
Es decir, segn nuestro modelo contamos con (X
1
, X
2
,...,X
n
) valores dados, las observaciones
(Y
1
, Y
2
,...,Y
n
) y (U
1
, U
2
,...,U
n
) donde U
j
=Y
j-
j
se dicen residuos- de dos variables aleatorias Y
y U, y dos parmetros B
0
y B
1
desconocidos.
4) E[Y]= B
0
+ B
1

X
5) Condicin de homoscedasticidad, que supone que Var[Y] es constante respecto de X.
6) La variable Y sigue una distribucin normal.

Notar: las condiciones anteriores podran haberse escrito de forma equivalente en trminos de U
(y de las correspondientes observaciones de los residuos). En particular:

2) Las observaciones de U, (U
1
, U
2
,...,U
n
4) E[U]= 0
5) Condicin de homoscedasticidad, que supone que Var[U] es constante respecto de X.
6) La variable U sigue una distribucin normal.

Anlisis de los residuos
Para comprobar las condiciones tericas del modelo de regresin se realiza un estudio de
los residuos, es decir, de los valores U
j
=Y
j-
j
, que son una muestra de la variable U. Con
herramientas de Inferencia Estadstica (grficos, contrastes), hay que verificar:
- que son independientes,
- que provienen de una poblacin normal,
- que la esperanza (media) es 0,
- que cumplen la hiptesis de homoscedasticidad.

STATISTICA nos permite hacer un primer acercamiento a estas cuestiones desde la ven-
tana en la que estamos, yendo a la pestaa Residuales/prueba de hiptesis/prediccin y
haciendo clic en el botn Realizar anlisis de desempeo.


Nos fijamos en las pestaas Men bsico, Residuales y Diagramas de dispersin.

En la primera pediremos un Diagrama normal de residuales, en la segunda el Histo-
grama de residuales y en la tercera el diagrama Predecidos vs. Residuales.
Diagrama de probabilidad normal de residuales
-20 -15 -10 -5 0 5 10 15 20
Residuale
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
V
a
l
o
r

n
o
r
m
a
l

e
s
p
e
r
a
d
o
Distribucin de
Normal esperado
-25 -20 -15 -10 -5 0 5 10 15 20
0
1
2
3
4
5
6
7
N

d
e

o
b
s


Puntajes predecidas vs. residuales
Variable dependiente:lectura
34 36 38 40 42 44 46 48 50 52 54 56 58 60 62
Valores predecid
-20
-15
-10
-5
0
5
10
15
20
R
e
s
i
d
u
a
l
e
0,95Int. de conf.

Vamos a explicar qu es cada cosa:
- en el Diagrama de normalidad, un buen ajuste de los puntos a la recta apoyara la normalidad
de los residuales. En el histograma podemos comprobar el ajuste a la curva normal.
- el diagrama de dispersin de los valores predecidos y los residuales nos permitir investigar la
condicin de homoscedasticidad. Vamos a ver dos ejemplos y cmo interpretarlo:

Variable dependiente:Y
0 5 10 15 20 25 30 35
Valores predecid
-4
-3
-2
-1
0
1
2
3
4
R
e
s
i
d
u
a
l
e
0,95Int. de conf.
HOMOSCEDASTICIDAD: La nube de puntos
se distribuye a lo largo de una banda. La variabi-
lidad de los residuales aparece constante.
Variable dependiente:Y2
0 5 10 15 20 25 30 35
Valores predecid
-6
-4
-2
0
2
4
6
R
e
s
i
d
u
a
l
e
0,95Int. de conf.
NO HOMOSCEDASTICIDAD: En este caso,
para valores mayores de las predicciones, los
residuales presentan una mayor variabilidad.

EJERCICIO 3.4
Interpreta los grficos obtenidos y estudia rigurosamente la condicin de normalidad por medio
de los contrastes de Shapiro-Wilk y Kolmogorov-Smirnof-Lilliefors.

Nota: Qu podemos hacer cuando fallan las condiciones de aplicacin del modelo de regresin
lineal? Para algunas de ellas hay transformaciones en las variables que, a veces, nos llevan a
otras que s cumplen dichas condiciones. As, podemos hacer un estudio de regresin lineal sobre
dichas variables y luego traducir los resultados en trminos de las variables originales.

3.4. Predicciones
Una utilidad inmediata de contar con un buen modelo de regresin, es la posibilidad de
efectuar predicciones para la variable dependiente, dado un valor de la variable dependiente. Por
ejemplo, podramos preguntarnos: cul es el valor medio en lectura de los alumnos que punt-
an 50 en escritura? o cul es el valor de la puntuacin en lectura de un alumno que punta 50
en escritura? La respuesta es inmediata: utilizando nuestro modelo de regresin
Y=lectura = 138833 + 07056

escritura
damos una prediccin puntual = 138833 + 07056*50

= 6303855, que conviene com-
pletar con un intervalo de confianza. Es aqu donde daremos distinta respuesta a las dos pregun-
tas planteadas: la precisin de la estimacin de la puntuacin media vendr dada por la variabili-
dad del modelo de regresin, mientras que la de un individuo concreto, aade a la anterior, la
variabilidad de la propia variable dependiente (lectura), obtenindose en este caso una menor
precisin (mayor amplitud del intervalo).
STATISTICA nos proporciona los resultados acudiendo a la pestaa Residuales/prueba
de hiptesis/prediccin

Nota: Las bandas de confianza y de prediccin que hemos representado en el Diagrama de dis-
persin del EJERCICIO 3.1, se corresponden con los lmites de confianza y de prediccin, res-
pectivamente.
IC para la media
IC para un individuo confianza=(1-)x100
Prediciendo valores p (Estudiantes)
variable:
Variable
B-ponder Valor B-ponder
* Valor
escritura
Interseccin
Predecido
-95,0%'C
+95,0%'C
0,705652 50,00000 35,28259
13,88326
49,16585
45,19172
53,13998
Prediciendo valores p (Estudiantes)
variable:
Variable
B-ponder Valor B-ponder
* Valor
escritura
Interseccin
Predecido
-95,0%'P
+95,0%'P
0,705652 50,00000 35,28259
13,88326
49,16585
30,89063
67,44107

3.5. Modelo de Regresin Lineal Mltiple
Vamos, ahora s, a centrarnos en el objetivo de construir un modelo lineal (modelo de re-
gresin lineal mltiple) que explique el comportamiento de lectura (Y, variable dependiente) a
partir de las k=4 variables escritura, matemticas, ciencias y sociales (las denotaremos
1
en ese
orden, X
1
, X
2
, X
3
, X
4
, variables independientes). En este caso sin ayuda grfica, buscamos un
modelo lineal, es decir, de la forma
Y = B
0
+ B
1
X
1
+ B
2
X
2
+ B
3
X
3
+ B
4
X
4
No es necesaria ninguna explicacin terica adicional para que podamos entender e in-
terpretar perfectamente los resultados que STATISTICA nos proporciona cuando en Estadsti-
cas/Regresin mltiple, introducimos la variable dependiente lectura y las 4 independientes
(escritura, matemticas, ciencias y sociales) y pedimos el Anlisis de varianza y el Resumen
de la regresin.

PREGUNTA Cul es la ecuacin del modelo? Interpreta los resultados obtenidos (ANOVA,
coeficiente de determinacin, contrastes sobre los parmetros). Mientras no se diga lo contrario
toma o=005.
Respuesta:
Y = -983207 + 025784

X
1
+ 047021

X
2
+ 043643

X
3
+ 005066

X
4

Como R
2

= 0537, el modelo explica (para la muestra) un 537% de la variabilidad de la variable
dependiente Y=lectura.
Contraste de REGRESIN: SIGNIFICATIVO. Aceptamos la regresin.
Contraste de B
1
: NO SIGNIFICATIVO. Aceptamos que B
1
=0.

Contraste de B
2
2
=0.
Contraste de B
3
: SIGNIFICATIVO. Aceptamos que B
3
=0.
Contraste de B
4
4
=0.
Yo no me quedo muy contento, y vosotros?

1
Ojo que la notacin se complica un poquito. X
i
para i=1, 2, 3, 4, es decir, X
1
, X
2
, X
3
, X
4
, representan variables. De
cada una de estas k=4 variables, disponemos de n=24 observaciones, que ahora denotaremos X
ij
para j=1,..., 22, es
decir, (X
11
, X
12
,...,X
1n
),...,(X
k1
, X
k2
,...,X
kn
).
R =,73287144 R=,53710054 R ajustado =,43964803
N=24
Beta Err.est.
de Beta
B Err.est.
de B
t(19) nivel-p
Interseccin
escritura
matemticas
ciencias
sociales
-9,83207 12,48082 -0,787775 0,440546
0,208312 0,221341 0,25784 0,27396 0,941134 0,358449
0,320719 0,174433 0,47021 0,25574 1,838637 0,081653
0,350316 0,208746 0,43643 0,26006 1,678197 0,109681
0,045769 0,219996 0,05066 0,24352 0,208047 0,837406
Efecto
Sumas de
Cuadrado
gl Media
Cuadrado
F nivel-p
Regresi
Residual
Total
1295,128 4 323,7821 5,511407 0,004052
1116,205 19 58,7476
2411,333

3.6. Novedades en el caso mltiple
Antes de lanzarnos a hablar de las condiciones tericas del modelo y a hacer el correspon-
diente anlisis de residuos para comprobarlas, vamos a preguntarnos: nos estamos perdiendo
algo? el caso mltiple no aporta ninguna novedad? Hay algunos detalles, relacionados entre
s, a los que conviene prestar atencin, por ejemplo, la multicolinealidad y la posibilidad de des-
arrollar una estrategia paso a paso.
3.6.1 Multicolinealidad.
Este fenmeno ocurre cuando las variables independientes consideradas llevan informacin
redundante (por ejemplo, porque una de ellas es combinacin lineal de las dems). En estos ca-
sos, un modelo con un alto coeficiente de determinacin (o con un ANOVA que confirma la re-
gresin), puede tener la pega de que los coeficientes de regresin de las variables, analizados
individualmente, no sean significativos. Podemos encontrarnos con estas 6 situaciones:
CONTRASTE DE
REGRESIN
(CONJUNTO)
CONTRASTES DE LOS
COEFICIENTES
(INDIVIDUALES)
INTERPRETACIN
SIGNIFICATIVO TODOS SIGNIFICATIVOS Todas las variables explicativas influyen en la
respuesta.
SIGNIFICATIVO ALGUNOS SIGNIFICATI-
VOS
Algunas variables explicativas influyen en la
respuesta. Posible multicolinealidad. Malas
estimaciones de los coeficientes.
SIGNIFICATIVO NINGUNO SIGNIFICATIVO Sntoma de multicolinealidad. Malas estima-
ciones de los coeficientes.
NO SIGNIFICATIVO TODOS SIGNIFICATIVOS Situacin extraa que podra deberse a dos va-
riables relacionadas que influyen en sentido
contrario. Multicolinealidad.
NO SIGNIFICATIVO ALGUNOS SIGNIFICATI-
VOS
Parecida situacin al caso anterior.
NO SIGNIFICATIVO NINGUNO SIGNIFICATIVO Ninguna de las variables explicativa influye en
la respuesta.

PREGUNTA Sabrais interpretar los resultados que hemos obtenido?
Respuesta: Posible existencia de MULTICOLINEALIDAD. Malas estimaciones de los coefi-
cientes.

3.6.2 Paso a paso.
Una posibilidad en un estudio de regresin es adoptar una estrategia de paso a paso. La
idea es sencilla: primero creamos un modelo con una nica variable (la mejor), y vamos intro-
duciendo las restantes una a una, en cada paso la mejor de las que queden, si es que queda al-
guna suficientemente buena. Y tambin estaremos pendientes del hecho de si en algn
momento, alguna de las variables previamente introducidas, deja de ser buena, en cuyo caso, la
sacaramos del modelo. El proceso terminar cuando nos quedemos sin variables (las habremos
metido todas) o ninguna cumpla el correspondiente criterio lmite de entrada o salida. Con esta
estrategia prestamos la debida atencin a la multicolinealidad (la evitaremos sobre la marcha) y
estaremos estudiando la importancia de las distintas variables independientes. STATISTICA
permite adoptar esta estrategia. Antes de verlo, vamos a dar rigor a tanta comilla.

Se define, para cada variable independiente:
1) Tolerancia: es uno menos la correlacin de dicha variable con las otras variables inde-
pendientes ya incorporadas al modelo. Es decir, una tolerancia cercana a 1 corresponde a
una buena variable (no redundante) y, cercana a 0, indicara que su informacin resultara
redundante (mala variable).
2) Correlacin parcial: elevada al cuadrado y multiplicada por cien, es el porcentaje de va-
rianza explicada por la variable entre la no explicada (la residual) por las otras variables
independientes que ya forman parte del modelo. Es decir, cuanto mayor sea, mejor.
3) Semi-correlacin parcial: elevada al cuadrado y multiplicada por cien, es el porcentaje,
respecto de la variabilidad total del modelo, de la varianza explicada por la variable, entre
la no explicada (residual) por las otras variables independientes que ya forman parte del
modelo. Con idntica interpretacin a la de la correlacin parcial, tiene la ventaja de po-
der valorarse en trminos del total de la variabilidad de la variable dependiente.
Vamos a pedirle a STATISTICA un estudio paso a paso. Vamos a la ventana inicial de Esta-
dsticas/Regresin mltiple, esta vez a la pestaa Avanzado, y activamos las Opciones avanza-
das (regr. paso a paso o regr. contrada).

Al pulsar en Aceptar, nos aparece la ventana del Men bsico donde podemos elegir el mtodo.


Elegimos Por pasos hacia adelante
2
y definimos el proceso en las pestaas Avanzado y
Paso a paso.

Ah indicamos los valores que definen a las variables buenas (F
IN
) y malas (F
OUT
). El
valor vendr dado por el nivel de significacin con el que queramos trabajar (o niveles, porque
podramos elegir uno para la entrada y otro para la salida; eso s, con mucha lgica, el programa
nos obliga a que F
IN
> F
OUT
). Supongamos que tomamos =005 (tanto para IN como para OUT).

2
Por pasos hacia atrs consiste, intuitivamente, en empezar de un modelo con todas las variables, del que iremos
sacando las malas e introduciendo alguna que pueda hacerse buena.
No se introducir en el modelo
ninguna variable cuya tolerancia
sea inferior al valor indicado
N mximo de pasos
Podemos pedir los resultados
finales del proceso, o solicitar
que muestre los de cada paso.
n-k-1 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
o
0,1 3,29 3,23 3,18 3,14 3,1 3,07 3,05 3,03 3,01 2,99 2,97 2,96 2,95 2,94 2,93 2,92
0,05 4,96 4,84 4,75 4,67 4,6 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,3 4,28 4,26 4,24
0,01 10,04 9,65 9,33 9,07 8,86 8,68 8,53 8,4 8,29 8,18 8,1 8,02 7,95 7,88 7,82 7,77
Tabla de probabilidades a derecha de F
1,gl2
donde gl2=n-k-1

Vamos a ir viendo cmo va el proceso. Al pulsar en Aceptar vamos a la lnea de salida
(Paso 0).

Si hacemos clic en Correlaciones parciales obtenemos:

Cul es la mejor de las 4 variables?
Si hacemos clic en Prximo, llegamos al primer paso.

Variables que no estn en la ; Var.lectura (Estudiantes)
Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia Mnimo
Tolerancia
t(22) nivel-p
escritura
matemticas
ciencias
sociales
0,570110 0,570110 0,570110 1,000000 1,000000 3,254813 0,003631
0,549839 0,549839 0,549839 1,000000 1,000000 3,087592 0,005379
0,623599 0,623599 0,623599 1,000000 1,000000 3,741556 0,001130
0,514293 0,514293 0,514293 1,000000 1,000000 2,812742 0,010138

Efectivamente, la primera variable en entrar en el modelo ha sido ciencias pues el p-valor de su
contraste de regresin es p=000113, el menor de las cuatro variables. Lo que nos preguntamos
ahora es: Merece la pena introducir ms variables? Cul? Lo estudiamos haciendo clic de nue-
vo en Correlaciones parciales y eligiendo la pestaa, Variables que no estn en la ecuacin:

Haciendo clic en Prximo, llegamos al segundo paso (que el programa indica como final).

Si pedimos el ANOVA y los contrastes sobre los parmetros, obtenemos:

Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia Mnimo
Tolerancia
t(21) nivel-p
escritura
matemticas
sociales
0,305501 0,312143 0,244016 0,637987 0,637987 1,505649 0,147052
0,366723 0,434417 0,339603 0,857564 0,857564 2,210195 0,038327
0,225713 0,233576 0,182597 0,654444 0,654444 1,100829 0,283430
Efecto
Sumas de
Cuadrado
gl Media
Cuadrado
F nivel-p
Regresi
Residual
Total
1215,809 2 607,9046 10,67816 0,000632
1195,524 21 56,9297
2411,333
R =,71007476 R=,50420616 R ajustado =,45698770
N=24
Beta Err.est.
de Beta
B Err.est.
de B
t(21) nivel-p
Interseccin
ciencias
matemticas
-6,25474 11,90512 -0,525383 0,604821
0,485195 0,165923 0,60447 0,20671 2,924212 0,008107
0,366723 0,165923 0,53765 0,24326 2,210195 0,038327

PREGUNTA. Interpreta los resultados obtenidos (ecuacin del modelo, ANOVA, coeficiente de
determinacin y contrastes sobre los parmetros).
Respuesta:
lectura = -625474 + 060447

ciencias + 053765

matemticas
Como R
2

= 05042, el modelo explica (para la muestra) un 5042% de la variabilidad de la varia-
ble dependiente Y=lectura.
Contraste de REGRESIN: SIGNIFICATIVO. Aceptamos la regresin.
Contraste de B
1
: SIGNIFICATIVO. Rechazamos que B
1
=0.

Contraste de B
2
: SIGNIFICATIVO. Rechazamos que B
2
=0.

EJERCICIO 3.5
Comprobad que, efectivamente, el proceso paso a paso debe darse por terminado.

EJERCICIO 3.6
Compara la situacin a la que hemos llegado, con la que tenamos con el modelo completo (con-
siderando las 4 variables).

3.7. Condiciones tericas del Modelo de Regresin Lineal Mltiple
Son las mismas que en el caso simple y alguna ms:
i) Slo la variable dependiente Y se trata como variable aleatoria. Las variables
independientes se consideran dadas al observar Y.
ii) Las observaciones de Y, (Y
1
, Y
2
,...,Y
n
iii) Hiptesis estructural del modelo. Para cada individuo de la poblacin se cumple que
Y = B
0
+ B
1
X
1
+ ... + B
k
X
k
+ U siendo U una perturbacin aleatoria
Es decir, segn nuestro modelo contamos con (X
11
, X
12
,...,X
1n
),...,(X
k1
, X
k2
,...,X
kn
) valo-
res predeterminados, las observaciones (Y
1
, Y
2
,...,Y
n
) y (U
1
, U
2
,...,U
n
) de dos variables
aleatorias U e Y, y k+1 parmetros B
0
, B
1
,..., B
k
desconocidos.
iv) La esperanza de las perturbaciones aleatorias es cero, es decir, E[U
i
]=0
v) Condicin de homocedasticidad, que supone Var[U
i
] es constante respecto de las X
i
.
vi) U
i
siguen una distribucin normal.
vii) Ninguna de las variables independientes X
i
es combinacin lineal exacta del resto (au-
sencia de multicolinealidad). Si lo fuera, sobrara en el modelo.
viii) En nmero de datos disponibles ha de ser como mnimo de k+2 (es decir, n>k+2).
Variables actualmente en la ecuaci; Var.lectura (Estudiantes)
Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia R-cuadrado t(21) nivel-p
ciencias
matemticas
0,485195 0,537926 0,449314 0,857564 0,142436 2,924212 0,008107
0,366723 0,434417 0,339603 0,857564 0,142436 2,210195 0,038327
Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia Mnimo
Tolerancia
t(20) nivel-p
escritura
sociales
0,228205 0,253417 0,178437 0,611391 0,611391 1,171556 0,255144
0,135214 0,151070 0,106373 0,618891 0,618891 0,683451 0,502163

3.8. Comentarios finales
1) El algoritmo de regresin paso a paso que hemos estudiado es bastante utilizado porque
proporciona resultados razonables cuando se tiene un nmero grande de variables regre-
soras. En todo caso, la utilizacin de estos algoritmos de manera automtica es peligrosa
y una vez obtenido el modelo de regresin se debe chequear que se verifican las hiptesis
del modelo as como tener en mente el problema de regresin que se est estudiando.

EJERCICIO 3.7
Realiza un estudio de los residuos para comprobar si se cumplen estas condiciones en nuestro
problema.

2) Una vez que obtenemos un buen modelo de regresin, una de sus principales utilidades es
la realizacin de predicciones.

EJERCICIO 3.8
Utilizando el anterior modelo de regresin, qu valor pronosticas para la media de la puntuacin
en lectura de los alumnos que han obtengan 50 en ciencias y 48 en matemticas? y para un
alumno concreto?
3) En el caso mltiple se desarrollan herramientas para hacer estudios (intervalos de con-
fianza, contrastes de hiptesis,...) de grupos de coeficientes.
4) Pueden proponerse modelos de regresin no lineales, pero ah las cuentas se complican
y se hace necesaria la utilizacin de complicadas herramientas de anlisis numrico.
5) Como complemento al estudio, en el caso en el que tengamos slo dos variables explica-
tivas, podemos representar el correspondiente diagrama de dispersin 3-dimensional en
Grficos/Grficos 3D XYZ/Diagrama de dispersin...
Diag. de disp. 3D de lectura contra ciencias y matemtica
Estudiantes 5v*24c

Sesin 4.
INTRODUCCIN AL ANLISIS MULTIVARIANTE: ANLISIS DE
COMPONENTES PRINCIPALES.

4.1 Introduccin al Anlisis de Componentes Principales.

En muchas ocasiones nos encontramos con que, para analizar una situacin, disponemos
de muchas (p) variables que estn correlacionadas entre s en mayor o menor grado. Estas
correlaciones no nos permiten ver, de una forma clara, qu papel juega cada una de las
variables en el fenmeno estudiado.
Entonces nos podemos plantear cuestiones tales como:
- Es posible utilizar un nmero ms reducido de variables para explicar la situa-
cin, sin prdidas importantes de informacin?
El Anlisis de Componentes Principales nos permite pasar del conjunto de variables ini-
ciales (correlacionadas entre s) a un nuevo conjunto de variables (las componentes prin-
cipales) que estn incorreladas entre s y que adems se pueden ordenar en funcin de la
informacin que llevan incorporada.
Como medida de la cantidad de informacin incorporada en cada componente se utiliza
su varianza. Por esta razn seleccionaremos como primera componente principal la de
mayor varianza, mientras que la ltima ser la de menor varianza.
Normalmente, la extraccin de las componentes principales se hace sobre las va-
riables tipificadas, para evitar problemas relacionados con las escalas de medida.
El nuevo conjunto de variables que se obtiene por el mtodo de las componentes
principales es igual, en nmero, al de las variables originales y adems, la suma
de sus varianzas es igual a la suma de las varianzas de las variables originales
(p*1= p).
La diferencia fundamental entre ambos conjuntos es que las componentes princi-
pales estarn incorreladas entre s.
Si las variables originales estn muy correlacionadas entre s, la mayor parte de su varia-
bilidad se puede explicar con muy pocas componentes principales, mientras que si las
variables originales estuvieran incorreladas coincidiran con las componentes principales
(lo que hace intil a este mtodo).
Es importante destacar que las componentes principales se expresan como una combina-
cin lineal de las variables originales.
Desde el punto de vista de su aplicacin este mtodo se considera un mtodo de reduc-
cin, es decir, es un mtodo que nos permite reducir la dimensin del nmero de varia-
bles consideradas en el anlisis. Para ello, lo que haremos ser utilizar para explicar la
situacin, en lugar de las variables originales, unas cuantas componentes elegidas de mo-
do que expliquen la mayor parte de la variabilidad.

Un aspecto fundamental en el anlisis de las componentes principales es la interpreta-
cin de las componentes y que tendremos que realizar observando la relacin de las
componentes con las variables originales (habr que estudiar tanto el signo como la mag-
nitud de las correlaciones). Esta interpretacin no siempre es fcil y en ella juega un pa-
pel fundamental el conocimiento que el investigador tenga sobre el tema que se est ana-
lizando.

4.2 Cmo llevar a cabo un anlisis de componentes principales?

El proceso de extraccin de las componentes principales podemos resumirlo en los si-
guientes pasos:
- Anlisis de la matriz de correlaciones: Este paso es fundamental ya que, como
hemos dicho antes, este anlisis tiene sentido si existen altas correlaciones entre
las variables pues esto es indicativo de que existe informacin redundante y por lo
tanto, pocas componentes explicarn gran parte de la variabilidad.
- Seleccin de las componentes: Las componentes se seleccionan de modo que la
primera es la que recoge la mayor variabilidad, la segunda recoge la mayor varia-
bilidad no recogida por la primera y as sucesivamente hasta que consideremos
que tenemos recogida una variabilidad suficiente.
- Interpretacin de las componentes: Esta es una de las fases ms complicadas del
anlisis. Para que una componente sea fcil de interpretar tiene que tener las si-
guientes caractersticas (difciles de conseguir):
o Los coeficientes factoriales deben ser prximos a 1.
o Las variables deben tener coeficientes prximos a 1 slo en una compo-
nente.
o No deben existir componentes con coeficientes parecidos.

Vamos a introducir mediante un ejemplo las ideas fundamentales de un Anlisis de
Componentes Principales.
Supongamos que estamos interesados en medir el grado de satisfaccin de la gente con
su vida. Para ello diseamos un cuestionario con 10 preguntas acerca de aspectos que
consideramos relevantes para sentirse satisfechos: vida laboral (3 tems), vida familiar (3
tems), tiempo libre (2 tems), y satisfaccin general (2 tems).
El cuestionario se aplica a 100 personas. Los datos obtenidos se encuentran en el fichero
satisfaction
3
. Para simplificar el anlisis vamos a utilizar nicamente seis de las diez
variables: las relacionadas con la vida laboral (work_1, work_2, work_3) y las relaciona-
das con la vida familiar (home_1, home_2, home_3).
Calculamos la matriz de correlaciones:
Estadsticas / Estadsticas/Tablas Bsicas / Matrices de correlacin

3
Este es un fichero de datos de ejemplo que viene con el programa Statistica.
Sesin 4. Anlisis de componentes principales.. 69

Los elementos de esta matriz son los coeficientes de correlacin para cada pareja de va-
riables.
Slo es necesario que miremos por encima de la diagonal principal, ya que toda matriz de
correlaciones es simtrica y los elementos de la diagonal principal valen 1.
En esta matriz es posible percibir cierta estructura en los valores de sus elementos, en
concreto se observan tres bloques de correlaciones: las variables relacionadas con la vida
laboral presentan correlaciones elevadas entre ellas, las variables relacionadas con la vida
familiar tambin presentan correlaciones elevadas entre ellas, mientras que las correla-
ciones entre las variables laborales y familiares son claramente menores. Todo ello
nos hace pensar que estamos midiendo dos componentes, relativamente independientes,
de la satisfaccin general: la laboral y la familiar.
Vamos a realizar entonces, un anlisis de componentes principales.
Estadsticas / Tcnicas exploratorias multivariantes / Anlisis de componentes principales
y clasificacin.
Seleccionamos para el anlisis nuestras 6 variables.
Al pulsar en aceptar nos aparece un segundo cuadro, con ms opciones pero en el que ya
tenemos informacin procesada.


Un anlisis de componentes principales construye tantas componentes como variables
iniciales existen, en nuestro caso seis.
Si queremos obtener una descripcin en trminos de un nmero ms reducido de compo-
nentes tenemos que tomar una decisin respecto al nmero de componentes con las que
quedarnos. Para ello podemos tener en cuenta que las sucesivas componentes se constru-
yen de manera que expliquen el mximo posible de la varianza de las variables iniciales.
La componente 1 explicar toda la varianza que pueda de las variables iniciales, la com-
ponente 2 explicar toda la varianza que pueda de la que ha dejado sin explicar la com-
ponente 1, y as sucesivamente. Con seis componentes es posible explicar toda la varian-
za de las seis variables de partida.
En la tabla siguiente se han obtenido las varianzas explicadas por cada componente y las
proporciones correspondientes.
Valores propios:

Si se tipifican las variables, de manera que cada una tenga varianza unidad, la varianza
total a explicar vale 6.
En la columna Valor prop encontramos la parte de dicha varianza total explicada por
cada componente (obsrvese que la suma de dicha columna es 6). La componente 1 ex-
plica una varianza igual a 2,891, que representa el 48,189% del total. La componente 2
explica una varianza igual a 1,791, que representa el 29,850% del total. Estas dos prime-
ras componentes explican conjuntamente el 78,039% de la varianza total.
Conforme se construyen componentes sucesivas cada vez queda menos varianza pen-
diente de explicar, de manera que las ltimas componentes construidas explican un resi-
duo de varianza muy pequeo. Una manera de decidir con cuntas componentes quedarse
consiste en retener aquellas que tienen varianza explicada mayor que 1, en nuestro caso
las dos primeras.
La idea que subyace a este mtodo, que se llama mtodo de Kaiser, es la de prescindir
de componentes que no son capaces de explicar por lo menos la misma varianza que
cualquiera de las variables iniciales (que explican una varianza igual a uno, cada una).
La informacin anterior se puede ver tambin en el llamado grfico de sedimentacin
(Diagrama de exploracin):

De ahora en adelante, prescindiremos de todas las componentes con valor propio menor
que 1 (nos quedaremos con las dos primeras componentes).
Con las opciones que tenemos en la pestaa del men bsico, podemos intentar explicar
nuestras componentes:
Coordenadas de fact. de variables: nos da las coordenadas de cada una de las variables
tomando como ejes las componentes principales (y lo podemos dibujar con Diagrama
coordenadas de factores de variables 2D):


Estas coordenadas, llamadas tambin cargas de los factores, son las correlaciones entre
cada una de las variables y las componentes extradas y nos permiten escribir cada varia-
ble en funcin de los factores.
Observamos que la componente 1 presenta correlaciones elevadas con todas las varia-
bles, mientras que la componente 2 presenta correlaciones algo menores (en valor absolu-
to). Este comportamiento es esperable debido a que la componente 2 intenta explicar el
mximo posible de la varianza que ha dejado sin explicar la componente 1.
Las cargas de los factores juegan un papel fundamental en la interpretacin de la solucin
obtenida en trminos de una clasificacin de las variables. Las variables que poseen car-
gas elevadas para una componente se pueden clasificar como correspondientes a la di-
mensin que mide dicha componente.
En nuestro ejemplo la solucin obtenida no es demasiado satisfactoria, a este respecto, ya
que el patrn de cargas obtenido no permite dilucidar cules de las variables iniciales
corresponden a la dimensin representada por la componente 1.
El men bsico tambin nos permite obtener las coordenadas de cada uno de los casos
iniciales en el sistema de componentes que hemos considerado as como representar estos
puntos en 2 de las componentes (las podemos elegir):

Si queremos obtener ms informacin de las relaciones entre las variables y las compo-
nentes, podemos ir a la pestaa de variables.
Las comunalidades: Para cada variable, el valor de su comunalidad representa la pro-
porcin de variabilidad de cada variable explicada por las componentes.
Antes de la extraccin de las componentes principales, la comunalidad de cada variable
es la unidad, y despus de la extraccin nos interesa que siga siendo alta.

Las componentes principales: desde el principio, nuestro objetivo ha sido reducir la
dimensin.
Si despus de nuestro anlisis, decidimos utilizar estas 2 componentes, stas se pueden
escribir en funcin de las variables observas de la siguiente forma:
(Pestaa Casos /Puntajes (coeficientes) de factores)

Entonces:
c1= - 0.226 W_1 - 0.247 W_2 - 0.257 W_3 - 0.219 H_1 - 0.244 H_2 - 0.245 H_3
c2= - 0.315 W_1 - 0.302 W_2 - 0.284 W_3 + 0.314 H_1 + 0.320 H_2 + 0.293 H_3
Estas dos componentes son, en realidad, 2 variables sustitutas de las 6 iniciales que
representan su reduccin y que recogen el 78% de su variabilidad total.

4.3 Anlisis de Componentes Principales vs Anlisis Factorial
El anlisis de componentes principales y el anlisis factorial tienen en comn que son
tcnicas para examinar la interdependencia de variables, pero difieren en su objetivo.
- El objetivo del anlisis de componentes principales es explicar la mayor parte de
la variabilidad del conjunto de variables con el menor nmero de componentes
posible.
o Se determina el peso de cada variable en cada componente, es decir, se
explican las componentes en funcin de las variables observables.
- En el anlisis factorial, los factores se seleccionan para explicar las interrelacio-
nes entre las variables.

o Las variables observables juegan el papel de dependientes que se explican
por factores que no son observables.
El hecho de que las componentes principales se utilicen como uno de los procedimientos
de extraccin de factores en el anlisis factorial ha hecho que en muchos casos se piense
que ambos mtodos son equivalentes. A esto contribuyen tambin muchos programas
estadsticos, que incluyen ambos mtodos en el mismo procedimiento general.

Sin entrar en los detalles del anlisis factorial (que es ms complicado) vamos a aplicarlo
a nuestros datos utilizando como mtodo de extraccin de factores el anlisis de compo-
nentes principales y, con lo que hemos visto hasta ahora, podremos entender mejor las
salidas:
Estadsticas / Tcnicas exploratorias multivariantes / Anlisis de factores
Seleccionamos nuestras 6 variables y aceptamos, con lo que nos aparece el siguiente
cuadro:

Directamente nos da como nmero mximo de factores 2 y valor propio mnimo 1 (es el
criterio que aplicamos en el mtodo de anlisis de las componentes principales), esto es
as porque ese es el mtodo que tiene de extraccin de factores que tiene seleccionado
por defecto.
Si le pedimos los valores propios, la carga de los factores o el diagrama de cargas, obten-
dremos los mismos resultados que antes (con dos factores que son los que tenemos selec-
cionados):

Ajustando el eje de 1 hasta 1:

Desde la pestaa de Varianza explicada, podemos obtener tambin:
Diagrama de exploracin (sedimentacin):

Las comunalidades:

4.4 La rotacin de los factores
Como ya hemos sealado, un aspecto muy importante de un anlisis factorial es la inter-
pretabilidad, en el contexto del problema de investigacin, de los factores extrados y en

particular la posibilidad de clasificar las variables iniciales en trminos de las dimensio-
nes subyacentes definidas por los factores.
Como hemos visto en nuestro ejemplo, puede suceder que la solucin inicialmente obte-
nida no sea fcilmente interpretable. Se puede intentar mejorar dicha interpretabilidad
aplicando una rotacin a los factores.
Existen diversos mtodos de rotacin, siendo uno de los ms utilizados el llamado vari-
max. Bsicamente consiste en orientar uno de los ejes en la direccin de mxima disper-
sin, manteniendo los dems ejes ortogonales.
El mtodo Varimax tiene la ventaja de que despus de aplicado quedan invariantes tanto
la varianza explicada por los factores como las comunalidades de las variables. Este m-
todo simplifica la interpretacin de los factores.
En algunas ocasiones, para evitar que las variables con mayores comunalidades tengan
mayor influencia en la solucin final se utiliza el Varimax normalizado.

entonces, los resultados son los siguientes:

Las comunalidades:


Ahora podemos ver, claramente, que el pri-
mer factor explica la satisfaccin en el traba-
jo, mientras que el segundo factor, explica la
satisfaccin en el hogar.

Podemos escribir las componentes rotadas en funcin de las variables. Para ello usare-
mos:
entonces:
c1= 0.382 W_1 + 0.388 W_2 + 0.382 W_3 - 0.061 H_1 - 0.047 H_2 - 0.029 H_3
c2= - 0.069 W_1 - 0.045 W_2 - 0.025 W_3 + 0.378 H_1 + 0.400 H_2 + 0.381 H_3
Estas dos componentes son 2 variables sustitutas de las 6 iniciales que representan
su reduccin y que recogen el 78% de su variabilidad total.
La primera componente recoge la satisfaccin en el trabajo, mientras que la segunda re-
coge la satisfaccin en el hogar.


Los siguientes ejercicios estn sacados del libro Mtodos estadsticos avanzados con
SPSS de Csar Prez Lpez (Ed. Thomson), y se han adaptado para resolverlos con Sta-
tistica.
EJERCICIO 4.1
El fichero empresas.sav contiene informacin sobre empresas, por pases para todos los
sectores de actividad y nuestro objetivo es reducir el nmero de variables con la menor
prdida posible de informacin.
En primer lugar, calculamos la matriz de correlacin. Esto lo podemos hacer desde Esta-
dsticas / Estadsticas/Tablas bsicas /Correlaciones:

O bien ya desde el anlisis de Componentes Principales, en Estadsticas / Tcnicas explo-
ratorias multivariantes / Anlisis de componentes principales y clasificacin. En este ca-
so, tendremos que buscar nosotros las correlaciones significativas

A simple vista no se aprecia ninguna estructura de correlacin, aunque s que vemos que
hay alguna variable que tiene una alta correlacin con las dems, pero no hay muchas
variables con correlaciones altas entre s, lo que nos indica que no vamos a poder reducir
mucho la dimensin.
An as, aplicaremos el mtodo de Componentes principales (usamos todas las varia-
bles).
Aunque en la primera pantalla ya se intuye:

Pedimos los valores propios y el diagrama de exploracin para determinar con cuantas
componentes nos quedaremos:

Hay tres valores propios por encima de 1. Con 3 componentes explicaramos un 746%
de la varianza total (aadiendo una componente ms, que nos lo planteamos porque su
valor propio es casi 1, llegaramos a explicar hasta un 857% de la varianza total).
Nos vamos a quedar con 3 componentes.
Vamos a expresar cada una de las nueve variables en funcin de estas componentes:
Obtenemos las coordenadas (los coeficientes) de las variables en funcin de las compo-
nentes (c1, c2 y c3):

La proyeccin sobre las 2 primeras es:


Entonces:
Agricultura = 0.978 c1 +0.078 c2 +0.051 c3
Minera = 0.002 c1 +0.902 c2 0.211 c3 etc...
Para ver qu variables se agrupan en cada componente, buscamos aquellas cuyos coefi-
cientes sean altos en dicha componente y bajos en las otras (se considera bajo un coefi-
ciente por debajo de 0.25).
Entonces, en la primera componente est representada claramente la agricultura, y en la
segunda est la minera, sin embargo, hay variables que estn representadas en dos de las
componentes (Manufacturas o Servicios a empresas) e incluso algunas estn representa-
das en las tres (Sector Servicios o Transporte y comunicaciones). Esto nos indica que es
difcil agrupar las variables en las componentes por lo que probablemente necesitaremos
una rotacin (esta se hace con el anlisis factorial).
Tampoco nos ayudan los grficos de las proyecciones sobre los factores (es lo mismo):

A continuacin estudiaremos la comunalidad de cada variable despus de la extraccin
de las componentes. La comunalidad es la parte de la varianza de cada variable explicada
por los factores.

1 componente:
AGR 0.978
2
=0.957
2 componentes:
AGR 0.978
2
+0.078
2
=0.963
3 componentes:
AGR 0.978
2
+0.078
2
+0.051
2
=0.965

Las componentes principales se pueden escribir en funcin de las variables originales
(coeficientes de puntaje de factores):
Entonces:
c1= 0.28 AGR +0.001 MIN 0.186 MAN - ... 0.196 TC
c2= 0.037 AGR +0.423 MIN +0.243 MAN+ ... +0.138 TC
c3= 0.046 AGR 0.192 MIN 0.144 MAN+ ... +0.358 TC
Estas tres componentes son, en realidad, 3 variables sustitutas de las 9 iniciales que
representan su reduccin y que recogen el 746% de su variabilidad total.

Para completar el anlisis, y puesto que las componentes obtenidas no nos satisfacen del
todo ya que no nos permiten agrupar bien a las variables, nos podemos plantear el hacer
una rotacin de estas componentes.
Statistica no nos permite hacer esta rotacin dentro del anlisis de componentes principa-
les, pero todo este anlisis se puede hacer tambin desde el Anlisis de los factores, eli-
giendo como mtodo de extraccin el de componentes principales:

En las distintas pestaas podemos obtener los resultados anteriores. En particular en la
pestaa de cargas, tenemos el resumen de cargas de los factores:

en esta situacin no sabamos cmo agrupar las variables en los factores. Vamos a ver si
haciendo una rotacin podemos mejorar la situacin:
Si rotamos mediante un Varimax, las cargas que obtenemos son:

Hay algunos cambios respecto a la situacin anterior, y desde luego parece mejor, pero
podemos constatar que la rotacin tampoco nos soluciona el problema de agrupar las
variables.


EJERCICIO 4.2
Para estudiar las zonas de Madrid segn ciertos fenmenos de discriminacin social, se
consideran 13 variables (estn definidas en el fichero: Zonas_Madrid), que caracterizan a
sus habitantes. Se trata de establecer una diferenciacin social de Madrid mediante facto-
res (componentes) que agrupen al elevado nmero de indicadores del que se dispone.
La matriz de correlaciones da la sensacin de que s puede existir alguna estructura:

Vamos a estudiarlo. Vamos a hacerlo directamente mediante un anlisis factorial:
OJO, hay datos faltantes y hay que decirle al sistema qu hacer con ellos, por defecto
elimina el caso correspondiente (barrio de Salamanca).
Ponemos (por ejemplo) cuatro factores como mximo y valor propio mnimo=1 (el sis-
tema seleccionar el criterio con menos componentes). Entonces:
Valores propios:
Con 3 componentes (hay 3 valores propios
mayores que 1), podemos explicar algo
ms de un 89% de la varianza total, por lo
que parece aceptable.


Lo mismo nos indica el grfico de sedimen-
tacin.

Podramos seleccionar slo 2? (ya que con
2 se explica casi un 80%)

Con 2 factores, la varianza explicada de la
mayora de las variables es bastante alta,
salvo la de P65 que es especialmente baja,
y que con 3 factores llega hasta el 95%.

Para agrupar las variables en factores observamos las cargas factoriales:
Debemos buscar valores altos en un factor
y bajos en los restantes.
Aunque esto no queda demasiado claro en
este ejemplo, s que se pueden observar
cargas mayores que 07 en un nico factor,
para la mayora de las variables (slo OCU
no cumple esta condicin), lo que nos
permite intuir:
- un factor con variables de pobla-
cin y ocupacin.
- Un factor con variables de nivel de
estudios y categora laboral.
- Un factor con la poblacin jubilada.


Los factores no estn muy claros porque hay algunas mezclas y cargas altas en ms de un
factor. Vamos a hacer una rotacin para ver si podemos concretar ms:
Al hacer una rotacin Varimax, el resulta-
do es muy claro y se definen perfectamente
los 3 factores que habamos intuido antes
(incluyendo a todas las variables):
- un factor con variables de pobla-
cin y ocupacin.
- Un factor con variables de nivel de
estudios y categora laboral.
- Un factor con la poblacin jubilada.

Anexo

Tablas estadsticas

TABLA T.1. Test de Rachas.

Valores crticos del estadstico Nmero de Rachas para n
1
y n
2
20 y = 005

p = 0975

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 2 2 2 2
3 0 0 0 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3
4 0 0 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4
5 0 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5
6 0 2 3 3 3 4 4 4 5 5 5 5 5 6 6 6 6 6 6
7 0 2 3 3 4 4 4 5 5 5 6 6 6 6 6 7 7 7 7
8 2 2 3 3 4 4 5 5 6 6 6 6 7 7 7 7 8 8 8
9 2 2 3 4 4 5 5 6 6 6 7 7 7 8 8 8 8 9 9
10 2 3 3 4 5 5 6 6 6 7 7 8 8 8 8 9 9 9 9
11 2 3 3 4 5 5 6 6 7 8 9 9 9 10 10 10 10 11 7
12 2 3 4 4 5 6 6 7 7 9 8 8 8 9 9 9 10 10 10
13 2 3 4 4 5 6 6 7 8 9 8 9 9 10 10 10 11 11 11
14 2 3 4 5 5 6 7 7 8 9 8 9 10 10 11 11 11 12 12
15 2 3 4 5 6 6 7 8 8 10 9 10 10 11 11 11 12 12 12
16 2 3 4 5 6 6 7 8 8 10 9 10 11 11 11 12 12 12 12
17 2 3 4 5 6 7 7 8 9 10 9 10 11 11 12 12 13 13 13
18 2 3 4 5 6 7 8 8 9 10 10 11 11 12 12 13 13 14 14
19 2 3 4 5 6 7 8 9 9 11 10 11 10 12 12 13 14 14 14
20 2 3 4 5 6 7 8 9 9 7 10 11 12 12 12 13 14 14 15

p = 0025

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 4 5 5 5 5 5 3 5 5 5 5 5 5 5 5 5 5 5 5
3 5 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
4 5 6 7 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9
5 5 7 8 8 9 9 10 10 10 11 11 11 11 11 11 11 11 11 11
6 5 7 8 9 10 10 11 11 11 12 12 12 12 13 13 13 13 13 13
7 5 7 8 9 10 11 12 12 12 13 13 13 13 14 14 14 14 14 14
8 5 7 9 10 11 12 12 13 13 14 14 14 15 15 15 15 15 15 16
9 5 7 9 10 11 12 13 13 14 14 15 15 16 16 16 16 17 17 17
10 5 7 9 10 11 12 13 14 15 15 16 16 16 17 17 17 18 18 18
11 5 7 9 11 12 13 14 14 15 17 17 18 18 19 19 20 20 20 16
12 5 7 9 11 12 13 14 15 16 17 16 17 17 18 18 18 19 19 19
13 5 7 9 11 12 13 14 15 16 18 17 18 19 19 20 20 20 21 21
14 5 7 9 11 12 13 15 16 16 18 17 19 19 20 20 21 21 22 22
15 5 7 9 11 13 14 15 16 17 19 18 19 20 20 21 21 22 22 23
16 5 7 9 11 13 14 15 16 17 19 18 20 20 21 22 22 22 23 23
17 5 7 9 11 13 14 15 16 17 20 18 20 21 21 22 23 23 24 24
18 5 7 9 11 13 14 15 17 18 20 19 20 21 22 22 23 24 25 25
19 5 7 9 11 13 14 15 17 18 20 19 21 19 22 23 24 25 25 26
20 5 7 9 11 13 14 16 17 18 16 19 21 22 23 23 24 25 26 26

TABLA T.1. Test de Rachas. (Continuacin)

Valores crticos del estadstico Nmero de Rachas para n
1
y n
2
20 y = 001

p = 0995

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2
3 0 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 2 2 2
4 0 0 0 0 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3
5 0 0 0 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4
6 0 0 2 2 2 3 3 3 3 4 4 4 4 4 4 5 5 5 5
7 0 0 2 2 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6
8 0 0 2 2 3 3 4 4 4 4 5 5 5 5 6 6 6 6 6
9 0 2 2 3 3 4 4 4 5 5 5 6 6 6 6 7 7 7 7
10 0 2 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8
11 0 2 2 3 4 4 4 5 5 7 7 7 8 8 8 8 9 9 6
12 0 2 3 3 4 4 5 5 6 7 6 6 7 7 7 8 8 8 8
13 0 2 3 3 4 5 5 6 6 7 6 7 8 8 8 9 9 9 10
14 0 2 3 3 4 5 5 6 6 8 7 8 8 8 9 9 9 10 10
15 0 2 3 4 4 5 5 6 7 8 7 8 8 9 9 10 10 10 11
16 0 2 3 4 4 5 6 6 7 8 7 8 9 9 10 10 10 10 10
17 0 2 3 4 5 5 6 7 7 8 8 9 9 10 10 10 11 11 11
18 0 2 3 4 5 5 6 7 7 9 8 9 9 10 10 11 11 12 12
19 2 2 3 4 5 6 6 7 8 9 8 9 10 10 10 11 12 12 12
20 2 2 3 4 5 6 6 7 8 6 8 10 10 11 10 11 12 12 13

p = 0005

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
3 5 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
4 5 7 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
5 5 7 9 9 10 10 11 10 11 11 11 11 11 11 11 11 11 11 11
6 5 7 9 10 11 11 12 12 13 13 13 13 13 13 13 13 13 13 13
7 5 7 9 10 11 12 12 13 14 14 14 15 15 15 15 15 15 15 15
8 5 7 9 11 12 12 13 14 14 15 15 16 16 16 16 17 17 17 17
9 5 7 9 10 12 13 14 15 15 16 16 17 17 17 17 17 18 18 18
10 5 7 9 11 13 14 14 15 16 17 17 18 18 18 19 19 19 19 19
11 5 7 9 11 13 14 15 16 17 18 19 20 20 21 21 21 22 22 17
12 5 7 9 11 13 14 15 16 17 19 18 18 19 19 20 20 20 21 21
13 5 7 9 11 13 15 16 17 18 20 18 20 20 21 21 22 22 23 23
14 5 7 9 11 13 15 16 17 18 20 19 20 21 22 22 23 23 23 24
15 5 7 9 11 13 15 16 17 18 21 19 21 22 22 23 23 24 24 25
16 5 7 9 11 13 15 16 17 19 21 20 21 22 23 23 24 24 25 25
17 5 7 9 11 13 15 17 17 19 21 20 22 23 23 24 25 25 26 26
18 5 7 9 11 13 15 17 18 19 22 20 22 23 24 24 25 26 26 27
19 5 7 9 11 13 15 17 18 19 22 21 23 23 24 25 26 26 27 28
20 5 7 9 11 13 15 17 18 19 17 21 23 24 25 25 26 27 28 28

Para n
1
n
2
> 20, el Nmero de Rachas sigue aproximadamente una distribucin Normal de

media = =
2n
1
n
2
n
1
+ n
2
+1
y

varianza =
2
=
2n
1
n
2
(2n
1
n
2
n
1
n
2
)
n
1
+ n
2
( )
2
n
1
+ n
2
1
( )

TABLA T.2. Probabilidad de una variable chi-cuadrado con n grados de libertad X ~

n
2

{ } sombreada rea = = > p x X P

p
n 001 0025 005 010 015 025 05 075 085 09 095 0975 099
1 6635 5024 3841 2706 2072 1323 0455 0102 0036 0016 0003932 0000982 0000157
2 9210 7378 5991 4605 3794 2773 1386 0575 0325 0211 0103 0051 0020
3 11345 9348 7815 6251 5317 4108 2366 1213 0798 0584 0352 0216 0115
4 13277 11143 9488 7779 6745 5385 3357 1923 1366 1064 0711 0484 0297
5 15086 12833 11070 9236 8115 6626 4351 2675 1994 1610 1145 0831 0554
6 16812 14449 12592 10645 9446 7841 5348 3455 2661 2204 1635 1237 0872
7 18475 16013 14067 12017 10748 9037 6346 4255 3358 2833 2167 1690 1239
8 20090 17535 15507 13362 12027 10219 7344 5071 4078 3490 2733 2180 1646
9 21666 19023 16919 14684 13288 11389 8343 5899 4817 4168 3325 2700 2088
10 23209 20483 18307 15987 14534 12549 9342 6737 5570 4865 3940 3247 2558
11 24725 21920 19675 17275 15767 13701 10341 7584 6336 5578 4575 3816 3053
12 26217 23337 21026 18549 16989 14845 11340 8438 7114 6304 5226 4404 3571
13 27688 24736 22362 19812 18202 15984 12340 9299 7901 7042 5892 5009 4107
14 29141 26119 23685 21064 19406 17117 13339 10165 8696 7790 6571 5629 4660
15 30578 27488 24996 22307 20603 18245 14339 11037 9499 8547 7261 6262 5229
16 32000 28845 26296 23542 21793 19369 15338 11912 10309 9312 7962 6908 5812
17 33409 30191 27587 24769 22977 20489 16338 12792 11125 10085 8672 7564 6408
18 34805 31526 28869 25989 24155 21605 17338 13675 11946 10865 9390 8231 7015
19 36191 32852 30144 27204 25329 22718 18338 14562 12773 11651 10117 8907 7633
20 37566 34170 31410 28412 26498 23828 19337 15452 13604 12443 10851 9591 8260
21 38932 35479 32671 29615 27662 24935 20337 16344 14439 13240 11591 10283 8897
22 40289 36781 33924 30813 28822 26039 21337 17240 15279 14041 12338 10982 9542
23 41638 38076 35172 32007 29979 27141 22337 18137 16122 14848 13091 11689 10196
24 42980 39364 36415 33196 31132 28241 23337 19037 16969 15659 13848 12401 10856
25 44314 40646 37652 34382 32282 29339 24337 19939 17818 16473 14611 13120 11524
26 45642 41923 38885 35563 33429 30435 25336 20843 18671 17292 15379 13844 12198
27 46963 43195 40113 36741 34574 31528 26336 21749 19527 18114 16151 14573 12879
28 48278 44461 41337 37916 35715 32620 27336 22657 20386 18939 16928 15308 13565
29 49588 45722 42557 39087 36854 33711 28336 23567 21247 19768 17708 16047 14256
30 50892 46979 43773 40256 37990 34800 29336 24478 22110 20599 18493 16791 14953
31 52191 48232 44985 41422 39124 35887 30336 25390 22976 21434 19281 17539 15655
32 53486 49480 46194 42585 40256 36973 31336 26304 23844 22271 20072 18291 16362
33 54776 50725 47400 43745 41386 38058 32336 27219 24714 23110 20867 19047 17074
34 56061 51966 48602 44903 42514 39141 33336 28136 25586 23952 21664 19806 17789
35 57342 53203 49802 46059 43640 40223 34336 29054 26460 24797 22465 20569 18509
36 58619 54437 50998 47212 44764 41304 35336 29973 27336 25643 23269 21336 19233
37 59893 55668 52192 48363 45886 42383 36336 30893 28214 26492 24075 22106 19960
38 61162 56896 53384 49513 47007 43462 37335 31815 29093 27343 24884 22878 20691
39 62428 58120 54572 50660 48126 44539 38335 32737 29974 28196 25695 23654 21426
40 63691 59342 55758 51805 49244 45616 39335 33660 30856 29051 26509 24433 22164
41 64950 60561 56942 52949 50360 46692 40335 34585 31740 29907 27326 25215 22906
42 66206 61777 58124 54090 51475 47766 41335 35510 32626 30765 28144 25999 23650
43 67459 62990 59304 55230 52588 48840 42335 36436 33512 31625 28965 26785 24398
44 68710 64201 60481 56369 53700 49913 43335 37363 34400 32487 29787 27575 25148
45 69957 65410 61656 57505 54810 50985 44335 38291 35290 33350 30612 28366 25901
50 76154 71420 67505 63167 60346 56334 49335 42942 39754 37689 34764 32357 29707
55 82292 77380 73311 68796 65855 61665 54335 47610 44245 42060 38958 36398 33570
60 88379 83298 79082 74397 71341 66981 59335 52294 48759 46459 43188 40482 37485
65 94422 89177 84821 79973 76807 72285 64335 56990 53293 50883 47450 44603 41444
70 100425 95023 90531 85527 82255 77577 69334 61698 57844 55329 51739 48758 45442
75 106393 100839 96217 91061 87688 82858 74334 66417 62412 59795 56054 52942 49475
80 112329 106629 101879 96578 93106 88130 79334 71145 66994 64278 60391 57153 53540
85 118236 112393 107522 102079 98511 93394 84334 75881 71589 68777 64749 61389 57634
90 124116 118136 113145 107565 103904 98650 89334 80625 76195 73291 69126 65647 61754
95 129973 123858 118752 113038 109286 103899 94334 85376 80813 77818 73520 69925 65898
100 135807 129561 124342 118498 114659 109141 99334 90133 85441 82358 77929 74222 70065

0 x
p
TABLA T.3. Test de los rangos con signo de Wilcoxon

Valores crticos de los estadsticos de Wilcoxon para n 30

p

n 0995 099 0975 095 005 0025 001 0005
5 - - - 0 15 - - -
6 - - 0 2 19 21 - -
7 - 0 2 3 25 26 28 -
8 0 1 3 5 31 33 35 36
9 1 3 5 8 37 40 42 44
10 3 5 8 10 45 47 50 52
11 5 7 10 13 53 56 59 61
12 7 9 13 17 61 65 69 71
13 9 12 17 21 70 74 79 82
14 12 15 21 25 80 84 90 93
15 15 19 25 30 90 95 101 105
16 19 23 29 35 101 107 113 117
17 23 27 34 41 112 119 126 130
18 27 32 40 47 124 131 139 144
19 32 37 46 53 137 144 153 158
20 37 43 52 60 150 158 167 173
21 42 49 58 67 164 173 182 189
22 48 55 65 75 178 188 198 205
23 54 62 73 83 193 203 214 222
24 61 69 81 91 209 219 231 239
25 68 76 89 100 225 236 249 257
26 75 84 98 110 241 253 267 276
27 83 92 107 119 259 271 286 295
28 91 101 116 130 276 290 305 315
29 100 110 126 140 295 309 325 335
30 109 120 137 151 314 328 345 356

Para n > 30, los estadsticos de Wilcoxon siguen aproximadamente una distribucin Normal de

media = =
n n+1
( )
4
y

varianza =
2
=
n n+1
( )
2n+1
( )
24

TABLA T.4. Test de la U de Mann - Whitney.

Valores crticos del estadstico U de Mann Whitney para n
1
y n
2
20

p = 0001

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
4 0 0 0 0 0 0 0 0 1 1 I 2 2 2 3 3 4 4 4
5 0 0 0 0 0 0 1 2 2 3 3 4 4 5 6 6 7 8 8
6 0 0 0 0 0 0 2 3 4 5 5 6 7 8 9 10 11 12 13
7 0 0 0 0 1 2 3 4 6 7 8 9 10 11 12 14 15 16 17
8 0 0 0 1 2 3 5 6 7 9 10 12 13 15 16 18 19 21 22
9 0 0 0 2 3 4 6 8 9 11 13 15 16 18 20 22 24 26 27
10 0 0 1 2 4 6 7 9 11 13 15 18 20 22 24 26 28 30 33
11 0 0 1 3 5 7 9 11 13 16 18 21 23 25 28 30 33 35 38
12 0 0 1 3 5 8 10 13 15 18 21 24 26 29 32 35 38 41 43
13 0 0 2 4 6 9 12 15 18 21 24 27 30 33 36 39 43 46 49
14 0 0 2 4 7 10 13 16 20 23 26 30 33 37 40 44 47 51 55
15 0 0 2 5 8 11 15 18 22 25 29 33 37 41 44 48 52 56 60
16 0 0 3 6 9 12 16 20 24 28 32 36 40 44 49 53 57 61 66
17 0 1 3 6 10 14 18 22 26 30 35 39 44 48 53 58 62 67 71
18 0 1 4 7 11 15 19 24 28 33 38 43 47 52 57 62 67 72 77
19 0 1 4 8 12 16 21 26 30 35 41 46 51 56 61 67 72 78 83
20 0 1 4 8 13 17 22 27 33 38 43 49 55 60 66 71 77 83 89

p = 0005

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
3 0 0 0 0 0 0 0 1 1 1 2 2 2 3 3 3 3 4 4
4 0 0 0 0 1 1 2 2 3 3 4 4 5 6 6 7 7 8 9
5 0 0 0 1 2 2 3 4 5 6 7 8 8 9 10 11 12 13 14
6 0 0 1 2 3 4 5 6 7 8 10 11 12 13 14 16 17 18 19
7 0 0 1 2 4 5 7 8 10 11 13 14 16 17 19 20 22 23 25
8 0 0 2 3 5 7 8 10 12 14 16 18 19 21 23 25 27 29 31
9 0 1 2 4 6 8 10 12 14 17 19 21 23 25 28 30 32 34 37
10 0 1 3 5 7 10 12 14 17 19 22 25 27 30 32 35 38 40 43
11 0 1 3 6 8 11 14 17 19 22 25 28 31 34 37 40 43 46 49
12 0 2 4 7 10 13 16 19 22 25 28 32 35 38 42 45 48 52 55
13 0 2 4 8 11 14 18 21 25 28 32 35 39 43 46 50 54 58 61
14 0 2 5 8 12 16 19 23 27 31 35 39 43 47 51 55 59 6.1 68
15 0 3 6 9 13 17 21 25 30 34 38 43 47 52 56 61 65 70 74
16 0 3 6 10 14 19 23 28 32 37 42 46 51 56 61 66 71 75 80
17 0 3 7 11 16 20 25 30 35 40 45 50 55 61 66 71 76 82 87
18 0 3 7 12 17 22 27 32 38 43 48 54 59 65 71 76 82 88 93
19 1 4 8 13 18 23 29 34 40 46 52 58 64 70 75 82 88 94 100
20 1 4 9 14 19 25 31 37 43 49 55 61 68 74 80 87 93 100 106

TABLA T.4. Test de la U de Mann - Whitney. (Continuacin)

Valores crticos del estadstico U de Mann Whitney para n
1
y n
2
20

p = 001

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 2 2
3 0 0 0 0 0 1 1 2 2 2 3 3 3 4 4 5 5 5 6
4 0 0 0 1 2 2 3 4 4 5 6 6 7 8 8 9 10 10 11
5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
6 0 0 2 3 4 5 7 8 9 10 12 13 14 16 16 19 20 21 23
7 0 1 2 4 5 7 8 10 12 13 15 17 18 20 22 24 25 27 29
8 0 1 3 5 7 8 10 12 14 16 18 21 23 25 27 29 31 33 35
9 0 2 4 6 8 10 12 15 17 19 22 24 27 29 32 34 37 39 41
10 0 2 4 7 9 12 14 17 20 23 25 28 31 34 37 39 42 45 48
11 0 2 5 8 10 13 16 19 23 26 29 32 35 38 42 45 48 51 54
12 0 3 6 9 12 15 18 22 25 29 32 36 39 43 47 50 54 57 61
13 1 3 6 10 13 17 21 24 28 32 36 40 44 48 52 56 60 64 68
14 1 3 7 11 14 18 23 27 31 35 39 44 48 52 57 64 66 72 74
15 1 4 8 12 16 20 25 29 34 38 43 48 52 57 62 67 71 76 81
16 1 4 8 13 17 22 27 32 37 42 47 52 57 62 67 72 77 83 88
17 1 5 9 14 19 24 29 34 39 45 50 56 61 67 72 78 83 89 94
18 1 5 10 15 20 25 31 37 42 48 54 60 66 71 77 83 89 95 101
19 2 5 10 16 21 27 33 39 45 51 57 64 70 76 83 89 95 102 108
20 2 6 11 17 23 29 35 41 48 54 61 68 74 81 88 94 101 108 115

p = 0025

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 1 1 1 1 2 2 2 2 2 3 3 3 3
3 0 0 0 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9
4 0 0 1 2 3 4 5 5 6 7 8 9 10 11 12 12 13 14 15
5 0 1 2 3 4 6 7 8 9 10 12 13 14 15 16 18 19 20 21
6 0 2 3 4 6 7 9 11 12 14 15 17 18 20 22 23 25 26 28
7 0 2 4 6 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
8 1 3 5 7 9 11 14 16 18 20 23 25 27 30 32 35 37 39 42
9 1 3 5 8 11 13 16 18 21 24 27 29 32 35 38 40 43 46 49
10 1 4 6 9 12 15 18 21 24 27 30 34 37 40 43 46 49 53 56
11 1 4 7 10 14 17 20 24 27 31 34 38 41 45 48 52 56 59 63
12 2 5 8 12 15 19 23 27 30 34 38 42 46 50 54 58 62 66 70
13 2 5 9 13 17 21 25 29 34 38 42 46 51 55 60 64 68 73 77
14 2 6 10 14 18 23 27 32 37 41 46 51 56 60 65 70 75 79 84
15 2 6 11 15 20 25 30 35 40 45 50 55 60 65 71 76 81 86 91
16 2 7 12 16 22 27 32 38 43 48 54 60 65 71 73 82 87 93 99
17 3 7 12 18 23 29 35 40 46 52 58 64 70 76 82 88 94 100 106
18 3 8 13 19 25 31 37 43 49 56 62 68 71 81 87 94 100 107 113
19 3 8 14 20 26 33 39 46 53 59 66 73 79 86 93 100 107 114 120
20 3 9 15 21 28 35 42 49 56 63 70 77 84 91 99 106 113 120 128

Para n
1
n
2
> 20, sigue aproximadamente una distribucin Normal N( , ) con

=
n
1
n
2
2
y

2
=
n
1
n
2
(n
1
+ n
2
+1)
12

TABLA T.5. Valores crticos en la prueba de Durbin Watson para =10%

n k d
L
d
U
n k d
L
d
U
n k d
L
d
U

6 1 0,61018 1,40015 17 5 0,66414 2,10414 22 5 0.86285 1.93996
7 1 0,69955 1,35635 17 6 0,55423 2,31755 22 6 0.76898 2.09015
7 2 0,46723 1,89636 17 7 0,45107 2,53660 22 7 0.67719 2.24646
8 1 0,76290 1,33238 17 8 0,35639 2,75688 22 8 0.58843 2.40718
8 2 0,55907 1,77711 17 9 0,27177 2,97455 22 9 0.50363 2.57051
8 3 0,36744 2,28664 17 10 0,19784 3,18400 22 10 0.42363 2.73452
9 1 0,82428 1,31988 17 11 0,13763 3,37817 22 11 0.34926 2.89726
9 2 0,62910 1,69926 17 12 0,08711 3,55716 22 12 0.28119 3.05662
9 3 0,45476 2,12816 18 1 1,15759 1,39133 22 13 0.22003 3.21061
9 4 0,29571 2,58810 18 2 1,04607 1,53525 22 14 0.16642 3.35756
10 1 0,87913 1,31971 18 3 0,93310 1,69614 22 15 0.12028 3.49463
10 2 0,69715 1,64134 18 4 0,82044 1,87189 22 16 0.08315 3.61880
10 3 0,52534 2,01632 18 5 0,70984 2,06000 22 17 0.05242 3.73092
10 4 0,37602 2,41365 18 6 0,60301 2,25750 23 1 1.25665 1.43747
10 5 0,24269 2,82165 18 7 0,50158 2,46122 23 2 1.16815 1.54346
11 1 0,92733 1,32409 18 8 0,40702 2,66753 23 3 1.07778 1.65974
11 2 0,75798 1,60439 18 9 0,32076 2,87268 23 4 0.98639 1.78546
11 3 0,59477 1,92802 18 10 0,24405 3,07345 23 5 0.89488 1.91958
11 4 0,44406 2,28327 18 11 0,17732 3,26497 23 6 0.80410 2.06093
11 5 0,31549 2,64456 18 12 0,12315 3,44141 23 7 0.71493 2.20816
11 6 0,20253 3,00447 18 13 0,07786 3,60315 23 8 0.62821 2.35988
12 1 0,97076 1,33137 19 1 1,18037 1,40118 23 9 0.54478 2.51449
12 2 0,81221 1,57935 19 2 1,07430 1,53553 23 10 0.46541 2.67038
12 3 0,65765 1,86397 19 3 0,96659 1,68509 23 11 0.39083 2.82585
12 4 0,51198 2,17662 19 4 0,85876 1,84815 23 12 0.32172 2.97919
12 5 0,37956 2,50609 19 5 0,75231 2,02262 23 13 0.25866 3.12852
12 6 0,26813 2,83196 19 6 0,64870 2,20614 23 14 0.20216 3.27216
12 7 0,17144 3,14940 19 7 0,54938 2,39602 23 15 0.15274 3.40865
13 1 1,00973 1,34040 19 8 0,45571 2,58939 23 16 0.11029 3.53549
13 2 0,86124 1,56212 19 9 0,36889 2,78312 23 17 0.07619 3.65007
13 3 0,71465 1,81593 19 10 0,29008 2,97399 23 18 0.04801 3.75327
13 4 0,57446 2,09428 19 11 0,22029 3,15930 24 1 1.27276 1.44575
13 5 0,44448 2,38967 19 12 0,15979 3,33481 24 2 1.18781 1.54639
13 6 0,32775 2,69204 19 13 0,11082 3,49566 24 3 1.10100 1.65649
13 7 0,23049 2,98506 19 14 0,07001 3,64241 24 4 1.01309 1.77526
13 8 0,14693 3,26577 20 1 1,20149 1,41073 24 5 0.92486 1.90184
14 1 1,04495 1,35027 20 2 1,10040 1,53668 24 6 0.83706 2.03522
14 2 0,90544 1,55066 20 3 0,99755 1,67634 24 7 0.75048 2.17427
14 3 0,76666 1,77882 20 4 0,89425 1,82828 24 8 0.66589 2.31774
14 4 0,63206 2,02955 20 5 0,79179 1,99079 24 9 0.58400 2.46431
14 5 0,50516 2,29593 20 6 0,69146 2,16189 24 10 0.50554 2.61260
14 6 0,38897 2,57158 20 7 0.59454 2.33937 24 11 0.43119 2.76111
14 7 0,28559 2,84769 20 8 0.50220 2.52082 24 12 0.36156 2.90835
14 8 0,20013 3,11121 20 9 0.41559 2.70374 24 13 0.29723 3.05282
14 9 0,12726 3,36038 20 10 0.33571 2.88535 24 14 0.23869 3.19285
15 1 1,07697 1,36054 20 11 0.26349 3.06292 24 15 0.18635 3.32700
15 2 0,94554 1,54318 20 12 0.19978 3.23417 24 16 0.14066 3.45402
15 3 0,81396 1,75014 20 13 0.14472 3.39540 24 17 0.10150 3.57167
15 4 0,68519 1,97735 20 14 0.10024 3.54250 24 18 0.07006 3.67769
15 5 0,56197 2,21981 20 15 0.06327 3.67619 24 19 0.04413 3.77297
15 6 0,44707 2,47148 21 1 1.22115 1.41997 25 1 1.28791 1.45371
15 7 0,34290 2,72698 21 2 1.12461 1.53849 25 2 1.20625 1.54954
15 8 0,25090 2,97866 21 3 1.02624 1.66942 25 3 1.12276 1.65403
15 9 0,17531 3,21604 21 4 0.92719 1.81157 25 4 1.03811 1.76655
15 10 0,11127 3,43819 21 5 0.82856 1.96350 25 5 0.95297 1.88634
16 1 1,10617 1,37092 21 6 0.73149 2.12355 25 6 0.86803 2.01252
16 2 0,98204 1,53860 21 7 0.63710 2.28988 25 7 0.78400 2.14412
16 3 0,85718 1,72773 21 8 0.54645 2.46051 25 8 0.70154 2.28007
16 4 0,73400 1,93506 21 9 0.46055 2.63324 25 9 0.62133 2.41924
16 5 0,61495 2,15672 21 10 0.38035 2.80588 25 10 0.54401 2.56041
16 6 0,50223 2,38813 21 11 0.30669 2.97600 25 11 0.47019 2.70229
16 7 0,39805 2,62409 21 12 0.24033 3.14129 25 12 0.40046 2.84360
16 8 0,30433 2,86009 21 13 0.18198 3.29979 25 13 0.33536 2.98300
16 9 0,22206 3,08954 21 14 0.13166 3.44827 25 14 0.27536 3.11913
16 10 0,15479 3,30391 21 15 0.09111 3.58322 25 15 0.22090 3.25058
16 11 0,09809 3,50287 21 16 0.05747 3.70544 25 16 0.17231 3.37604
17 1 1,13295 1,38122 22 1 1.23949 1.42888 25 17 0.12995 3.49447
17 2 1,01543 1,53614 22 2 1.14713 1.54079 25 18 0.09371 3.60384
17 3 0,89675 1,71009 22 3 1.05292 1.66398 25 19 0.06465 3.70220
17 4 0,77898 1,90047 22 4 0.95783 1.79744 25 20 0.04070 3.79041

Curso Avanzado Statistica 2012

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Curso Avanzado Statistica 2012

Transféré par

Droits d'auteur :

Formats disponibles

Departamento de Matemticas y Computacin

Curso avanzado de anlisis

T de Wilcoxon que se obtienen de sumar

T sean aproximadamente iguales y, a su

Vous aimerez peut-être aussi