Académique Documents
Professionnel Documents
Culture Documents
Anlisis de la varianza
Vicente Manzano Arrondo 2014
Situacin de partida
1
4 7 6 5 1 3 3 1 2 6
3 3 6 4 2 1 4 3 3 1
3 4 4 4 5 4 1 3 7 4
4 1 5 1 5 6 6 4 3 2
6 4 2 6 1 6 7 7 3 4
3 5 3 5 1 6 4 5 6 3
2 6 4 5 7 3 7 3 7 2
1 1 3 5 3 7 4 4 4 6
1 7 7 6 1 1 2 7 4 7
1 7 3 3 3 5 6 6 2 6
X f Xf d2f
1 15 15 135
=
X 400
2 8 16 32 X = =4
3 20 60 20 n 100
4 18 72 0
5 10 50 10
6 16 96 64
7 13 91 117
100 400 378
2
S=
( X X )2 =
n 378
100
= 1,94
3
variabilidad en su grado de acuerdo con la alineacin.
Tal vez no. Solo hay una forma de saberlo:
comprobarlo. As que vamos a agrupar los cien datos
segn el equipo preferido de quien responde. Ocurre
que solo hay tres equipos mencionados: el San
Jernimo United, el Cnovas Ftbol Party y el Trini &
Jons, todos muy castizos como puede deducirse. Al
agrupar los datos segn el club de ftbol preferido,
obtenemos lo que sigue:
4
poco de detenimiento. Con sus respectivas tablas de
frecuencia, ser ms evidente esta afirmacin:
=
X 64
X = =2
n 32
S=
( X
n
)2
X
=
40
33
= 1,101
=
X 136
X = =4
n 34
5
S=
( X
n
)2
X
=
40
34
= 1,08
=
X 192
X = =6
n 32
S=
( X
n
)2
X
=
34
33
= 1,015
6
marcada variacin entre los grupos y una relativamente
baja variacin dentro de los grupos. De algn modo,
ahora podemos comprender mejor la conducta grado
de acuerdo con la alineacin: en cierta medida se
entiende a partir del club de ftbol preferido por quien
responde. Quienes menos acuerdo muestran son los
de San Jernimo United. Quienes ms, los de Trini &
Jons. Quiz, si supiramos de dnde proceden los
jugadores de la seleccin nacional, accederamos a
una explicacin razonable. Es posible que la alineacin
cuente con ms procedencias de TJ que de SJU y esto
complazca o disguste, respectivamente, a quienes
opinan. Es una suposicin, puesto que no tenemos
informacin que corrobore esta arriesgada hiptesis.
En cualquier caso, por lo que llevamos de anlisis de
los datos, parece que algo tiene que ver el club de
referencia frente a la opinin.
Representacin grfica
7
a ver cmo llegar a conclusiones similares con un
instrumento grfico.
7
6
5
4
3
2
1
0
SJU TJ CFP
8
7
6
5
4
3
2
1
0
SJU TJ CFP
9
club de ftbol preferido es nominal. El orden con que
se presenten sus valores es irrelevante.
En nuestro ejemplo, la diferencia entre las
medias aritmticas es muy sobresaliente. La
representacin grfica muestra este hecho con
claridad. Es frecuente que esta diferencia sea ms sutil.
En tales casos, los programas de ordenador suelen
exagerar la conclusin de diferencia. No es fruto de una
mala intencin, sino un efecto secundario del principio
resaltar la zona significativa. Imagina que las medias
tuvieran los valores 6, 6,2 y 6,1 respectivamente. Como
resulta evidente, son diferencias muy pequeas.
Observa dos versiones de los mismos datos
representados mediante un diagrama de lneas.
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
SJU TJ CFP
10
6,3
6,2
6,1
6,0
5,9
SJU TJ CFP
11
eliminando la zona de la grfica que no parece aadir
nada porque no contiene informacin especfica. Sin
embargo, s aade mucho: permite relativizar la
diferencia, comparndola con un referente absoluto.
Para una buena conclusin hemos de partir siempre de
una representacin que comience a caminar desde el
inicio, es decir, con un origen vertical en cero.
El diagrama de medias es intuitivo y fcil de
interpretar, pero utiliza una informacin muy
incompleta: slo considera la cuanta de las medias. Ya
sabemos de la primera unidad de aprendizaje (conocer
una variable) que toda representacin numrica ha de
ir acompaada de una medida de bondad de la
representacin. En ocasiones, lo ms caracterstico es
la variacin, ms que un valor supuestamente
representativo. Si los grupos varan mucho dentro de
s, la variacin que guarden entre s pierde importancia.
En una representacin grfica, esta circunstancia
podra resolverse si se incluye, junto con la media, un
valor de variacin. En lugar de complicar ms esta
grfica, contamos ya con un recurso que contiene ms
informacin y que tiene su razn de ser en situaciones
como esta. Me estoy refiriendo al diagrama de caja y
patillas.
Hemos conocido el diagrama de caja y patillas
en el caso de representar una variable cuantitativa.
Vamos a utilizarlo ahora para observar en qu medida
hay diferencias entre varios grupos respecto a una
12
variable cuantitativa. Para ello, cada grupo va a generar
un diagrama de caja y patillas y lo calificaremos como
combinado. Y los tres estarn juntos compartiendo el
mismo espacio. Esto facilitar la interpretacin.
13
trazo grueso dentro de cada caja) son muy diferentes,
sino que los valores ms caractersticos (el 50%
central, representado por cada caja) se encuentran en
franjas diferentes, no se solapan. Esta ausencia de
solapamiento entre las cajas constituye un criterio de
peso a la hora de sentenciar diferencias significativas
entre los grupos. Las patillas no aaden ms
informacin sobre esta circunstancia. Lo que hacen es
matizar en trminos de simetra. Como puede verse,
San Jernimo y Cnovas muestra asimetra positiva
(dispersin de datos en la zona de los valores altos),
mientras que Trini&Jons cuenta con asimetra
negativa (dispersin en la zona de los valores bajos).
14
(diagrama de medias o diagrama de caja y patillas
combinado) y observar cmo se comporta la variacin:
si hay una marcada diferencia entre los grupos y, a la
vez, poca variacin dentro de los grupos, entonces
existe relacin. Nos ocuparemos ms despacio de este
juego de variaciones. Ahora sigamos con el asunto de
la relacin. Nos ocupan dos aspectos: qu estamos
entendiendo por variable formadora de grupos y de qu
tipo de relacin estamos hablando.
La variable categrica o formadora de grupos
ser habitualmente una variable nominal, como ocurre
con nuestro ejemplo. No tiene por qu ser siempre as.
Podemos utilizar una variable ordinal. Es cierto que si
la ordinal cuenta con suficientes valores y el sistema de
medida nos da confianza como para tratarla de
cuasicuantitativa, tal vez lo ms idneo sea acudir a un
diagrama de dispersin y un coeficiente de correlacin
lineal simple de Pearson, es decir, abordar la relacin
como la que se establece entre dos variables
cuantitativas. Esto sera inicialmente correcto. No
obstante, recuerda que aplicar r de Pearson exige que
la relacin que exista entre ambas variables, sea
mucha o poca, debe ser del tipo lineal, es decir,
representable mediante una lnea recta. Si la
representacin grfica indica que no es lineal, una
posible opcin es acudir al recurso que estamos viendo
aqu, aunque las dos variables sean cuantitativas o
cuasicuantitativas. El nico requisito es que el nmero
15
de valores de la variable formadora de grupos no sea
excesivo. Si contamos con muchos grupos de datos (es
decir, muchos valores de media aritmtica, muchas
cajas y patillas, etc.), la decisin deja de ser operativa.
El segundo asunto relevante para este apartado
es qu estamos entendiendo por una relacin. Ocurre
que el recurso grfico (y, como veremos seguidamente,
el numrico) se ocupa de estudiar en qu medida
existe diferencia entre los grupos de datos, en
comparacin con la variacin que se observa dentro de
los grupos. En el diagrama de caja y patillas
combinado, por ejemplo, resulta ms llamativa la
diferencia entre las cajas que no la dispersin dentro de
cada grupo, de tal forma que las cajas no llegan a
solaparse.
Es importante no pedirle a las tcnicas lo que las
tcnicas no pueden dar. En este caso, lo que estamos
haciendo es abordar la diferencia entre los grupos. Si
existe suficiente diferencia (es decir, si comparando la
dispersin entre con la dispersin dentro, la primera
es ms caracterstica que la segunda), entonces
diremos que existe relacin entre ambas variables,
pero no que una causa a la otra. Recuerda que son
posibles muchos tipos de relacin: directa, indirecta,
esprea... Que observemos relacin entre la variable
categrica y la cuantitativa no implica que la primera
cause a la segunda. Esta confusin es particularmente
esperable cuando utilizamos las denominaciones
16
variable independiente y variable dependiente.
Habitualmente, la v.i. forma grupos y la v.d. suministra
mediciones cuantitativas. Aunque sigamos utilizando
esta denominacin aqu, es decir, aunque llamemos v.i.
a la variable formadora de grupos o categrica, y v.d. a
la cuantitativa, no olvidemos que no tienen realmente
por qu ser v.d. y v.i. en trminos de diseo, es decir,
no tienen por qu provenir de un experimento o un
cuasi-experimento en que los sujetos experimentales
son agrupados segn la v.i. y tras una situacin bajo
control se miden los valores que suministran de la v.d.
No podemos suponer, nicamente por la tcnica o
procedimiento de anlisis, que una variable es causa o
ejerce influencia sobre los valores de la otra.
17
resultado, aunque parezca asombroso, se simboliza
con la F de Fisher:
V
F= E
VD
18
como suma de cuadrados (SC), algo ms breve. Pues
bien:
S2 =
( X X )2 = SC
n n
19
clasificacin. Es decir: lo total ser la suma de lo entre
ms lo dentro:
SC T = SC E + CS D
Por tanto:
SC T = SC E + CS D SC E = SC T SC D = 378 114 = 2
( X i XT )2
La idea es buena, pero incorrecta. Falla en un
detalle. Ten en cuenta que los grupos pueden contar
con tamaos muy diferentes. Imagina que contramos
con un grupo de mil personas y otro con diez. No es
correcto que ambos grupos pesen lo mismo. Lo que
hacemos es ponderaresta suma: cuanto ms datos
contenga el grupo, ms pesa en la suma de cuadrados.
Es decir:
20
SC E = ( X i XT )2 ni
21
modifique el resultado. Cambio el 4 por un 14, porque
me da la gana (a veces hay otras razones). Por la
misma razn u otra ms convincente, cambio el 7 por
un 8. Y se acab. Si quiero que la suma siga siendo 19,
el tercer dato no puede tener el valor que yo quiera,
debe ser necesariamente -3, pues:
4 + 7 + 8 = 19 = 14 + 8 - 3
4 7 8 = 224 = 14 8 2
22
refiere al nmero de grupos. En tal caso, los grados de
libertad (gl) van a ser:
gl T = n 1 gl E = k 1
gl D = n k gl T = gl E + gl D
En el ejemplo:
gl T = 100 1 = 99 gl E = 3 1 = 2
gl D = 100 3 = 97 gl T = gl E + gl D = 2 + 97 = 99
23
medias: suma de elementos, entre el nmero de
elementos. En el caso de una media de distancias
cuadrticas: suma de cuadrados entre nmero de
datos.
En prximos temas abordaremos las situaciones
en las que nos interesa algo sobre una poblacin pero
no trabajamos directamente con ella sino con una
muestra. En tal caso llevamos a cabo inferencia, es
decir, una estimacin sobre lo que habramos
encontrado en la poblacin en el caso de que
hubiramos trabajado directamente con ella. Como
veremos, la base de nuestro sistema de inferencia es la
estimacin estadstica. En una estimacin, tomamos un
ndice o medida calculada en la muestra y la utilizamos
como estimador, es decir, como un artilugio que nos
permite estimar cul sera el valor de ese ndice o
medida de haberlo calculado en la poblacin. No nos
asombrar, cuando llegue el caso, que un buen
estimador de la media de la poblacin es la media de la
muestra. Pero tal vez nos asombre que un buen
estimador de la varianza de la poblacin no es la
varianza de la muestra, sino algo muy parecido, algo
que es casi la varianza y que, por ello, recibe el nombre
de cuasivarianza.
La cuasivarianza es casi como la varianza
porque comparte el mismo numerador (suma de
cuadrados), pero el denominador no es idntico sino
parecido: no es el nmero de elementos, sino los
24
grados de libertad. As, resulta que el anlisis de la
varianza es realmente un anlisis de las
cuasivarianzas. Tambin podramos pensar en estos
trminos: es un anlisis de las varianzas que
estimamos observaramos en la poblacin caso de
trabajar con ella en lugar de estar hacindolo con una
muestra. Dado que esta segunda versin es algo
enrevesada, quedmonos con la idea de que estamos
realizando un anlisis de la varianza, con la matizacin
de que adaptamos las expresiones de clculo para
favorecer una buena inferencia.
25
grupos), observamos que parte de la variacin total es
absorbida por esta fuente categrica, pero no obstante
sigue existiendo una variacin dentro de cada uno de
los grupos considerados (fuente de variacin dentro-
grupos).
Dispongamos todo ello en una tabla genrica y
apliquemos despus los datos concretos del ejemplo.
26
Dentro 114 97 114 / 97 = 1,2
Total 378 99
27
considerar los grupos no sirve para nada, entonces SC E
= 0. Si todo queda explicado por los grupos, es decir, si
no queda ninguna variacin dentro de ellos, entonces
SCE = SCT. Es decir, SCE se mueve de 0 a SCT. Si lo
dividimos entre SCT, entonces se mover entre 0/SCT=0
y SCT/SCT=1. He aqu, entonces, un ndice acotado en
(0 , 1) que recibe el nombre de eta cuadrado y se
simboliza con la letra griega del mismo nombre:
SC E 264
2 = = = 0,698
SC T 378
28
Ejemplo para la tabla de varianzas
29
Total
X f Xf d2f
1 7 7 26,16
2 5 10 4,36
3 7 21 0,03
4 5 20 5,69
5 6 30 25,63
30 88 61,87
Suma n Media SC
Paro 20 10 2,00 10,00
Aula 36 12 3,00 24,00
Reb. 32 8 4,00 10,00
88 30 44,00
FV SC gl V F Eta2
Entre 17,87 2 8,93 5,48 0,29
Dentro 44,00 27 1,63
Total 61,87 29
30