Vous êtes sur la page 1sur 36

1

Anlisis de la
Varianza (ANOVA)
Patrizzio Virgili

2
Motivacin.
Problema: Empresa energtica desea
saber como la demanda
de electricidad vara segn
el nivel de publicidad
realizada.
3
Motivacin.
Para este estudio se consideran:
C niveles de Publicidad
R clientes por cada nivel de publicidad.
4
Motivacin.
Los datos obtenidos son:
Nivel de Publicacidad
Usuarios 1 2 3 ... j ... C
1 Y(1,1) Y(1,2) Y(1,3) Y(1,C)
2 Y(2,1) Y(2,2) Y(2,3) Y(2,C)
3 Y(3,1) Y(3,2) Y(3,3) Y(3,C)
.
.
.
i Y(i,1) Y(i,2) Y(i,3) Y(i,j) Y(i,C)
.
.
.
R Y(R,1) Y(R,2) Y(R,3) Y(R,C)
5
Motivacin.
Cmo podemos afirmar o rechazar
que el nivel de publicidad afecta la
demanda?

Respuesta: con ANOVA (Anlisis de la
varianza)

6
Introduccin.

El anlisis de la varianza (ANOVA) es
una tcnica estadstica de contraste de
hiptesis.

Introducidas por R. A. Fisher en 1925.

7
Introduccin.

Se utiliza como respuesta a la necesidad
de utilizar una tcnica de comparacin de
ms de dos grupos.

Con slo dos grupos se utiliza un
contraste de medias basado en t
Student.



8
Introduccin.

En el planteamiento de ANOVA
tenemos:
Variable numrica cuantitativa
(resultado)
Variable cualitativa (factor)

Deseamos determinar en que medida
la variabilidad del resultado se puede
atribuir al factor.



9
Introduccin.

Supuestos de Anova:
Muestras independientes y al azar para
cada factor.
Las muestras de cada factor siguen una
distribucin Normal.
Varianzas de las muestras de cada factor
son iguales.




10
Teora.

Tenemos C grupos o niveles del
factor.
R observaciones independientes y de
manera aleatoria para cada nivel del
factor.
RC observaciones en total.

Nota: Pueden tenerse un nmero variable de
observaciones para cada nivel, pero al tener la
misma cantidad permite obtener mxima
confiabilidad.


11
Modelo Estadstico.

Podemos representar cada resultado
como un modelo estadstico:
Y(i,j) = + (j) + (i,j)

: Media sobre todas las muestras.
(j): Respuesta asociada al j - simo nivel del factor
en estudio.
(i,j): Error asociado con el valor (i,j).
12
Modelo Estadstico.
No conocemos los valores reales, por
lo tanto debemos estimarlos.

Sea
M estimacin para
T(j) estimacin para (j)
13
Modelo Estadstico.

R Y Y
R
i
j i
j
/
1
,
_

=
=
Definimos


el promedio para la columna j, tenemos
entonces que el valor del promedio para
toda las mediciones es:



C Y Y
C
j
j
/
1
_ _

=
=
14
Modelo Estadstico.
Como estimamos (i,j) es decir e(i,j)?

Usando los estimadores obtenemos:
e(i,j) = Y(i,j) - M - T(j)

Pero queremos minimizar el error, es
decir, encontrar M y T(j) tal que e(i,j)
sea lo menor posible

15
Modelo Estadstico.
Cmo? Minimizando las desviaciones
de los cuadrados de las
sumas:



=
2 2
)) ( ) , ( ( ) , ( j T M j i Y j i e
16
Modelo Estadstico.
Con este criterio (mnimos cuadrados)
podemos mostrar que:
estima a (i.e. M = )
(j) estima a (j) (i.e. T(j) = (j))

Con lo que el error se traduce en:
e(i,j) = Y(i,j) - (j)


17
Modelo Estadstico.
Incorporando los estimadores en el
modelo estadstico tenemos que:
(Y(i,j) - ) = ((j)- )+(Y(i,j)- (j))

Elevamos al cuadrado y consideramos
las RC ecuaciones:





+ =
i j i j
j Y j i Y j Y Y Y j i Y
2
_ _ _
2
_
))) ( ) , ( ( )) ( (( ) ) , ( (
18
Modelo Estadstico.
Desarrollando el cuadrado podemos
separar la ecuacin anterior en:


2
_
2
_ _
2
_
)) ( ) , ( ( ) ) ( ( ) ) , ( ( j Y j i Y Y j Y Y j i Y + =

+ )) ( ) , ( )( ) ( ( 2
_ _ _
j Y j i Y Y j Y
19
Modelo Estadstico.
Haciendo simplificaciones, la ecuacin
anterior puede reducirse a:


2
_
2
_ _
2
_
)) ( ) , ( ( ) ) ( ( ) ) , ( ( j Y j i Y Y j Y R Y j i Y
j
+
(

=

20
Modelo Estadstico.
se denomina TSS (total sum
of squares)

llamado SSBc (sum of
squares between columns)

denotado SSW (sum of
squares within columns)


2
_
) ) , ( ( Y j i Y
2
2
_ _
) ) ( (
(

j
Y j Y R
2
_
)) ( ) , ( ( j Y j i Y

21
Definicin.
TSS (total sum of squares): la diferencia entre
el valor observado y la media global.
SSBc (sum of squares between columns) es
la desviacin de cada columna con respecto a
la media.
SSW (sum of squares within columns)
representa la desviacin de los valores con
respecto de las medias de las columnas.
22
Funcionamiento.
Fuente de
Variabilidad
Valores
Numricos
Grados de
libertad
Cuadrado
Medio
Entre
columnas
(SSBc)
SSBc C-1 SSBc/(C-1)
Con las
columnas
(SSW)
SSW (R-1)C SSW/[(R-1)C]
Total
(TSS)
TSS RC-1
23
Funcionamiento.
2
) ( o = MSW E
Se puede demostrar que:

(supuesto varianzas iguales
para cada columna)

(corresponde a la variacin
entre las medias reales de las
columnas)
V MSBc E + =
2
) ( o
24
Funcionamiento.
Generando la razn E(MSBc)/E(MSW) y
revisando si es mayor que 1, podemos
asegurar que V es un valor no negativo
distinto de 0.

Pero volvemos al mismo caso, el de no
conocer ni V.


25
Funcionamiento.
Generamos el ratio con los estimadores:
F = MSBc/MSW

Entonces si F > 1, se tendera a pensar
que V es 0, es decir, que el nivel del
factor no influye el resultado.


26
Funcionamiento.
Pero al provenir estos datos de
estimaciones sobre una muestra en
particular, no podemos estar seguros.

Solucin: Hacer un test de hiptesis.


27
Funcionamiento.
H0: 1= 2= 3= C = 0
H1: No todas las j son 0

MSBc/MSW sigue una distribucin de
Fisher de parmetros C-1 y (R-1)C.
F [C-1, (R-1) C]


28
Funcionamiento.
Valor crtico para el test depender del
valor de que seleccionemos.

Con = 5% tenemos que el valor crtico
es de 2.66, por lo tanto si el valor de la
distribucin es menor a este valor no
podemos rechazar la hiptesis nula.


29
Funcionamiento.



Fuente de
Variabilidad
Valores
Numricos
Grados de
libertad
Cuadrado
Medio
Valor
distribucin
F
Entre
columnas
(SSBc)
SSBc C-1 SSBc/(C-1) F
Con las
columnas
(SSW)
SSW (R-1)C SSW/[(R-1)C]
Total
(TSS)
TSS RC-1
30
Ejemplo.
Empresa de bateras desea estudiar si la
vida media de sus pilas tiene que ver con
el artefacto en las que son usadas.
Test:
8 artefactos que poseen el mismo
consumo.
Se testean 3 bateras para cada artefacto.


31
Ejemplo.
- Media calculada: 5.8
- SSBc = 3[(2.6-5.8)^2 + (4.6-5.8`)^2+] = 69.12
- SSW = [(1.8-2.6)^2 + (5-2.6)^2++(5.8-7.4)^2]
= 46.73
Dispositivo
1 2 3 4 5 6 7 8
1,8 4,2 8,6 7 4,2 4,2 7,8 9
5 5,4 4,6 5 7,8 4,2 7 7,4
1 4,2 4,2 9 6,6 5,4 9,8 5,8
2,6 4,6 5,8 7 6,2 4,6 8,2 7,4
32
Ejemplo.
33
Ejemplo.
Fuente de
Variabilidad
Valores
Numricos
Grados de
libertad
Cuadrado
Medio
Valor
distribucin
F ( = 5%)
Entre
columnas
(SSBc)
69.12 7 9.87 3.38
Con las
columnas
(SSW)
46.72 16 2.92
Total
(TSS)
115.84 23
34
Ejemplo.
Como el valor calculado de la distribucin
de Fisher es mayor que el valor crtico
(3.38 > 2.66), podemos rechazar con un
95% de certeza que la vida media de las
pilas varia con artefacto en las que se
usan.


35
Preguntas.
Dudas, preguntas, comentarios?

Gracias


36
Anlisis de la
Varianza (ANOVA)
Patrizzio Virgili

Vous aimerez peut-être aussi