Vous êtes sur la page 1sur 11

IDEAS ELEMENTALES SOBRE EL MODELO LINEAL

El modelo propuesto es el siguiente donde cada Yi es una variable aleatoria:

Y  μ ε
i i

Además cada ε i tiene una distribución N (0, σ2 ) entonces es claro que aplicando
el operador esperanza y varianza a Yi se tiene:

E(Y )  E(μ  ε )  μ  E(ε )  μ  0  


i i i
Var(Y )  Var (μ  ε )  Var (  )  Var ( )  0  σ 2   2
i i i

De lo anterior es claro que:

Yi N (, 2) para i = 1, 2,........., n

El concepto importante en el modelo Yi =  + ε i , reside en la representación de la


variable observable Yi como la suma de un parámetro () y una variable aleatoria
no observable ( ε i ), dando origen a una ecuación que pretende explicar el
comportamiento de la variable aleatoria Yi.

ANALISIS DE LA VARIANZA EN EL MODELO Yi =  + ε i

Como su nombre lo suguiere, el análisis de la varianza descansa


fundamentalmente en el estudio de la varianza de las observaciones. Es claro
que:

  Y μ i  1,2,...... .., n
i i

Es decir, que (obviamente) un error es la diferencia entre una observación y el


valor verdadero del parámetro. A continuación partimos ese error en dos
componentes mediante la siguiente igualdad trivial (Sumando y restando la media
muestral).

Y  μ  (Y  Y  Y  μ)  (Y  Y)  (Y  μ)
i i i

Una forma de interpretar la anterior ecuación es la siguiente:


Un error puede componerse por la desviación de una observación con respecto a
la media muestral ( yi  y ) sumada con la distancia entre la media muestral y la
media poblacional ( y   ) .
Además se tiene que elevando al cuadrado:

i i i
2

ε 2  (Y  μ )2  Y  Y  Y  μ  .  
Puesto que lo anterior se cumple para todas y cada una de las observaciones Y i ( i
= 1,2,.......n) podemos escribir lo siguiente para considerar todas las n
observaciones:
n 2 n 2

 Yi      Yi  Y   Y   
i 1 i 1

Simplificando lo anterior se tiene:

n
 n
 n
 n

 Y   2   Y  Y 2   Y   2  2  Y  Y Y   
i i i
 
i 1 i 1 i 1 i 1

Reduciendo:
n n
  (Y  Y ) 2  n(Y   ) 2  2(Y   )  (Y  Y )
i i
i 1 i 1
Finalmente:

n
  (Y  Y)2  n(Y  μ )2
i 1 i
ya que recuérdese que:

n n n n n 1 n n n
 (Yi  Y)   Y   Y   Y  nY   Y  n (  Y )   Y   Y 0
i1 i i i n i  1 i i i
i 1 i 1 i 1 i 1 i 1 i 1

El resultado final requiere atención especial y se anota enseguida para su


referencia posterior.

n
i
n
 
 Y   2   Y  Y 2  nY -   ................................. (1)
i
2
i 1 i 1

Al poner atención a lo anterior se puede notar que la partición del error ε i en dos
componentes nos lleva a una expresión que involucra sumas de cuadrados de las
desviaciones originalmente consideradas. Por esta razón a las 3 componentes de
la ecuación (1) se les llama sumas de cuadrados.

Bajo la suposición de que Y1 ,..., Yn es una muestra aleatoria de la distribución


normal N(,σ2,) dichas sumas de cuadrados tienen distribuciones probabilisticas
muy sencillas de derivar, y pueden usarse para generar un procedimiento para
probar hipótesis sobre .

A continuación se muestra como derivar las distribuciones de las sumas de


cuadrados de (1). Al dividir (1) por 2 se tiene:

n

 Y  2
i
 n

 Y Y 2
i

nY -  2
i 1  i 1  ....................(2)
2 2 2

De lo anterior se puede ver que puesto que cada Yi  N(,2) entonces:

y μ
i  N (0,1)
σ

Además
2
 yi  μ 
   2
 σ  1
 

Dado que cada Yi es independiente y usando la propiedad aditiva de la


distribución ji - cuadrada se obtiene:

2
n  y μ
  i  

2
i  1 σ 
n

Es decir que tiene una distribución ji-cuadrada con n grados de libertad

Ahora puesto que la distribución de la media muestral Y es N (,2/n) según


resultado del teorema central del limite, entonces

y -μ n y  μ 
  N (0,1)
σ / n σ

y elevando al cuadrado

n(y  μ) 2
  12
σ2

Es decir que tiene una distribución ji-cuadrada con 1 grado de libertad.


n

 Y Y 
2
i
Finalmente como S 2  i 1
(que es la varianza muestral), por resultados
n - 1
previos se tiene que:
n

 Y Y 
2

i 1
i

n  1S 2   2
( n 1)
2 2

Por lo tanto se tiene que las distribuciones de las sumas de cuadrados se puede
resumir en lo siguiente:

 Y i  
2
n

 Yi  Y 2 
ny  μ2
i 1
 i 1 
2 2 2

2  2  2 .................................... (3)
n (n  1) 1
A  B  C

Ahora se explica como probar hipótesis sobre  pero es necesario indicar que la
partición de la variabilidad que se ha hecho solo permite probar hipótesis de dos
colas sobre , es decir del tipo

Ho : μ  μo VS Ha : μ  μ
o

donde o es el valor supuesto del parámetro desconocido.

Para derivar una estadística para probar hipótesis sobre  es natural recurrir a la
componente C en (3), puesto que la variable aleatoria C involucra no sólo a Y y a
, sino además a la distancia Y   .

n(Y   ) 2
Sin embargo la siguiente expresión: no es una estadística, dado que
2
tanto  como  2 son parámetros poblacionales desconocidos. Por lo que toca a
 el problema está resuelto, ya que  debe tomar el valor  o para fijar el nivel de
significancia. Con objeto de que la estadística no dependa de  2 se utiliza la
componente B en (3). Dado que B y C son ambas variables aleatorias ji-cuadradas
(Además se suponen independientes) se tiene que:
nY   
2

2
nY   
2
1   F(1n 1)
n 2

 Y Y 
2 S
i
i 1

2
(n  1)

De acuerdo a como se define la distribución F. De aquí se deduce que si la


hipótesis nula    o es cierta, la estadística:
nY   o 
2

Fo  2
 F(1n 1)
S
y se puede usar Fo para probar el juego de hipótesis propuesto. La regla de
decisión que nos garantiza una prueba con nivel de significancia  es “Rechazar
Ho si Fo  F(1n1), ”.

Todo el procedimiento para probara Ho:    o en oposición a Ha:    o mediante


la distribución de F se resume usualmente en una tabla conocida como Tabla de
Análisis de la Varianza. En la cual se representan las tres componentes de la
ecuación (3) sin el divisor  2

Tabla de Análisis de varianza para el modelo Yi     i . Ho:    o en oposición a


Ha:    o .
Fuentes de Variación Grados de Sumas de Cuadrados Fo
Libertad Cuadrados Medios
n(Y   o ) 2 n(Y   o ) 2
Media () 1 n(Y   o ) 2
1 S2

 Y Y 
2
n i

 Y Y  i 1
 S2
2
Error (n-1)
(n  1)
i
i 1

 Y  o 
2
Total n i
i 1
Ejemplo 1. En un experimento realizado con el propósito de estudiar el efecto de las
radiaciones sobre los linfocitos en la sangre de conejos se aplicó una dosis de 800 roentgen
a cada una de las muestras de sangre de 7 animales. Se registró el número de linfocitos
antes y después de la aplicación. En seguida se reportan los porcentajes de linfocitos
sobrevivientes en cada muestra (Fuente: Science, Vol. 110,pág. 44. Julio 8 de 1949):
2.87, 10.73, 9.46, 7.68, 11.48, 5.28, 9.22

a) Pruebe, usando la técnica del análisis de varianza, la hipótesis de que la media de


linfocitos sobrevivientes es del 10%. Use α=0.10.
b) Pruebe, mediante la estadística to, la misma hipótesis que en a).
c) Verifique que t o2  Fo y que F61,0.10  t 0.05 (6)
2

Solución:
a)
Hipótesis por probar: H 0 :   10% vs H a :   10%

Se obtienen las siguientes estadísticas

1 n 1
y 
n i 1
yi  (2.87  10.73  ...  9.22)  8.10286
7
n

 y  y   56.9269 ,
2
i
i 1
n

y   o   (2.87  10) 2  (10.73  10) 2  ...  (9.22  10) 2  82.121,


2
i
i 1

n( y   o ) 2  7(8.10286  10) 2  25.27

Con los anteriores datos se obtiene la tabla de análisis de varianza:

Ho:   10 en oposición a Ha:   10 .


Fuentes de Variación Grados de Sumas de Cuadrados Fo
Libertad Cuadrados Medios
Media () 1 25.27 25.27 2.66

Error 6 56.927 9.49

Total 7 82.121

La regla de decisión es rechazar Ho si Fo  Ftablas , en este caso la Ftablas es:

F61,0.10  3.77595
Como Fo  Ftablas , no se rechaza Ho y se concluye que en promedio el porcentaje de
linfocitos sobrevivientes en la sangre de conejos después de aplicarse una radiación de 800
roentgen es igual a 10% a un nivel de significancia de 0.10.

b) Utilizando la estadística de to se tiene:

H 0 :   10% vs H a :   10%

(x  o ) 7 (8.10  10)
to    1.632
Sx / n 3.080
El criterio es rechazar Ho si t o  t (n  1) , dado que α=0.10 y n=6 entonces:
2

t 0.05 (6)  1.943 y se tiene que t o  1.943 , por lo tanto no se rechaza Ho y se concluye lo
mismo que en a).

d) Finalmente se puede verificar que:

(t 0 ) 2  (1.632) 2  2.6634  F0

Y es similar al valor de F0 obtenido en la tabla del análisis de varianza

Además se tiene que:

t 0.05 (6)2  (1.943) 2  3.7752  F61,0.1


ANALISIS DE LA VARIANZA EN EL DISEÑO COMPLETAMENTE
ALEATORIZADO

En el diseño completamente aleatorizado (DCA) se desea comparar a


tratamientos o niveles de un factor único y se dispone de n 1 unidades
experimentales para el primero de ellos, n2 para el segundo,..., na unidades para el
tratamiento a.

Datos típicos para un diseño completamente aleatorizado.


Tratamiento Observaciones Totales Promedios
(nivel)
1 Y11 Y12 . ....... Y1n1 Y1. Y1.
2 Y21 Y22 . ....... Y2n2 Y2. Y2.
3 Y31 Y32 . ....... Y3n3 Y3. Y3.
. . . . . .
. . . . . .
. . . . . .
. . . . . .
a Ya1 Ya 2 . ....... Yana Ya. Ya.

Es útil describir las observaciones mediante el siguiente modelo estadístico lineal:

i  1,2,..., a
Yij     i   ij 
 j  1,2,..., ni
donde:
Yij, es la respuesta en la j-ésima unidad experimental con el tratamiento i–ésimo.
, es la media general, común a todas las unidades antes de aplicar los
tratamientos.
i, efecto del i-ésimo tratamiento.
ij, error experimental en la j-ésima repetición del i-ésimo tratamiento.

Las suposiciones distribucionales pueden resumirse diciendo que las ij son
independientes, con distribución N (0,  2 )
Que aplicadas a la anterior tabla se tiene:

Y11, Y12 ,...Y1n1  N (1 ,  2 )


Y21 , Y22 ,...Y2 n2  N (  2 ,  2 )
.........................................
Ya1 , Ya 2 ,...Y1na  N (  a ,  2 )
Note que tienen la misma distribución y la misma varianza y solo son diferentes en
la media poblacional.
El análisis del modelo Yij     i   ij tiene la finalidad de comparar los efectos de
los a tratamientos. Para ese fin se propone la hipótesis nula H o :  1   2  ...   a
Y como hipótesis alternativa H a :  i   j para al menos una ij, que en términos de
las medias poblacionales se tiene:

H o : 1   2  ...   a vs H a : i   j para i j

El procedimiento, al igual que en el modelo simple Yi     i , descansa en una


partición de la variabilidad de las observaciones.

Y ij  Y..   Yij  Yi.   Yi.  Y.. 


Desviación Desviación Desviación
Total debida al error debida al tratamiento

Dado que la anterior igualdad se cumple para todas y cada una de todas las
observaciones Yij, se puede tener lo siguiente:

 Y  Y..   Y  Yi.  Yi.  Y.. 2


a ni a ni
 
2
ij ij
i 1 j 1 i 1 j 1

que al desarrollar y simplificar se obtiene

 Y ij  Y..    Y ij  Yi . 
a ni a ni a
   n Y  Y.. 
2 2 2
i i.
i 1 j 1 i 1 j 1 i 1

Suma de Suma de Suma de cuadrados de


Cuadrados total = Cuadrados del error + tratamientos

Las propiedades distribucionales de las sumas de cuadrados expresadas


anteriormente pueden demostrarse que son las siguientes, aprovechando
resultados ya conocidos:

 Y  Yi. 
a nj
2
ij
S .C.ERROR i 1 j 1
 ~  2 a
 2
 2
 i 


n a 
 i 1 

 n Y  Y.. 
2
i i.
S .C.TRATAMIENT OS
 i 1
~  2a 1
 2
 2
 Y  Y.. 
a nj
2
ij
S .C.TOTAL i 1 j 1
 ~  2 a 
 2
 2
 i 
 n 1 
 i 1 

Por lo que resumiendo las propiedades:

S .C.TOTAL S .C.ERROR S .C.TRATAMIENT OS


 
 2
 2
2

2 a   2a   2a 1
 ni 1  ni a
i 1 i 1

La partición de la variabilidad y las distribuciones presentadas anteriormente


permite justificar una tabla de análisis de varianza para probar la hipótesis nula de
igualdad de tratamientos en el diseño completamente aleatorizado (DCA),
utilizando una prueba de F.

Tabla de análisis de varianza para el modelo Yij     i   ij


H 0 :  1   2  ...   a vs Ha :i   j para i j

Fuentes de Grados de Sumas de Cuadrados Fo


variación Libertad Cuadrados Medios
a
S .C.TRAT C.M .TRAT
Tratamientos a-1  n (Y
i 1
i i.  Y.. ) 2
a 1 C.M .ERROR

  Y  Yi. 
a a nj
S .C.ERROR
 ni  a
2
Error ij a
i 1 i 1 j 1
n
i 1
i a

  Y  Y.. 
a a nj

n 1
2
Total i ij
i 1 i 1 j 1

La estadística para la prueba es Fo que, de acuerdo con resultados anteriores,


tiene una distribución de

F aa 1
 ni  a
i 1
Cuando la hipótesis nula es cierta, por lo que la regla de decisión es: “Rechazar H 0

si F0  F aa 1 ”
 ni  a ,
i 1

Las siguientes expresiones permiten un cálculo simplificado de las sumas de


cuadrados en el DCA

a
Yi.2 Y2
S .C.TRAT    a ..
i 1 ni
 ni i 1
nj
a a
Yi.2
S .C.ERROR   Yij2  
i 1 j 1 i 1 ni
nj
a
Y..2
S .C.TOTAL   Y  2
ij a
i 1 j 1
n
i 1
i

Nombrando a

Y..2
a
, por el factor de corrección (F.C.).
n
i 1
i

Vous aimerez peut-être aussi