Vous êtes sur la page 1sur 23

Mster en Tcnicas Estadsticas Anlisis Multivariante. Ao 2008  2009. Profesor: Csar Snchez Sellero.

Tema 2. Inferencia en poblaciones normales multivariantes

2.1. Introduccin.
En este tema realizaremos tareas de inferencia sobre el vector de medias y la matriz de covarianzas de una poblacin normal multivariante, en base a una muestra aleatoria simple extrada de ella. Tambin se tratarn poblemas que involucren a varias poblaciones. Muchos procedimientos resultarn ser extensiones naturales de los mtodos ya conocidos para poblaciones normales univariantes, mientras que en algn caso surgirn problemas nuevos, por ejemplo, comparacin entre componentes del vector de medias o cuestiones de inferencia simultnea; en denitiva, situaciones provocadas por la dimensin mltiple. Pero para comenzar conviene recordar la situacin univariante, en la cual la inferencia se apoya en el teorema de Fisher que dice que la media tiene distribucin normal (con cierta media y varianza), la varianza muestral tiene distribucin ji-cuadrado, y son independientes. De igual modo, en el tema anterior se obtuvo un resultado que arma que el vector de medias muestral es normal multivariante, la matriz de covarianzas muestral tiene distribucin de Wishart, y son independientes. As, por ejemplo, en base a este resultado se puede hacer inferencia sobre el vector de medias cuando la matriz de covarianzas es desconocida, recurriendo a la distribucin 2 de Hotelling. Aunque el vector de medias muestral y la matriz de covarianzas muestral son estimadores naturales de sus anlogos poblacionales, tambin vamos a ver que son los estimadores de mxima verosimilitud, y de paso, introducimos la funcin de verosimilitud y en general la idea de verosimilitud, que ser empleada en varias ocasiones a lo largo de este tema.

2.2. Vectores aleatorios.


En esta seccin vamos a recordar los conceptos bsicos relacionados con un vector aleatorio. Los contenidos coinciden con la seccin 3.1 de los apuntes de la asignatura "Modelos de regresin", del primer cuatrimestre del mster. Se ha optado por reproducirlos de nuevo aqu. Un vector aleatorio es una coleccin de variables aleatorias X1 . X= . .

Xd
medidas simultneamente sobre el mismo individuo o sobre el mismo resultado de un experimento aleatorio. Cada una de las componentes de un vector aleatorio es una variable aleatoria, y por tanto se puede calcular su media, su varianza y su distribucin. Sin embargo, hay algunas propiedades conjuntas dentro de un vector aleatorio, como son la covarianza (o la correlacin) y 5

6 la distribucin conjunta. En concreto, se dene el vector de E (X1 ) . . E (X ) = .

Mster en Tcnicas Estadsticas


medias como

E (Xd )
y la

matriz de covarianzas como:


= Cov (X, X ) = V ar (X1 ) Cov (X1 , X2 ) Cov (X2 , X1 ) V ar (X2 ) . . . . . . Cov (Xd , X1 ) Cov (Xd , X2 ) Cov (X1 , Xd ) Cov (X2 , Xd ) . .. . . . V ar (Xd )

El vector de medias y la matriz de covarianzas se comportan de la siguiente manera ante formaciones lineales:

trans-

E ( + AX ) = + AE (X )

Cov ( + AX, + BY ) = ACov (X, Y )B

siendo y vectores de dimensin q d, y A y B matrices q d. Como caso particular de transformaciones lineales, se encuentran los cambios de localizacin y escala. As, ante un cambio de localizacin, como el que representa sumar el vector , el vector de medias queda desplazado en la misma direccin , para situarse de nuevo en el centro de la distribucin. La matriz de covarianzas, sin embargo, es invariante ante cambios de localizacin. Respecto de cambios de escala, podemos decir que cada componente del vector de medias est medido en la misma escala que la variable (por ejemplo, en centmetros o en metros si la variable representa una longitud), mientras que cada varianza se mide en la escala de la variable elevada al cuadrado, y la covarianza en el producto de las escalas de las dos variables involucradas. Hay una transformacin lineal que tiene un inters especial, que se conoce como estandarizacin. La estandarizacin de una variable aleatoria se consigue restando la media y dividiendo por la desviacin tpica (raz cuadrada de la varianza). En el caso de un vector aleatorio, su estandarizacin sera Y = 1/2 (X ) que as construido verica E (Y ) = 0 y Cov (Y, Y ) = Id . Puede surgir alguna duda sobre cmo obtener la matriz 1/2 . A este respecto es til tener presente que toda matriz de covarianzas es una matriz simtrica y semidenida positiva. Recordemos ciertos resultados algebraicos para este tipo de matrices. Si A es una matriz simtrica, entonces

A = (v1 , . . . , vd )

1 0

v1 . .. . . . d vd 0

siendo v1 , . . . , vd una base ortonormal de autovectores de A y 1 , . . . , d sus autovalores asociados. A se dice denida positiva si todos los autovalores de A son positivos. En ese caso se puede emplear para denir una norma (y una distancia): x 2 = x Ax.

Anlisis Multivariante

A se dice semidenida positiva si todos los autovalores son no negativos. En ese caso los autovalores nulos provocan una reduccin de dimensin. Como ya se dijo, toda matriz de covarianzas es una matriz simtrica y semidenida positiva. Su rango, nmero de autovalores no nulos, coincide con la dimensin del espacio lineal en el que se puede incluir el vector aleatorio. De hecho, dicho espacio lineal es el generado por los autovectores asociados a los autovalores no nulos. Las potencias de una matriz simtrica se pueden obtener, simplemente elevando a la potencia correspondiente la matriz diagonal de los autovalores, esto es, si k R, entonces k 1 0 v1 . .. Ak = (v1 , . . . , vd ) . . .

k d

vd

Por supuesto para las potencias negativas es necesario que todos los autovalores sean distintos de cero, y en el caso de la matriz de covarianzas, que sea denida positiva.

2.3. Inferencia sobre el vector de medias, como extensin del univariante.


Supongamos una muestra aleatoria simple de un vector aleatorio normal multivariante. La podemos denotar por X1 , . . . , Xn Nd (, ) independientes. Entonces

= 1 X n

n i=1

1 Xi Nd , n

y este resultado es suciente para obtener un pivote para cuando la matriz de covarianzas es . As, conocida, el cual resulta de la estandarizacin de X

1 X 2 n X d
Por ejemplo, en base a este pivote se puede obtener una regin de conanza para el vector de medias, con nivel de conanza (1 ), de la forma:

1 X < 2 Rd : n X d,
Observamos que la regin de conanza que se encuentra dentro del corchete, es la regin limitada por una elipse en el plano (si d = 2), un baln de rugby en el espacio (si d = 3), y as , cuyos ejes van en la direccin sucesivamente. Se trata de un elipsoide en Rd , centrado en X de los autovectores de y la longitud de los radios (semilongitud de los ejes) viene dada por

2 d, /n con j {1, . . . , d}, siendo 1 , . . . , d los autovalores de .

En el caso bidimensional, d = 2, se puede representar la elipse, aplicando la siguiente expresin para los puntos que la forman:

+ X

2 d, /n

1 v1 cos() +

2 v2 sen()

con [0, 2 )

siendo v1 y v2 los autovectores de , y 1 y 2 sus autovalores respectivos.

Mster en Tcnicas Estadsticas

Al igual que ocurra en el caso univariante con la desviacin tpica, ahora si la matriz de covarianzas es desconocida, es necesario estimarla mediante su anlogo muestral, lo cual conduce a una distribucin diferente, que se puede considerar una extensin de la T de Student. Es la distribucin de Hotelling, cuya denicin y propiedades bsicas se pueden encontrar en el tema anterior. Todo ello nace de la extensin del Teorema de Fisher al caso multivariante, que dice lo siguiente: Si X1 , . . . , Xn Nd (, ) independientes, entonces

= 1 X n

n i=1

1 Xi Nd , n

nS =

1 n

Xi X
i=1

Xi X

Wd (, n 1)

y adems son independientes. De ello y de la denicin de la distribucin 2 de Hotelling, se obtiene el pivote siguiente:

2 (d, n 1) S 1 X (n 1) X
La distribucin de Hotelling se puede transformar en una F de Sndecor, y en este caso resulta

nd Fd,(nd) X S 1 X d

Ejemplo 2.1 Representa la regin de conanza, al nivel del 95%, para el vector de medias en base a los siguientes datos de las extremidades de diez animales: Longitud: 65, 46, 53, 57, 71, 49, 58, 68, 54, 53 Anchura: 21.5, 18.5, 20.6, 24.5, 26.3, 17.8, 22.2, 24.9, 21.2, 21.0 suponiendo que la distribucin es normal con matriz de covarianzas
= 2.5 1 1 2

Obtn y representa la regin de conanza en el caso de que la matriz de covarianzas sea desconocida.

2.4. Estimadores de mxima verosimilitud.


Consideremos disponible una muestra aleatoria simple

X1 , . . . , Xn Nd (, )
de vectores aleatorios independientes y con la misma distribucin normal multivariante. Vamos a obtener los estimadores de mxima verosimilitud del vector de medias, , y de la matriz de covarianzas, . La funcin de verosimilitud sera:
n

L(x, , ) = (2 )nd/2 ||n/2 exp

1 2

(xi ) 1 (xi )
i=1

Anlisis Multivariante
Observamos que
n n

(xi ) 1 (xi ) =
i=1 i=1

(xi x ) 1 (xi x ) + ( x ) 1 ( x ) +2 ( x ) 1 (xi x )


n

=
i=1

(xi x ) 1 (xi x ) + n ( x ) 1 ( x )

ya que la suma de los dobles productos vale cero. Entonces la logverosimilitud se puede expresar as:

log L(x, , ) = c = c
siendo c = nd 2 log(2 ).

1 n log || 2 2 n 1 log || 2 2

(xi ) 1 (xi )
i=1 n

(xi x ) 1 (xi x )
i=1

n ( x ) 1 ( x ) 2

Observamos que, por ser denida positiva, (y en consecuencia, tambin lo ser 1 ), ( x 1 ) ( x ) > 0, salvo que = x , en cuyo caso vale cero. Por tanto, la funcin de log verosimilitud alcanza su mximo en =x , que de este modo se convierte en el estimador de mxima verosimilitud del vector de medias. Adems,

n 1 sup log L(x, , ) = c log || 2 2


para cualquier matriz de covarianzas .

(xi x ) 1 (xi x )
i=1

(2.1)

A continuacin calcularemos el mximo de aquella funcin respecto de . Podemos expresar

n 1 sup log L(x, , ) = c log || traza 2 2 = c = c 1 n log || 2 2


n

(xi x ) 1 (xi x )
i=1

traza (xi x ) 1 (xi x )


i=1 n

n 1 log || traza 1 (xi x ) (xi x ) 2 2 i=1 n log || + traza 1 S = c 2

(2.2)

donde hemos aplicado que traza(A+B)=traza(A)+traza(B) y que traza(AB)=traza(BA). Ahora debemos obtener el mximo de esta funcin respecto del argumento . Para ello, apelamos al resultado siguiente.

Lema Supongamos una matriz A denida positiva. La funcin


f () = log || + traza 1 A ,

restringida a las matrices denidas positivas, alcanza su mnimo en = A.

10

Mster en Tcnicas Estadsticas

Entonces, aplicando este lema llegamos a la conclusin de que los estimadores de mxima y S, verosimilitud del vector de medias y la matriz de covarianzas (sin restricciones) son X respectivamente. Asimismo, la funcin de verosimilitud tiene como mximo:

sup sup log L(x, , ) = c


n log |S | + traza S 1 S 2

=c

n (log |S | + d) 2

(2.3)

2.5. Contraste sobre el vector de medias, mediante el test de razn de verosimilitudes.


A continuacin veremos cmo se puede usar el test de razn de verosimilitudes para hacer inferencia en poblaciones normales multivariantes. En esta seccin ilustraremos el caso del problema de inferencia sobre el vector de medias cuando la matriz de covarianzas es conocida, y tambin cuando es desconocida.

Vector de medias con matriz de covarianzas conocida


Partimos como antes de una muestra aleatoria simple

X1 , . . . , Xn Nd (, )
de vectores aleatorios independientes y con la misma distribucin normal multivariante. Suponiendo que la matriz de covarianzas es conocida, deseamos llevar a cabo tareas de inferencia relativas al vector de medias . En concreto, podemos estar interesados en una regin de conanza para , o podemos querer contrastar una hiptesis nula del tipo H0 : = 0 . Centrndonos en el contraste de la hiptesis nula H0 : = 0 , vamos a abordar este problema mediante el procedimiento de razn de verosimilitudes. En esta situacin, el estadstico de contraste sera: L(X, 0 , ) 2 log (X ) = 2 log sup L(X, , ) donde la funcin de verosimilitud es la que se ha tratado en la seccin anterior. De lo all expuesto extraemos que, bajo la hiptesis nula, H0 : = 0 , la funcin de logverosimilitud adopta la forma:

log L(x, 0 , ) = c

1 n log || 2 2

(xi x ) 1 (xi x )
i=1

n ( x 0 ) 1 ( x 0 ) 2

mientras que bajo la alternativa,

sup log L(x, , ) = c

n 1 log || 2 2

(xi x ) 1 (xi x )
i=1

En denitiva, el estadstico de contraste resulta:

2 log (X ) = 2 log

L(X, 0 , ) 0 1 X 0 =n X sup L(X, , )

Anlisis Multivariante
Observamos que si H0 : = 0 es cierta,

11

Nd (0 , /n) X
y, en consecuencia,

0 1 X 0 2 n X d

As, rechazaremos la hiptesis nula H0 : = 0 cuando

0 1 X 0 > 2 n X d,
2 siendo 2 d, el cuantil 1 de la distribucin d .

Vector de medias con matriz de covarianzas desconocida.


El problema de inferencia coincide con el anterior, esto es, disponemos de una muestra aleatoria simple X1 , . . . , Xn Nd (, ) y deseamos realizar tareas de inferencia relativas al vector de medias . La nica diferencia consiste en que ahora la matriz de covarianzas es desconocida. El estadstico de razn de verosimilitudes para el contraste de la hiptesis nula H0 : = 0 sera:

2 log (X ) = 2 log

sup L(X, 0 , ) sup, L(X, , )

Ntese que ahora, al ser desconocida, se convierte en un parmetro tanto bajo la hiptesis nula como bajo la alternativa, parmetro que ser estimado por mxima verosimilitud. Bajo la alternativa, hemos visto en la seccin anterior que los estimadores de mxima verosimili y S , respectivamente. tud del vector de medias y la matriz de covarianzas (sin restricciones) son X Asimismo, la funcin de verosimilitud tiene como mximo:

sup sup log L(x, , ) = c


n log |S | + traza S 1 S 2

=c

n (log |S | + d) 2

A continuacin maximizamos la verosimilitud bajo la hiptesis nula. Para ello basta con expresar la verosimilitud en una forma similar a la anterior:

n 1 log L(x, 0 , ) = c log || traza 2 2


n

(xi 0 ) 1 (xi 0 )
i=1

= c

n 1 log || traza 1 (xi 0 ) (xi 0 ) 2 2 i=1 n = c log || + traza 1 0 2

= 1 n (xi 0 ) (xi 0 ) , el cual resulta ser un estimador razonable de la matriz siendo 0 i=1 n de covarianzas bajo la hiptesis de que la media vale 0 . Por lo dems los pasos son idnticos al caso anterior, salvo que se ha puesto 0 all donde se hallaba x . Aplicando de nuevo el lema,

12

Mster en Tcnicas Estadsticas

es el estimador de mxima verosimilitud de la matriz de covarianzas bajo la concluimos que 0 hiptesis nula, y que la funcin de verosimilitud bajo dicha hiptesis alcanza el valor mximo: n | + d sup log L(x, 0 , ) = c log | 0 2
Entonces el estadstico de contraste mediante la razn de verosimilitudes resulta: sup L(X, 0 , ) | log |S | 2 log (X ) = 2 log = n log | 0 sup, L(X, , ) Descomponemos

= =

1 n 1 n

(Xi 0 ) (Xi 0 )
i=1 n

Xi X
i=1

Xi X

0 + X

0 + 2 X 0 X

Xi X

= S + rr 0 . Sustituyendo en el estadstico de contraste obtenemos siendo r = X 2 log (X ) = n log |S + rr | log |S | = n log |S | I + S 1 rr log |S | = n log I + S 1 rr

Estudiemos, pues, el determinante que aparece en el ltimo trmino. En (a) denotamos mediante 1 , . . . , d a los autovalores de S 1 rr , y observamos que 1 + 1 , . . . , 1 + d son los autovalores de I + S 1 rr . En (b) y (c) usamos que la matriz S 1 rr es de rango uno.

I + S 1 rr
Finalmente,

(a)

d j =1

(1 + j ) = 1 + 1 = 1 + traza S 1 rr

(b)

(c)

= 1 + traza r S 1 r = 1 + r S 1 r

2 log (X ) = n log 1 + r S 1 r

ser el estadstico de contraste y rechazaremos la hiptesis nula si este estadstico toma un valor demasiado grande. Ser equivalente si consideramos el estadstico 0 S 1 X 0 r S 1 r = X y rechazamos la hiptesis nula cuando este nuevo estadstico toma un valor demasiado grande. Ntese que el estadstico anterior se obtiene tras aplicar una transformacin creciente a este ltimo. La distribucin del estadstico ha sido obtenida en el tema anterior: nd 0 Fd,nd X 0 S 1 X d En denitiva, rechazaremos la hiptesis nula H0 : = 0 si nd 0 > fd,nd, X 0 S 1 X d

Anlisis Multivariante
2.6. Regiones de conanza y comparaciones simultneas.

13

A partir del estadstico 2 de Hotelling, podemos obtener una regin de conanza para el vector de medias, de la forma:

Rd :

nd < fd,nd, X S 1 X d

, cuyos ejes van en la direccin de los Esta regin constituye un elipsoide en Rd , centrado en X autovectores de S y la longitud de los radios (semilongitud de los ejes) viene dada por j d fd,nd, nd j {1, . . . , d}

siendo 1 , . . . , d los autovalores de S . A continuacin planteamos el problema de conseguir intervalos de conanza para las componentes del vector de medias, o ms en general, para combinaciones lineales del tipo

l = l1 1 + + ld d
Observando que l X1 , . . . , l Xn N (l , l l) y adems son independientes, podemos abordar este problema, que ya es univariante, mediante el procedimiento de la T de Student. As, como la media y la cuasivarianza muestrales calculadas sobre las observaciones l X1 , . . . , l Xn resultan y l Sc l, respectivamente, el intervalo de conanza adopta la forma ser l X l Sc l l Sc l l X tn1,/2 , l X + tn1,/2 n n siendo tn1,/2 el cuantil 1 /2 de la distribucin T de Student con n 1 grados de libertad. De este modo, para un l jo, el intervalo anterior contiene a l con una probabilidad 1 . En particular, podemos pensar en un vector de la forma l = (1, 0, . . . , 0) que servira para extraer la primera componente del vector aleatorio. Igual se hara con las dems componentes mediante los vectores cannicos correspondientes. As obtendramos p intervalos de conanza, uno para cada componente del vector de medias. Sin embargo, el nivel de conanza se reere a la probabilidad individual de cada intervalo, de modo que la probabilidad de que todos los intervalos simultneamente contengan a la componente correspondiente del vector de medias ser en general inferior al nivel de conanza jado. Para satisfacer un nivel de conanza simultneo, debemos modicar la construccin de los intervalos hacindolos ms amplios. Vamos a plantear este objetivo de manera simultnea en todos los vectores l. Si seguimos partiendo como pivote de la media estudentizada, la idea podra ser cambiar el valor tn1,/2 por otra constante adecuada, previsiblemente ms grande. As, si

l n lX l Sc l

<c

l Rp

=1

los intervalos de conanza obtenidos al sustituir tn1,/2 por c cumplirn el nivel de conanza de manera simultnea. Enunciamos el lema siguiente.

14

Mster en Tcnicas Estadsticas

Lema Sea B una matriz d d, simtrica y denida positiva, y r Rd . Entonces


(x r )2 = r B 1 r xRd \{0} x Bx max

y este mximo se alcanza cuando x = cB 1 r para cualquier c R\{0}.


Aplicando este lema obtenemos

max
lRd

n l X l Sc l

2 1 Sc =n X X 2 (d, n 1)

De este resultado se puede extraer el valor de c y nalmente resultan los intervalos de conanza simultneos: d(n 1) l Sc l d(n 1) l Sc l fd,nd, fd,nd, ,l X + lX nd nd n n o equivalentemente

lX

d + fd,nd, l Sl , l X nd

d fd,nd, l Sl nd

Este mtodo para obtener intervalos de conanza siultneos se suele conocer como mtodo de Sche. La tabla siguiente permite comparar los valores de c para el clculo de los intervalos de conanza, extrados de la T de Student frente a los que se obtienen mediante la 2 de Hotelling.
d(n1) nd fd,nd,0 05

n 15 25 50 100

tn1,0 025 2'145 2'064 2'010 1'970 1'960

d=4 4'14 3'60 3'31 3'19 3'08

d = 10 11'52 6'39 5'05 4'61 4'28

Otro mtodo para obtener intervalos de conanza simultneos es el mtodo de Bonferroni. Es una alternativa vlida en cualquier contexto en el que se requiera una cantidad nita de intervalos simultneos, ya que no se basa en la naturaleza probabilstica del problema en cuestin (como s lo hace el mtodo de Sche), sino que su fundamento radica simplemente en la subaditividad de la probabilidad. Si C1 , . . . , Cm consisten en los sucesos respectivos de que cada intervalo de conanza contenga al parmetro correspondiente,

P (Ci cierto i) = 1 P (Ci falso para algn i)


m

1
i=1

P (Ci falso) = 1 (1 + + m )

Anlisis Multivariante

15

siendo 1 1 , . . . , 1 m los niveles de conanza individuales de cada intervalo. As, para alcanzar un nivel de conanza simultneo 1 basta con tomar 1 , . . . , m de modo que 1 + + m = , por ejemplo mediante 1 = = m = /m. La tabla siguiente muestra el cociente (para 1 = 0 95) Longitud del intervalo de Bonferroni = Longitud del intervalo de Sche

tn1,/(2m)
d(n1) nd fd,nd,

n 15 25 50 100

2 0'88 0'90 0'91 0'91 0'91

m=d 4 0'69 0'75 0'78 0'80 0'81

10 0'29 0'48 0'58 0'62 0'66

Ejemplo 2.2 Partiendo del ejemplo 2.1, calcularemos los intervalos de conanza para la media de la longitud y de la anchura, al nivel de conanza del 95%, obtenidos de manera individual, y simultneos por el mtodo de Sche y por el mtodo de Bonferroni. Representaremos los tres tipos de intervalo en los ejes vertical y horizontal, sobre el mismo grco donde se represent la elipse de conanza para el vector de medias.
2.7. Generalizacin del contraste sobre el vector de medias.
En esta seccin veremos cmo se puede generalizar el contraste sobre el vector de medias, al caso de restricciones ms genricas sobre , ms generales que la hiptesis nula, H0 : = 0 . El resultado bsico lo enunciamos como un teorema. Despus, como aplicacin ms comn de este resultado, veremos el contraste de restricciones lineales sobre , entre las cuales tiene un inters especial el contraste de igualdad de las componentes del vector de medias.

Teorema 2.1 Sea X1 , . . . , Xn una muestra aleatoria simple de Nd (, ). Si las hiptesis H0 y , respectivamente, y bajo niguna Ha conducen a los estimadores de mxima verosimilitud yX de las dos hiptesis hay restricciones para , entonces los estimadores de mxima verosimilitud de son S + rr y S , bajo H0 y Ha respectivamente, siendo r = X . Adems, el test de razn de verosimilitudes para contrastar H0 frente a Ha viene dado por
2 log (X ) = nr 1 r

si es conocida si es desconocida.

(2.4) (2.5)

2 log (X ) = n log 1 + r S 1 r

Demostracin
La demostracin seguira los mismos pasos que en los casos anteriores, donde contrastbamos una hiptesis nula simple sobre el vector de medias con matriz de covarianzas conocida o desconocida.

16

Mster en Tcnicas Estadsticas

Contraste de restricciones lineales.


Supongamos que es conocida y deseamos contrastar la hiptesis nula

H0 : B = b
siendo B una matriz conocida de orden q d y rango mximo q , y b un vector conocido. A este problema de contraste le podemos aplicar el teorema anterior. Para ello, tenemos que obtener el estimador de mxima verosimilitud bajo H0 , que denotaremos mediante . La funcin de logverosimilitud se puede escribir as:

l(x, , ) = log L(x, , ) = c

n 1 log || 2 2

(xi x ) 1 (xi x )
i=1

n ( x ) 1 ( x ) 2

En tal caso, el problema consiste en: Maximizar l(x, , ) sujeto a B = b Consideramos la funcin

l+ = l n (B b)

siendo un vector de multiplicadores de Lagrange. Derivando

l+ = n ( x ) 1 n B = 0
De donde

x = B

(2.6)

ecuacin que debemos aadir a la restriccin B = b, para obtener las soluciones para y . Multiplicando por B , Bx B = B x b = B B lo cual nos permite despejar = (B B )1 (B x b) que, sustituido en la ecuacin (2.6), da lugar al estimador de mxima verosimilitud

B B B =X

b BX

El test de razn de verosimilitudes viene dado por (2.4), donde

r=X = B B B
de modo que nalmente adopta la forma

b BX

b 2 log (X ) = n B X

B B

b BX

Bajo la hiptesis nula, H0 , BX1 , . . . , BXn Nq (b, B B ) y son independientes, siendo q la dimensin de b, y por tanto la distribucin del estadstico de contraste es 2 q.

Anlisis Multivariante

17

Si la matriz de covarianzas es desconocida, el estimador de mxima verosimilitud de bajo H0 es SB BSB 1 B X b =X El test de razn de verosimilitudes viene dado por (2.5), donde

r=X = SB BSB

b BX

de modo que nalmente tomamos como estadstico de contraste

b (n 1)r S 1 r = (n 1) B X
cuya distribucin es 2 (q, n 1).

BSB

b BX

Caso particular. Contraste de igualdad de las componentes del vector de medias.

El contraste de la hiptesis nula de que las d componentes del vector de medias, = (1 , . . . , d ) , son iguales, se puede ver como un caso particular del contraste de restricciones lineales. Para ello, basta considerar la siguiente matriz 1 1 0 0 . 1 0 1 . . . . . B= . . .. .. . . . . 0 . . 1 0 0 1 de modo que H0 : B = 0 equivale a la igualdad de las d medias. Ntese que hay otras matrices que tambin serviran para efectuar este contraste. En concreto, la matriz B que acabamos de proponer, efecta las diferencias entre la media de la primera componente y cada una de las dems medias. En este sentido, adems de servir para el contraste, permite estimar la discrepancia entre las medias por comparacin con la primera de ellas. Si se emplea otro tipo de matriz, se obtendran las posibles discrepancias entre las medias en una presentacin diferente.

Ejemplo 2.3 En Mardia, Kent y Bibby (1979), pgina 12, se pueden encontrar los datos de depsitos de corcho obtenidos en 28 rboles y extrados en las cuatro direcciones, Norte, Sur, Este y Oeste. Se est estudiando si la cantidad media de corcho que se llega a recoger, es similar en las cuatro direcciones. Vamos a efectuar el contraste de esta hiptesis usando el test propuesto en esta seccin.
2.8. Inferencia sobre la matriz de covarianzas.
Suponemos que el vector de medias es desconocido y queremos contrastar una hiptesis nula simple sobre la matriz de covarianzas

H0 : = 0
frente a una alternativa en la que la matriz de covarianzas no est sujeta a restricciones. El vector de medias carece de restricciones tanto bajo la hiptesis nula como bajo la alternativa.

18

Mster en Tcnicas Estadsticas

Aplicando el procedimiento de razn de verosimilitudes, resulta el estadstico de contraste:

2 log (X ) = 2 log
Al igual que en la expresin (2.2), tendremos

sup L (X, , 0 ) sup, L (X, , )

sup log L (X, , 0 ) = c

n 1 log |0 | + traza 0 S 2

y, reproduciendo la expresin (2.3),

sup sup log L(x, , ) = c


n (log |S | + d) 2

de modo que el estadstico de contraste adopta la forma:


1 1 1 2 log (X ) = n log |0 | + traza 0 S log |S | d = n traza 0 S log 0 S d d d

= n
j =1

j log
j =1

j d = n da log g d pd = nd (a log g 1)

1 siendo 1 , . . . , d los autovalores de la matriz 0 S , a la media aritmtica de tales autovalores y g su media geomtrica.

La distribucin exacta de este estadstico bajo la hiptesis nula no se encuentra disponible. En su lugar, usaremos la distribucin asinttica que presenta por ser un estadstico de razn de verosimilitudes: 2 log (X ) = nd (a log g 1) 2 m siendo el nmero de grados de libertad, la diferencia entre el nmero de parmetros independientes bajo la hiptesis alternativa y bajo la hiptesis nula, que en este caso resulta, m = 1 2 d(d + 1), pues es el nmero de parmetros independientes en una matriz de covarianzas. Por haberse construido como cociente de verosimilitudes bajo la hiptesis nula y bajo la alternativa, rechazaremos la hiptesis nula cuando este estadstico sea grande o, mejor dicho, cuando 2 supere el cuantil (1 ) de la distribucin 2 m , denotado por m, , siendo el nivel de signicacin jado de antemano.

Ejemplo 2.4 Sobre los datos del ejemplo 2.1, vamos a contrastar que la matriz de covarianzas es
= 2.5 1 1 2

Por ltimo, debemos observar que si se hubiera supuesto que el vector de medias es conocido, siguiendo los mismos pasos habramos llegado al estadstico de contraste

2 log (X ) = nd (a log g 1)

Anlisis Multivariante

19

siendo a y g las medias aritmtica y geomtrica, respectivamente, de los autovalores de la matriz 1 0 . La nica diferencia radica en la sustitucin de S por el estimador

= 1 n

(Xi ) (Xi )
i=1

Nuevamente tenemos los mismos problemas con la distribucin del estadstico de contraste y apelamos a la distribucin asinttica, que es 2 m con el mismo nmero de grados de libertad, 1 m = 2 d(d + 1).

2.9. Generalizacin del contraste sobre la matriz de covarianzas.


En esta seccin se va a generalizar el test obtenido obtenido para el contraste de la matriz de covarianzas. Primero se ofrece el enunciado de un teorema de generalizacin, cuya demostracin es innecesaria, pues consiste en la constatacin de los mismos argumentos de mxima verosimilitud ya empleados, y de los desarrollos subsiguientes. Despus se tratan diversas situaciones en las cuales se puede aplicar este teorema.

Teorema 2.2 Sea X1 , . . . , Xn una muestra aleatoria simple de Nd (, ). Si las hiptesis H0 y S , respectivamente, y si X es y Ha conducen a los estimadores de mxima verosimilitud el estimador de mxima verosimilitud para bajo cualquiera de las dos hiptesis, entonces el estadstico de razn de verosimilitudes para contrastar H0 frente a Ha viene dado por
2 log (X ) = nd (a log g 1) 1 S .

siendo a y g las medias aritmtica y geomtrica, respectivamente, de los autovalores de la matriz

Demostracin
La demostracin seguira los mismos pasos que en la seccin anterior.

Contraste de la hiptesis nula

H0 : = k 0 , k (0, +),

con desconocido.

Supongamos que el vector de medias es desconocido y que queremos contrastar una hiptesis nula compuesta sobre la matriz de covarianzas

H0 : = k 0

k (0, +)

siendo 0 una matriz de covarianzas jada, frente a una alternativa en la que la matriz de covarianzas no est sujeta a restricciones. El vector de medias carece de restricciones tanto bajo la hiptesis nula como bajo la alternativa. Estamos en las condiciones del teorema anterior, por lo que slo nos falta calcular el estimador 0 . =k de la matriz de covarianzas bajo la hiptesis nula, Empezamos calculando el supremo en , siguiendo los mismos pasos que condujeron a la expresin (2.2), tras lo cual efectuamos ciertas operaciones elementales:

sup log L (X, , k 0 ) = c

n log |k 0 | + traza (k 0 )1 S 2

20

Mster en Tcnicas Estadsticas


= c n 2 n = c 2 log k d |0 | + traza 1 1 S k 0

1 1 d log k + log |0 | + traza 0 S k

A continuacin buscamos el supremo respecto de k , para lo cual efectuamos la derivada correspondiente: sup log L (X, , k 0 ) 1 n 1 1 d 2 traza = 0 S k 2 k k Esta derivada se anula en

= 1 traza 1 S = a0 k 0 d

1 siendo a0 la media aritmtica de los autovalores de 0 S . Calculando la derivada segunda podramos comprobar que se trata de un mximo de la funcin de logverosimilitud y, en conse = a0 es el estimador de mxima verosimilitud de k . cuencia, que k

Entonces, aplicando la expresin que gura en el teorema anterior, el estadstico de razn de verosimilitudes adopta la forma:

2 log (X ) = nd (a log g 1)
siendo a y g las medias aritmtica y geomtrica, respectivamente, de los autovalores de la matriz 1 S = 1 1 S . En consecuencia, a = 1 y g = 1 g0 , siendo g0 la media geomtrica de los a0 0 a0 1 autovalores de 0 S . Sustituyendo los valores de a y g obtenemos

2 log (X ) = nd 1 log

1 g0 a0

= nd log

a0 g0

Por ltimo, no estando disponible la distribucin exacta de este estadstico, la aproximamos por 1 1 una 2 m , siendo el nmero de grados de libertad m = 2 d(d + 1) 1 = 2 (d 1)(d + 2).

Test de esfericidad.

Hay un caso particular de este tipo de contraste que tiene un inters especial. Es el test de esfericidad, que consiste en contrastar la hiptesis nula

H0 : = k I
que viene a decir que las variables tienen la misma varianza y son incorrelacionadas. Ntese que la incorrelacin equivale a independencia cuando se trata de variables normales. Es inmediato que estamos ante un caso particular del test anterior. Para verlo basta con tomar 0 = I . Por tanto, el estadstico de contraste sera:

2 log (X ) = nd log

a0 2 m g0

siendo a0 y g0 las medias aritmtica y geomtrica, respectivamente, de los autovalores de la 1 1 matriz 0 S = S , y m = 2 (d 1)(d + 2).

Anlisis Multivariante

21

Ejemplo 2.5 Se ha medido la longitud y la anchura de la cabeza de los hijos primero y segundo, en 25 familias. Los datos guran en la tabla siguiente.
Primer hijo Segundo hijo Longitud Anchura Longitud Anchura 191 155 179 145 195 149 201 152 181 148 185 149 183 153 188 149 176 144 171 142 208 157 192 152 189 150 190 149 197 159 189 152 188 152 197 159 192 150 187 151 179 158 186 148 183 147 174 147 174 150 185 152 190 159 195 157 188 151 187 158 163 137 161 130 195 155 183 158 186 153 173 148 181 145 182 146 175 140 165 137 192 154 185 152 174 143 178 147 176 139 176 143 197 167 200 158 190 163 187 150 Suponiendo normalidad, vamos a contrastar la esfericidad de este vector de cuatro variables.

Contraste de la hiptesis nula

H0 : 12 = 0,

con

desconocido.

Separemos las variables en dos conjuntos con d1 y d2 variables, respectivamente. Por supuesto, d1 + d2 = d. Entonces la matriz de covarianzas se puede expresar

11 12 21 22

Queremos contrastar la hiptesis de que los dos conjuntos de variables son independientes entre s, lo cual, en esta situacin donde se supone normalidad, equivale a incorrelacin, esto es, a que 12 = 0. Bajo la hiptesis nula H0 : 12 = 0, la verosimilitud se descompone en el producto de dos factores correspondientes a las verosimilitudes que provienen de cada conjunto de variables. De

22

Mster en Tcnicas Estadsticas

este modo, bajo la hiptesis nula, los estimadores de 1 y 11 por un lado, y de 2 y 22 por otro, se obtienen maximizando la verosimilitud de cada conjunto de variables por separado. As, suponiendo que el vector de medias = (1 , 2 ) es desconocido, su estimador de mxima 1, X 2) = X , mientras que verosimilitud ser = (X

S11 0 0 S22

Bajo la alternativa, no hay restricciones ni para el vector de medias ni para la matriz de cova y S , respectivamente. rianzas, de modo que los estimadores de mxima verosimilitud sern X Entonces el estadstico de razn de verosimilitudes adopta la forma que gura en la expresin del teorema anterior, donde

1 S =

S11 0 0 S22

S11 S12 S21 S22

I
1 S21 S22

1 S12 S11 I

1 1 S = 1 d = 1. Por otro lado, traza En tal caso, a = d d

1 S = gd =

1 S12 | |S | |S22 S21 S11 1 1 1 1 R12 R21 R11 S12 = I R22 S21 S11 = = I S22 |S11 | |S22 | |S22 |

En el ltimo paso hemos sustituido las matrices de covarianzas por matrices de correlaciones, que se construyen a partir de las anteriores as: R = D1/2 SD1/2 , siendo D una matriz diagonal que contiene las varianzas. Entonces, el estadstico de contraste ser:
1 1 S12 S21 S11 2 log (X ) = nd log g = n log I S22

Ahora podemos apelar a la distribucin asinttica, pero en su lugar vamos a obtener la distribucin exacta 1 1 (X )2/n = I S22 S21 S11 S12 (d2 , d1 , n 1 d1 ) si H0 : 12 = 0 es cierta. De la teora de matrices Wishart particionadas (vase Mardia, Kent y Bibby (1979), pgina 70), tenemos que

M11 = nS11 Wishartd1 (11 , n 1) M22 = nS22 Wishartd2 (22 , n 1) M221 = n S22
1 S21 S11 S12 1 = M22 M21 M11 M12 Wishartd2 (221 , n 1 d1 )

y M221 es independiente de (M11 , M22 ). Adems, si H0 : 12 = 0 es cierta, entonces 221 = 22 y M221 Wishartd2 (221 , n 1 d1 ) |M221 | M22 M221 Wishartd2 (221 , d1 ) = (d2 , d1 , n 1 d1 ) |M221 + (M22 M221 )| y son independientes

Anlisis Multivariante
Por ltimo, observamos que
1 1 (X )2/n = I S22 S21 S11 S12 = 1 |S22 S21 S11 S12 | |M221 | = |S22 | |M221 + (M22 M221 )|

23

Como corresponde a un test de razn de verosimilitudes, se rechazar la hiptesis nula H0 : 1 1 12 = 0 cuando (X ) sea pequeo, o equivalentemente, cuando |I S22 S21 S11 S12 | sea pequeo, o equivalentemente, cuando su transformacin en una F de Sndecor sea grande.

Ejemplo 2.6 Sobre los datos del ejemplo 2.5, vamos a contrastar si existe correlacin entre las medidas del primer hijo y las del segundo.
Consideremos que uno de los conjuntos de variables tenga un nico elemento, por ejemplo, d1 = 1 y d2 = d 1. En esta situacin, R11 = 1, y si denotamos = R21 , ste ser un vector (d 1)dimensional. De este modo, el estadstico de contraste resulta:
1 1 1 R21 = 1 R2 (d2 , 1, n 2) = 1 R12 R22 = 1 R22 (X )2/n = I R22 (a)

Caso particular. Coeciente de correlacin mltiple.

siendo R el coeciente de correlacin mltiple entre la primera variable y las restantes. En el paso (a) se aplica la misma argumentacin que ya fue usada en la pgina 12. Usando que en general

1 (d, 1, m) d = Fd,md+1 , (d, 1, m) md+1 d1 R2 Fd1,nd 2 1R nd

tenemos que

Finalmente, el coeciente de correlacin mltiple sea considerar signicativo cuando el estadstico anterior R2 /(1 R2 ) sea grande, comparado con la distribucin F de Sndecor.

Contraste de la hiptesis nula

H0 :

es diagonal, con

desconocido.

La hiptesis nula consiste en suponer que las variables son incorrelacionadas, pero, a diferencia del test de esfericidad no exigimos que tengan la misma varianza. De nuevo, la incorrelacin equivale a independencia en un contexto de normalidad. As, bajo la hiptesis nula, se maximiza la verosimilitud separadamente para cada variable, dando lugar a los estimadores de la media y la varianza de dichas variables y en consecuencia a los estimadores del vector de medias y matriz de covarianzas: 2 S1 .. = X y .
2 Sd

Bajo la alternativa, no hay ninguna clase de restricciones sobre los parmetros y que, por y S. tanto, admiten como estimadores de mxima verosimilitud X

24

Mster en Tcnicas Estadsticas

Entonces, aplicando el teorema general, el estadstico de contraste ser:

2 log (X ) = nd (a log g 1) = n log |R|


siendo a y g las medias aritmtica y geomtrica, respectivamente, de los autovalores de la matriz 1 S , y R la matriz de correlaciones.

1/2 S 1/2 y esta matriz, an El ltimo paso de la expresin anterior se debe a que R = 1 S , tiene los mismos autovalores que lla. Adems, como la diagonal de siendo distinta de una matriz de correlaciones est formada por unos, la traza vale d y, en consecuencia, la media de los autovalores vale uno, a = 1.
Por ltimo, aproximamos la distribucin del estadstico as:

n log |R| 2 1 d(d1)


2

donde el nmero de grados de libertad resulta de la diferencia del nmero de parmetros inde1 pendientes bajo la hiptesis nula y bajo la alternativa: d + 1 2 d(d + 1) (d + d) = 2 d(d 1).

2.10. Comparacin de poblaciones normales multivariantes.


En esta seccin vamos a considerar varias poblaciones normales multivariantes, de las cuales extraemos muestras de manera independiente. En base a estas muestras contrastaremos hiptesis de igualdad o comparacin entre los parmetros de las diferentes poblaciones. Consideremos pues

X11 , . . . , X1n1 ... Xk1 , . . . , Xknk

Nd (1 , 1 ) ... Nd (k , k )

independientes independientes

siendo a su vez las k muestras independientes entre s. El abanico de posibles problemas de comparacin de estas k poblaciones es muy amplio. En lo que sigue hemos seleccionado algunos casos que nos parecen ms interesantes.

2.10.1. Contraste de igualdad de medias de dos poblaciones normales multivariantes con matrices de covarianzas iguales.
Restringimos la situacin anterior al caso de dos poblaciones y por tanto suponemos

X11 , . . . , X1n1 X21 , . . . , X2n2

Nd (1 , 1 ) Nd (2 , 2 )

independientes independientes

siendo a su vez las dos muestras independientes entre s. Adems supondremos que las dos matrices de covarianzas son iguales, 1 = 2 . En estas condiciones pretendemos contrastar la hiptesis nula

H0 : 1 = 2

Anlisis Multivariante

25

Parece razonable basar el procedimiento de contraste en una medida de discrepancia o distancia entre estimadores de 1 y de 2 . De cada una de las dos poblaciones se pueden obtener estimadores de los parmetros correspondientes a cada poblacin,

1 = 1 X n1 2 = 1 X n2

n1

X1j
j =1 n2

Sc1

1 = n1 1 1 = n2 1

n1

1 X1j X
j =1 n2

1 X1j X

X2j
j =1

Sc2

2 X2j X
j =1

2 X2j X

Por ser las dos muestras independientes entre s, tambin lo son los estadsticos procedentes de cada una de ellas. Adems, un teorema del primer tema (extensin del teorema de Fisher al caso multivariante) garantiza que

1 Nd (1 , /n1 ) X 2 Nd (2 , /n2 ) X

(n1 1) Sc1 Wishartd (, n1 1) (n2 1) Sc2 Wishartd (, n2 1)

y son independientes y son independientes

Adems, como las dos muestras son independientes entre s, tambin lo son los estadsticos obtenidos en base a cada una de ellas. Por tanto,

1 X 2 Nd 1 2 , X

1 1 + n1 n2

(n1 1) Sc1 + (n2 1) Sc2 Wishartd (, n1 + n2 2)


y adems son independientes. Denotemos mediante

Sc =

(n1 1) Sc1 + (n2 1) Sc2 n1 + n2 2

una media ponderada de Sc1 y Sc2 , que servir como estimador de la matriz de covarianzas comn . Entonces, bajo la hiptesis nula H0 : 1 = 2 ,

n1 n2 1 X 2 S 1 X 1 X 2 2 (d, n1 + n2 2) X c n1 + n2
lo cual lo convierte en un estadstico adecuado para el contraste de dicha hiptesis.

2.10.2. Contraste de igualdad de matrices de covarianzas de poblaciones normales multivariantes.


Recordemos el modelo inicial de esta seccin

X11 , . . . , X1n1 ... Xk1 , . . . , Xknk

Nd (1 , 1 ) ... Nd (k , k )

independientes independientes

26

Mster en Tcnicas Estadsticas

siendo a su vez las k muestras independientes entre s. Nos planteamos el contraste de la hiptesis nula H0 : 1 = = k . Los vectores de medias estn exentos de restricciones tanto bajo la hiptesis nula como bajo la alternativa. Vamos a obtener el test de razn de verosimilitudes. Lo primero que observamos es que, como las muestras son independientes entre s, la funcin de verosimilitud se puede expresar como producto de las funciones de verosimilitud de cada una de las k poblaciones. Bajo la alternativa,
k k k

sup
1 ,1 ,...,k ,k k

log
i=1

L (i , i ) =

sup log L (i , i ) =
i=1 i ,i i=1

i , Si log L X
k

=
i=1

nd 1 ni d 1 ni d = log(2 ) ni log |Si | log(2 ) 2 2 2 2 2

ni log |Si |
i=1

nd 2

Bajo la hiptesis nula, denotemos = 1 = = k a la matriz de covarianzas comn,


k k k

sup
1 ,...,k ,

log
i=1 k

L (i , ) = sup
i=1

sup log L (i , ) = sup


i i=1

i, log L X

= sup
i=1

ni d ni log(2 ) log || + traza 1 Si 2 2 log || + traza 1 Q n = nd n Q nd log(2 ) log 2 2 n 2

= sup

n nd log(2 ) 2 2

siendo Q = k i=1 ni Si . Ntese que Q/n es el estimador de mxima verosimilitud de la matriz de covarianzas comn, , y resulta ser una media ponderada de las matrices de covarianzas muestrales provenientes de cada poblacin. Finalmente, el estadstico de razn de verosimilitudes adopta la forma:
k i=1 L (i , ) k i=1 L (i , i ) k

2 log

sup1 ,...,k , sup1 ,1 ,...,k ,k

= n log
k

Q n

ni log |Si |
i=1

=
i=1

ni log

Q 1 S 2 1 d(d+1)(k1) 2 n i

cuya distribucin hemos aproximado por una ji-cuadrado cuyos grados de libertad resultan de la diferencia de parmetros independientes entre la hiptesis nula y la alternativa.

Ejemplo 2.7 Se ha medido la longitud, la anchura y la altura del caparazn de 48 tortugas, 24 hembras y 24 machos. Los vectores de medias y matrices de covarianzas respectivos son:
136.00 x 1 = 102.58 51.96 113.38 x 2 = 88.29 40.71 432.58 259.87 161.67 164.57 98.99 S1 = 63.87 132.99 75.85 35.82 47.96 20.75 S2 = 10.79

Anlisis Multivariante
Suponiendo normalidad en cada sexo,

27

(a) Vamos a contrastar que los vectores de medias son iguales en ambos sexos, suponiendo que las matrices de covarianzas son iguales. (b) Vamos a contrastar que las matrices de covarianzas son iguales en ambos sexos.

Bibliografa.
Anderson, T.W. (2003).

An introduction to multivariate statistical analysis. Wiley. Applied multivariate statistical analysis. Prentice-Hall. Multivariate analysis. Academic Press.

Johnson, R.A. y Wichern, D.W. (1982).

Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979). Seber, G.A.F. (1984).

Multivariate observations. Wiley.