Vous êtes sur la page 1sur 18

ESTADSTICA ESPAOLA

Vol. 38, Nm. 141, 1996, pgs. 19 a 35

Estratificacin multivariante . Criterios


de evaluacin(*)

por
LUIS AMBROSIO FLORES
Departamento de Economa y Ciencias Sociales Agrarias
Unidad de Estadstica

AURELIO VILLA PREZ


Departamento de Matemtica Aplicada

LUIS IGLESIAS MART^NEZ


Departamento de Ingeniera Cartogrfica, Geodesia y Fotogrametra - Expresin Grfica.
E.T.S. DE INGENIEROS AGRNOMOS. CIUDAD UNIVERSITARIA. 28040 MADRID
E-mail: Flores@eco.etsia. upm.es

RESUMEN

Se consideran varios procedimientos de estratificacin multiva-


riante: generalizacin de la estratificacin univariante, estratificacin
de la primera componente principal y cuatro algoritmos de clasifica-
cin {Ward, K-medias, Centroide y Medias).

Se consideran dos criterios de evaluacin: (i) la eficiencia en la es-


timacin de la media de las variables de estratificaci8n y(ii) la prdida
relativa de precisin respecto de la estratificacin univariante ptirna.

t*> Este trabajo ha sido financiado por el Ministerio de Agricultura, Pesca y Alimenta-
cin, en el marco de un convenio de colaboracin suscrito entre la Secretara General
Tcnica de dicho Ministerio y el Departamento de Economa y Ciencias Sociales Agrarias de
la Universidad Politcnica de Madrid
f ^ I ^l )Iw 1 (t \ f ^I' ^ti^ ^1 ^

Con estas dos criterias, ios procedmentos estud^ados se evaiua-


ron a partir de1 estudio de un caso. Ei aigaritrno de Ward result ser el
mejor procedirniento de estratificacin, de los examinados en este tra-
bajo.

Palabras clave: Muestreo estratificada. Tcnicas de clasificacin. Es-


tratificacin del territorio.

Clasificacn AMS: 62J04, 62D05

INTRCJDUCCIN

Para una sola variable de estratificacin, una soiucin ptima ai problema de


cmo estratificar una poblacibn determinada en un cierto nmero L de estratas, con
el criterio de optimizacin usual de "minimizar la varianza del estimador para un
tamao de muestra dado", ha sido obtenida por Dalenius (1950} [Cochran (1981 }].
Para ms de una variable de estratificacin no hay un nico criterio de optimiza-
cin bien establecido. Los dos de uso ms frecuente consisten en minimizar, para
un tamao de muestra dada, (i) la varianza generalizada del vector de estimadores
o(ii) una suma ponderada de las varanzas de los estimadores. Chosh (1963), con
ei primer criter^io, generaiiza los resultados de Dalenius (1950) al caso de dos
variables de estratificacin, y Lavalle (1988), con el segundo criterio, proporciona
tambin una solucin bptirna al problema de estratificacin bivariante, aunque
utilizanda una tcnica de optimizacin diferente (la programacin dinmica, en lugar
del sistema de ecuaciones minimal obtenido derivando parcialmente fa varianza
generaiizada del vector de medias muestrales de ias variables de estratificacin,
con respecta a las I mites entre estratos} .
La obtencin exacta de estas soiucianes ptimas presenta dificultades prcti-
cas: la soiucin depende de parmetros taies como ia media y!a varianza dentro de
estratos, los cuales a su vez dependen de los limites entre estratos, que es preci-
samente la solucin buscada; por fa que se requieren mtodos iterativos para la
bsqueda de !a solucin exacta.
En ia prctica dei muestreo se trata siempre de establecer un campromiso entre
la precisin y e! caste de ias estimaciones: en este artculo nos interesamos en
d^stintos procedimientos para la construccin de los estratos cuando se dispone de
ms de una variable de estratificacin, que pueden servir de base para establecer
dicho compromiso, en funcin dei grado de aproximacn de cada pracedimiento a
ia solucin ptima y de la mayor o menor dificultad de su aplicacin prctica.
En el epgrafe 2 se establecen las criterios de evaluacin de un procedimiento
de estratificacin. En ios epgrafes 3 y 4 revisamos ias soluciones aproximadas a1
1^! li ^ l Il li ^c li ^ ^., tilt 1 l I^. tiftl ^,ti 4 6 i kl I! kli ^ ti 1^4 I`^t !^i li ^ti

problema de optimizacin planteada, que han sido propuestas en la literatura. En el


epgrafe 5 las aplicamos a un caso de estudio y comparamos los resutados_ En
esta aplicacin, las caractersticas a estimar son las medias de las variables de
estratificacin. Consideramos un reparto ptimo de la muestra entre ios estratos.

2. CRITERIOS DE EVALUACIN

Cuando, como es el caso ms frecuente en la prctica, se pretende estimar ms


de una caracterstica a partir de una misma muestra, la estratificacin ptima para
una de eilas no fo ser, en generaf, para las dems. Sea S,* la estratificacin
univariante ptima de la variable X, (j=1, 2, ..., P). La estratificacin mutivariante
basada en las P variables debe ser un compromiso entre las P estratificaciones
univariantes ptimas. Para evaluar la estratificacin multivariante se consideran dos
criterios: (i) la eficiencia relativa de la estratificacin respecto del muestreo aleatorio
simple, para estimar la media de fas varables consideradas y(ii) la prdida reiativa
de precisin respecto de la estratificacin univariante ptima.

2.1. Eficiencia relativa

La eficiencia relativa de una estratificacin determinada, respecto del muestreo


aleatorio simple, para la estimacin de la media de la variable X, (j=1, 2, ..., P) se
define as :

ER, = Vr,.^.5..(x,) I V,,.^.s^ (xst,)

donde V rn a s^X^ ) es la varianza del estimador usual de la media de la variable X, con


muestreo aleatorio simple, y Vm a st ^Xst^ } es la va^-ianza del estimador usuaf de la
media de la misma variable X, con muestreo aleatorio estratificado; definidos ambos
para muestras del mismo tamao n. Ignorando el factor correctar de poblaciones
finitas y para un reparto ptimo de la muestra entre estratos:

z
Vn^.a.st. ^XSt^ ) ^ W,,Sh; /n

donde Wh=N^/N (siendo Nh el nmero de elementos de la poblacin en el estrato h) con:

y 5^,, es 1a desviacin tipica de la variable de estratificacin X en el estrato h.


^
f ^r-^.ni^ric .^ F ^^^^ti^>i .^

Asimismo:

_ z
vn,.a.s. ^X, ) -- S^ / n

donde S^^ es la varianza de la variable de estratificacin X,, en ia poblacin. Por


tanto:

^.
ER^ = S? / ^Nhs
h-1

2.2. Funcin de prdida de precisin

Si V *m a st \xst^ } es la varianza del estimador usual de la media de X, con muestreo


aleatorio estratificado, supuesta una estratificacin S;* ptima de X,, y Vm ^$ t (xst,) es
la varianza del mismo estimador correspondiente a una estratificacin cualquiera S
del mismo nmero de estratos L que S;*, se define {para muestras del mismo
tamao) la prdida de precisin relativa que resuita de estimar la media de X, a
*
partir de la estratificacin S en lugar de hacerlo a partir de la ptima S; , de la
siguiente forma [Kish {1976}, Jarque (1981)j:

- [^m.a.st. ^x stj ^ " m.a.st. `X stJ ^] / " m.a.st. `X stj ^

La prdida de precisin D(S) en las estimaciones de las medias de las variables


de estratificacin, de una estratificacin multivariante determinada S, respecto de
^
las univariantes ptimas - S j; j= 1, 2, .. ., P- se define como la suma de las prdidas
D^ observadas para cada variable j. Para P variables de estratificacin:

P P
`, ,/ .
ym.a.st. `X stj ^/ Vm.a.st. ^X St^ ^- P

Dadas dos estratificaciones de una misma poblacin, en un mismo nmero de


estratas y para un mismo tamao de muestra, se considera preferible a aquella
para la que la prdida total D(S) es menor.
Obsrvese que, una vez fijados el tamao de muestra n y el nmero de estratos
L, V*rn.a st (Xst^ } es constante, de modo que D(S} es slo fiuncin de una suma ponde-
rada de ias Vrn ^ st (xSt;} siendo 1 /V*m ^.st (xst,) para j = 1, 2,, .., P, los coeficientes de
ponderacin:
F:tiTFi:^F^IF^I("A("[(^!^ !^11.^1.T"I^ARI.>ti"TF^: C^RI"i^F-:R1OS C)! F `:^Ll At.FC)Pti

D`^^ ^ ^ a^ vm.a.st. `xst^

donde:
^ / , /
^ Ym.a.st. l^ $t; ^

Para un reparto ptimo de la muestra entre estratos, D(S) es:

r^ 2

D(S> _ -^ P a
n^ 1-1 ' ^ ^h^h1
h ^. ^

Y para un reparto proporcional, D(S) es:

D(S> _ -^ ^ a;
n ,_, ^. h = ^ E

3. ESTRATIFICACIN UNlVARIANTE: APROXIMACI^NES PRCTICAS

Para el caso de una sola variable de estratificacin, se han propuesto diversas


soluciones aproximadas al sistema de ecuaciones mnimal de Dalenius ( 1954), una
revsin de las cuales puede encontrarse en Kpedekpo (1973).
Dalenius y Hodges (1959) proponen la siguiente solucin aproximada: Si y(x) es
el valor acumulado de a raz cuadrada de las frecuencias absolutas de los valores
de la variable de estratificacin X inferiores o iguales a x, para construir un nmero
de estratos L, ios lmites aproximadarnente ptimos entre estratas son ios valores x,
< x2 <....< xh <...< x^_, de la variable de estratificacin que satisfacen a la ecuacin:

y(x ^ = hH/L:h=1,2,...,L-1

en la que H es el valor de y(x) correspandiente al mximo valar de X, supuesto este


finito. EI extrema inferior del estrato h= 1 es el valor mnimo de X y el superior de1
estrato h= L es el valor rnximo de X.
Ekman ( 1959) propone tomar los lmites entre estratos de modo que W,,(xn-xh-1)
sea igual para tado h= 1, 2, ..., L; siendo Wh la proporcin de etementos de la
poblacin en el estrato h. Otras propuestas similares a sta consisten en sustituir
(xh - x,,_,) por la media de la variable de estratificacin en el estrato h(p,.,), o bien por
la desviacin tpica (Sh).
?-i E^ ^-^r>^^; ^ ^c ^ t^ ^^^^tic>^ -^

^stas y otras propuestas han sido comparadas entre si con base tanto en distri-
buciones tericas como empricas [Cochran (1961), Sethi {1963), Hess et al.
(1966), Anderson et al. (1976}]. Ninguna de ellas es en todos los caso ms eficiente
que las dems. La propuesta de Dalenius, y Hodges {1959}, Ilamada regla Cu^ ,
y la de Ekman (1959) resultan satisfactorias en la generalidad de los casos; siendo
la primera de m^s fcil aplicacin.

ESTRATIFICACIN MULTIVARIANTE: APR4XIMACIC3NES PRCTICAS

l^na primera aproximacin al problema de la estratificacin multivariante con-


siste en aplicar a cada variable, sucesivamente, los resultados ya bien establecidos
en la literatura para el caso univariante. Dadas " P" variables de estratificacin, se
podran determinar para cada variable "j" (j = 1, 2, ... P), de forma independiente y
mediante una de las reglas citadas en el epgrafe anterior, los lmites entre los Lj
estratos considerados.
Para P = 2, el estrato genrico "h" quedara constituido por aquellos de los N
elementos en los que la variable de estratificacin "1 " toma valores comprendidos
entre los lrnites [x^n_, ^,, x^n}^] determinados por la regla utilizada y la variable "2"
entre los I mites [xth_^ ^2, x^h^2]: de esta forma, el estrato "h" queda representado por la
celdilla definida por los intervalos [x^^,_^^^ , %t{h)1] Y[X(h_^)2 , x^h^2]; y los N elementos de la
poblacin distribuidos en L= L, x L2 celdillas. Se trata pues de una estratificacin
en ltices.
Si las variables de estratificacin no son independientes entre si, cabe esperar
una mayor eficiencia si, en lugar de aplicar la regla a cada variable "j" (j = 1, 2, ... P},
consderada como variable marginal, se aplica a las variables condicionales, de
forma iterativa: ( i) En la primera iteracin, se aplica a una variable de estratificacin
cualquiera "j". Sea h,* el estrato genrico de esta estratificacin (h;* = 1, ^, ..., L;). (ii)
En la segunda iteracin se aplica la regla a la variable " k", dentro de cada una de
los estratos h;*. Sea hk*/h^ el subestrato genrico "hk*" de los Lk subestratos en los
que se divide el estrato h, (hk*/h,* = 1, 2, ... L,^). (iii) EI proceso de subestratificacin
descrito en (ii) contina hasta terminar con todas y cada una de las variables de
estratificacin.
Las tcnicas de anlisis multivariante han sido tambin consideradas para el
tratamiento del problema de la estratificacin. Hagood y Bernet (1945) han pro-
puesto una estratificacin basada en las componentes principales de la matriz de
correlaciones entre las variables de estratificacin. Kish y Anderson (1978) han
comparado la estratificacin bivariante (en ltices) con la estratificacin basa en la
primera componente principal, tanto en poblaciones tericas con distribucin nor-
mal como en diversas poblaciones reales: en general, la estratificacin bivariante
result ser ms eficiente que la basada en la primera componente principal; si bien
esta ltima es ms eficiente que la univariante.
E^S"I'RATIFIt'AC'!ON MI^JI."TIVARIANTE CR[TERIOS DE EVALUACION 25

La estratificacin puede ser tambin formulada como un problema de clasificacin


a tratar mediante diversos algoritmos [Golder y Yeomans (1973}, Jarque (1981), Julien
y Maranda ( 1990)]. ^^ este fin, es til considerar la descomposicin multivariante de la
varianza. Dada una estratificacin cualquiera de !os N elementos de la poblacin en L
estratos, con Nh elernentos en el estrato h-simo (h=1, 2, ..., L), si denotarnos por
T
^(,; =[Xh,;, X^;, ..., Xhj;, ... Xhp; ] el vector de observaciones de las P variables de estrati-

ficacin en el elemento i-simo {i=1, 2, ..., Nf,) del estrato h{h=1, 2, . .., L), se verifica
[Johnson y Wichem ( 1988) p.236]:

L ^, _ ^ ^ ^
X ^T
^ ^ ^^hi r ^^`^hi - X^T h 1^h ! ^^^Xh -^- `> ^> ^X hi X h Ic^hi ^h ^
h-1 i-1 h=1 i=1

donde:

1 `^
^ X,,;
N h i=1

_ ^cNh _ ^>s^
h-1 i=1 h=1

donde S2h es la matz de varianzas [S,-,;2, j=1, 2, ..., P] y covarianzas [^,;;^, j(^j')=1, 2, ..., P]
poblacionales en el estrato h del vector definido por las P variables de estratifica-
cin, esto es, una matriz cuadrada de orden P cuyos elementos de la diagonal
principal son las varianzas dentro de estratos:

1 ^ / -
^ ^ `X hi; - Xhj ^ 2
Nh ^ ^ i=1

y fuera de la diagonal principal sus elementos son !as covarianzas

Shl^. _ ^ cxh;; - xh; ycxhi;. - xh;^ >


Nh ` ^ i=i

para j(^j')=1, 2, ..., P.


De entre !os algoritmos de clasificacin propuestos en !a literatura [Johnson y
Wichern ( 1988}, Jdez {1988)], el de Ward ( 1963) {de tipo jerrquico) y e! de Ma-
cQueen (1967) {de tipo no jerrquico), este ltimo conocido por K-medias, tienden a
minimizar la traza de U:
? () E^S"TADIST^IC'.A^ E:SPAOI.A

P 1^

trU = ^ ^ tN,, -1^Sh,


1 h1

La tr U es una medida de la variacin total dentro de estratas: es la suma de la


variacin dentro de estratos de cada variable. La descomposicin de la variacin
total de la variable X; es:
L ^
tN -1?SZ i ^ tNh - .^)Sh, + ^ Nh tXh^ _ X; }z
h- 1 h- 1

En esta ltima expresin el primer sumando del segundo miembro es la varian-


za dentro de estratos y el segundo sumando es la variacin entre estratos. EI
algoritmo de Ward y el de MacQueen tienden, pues, a minimizar la variacin dentro
de estratos o lo que es equivalente, a maximizar la variacin entre estratos, de cada
variable.
Con reparto proporcional y fijado el tamao de la muestra n, la funcin de prdi-
da depende slo de la traza de la matriz de varianzas y covarianzas -U*- de las
variables de estratificacin previamente transformadas multiplicndolas por a; :

D(S) _ ^ ^ tr U*
nN -

En consecuencia, cabe esperar que a las estratificaciones basadas en estos


dos algoritmos correspondan menores valores de la funcibn de prdida D(S) que a
las basadas en otros algoritmos y, por tanto, sean preferibles segn el criterio (ii).
Junto a estos dos algoritmos consideraremos, con fines comparativos, otros dos,
ambas jerrquicos: el de las Medias (distancia entre clases igual a la media de las
distancias entre pares de elementos) y el del Centroide (distancia entre clases igual
a la distancia entre las medias de clase). EI procedimiento "Cluster" del sistema
SAS (1985) incluye, entre otros, los tres algoritmos jerrquicos considerados y el
"Fastclus" el algoritmo de las K-medias.

5. ESTU DIO DE U N CASO

Bajo este epgrafe evaluamos las tcnicas de estratificacin multivariante, rela-


cionadas en el epigrafe anterior, en su aplicacin a un caso de estudio.
EI caso en cuestin es la estratificacin del territorio de la provincia de Guada-
lajara atendiendo a los usos del suelo, con vistas a la estimacin de superficies
cultivadas. Se considera como elemento o individuo de la poblacin al territorio
correspondiente a la cuadricula UTM de 1 Km x 1 Km (100 hectreas): cada ele-
mento queda unvocamente definido en el mapa mediante las coordenadas de uno
F^1K^^IlFlt^^^( !Oti 11l l Il^ ^^Rl.^^tifE ( RIIf:KIf)4 U#- F\ ^^I 1^1( IOti

cualquiera de los vrtices de la cuadrcula, en la proyeccin UTM, que es la base


de la cartografa espaola.

5.1. Los datos

Sobre cada uno de los 12.190 eiernentos de los que consta la poblacin estu-
diada, se dispone de informacin acerca de las siguientes variables, medidas en
hect^reas y reiativas a los usos del suelo:
X,: cultvos herbceos de regado.
X2: cultivos herbceos de secano.
X3: cultivos leosos de regada.
X4: cultivos leosos de secano.
Los datos resultan de la digitalizacin de los "mapas de cultivo y aprovecha-
mientos" [MAPA {1976}].

Cuadro 1
GARACTERSTICAS DE LAS VARIABLES DE ESTUDI^

Coeficiente de
Varable Media Varianza C.V. (%)
Asimetra
X, 1.92 82.03 472.06 6.96
X2 30.36 1009.88 104.68 0.74
X3 0.01 0.08 2617.63 40.29
X4 3.62 125.48 309.37 4.20

La correlacin entre estas cuatro variables de estratificacin es prcticamente


nula. EI coeficiente de correlacin lineal en#re la variable X^ y la XZ es -0.069, entre
la X, y la X^ es 0.075, entre la X^ y la Xa es 0.017, entre la X2 y la X3 es 0.002, entre
la X^ y la X4 es -0.056 y entre X3 y la X4 es 0.029.

5.2. Los resultados

En el cuadro 2 figuran los valores de ER, calculados para los procedimientos de


estratificacin considerados, y para tres niveles del nmero de estratos L: 3, 6 y 9.
Las eficiencias relativas ER^ son el caciente entre las varianzas del estimador de la
media con muestreo aleatorio simple -Vrn a s{x,)- y con muestreo aleatorio estratifica-
do -Vm a st (xst,)- que figuran en los cuadros 5 y 3, respectivamente. EI desglose de
1x 1 ti( 11)I`^! Ic ^ k ^l'^^`1.)i -^,

los va!res de !a funcin de prdida D{S) en las partes correspondientes a cada


variable y el valor total , se recoge en el cuadro 4.
1. Como caba esperar, dada la incorrelacin entre las variabies de estratifica-
cin, la estratificacin univariante Cu m f{x ^) es eficiente para la estimacin de la
media de la variable en cuestin (y, como es sabido, de las variables muy correla-
das con ella), pero no lo es en absoluto para variables incorreladas con ella. De
modo que, en casos como los que nos ocupan, la estratificacin univariante no es
satisfactoria. Comparando las cifras de los cuadros 3 y 5 se observa cmo la
estratificacin univariante Cum f{x^ } reduce notablemente la varianza del estima-
dor de la rnedia de Xj -V^ ^^t (xst^)- reduciendo la variacin dentro de estratos a una
mnima parte de la variacin total -5,2-: as, por ejemplo, se observa cmo la varian-
za del estimador de la media de la variable X1, con muestreo aleatorio simple [ver
cuadro 5] se reduce de 82.03 a 1.63, cuando el nmero de estratos es 3, a 0.19
cuando el nmero de estratos es 6 y a 0.08 cuando el nmero de estratos es 9[ver
cuadro 3]. Para las restantes variables la variacin dentro de estratos apenas se
reduce respecto de la total por lo que la eficiencia de la estratificacin es mnima:
prxima a 1[ver cuadro 2]. En todo caso, ia reduccin de la varianza del estimador
de la media aumenta con el nmero de estratos.
2. La estratificacin bivariante de tipo ltice conserva la eficiencia de las univa-
riantes que la componen. As, la estratificacin en L= L^ x L2 estratos por las
variables X^ y X2 conserva la eficiencia de las estratificaciones univariantes de X,
en L^ estratos y de X2 en L2 estratos, pero no las de X3 y X^. Para conservar estas
ltimas, se requerira un nmero de estratos L= L^ x L2 x L3 x L^, de modo que por
esta va el nmero de estratos se multiplica y puede Ilegar a ser excesivo cuando el
nmero de variables de estratificacin es superior a 3. Comparando las cifras de los
cuadros 3 y 5 se observa cmo la estratificacin Cum f{x, } X Cum f{x^ } reduce la
variacin dentro de estratos de las variables X, y X2 a una mnima parte de la
variacin total respectiva -S^2 y S22-, mientras a penas reduce la variacin dentro de
estratos de las variables X3 y X^ respecto de la total S32 y 5^^, respectivamente. De
ah que ia eficiencia relativa sea para estas ltimas minima: prxima a 1 [Ver
cuadro 2].
3. La estratificacin de la primera componente principal [PRI N 1) (que explica el
28% de la variacin total), de modo que el nmero elemen#os en cada estrato sea
aproximadamente el mismo, presenta una eficiencia significativa y bastante unifor-
me para la estimacin de todas y cada una de las caracteristicas en estudio [ver
cuadro 2]. Con este procedimiento, la variacin dentro de estratos es slo una pe-
quea parte de la total, para todas y cada una de las variables [ver cuadros 3 y 5].
4. EI algoritmo de MacC^ueen (1967) o de las K-medias y el algoritmo de Ward
(1963) establecen estratificaciones para las que la suma no ponderada de las
varianzas de los estimadores de cada variable j(j = 1, 2, ..., P):
f ti I Ft \ I If I( \( Itrti ^ft I i I l 1,111 \\ I t ( kl I f lZlt)^ !>k f\\E (^\( Il)^

^ Vrn.zi st
I ^

es inferior a la correspondiente a los dems aigoritmos de clasificacin: Media y


Centroide [ver cuadro 3^.
Sin embargo, la funcin de prdida D{S) considerada como criterio (ii) es una
suma ponderada y, con este criterio, el procedimiento de Ward es mejor que los
dems, cuando el nmero de estratos no es muy reducido, y los algoritrnos Media y
Centroide aventajan al de las K-medias [ver cuadro 4).
Los algoritmos de Ward, Media y Centroide proporcionan estratificaciones que
tienen de comn el hecho de ser muy eficientes para la estimacin de caractersti-
cas raras, coma es 1a variable X^ (ieosos de regadio), presente slo en 48 de los
12.190 elementos de la poblacin. En el cuadro 4 se observa cmo, para estas
estratificaciones, la prdida asociada a esta variable es muy reducida respecto de
la de las dems estratificaciones y, en particular de la del algoritm de MacQueen
(1967). Para esta ltima el valor de la funcin de prdida correspondiente a X^ es
muy elevado y, como consecuencia, el valor total de la funcin de prdida D(S)
resulta muy superior al de las dems.
La eficiencia de las estratificaciones por !os algoritmos Media y Centroide es, sin
embargo, insignificante para las restantes variables consideradas. Comparando las
cifras de los cuadros 3 y 5 se observa cmo, para estos algoritmos, la variacin
dentro de estratos apenas se reduce respecto de la total -5,2-, salvo para la variable
X3; es por ello que la eficiencia relativa es mnima {prxima a 1). En cambio, la
estratificacin por el algoritmo de Ward es eficiente, tambin para las dems varia-
bles. Como consecuencia, el procedimiento de estratificacin de Ward resulta ser el
mejor de los considerados, respecto de los dos criterios de evaluacin adoptados.
EI principal inconveniente de este algoritmo es que, por tratarse de un algoritmo
de clasificacn jerrquica, requiere equipos inforrnticos con rnucha capacidad de
memoria, cuando el tamao de la pobfacin es grande. EI algoritmo de MacQueen
(1967), por ser no jerrquico, no tiene ese inconveniente y, salvo para 1a estimacin
de caractersticas raras, es tambin eficiente. Este ltimo tiene, sin embargo, el
inconveniente de que la solucin depende de la semilla de partida y, por tanto,
puede ser inestable.
En el cuadro 2 hemos incluido los resuftados de dos estratificaciones por el al-
goritma de las K-medias, que difieren slo en la semilla: en un caso ia semilla fue
seleccionada por el procedimiento Fastclus del sistema SAS (1985), y en el otro
fueron las medias de clase de la clasificacin resultante del algoritmo de Ward. Las
diferencias entre ambas son escasas. Esta ltima mejora la eficiencia en la estima-
cin de la media de X2; el valor de D(S} permanece estable.
3{^ }^.^r_^u^^r^c^.^ E^^;^^^^c^t .^>

Cuadro 2
EFICIENCIAS RE^.ATIVAS EN LA ESTIMACI{ ^ N DE LA MED^A
Estratificacin N X^ X2 X3 x^
Estratos
Cum f^x,) 3 50. 30 1.00 1.12 1.02
6 442.80 1.01 1.17 1.03
9 1063. 06 1.02 1.20 1.03
Cum f^x,? 3 1.16 12.75 1. 04 1.07
6 1.18 60. 54 1.22 1.12
9 1.20 136.85 1.40 1.14
Cum^ 3 1.03 1.00 1364.20 1.00
6 1.03 1.00 5521.40 1.00
9 1. 04 1.00 33921.60 1. 00
Cum f(x4} 3 1.00 1.02 1.28 32.22
6 1.01 1.03 1.40 20^ .41
9 1.02 1.03 1.49 489. a6
Cum _/f(x 3
6 {3x2) 56 . 59 5.17 1. 58 1.07
Cum f(x2) 6 {2x3) 22 .48 12.92 1.11 1.08
9 (3x3) 61.33 12.99 1.45 1.11
PRIN 1 3 2.15 3.4$ 2.67 1.78
6 5.29 8.?7 6.55 4.47
9 5.31 10.91 6.55 4.48
K-Med ias 3 6.08 4.75 1.13 4.62
6 5.77 6.01 1.81 5.14
9 11 .02 9. 7$ 2.07 6.09
K-I'1/ledias ( Semillas 3 1.11 4.79 1.19 5.55
medias de la -
clasificacin de 6 8.96 11.30 1 .67 4.68
Ward) 9 12.81 19.34 2.03 6.57
Ward 3 1 .38 3.55 2.05 8.48
6 10.87 3.93 232.53 8.94
9 21.40 8.11 336.26 14.43
Med ia 3 1.01 1.00 7.76 1.00
6 1.02 1.00 19.16 1.00
9 2.01 1.00 37.31 1.00
Centroide 3 1.01 1.00 7.76 1.00
6 1.04 1.00 43.49 1 .00
9 1.05 1.00 44.39 1.Oo
k^ti^^^RA^f^it-1(' ^1('it}ti 1^11't.l^iti'AR[AN'i^E- (^ RI (^f^;Rl(^)ti UF. t^^^ ^l l' ^\(^1C.)ti

Cuadro 3
VARIANZA DEL ESTIMADOR DE LA MEDIA DE LAS VARIABLES DE ESTRATI-
FICACI^N, CON MUESTREO ALEATORIO ESTRATIFICADO
2
n Vm.a.st ^X st^ ^ Wh Sh, )

L Total
Estratificacin N ( r W h S h j1 2 = n V m.a .s t( x s t j^ 4 L

Estratos h -^ j =1, 2, 3, 4 ^ ^^ ^h ^ h^ ^ 2
^1 h=1

X^ X^ X3 X4
C u m f(x , ) 3 1.63 1009.88 0. 069 123.02 1134.60
6 0.19 999.88 0 . 066 121.83 1121.97
9 0.08 990.08 0. 064 120.83 1111.05
Cum f(x2) 3 70.72 79.21 0.074 117.23 267.23
6 69.52 16.68 0.063 112.04 198.30
9 68.36 7.38 0.055 110.07 185.87
=3
Cum f(x3) 3 79.64 1009.88 0.057 10 125.4$ 1215.00
6 79.64 1009.88 0.014 10"3 125.48 1215.00
9 78.88 1009.88 0.002 10"^ 125.48 1214.24
C u m f(x, ) 3 82.03 990.08 0.060 3.89 1076.06
6 81.22 980.47 0.055 0.62 1062.37
9 80.42 980.47 0.052 0.26 1061.20
Cum f(x,^ ) 3
6(3x2) 1.45 195.33 0.049 117.27 314.10
6( 2x3 ) 3 . 65 78 . 16 0 . 069 116 . 19 198 . 07
Cum f(x2 )
9(3x3) 1.34 77.74 0.053 113.04 192.17
PRIN 1 3 38.15 289.20 0.029 70.49 3 7.87
6 15.51 115.15 0.012 28.07 158.74
9 15.45 92.56 0.012 28.09 136.11
K-Medias 3 13.49 212.61 0. ^68 27.16 25^.3^
6 14.22 168.03 0.043 24.41 206.70
9 7.44 103.26 0.037 20.60 131.34
K-Medas {Semillas 3 73.90 210.83 0.065 22.61 307.41
medias de la 6 9.16 89.37 0. 046 26. 75 125.33
clasificacin de 9 6.40 52.22 0. 038 19.10 77.76
Ward)
Wa rd 3 59.44 284.47 0.038 14.80 358.75
6 7.55 256.97 0. 033 10^2 14. 04 278. 56
9 3.83 124.52 0.02310-2 8.70 137.05
Media 3 81.22 1009.88 0.992 10^ 15.48 1216.59
6 80.43 1009.88 0.476 10^2 125.48 1215.79
9 40.81 1009.88 0.206 10-2 125.48 1176.17
Centroide 3 81.22 1009.88 0.99210- 125.48 1216.59
6 78.88 1009.88 0.177 10-2 125.48 1214.24
9 78.12 1009.88 0.173 10-2 125.48 1213.48
f^ 1^[ ^I`^ I tt \ I^f' ^`^.t ^f ^

Cuadro 4
VAf`.ORES DE ^A FUNCIh1 DE PRDIDA, CORRESPONDIENTES A CADA
VARfABLE DE ESTRATIFICACIN
Q^ - ^rrya.st `x st3 ^ / ^rn.r^. st ^ X st, ^
Tota!
Estratificaciry N fn.Ff.St, ^^c.ijj ^I^f7T. ^.l.5[. ^XSij a
Estratos j=1,2,3, 4 as^=Ea,
, 3 x4
Cu m f^x , } 3 0.00 11.79 1209.53 30.62 1251.94
6 0.00 58.94 47^ 3.29 195.50 4967. 73
9 0.00 133.16 31999.00 463.83 32575.99
C u m f(x ^ 3 42.39 0.00 1297.25 29.14 1368.78
6 364.89 o.oo 4499. 00 179.71 5043.60
9 853.50 0.00 27499. 00 4222.35 28774.85
C u m flx , 3 47.86 11.79 0.00 31.26 90.91
6 418.16 59. 54 O.oO 201.39 679. 09
9 985.00 135.84 0.00 481.s2 1602.46
Cum flx ^ ) 3 49.32 11.54 1051 .63 0.00 1112.49
6 426.47 57.78 3927.57 .oo 441 1.82
9 1004.25 131.$6 25999.00 a. o0 27135.1 1
3 --
Cum f(x ^ )
6(3x2) 6.63 10.71 3499.00 188.15 3634.49
6 (2x3) 18 . 21 3 . 68 4927 . 57 186 . 40 5135 . 86
Cum f(x 2 )
9{3x3^ 15.75 9.53 26499.00 433. 77 26958.05
3 22.40 2.66 507.77 17.12 549. 95
PRIN 1
6 80.63 5.90 856.14 44.27 986.94
9 192.13 1 1 . 54 5999.00 107.04 6309.75
K-Medias 3 7.28 1 .69 1 191 .98 5.98 1206. 93
6 73.84 9.07 3070.43 3$.37 3191.71
9 92.00 12.99 18499.00 78.23 18682.22
K-Medias (Semillas 3 44.34 1 .67 1139.35 4.81 1190.17
medias de la 6 47.21 4. 36 3284.71 42.15 3378.43
cfasificacin de 9 79.00 6.08 18999.00 72.46 19156.54
Ward)
Ward 3 35.47 2.60 665_67 2.80 706.54
6 38. 74 14.40 22.57 21.65 97 . 36
9 46. $8 15.87 1 14.00 32.46 209.21
Media 3 48.83 11.79 173.04 31.26 264.92
6 422.32 59.54 339.00 201.39 1022.25
9 509.13 135.84 1029.00 481 .62 2155.59
Centroide 3 48. $2 11.79 173.04 31 _26 264.91
6 414.16 59.54 125.43 201.39 800. 52
9 975.40 135.84 864.00 481.62 2456.96
f ti I K^^ I If-I( ^^l(^^I^l^, Rtl'I ^I^I^^ ^^Ftl ^^^^I f(^KI1 f F^lO^ti I^)E^^ f^ ^-\l l-^(^^I^O\ _^ ^

Cuadro 5
VARIANZAS DEL ESTIMADOR DE LA MEDIA DE LAS VARIASLES DE ES-
TRATIFICACI ^JN CON MUESTREU ALEATORIO SIMPLE
S2 = n Vm.a.s. 1X^ ); j= 1, 2, 3, 4

X^ X2 3 Xq

Varianzas con muestreo


82.03 1009.88 0.077 125.48
aleatorio simple

Cuadro fi
VARIANZAS MNIMAS DEL ESTIMADOR DE LA MEDIA CORRESPONDIENTES
A LA ESTRATIFICACIUN UNIVARIANTE PTIMA
,
n Vm.a.st. ^xst,i ; j= 1, 2, 3, 4
N Estra-
X^ X2 ^'^3 i'^ ,q
tOS
Varianzas mnimas corres- 3 1.63 78.98 0.05710^ 3.89
pondientes a la estratificacin 6 0.19 16.68 0.01410-3 0.62
univariante ptima 9 0.08 7.38 0.00210-3 0.26

AGRADECIMiENTUS

Nuestro agradecimiento a Jos Mara Fernndez del Pozo, quien ha planteado


el caso de estudio tratado en este artculo y a Jos Ramn Sanz Almodvar, que ha
etaborado los datos de base. Agradecemos los comentarios y sugerencias de un
revisor annimo de la primera versin del trabajo, quien ha contribuido con ello a
mejorar el artculo.

REFERENCIAS

ANDERSON, D.W., K^sH, L., CORNELL, R.G. (1976} t^uantifying gains from stratifica-
tion for optimum and approximately optimum strata using a bivariate normal
model. Journal of the American Statistical Association, 71, 356, 887-92.
CHOCHRAN, W.G. (1961) Comparison of inethods for determining stratum bounda-
ries. Bull. Int. Stat. lnst., 38, 2, 345-58.
CHOCHRAN , W.G. (1981) Tcnicas de muestreo. C.E. C. S.A. Mxico.
^ ^ t ^^r^i^ i i^ ^^ t ^r^^^ti<^

DALErvlus, T. (i 950) <cThe problem of optimum stratification>^. Skandinavisk Aktua-


rietidskrift, 3, 4, 203-13.
DALENfiUS, T. , HoDGES, J. ^. , Jr. ( 1959) Minimun variance stratification . Journal of
the American Statistical Association, 54, 88-101.
EKMAN, G_ (1959) c<An approximation useful in univariate stratification. Ann. Math.
Statist, 30, 219-29.
Gr^SN, S.P. ( 1963). c<C^ptimun stratification with two characters. Ann. Math. Sta-
tist. 34 , 866-72 .
GOLDER, P.A., YEOMANS, K.A. (1973). The use of cluster analysis for stratification.
Applied Statistics, 22, 213-219.
HAGOOD, M.J., BERNET, E.H. (1945). Component indexes as a basis for stratification
in sampiing. Joumal of the American Statistical Association, 20, 231, 330-41.
HESS, I., SETHI, V.K., BALAKRISHNAN , T.R. (1966}. Stratification: A practica# investi-
.
gatian . Jaurnal of the American Statistica/ Association, 61, 313, 74-90.
JARC^UE, C.M. (1981 }. A solution to the problem of optimum stratification in multiva-
riate samp#ing. Appl. Statist. 30, 2, 163-69.
.JOHNSt^N, R.A. Y WICHERN, D.V'v. (1988) . App#ied mu#tivariate statistical analysis.
Prentice-Nall, lnv. New Jersey.
JUDE^, L. {1988}. Tcnicas de anlisis de datos multidimensiona#es. Ministerio de
Agricultura, Pesca y Alimentacin. Madrid.
JULIEN, C., ^/IARANDA ,
F. (1990) Samp#e design f the 1988 National Farm Survey.
Survey Methodologie, 16, 1, 117-29.
KISH, L. (1976}. <cQptima and proxima in linear sample designs. Journal of the
Roya! Statistical Society, Serie A, 139, 80-95.
KISH, L., ANDERSON, D.W. (1978} <cMultivariate and multipurpose stratification.
Journa! of th,e Amercan Statistical Association, 73, 361, 24-34.
KPEDEKP^, G.M.K. (1973). ccRecent advances on some aspects of stratified sample
design. A review of the #iterature. 1V1^etrika, 20, 1, 54-64.
LAVALLE, P. (1988). c<Two-way optimal stratification using dynamic programmng.
Proceedings of the Survey Research Methods. American Statistical Assaciation.
MAPA ( 1976) Mapas de cultivos y aprovechamientos. Ministerio de Agrricultura,
Pesca y Alimentacin, Madrid.
MACQUEEN, J. (1967). <cSome methods for classificatian and analysis of multivariate
bservations?>. Proc. 5th Berkeley Symp. Math. Statist. and Prob, 1, 281-97.
University of California Press.
E.^ r k^^ r ^E Ic^-^('If)ti ^1l L E 1^ 1Etl1^ IE ( RI 1 E^.RIU^ t)t^ E ^^ll l.^( It)^

SAS Institute Inc ( 1985): SAS/STATISTICS User's. Guide Version, 5 Edition.


Cary, 956 pp.
SETHI, V.K. (1963): A note on optimum stratification of population for estimating the
population mean. The Australian Journal of Statistics, 5, 20-33.
WARD, J.H. (1963). Hierarchical grouping to optimize an objetive function. Journal
of the American Statistical Association, 58, 236-44.

MULTIVARIATE STRATIFIGATION: EVALUATION CRITERIA

SUMMARY

Several multivariate stratification procedures were considered: uni-


variate generalization, first principal component stratification, and four
classification algorithms (Ward, K-Means, Centroid and Average).

The studied procedures were evaluated from a case study. We


considered two criteria: (i} mean estimation efficiency of the stratifica-
tion variables and (ii) the relative lost of accuracy with respect to the
optimal univariate stratification.

We found that the algorithm of Ward was the best of the examined
in our work.

Key words: Stratified random sampling. Cluster algorithms. Land stra-


tification.

AMS Classification: 62J00, 62D05