Vous êtes sur la page 1sur 11

EL ANLISIS DE ESCALAMIENTO MULTIDIMENSIONAL: UNA

ALTERNATIVA Y UN COMPLEMENTO A OTRAS TCNICAS


MULTIVARIANTES.

Dra. Flor Mara Guerrero Casas
Jos Manuel Ramrez Hurtado

Departamento de Economa y Empresa
Universidad Pablo de Olavide
Ctra. de Utrera, km. 1 - 41013 SEVILLA (ESPAA)
Tfn. 95 434 9279-9171 / Fax: 95 434 9339
fguecas@dee.upo.es jmramhur@dee.upo.es





Resumen: En los ltimos aos la proliferacin de datos y el fcil acceso a los mismos
ha hecho que, en la mayora de las investigaciones, se analicen grandes conjuntos de
datos, utilizando para ello las tcnicas multivariantes. En este sentido, hay que indicar
que las tcnicas multivariantes cobran cada vez mayor importancia en las
investigaciones.

Dentro de las tcnicas multivariantes podemos citar al Escalamiento
Multidimensional (Multidimensional Scaling, MDS). El MDS es una tcnica
multivariante de interdependencia que trata de representar en un espacio geomtrico de
pocas dimensiones las proximidades existentes entre un conjunto de objetos o de
estmulos. Esta tcnica, aunque tiene sus races a principios del siglo XX, hoy da sigue
siendo infrautilizada en muchas reas.

En este trabajo se pretende dar una visin general del funcionamiento del MDS,
comparndolo con otras tcnicas multivariantes ms tradicionales como son el Anlisis
Factorial y el Anlisis Cluster, de modo que pueda servir como alternativa y como
complemento a las mismas en cualquier investigacin que utilice dichas tcnicas.
Tambin se incluye un anlisis comparativo de los resultados de estas tcnicas,
mediante una aplicacin a la infraestructura del sector turstico en Andaluca.

Palabras clave: Anlisis multivariante, escalamiento, distancia, estmulo, anlisis
factorial, anlisis cluster, turismo.




1. INTRODUCCIN.
El escalamiento multidimensional, ms conocido como MultiDimensional Scaling
(MDS), tiene sus orgenes a principios de siglo XX en el campo de la Psicologa. Surge
cuando se pretenda estudiar la relacin que exista entre la intensidad fsica de ciertos
estmulos con su intensidad subjetiva.

El MDS es una tcnica de representacin espacial que trata de visualizar sobre un
mapa un conjunto de estmulos (firmas, productos, candidatos polticos, ideas u otros
artculos) cuya posicin relativa se desea analizar. El propsito del MDS es transformar
los juicios de similitud o preferencia llevados a cabo por una serie de individuos sobre
un conjunto de objetos o estmulos en distancias susceptibles de ser representadas en un
espacio multidimensional. El MDS est basado en la comparacin de objetos o de
estmulos, de forma que si un individuo juzga a los objetos A y B como los ms
similares entonces las tcnicas de MDS colocarn a los objetos A y B en el grfico de
forma que la distancia entre ellos sea ms pequea que la distancia entre cualquier otro
par de objetos.

En la actualidad, el MDS puede ser apto para gran cantidad de tipos diferentes de
datos de entrada (tablas de contingencia, matrices de proximidad, datos de perfil,
correlaciones, etc.).

El MDS puede ayudar a determinar:
qu dimensiones utilizan los encuestados a la hora de evaluar a los objetos.
cuntas dimensiones utilizan.
la importancia relativa de cada dimensin.
cmo se relacionan perceptualmente los objetos.

Existen otras tcnicas multivariantes, como son el anlisis factorial y el anlisis
cluster, que persiguen objetivos muy similares al MDS pero que difieren en una serie de
aspectos. Sin embargo, la utilizacin de alguna de estas tcnicas no supone que no se
pueda utilizar el escalamiento multidimensional, sino que esta ltima tcnica puede
servir como alternativa o bien como complemento a las otras tcnicas multivariantes.

En definitiva, el MDS es una tcnica multivariante que crea un grfico aproximado a
partir de las similitudes o preferencias de un conjunto de objetos.



2. EL MODELO GENERAL DE ESCALAMIENTO MULTIDIMENSIONAL.
De modo general, podemos decir que el MDS toma como entrada una matriz de
proximidades,
nxn
, donde n es el nmero de estmulos. Cada elemento
ij
de
representa la proximidad entre el estmulo i y el estmulo j.

=
|
|
|
|
|
.
|

\
|
nn n n
n
n



L
M O M M
L
L
2 1
2 22 21
1 12 11


A partir de esta matriz de proximidades el MDS nos proporciona como salida una
matriz X
nxm
, donde n, al igual que antes, es el nmero de estmulos, y m es el
nmero de dimensiones. Cada valor x
ij
representa la coordenada del estmulo i en la
dimensin j (ms adelante veremos el procedimiento para obtener esta matriz).

|
|
|
|
|
.
|

\
|
=
nm n n
m
m
x x x
x x x
x x x
X
L
M O M M
L
L
2 1
2 22 21
1 12 11


A partir de esta matriz X se puede calcular la distancia existente entre dos estmulos
cualesquiera i y j, simplemente aplicando la frmula general de la distancia de
Minkowski:
p
m
t
p
jt it ij
x x d
(

=

=1
) (

donde p puede ser un valor entre 1 e infinito. A partir de estas distancias podemos
obtener una matriz de distancias que denominamos DM
nxn
:

|
|
|
|
|
.
|

\
|
=
nn n n
n
n
d d d
d d d
d d d
D
L
M O M M
L
L
2 1
2 22 21
1 12 11


La solucin proporcionada por el MDS debe ser de tal modo que haya la mxima
correspondencia entre la matriz de proximidades inicial y la matriz de distancias
obtenidas D. Para que exista la mxima correspondencia MDS proporciona varias
medidas, que veremos ms adelante, y que nos informan sobre la bondad del modelo.



3. MODELOS DE ESCALAMIENTO MULTIDIMENSIONAL.
Existen dos modelos bsicos de MDS que son: el modelo de escalamiento mtrico y
el modelo de escalamiento no mtrico. En el primero de ellos consideramos que los
datos estn medidos en escala de razn o en escala de intervalo y en el segundo
consideramos que los datos estn medidos en escala ordinal. No se ha desarrollado
todava ningn modelo para datos en escala nominal.


Modelo de escalamiento mtrico.-
Todo modelo de escalamiento parte de la idea de que las distancias son una funcin
de las proximidades, es decir, d
ij
=f(
ij
). En el modelo de escalamiento mtrico partimos
del supuesto de que la relacin entre las proximidades y las distancias es de tipo lineal:
d
ij
=a+b
ij
. El primer procedimiento de escalamiento mtrico se debi a Torgerson
(1952, 1958) quin se bas en un teorema de Young y Householder (1938), segn el
cual a partir de una matriz de distancias, DM
nxn
, se puede obtener una matriz BM
nxn

de productos escalares entre vectores. El procedimiento consiste en transformar la
matriz de proximidades
nxn
en una matriz de distancias DM
nxn
, de tal forma que
verifique los tres axiomas de la distancia eucldea:


1. No negatividad d
ij
0 = d
ii

2. Simetra d
ij
= d
ji
3. Desigualdad triangular d
ij
d
ik
+ d
kj
Tabla: Axiomas de la distancia eucldea.

Los dos primeros axiomas son fciles de cumplir, pero el tercer axioma no se
cumple siempre. Este problema se conoce con el nombre de estimacin de la constante
aditiva. Torgerson solucion este problema, estimando el valor mnimo de c que
verifica la desigualdad triangular de la siguiente forma:

{ }
kj ik ij k j i
c =
) , , ( min
max

De esta forma las distancias se obtienen sumando a las proximidades la constante c,
es decir, d
ij
=
ij
+c. Por ejemplo, supongamos que tenemos la siguiente matriz de
proximidades:
|
|
|
.
|

\
|
=
0 2 5
2 0 1
5 1 0


Esta matriz no verifica la desigualdad triangular puesto que no se cumple que

13

12
+
23
(5>1+2). Para calcular el valor mnimo de la constante aditiva c tendramos
que calcular todas las diferencias tal como se ha sealado anteriormente. En este caso se
tendra que calcular 5-1-2=2. Estas diferencias las haramos para todos los subndices,
obtenindose que el valor mnimo de c es 2. La matriz de distancias sera en este caso:

|
|
|
.
|

\
|
=
0 4 7
4 0 3
7 3 0
D

Una vez obtenida la matriz DM
nxn
es necesario transformarla en una matriz
BM
nxn
de productos escalares entre vectores mediante la siguiente transformacin:

) (
2
1
2
..
2
.
2
.
2
d d d d b
j i ij ij
+ = donde:

=
=
n
j
ij i
d
n
d
1
2 2
.
1
(distancia cuadrtica media por fila)

=
=
n
i
ij j
d
n
d
1
2 2
.
1
(distancia cuadrtica media por columna)

= =
=
n
i
n
j
ij
d
n
d
1 1
2
2
2
..
1
(distancia cuadrtica media de la matriz)

Una vez llegados a este punto, lo nico que queda es transformar la matriz BM
nxn

en una matriz X
nxm
tal que B=XX, siendo X la matriz que nos da las coordenadas de
cada uno de los n estmulos en cada una de las m dimensiones. Cualquier mtodo de
factorizacin permite transformar B en XX.

En resumen el procedimiento consiste en transformar:

(Proximidades) D (Distancias) B (Productos escalares) X (coordenadas)



Modelo de escalamiento no mtrico.-
A diferencia del escalamiento mtrico, el modelo de escalamiento no mtrico no
presupone una relacin lineal entre las proximidades y las distancias, sino que establece
una relacin montona creciente entre ambas, es decir, si
ij
<
kl
d
ij
d
kl
. Su
desarrollo se debe a Shepard (1962) quin demostr que es posible obtener soluciones
mtricas asumiendo nicamente una relacin ordinal entre proximidades y distancias.
Posteriormente Kruskal (1964) mejor el modelo. El procedimiento se basa en los
siguientes apartados:

1) Transformacin de la matriz de proximidades en una matriz de rangos, desde
1 hasta (n (n - 1))/2.
2) Obtencin de una matriz X
nxm
de coordenadas aleatorias, que nos da la
distancia entre los estmulos.
3) Comparacin de las proximidades con las distancias, obtenindose las
disparidades (
ij
).
4) Definicin del Stress.
5) Minimizacin del Stress.


Tanto para el modelo mtrico como para el modelo no mtrico es necesario obtener
un coeficiente que nos informe sobre la bondad del modelo. Sabemos que las distancias
son una funcin de las proximidades, es decir:

f:
ij
(x) d
ij
(x)

De esta forma se tiene que d
ij
=f(
ij
). Esto no deja ningn margen de error, sin
embargo, en las proximidades empricas es difcil que se d la igualdad, con lo que
generalmente ocurre que d
ij
f(
ij
). A las transformaciones de las proximidades por f se
le denomina disparidades. A partir de aqu podemos definir el error cuadrtico como:

2 2
) ) ( (
ij ij ij
d f e =

Como medida que nos informa de la bondad del modelo podemos utilizar el Stress
que Kruskal defini como:


=
j i
ij
j i
ij ij
d
d f
Stress
,
2
,
2
) ) ( (



Mientras mayor sea la diferencia entre las disparidades y las distancias, es decir,
entre f(
ij
)

y d
ij
, mayor ser el Stress y por tanto peor ser el modelo. Por tanto, el Stress
no es propiamente una medida de la bondad del ajuste, sino una medida de la no bondad
o maldad del ajuste. Su valor mnimo es 0, mientras que su lmite superior para n
estmulos es ) / 2 ( 1 n .

Kruskal (1964) sugiere las siguientes interpretaciones del Stress:
- 0.2 Pobre
- 0.1 Aceptable
- 0.05 Bueno
- 0.025 Aceptable
- 0.0 Excelente

Tambin se suele utilizar una variante del Stress que se denomina S-Stress, definida
como:


=
j i
ij
j i
ij ij
d
d f
Stress S
,
2 2
,
2 2 2
) (
) ) ( (

Otra medida que se suele utilizar es el coeficiente de correlacin al cuadrado (RSQ),
que nos informa de la proporcin de variabilidad de los datos de partida que es
explicada por el modelo. Los valores que puede tomar oscilan entre 0 y 1, al ser un
coeficiente de correlacin al cuadrado. Valores cercanos a 1 indican que el modelo es
bueno y valores cercanos a 0 indican que el modelo es malo. Su expresin es:

(

i j
ij
i j
ij
i j
ij ij
d f d f d d
d f d f d d
RSQ
2
..
2
..
2
.. ..
)) ( ) ( ( ) (
)) ( ) ( )( (



La mayora de los paquetes estadsticos tienen implementados tanto los algoritmos
para obtener soluciones con MDS as como las medidas para determinar si el modelo es
adecuado o no
1
. En la actualidad todo los algoritmos implementados en los paquetes
estadsticos son reiterativos, de forma que se alcance la mejor solucin posible.



4. RELACIN ENTRE MDS Y OTRAS TCNICAS MULTIVARIANTES.
El MDS puede ser utilizado en muchas investigaciones junto a otras tcnicas
multivariantes, bien como una alternativa a dichas tcnicas o bien como un
complemento a las mismas. La utilizacin de cada una de ellas va a depender de los
objetivos que se persigan en la investigacin. Por tanto, no hay una tcnica mejor que
otra, sino que en algunos casos ser ms apropiado utilizar una tcnica que en otros.
Entre las ventajas de utilizar el MDS en comparacin con otras tcnicas multivariantes
estn:

Los datos en MDS pueden estar medidos en cualquier escala, mientras que en el
anlisis factorial deben estar medidos en escala de razn o intervalo.
El MDS proporciona soluciones para cada individuo, lo cual no es posible con el
anlisis factorial ni con el anlisis cluster.
En el MDS el investigador no necesita especificar cules son las variables a
emplear en la comparacin de objetos, algo que es fundamental en el anlisis
factorial y en el anlisis cluster, con lo que se evita la influencia del investigador
en el anlisis.
Las soluciones proporcionadas por MDS suelen ser de menor dimensionalidad
que las proporcionadas por el anlisis factorial (Schiffman, Reynolds y Young,
1981).
En MDS pueden ser interpretados directamente las distancias entre todos los
puntos, mientras que en el anlisis de correspondencias solamente pueden ser
interpretadas directamente las distancias entre filas o bien entre columnas.



5. APLICACIN DEL MDS AL SECTOR TURSTICO EN ANDALUCA.
No cabe duda de que el turismo es uno de los factores ms importantes para
Andaluca, constituyendo una de las fuentes de ingresos ms importantes para la
economa andaluza. Entre los elementos que forman parte del sistema turstico se
encuentra la infraestructura turstica, elemento que tiene gran importancia ya que de l
depende en gran medida la capacidad de una zona para atraer los flujos tursticos.
Mediante esta investigacin se pretende analizar la infraestructura turstica de
Andaluca, con el objeto de identificar aquellas ciudades que sean ms similares en
relacin a este aspecto, utilizando para ello el MDS. Los datos se han obtenido de la
Encuesta de Coyuntura Turstica de Andaluca (ECTA) y de la Encuesta de Ocupacin
Hotelera de la Junta de Andaluca, las cuales consideran que la infraestructura turstica
en Andaluca est formada por los siguientes elementos:


1
El procedimiento de MDS implementado en SPSS es el programa ALSCAL (Alternating Least Squares
SCALing), que fue desarrollado por Takane, Young y De Leew (1977) basndose en el algoritmo de
mnimos cuadrados alternantes.























Partiendo de las dos encuestas sealadas anteriormente hemos obtenido para cada
una de las provincias andaluzas los datos correspondientes al nmero de
establecimientos y nmero de plazas de hoteles, de hoteles-apartamentos, de pensiones,
de camping, de agencias de viajes (slo nmero de establecimientos), de restaurantes,
de cafeteras y de infraestructuras rurales
2
. Estos datos corresponden al ao 2000.

Con el fin de obtener una variable que nos informe de la capacidad turstica en cada
una de las provincias andaluzas se ha creado un ratio para cada una de las variables
anteriores, excepto para la variable nmero de agencias de viajes, dividiendo el nmero
de plazas entre el nmero de establecimientos. El siguiente paso ha sido obtener a partir
de estos ratios una matriz de correlaciones entre ciudades. Finalmente, tenemos que
hacer una ltima transformacin de los datos, para convertirlos en distancias, a travs de
la frmula de Coxon (1982):

) 1 ( 2
ij ij
r d =

Esta matriz de distancias nos informa sobre las proximidades que existen entre las
ciudades, en relacin a la infraestructura turstica. A partir de los datos obtenidos con la
transformacin de Coxon hemos aplicado un MDS, obtenindose los siguientes
resultados:


2
La ECTA proporciona los datos referentes al nmero de establecimientos tursticos rurales y plazas de
los mismos por provincias, en vez de los datos referentes a las infraestructuras turstico-deportivas.
OFERTA TURSTICA
(Infraestructura turstica)
Establecimientos hoteleros
Agencias de
viajes
Restaurantes Cafeteras Infraestructuras
turstico
deportivas
Hoteles Hoteles -
apartamentos
Pensiones Campings
USUARIOS
(turistas, visitantes)
DEMANDA TURSTICA
Los valores del Stress y del RSQ (013230 y 089424) nos indican que el ajuste de
los datos es bueno. Un grfico importante que nos informa si el modelo es adecuado o
no es el grfico de ajuste lineal. Si los datos se ajustan bien a una recta entonces el
modelo es adecuado, ya que estamos suponiendo una relacin lineal entre las distancias
y las disparidades. En el grfico podemos observar como los datos se ajustan bastante
bien a una recta, por lo que el anlisis es adecuado.

Grfico de ajuste lineal
Modelo de distancia eucldea
Disparidades
4,0 3,5 3,0 2,5 2,0 1,5 1,0 ,5 0,0
D
i
s
t
a
n
c
i
a
s
4,0
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0


La configuracin que se obtiene es la siguiente:
Configuracin de estmulos derivada
Modelo de distancia eucldea
Dimensin 1
2,5 2,0 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5
D
i
m
e
n
s
i

n

2
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
sevilla
malaga
jaen
huelva
granada
cordoba
cadiz
almeria

A partir de esta configuracin podemos deducir que existen 4 agrupamientos de
ciudades, referentes a su infraestructura turstica. Por un lado est Mlaga, por otro
estn Granada, Cdiz y Sevilla, por otro estn Almera, Huelva y Jan y por otro est
Crdoba. Esto lo podemos corroborar a travs de la aplicacin de un Anlisis Cluster a
nuestros datos, obtenindose los siguientes conglomerados:


cadiz 2
granada 4
sevilla 8
cordoba 3
huelva 5
jaen 6
almeria 1
malaga 7


Si seleccionamos cuatro conglomerados observaremos que se obtienen los mismos
agrupamientos que hemos obtenido con el MDS. As pues, el MDS puede ser una
alternativa adecuada al Anlisis Cluster.

Para la interpretacin de las dos dimensiones obtenidas mediante el MDS podemos
utilizar un Anlisis Factorial, deducindose de ello que la dimensin 1 puede ser
denominada como servicios tursticos y capacidad de establecimientos hoteleros de
prestigio y que la dimensin 2 puede ser denominada como capacidad de servicios de
restauracin y de establecimientos hoteleros econmicos. Segn la primera dimensin
Mlaga es la ciudad con ms servicios tursticos y ms capacidad de establecimientos
hoteleros de prestigio, seguida de Sevilla, Cdiz y Granada y posteriormente del grupo
formado por Almera, Huelva, Jan y Crdoba. A partir de la segunda dimensin
podemos deducir que Almera y Huelva son las ciudades con ms capacidad de
servicios de restauracin y de establecimientos hoteleros econmicos, seguidas de
Mlaga, Sevilla, Cdiz, Granada y Jan, y en ltimo lugar se encuentra Crdoba. Por
tanto, el MDS puede servir como complemento a la interpretacin de los datos en un
Anlisis Factorial.



6. CONCLUSIONES.
Con este trabajo se ha pretendido mostrar que la tcnica de escalamiento
multidimensional, a pesar de seguir siendo infrautilizada en muchas reas, puede ser
perfectamente utilizada en muchos casos, como alternativa a otras tcnicas
multivariantes o bien como complemento a las mismas. Para ello hemos visto las
diferencias ms importantes existentes entre el MDS y otras tcnicas multivariantes
como son el Anlisis Factorial, el Anlisis Cluster y el Anlisis de Correspondencias.

A travs del caso prctico realizado hemos visto que datos, que en un principio
parece ser que estn pensados para otro tipo de anlisis, tambin pueden ser analizados
a travs de un escalamiento multidimensional.

BIBLIOGRAFA
- ARCE, C. (1993): Escalamiento Multidimensional. Una Tcnica Multivariante para
el Anlisis de Datos de Proximidad y Preferencia. PPU, Barcelona.
- ARCE, C. (1994): Tcnicas de Construccin de Escalas Psicolgicas. Sntesis,
Madrid.
- BORG, I. y GROENEN, P. (1997): Modern Multidimensional Scaling. Springer,
New York.
- COXON, A. P. (1982): The Users Guide to Multidimensional Scaling. Heinemann
Educational Books, London.
- GREEN, P. E. y CARMONE, F. J.(1969): Multidimensional Scaling: An
Introduction and Comparison of Nonmetric Unfolding Techniques. Journal of
Maketing Research, 6, 330-341.
- HAIR, J. F., ANDERSON R.E., TATHAM, R. L., BLACK, W. C. (1999): Anlisis
Multivariante. Prentice Hall, Madrid.
- KRUSKAL, J. B. (1964): Nonmetric Multidimensional Scaling: A Numerical
Method. Psychometrika, 2, 115-129.
- LUQUE, T. (2000): Tcnicas de Anlisis de Datos en Investigacin de Mercados.
Pirmide, Madrid.
- REAL, J. E. (2001): Escalamiento Multidimensional. La Muralla, Madrid.
- SCHIFFMAN, S. S., REYNOLDS, M. L. y YOUNG, F. W. (1981): Introduction to
Multidimensional Scaling: Theory, Methods and Applications. Academic Press,
New York.
- SHEPARD, R. N. (1962): The analysis of proximities: muldimensional scaling with
an unknown distance function. Psychometrika, 27, 125-140, 219-246.
- TAKANE, Y., YOUNG, F.W. y DE LEEW, J. (1977): Nonmetric individual
differences multidimensional scaling: an alternating least squares method with
optimal scaling feautures. Psychometrika, 42, 7-67.
- TORGENSON, W. S. (1952): Multidimensional Scaling: Theory and Method.
Psychometrika, 4, 401-419.
- YOUNG, G. y HOUSEHOLDER, A. S.(1938): Discussion of a set of points in
terms of their mutual distances. Psychometrika, 3, 19-22.

Vous aimerez peut-être aussi