Vous êtes sur la page 1sur 6

Distance Preservation

Este captulo trata de los mtodos que reducen la dimensionalidad de los datos mediante el uso
de la preservacin distancia como criterio. En el caso ideal, la preservacin de las distancias por
pares medidos en un conjunto de datos asegura que la incrustacin de pocas dimensiones
hereda las principales propiedades geomtricas de los datos, al igual que la forma global o las
relaciones vecinales. Por desgracia, en el caso no lineal, las distancias no pueden ser
perfectamente conservadas. El captulo revisa varios mtodos que tratan de superar esta
dificultad. Estos mtodos utilizan diferentes tipos de distancias (principalmente las distancias
espaciales o grfico); Tambin dependen de diferentes algoritmos o procedimientos de
optimizacin para determinar la incrustacin.

Histricamente, la preservacin distancia ha sido el primer criterio utilizado para lograr la


reduccin de la dimensionalidad de una manera no lineal. En el caso lineal, criterios simples
como maximizar la preservacin varianza o minimizar el error de reconstruccin, combinado con
un
modelo
lineal
bsica,
conducen
a
mtodos
robustos
como
PCA.
En el caso no lineal sin embargo, el uso de los mismos criterios simples requiere la definicin de
modelos de datos ms complejos. Por desgracia, la definicin de un modelo generativo en el
caso no lineal resulta muy difcil: hay muchas maneras diferentes para modelar manifolds
lineales, mientras que slo hay unas pocas maneras (equivalente) para definir un hiperplano.
En este contexto, la preservacin distancia aparece como una manera no generativa para llevar
a cabo la reduccin de dimensionalidad. El criterio no se necesita ningn modelo explcito: no
suposicin se hace sobre la asignacin de las variables latentes a las observadas. Intuitivamente,
la motivacin detrs de la preservacin distancia es que cualquier colector puede describirse
completamente por distancias por pares. Por lo tanto, si una representacin de pocas
dimensiones puede ser construido de tal manera que las distancias iniciales se reproducen, a
continuacin, la reduccin de dimensionalidad es satisfactoria: el contenido de la informacin
transmitida por el de su estructura geomtrica manifold- -est preservado. Est claro que si los
puntos cercanos se mantienen cerca, y si los puntos lejanos quedan lejos, entonces la variedad
inicial y la de baja dimensin comparte la misma forma. Las siguientes tres secciones de este
captulo resea algunos de los mtodos de DR ms conocidos que utilizan el principio de la
conservacin a distancia; se les llama mtodos de distancia de preservacin en corto. Cada una
de las tres secciones se centra en un tipo particular de distancia. Seccin 4.2 introduce las
medidas de distancia ms comunes, como la euclidiana uno, y mtodos que se basan en ella. A
continuacin, la seccin 4.3 describe geodsicas y grfico distancias, que han alcanzado un techo
mucho inters en los ltimos aos. Finalmente, la Seccin 4.4 trata de las medidas an ms
exticos distancia que estn relacionados con la funciones kernel y aprendizaje del kernel.
Ejemplos adicionales y las comparaciones entre los mtodos descritos se pueden encontrar en
el Captulo 6.

Spatial distances
Distancias espaciales, como la distancia eucldea, son la forma ms intuitiva y natural para medir
distancias en el (euclidiana) mundo real. El adjetivo espacial indica que estas mtricas calcular
la distancia que separa dos puntos del espacio, sin respecto a cualquier otra informacin, como

la presencia de una subvariedad: slo las coordenadas de la materia dos puntos. Aunque estas
cifras probablemente no son las ms apropiadas para la reduccin de dimensionalidad (vase la
Seccin 4.3.1), su simplicidad hace muy atractivo. Subseccin 4.2.1 introduce algunos hechos
sobre y definiciones de distancias, normas y productos escalares; entonces se pasa a describir
los mtodos que reducen dimensionalidad utilizando distancias espaciales.
Metric space, distances, norms and scalar product
Un espacio Y con una funcin de distancia d (a, b) entre dos puntos a, b Y se dice que es un
espacio mtrico si la funcin de distancia respeta los siguientes axiomas:
No degeneracin .Para cualquier puntos A y B en el espacio d (a, b) = 0 si y
slo si a = b.
La desigualdad triangular. Para cualquiera de los puntos A, B y C en el espacio d (a, b)
d (c, a) + d (c, b).
Otras propiedades habituales y deseados para la funcin de distancia, como la simetra y la no
negatividad, trivialmente se derivan de estos dos axiomas. Esto viene de la formulacin
especfica de la desigualdad triangular. Si este ltimo se define como d (a, b) d (a, c) + d (c, b),
entonces la simetra y no negatividad se debe agregar como axiomas. Pero con la primera
definicin, que se pueden derivar de la siguiente manera:
No negatividad. Si a = b, la desigualdad triangular se convierte en
d(a,a)d(c,a)+d(c,a)=2d(c,a) .
Simplifying with the help of nondegeneracy results in:
0d(c,a)
Simetra. Si a = u y b = c = v, la desigualdad triangular se convierte en
d (u, v) d (v, u) + d (v, v) = d (v, u),
por el uso de la no degeneracin. Del mismo modo, si a = v y b = c = u, entonces
d(v,u)d(u,v)+d(u,u)=d(u,v) .
La conjuncin de las dos desigualdades obliga a la igualdad d (u, v) = d (v, u).
En la habitual cartesiano espacio vectorial R, las funciones de distancia ms utilizados se derivan
de la norma de Minkowski, la norma Minkowski de puntos = [ , , ,
] tambin
llamada norma LP y denotada p es una simple funcin

Una funcin de la distancia que respete los axiomas mencionados anteriormente se obtiene
mediante la medicin de la norma de la diferencia entre dos puntos:
The maximum distance (p=):

Tambin llamada la dominacin de la distancia, porque cuando p , se resume todos los


trminos de la ecuacin. (4.5) convirtindose en insignificantes, excepto el ms grande.
The city-block distance (p=1)

Tambin
llamada
la
distancia
Manhattan
porque
desde
un
punto de vista geomtrico, la medicin de la distancia se asemeja a conducir un taxi en una
ciudad americana dividido en bloques rectangulares regulares.

Entre las tres posibilidades mencionadas anteriormente, la distancia euclidiana es la


ms ampliamente usado, no slo debido a su interpretacin natural en el
mundo fsico, sino tambin debido a su simplicidad. Por ejemplo, el parcial
derivado lo largo de una Componenta k de a es simplemente
Otra ventaja de la distancia eucldea proviene de la definicin alternativa de la norma euclidiana
mediante el producto escalar:

donde la notacin a b indica que el producto escalar entre el vector ai y


bi. Formalmente, el producto escalar o un punto se define como

Por ltimo, la visin general de las funciones de distancia clsicos no estara completa sin
mencionar
la
distancia
de
Mahalanobis,
una
generalizacin
recta
de la distancia euclidiana. La norma Mahalanobis se define como

Donde M se elige a menudo como la matriz de covarianza Caa = E {aaT}. obviamente,


la distancia euclidiana corresponde al caso particular, donde M es la matriz identidad.
Intuitivamente, los equicontours son crculos de la distancia eucldea y elipses para la distancia
de Mahalanobis.

La mayora de los algoritmos NLDR distancia de preservacin que se describen en las prximas
secciones implican distancias por parejas. Suponiendo que el conjunto finito de
puntos de ndice, denominado

Graph distances
En pocas palabras, las distancias grfico intentan superar algunas deficiencias de mtricas
espaciales como los euclidianos pasos. El siguiente subseccin introduce tanto las distancias
geodsicas y grficas, explica cmo se relacionan entre s, y motiva a su uso en el contexto de la
reduccin de dimensionalidad. Las subsecciones siguientes describen tres mtodos de reduccin
de dimensionalidad no lineal que utilizan distancias de grficos.

A fin de reducir la dimensionalidad de variedades altamente plegadas, algoritmos como NLM y


CCA se extienden los MDS puramente lineales principalmente cambiando el procedimiento de
optimizacin. En lugar de una solucin exacta calculada algebraicamente, estos algoritmos
utilizan procedimientos de optimizacin ms sofisticados. Esto da ms libertad en la definicin
de la funcin de error, por ejemplo, permitiendo que el usuario ponderar de forma diferente
distancias cortas y largas.
Fundamentalmente, sin embargo, el problema de despliegue puede ser resuelto desde el lado
opuesto. El objetivo de la NLM y CCA se formaliza mediante funciones de error complejos que
preservan corta distancia y permiten el estiramiento de los ms largos.
Pero esto no es un remedio incmodo con el hecho de que las mtricas espaciales tradicionales
como la euclidiana no estn adaptados a la distancia preservacin? Sera posible, con slo
cambiar la mtrica utilizada para medir las distancias por pares, ya sea para mantener la
simplicidad
de
mtrica
MDS
o
para
lograr
un
mejor
rendimiento?
Estas dos direcciones se exploran, respectivamente, por Isomap (subseccin 4.3.2) y anlisis de
distancia curvilnea (subseccin 4.3.4).

La curva C es una de un colector incorporado en un espacio de dos dimensiones. Intuitivamente, se espera que la reduccin a una
dimensin desenrolla la curva y hace que sea recta. Con esta idea en mente, la distancia euclidiana no puede conservarse fcilmente,
excepto para distancias muy pequeas, tan pequeo en una escala que el colector es casi lineal. Para distancias ms grandes, surgen
dificultades. El mejor ejemplo consiste en medir la distancia eucldea entre los dos puntos extremos de la curva. En el espacio de dos
dimensiones,
esta
distancia
es
corta
debido
a
que
el
colector
se
pliega
sobre
s
misma.
En el espacio de la incrustacin de una sola dimensin, la misma longitud resulta mucho ms pequea que la nueva distancia medida
entre los puntos finales de la curva de desenrollado. En contraste con la distancia euclidiana, la distancia geodsica se mide a lo largo
del colector. Como consecuencia, no depende tanto como la mtrica euclidiana en una incrustacin particular del colector. En el caso
de la curva C, la distancia geodsica sigue siendo la misma tanto en dos y espacios unidimensionales.

La idea de estos dos mtodos resulta de consideraciones geomtricas simples, como se


ilustra en la Fig. 4.9. Esa figura muestra una lnea curva, es decir, una variedad
unidimensional embebida en un espacio de dos dimensiones. Con el fin de reducir la
dimensionalidad a 1, se espera intuitivamente que la curva tiene que ser desenrollado.
Suponiendo que Euclides distancias muy cortas se conservan, esto significa que, como
contrapartida, que euclidianas distancias ms largas se estiran considerablemente. Por
ejemplo, la distancia entre los dos puntos finales de la curva C en la Fig. 4.9 se
multiplicara por ms de tres! Intuitivamente, esta cuestin podra abordarse mediante la
medicin de la distancia lo largo de la variedad y no a travs del espacio de incrustacin,
como la distancia euclidiana hace. Con una mtrica tal, la distancia depende menos de la
incrustacin particular del colector. En palabras ms simples, la curvatura del la variedad
no modifica (o apenas modifica) el valor de la distancia. La distancia a lo largo de una
variedad general se llama la distancia geodsica, por analoga con las curvas dibujadas en
la superficie de la Tierra. La distancia geodsica tambin puede interpretarse como una
distancia de ferrocarril: trenes se ven obligados a seguir la pista (el colector). Por otro
lado, las distancias euclidianas pueden seguir atajos rectas, como un avin vuela
independientemente de carreteras y caminos.
Formalmente, la distancia geodsica es bastante complicada para calcular a partir de la
expresin analtica de una variedad Por ejemplo, en el caso de una variedad M
unidimensional, que depende de una variable latente nica x, al igual que la curva C, las
ecuaciones paramtricas pueden escribirse como

Vous aimerez peut-être aussi