Académique Documents
Professionnel Documents
Culture Documents
Este captulo trata de los mtodos que reducen la dimensionalidad de los datos mediante el uso
de la preservacin distancia como criterio. En el caso ideal, la preservacin de las distancias por
pares medidos en un conjunto de datos asegura que la incrustacin de pocas dimensiones
hereda las principales propiedades geomtricas de los datos, al igual que la forma global o las
relaciones vecinales. Por desgracia, en el caso no lineal, las distancias no pueden ser
perfectamente conservadas. El captulo revisa varios mtodos que tratan de superar esta
dificultad. Estos mtodos utilizan diferentes tipos de distancias (principalmente las distancias
espaciales o grfico); Tambin dependen de diferentes algoritmos o procedimientos de
optimizacin para determinar la incrustacin.
Spatial distances
Distancias espaciales, como la distancia eucldea, son la forma ms intuitiva y natural para medir
distancias en el (euclidiana) mundo real. El adjetivo espacial indica que estas mtricas calcular
la distancia que separa dos puntos del espacio, sin respecto a cualquier otra informacin, como
la presencia de una subvariedad: slo las coordenadas de la materia dos puntos. Aunque estas
cifras probablemente no son las ms apropiadas para la reduccin de dimensionalidad (vase la
Seccin 4.3.1), su simplicidad hace muy atractivo. Subseccin 4.2.1 introduce algunos hechos
sobre y definiciones de distancias, normas y productos escalares; entonces se pasa a describir
los mtodos que reducen dimensionalidad utilizando distancias espaciales.
Metric space, distances, norms and scalar product
Un espacio Y con una funcin de distancia d (a, b) entre dos puntos a, b Y se dice que es un
espacio mtrico si la funcin de distancia respeta los siguientes axiomas:
No degeneracin .Para cualquier puntos A y B en el espacio d (a, b) = 0 si y
slo si a = b.
La desigualdad triangular. Para cualquiera de los puntos A, B y C en el espacio d (a, b)
d (c, a) + d (c, b).
Otras propiedades habituales y deseados para la funcin de distancia, como la simetra y la no
negatividad, trivialmente se derivan de estos dos axiomas. Esto viene de la formulacin
especfica de la desigualdad triangular. Si este ltimo se define como d (a, b) d (a, c) + d (c, b),
entonces la simetra y no negatividad se debe agregar como axiomas. Pero con la primera
definicin, que se pueden derivar de la siguiente manera:
No negatividad. Si a = b, la desigualdad triangular se convierte en
d(a,a)d(c,a)+d(c,a)=2d(c,a) .
Simplifying with the help of nondegeneracy results in:
0d(c,a)
Simetra. Si a = u y b = c = v, la desigualdad triangular se convierte en
d (u, v) d (v, u) + d (v, v) = d (v, u),
por el uso de la no degeneracin. Del mismo modo, si a = v y b = c = u, entonces
d(v,u)d(u,v)+d(u,u)=d(u,v) .
La conjuncin de las dos desigualdades obliga a la igualdad d (u, v) = d (v, u).
En la habitual cartesiano espacio vectorial R, las funciones de distancia ms utilizados se derivan
de la norma de Minkowski, la norma Minkowski de puntos = [ , , ,
] tambin
llamada norma LP y denotada p es una simple funcin
Una funcin de la distancia que respete los axiomas mencionados anteriormente se obtiene
mediante la medicin de la norma de la diferencia entre dos puntos:
The maximum distance (p=):
Tambin
llamada
la
distancia
Manhattan
porque
desde
un
punto de vista geomtrico, la medicin de la distancia se asemeja a conducir un taxi en una
ciudad americana dividido en bloques rectangulares regulares.
Por ltimo, la visin general de las funciones de distancia clsicos no estara completa sin
mencionar
la
distancia
de
Mahalanobis,
una
generalizacin
recta
de la distancia euclidiana. La norma Mahalanobis se define como
La mayora de los algoritmos NLDR distancia de preservacin que se describen en las prximas
secciones implican distancias por parejas. Suponiendo que el conjunto finito de
puntos de ndice, denominado
Graph distances
En pocas palabras, las distancias grfico intentan superar algunas deficiencias de mtricas
espaciales como los euclidianos pasos. El siguiente subseccin introduce tanto las distancias
geodsicas y grficas, explica cmo se relacionan entre s, y motiva a su uso en el contexto de la
reduccin de dimensionalidad. Las subsecciones siguientes describen tres mtodos de reduccin
de dimensionalidad no lineal que utilizan distancias de grficos.
La curva C es una de un colector incorporado en un espacio de dos dimensiones. Intuitivamente, se espera que la reduccin a una
dimensin desenrolla la curva y hace que sea recta. Con esta idea en mente, la distancia euclidiana no puede conservarse fcilmente,
excepto para distancias muy pequeas, tan pequeo en una escala que el colector es casi lineal. Para distancias ms grandes, surgen
dificultades. El mejor ejemplo consiste en medir la distancia eucldea entre los dos puntos extremos de la curva. En el espacio de dos
dimensiones,
esta
distancia
es
corta
debido
a
que
el
colector
se
pliega
sobre
s
misma.
En el espacio de la incrustacin de una sola dimensin, la misma longitud resulta mucho ms pequea que la nueva distancia medida
entre los puntos finales de la curva de desenrollado. En contraste con la distancia euclidiana, la distancia geodsica se mide a lo largo
del colector. Como consecuencia, no depende tanto como la mtrica euclidiana en una incrustacin particular del colector. En el caso
de la curva C, la distancia geodsica sigue siendo la misma tanto en dos y espacios unidimensionales.