Académique Documents
Professionnel Documents
Culture Documents
(P) = _ _ I(x, y)
]<
]=0
<x
=0
(1)
donde, I
- (u.9
x
)
2
(2)
donde
xx
,
,
x
son aproximaciones a lo largo de las
tres direcciones.
Utilizando la matriz hessiana y una funcin denominada
Espacio-Escala [13], la localizacin exacta de los puntos de
inters (Figura 1) puede ser dividida en 3 partes:
Primeramente se desestima los valores obtenidos del
determinante de la matriz hessiana que se encuentren
por debajo de un umbral establecido. Este umbral es
adaptable y depende especficamente de la aplicacin
en la cual se est llevando a cabo el proceso de
localizacin de puntos de inters (a mayor valor de
umbral, menor nmero de puntos detectados).
A continuacin se realiza la seleccin del conjunto de
puntos candidatos. Cada pixel es comparado con sus
26 vecinos en las 3 dimensiones posibles. Se dice que
un pixel es mximo si es mayor que todos los pxeles
que lo envuelven.
Finalmente se localiza en espacio-escala el pixel que
corresponde al punto de inters detectado.
Figura 1. Deteccin de puntos de inters.
En la Figura 1 se muestra un ejemplo de 8 puntos
caractersticos detectados sobre una imagen capturada por el
robot Aibo ERS 7.
B. Descripcin de puntos de inters
Luego de calcular los puntos de inters, el descriptor de
SURF determina la distribucin de la intensidad de los pixeles
que componen las regiones cercanas a cada uno de los puntos
de inters que han sido detectados. Para ello, y con el objetivo
de incrementar la robustez y disminuir el tiempo de clculo
computacional respecto al descriptor SIFT, utiliza los Wavelets
de Haar [14].
Los Wavelets de Haar son filtros simples que permiten
determinar el gradiente de forma rpida en las 2 direcciones del
espacio bidimensional de la imagen. La extraccin del
descriptor puede ser dividida en 2 distintas tares:
Se identifica una orientacin reproducible bajo
condiciones variables, para cada punto de inters, con
el objetivo de conseguir invariancia en la rotacin.
Figura 2. Descripcin de puntos de inters.
Se construye una ventana que sea dependiente de la
escala, de la cual se extrae un vector 64 dimensional
(Figura 2). Con el objetivo de mantener su
comportamiento invariante a la escala, todo cmputo
estar basados en una medida relativa a la escala
detectada.
C. Bsqueda de correspondencias (matching) de puntos de
inters
El proceso de bsqueda de correspondencias entre pares de
puntos de inters entre dos imgenes se basa en el error
existente entre los mencionados puntos de inters. El error se
calcula como la distancia vectorial de los descriptores de cada
punto de inters.
Para una rpida indexacin durante la fase de bsqueda de
correspondencias, el signo del Laplaciano, es decir, la traza de
la matriz hessiana para el punto de inters subyacente, es
incluido. El signo del Laplaciano permite distinguir la
deteccin de regiones brillantes contrastadas con un fondo
oscuro, de la situacin contraria. Durante el matching de puntos
de inters, slo se comparan caractersticas que tengan el
mismo tipo de contraste, permitiendo aumentar
considerablemente la velocidad de bsqueda sin que se vea
afectado el rendimiento del descriptor.
Una vez que las parejas de puntos que correlacionan dos
fotogramas consecutivos han sido computados, se cuenta con la
informacin necesaria para determinar la relacin geomtrica
entre las dos imgenes capturadas. Adicionalmente se puede
utilizar el algoritmo RANSANC (RAndom Sample Consensus)
[15] para descartar el conjunto de pares de puntos que no se
ajusten al modelo.
III. TRANSFORMACIN GEOMTRICA
Una transformacin proyectiva [16] [17] [18] es un mapeo
invertible de una imagen bidimensional hacia otra imagen de
igual forma bidimensional, tal que tres puntos x
1
, x
2
y x
3
pertenecen a una misma lnea s y solo s sus proyecciones x
1
,
x
2
y x
3
tambin pertenecen a la misma lnea. Es debido a esta
propiedad, que la transformacin proyectiva tambin se suele
denominar colineacin u homografa.
Una propiedad adicional que debe cumplir una
proyectividad en un plano es el hecho de poder ser
representada a travs de una matriz de transformacin E no
singular, tal que la relacin entre puntos de la imagen original y
los pertenecientes a la imagen transformada, sea una aplicacin
lineal.
Por tanto, a partir de ahora el problema consiste en estimar
la matriz de transformacin que relaciona el mayor nmero de
pares de puntos en correspondencia entre dos imgenes.
A. Solucin Exacta: 4 Pares de Puntos en Correspondencia
La estimacin de la matriz de homografa (determinada por
la geometra proyectiva), parte del conjunto de puntos en
correspondencia especfico X
y X
= EX
(3)
donde E es una matriz cuadrada de 9 parmetros (3x3),
definidos salvo un factor de escala, es decir que se tiene un
conjunto de 8 incgnitas por resolver.
Figura 3. Solucin exacta: 4 pares de puntos correspondientes.
Cada par de correspondencia de puntos de inters entre las
imgenes permite obtener 3 ecuaciones, de las cuales 2 son
linealmente independientes. Tomando en consideracin que
cada par de correspondencias de puntos establece dos
restricciones sobre la matriz H, el nmero de pares de puntos
de correspondencias necesarios para obtener una solucin
nica es 4 (Figura 3). Para resolver el sistema, con estos 4
pares de correspondencias, podemos utilizar el algoritmo de
transformacin lineal directa.
El algoritmo de Transformacin Lineal Directa o DLT es
un mtodo lineal que permite determinar la matriz de
transformacin E de forma simple, a partir de un conjunto de 4
correspondencias. La relacin entre los puntos de la imgenes
est definida en coordenadas homogneas, por lo cual, puede
interpretarse como una relacin de proporcionalidad directa
entre los miembros de la ecuacin. Es decir, que son iguales
salvo constantes de proporcionalidad y tienen el mismo vector
unitario. Por lo tanto, la relacin puede ser redefinida de la
siguiente forma:
X
EX
= u (4)
donde
E = _
E
11
E
12
E
13
E
21
E
22
E
23
E
31
E
32
E
33
_ (5)
X
= |
x
w
] (6)
X
= |x
] (7)
multiplicando ahora este vector X
, se da origen a la matriz:
X
EX
= _
y
|E
31
E
32
E
33
]
1
X
-w
|E
21
E
22
E
23
]
1
X
|E
11
E
12
E
13
]
1
X
-x
|E
31
E
32
E
33
]
1
X
|E
21
E
22
E
23
]
1
X
-y
|E
11
E
12
E
13
]
1
X
_ (8)
Desarrollando las expresiones matemticas en la matriz
producto, e igualando dicha matriz a cero se obtiene un
conjunto de tres ecuaciones que contiene los parmetros de E.
La ecuacin matricial puede expresarse de la siguiente forma:
_
u
1
-w
1
y
1
w
1
u
1
-x
1
-y
1
x
1
u
1
_
l
l
l
l
l
l
l
l
l
E
11
E
12
E
13
E
21
E
22
E
23
E
31
E
32
E
33
1
1
1
1
1
1
1
1
1
= u (9)
Estas ecuaciones son de la forma:
A
b = u (10)
donde A
de 2x9 elementos).
Con el objetivo de definir (x, y) como coordenadas
medidas directamente sobre las imgenes, tanto para X
como
para X
, se iguala w
= w
= 1. En caso de que w
o w
no
sean 1, habra que realizar el clculo pertinente para pasar de
coordenadas en la imagen a coordenadas de los puntos X
o X
.
Usando las ecuaciones de los cuatro pares de puntos, y
reemplazando w
= w
= 1 en el sistema tenemos:
l
l
l
l
l
l
l
l
u u u
u u u
u u u
u u u
-x
1
-y
1
-1
-x
2
-y
2
-1
-x
3
-y
3
-1
-x
4
-y
4
-1
y
1
x
1
y
1
y
1
y
1
y
2
x
2
y
2
y
2
y
2
y
3
x
3
y
3
y
3
y
3
y
4
x
4
y
4
y
4
y
4
x
1
y
1
1
x
2
y
2
1
x
3
y
3
1
x
4
y
4
1
u u u
u u u
u u u
u u u
-x
1
x
1
-x
1
y
1
-x
1
-x
2
x
2
-x
2
y
2
-x
2
-x
3
x
3
-x
3
y
3
-x
3
-x
4
x
4
-x
4
y
4
-x
4
1
1
1
1
1
1
1
1
l
l
l
l
l
l
l
l
l
E
11
E
12
E
13
E
21
E
22
E
23
E
31
E
32
E
33
1
1
1
1
1
1
1
1
1
= u(11)
Una vez desarrollada la ecuacin matricial, se obtiene un
sistema de ecuaciones lineales de solucin nica. Esto se debe
a que cada par de correspondencia ha dado origen a dos
ecuaciones linealmente independientes y, como podemos
recordar, la matriz de transformacin proyectiva E es de rango
8, es decir 8 incgnitas.
El vector solucin del sistema de 8 ecuaciones con 8
incgnitas que se ha generado, est dado por el vector del
ncleo de la aplicacin lineal definida por la matriz A. Este
vector puede ser determinado, salvo factor de escala. Con el
objetivo de fijar el valor del mencionado factor de escala, para
llevar a cabo el clculo del vector solucin del sistema de
ecuaciones, se definir como condicin la norma de b igualada
a 1, es decir:
[b[ = 1 (12)
B. Solucin Sobredeterminada
En el caso ideal, cuando no existe ruido en las imgenes de
entrada, la matriz E estimada a partir de 4 pares de
correspondencias es una solucin fiable de la trasformacin
proyectiva que relaciona las imgenes entre s.
Figura 4. Solucin sobredeterminada: ms de 4 pares de puntos
correspondientes.
Sin embargo, trabajando con un conjunto real de imgenes,
resulta conveniente disponer de ms de cuatro pares de
correspondencia en el sistema de ecuaciones, es decir que este
mtodo de estimacin estar sobredeterminado (Figura 4).
Si los puntos de entrada son exactos, matemticamente se
demuestra que el rango de la matriz A sigue siendo 8 a pesar de
la presencia de un nmero mayor de ecuaciones lineales. Esto
se debe a que en el caso de puntos exactos las ecuaciones que
corresponden a los mismos son linealmente dependientes. Sin
embargo, al igual que en la solucin basada en 8 puntos, en el
caso sobredeterminado existe un ruido en los valores de
entrada y el rango de A podra ser superior, como consecuencia
el sistema de ecuaciones nicamente tendra solucin cuando
b = u.
Esta problemtica se resuelve buscando, no una solucin
exacta, sino una aproximada, donde la funcin coste se
minimice para el vector solucin b. Por otra parte, la norma de
b seguir definindose como 1 para el factor de Escala.
De esta forma, el problema ha sido reducido a la
minimizacin del cociente respecto a b:
[Ah[
[h[
(13)
cuya solucin es el vector singular unidad de la matriz A
asociado al menor valor singular de la misma.
IV. MTRICAS DE EVALUACIN
Una vez que la matriz de homografa ha sido calculada, ya
sea utilizando 4 o ms puntos de inters, se aplica la inversa de
esta homografa a la imagen deformada (Figura 5) con el
objetivo de compensar los efectos de rotacin y traslacin del
dispositivo de captura y reconstruir la imagen deseada a la que
se denominar consigna.
Figura 5. Aplicacin de la homografa sobre la imagen deformada.
ste proceso de reconstruccin se lleva a cabo de forma
iterativa sobre una secuencia de fotogramas capturados por la
plataforma robtica en la cual se est aplicando el mtodo, en
este caso el robot Aibo. Sin embargo, con el objetivo de
determinar el desempeo del sistema de compensacin
aplicado sobre esta secuencia de imgenes, es necesario
determinar el conjunto de errores generados entre cada nueva
imagen de la secuencia y la imagen consigna (Figura 6).
Figura 6. Conjunto de funciones error generadas en la secuencia de
imgenes.
Con el objetivo de determinar una funcin error, se utiliza
dos criterios diferentes que darn lugar a dos funciones de error
distintas. Las dos nuevas funciones error que se originan son
denominadas como:
Error Geomtrico.
Error Descriptor
A. Error Geomtrico
El criterio de la distancia geomtrica como funcin error,
hace referencia a la distancia existente entre la localizacin de
los puntos de inters que pertenecen a la imagen sobre la cual
se est calculando el error y la imagen que se toma como
referencia, es decir la consigna. Cuanto mayor sea la
deformacin geomtrica de una imagen respecto a la imagen
consigna, mayor ser la distancia promedio de los puntos de
inters en correspondencia de cada una de las imgenes.
El error geomtrico se define como el promedio de la
diferencia entre la posicin en el plano bidimensional de los
puntos de inters en correspondencia que pertenecen a la
imagen sobre la cual se est calculando el error y a la imagen
respecto a la cual se calcula el error.
Matemticamente se dice que, dado un espacio R
2
el error
geomtrico se expresa como:
E
u
=
[X-X[
n
(14)
donde E
u
es el error geomtrico, n es el nmero de
correspondencia de puntos de inters entre las imgenes, X es
el conjunto de n puntos caractersticos del fotograma respecto
al cual se calcula el error y X el conjunto de n puntos
caractersticos del fotograma sobre el cual se calcula el error.
Adicionalmente, y con el objetivo de obtener una mejor
perspectiva del problema, se calcula el error geomtrico tanto
para la imagen deformada original como para la imagen
compensada reconstruida.
1) Error Geomtrico de la Imagen Deformada:
El error geomtrico de la imagen deformada, permite
conocer el comportamiento del error de cada fotograma cuando
estos no han sido corregidos. Este comportamiento se utiliza
como base para analizar el desempeo del sistema de
compensacin, comparando el comportamiento del error de la
imagen compensada respecto al de la deformada.
Para calcular este error geomtrico, primeramente se lleva a
cabo el proceso de deteccin, descripcin y bsqueda de
correspondencias de puntos de inters. Estas correspondencia
son utilizadas para el calcula de la distancia entre los puntos de
inters, cuyo promedio ser el error geomtrico de la imagen
deformada.
Figura 7. Error geomtrico en la imagen deformada.
Con el objetivo de visualizar la distancia existente entre
cada uno de los puntos de inters en correspondencia, en la
Figura 7 se han superpuesto tanto las imgenes consigna y
deformada, como el conjunto de puntos de inters que
corresponde a cada una de ellas.
2) Error Geomtrico de la imagen Compensada:
Calculado el error geomtrico de la imagen deformada, se
puede determinar el error existente en la imagen corregida,
cuyo comportamiento refleja el desempeo del sistema de
compensacin.
Para calcular este error geomtrico se puede partir del
conjunto de puntos de inters calculado durante el proceso de
deteccin, descripcin y matching de puntos de inters que se
uso para el cmputo del error geomtrico de la imagen
deformada, y reutilizar estos mismos puntos inters para la
estimacin de la matriz de homografa. De esta forma, no habr
un coste computacional aadido.
Luego de ello, se reconstruye la imagen consigna utilizando
la imagen deformada y la inversa de la homografa calculada.
Finalmente, mediante deteccin, descripcin y matching, se
determinan los pares de puntos en correspondencia entre la
imagen consigna y la nueva imagen reconstruida, garantizando
de esta forma que el error geomtrico corresponda a la imagen
compensada real.
Figura 8. Error geomtrico en la imagen compensada.
En la Figura 8 se puede apreciar la superposicin de la
imagen consigna con la imagen reconstruida, as como el
conjunto de puntos de inters en correspondencia de cada una
de las imgenes.
Adicionalmente esta figura permite apreciar la similitud
entre el fotograma compensado y el fotograma deseado, cuanto
ms gris es la imagen, mayor similitud existe entre los
fotogramas. La seccin rojiza corresponde a la regin de la
imagen consigna que no ha podido ser reconstruida a partir de
la imagen deformada. Esto se debe a que en la imagen
deformada se ha perdido parte de la informacin de la imagen
consigna por el desplazamiento del dispositivo de captura.
B. Error Descriptor
El segundo criterio que se ha utilizado como funcin error,
es la diferencia vectorial de los descriptores del conjunto de
puntos de inters en correspondencia entre dos fotogramas.
Este tipo de error representa cuan distintas son los las
caractersticas de los puntos detectados entre dos imgenes.
El error descriptor se define como el promedio de la
diferencia entre los vectores descriptores 64-dimensionales de
los puntos de inters en correspondencia que pertenecen a la
imagen sobre la cual se est calculando el error y a la imagen
respecto a la cual se calcula el error.
Matemticamente se dice que, dado un espacio R
64
el error
descriptor se expresa como:
E
=
[I
-I
[
n
(15)
donde E
es
el conjunto de n vectores descriptores de cada punto
caracterstico del fotograma respecto al cual se calcula el error
y I