ELE25

Compensacin de los Efectos Generados en la Imagen
por el Control de Navegacin del Robot Aibo ERS 7

Wilbert G. Aguilar
Departamento de Ingeniera de Sistemas, Automtica e
Informtica Industrial, ESAII
Universitat Politcnica de Catalunya, UPC-BarcelonaTech
Barcelona, Espaa
E-mail: cyb_wil@hotmail.com
Cecilio Angulo
Departamento de Ingeniera de Sistemas, Automtica e
Informtica Industrial, ESAII
Universitat Politcnica de Catalunya, UPC-BarcelonaTech
Barcelona, Espaa
E-mail: cecilio.angulo@upc.edu

Resumen La navegacin de robots cuyo centro de masa se
desplaza a lo largo del eje vertical (robots con patas, drones)
provoca un flujo ptico con una gran oscilacin en las imgenes
capturadas por la cmara debido a su desplazamiento.
El objetivo de este trabajo es desarrollar una metodologa de
correccin de los efectos deformatorios que la navegacin del
robot produce en el flujo de imgenes.
Para ello, el proceso de compensacin se inicia con la deteccin y
comparacin de un conjunto de puntos de inters entre
fotogramas consecutivos. Su ubicacin permitir determinar una
matriz de homografa entre fotogramas. Aplicando la inversa de
dicha homografa, se obtiene la imagen reconstruida.
La experimentacin realizada muestra la validez de nuestra
propuesta y sus resultados permitirn en el futuro obtener una
funcin sensorimotora aprendida que relaciona marcha y flujo
ptico.
Palabras Clave: Visin, Reconocimiento de Objetos, Matching
de Imgenes, Geometra, Transformaciones, Reconstruccin de
Imgenes, Estimacin del Error.
I. INTRODUCCIN
La fiabilidad de los sistemas de navegacin basados en
visin por computadora [1] depende directamente de la
naturaleza de locomocin de la plataforma sobre la que se
encuentran instalados. Cuando se trabaja sobre sistemas de
movimiento estable como robots con ruedas o robots tipo
oruga, el dispositivo de visin, ubicado generalmente en la
parte superior, captura las imgenes del entorno de navegacin
de forma razonablemente estable.
En el caso de robots cuya naturaleza de locomocin es de
mayor complejidad, como robots con extremidades o drones
(vehculos areos no tripulados), el grado de estabilidad del
dispositivo de captura de imgenes depender de la ubicacin y
dinmica de movimiento del sistema en general. Como
consecuencia de ello, sobre el flujo de imgenes capturadas se
generan efectos indeseados de traslacin y rotacin [2] entre
fotogramas consecutivos.
El presente trabajo tiene como objetivo disear una
metodologa que permita compensar los efectos generados en
la imagen por el movimiento rotatorio de la cmara durante la
locomocin de un robot que ser, inicialmente, de tipo
cuadrpedo. Los resultados obtenidos sobre esta plataforma
robtica pueden ser extrapolados hacia sistemas de mayor
complejidad como es el caso de los drones.
Adicionalmente, y con el objetivo de enmarcar mejor el
nivel de dificultad del problema, es importante mencionar que
los nicos datos de entrada con los que se cuentan para realizar
la navegacin robtica son los frames (fotogramas) capturados
por la cmara del robot. Bajo este marco de trabajo, el primer
problema que se presenta es determinar la informacin a
extraer del conjunto de pixeles pertenecientes a cada frame,
para lo cual se calculan, en una primera instancia, los puntos de
inters [3] que mejor describen las caractersticas de la imagen.
A continuacin, los puntos de inters calculados en un frame
sern comparados y emparejados con sus correspondencias en
el siguiente frame, de tal forma que se obtenga la relacin
existente entre dos fotogramas consecutivos. Este proceso se
conoce como matching [4].
Una vez que el conjunto de pares de puntos en
correspondencia entre dos frames consecutivos ha sido
determinado, se estima la relacin matemtica existente entre
los fotogramas. Esta relacin matemtica se denomina
homografa [5]. La inversa de esta funcin de homografa es
aplicada a la segunda imagen, obteniendo como resultado una
imagen reconstruida a partir del segundo frame que guarda una
gran similitud con el primer frame. Se ejecuta el mismo
proceso, de forma iterativa, para todo el conjunto de imgenes
capturadas que conforman la secuencia de fotogramas que
percibe el robot, y se efecta la correccin pertinente. Sobre la
secuencia de capturas se realiza un anlisis del error existente
para cada imagen compensada que permita obtener una medida
del desempeo de la metodologa planteada.
Este proceso pretende ser utilizado en trabajos posteriores,
usando sistemas de aprendizaje [6], para la obtencin un
modelo sensorimotor de la marcha del robot Aibo.
En el artculo se ha estructurado la informacin de la
siguiente forma:
En el apartado II) se explica brevemente el procedimiento
seleccionado para la deteccin, descripcin y matching de
puntos de inters, que son utilizados para comparar dos
fotogramas entre s. La seccin III) hace referencia al estudio
de la homografa como modelo de compensacin, cuya
estimacin se consigue a partir de los puntos de inters. Las
funciones error que se utilizan como mtricas de evaluacin se
definen en la seccin IV). Las pruebas experimentales se
detallan en la seccin V) y las respectivas conclusiones y lneas
futuras en el apartado VI).
II. PUNTOS DE INTERS
Los puntos de inters pretenden representar las principales
caractersticas de las regiones de la imagen mediante un
pequeo conjunto de informacin [7].
Usualmente, son utilizados para el proceso de comparacin
de imgenes, tarea en la cual se diferencian 3 procesos:
Deteccin de puntos de inters.
Descripcin de puntos de inters.
Matching de puntos de inters.
Existe una gran variedad de algoritmos que permiten llevar
a cabo la tarea de deteccin de puntos de inters con un bajo
coste computacional, entre los cuales se puede mencionar al
detector de Harris [8] [9] que, a pesar de presentar robustez
ante cambios de intensidad, presenta problemas cuando se
trabaja con transformaciones distintas entre imgenes.
Otro mtodo a destacar es el algoritmo SIFT (Scale-
Invariant Feature Transform [10]), muy eficiente en la
deteccin y descripcin de puntos de inters. Sin embargo,
debido a la velocidad de procesamiento que otorga el algoritmo
SURF [11], se ha decidido utilizar este ltimo en el proceso de
compensacin de los movimientos debidos a la navegacin.
El algoritmo SURF (por sus siglas en ingls Speeded Up
Robust Features [12]), al igual que SIFT, es un algoritmo de
deteccin, descripcin y matching de puntos de inters, con la
diferencia de realizar estos 3 procesos con mayor velocidad
que SIFT (SURF es aproximadamente 10 veces ms rpido que
SIFT).
A continuacin, por completitud, se explicar brevemente
como SURF lleva a cabo los 3 procesos respecto a los puntos
de inters.
A. Deteccin de Puntos de Inters
Para la deteccin de los puntos de inters, el algoritmo
SURF utiliza una aproximacin bsica de la matriz hessiana,
debido al buen desempeo que presenta esta matriz con
respecto a su exactitud. Para ello un concepto que resulta de
gran utilidad es el de imagen integral.
La imagen integral es otra forma de representar el conjunto
de pixeles de una imagen, tal que, el valor del punto P de
coordenadas (x, y) representa la sumatoria de todos los pixeles
de la imagen que corresponden a la regin rectangular existente
entre dicho punto P y el origen de coordenadas, es decir:
I
(P) = _ _ I(x, y)
]<
]=0
<x
=0
(1)
donde, I
(X) es la entrada de la imagen integral, y (x, y)

1

es la localizacin del punto P en la imagen integral.
Una vez que se ha determinado la imagen integral, los
puntos o regiones de inters pueden ser detectados mediante un
simple anlisis del determinante de la matriz hessiana, donde
ser mximo. Este determinante puede ser calculado de forma
eficiente a nivel computacional mediante la aproximacin:
ct(E
upox
) =
xx
- (u.9
x
)
2
(2)
donde
xx
,
,
x
son aproximaciones a lo largo de las
tres direcciones.
Utilizando la matriz hessiana y una funcin denominada
Espacio-Escala [13], la localizacin exacta de los puntos de
inters (Figura 1) puede ser dividida en 3 partes:
Primeramente se desestima los valores obtenidos del
determinante de la matriz hessiana que se encuentren
por debajo de un umbral establecido. Este umbral es
adaptable y depende especficamente de la aplicacin
en la cual se est llevando a cabo el proceso de
localizacin de puntos de inters (a mayor valor de
umbral, menor nmero de puntos detectados).
A continuacin se realiza la seleccin del conjunto de
puntos candidatos. Cada pixel es comparado con sus
26 vecinos en las 3 dimensiones posibles. Se dice que
un pixel es mximo si es mayor que todos los pxeles
que lo envuelven.
Finalmente se localiza en espacio-escala el pixel que
corresponde al punto de inters detectado.

Figura 1. Deteccin de puntos de inters.
En la Figura 1 se muestra un ejemplo de 8 puntos
caractersticos detectados sobre una imagen capturada por el
robot Aibo ERS 7.
B. Descripcin de puntos de inters
Luego de calcular los puntos de inters, el descriptor de
SURF determina la distribucin de la intensidad de los pixeles
que componen las regiones cercanas a cada uno de los puntos
de inters que han sido detectados. Para ello, y con el objetivo
de incrementar la robustez y disminuir el tiempo de clculo
computacional respecto al descriptor SIFT, utiliza los Wavelets
de Haar [14].
Los Wavelets de Haar son filtros simples que permiten
determinar el gradiente de forma rpida en las 2 direcciones del
espacio bidimensional de la imagen. La extraccin del
descriptor puede ser dividida en 2 distintas tares:
Se identifica una orientacin reproducible bajo
condiciones variables, para cada punto de inters, con
el objetivo de conseguir invariancia en la rotacin.

Figura 2. Descripcin de puntos de inters.
Se construye una ventana que sea dependiente de la
escala, de la cual se extrae un vector 64 dimensional
(Figura 2). Con el objetivo de mantener su
comportamiento invariante a la escala, todo cmputo
estar basados en una medida relativa a la escala
detectada.
C. Bsqueda de correspondencias (matching) de puntos de
inters
El proceso de bsqueda de correspondencias entre pares de
puntos de inters entre dos imgenes se basa en el error
existente entre los mencionados puntos de inters. El error se
calcula como la distancia vectorial de los descriptores de cada
punto de inters.
Para una rpida indexacin durante la fase de bsqueda de
correspondencias, el signo del Laplaciano, es decir, la traza de
la matriz hessiana para el punto de inters subyacente, es
incluido. El signo del Laplaciano permite distinguir la
deteccin de regiones brillantes contrastadas con un fondo
oscuro, de la situacin contraria. Durante el matching de puntos
de inters, slo se comparan caractersticas que tengan el
mismo tipo de contraste, permitiendo aumentar
considerablemente la velocidad de bsqueda sin que se vea
afectado el rendimiento del descriptor.
Una vez que las parejas de puntos que correlacionan dos
fotogramas consecutivos han sido computados, se cuenta con la
informacin necesaria para determinar la relacin geomtrica
entre las dos imgenes capturadas. Adicionalmente se puede
utilizar el algoritmo RANSANC (RAndom Sample Consensus)
[15] para descartar el conjunto de pares de puntos que no se
ajusten al modelo.
III. TRANSFORMACIN GEOMTRICA
Una transformacin proyectiva [16] [17] [18] es un mapeo
invertible de una imagen bidimensional hacia otra imagen de
igual forma bidimensional, tal que tres puntos x
1
, x
2
y x
3

pertenecen a una misma lnea s y solo s sus proyecciones x
1
,
x
2
y x
3
tambin pertenecen a la misma lnea. Es debido a esta
propiedad, que la transformacin proyectiva tambin se suele
denominar colineacin u homografa.
Una propiedad adicional que debe cumplir una
proyectividad en un plano es el hecho de poder ser
representada a travs de una matriz de transformacin E no
singular, tal que la relacin entre puntos de la imagen original y
los pertenecientes a la imagen transformada, sea una aplicacin
lineal.
Por tanto, a partir de ahora el problema consiste en estimar
la matriz de transformacin que relaciona el mayor nmero de
pares de puntos en correspondencia entre dos imgenes.
A. Solucin Exacta: 4 Pares de Puntos en Correspondencia
La estimacin de la matriz de homografa (determinada por
la geometra proyectiva), parte del conjunto de puntos en
correspondencia especfico X
y X
, los mismos que se

encuentran relacionados por esta matriz de homografa E bajo
la siguiente expresin matemtica:
X
= EX
(3)
donde E es una matriz cuadrada de 9 parmetros (3x3),
definidos salvo un factor de escala, es decir que se tiene un
conjunto de 8 incgnitas por resolver.

Figura 3. Solucin exacta: 4 pares de puntos correspondientes.
Cada par de correspondencia de puntos de inters entre las
imgenes permite obtener 3 ecuaciones, de las cuales 2 son
linealmente independientes. Tomando en consideracin que
cada par de correspondencias de puntos establece dos
restricciones sobre la matriz H, el nmero de pares de puntos
de correspondencias necesarios para obtener una solucin
nica es 4 (Figura 3). Para resolver el sistema, con estos 4
pares de correspondencias, podemos utilizar el algoritmo de
transformacin lineal directa.
El algoritmo de Transformacin Lineal Directa o DLT es
un mtodo lineal que permite determinar la matriz de
transformacin E de forma simple, a partir de un conjunto de 4
correspondencias. La relacin entre los puntos de la imgenes
est definida en coordenadas homogneas, por lo cual, puede
interpretarse como una relacin de proporcionalidad directa
entre los miembros de la ecuacin. Es decir, que son iguales
salvo constantes de proporcionalidad y tienen el mismo vector
unitario. Por lo tanto, la relacin puede ser redefinida de la
siguiente forma:
X
EX
= u (4)
donde
E = _
E
11
E
12
E
13
E
21
E
22
E
23
E
31
E
32
E
33
_ (5)
X
= |
x
w
] (6)
X
= |x
] (7)
multiplicando ahora este vector X
con el producto obtenido

entre la matriz E y el vector X
, se da origen a la matriz:
X
EX
= _
y
|E
31
E
32
E
33
]
1
X
-w
|E
21
E
22
E
23
]
1
X
|E
11
E
12
E
13
]
1
X
-x
|E
31
E
32
E
33
]
1
X
|E
21
E
22
E
23
]
1
X
-y
|E
11
E
12
E
13
]
1
X
_ (8)
Desarrollando las expresiones matemticas en la matriz
producto, e igualando dicha matriz a cero se obtiene un
conjunto de tres ecuaciones que contiene los parmetros de E.
La ecuacin matricial puede expresarse de la siguiente forma:
_
u
1
-w
1
y
1
w
1
u
1
-x
1
-y
1
x
1
u
1
_
l
l
l
l
l
l
l
l
l
E
11
E
12
E
13
E
21
E
22
E
23
E
31
E
32
E
33
1
1
1
1
1
1
1
1
1
= u (9)
Estas ecuaciones son de la forma:
A
b = u (10)
donde A
es una matriz de 3x9 elementos y b es un vector

columna de 9 elementos constituido por los parmetros de la
matriz de trasformacin proyectiva E.
El sistema A
b = u se encuentra constituido por tres

ecuaciones, sin embargo, solo dos de ellas son linealmente
independientes. Esto se debe a que la tercera ecuacin se puede
obtener de forma trivial como combinacin lineal de las otras
dos ecuaciones.
En consecuencia, cada punto, al que corresponde el sistema
analizado, slo puede proporcionar dos ecuaciones en las
entradas restrictivas para la estimacin de la matriz E. El
nmero mnimo de pares de correspondencias de puntos de
inters, requeridos para el clculo de la matriz de
transformacin E de solucin nica, es cuatro (cada uno aporta
al sistema A
b = u con 2 ecuaciones linealmente

independientes, es decir un A
de 2x9 elementos).
Con el objetivo de definir (x, y) como coordenadas
medidas directamente sobre las imgenes, tanto para X
como
para X
, se iguala w
= w
= 1. En caso de que w
o w
no
sean 1, habra que realizar el clculo pertinente para pasar de
coordenadas en la imagen a coordenadas de los puntos X
o X
.
Usando las ecuaciones de los cuatro pares de puntos, y
reemplazando w
= w
= 1 en el sistema tenemos:

l
l
l
l
l
l
l
l
u u u
u u u
u u u
u u u
-x
1
-y
1
-1
-x
2
-y
2
-1
-x
3
-y
3
-1
-x
4
-y
4
-1
y
1
x
1
y
1
y
1
y
1
y
2
x
2
y
2
y
2
y
2
y
3
x
3
y
3
y
3
y
3
y
4
x
4
y
4
y
4
y
4
x
1
y
1
1
x
2
y
2
1
x
3
y
3
1
x
4
y
4
1
u u u
u u u
u u u
u u u
-x
1
x
1
-x
1
y
1
-x
1
-x
2
x
2
-x
2
y
2
-x
2
-x
3
x
3
-x
3
y
3
-x
3
-x
4
x
4
-x
4
y
4
-x
4
1
1
1
1
1
1
1
1
l
l
l
l
l
l
l
l
l
E
11
E
12
E
13
E
21
E
22
E
23
E
31
E
32
E
33
1
1
1
1
1
1
1
1
1
= u(11)
Una vez desarrollada la ecuacin matricial, se obtiene un
sistema de ecuaciones lineales de solucin nica. Esto se debe
a que cada par de correspondencia ha dado origen a dos
ecuaciones linealmente independientes y, como podemos
recordar, la matriz de transformacin proyectiva E es de rango
8, es decir 8 incgnitas.
El vector solucin del sistema de 8 ecuaciones con 8
incgnitas que se ha generado, est dado por el vector del
ncleo de la aplicacin lineal definida por la matriz A. Este
vector puede ser determinado, salvo factor de escala. Con el
objetivo de fijar el valor del mencionado factor de escala, para
llevar a cabo el clculo del vector solucin del sistema de
ecuaciones, se definir como condicin la norma de b igualada
a 1, es decir:
[b[ = 1 (12)
B. Solucin Sobredeterminada
En el caso ideal, cuando no existe ruido en las imgenes de
entrada, la matriz E estimada a partir de 4 pares de
correspondencias es una solucin fiable de la trasformacin
proyectiva que relaciona las imgenes entre s.

Figura 4. Solucin sobredeterminada: ms de 4 pares de puntos
correspondientes.
Sin embargo, trabajando con un conjunto real de imgenes,
resulta conveniente disponer de ms de cuatro pares de
correspondencia en el sistema de ecuaciones, es decir que este
mtodo de estimacin estar sobredeterminado (Figura 4).
Si los puntos de entrada son exactos, matemticamente se
demuestra que el rango de la matriz A sigue siendo 8 a pesar de
la presencia de un nmero mayor de ecuaciones lineales. Esto
se debe a que en el caso de puntos exactos las ecuaciones que
corresponden a los mismos son linealmente dependientes. Sin
embargo, al igual que en la solucin basada en 8 puntos, en el
caso sobredeterminado existe un ruido en los valores de
entrada y el rango de A podra ser superior, como consecuencia
el sistema de ecuaciones nicamente tendra solucin cuando
b = u.
Esta problemtica se resuelve buscando, no una solucin
exacta, sino una aproximada, donde la funcin coste se
minimice para el vector solucin b. Por otra parte, la norma de
b seguir definindose como 1 para el factor de Escala.
De esta forma, el problema ha sido reducido a la
minimizacin del cociente respecto a b:

[Ah[
[h[
(13)
cuya solucin es el vector singular unidad de la matriz A
asociado al menor valor singular de la misma.
IV. MTRICAS DE EVALUACIN
Una vez que la matriz de homografa ha sido calculada, ya
sea utilizando 4 o ms puntos de inters, se aplica la inversa de
esta homografa a la imagen deformada (Figura 5) con el
objetivo de compensar los efectos de rotacin y traslacin del
dispositivo de captura y reconstruir la imagen deseada a la que
se denominar consigna.

Figura 5. Aplicacin de la homografa sobre la imagen deformada.
ste proceso de reconstruccin se lleva a cabo de forma
iterativa sobre una secuencia de fotogramas capturados por la
plataforma robtica en la cual se est aplicando el mtodo, en
este caso el robot Aibo. Sin embargo, con el objetivo de
determinar el desempeo del sistema de compensacin
aplicado sobre esta secuencia de imgenes, es necesario
determinar el conjunto de errores generados entre cada nueva
imagen de la secuencia y la imagen consigna (Figura 6).

Figura 6. Conjunto de funciones error generadas en la secuencia de
imgenes.
Con el objetivo de determinar una funcin error, se utiliza
dos criterios diferentes que darn lugar a dos funciones de error
distintas. Las dos nuevas funciones error que se originan son
denominadas como:
Error Geomtrico.
Error Descriptor
A. Error Geomtrico
El criterio de la distancia geomtrica como funcin error,
hace referencia a la distancia existente entre la localizacin de
los puntos de inters que pertenecen a la imagen sobre la cual
se est calculando el error y la imagen que se toma como
referencia, es decir la consigna. Cuanto mayor sea la
deformacin geomtrica de una imagen respecto a la imagen
consigna, mayor ser la distancia promedio de los puntos de
inters en correspondencia de cada una de las imgenes.
El error geomtrico se define como el promedio de la
diferencia entre la posicin en el plano bidimensional de los
puntos de inters en correspondencia que pertenecen a la
imagen sobre la cual se est calculando el error y a la imagen
respecto a la cual se calcula el error.
Matemticamente se dice que, dado un espacio R
2
el error
geomtrico se expresa como:
E
u
=
[X-X[
n
(14)
donde E
u
es el error geomtrico, n es el nmero de
correspondencia de puntos de inters entre las imgenes, X es
el conjunto de n puntos caractersticos del fotograma respecto
al cual se calcula el error y X el conjunto de n puntos
caractersticos del fotograma sobre el cual se calcula el error.
Adicionalmente, y con el objetivo de obtener una mejor
perspectiva del problema, se calcula el error geomtrico tanto
para la imagen deformada original como para la imagen
compensada reconstruida.
1) Error Geomtrico de la Imagen Deformada:
El error geomtrico de la imagen deformada, permite
conocer el comportamiento del error de cada fotograma cuando
estos no han sido corregidos. Este comportamiento se utiliza
como base para analizar el desempeo del sistema de
compensacin, comparando el comportamiento del error de la
imagen compensada respecto al de la deformada.
Para calcular este error geomtrico, primeramente se lleva a
cabo el proceso de deteccin, descripcin y bsqueda de
correspondencias de puntos de inters. Estas correspondencia
son utilizadas para el calcula de la distancia entre los puntos de
inters, cuyo promedio ser el error geomtrico de la imagen
deformada.

Figura 7. Error geomtrico en la imagen deformada.
Con el objetivo de visualizar la distancia existente entre
cada uno de los puntos de inters en correspondencia, en la
Figura 7 se han superpuesto tanto las imgenes consigna y
deformada, como el conjunto de puntos de inters que
corresponde a cada una de ellas.
2) Error Geomtrico de la imagen Compensada:
Calculado el error geomtrico de la imagen deformada, se
puede determinar el error existente en la imagen corregida,
cuyo comportamiento refleja el desempeo del sistema de
compensacin.
Para calcular este error geomtrico se puede partir del
conjunto de puntos de inters calculado durante el proceso de
deteccin, descripcin y matching de puntos de inters que se
uso para el cmputo del error geomtrico de la imagen
deformada, y reutilizar estos mismos puntos inters para la
estimacin de la matriz de homografa. De esta forma, no habr
un coste computacional aadido.
Luego de ello, se reconstruye la imagen consigna utilizando
la imagen deformada y la inversa de la homografa calculada.
Finalmente, mediante deteccin, descripcin y matching, se
determinan los pares de puntos en correspondencia entre la
imagen consigna y la nueva imagen reconstruida, garantizando
de esta forma que el error geomtrico corresponda a la imagen
compensada real.

Figura 8. Error geomtrico en la imagen compensada.
En la Figura 8 se puede apreciar la superposicin de la
imagen consigna con la imagen reconstruida, as como el
conjunto de puntos de inters en correspondencia de cada una
de las imgenes.
Adicionalmente esta figura permite apreciar la similitud
entre el fotograma compensado y el fotograma deseado, cuanto
ms gris es la imagen, mayor similitud existe entre los
fotogramas. La seccin rojiza corresponde a la regin de la
imagen consigna que no ha podido ser reconstruida a partir de
la imagen deformada. Esto se debe a que en la imagen
deformada se ha perdido parte de la informacin de la imagen
consigna por el desplazamiento del dispositivo de captura.
B. Error Descriptor
El segundo criterio que se ha utilizado como funcin error,
es la diferencia vectorial de los descriptores del conjunto de
puntos de inters en correspondencia entre dos fotogramas.
Este tipo de error representa cuan distintas son los las
caractersticas de los puntos detectados entre dos imgenes.
El error descriptor se define como el promedio de la
diferencia entre los vectores descriptores 64-dimensionales de
los puntos de inters en correspondencia que pertenecen a la
imagen sobre la cual se est calculando el error y a la imagen
respecto a la cual se calcula el error.
Matemticamente se dice que, dado un espacio R
64
el error
descriptor se expresa como:
E
=
[I
-I
[
n
(15)
donde E
es el error descriptor existente, n es el nmero de

correspondencia de puntos de inters entre las imgenes, I
es
el conjunto de n vectores descriptores de cada punto
caracterstico del fotograma respecto al cual se calcula el error
y I
el conjunto de n vectores descriptores del fotograma

deformado.
Al igual que en el caso del error geomtrico, se calcula el
error geomtrico tanto para la imagen original deformada como
para la reconstruccin de la imagen compensada, lo que aporta
una mejor perspectiva del comportamiento de esta funcin
error:
1) Error Descriptor de la Imagen Deformada:
El error geomtrico de la imagen deformada, establece un
referente para el anlisis del desempeo del sistema de
compensacin, y ser el patrn con el cual se compare el
comportamiento del error de la imagen compensada.
Para el clculo del error descriptor sobre la imagen
deformada (Figura 9) es necesario realizar la deteccin,
descripcin y matching de los puntos caractersticos. Durante el
proceso de descripcin de los puntos, se generan vectores 64-
dimensionales que describen las caractersticas de las regiones
que rodean a dicho punto. Se determina la diferencia vectorial
de los descriptores de los puntos, y se calcula el error
descriptor como el promedio de dicha diferencia vectorial en el
espacio 64 dimensional.

Figura 9. Error descriptor en la imagen deformada.
2) Error Descriptor de la imagen Compensada:
El error descriptor de la imagen compensada (Figura 10), es
justamente el que ser de inters, debido a que su
comportamiento refleja el desempeo del sistema de
compensacin. Cuanto mayor sea el error sobre la imagen
corregida, menor ser la eficiente del sistema de compensacin
que se utiliz para la reconstruccin de la imagen mencionada.

Figura 10. Error descriptor en la imagen compensada.
Este error geomtrico puede ser calculado a partir de un
conjunto de puntos de inters calculado mediante el proceso de
deteccin, descripcin y matching, sobre la nueva imagen
reconstruida a partir de la imagen deformada y de una
homografa computada. Detectar los puntos de inters sobre la
imagen corregida garantiza que el error descriptor corresponda
a resultados reales obtenidos a partir del sistema de
compensacin en evaluacin.
V. EXPERIMENTACIN Y RESULTADOS
Una vez calculada la matriz de homografa existente entre
dos fotogramas consecutivos, tomados durante la navegacin
del robot, esta puede ser utilizada como modelo de
compensacin para reconstruir un fotograma a partir del otro,
tal como se aprecia en la Figura 11.

Figura 11. Reconstruccin de la imagen original a partir de la imagen
deformada y de la matriz de homografa estimada.
Sin embargo, regresando al objetivo original del trabajo, se
ha de recordar que se busca obtener una secuencia de imgenes
estables que compense el efecto deformatorio de la traslacin y
rotacin generado como producto del movimiento de la
cmara. Por ello, es necesario establecer un fotograma como
imagen original que ser el que sirva de referencia
navegacional. Esta imagen original constituir la consigna que
se pretende reconstruir a partir del conjunto de imgenes
rotadas.
A. Ciclo de Trabajo
Para determinar el fotograma consigna es necesario conocer
las caractersticas tanto del robot como de la cmara con la cual
se adquieren las imgenes. En esta primera experimentacin se
utiliza el robot Aibo ERS 7 (Figura 12) como plataforma de
trabajo. Esta plataforma est dotada de 20 grados de libertad
distribuidos de la siguiente forma:
TABLA I. GRADOS DE LIBERTAD DEL AIBO ERS 7
Robot Nmero de
Grados de
Libertad
Seccin
Delantera o
Posterior
Derecha o
Izquierda
Cabeza 3
Extremidad Delantera Derecha 3
Extremidad Delantera Izquierda 3
Extremidad Posterior Derecha 3
Extremidad Posterior Izquierda 3
Boca 1
Oreja Derecha 1
Oreja Izquierda 1
Cola 2

de los cuales, nicamente 15 influyen en el movimiento de
la cabeza de Aibo y, por ende, de la cmara. Los grados de
libertad correspondientes a boca, orejas y cola no alterarn la
imagen capturada.

Figura 12. Aibo ERS 7.
Cuando el robot Aibo se encuentra en una posicin en que
la cmara se halla paralela al terreno de movimiento, se la
considera como una posicin original. La imagen capturada por
la cmara ser el fotograma que se utilice como consigna. Los
valores para cada una de las articulaciones en la posicin
original se encuentran definidos en la Tabla 2:
TABLA II. POSICIN ORIGINAL DEL AIBO ERS7
Articulacin
Valor
Mnimo Mximo Posicin Original
headTilt -16 44 0
Neck -79 2 0
headPan -91 91 0
legRH1 -134 120 -25
legRH2 -9 91 10
legRH3 -29 119 80
legRF1 -134 120 -20
legRF2 -9 91 25
legRF3 -29 119 90
legLH1 -120 134 -25
legLH2 -9 91 10
legLH3 -29 119 80
legLF1 -120 134 -20
legLF2 -9 91 25
legLF3 -29 119 90

A medida que se capturan nuevas imgenes, en la secuencia
de video de entrada del Aibo, cada nuevo fotograma sufre una
mayor deformacin de rotacin y traslacin respecto al
fotograma original. Sin embargo, por la naturaleza cclica del
movimiento de Aibo al caminar, luego de un determinado
periodo, los nuevos fotogramas tienden a asemejarse al primer
frame hasta que la nica deformacin que se presenta entre el
nuevo fotograma y el original es una traslacin en la direccin
de avance, la misma que se traduce como escalado tal como lo
muestra la Figura 13.

Figura 13. Efecto deformatorio de la traslacin nica en direccin de avance
del robot.
Cuando se ha alcanzado un fotograma cuya deformacin se
debe casi exclusivamente a la traslacin en la direccin de
avance, se utiliza este fotograma como nueva consigna y se
itera en el proceso de navegacin (Figura 6).
B. Funcin Error
Como se haba definido en el apartado IV), con el objetivo
de determinar la fiabilidad del sistema es necesario establecer
criterios de evaluacin del error cometido. Los dos criterios
establecidos son:
La distancia geomtrica en el plano de referencia XY
entre los pares de puntos sobre las imgenes
superpuestas.
La diferencia promedio entre los vectores descriptores
64-dimensionales de los puntos de inters.
En el criterio de la distancia geomtrica como funcin error
cuanto mayor sea la deformacin geomtrica de una imagen
respecto a la imagen consigna, mayor ser la distancia
promedio de los puntos de inters en correspondencia de cada
una de las imgenes.
A medida que el robot Aibo se mueve, las imgenes que
captura se deforman con respecto a la que se ha establecido
como consigna en su posicin original, por lo tanto, resulta
lgico pensar que el error geomtrico ir en aumento. Sin
embargo, es necesario resaltar que, dada la naturaleza cclica de
la locomocin de Aibo, luego de cierto valor pico, los
fotogramas capturados empezarn a asemejarse a la imagen
consigna, hasta que se alcance el punto en que la nica
deformacin que exista sea un escalado, y este punto se
considera como nueva consigna.
Con el objetivo de conocer cuntos fotogramas existen
entre dos imgenes consignas, que correspondern a un ciclo
de fotogramas con los que se trabajar en cada iteracin, se ha
estudiado el comportamiento del error geomtrico en 4
escenarios distintos. Para cada escenario se han capturado
secuencias de 64 fotogramas (25 fotogramas por segundo) que
corresponden a 2,56 segundos, tiempo en el que Aibo realiza 2
pasos y regresa a una posicin similar a la original.
El estudio del error se ha realizado entre cada imagen
original respecto a la consigna y entre cada imagen corregida
respecto a la consigna. En las Figuras 14 y 15 se presentan los
errores geomtricos de la imagen original y compensada para
las 4 secuencias de imgenes distintas capturadas por el Aibo
ERS 7. El eje de las ordenadas corresponde al error geomtrico
expresado en pixeles y el eje de las abscisas al nmero de
fotograma. Obsrvese el cambio de escalado en el eje de
ordenadas respecto a las figuras.

Figura 14. Error geomtrico de la imagen original.

Figura 15. Error geomtrico de la imagen compensada.
El segundo criterio que se ha utilizado como funcin error,
es la diferencia promedio entre los vectores descriptores del
conjunto de puntos de inters en correspondencia entre dos
fotogramas. Este tipo de error representa la diferencia entre las
caractersticas de los puntos entre dos imgenes.
Al igual que con el error geomtrico, se ha realizado un
estudio con el error descriptor en los 64 fotogramas de cada
una de las 4 secuencias, tanto para las imgenes originales
respecto a la consigna como para las imagenes corregidas. Sus
resultados se presentan en la Figura 16 y la Figura 17,
respectivamente.

Figura 16. Error descripor de la imagen original.

Figura 17. Error descripor de la imagen compensada.
Luego de experimentar con 4 escenarios distintos como
imgenes de entrada, se ha visualizado el mismo
comportamiento del error geomtrico, tanto para la secuencia
de imgenes compensadas como para las originales.
El error descriptor, por el contrario, no presenta la misma
fiabilidad, lo cual se debe a que los vectores descriptores de los
puntos de inters determinan que tan parecidas son las
caractersticas de una regin en una imagen respecto a su
correspondencia en la otra imagen, y no la distancia entre
dichas regiones.
0 10 20 30 40 50 60 70
0
20
40
60
80
100
120
140
160
180
0 10 20 30 40 50 60 70
0
0.5
1
1.5
2
2.5
3
3.5
4
0 10 20 30 40 50 60 70
1
2
3
4
5
6
7
x 10
-3
0 10 20 30 40 50 60 70
0.6
0.8
1
1.2
1.4
1.6
1.8
2
2.2
2.4
x 10
-3
Cabe resaltar que el comportamiento del error geomtrico,
experimentalmente ha resultado similar a la dinmica del
movimiento de la plataforma sobre la cual se encuentra la
cmara. En las 4 secuencias de 64 fotogramas de las Figuras 14
y 15 se puede constatar la presencia de 6 picos, los mismos que
corresponden a los 6 zigzagueos que la cmara, ubicada en la
cabeza del robot Aibo, ejecuta durante su locomocin.
Otro punto a destacar es que la compensacin del
movimiento de la cmara ha mejorado la imagen deformada
respecto a la consigna en una relacin de 1 a 45 utilizando el
error geomtrico, mientras que con el error descriptor, la
mejora es solo de 1 a 3 aproximadamente.
VI. CONCLUSIONES Y LNEAS FUTURAS
Luego de realizar un estudio inicial de los algoritmos de
deteccin, descripcin y matching de puntos de inters, se ha
concluido que SURF es la mejor propuesta para llevar a cabo
estos procesos.
Aunque el mnimo nmero de puntos de inters requeridos
para estimar la homografa es 8, una solucin
sobredeterminada permite obtener una estimacin ms fiable
que ser usada en el modelo de compensacin
Para evaluar el modelo de compensacin utilizado, el
criterio de error que presenta mayor fiabilidad es el error
geomtrico y su comportamiento se asemeja al movimiento
fluctuante de la cmara del robot.
El modelo de compensacin se utilizar en el futuro para
determinar, mediante un sistema de entrenamiento, un modelo
sensorimotor del robot Aibo. Este modelo le permitir al
sistema realizar la compensacin de los efectos generados en la
imagen en tiempo real [19].
Una vez que se haya conseguido un ptimo desempeo del
modelo de compensacin de los efectos deformatorios de
rotacin y traslacin en imgenes capturadas por la cmara de
un robot cuadrpedo, como es el caso del Aibo ERS 7, los
resultados pueden ser extrapolados hacia sistemas de mayor
complejidad y menor estabilidad como lo son los robots
bpedos y los vehculos areos no tripulados.
Estos modelos adems pueden ser utilizados como
consignas en sistemas de control servo visual. En el caso de los
AR.Drones, que son vehculos areos no tripulados, estos
sistemas poseen un sensor de distancia que les permite conocer
la altura a la cual se encuentran y utilizar este dato para
ubicarse a una distancia especfica en el eje vertical. Sin
embargo, el sistema no cuenta con un sensor que permita
mantener al drone en una posicin fija respecto al plano
horizontal salvo las imgenes de entrada. He aqu una
aplicacin directa del modelo de compensacin que ha sido
descrito en el presente artculo.
AGRADECIMIENTOS
Este trabajo ha sido financiado parcialmente por el
Ministerio de Ciencia e Innovacin del Gobierno de Espaa, a
travs del proyecto SOFIA (TIN 2011-28854-C03-01).
El Investigador en Formacin Wilbert G. Aguilar agradece
la financiacin a travs de una beca del Programa
Convocatoria Abierta 2011 concedida por la Secretara de
Educacin Superior, Ciencia, Tecnologa e Innovacin
SENESCYT de la Repblica del Ecuador.
REFERENCIAS
[1] D. Forsyth, J. Ponce. Computer Vision, a Modern Approach. Prentice
Hall, 2003.
[2] O. Faugeras, Q. Luong, T. Papadopoulo. The Geometry of Multiple
Images. MIT Press, 2001.
[3] M. Brown, D. Lowe, "Invariant features from interest point groups",
British Machine Vision Conference, 2002.
[4] K. Mikolajczyk, C. Schmid, "Indexing based on Scale Invariant Interest
Points", International Conference of Computer Vision, 1:525-531, 2001.
[5] R. Hartley, A. Zisserman. Multiple View Geometry in Computer Vision.
Cambridge University Press. 2003.
[6] S. Russell, P. Norvig. Artificial Intelligence a Modern Approach. 2nd
Edition, Prentice Hall, 2003
[7] R. Gonzales, R. Woods. Digital Image Processing. 2nd Edition,
Prentice-Hall, 2002.
[8] C. Harris, M. Stephens, "A Combined Corner and Edge Detector",
Proceedings of the 4th Alvey Vision Conference, 147-151, 1988.
[9] J. Canny, "A Computational Approach to Edge Detection", IEEE
Transactions on Pattern Analysis and Machine Intelligence, 8:679-714,
1986.
[10] D. Lowe, "Object Recognition from Local Scale-Invariant Features",
International Conference of Computer Vision, 1999.
[11] J. Luo, G. Oubong, "A comparison of SIFT, PCA-SIFT and SURF",
International Journal of Image Processing, 143-152, 2009.
[12] H. Bay, T. Tuytelaars, L. Van Gool, "Surf: Speeded Up Robust
Features", European Conference on Computer Vision, 1:404-417, 2006.
[13] K. Mikolajczyk, C. Schmid. "Scale and Anfine Invariant Interest Point
Detectors", International Journal of Computer Vision, 60 (1):63-86,
2004.
[14] C. Messom, A. Barczak, "Fast and Efficient Rotated Haar-like Features
Using Rotated Integral Images", Australian Conference on Robotics and
Automation, 16, 2006.
[15] P. Torr, A. Zisserman, "MLESAC: A New Robust Estimator with
Application to Estimating Image Geometry", Computer Vision and
Image Understanding, 2000.
[16] D. Martinec, T. Pajdla, "Robust rotation and translation estimation in
multiview reconstruction", IEEE Conference on Computer Vision and
Pattern Recognition, 1-8, 2007.
[17] O. Urfalioglu, "Robust Estimation of Camera Rotation, Translation and
Focal Length at High Outlier Rates". Canadian conference on Computer
and Robot Vision, 2004.
[18] M. Fischler, R. Bolles, "Random Sample Consensus: A Paradigm for
Model Fitting with Applications to Image Analysis and Automated
Cartography", Communications of the ACM, 24 (6): 381395, 1981.
[19] W. G. Aguilar, C. Angulo, "Compensacin y Aprendizaje de Efectos
Generados en la Imagen durante el Desplazamiento de un Robot", X
Simposio CEA, in press, 2012.

ELE25

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ELE25

Transféré par

Droits d'auteur :

Formats disponibles

Compensacin de los Efectos Generados en la Imagen

por el Control de Navegacin del Robot Aibo ERS 7

(X) es la entrada de la imagen integral, y (x, y)

, los mismos que se

con el producto obtenido

es una matriz de 3x9 elementos y b es un vector

b = u se encuentra constituido por tres

b = u con 2 ecuaciones linealmente

es el error descriptor existente, n es el nmero de

el conjunto de n vectores descriptores del fotograma

Vous aimerez peut-être aussi