Académique Documents
Professionnel Documents
Culture Documents
Sistemas de Informação
Resumo
Através de pesquisa, coleta de dados na internet, testes de campo com software Matlab
R2017a e partindo de outro artigo já publicado: “Automatic Salient Object Segmentation
Based on Context and Shape Prior”, que propõe se um novo algoritmo de segmentação
de objeto saliente automático que integre tanto os estímulos salientes de baixo para cima
como a forma de nível de objeto anterior, isto é, um objeto saliente possui um limite
fechado bem definido. Nossa abordagem é formalizada como uma estrutura de
minimização de energia iterativa, levando a segmentação binária do objeto saliente. Essa
minimização de energia é inicializada com um mapa de saliência que é computado através
de análise de contexto baseada em superpixels de várias escalas. A forma do nível do
objeto anterior é então extraída combinando a saliência com a informação do limite do
objeto. O mapa de saliência é a atualização prévia de forma após cada iteração. Os
resultados experimentais em dois conjuntos de dados públicos de referência mostram que
a abordagem proposta no geral é bem eficiente em custos computacionais e operacionais.
Figura 1: Visão geral do algoritmo de segmentação de objeto saliente proposto. Imagens de entrada
(esquerda), a análise de contexto local pode produzir mapa de saliência de resolução total (meio
esquerdo). Em seguida, extraímos a forma anterior (meio direito) com base no mapa de saliência. A
minimização de energia iterativa com base no mapa de saliência e forma anterior é empregada, liderando
para segmentação binária precisa das imagens de entrada (direita).
Metodologia Experimental
O que é saliência
Saliência é um atributo de uma região de uma imagem. O atributo de chamar para si a
atenção humana de forma reativa. Quando falamos em mapa de saliência nos referimos a
um mapeamento que atribui uma importância relativa em cada pixel de uma imagem, que
idealmente se agrupa em uma região ou objeto mais importante. Neste sentido, a definição
de detecção de saliência aproxima-se daquela de segmentação binária clássica: objeto
mais saliente versus fundo da imagem.
Mapa de saliência
Mapa de saliência é um mapeamento da importância relativa de cada pixel em uma
imagem. Em termos matemáticos, dada uma imagem bidimensional I(x, y) como uma
foto, um desenho, etc. Um mapa de saliência é a função f (I(x, y)) que calcula a
importância relativa de cada pixel da imagem. Onde (x, y) corresponde a cada pixel da
imagem dada I e f corresponde à importância relativa daquele pixel na imagem. Mapas
de saliência são inspirados no comportamento do cérebro humano que possui um sistema
de atenção visual que seleciona ou filtra de forma pré-consciente as áreas mais
importantes de uma imagem para fixar o olhar humano. Em outras palavras, sabe-se dos
estudos de atenção visual humana que de certa forma o cérebro humano seleciona regiões
de uma imagem para fixar o olhar (DRIVER, 2001). Esta escolha humana tem dois modos
de funcionamento, o modo bottom-up e o modo top-down. No modo bottom-up a atenção
humana é despertada pela imagem de forma passiva por algo que é diferente do resto da
imagem, como uma cor, uma intensidade, uma orientação. Uma flor vermelha em um
gramado totalmente verde vai chamar a atenção naturalmente do sistema visual humano,
enquanto grande parte do gramado vai passar desapercebida. Nestes casos, o mapa de
saliência deverá assinalar um valor alto de importância para a região do centro e em volta
da flor, enquanto outros pontos do gramado passariam totalmente despercebidos. No
campo da visão computacional, grande esforço tem sido feito na criação de algoritmos
que imitem este comportamento da atenção visual humana (BORJI et al., 2014).
O outro modo de atenção humana é o top-down, onde existe uma procura por algo já
conhecido na imagem, uma palavra em um texto, pessoas ao atravessar uma rua, etc. O
modo top-down é mais complexo de modelar e a maior parte dos trabalhos até hoje está
focada no modo bottom-up que sempre será importante na localização de regiões o objetos
importantes da imagem (BORJI et al., 2014). A separação entre o que é modo top-down
e o que é modo bottom-up não é clara, por exemplo Judd (2011) demonstra em
experimentos de fixação visual que as pessoas sempre são atraídas pelos olhos em uma
imagem, seja estes olhos, de uma pessoa, de animais, de seres inanimados, e mesmo em
situações em que a face está escondida, como um animal com a cabeça coberta, o olhar
humano vai se fixar na região onde os olhos devem estar. Assim, humanos reagem de
forma aparentemente bottom up à região dos olhos, mas procurar os olhos é claramente
um comportamento top-down segundo Judd (2011), fato que ilustra o caráter misto da
classificação dos modos de atenção visual humana em top-down e bottom-up.
Agora vamos à prática, primeiro apresentamos três características do objeto saliente. De
acordo com essas características, calculamos o mapa de saliência e a forma de nível de
objeto anterior. Nessa abordagem incorporamos informações em forma de nível de objeto
para definir melhor um objeto saliente.
Com base na observação, apresentamos três características para definir um objeto
saliente:
1. O objeto saliente é sempre diferente do seu contexto circundante.
2. O objeto saliente em uma imagem provavelmente é colocado perto do centro da
imagem.
3. Um objeto saliente tem um limite fechado bem definido.
A primeira característica, baseada em estímulos salientes de baixo para cima, tem sido
amplamente estudada. Depois definimos a prioridade de localização dos objetos,
conhecida como “Regra de Terceiros”. A regra indica que para atrair a atenção das
pessoas, o objeto de interesse ou elemento principal em uma fotografia deve estar em uma
das quatro interseções para aproximar a "razão de ouro" (cerca de 0,618). E por último
categorizar os objetos, como um conhecimento genérico de um objeto proposto. Essa
restrição será incorporada na estrutura de minimização de energia para melhorar o
desempenho da segmentação de objeto saliente proposto.
Nossa saliência é definida com base nos superpixels, que são gerados pela fragmentação
da imagem. Um benefício para definir a saliência na região está relacionado à eficiência.
Nas etapas anteriores redimensiona-se a imagem original para um tamanho menor, a fim
de aliviar o gasto de recurso computacional. Uma vez que o número de superpixels em
uma imagem é muito menor do que o número de pixels, a saliência de computação no
nível da região pode reduzir significativamente o gasto de recursos. Assim, podemos
produzir um mapa de saliência de resolução total.
Figura 2: Comparação visual de mapas de saliência. Na última imagem (a direita) se obtém o resultado
esperado pelo algoritmo no método final
Figura 3: Comparação quantitativa de diferentes métodos em dois conjuntos de dados de referência. (a)
comparação do mapa de saliência no conjunto de dados, (b) comparação da segmentação de objeto
saliente no conjunto de dados, (c) comparação da segmentação de objeto saliente (com base na caixa
delimitadora) no conjunto de dados.
Resultados experimentais
Realizamos experimentos em dois conjuntos de dados. O primeiro é fornecido por
Achanta et al. em [1] que contém 1000 imagens, juntamente com a verdade terrestre para
cada imagem na forma de máscaras precisas marcadas por humanos para o objeto saliente.
E o segundo é o conjunto de dados MSRA B fornecido por Liu et al. em [18], que contém
5000 imagens, juntamente com a anotação da caixa delimitadora do objeto saliente para
cada imagem. Embora seja um subconjunto do segundo conjunto de dados, o primeiro
conjunto de dados possui uma anotação mais precisa. Nove anotações de usuário para
cada imagem no segundo conjunto de dados são fornecidas, no entanto, tornando-o mais
objetivo para comparação.
Para suavizar os superpixels computados, primeiro fundimos as regiões vizinhas cuja cor
d é inferior a 0,2. Para construir o mapa de borda, usamos o detector de borda Pb e o
pacote de aproximação de linha fornecido por Kovesi [15]. Removemos todas as arestas
com um comprimento inferior a 10 pixels e configuramos o desvio máximo permitido
entre uma borda e seu segmento de linha ajustado para 2 pixels.
Nossa abordagem proposta é comparada com cinco métodos de detecção de saliência de
última geração, incluindo TI [13], SR [12], FT [1], CA [11] e RC [7]. A TI é uma
abordagem clássica que alavanca um modelo neuromórfico que simula quais elementos
são susceptíveis de atrair a atenção visual. SR e FT trabalham em domínio de freqüência
para encontrar as anomalias de uma imagem. A CA é um método recentemente proposto
que integra informações de contexto no mapa de saliência final. E RC é a abordagem mais
relacionada ao nosso, que calcula a saliência com base no contraste global de uma região
w.r.t. todas as outras regiões em uma imagem em uma única escala superpixel.
Dois experimentos são conduzidos para avaliar de forma abrangente o desempenho de
nossa abordagem para segmentação de objeto saliente. No primeiro experimento,
comparamos mapas de saliência produzidos com diferentes métodos, uma vez que o mapa
de saliência pode ser usado em muitas aplicações, por exemplo, colagem de imagens [27],
retargação de imagem [3]. No segundo experimento, comparamos os resultados salientes
da segmentação do objeto de diferentes métodos. E fornecemos comparações para
mostrar a eficácia de nossa forma de nível de objeto anterior.
Figura 4: Comparação visual da segmentação saliente do objeto usando diferentes métodos. (b)-(f) são os
resultados de IT, SR, FT, CA e RC respectivamente. (g) é o resultado de CB, que considera nosso mapa
de saliência baseado em contexto. E (h) é o resultado da CBS, nossa abordagem proposta, que combina a
base do contexto e a forma do nível do objeto anterior.
Conclusão
O mapa de saliência é calculado com base em superpixels de várias escalas, o que prova
melhorar significativamente a saliência, através da análise de contexto. E a forma do nível
do objeto anterior é extraída combinando a saliência com a informação do limite do
objeto. Em seguida, integramos ambos em uma estrutura de minimização de energia
iterativa, levando a segmentação binária do objeto saliente, onde a forma anterior encoraja
o limite de segmentação a ser alinhado com o contorno saliente. A principal diferença
entre nossa abordagem e outros trabalhos utilizados na pesquisa é que consideramos esse
nível de objeto antes para definir melhor um objeto saliente. Os resultados experimentais
em dois conjuntos de dados de referência mostram que nossa abordagem pode alcançar
ótimos resultados finais a um custo baixo de processamento.
Referencias
Detecção de região saliente em imagens usando dissimilaridade de cor e amostragem
por pixels aleatórios, disponível em:
<http://repositorio.utfpr.edu.br/jspui/bitstream/1/1690/1/CT_CPGEI_M_Paula%2C%20
Nelson%20Garcia%20de_2015.pdf>
Automatic Salient Object Segmentation Based on Context and Shape Prior:
<https://people.cs.umass.edu/~hzjiang/pubs/saliency_cbs_bmvc2011.pdf>
Image Descriptors / Features and Saliency Maps
<https://www.mathworks.com/matlabcentral/fileexchange/28344-image-descriptors---
features-and-saliency-maps?focused=5156797&tab=function>
[1] R. Achanta, S. Hemami, F. Estrada, and S. Susstrunk. Frequency-tuned salient
region detection. IEEE CVPR, 0:1597–1604, 2009
[2] Bogdan Alexe, Thomas Deselaers, and Vittorio Ferrari. What is an object? In
CVPR, pages 73–80, 2010.
[3] Shai Avidan and Ariel Shamir. Seam carving for content-aware image resizing.
volume 26, 2007.
[4] Subhabrata Bhattacharya, Rahul Sukthankar, and Mubarak Shah. A framework
for photo-quality assessment and enhancement based on visual aesthetics. In ACM
Multimedia, pages 271–280, 2010.
[5] Yuri Boykov and Marie-Pierre Jolly. Interactive graph cuts for optimal boundary
and region segmentation of objects in n-d images. In ICCV, pages 105–112, 2001.
[6] Yuri Boykov and Vladimir Kolmogorov. An experimental comparison of min-
cut/max flow algorithms for energy minimization in vision. IEEE Trans. Pattern Anal.
Mach. Intell., 26:1124–1137, September 2004. ISSN 0162-8828.
[7] Ming-Ming Cheng, Guo-Xin Zhang, Niloy J. Mitra, Xiaolei Huang, and Shi-Min
Hu. Global contrast based salient region detection. In IEEE CVPR, pages 409–416,
2011.
[8] Ritendra Datta, Dhiraj Joshi, Jia Li, and James Ze Wang. Studying aesthetics in
photographic images using a computational approach. In ECCV (3), pages 288–301,
2006.
[9] Pedro F. Felzenszwalb and Daniel P. Huttenlocher. Efficient graph-based image
segmentation. International Journal of Computer Vision, 59(2):167–181, 2004.
[10] P.F. Felzenszwalb and D.P. Huttenlocher. Distance transforms of sampled
functions. In Cornell Computing and Information Science TR2004-1963, 2004.
[11] Stas Goferman, Lihi Zelnik-Manor, and Ayellet Tal. Context-aware saliency
detection. In CVPR, pages 2376–2383. IEEE, 2010.
[12] Xiaodi Hou and Liqing Zhang. Saliency detection: A spectral residual approach.
In CVPR, 2007.
[13] Laurent Itti, Christof Koch, and Ernst Niebur. A model of saliency-based visual
attention for rapid scene analysis. IEEE Trans. P.A.M.I., 20(11):1254–1259, 1998.
[14] Vladimir Kolmogorov and Ramin Zabih. What energy functions can be minimized
via graph cuts? IEEE Trans. Pattern Anal. Mach. Intell., 26(2):147–159, 2004.
[15] P. D. Kovesi. MATLAB and Octave functions for computer vision and
image processing. Centre for Exploration Targeting, School of Earth and
Environment, The University of Western Australia.
Available from: <http://www.csse.uwa.edu.au/∼pk/research/matlabfns/>.
[16] Yin Li, Jian Sun, Chi-Keung Tang, and Heung-Yeung Shum. Lazy snapping.
ACM Trans. Graph., 23(3):303–308, 2004.
[17] Feng Liu and Michael Gleicher. Region enhanced scale-invariant saliency
detection. In ICME, pages 1477–1480, 2006.
[18] Tie Liu, Jian Sun, Nan-Ning Zheng, Xiaoou Tang, and Heung-Yeung Shum.
Learning to detect a salient object. CVPR, 0:1–8, 2007.
[19] Tie Liu, Zejian Yuan, Jian Sun, Jingdong Wang, Nanning Zheng, Xiaoou Tang, and
Heung-Yeung Shum. Learning to detect a salient object. IEEE Trans. Pattern Anal.
Mach. Intell., 33(2):353–367, 2011.
[20] Yiwen Luo and Xiaoou Tang. Photo and video quality evaluation: Focusing on
the subject. In ECCV (3), pages 386–399, 2008.
[21] David R. Martin, Charless C. Fowlkes, and Jitendra Malik. Learning to detect
natural image boundaries using local brightness, color, and texture cues. PAMI, 26:530–
549, 2004.
[22] Carsten Rother, Vladimir Kolmogorov, and Andrew Blake. Grabcut – interactive
foreground extraction using iterated graph cuts. ACM Transactions on Graphics, 23:309–
314, 2004.