Vous êtes sur la page 1sur 10

Sistema para Classificao e Recuperao de Contedo Multimdia Baseado no Padro MPEG-7

Marco Tlio Chella Universidade Estadual de Campinas (UNICAMP) Caixa Postal 6101 13083-970 Campinas SP Brasil
chella@demic.fee.unicamp.br

Abstract. The development of tools for digitalization of contents multimedia and the communication nets with high-speed, it has been create a great volume of contents multimedia in the form of digital files of video, audio and images that are produced and made available in the Internet. With the increase of available files and the easy access the problem is the difficulty to identify and to manage a volume every time larger of that content. In this work is presented in a brief way the pattern MPEG-7, this several tools for the description of contents multimedia and the development of a system for indexation and recovery of information of digital video files. Resumo. O desenvolvimento de ferramentas para digitalizao de contedos multimdia e as redes de comunicao com alta velocidade, tem propiciado meios para que um grande volume de contedos multimdia na forma de arquivos digitais de vdeo, udio e imagens sejam produzidos e disponibilizados na rede Internet. Com o aumento de arquivos disponibilizados e a facilidade de acesso o problema que se apresenta a dificuldade de identificar e gerenciar um volume cada vez maior desse contedo. Neste trabalho apresentado de forma sucinta o padro MPEG-7, suas diversas ferramentas para a descrio de contedos multimdia e o desenvolvimento de um sistema para indexao e recuperao de informaes de arquivos de vdeo digital. Palavras chave: multimdia, gerenciamento, arquivos, digital

Introduo
O desenvolvimento de ferramentas para criao e digitalizao de contedos multimdia e as redes de comunicao com alta velocidade, tem propiciado meios para que um grande volume de contedos multimdia na forma de arquivos digitais de vdeo, udio e imagens sejam produzidos e disponibilizados na rede Internet. Com o aumento de arquivos disponibilizados e a facilidade de acesso o problema que se apresenta a dificuldade de identificar e gerenciar um volume cada vez maior destes arquivos que somente se tornaro de fato informaes teis caso possam ser identificados, acessados, recuperados, filtrados e gerenciados de forma adequada. Neste trabalho apresentado de forma sucinta o padro MPEG-7, suas diversas ferramentas para a descrio de contedos multimdia e o desenvolvimento de um sistema para indexao e recuperao de informaes de arquivos de vdeo digital. O desenvolvimento do sistema abrange os nveis superiores de abstrao onde o usurio ir descrever o contexto (autor, categoria, titulo) e contedo (por exemplo: na cena X, o personagem A conversou com o personagem B). Para efeitos de navegao sero inseridas marcas para que o usurio que est recuperando as informaes possa se posicionar na cena do vdeo a partir da descrio de contedo e visualizar as anotaes textuais inseridas na classificao. Este trabalho apresenta um sistema de aplicativos com recursos para edio, recuperao de informaes de vdeos digitais e navegao por cenas que anteriormente foram anotadas pelo usurio criador/classificador do contedo.

Fundamentao
Os Sistemas Gerenciadores de Banco de Dados tradicionais baseados no modelo relacional normalmente operam no domnio de caracteres e nmeros atuando de forma eficiente para consultas com palavras chave. E stratgias como o modelo binrio no qual se verifica ou no a existncia da palavra chave ou o modelo vetorial no qual para cada documento atribudo um peso relacionado a sua relevncia, tem atendido de forma satisfatria a recuperao de dados com contedos textuais e numricos. Contudo esses sistemas de banco de dados no oferecem facilidades para gerenciamento e recuperao de contedos multimdia. Um sistema para recuperao de contedos multimdia sistemas deve ser capaz de: o Estabelecer relaes espaciais: a posio dos elementos de interesse dentro do contedo. o Estabelecer relaes temporais: observa a ocorrncia de eventos dentro de um perodo de tempo. o Efetuar reconhecimento/interpretao: j que a representao de uma imagem ou vdeo pode ser diferente do contedo percebido [Yoshitaka e Ichikawa, 1999]. o Possibilitar consultas por meio de representaes. Para atender a essas necessidades trabalhos como o MDBMS (Reiss, 2002) prope a utilizao de processamento de linguagem natural associada a interfaces grficas adotando a estratgia conhecida como consulta por exemplo (Query By Example - QBE). Outra abordagem so os sistemas baseados em regras como o

apresentado por [Gandhi, 1995] no qual o contedo multimdia segmentado em trilhas que recebem um conjunto de condies que seguem o formalismo algbrico. O sistema Webssql [Zhang at al., 2000] uma ferramenta com as caractersticas do SQL, mas incorporando o conceito de similaridade nas consultas. Consultas realizadas na Web retornam documentos com resultados prximos ao que foi determinado consulta. Abstraindo o conceito de ndices semelhantes ao utilizados em livros tcnicos o TOCAI [Adami at al., 1999] prope um navegador multimdia com recursos para anlise e indexao de contedo udio-visual. A implementao segue os padres propostos pelo MPEG-7 que ser descrito a seguir e ser a base para desenvolvimento do trabalho proposto. A partir de 1996 iniciou-se a definio do MPEG-7, um padro ISO/IEC desenvolvido pelo MPEG(Moving Picture Experts Group), o mesmo comit que desenvolveu os padres MPEG-1 (1992), o MPEG-2(1994) e o MPEG-4 (1998/1999) . Os padres MPEG-1 e MPEG-2 propiciaram o desenvolvimento de produtos como o Vdeo CD, MP3, vrios servios para distribuio de contedo multimdia s ob demanda, entre outros. O MPEG-4 padroniza os recursos tecnolgicos que habilitam a integrao da produo, distribuio e acesso ao contedo no mbito de multimdia interativa, multimdia em equipamentos mveis, grficos interativos e televiso digital. O padro MPEG-7 pode ser definido como uma interface para descrio de contedos multimdia (Multimedia Content Description Interface) disponibilizando um conjunto de ferramentas para a descrio de contedo multimdia. Tanto sistemas que atuam com usurios humanos como os automatizados por meio de processamento computacional esto no escopo do padro MPEG-7. O MPEG-7 dispe de um conjunto de ferramentas de descrio (Description Tools), representados por elementos com metadados, e suas estruturas e relacionamentos, que so definidos na forma de descritores ( Descriptors) e esquemas de descrio (Description Schemes) para criar descries que sero utilizadas por ferramentas com funes para pesquisar, filtrar e navegar de forma eficiente em contedos multimdia. As descries desenvolvidas com as Description Tools no so dependentes de como o contedo est codificado ou armazenado. possvel criar descries de um vdeo analgico, de uma foto, ou um arquivo multimdia digital como som ou vdeo. Como as descries so significativas de acordo com o contexto da aplicao, elas sero diferentes em funo do domnio do usurio e da aplicao. Tomando como exemplo o contedo de um arquivo de vdeo: considera-se um nvel de baixa abstrao a descrio, da forma, tamanho, textura, cor, movimento; e para um arquivo de udio: posio do som no espao, timbre, pausas. Um nvel superior de descrio pode ser representado de forma semntica: por exemplo "nesta cena o personagem X conversa com o personagem Y no local A". O nvel de abstrao est relacionado no modo como as caractersticas so extradas. Caractersticas com baixo nvel de abstrao so extradas de forma automtica por meio de processamento computacional, enquanto caractersticas com alto nvel de abstrao utilizam interao humana.

Como o propsito do padro MPEG-7 definir um conjunto de mtodos e ferramentas que permita o acesso pelas mais variadas aplicaes nos mais diversos ambientes, existe a necessidade de se utilizar um modelo flexvel e com possibilidades de extenses. A tecnologia que atende este requisito o XML que foi utilizado como linguagem para representao textual da descrio de contedo. O XML Schema a base para o DDL ( Description Definition Language), usada para a definio sinttica das ferramentas de descrio (Descriptions Tools). Os trs elementos principais do padro MPEG-7 so: Description Tools, que definem a sintaxe e semntica de cada caracterstica (elemento de metadados); e Description Schemes (DS) que especifica a estrutura e semntica dos relacionamentos entre os componentes. Os DS so estruturados na forma de metadados no formato XML em conformidade com as especificaes da DDL. O conjunto de DS denominado no padro MPEG-7 de Multimedia Description Schemes (MDS). As Description Tools permitem criar descries do contedo com informaes sobre: o Criao e processo de produo do contedo (diretor, ttulo, resumo). o Utilizao do contedo (direito autoral, histrico de utilizao, agendamento da transmisso). o Estrutura da informao nos aspectos espacial, temporal ou espao temporal (cortes na cena, segmentao em regies, movimentos de elementos na cena). o Contedo de baixo nvel (cores, texturas, timbres de sons, descrio da melodia). o Conceitos da realidade capturada (objetos e eventos, interaes entre objetos). o Como navegar pelo contedo de forma eficiente (sumrios e variaes). o Colees de objetos. o Interao do usurio com o contedo (preferncias do usurio, histrico de uso). o Formato: indica o tipo de codificao utilizado para o arquivo (ex. JPEG, AVI). Esta informao auxilia na determinao de como o material ser apresentado pelo terminal do usurio. o Condies para acesso ao material: o que inclui links para registros com informaes sobre propriedade intelectual, direito-autoral e preo. o Classificao: qualifica o contedo em categorias pr-definidas. o Links para outros materiais considerados relevantes: est informao pode oferecer outros recursos relacionados ao tema pesquisado o Contexto: No caso de material no ficcional, importante se reconhecer a data da gravao. A descrio gerada usando as Description Tools so associadas com o prprio contedo, a fim de permitir que a busca e filtragem do contedo de interesse do usurio seja rpida e eficiente. A associao pode ocorrer com a descrio fazendo parte do arquivo de dados multimdia, ou como arquivo independente.Quando o contedo e as descries no estiverem localizados no mesmo sistema, so necessrios mecanismos que estabeleam links entre eles.

Description Definition Language (DDL) define a sintaxe das Description Tools e permite a criao de novos DS, permitindo a modificao dos DS existentes. A DDL baseada no XML Schema. Em razo do XML Schema no ter sido designado especificamente para descrio de contedos audiovisuais, foram adicionadas algumas extenses. Deste modo a DDL ficou dividida nos seguintes componentes: o O XML Schema estrutura da linguagem o O XML Schema definio dos tipos de dados o Extenses especficas para o padro MPEG-7 Ferramentas do Sistema, para suportar representao codificada no formato binrio com o objetivo de melhorar a eficincia na armazenagem e transmisso, multiplexao das descries, sincronizao de descrio com contedo, e proteo da propriedade intelectual.

Desenvolvimento do sistema
Este trabalho demonstra o desenvolvimento de um aplicativo para classificao e recuperao de informaes em arquivos de vdeo digitais. Este aplicativo est dotado de recursos para a edio de segmentos temporais entendendo-se como segmento uma seqncia correspondente a um grupo de quadros sincronizados no tempo. Para cada segmento podero ser inseridas anotaes de textos livres e a criao de relaes semnticas por meio de elementos que representam o sujeito, o predicado e o objeto contidos no segmento em conformidade com o padro MPEG-7. O mdulo para edio dispe de recursos para carregar e exibir vdeos em uma janela dotada de controles comuns maioria dos tocadores de mdia digital. Alm desses controles existem dois outros controles especficos com a funo de criar marcaes que indicaro o incio e o fim de um segmento. Depois de criar essas marcaes o usurio dever preencher os campos para anotao de texto livre e dos elementos sujeito, predicado e objeto. O mdulo de navegao com interface grfica intuitiva implementado para que aps a criao dos segmentos com suas respectivas anotaes o usurio possa assistir o contedo do segmento e visualizar as informaes textuais associadas a ele. Uma caracterstica planejada para o sistema que as informaes geradas a partir da segmentao dos vdeos e as anotaes textuais possam ser compartilhadas por diferentes plataformas e ambientes computacionais. Para que isto ocorra preciso adotar uma tecnologia de representao de informao que seja utilizada e reconhecida de forma ampla. Neste sentido o padro MPEG-7 utiliza para armazenamento e organizao das informaes geradas o XML, uma tecnologia para representao e troca de dados utilizada e suportada por grande parte da industria de software. Para o desenvolvimento do sistema sero utilizadas as Description Tools do MPEG-7 que representam a estrutura do contedo multimdia de forma espacial e temporal descrevendo de forma geral e especifica para aplicaes, segmentos multimdia associados com seus respectivos atributos, hierarquias e relaes.

Implementao
O sistema constitudo de trs elementos bsicos:

Mdulo XML/MPEG-7, responsvel pela criao, edio, navegao, gravao e carregamento do arquivo XML com o padro MPEG-7. Mdulo de vdeo, para carga, visualizao e navegao no vdeo no qual sero marcados os segmentos. Interface grfica, na qual o usurio ir criar, editar e navegar nos vdeos e anotaes. O documento XML tem a estrutura apresentada na Figura 1 e utiliza os descritores MPEG7 para anotao de texto livre, anotao estruturada, marcao de segmento de vdeo e descrio de autoria.
MPEG7 DescriptionMetadata Creator CreationTime VideoSegment TextAnnotation FreeTextAnnotation

StructuredAnnotation
Who WhatObject Name Name Name Name

WhatAction MediaTime
MediaTimePoint MediaDuration

Figura 1: Estrutura do Documento XML

Como ferramenta para implementao foi empregado o Microsoft Visual Studio Verso 6.0 e o sistema operacional Windows 2000. No mdulo XML/MPEG-7 foi utilizado o modelo DOM, ou Document Object Model uma especificao para programao de interface, desenvolvida pelo World Wide Web Consortium (W3C). O DOM define interfaces que possibilitam ao programador navegar em documentos XML e manipular seu contedo e estrutura.

O modelo DOM permite que as aplicaes trabalhem com as estruturas e informaes do documento XML como estruturas de programa ao invs de cadeias de caracteres. Os parsers baseados no DOM carregam o documento como uma rvore hierrquica. Os ns da arvore representam o contedo e estrutura. As interfaces de programao possibilitam a aplicao acessar a arvore e manipular os ns. A instalao bsica do Windows 2000 disponibiliza a DLL MSXML que implementa o modelo DOM, com os recursos desta DLL possvel carregar ou criar um documento, acessar e manipular a informao e estrutura contida neste documento; e salvar em um arquivo XML. Na implementao a partir da instanciao da MSXML como objeto sero utilizados os mtodos, propriedades e eventos associados a ela para prover a manipulao dos arquivos XML. O mdulo de vdeo ser implementado com o objeto MediaPlayer, sero utilizados os recursos para carregar, posicionamento temporal do contedo e exibio do vdeo. A interface grfica ser constituda de um formulrio com um conjunto de botes e caixas de texto e exibio de vdeo por meio da qual o usurio poder selecionar o vdeo a ser anotado, criar e editar descries e navegar nas descries criadas. A seguir so descritos os mdulos funcionais que foram implementados e integrados para constituir o sistema: Criar nova descrio: permite abrir arquivo de vdeo no formato AVI e MPEG, aps abrir arquivo cria um documento XML no qual posteriormente sero inseridas as anotaes. Criar e editar descrio: O usurio deve informar a data da criao e o autor que sero inseridos no documento XML Criar e editar Segmentos: neste mdulo o usurio poder criar ou editar um segmento, inserindo informaes como texto livre, o objeto, sujeito e ao do segmento, marcar os pontos inicial e final do segmento. Carregar e navegar nos Segmentos: ao acessar este mdulo o usurio poder abrir o arquivo XML com a descrio. Uma caixa de lista de itens ser carregada com a identificao de todos os segmentos. Para navegar o usurio dever selecionar na caixa de lista que carregar o segmento exibindo o contedo textual e o posicionando o vdeo nos ponto marcado como posio inicial do segmento. Os recursos descritos nos mdulos funcionais esto integrados em uma interface grfica acessvel ao usurio. Na Figura 2 apresentada a tela onde se pode carregar um arquivo de vdeo, criar e iniciar o processo de criao da descrio.

Figura 2: Tela para carga de vdeo e criao de descrio

A Figura 3 apresenta a tela na qual so realizadas as anotaes e inseridos as marcaes que indicam o inicio e fim do segmento anotado.

Figura 3: Tela para criar e anotar segmentos

A interface grfica para navegao apresentada na Figura 4, nela possvel selecionar o segmento desejado na lista de itens e visualizar o segmento de vdeo e as anotaes textuais.

Figura 4: Tela para navegao nos segmentos de vdeo

Concluso Neste trabalho foram estudadas algumas estratgias para recuperao e classificao de informaes em arquivos multimdia. Entre as tecnologias estudadas o padro MPEG-7 foi adotado como base para o desenvolvimento do sistema que possibilita que arquivos de vdeo possam ser demarcados em segmentos e anotados com texto livre e texto estruturado. Os vrios segmentos podem ser gravados e uma interface grfica habilita a navegao com a visualizao das anotaes e do segmento do vdeo. No sistema desenvolvido neste trabalho as informaes relacionadas aos descritores so geradas em XML em conformidade com o padro MPEG-7, deste modo aplicaes desenvolvidas nas mais diversas plataformas podem utilizar e acessar esses arquivos, favorecendo o intercmbio de informaes. A facilidade de troca de informaes entre aplicaes propiciar meios para que sistemas de busca, pesquisa e classificao entre outros, possam ser desenvolvidos de forma independente. Referncias Adami N.,Bugatti A.,Corghi A., Leonardi R.,Migliorati P.,Rossi L. A. e Saraceno C. (1999) ToCAI: A Framework for Indexing and Retrieval of Multimedia Documents In: 10th International Conference on Image Analysis and Processing, Venice, Italy Gandhi M., Robertson E.L., Gucht D. V. (1995) Modeling and Querying Primitives for Digital Media. In International Workshop on Multi-Media Database Management Systems, http://dlib.computer.org/conferen/iw-mmdbms/7168/pdf/71680082.pdf. Acesso em: 02/04/2003 Reiss, S.P. (2002) A Visual Query Language for Software Visualization In IEEE 2002 Symposia on Human Centric Computing Languages and Environments http://dlib.computer.org/conferen/hcc/1644/pdf/16440080.pdf. Acesso em: 25/04/2003

Yoshitaka A., Ichikawa T. (1999) A Survey on Content-Based Retrieval for Multimedia Databases In IEEE Transactions on Knowledge e Data Engineering, http://dlib.computer.org/tk/books/tk1999/pdf/k0081.pdf. Acesso em: 01/05/2003 Zhang C., Meng W., Wu Z., Zhang Z. (2000) WebSSQL A Query Language for Multimedia Web Documents In IEEE Advances in Digital Libraries, http://dlib.computer.org/conferen/adl/0659/pdf/06590058.pdf. Acesso em 25/04/2003

Vous aimerez peut-être aussi