Vous êtes sur la page 1sur 10

Utilizao de um Prottipo para Gerenciamento de

Documentos Digitalizados
Henry Wesley Furtado de Andrade Sousa, Magno Alves
Departamento de Informtica e Estatstica Universidade Federal do Piau (UFPI)
Campus Universitrio Ministro Petrnio Portela Teresina PI Brazil
Henry.wesley@gmail.com, magno.asantos@gmail.com

Abstract. We live in a digital world where increasingly there is a need for


automation of business activities, so that the scan data in organizations has
fundamental importance for the registration and retrieval of information. With
this comes the need to develop tools that can convert data from printed record
digital information to be retrieved later efficiently for decision making. This
work describes a prototype for scanning, classification and management of
documents. The tool developed combines the technology of DCM (Document
Content Management) with OCR (Optical Character Recognition).
Keywords: Paperless, DCM, OCR, document management, scanning.
Resumo. Vivemos em um mundo digital onde cada vez mais existe a
necessidade de automao das atividades empresariais, para isso a
digitalizao de dados nas organizaes tem fundamental importncia, para o
registro e recuperao de informao. Com isso surge a necessidade de
desenvolver ferramentas que consegue converter dados de registro impresso
em informaes digital para depois ser recuperada de forma eficiente para
tomada de deciso. Este trabalho descreve um prottipo para digitalizao,
classificao e gesto de documentos. A ferramenta desenvolvida combina a
tecnologia de DCM (Document Content Management) com OCR (Optical
Character Recognition).
Palavras-chave: Paperless, DCM, OCR, gesto de documentos, digitalizao.

1. Introduo
Atualmente alguns processos ainda dependem fortemente da utilizao do
suporte em papel apesar de j existir, em alguns casos, uma transio inicial para o
suporte digital.
Vivemos em um mundo digital em que existe uma tendncia de eliminar o papel
de seus processos, ou como podemos observar em algumas iniciativas como Google
Books, Kindle, o iPad, Nota Fiscal Eletrnica, DDA e SPED isso j uma realidade.
Essa tendncia conhecida como paperless que nasceu dos inmeros problemas que o

papel traz para o desenvolvimento da sociedade, alm de ser um gasto desnecessrio de


recursos, que agridem a natureza.
A informatizao de processos est facilitando essa mudana da era do papel
para a era do mundo sem papel, e a digitalizao de documentos tem um papel
importante nessa mudana, devido ao fato de proporciona uma forma mais limpa, barata
e de fcil implantao e aceitao nas empresas, facilitando o acesso imediato s
informaes.
Segundo Schellenberg (2006) o homem produz documentos, como resultado da
execuo de um trabalho, o que hoje facilmente comprovado na maioria das
atividades realizadas em uma organizao. Pesquisas apontam que:

Cada documento impresso em mdia 19 vezes, o que gera mais de 18 bilhes


de cpias desnecessrias por ms;

Os profissionais passam 15% do seu tempo lendo documentos, porm, gastam


mais de 50% do tempo buscando-os;

De cada 10 pginas impressas somente 1 consultada;

Desperdia em mdia, R$ 32,00 por dia procurando cada documento arquivado


de forma errada;

Perde 01 em cada 20 documentos;

Gasta 400 horas por ano procurando documentos perdidos;

Consome 12% a 15% de renda da empresa.

Com a evoluo da sociedade, cada vez mais digital, torna-se necessrio


aprender a armazenar documentos eletrnicos, assim como o que fazer com os
documentos em papel. um aprendizado necessrio na sociedade produtiva e de
consumo.
De acordo com o Dirio do Comrcio, peridico da Associao Comercial de
So Paulo existe companhias de gerenciamento que esto criando servios a custos
atrativos para as pequenas e mdias empresas. A locao de espao para uma caixa de
documentos de 20 quilos custa, em mdia, R$ 0,92 por ms e para uma de 10 quilos, R$
0,52. O servio de movimentao de caixa, cerca de R$ 0,87 mensais, e o transporte, a
partir de R$ 40. Com isso percebe-se o alto custo financeiro que uma determinada
organizao tem ao estocar documentos fsicos.

Como uma forma de auxiliar o gerenciamento de documentos e somar os


benefcios desse processo, este projeto descreve um prottipo para a gesto eletrnica
de documentos para minimizar os problemas provenientes do gerenciamento de
documentos impresso, tais como:

Grande volume de documentos impressos;

Grande risco de deteriorao e perda, de pragas e incndios;

Dificuldade de manter disponveis e acessveis os registros

Dificuldade de transportar;

Ocupao fsica local comprometida, como poeira e organismos contaminantes;

Dificuldade na gesto de documentos (catalogao, armazenamento e

armazenados;

recuperao);

Fonte no durvel sujeito a intempries e degradao natural de celulose;

Meio ambiente denegrido com retiradas de arvores e poluio do meio ambiente


com os componentes qumicos dos corantes artificiais.

2. Referencial Terico

OCR (Optical Character Recognition), uma tecnologia de reconhecimento de


caracteres a partir de um arquivo de imagem, seja ele escritos a mo, datilografados ou
impressos, usando algoritmos de computao automatizados. Dessa forma, atravs desta
tecnologia, possvel obter um arquivo de texto evitvel por um computador.
Os alicerces do OCR remetem a perodos distantes na histria. Segue abaixo, em
formato cronolgico, os tpicos referentes a cada ponto da histria onde se teve algum
processo de evoluo desta tecnologia:

Em 1870, C. R. Carey patenteou um sistema de transmisso de imagem (um


scanner de retina) usando um mosaico de fotoclulas e, em 1890, P.G. Nipkow
inventou o scanner sequencial, aonde uma imagem era analisada linha a linha
[MERESHA, 2008].

Em 1929, Gustav Tauschek obtinha a patente de sua Maquina de Leitura


[TAUSCHEK, 1935].

Em 1933, Handel tambm registra uma patente de tecnologia de OCR ao


apresentar sua Mquina Estatstica [HANDEL, 1933].

Com o nome de ERA (Electric Reading Automaton), em 1957, a Solatron


Electronics Group Ltd. anunciou o primeiro sistema de OCR baseado na tcnica
de peephole (mtodo para identificao de padres, no qual se baseia na
escolha dos valores de pixels e o confrontamento com os padres de letras j
armazenados pelo sistema).

Em 1965, as pesquisas na rea da padronizao j estava em plena ascenso e


muito difundida. Em 1966, um estudo americano aprofundado padronizou os
requisitos para OCR. Estava definido o "OCR-A". Pouco tempo depois, o padro
europeu "OCR-B" havia surgido. Houve vrias tentativas para se combinar os
dois, porm foram surgindo mquinas cada vez mais potentes e que conseguiram
analisar, separadamente, os dois tipos de padres de caracteres.

Em meados dos anos 1970, o desenvolvimento dos sistemas de OCR passaram a


focar o problema com documentos de m qualidade e grandes conjuntos de
caracteres impressos e escritos mo, como os caracteres chineses [MORI,
1992]. Muitas empresas, em especial a Toshiba e IBM, deram grandes passos na
resoluo de problemas relacionados a estes tipos de documentos (bad lecture).
Os principais e maiores resultados desta "corrida" foram o surgimento do
equipamento OCR-V100, da Toshiba e o IBM-1975, da prpria IBM, que eram
mquinas com alto poder de processamento (para a poca) criadas para este fim.
At o momento ainda no se tinham ferramentas para PC com o objetivo de se

realizar este tipo de processamento em nvel domiciliar. Quando em 1988, surgiu um


dos primeiros softwares a fazer este trabalho. Ele havia sido criado pela Caere
Corporation, e seu nome era OmniPage [New York Times, 1988].
A partir de 1990, a evoluo dos sistemas OCR se deu, em grande parte, pela
evoluo do prprio hardware, aliada diminuio do custo desses equipamentos, tanto
em nvel empresarial como domiciliar. Algoritmos em linguagens como C e C++
comearam a surgir, o que, consequentemente, alavancou a interao da comunidade na
busca de novos softwares e procedimentos de OCR mais eficientes. Assim, muitas
tcnicas de OCR comearam a surgir e a serem utilizadas nas mais diversas atividades
empresariais e/ou pblicas, como por exemplo, softwares detentores de algoritmos para
reconhecimento de caracteres escritos mo passaram a ser utilizados por bancos na
leitura de cheques e de leitores para os correios. Sistemas mais avanados de anlise em

camadas permitiram o uso de reconhecimento tico em uma maior variedade de


formulrios comerciais [FUJISAWA, 2008].
Enquanto se tem a opo de realizar, manualmente, a triagem de todos os
documentos, a tecnologia OCR torna esse processo muito mais prtico para a empresa.
Ao contrrio de gastar grandes quantidades de tempo na leitura de pastas, essa
tecnologia permite, simplesmente, digitar e pesquisar o que necessrio na busca de um
documento especfico, devidamente catalogado e registrado por meio de um sistema
OCR. Alm disso, fornece meios eficientes para uma maior organizao, o que
consequentemente, vem a otimizar ainda mais o gerenciamento de documentos e
processos de business, tanto no setor pblico como no privado.

3. Ferramentas Utilizadas
Para o desenvolvimento do prottipo voltado para aplicao web, foi utilizadas as
seguintes tecnologias:

3.1. Eclipse
O Eclipse uma ferramenta IDE que compreende vrios tipos de linguagem e
que aceita a instalao de plugins para emular o desenvolvimento da plataforma.
Para o desenvolvimento do prottipo foi utilizado a verso do Eclipser Java EE
pela a sua facilidade no desenvolvimento de aplicaes web.

3.2. PrimeFaces
PrimeFaces um framework baseado na tecnologia JavaServer Faces, destinado
a tornar mais simples o uso de AJAX e componentes em aplicaes web.
Ele possui um rico conjunto de componentes de interface, no h dependncia
de configuraes de arquivos xml.

3.3. MySQL
O MySQL um sistema de gerenciamento de banco de dado (SGDB) que possui
um timo desempenho, facilidade de manuseio e possui compatibilidade com diversas
plataformas e linguagens de programao.

3.4. Hibernate
um framework que facilita o mapeamento dos atributos entre uma base
tradicional para uma de dados relacionais, utilizando arquivos xml ou anotaes Java.

3.5. Servidor Apache Tomcat


um container objeto que contm outros objetos Web de cdigo fonte aberto
baseado em Java que foi criado para executar aplicaes Web que utilizam tecnologias
Java Servlets e JavaServer Pages (JSP).
3.6. Tesseract
Tesseract uma ferramenta que utiliza uma tecnologia de reconhecimento de
caracteres a partir de um arquivo de imagem Optical Character Recognition. uma
das mais precisa da atualidade, de iniciativa open source e desenvolvido na HP, entre
1985 e 1995.

4. Apresentao do Prottipo
O prottipo tem como objetivo dar suporte a gesto eletrnica de documentos,
implantando mecanismos que ajudem no cadastro, reconhecimento e recuperao de
informaes, visando um ganho de desempenho e diminuio de gastos relacionados
com o manuseio de documentos de papel em uma instituio.
O prottipo denominado de SistemaGDE tem o intuito de demonstrar como seria
os passos para realizar as operaes descritas anteriormente, ele foi desenvolvido com
uma arquitetura cliente-servidor pela facilidade e vantagens que a mesma traz a um
sistema.
4.1. Controle de Acesso
Antes de comear a utilizar o SistemaGDE e necessrio fazer a autenticao do
usurio (figura 1), onde ser pedido o login e senha do mesmo. Essa operao e
necessria para garantir a veracidade das informaes armazenadas no Banco de Dados.

Figura 1 Login do Sistema

4.2. Tela Inicial


O sistema apresenta as seguintes funcionalidades adicionar documentos,
pesquisar documentos, gerenciar documentos e usurios (figura 2).

Figura 2 Tela Inicial

4.3. Adicionar Documentos


Essa funcionalida ser responsvel por adicionar as imagens que sero
processadas pelo Tesseract, que ira transformar a imagem em um arquivo de extenso
.txt.
Depois que a imagem for processada pelo Tesseract as informaes (caracteres)
sero classificados em regras, pr-estabelecidas, que servira para tratar informaes que
sero teis na busca da imagem no banco de dados.
A funcionalida ainda da ao usurio a opo de poder adicionar uma (figura 3) ou
varias imagem (figura 4) ao mesmo tempo.

Figura 3 Upload de uma imagem.

Figura4 Upload de varias imagens.

4.4. Gerencia de Documento e Usurio


Nessa funcionalida ser possvel escolher a opo de gerenciar usurios (figura
5) ou gerenciar documentos (figura 6), onde em cada dessas opes o usurio do
sistema poder visualizar, editar informaes disponvel e excluir. Em gerenciar
documentos, pode-se observar que existe mais uma funcionalida, que serve para
visualizar a respectiva imagem do documento adicionado (figura 7).

Figura 5 Gerenciar Usurios.

Figura 6 Gerenciar Documentos.

Figura 7 Visualizar Documento.

4.5. Pesquisar Documento


Nessa ultima funcionalida possvel procurar no banco de dados, um documento
especifico dando-se um valor chave para a busca (figura 8).

Figura 8 Pesquisar Documento.

5.Conclusao
Esse trabalho foi desenvolvido devido falta de ferramentas open source
disponveis no mercado, que faz o gerenciamento de documentos eletrnicos e o uso do
OCR para processamento para classificao desses documentos. Podemos notar, com
uso de uma simples ferramenta de gesto de documentos combinado com o OCR,
teremos maior velocidade na busca de documentos, melhor forma de armazenamento e
menor gastos na instituio que utiliza-la.

Referncias
Schellenberg, Theodore (2006). Arquivos modernos: princpios e tcnicas. 6.ed. Rio de
Janeiro. Editora FGV.
Meshesha, Million (2008). Recognition and Retrieval from Document Image
Collections.

Disponvel

em:

<

http://cvit.iiit.ac.in/thesis/millionPHD2008/millionThesis2008.pdf> Acesso em 03.


set. 2013
Tauschek, Gustav (1935) Reading Machine, US Patent Office 2.026.329. Disponvel em
: < http://history-computer.com/Library/US2026329.pdf> Acesso em 03. set. 2013.
Handel, Paul (1933) Statistical Machine. U.S. Patent Office 1.915.993. Disponvel em:
<http://www.google.com/patents/US1915993>. Acesso em 03. set 2013.
Mori, Shunji et al. (1992). Historical Review of OCR Research and Development.
NEW YORK TIMES; 1988; BUSINESS TECHNOLOGY; Now, PC's That Read A
Page

and

Store

It;

Disponvel

em

http://www.nytimes.com/1988/08/17/business/business-technology-now-pc-s-thatread-a-page-and-store-it.html>; Acessado em 03. set. 2013.

<

Fujisawa, Hiromichi; 2008; Forty years of research in character and document


recognition

---

an

industrial

perspective;

Disponvel

em;

<http://www.sciencedirect.com/science/article/pii/S0031320308000964>. Acessado
em 03. set. 2013.
http://www.caelum.com.br/apostila-java-testes-jsf-web-services-designpatterns/introducao-ao-jsf-e-primefaces/
http://www.primefaces.org/
http://www.caelum.com.br/apostila-java-web/uma-introducao-pratica-ao-jpa-comhibernate/

Vous aimerez peut-être aussi