Vous êtes sur la page 1sur 16

UNIO EDUCACIONAL DO PLANALTO CENTRAL FACULDADES INTEGRADAS DA UNIO EDUCACIONAL DO PLANALTO CENTRAL Aprovadas pela Portaria SESu/MEC N 368/2008

de 19/05/2008 (DOU 20/05/2008)

Faculdade de Cincia e Tecnologia do Planalto Central FACIPLAC Curso de Sistemas de Informao Reconhecido pela Portaria Ministerial n 290 -MEC de 27/01/2005 DOU de 28/01/05

<<Walisson Nunes dos Santos>>

Compresso de Dados

Braslia DF Maio/2013

Sumrio

Informaes.................................................................................................................. 7 Reduo de Entropia....................................................................................................8 Medio do desempenho da compresso....................................................................8 Complexidade de implementao e velocidade de compresso.................................8 Codificao e Decodificao de arquivos CODEC...................................................9 Vantagens..................................................................................................................10 Retirando-se a redundncia em texto........................................................................10 Retirando-se a redundncia em arquivo executvel..................................................10 Tcnicas de Compresso sem Perdas.......................................................................11 Codificao Run-Length.............................................................................................11 Huffman.....................................................................................................................12 Algoritmo LZ...............................................................................................................12 Mecanismos mais Conhecidos...................................................................................13 7-Zip..........................................................................................................................13 Winrar.......................................................................................................................14 Concluso..................................................................................................................15 Referncia.................................................................................................................16

Introduo A compresso de dados possui uma grande importncia nos sistemas computacionais nos dias atuais. Isto se deve especialmente a crescente utilizao de sistemas conectados em redes e da necessidade de passar cada vez mais informaes atravs de uma rede. O aumento da quantidade de informao que passada atravs das redes se deve ao desenvolvimento das aplicaes que manipulam dados multimdia. Este tipo de dado, normalmente som, imagens e vdeo, usualmente ocupam grande espao em disco o que dificulta a passagem atravs da rede. Suponha que se deseje armazenar um arquivo de grande porte em algum tipo de memria, primria ou secundria. Para melhor utilizar os recursos disponveis, deseja-se tambm minimizar, de alguma forma e na medida do possvel, o espao de memria utilizado. Uma forma de tentar resolver esse problema consiste em codificar o contedo do arquivo de maneira apropriada. Se o arquivo codificado for menor do que o original, pode-se armazenar a verso codificada em vez do arquivo propriamente dito. Isto representaria um ganho de memria. Naturalmente, uma tabela de cdigos seria tambm armazenada, para permitir a decodificao do arquivo. Essa tabela seria utilizada pelos algoritmos de codificao e decodificao, os quais cumpririam a tarefa de realizar tais operaes de forma automtica.

COMPRESSO DE DADOS Tcnicas de compresso com perdas so utilizadas em udio, imagens e vdeos, onde erros e perdas so tolerveis. Estas tcnicas so baseadas normalmente em estatsticas de dados e propriedades da percepo humana. O utilizador final das aplicaes multimdia so geralmente humanos. Como os sentidos humanos no so perfeitos, pequenas perdas e erros em udios e vdeos no so percebidos. Classificao das tcnicas de compresso. Existem vrias tcnicas de compresso, elas podem ser classificadas de diversas maneiras: baseadas no algoritmo de compresso e no resultado das tcnicas de compresso. Tcnicas de compresso sem perdas: Reduzem menos do que com perdas. Se a informao, aps sua compresso, pode ser exatamente reconstruda a tcnica de compresso dita sem perdas. Esta tcnica deve ser utilizada obrigatoriamente para comprimir programas e documentos legais ou mdicos. As tcnicas de compresso sem perda no so ideias novas, elas so muito utilizadas. Estas tcnicas exploram apenas estatsticas de dados (redundncia de dados) e a taxa de compresso normalmente baixa. Um exemplo deste tipo de compresso substituir caracteres de espaos ou zeros sucessivos por um flag especial e o nmero de ocorrncias. Como exemplo de tcnicas sem perda temos: codificao aritmtica, codificao Huffman e codificao Run-length. Compresso de dados com perdas: Tcnicas de compresso com perdas so utilizadas para compresso de udio, imagens e vdeos, onde erros e perdas so tolerveis. Estas tcnicas so baseadas normalmente em estatsticas de dados e propriedades da percepo humana. Com ela, altas taxa de compresso podem ser obtidas. Como o prprio nome diz, na compresso com perdas uma parte da informao perdida durante o processo. Um exemplo tpico o da transformao dos arquivos de udio para o padro MP3. claro que a perda nestes casos no altera significativamente a qualidade do som. Normalmente o grau de compresso desta categoria muito maior do que o obtido na compactao.

As tcnicas de compresso de dados multimdia buscam retirar a redundncia (ocorre dessa forma: um vdeo digital, por exemplo, uma sequencia de imagens apresentadas a uma certa taxa, mas observe que quando um personagem se locomove ele sempre mantm alguma parte do corpo inalterada ou quase isso, da porque no retirar tal informao repetitiva ). A compactao desses arquivos possui tal potencialidade devida a um fator conhecido as propriedades da percepo humana. JPEG (Joint Photographic Experts Group)- Enquanto GIF e PNG so formatos para (compactao) de imagem, ou seja, no existem perdas, o padro JPEG de compresso com perdas. Este formato de imagem foi desenvolvido de forma especial para a compresso de fotografias. A principal caracterstica do algoritmo utilizado so as altas taxas de compresso que consegue, sem degradao de qualidade perceptvel. Como os arquivos utilizados para compresso so fotos, a perda normalmente no perceptvel, e, quando perceptvel, no afeta o entendimento da imagem. Os estudos para o desenvolvimento do padro foram iniciados no final da dcada de 70 e incio da de 80. Ao final da dcada de 80 j comearam a ser comercializados coprocessadores grficos em estaes Unix e Macintosh capazes de comprimir imagens em at 95%, sem perda de qualidade visvel. MP3- Mpeg 1 udio Layer 3 - Perda de dados, resultando arquivos de alta qualidade com tamanho 12 vezes menor que o original. MPEG (1,2,4) Compresso com perdas. Existem vrios formatos disponveis no mercado para diversos tipos de imagem. Os mais usados na Internet so o gif e o JPEG, devido ao pequeno tamanho do arquivo,e consequente velocidade para transmisso na rede. Estes formatos so os que podem ser utilizados em VRML. GIF, PNG Compactao (compresso sem perdas). Redundncia em udio digital: Em muitos casos, amostragens de udio adjacentes so similares. A amostra futura no completamente diferente da passada, o prximo valor pode ser previsto baseado no valor atual. A tcnica de compresso que se aproveita desta caracterstica do udio chamada codificao preditiva. Tcnicas de compresso preditiva so baseadas no fato que ns podemos armazenar a amostra anterior e usar esta para ajudar a construir a prxima amostra. No caso da voz digital h outro

tipo de redundncia: ns no falamos todo o tempo. Entre uma rajada e outra de informaes h instantes de silncio. Este perodo de silncio pode ser suprimido sem a perda de informaes, sabendo que este perodo mantido. Estas tcnicas de compresso so chamadas Remoo de silncio. Redundncia em imagem digital: Em imagens digitais as amostras vizinhas em uma linha de escaneamento e as amostras vizinhas em linhas adjacentes so similares. Esta similaridade chamada Redundncia espacial. Ela pode ser removida, por exemplo, utilizando tcnicas de codificao preditiva ou outras. Redundncia em vdeo digital: Vdeo digital uma sequncia de imagens, portanto ele tambm tem redundncia espacial. Alm disso, imagens vizinhas em vdeos so geralmente similares. Esta redundncia chamada redundncia temporal. Ela pode tambm ser removida, por exemplo, utilizando tcnicas de codificao preditiva. Como os sentidos humanos no so perfeitos, pequenas perdas e erros em udios e vdeos no so percebidos. Alm disso, algumas informaes so mais importantes para a percepo humana que outras (por exemplo, no caso de imagens, a intensidade luminosa mais importante que a cor). Assim na hora de compactar certa informao, alguns dados de imagens, vdeos e sons podem ser ignorados, pois suas apresentaes, ou no, completamente indiferente para os humanos. O utilizador final das aplicaes multimdia so geralmente humanos. Para tcnicas de compresso com perdas deve-se considerar tambm a qualidade da mdia restituda. Humanos podem tolerar alguns erros de informao ou perdas sem afetar a efetividade da comunicao. Isto implica que a verso comprimida no necessita representar exatamente a informao original. Para que ter uma cpia perfeita de uma imagem se o nosso olho no capaz de notar certas diferenas de cor. Assim, os algoritmos de compresso com perdas criam arquivos que tem a mesma "aparncia" dos originais mas so diferentes a nvel de bit,ou seja, o arquivo comprimido usa menos bits que o original mas esses bits no "fazem falta" para aquele tipo de aplicao.

INFORMAES: Porque necessrio haver perdas em aplicaes multimdia? Baseando-se em uma aplicao multimdia tpica, temos pelo menos 30 minutos de vdeo, 2000 imagens e 40 minutos de som estreo. Dessa forma, observemos o que teramos sem o uso de tcnicas de compresso: 50 GBytes para armazenar o vdeo. 15 Gbytes para armazenar as imagens. 0,4 GBytes para armazenar o udio. 65,4 GBytes para armazenar todo o contedo no disco. A codificao por entropia (Entropy encoding) trata de cadeias de bits sem levar em conta seu significado. uma tcnica genrica, sem perda e totalmente reversvel, que pode ser aplicada a todos os dados. Aqui so apresentados alguns exemplos de tcnicas por entropia, que so a codificao run-length e de Huffman. Codificao na origem (Source coding) processa o dado original distinguindo o dado relevante e o irrelevante. Elas levam em considerao a semntica dos dados. Removendo os dados irrelevantes comprime o dado original. Como exemplo de tcnicas de compresso da origem, temos: DPCM (Differential pulse code modulation), DCT (discrete cosine transform) e DWT (Discrete wavelet transform). Codificao hbrida a combinao de tcnicas de compresso sem perdas e tcnicas de codificao na origem. Normalmente, vrias destas duas tcnicas so agrupadas para formar uma nova tcnica de codificao hbrida. Como exemplos deste tipo de tcnica de compresso podem citar os padres H.261, H.263, JPEG, MPEG vdeo e udio. Codificao com taxa de bits constantes e variveis Na converso analgico para digital as amostragens so feitas em intervalos regulares e cada amostragem representada atravs de um mesmo nmero de bits. Portanto a transmisso de udios e vdeos digitais no compactados so formadas por fluxos de taxa de bits constantes. Algumas tcnicas de compresso produzem fluxos de taxa de bits constantes e outras no: ns temos as tcnicas de compresso com taxa de bits constantes (CBR) e as tcnicas de compresso com taxa de bits variveis (VBR). importante classificar se uma tcnica CBR ou VBR. Primeiro, se contedos so complexos, mais dados so necessrios para representar. Isto normalmente

verdade para tcnicas VBR e so normalmente mais eficientes e produzem udios e vdeos de alta qualidade na mesma taxa de compresso. Segundo, tcnicas VBR so difceis de modelar e especificar, assim elas so difceis de serem suportadas por sistemas de comunicao multimdia. Reduo de Entropia: Neste caso, so usados algoritmos que se encarregam de achar a melhor soluo, ou seja, retirar o que for possvel de bits, para que ainda se conserve aquilo que se "quer mostrar". Neste tipo de compresso a "qualidade" normalmente comprometida, uma vez que so retirados bits do arquivo original e o autor aplica uma "taxa de compactao" de acordo com a necessidade, podendo chegar at 1:200. o tipo de compactao mais usado para internet. Exemplo o formato JPG. Medio do desempenho da compresso: No desenvolvimento de uma aplicao multimdia, os autores devem escolher que tcnica de compresso utilizar. Esta escolha geralmente baseia-se nas classificaes apresentadas anteriormente, nos parmetros de desempenho da tcnica e nos requisitos da aplicao. Os parmetros de desempenho mais usados so: Taxa de compresso: razo entre o tamanho do dado original e o tamanho do dado aps a compresso. No caso de tcnicas sem perda, quanto maior a taxa de compresso melhor a tcnica de compresso. Para tcnicas de compresso com perda deve-se considerar tambm a qualidade da mdia restituda. Qualidade da mdia reconstituda: medida em SNR (Razo Sinal/Rudo). Este parmetro aplicvel apenas para tcnicas com perda. Para a escolha de uma tcnica de compresso com perdas, deve-se optar pelo compromisso entre uma alta taxa de compresso e a qualidade desejada para a aplicao em desenvolvimento. Complexidade de implementao e velocidade de compresso: Geralmente quanto mais complexa a tcnica menor a velocidade de compresso. No caso de aplicaes tempo-real,como videoconferncia, estes parmetros devem ser considerados. Isto pois a compresso/descompresso deve ser realizadas em tempo-real. No caso de aplicaes do tipo obteno e apresentao de informao a velocidade de compresso no muito importante, mas a velocidade de descompresso importante

Codificao e Decodificao de arquivos - CODEC: A palavra CODEC formada pela juno de COder e DECoder, codificao e decodificao em portugus, ou, COmpression e DECompressiom, compresso e descompresso. Um exemplo comum dessa tcnica quando vamos ver um vdeo compactado no PC. Se no possuirmos o CODEC adequado para fazer a decodificao daquele formato de arquivo no qual o vdeo foi salvo, a imagem no aparecer na tela, e sim uma mensagem de erro comunicando a inexistncia do CODEC especfico. Hoje em dia comum "baixar" ou salvar arquivos em "formatos de compresso", assim chamados na linguagem comum dos internautas, tais como os famosos MP3, AIFF, AAC, MIDI, AVI, WMA, MPEG, MPEG2, DIVx... E mais recentemente o H.263, assim como so comuns os programas que rodam todos os CODECs existentes, isso na rea de imagens, vdeos e sons. J para textos, temos os conhecidos WINZIP e WINRAR, que compactam e descompactam os arquivos neles elaborados, atribuindo-lhes os formatos *.ZIP e *.RAR respectivamente. Os arquivos usados por estes programas, ao serem descompactados, mantm o formato original.

10

VANTAGENS: usada para reduzir o espao ocupado por dados em um determinado dispositivo, como um disco rgido. Essa operao ocorre por meio de vrios algoritmos, reduzindo a quantidade de bits para representar um dado (imagem, texto ou um arquivo qualquer). Importante para ganhar desempenho (tempo) em transmisses. Destina-se tambm a retirar a redundncia contida nas informaes Retirando-se a redundncia em texto: A sequencia AAAAAA que ocupa 6 Bytes pode ser apresentada pela sequencia 6 A que ocupa 2 Bytes (economizando 67% de espao) BACKUP: cpias de segurana (pode ser feita de maneira mais econmica e rpida). Em vez de utilizar 25 caixas de disquete para fazer o backup de um disco rgido de 360 MB, utilize um compactador de dados que ocupar bem menos disquetes. Retirando-se a redundncia em arquivo executvel: Temos menores. H inmeras vantagens em se utilizar um compactador de dados. Primeiramente, um arquivo grande passa a ocupar menos espao, podendo ser mais facilmente armazenado e transportado em disquete. Se voc tiver um arquivo muito grande que no caiba em um nico disquete, no precisa se desesperar; utilize um compactador e provavelmente o arquivo caber. Com uma vantagem: se mesmo assim o arquivo no couber, compactador desmembra o arquivo em vrios pedaos, gravando em tantos disquetes quanto necessrios - processo que no possvel atravs de um simples comando COPY, por exemplo. Compactadores de dados podem agrupar vrios arquivos em um s e, por este motivo, podemos guardar programas inteiros em um nico arquivo. Este o mtodo mais utilizado em BBSs e Internet, onde tempo dinheiro e quanto menores os arquivos, melhor. comandos e informaes repetitivas, dessa forma, essas informaes redundantes podem perfeitamente serem substitudas por cdigos

11

TCNICAS DE COMPRESSO SEM PERDAS CODIFICAO RUN-LENGTH Codificao run-length uma codificao por entropia. Parte dos dados de imagem, udio e vdeo amostrados podem ser comprimidos atravs da supresso de sequencias de mesmos bytes. Estas sequncias so substitudas por um nmero de ocorrncias e um smbolo padro (padro de bits) para anotar a repetio em sim. Obviamente, o fator de compresso alcanvel depende do dado de entrada. Usando uma marca de exclamao como flag especial para indicar a codificao run-length, o seguinte exemplo mostra como um fluxo de dados pode ser comprimidos substituindo a sequncia de seis caracteres "H" por !6H": Dado original UHHHHHHIMMG1223; Dado comprimido: U!6HIMMG1223; claro que esta tcnica no utilizada para sequncias de caracteres iguais ou menores que quatro. Isto, pois nenhuma compresso seria obtida neste caso. Por exemplo, substituindo a sequncia de dois caracteres "M" com o cdigo run-length!2M" aumentaria o tamanho do cdigo em um byte. Se o flag especial no exemplo ocorrer no dado, ele deve ser substitudo por duas marcas de exclamao (byte stuffing). O algoritmo apresentado acima pode ser facilmente otimizado, por exemplo, em vez de sequncias simples de caracteres, sentenas mais longas de diferentes caracteres podem tambm ser substitudas. Esta extenso requer que o tamanho da sequncia seja codificado ou pode-se utilizar um flag especial de fim. Existem diversas variaes da codificao run-length. Este mtodo s traz ganhos relevantes se houver grandes agrupamentos de smbolos iguais. As principais aplicaes do mtodo de Run-Length so em imagens binrias, imagens com grandes espaos envolvendo uma s cor e em imagens geradas por computador, onde os dados esto agrupados de forma mais geometricamente definida. Esse mtodo aplicado em formatos padres como PCX, BMP(RLE).

12

HUFFMAN Neste mtodo de compresso, atribudo menos bits a smbolos que aparecem mais frequentemente e mais bits para smbolos que aparecem menos. Assim, o tamanho em bits dos caracteres codificados sero diferentes. Codificao de Huffman um exemplo de tcnica de codificao estatstica, Esse o princpio do cdigo Morse. ALGORITMO LZ O que Lempel-Ziv? um algoritmo de Compactao (compresso de dados sem perda de informao) idealizado por Abraham Lempel e Jacob Ziv. Tambm chamado de algoritmo LZ. O cdigo LZ o mais usado. OBS: algoritmo LZ77(desenvolvido em 1977) no estava coberto de atentes da muitos formatos originaram-se dele e hoje so verses aperfeioadas(ex: zip), ao contrrio do LZ78 e do LZW. Qual a ideia do Algoritmo? Procurar pela ocorrncia de conjuntos de caracteres repetidos em um arquivo e os substituir por um cdigo que usa menos bits para representar aquele conjunto de caracteres. O LZ funciona construindo um dicionrio de blocos (grupos de um ou mais caracteres) do fluxo de entrada. Quando encontrado um novo bloco, o mecanismo de compresso verifica se o mesmo j est gravado no dicionrio. Se no estiver, ele acrescentado e produzido um smbolo que identifica a sua posio no dicionrio. Se o bloco j estiver gravado, o programa simplesmente mostra o smbolo do bloco existente.

13

MECANISMOS MAIS CONHECIDOS 7-Zip: As principais caractersticas do 7-Zip; Alta taxa de compresso no formato 7z com LZMA e compresso LZMA2 Os formatos suportados: compactao / descompactao: 7z, XZ, BZIP2, GZIP, TAR, ZIP e WIM Somente descompactao: ARJ, CAB, CHM, CPIO, CramFS, DEB, DMG, FAT, HFS, ISO, LZH, LZMA, MBR, MSI, NSIS, NTFS, RAR, RPM, SquashFS, UDF, VHD, IM, XAR e Z. Funcionamento Comparamos o 7-Zip com alguns dos compactadores mais usados. CONJUNTO DE ARQUIVOS: Mozilla Firefox 1.0.7 e Google Earth 3.0.0616 para Windows aps instalao completa.
Mozilla Firefox 161 arquivos Compactador 15.684.168 bytes Tamanho compactado 7-Zip 4.23 (formato 7z) WinRAR 3.50 CABARC 5.1 Winzip 10.0 beta (maximum-PPMd) 7-Zip 4.23 (formato zip) Winzip 10.0 beta (maximum-portable) 4621135 5021556 5131393 5277118 6222627 6448666 Taxa 100% 109% 111% 114% 135% 140% Google Earth 115 arquivos 23.530.652 bytes Tamanho compactado 6109183 6824892 7434325 8200708 8909446 9153898 Taxa 100% 112% 122% 134% 146% 150%

Os resultados da taxa de compresso dependem muito dos dados usados para testar. Geralmente o 7-Zip comprime para o formato 7z de 30 a 70% melhor que no formato zip. E o 7-Zip comprime para o formato zip de 2 a 10% melhor que outro programa compatvel com o zip. Winrar:

14

o nico que trabalha com arquivos dos mais diferentes formatos de compresso (ZIP, ARJ, CAB, LZH, ACE, TAR, Gzip, UUENCODE) e suporta arquivos de at 8.589 Bilhes de Gigabytes. Interface bastante completa e intuitiva; Rapidez na compresso dos dados; Integrao bastante completa com o Windows Explorer; Multi-plataforma; Funcionamento: Usando-se o winrar: textos e imagens .BMP Permitem uma taxa de compactao muito maior do que outros. Isto acontece por que estes arquivos possuem muita informao redundante. Experimente abrir o Paint, fazer uma imagem de 640x480, desenhar qualquer objeto e salvar o arquivo como um bitmap de 24 bits. E depois s compactar e observar a diferena.

Concluso

15

Os arquivos geram um grande volume de dados, e para propsitos de transmisso ou armazenamento desejvel comprimir estes dados. Certos tipos de dados no podem sofrer perdas ocasionadas pela compresso/descompresso, como o caso da projeo de tomografia (senograma). Perdas de informaes nestas imagens podem resultar na insero de artefatos, e no caso de imagens mdicas pode prejudicar o diagnstico. Neste trabalho avaliamos uma das inmeras aplicao da transformada wavelet em processamento de imagens, mais especificamente na compresso de projees de tomografia computadorizada. Uma vantagem de comprimir as projees de CT em vez das imagens j reconstrudas a preservao dos dados originais. Uma vez que os dados descomprimidos so iguais aos originais obtidos pelo tomgrafo, possvel fazer, quando necessria, a reconstruo da imagem utilizando qualquer tcnica de reconstruo disponvel.

16

Referncia http://www.bobulous.org.uk/misc/audioFormats.html (em ingls) http://www.maximumcompression.com/index.html (em ingls) http://wiki.hydrogenaudio.org/index.php?title=Lossless_comparison (em ingls) http://pt.wikipedia.org/wiki/Compress%C3%A3o_com_perda_de_dados http://pt.wikipedia.org/wiki/Lista_de_algoritmos#Algoritmos_de_Compress.C3.A3o

Vous aimerez peut-être aussi