Vous êtes sur la page 1sur 18

Faculdade de Engenharia e Arquitetura Engenharia de Telecomunicaes

Compresso de udio

Bruno Ciminelli Gomes Pinto da Silva

Belo Horizonte 2013

Bruno Ciminelli Gomes Pinto da Silva

Compresso de udio

Trabalho

apresentado

disciplina

Comunicaes Digitais II do curso de Engenharia de Telecomunicaes da

Faculdade de Engenharia e Arquitetura da FUMEC 1/2013

Belo Horizonte 2013

SUMRIO

LISTA DE TABELAS .................................................................................................................... 3 LISTA DE FIGURAS .................................................................................................................... 4 1 PROCESSOS DE CODIFICAO DE SINAIS ANALGICOS ................................................ 5 1.1. 1.2. 1.3. AMOSTRAGEM ............................................................................................................... 5 QUANTIZAO ............................................................................................................... 5 CODIFICAO................................................................................................................ 5

2 COMENTRIOS SOBRE MEDIDAS DE QUALIDADE SONORA: SNR (OBJETIVA) E MOS (SUBJETIVA) ............................................................................................................................... 6 2.1 RAZO SINAL/RUDO (SNR) .................................................................................................. 6 2.2 SNR CLSSICA .................................................................................................................... 6 2.3 SNR SEGMENTADA .............................................................................................................. 7 2.4 SNR SEGMENTADA PERCEPTIVA ............................................................................................ 8 2.5 MOS (MEAN OPINION SCORE)................................................................................................ 8 3 COMPRESSO DO UDIO .................................................................................................... 10 3.1 CONCEITO ......................................................................................................................... 10 3.2 POR QUE UTILIZAR COMPRESSO......................................................................................... 10 4 LPC LINEAR PREDICTIVE CODING................................................................................... 12 5 CELP (CODE EXCITED LPC)................................................................................................. 14 6 QUADRO COMPARATIVO ENTRE CELP E LPC ................................................................. 16 7 REFERNCIA BIBLIOGRFICA ............................................................................................ 17

LISTA DE TABELAS
TABELA 1 - COMPARAO ENTRE AS MEDIDAS DE QUALIDADE OBJETIVA ............................................. 6 TABELA 2 - CLASSIFICAO DOS NDICES DO MOS ........................................................................... 9 TABELA 3 TABELA COMPARATIVA LPC
E CELP ........................................................................... 16

LISTA DE FIGURAS
FIGURA 1 - SINAL LPC .................................................................................................................. 13

1 PROCESSOS DE CODIFICAO DE SINAIS ANALGICOS 1.1. Amostragem O Sinal que chega da fonte amostrado com um trem de pulsos retangulares. Para garantir uma perfeita reconstruo do sinal de mensagem no receptor, a frequncia de amostragem deve ser igual ou maior que duas vezes a componente de frequncia mais alta do sinal de amostragem, de acordo com o teorema da amostragem. Na prtica o filtro passa baixa anti-alisaing colocado antes do amostrador para excluir frequncias maiores que fmx antes da amostragem. Desta maneira a aplicao da amostragem permite a reduo do sinal de mensagem que varia continuamente a um nmero de valores discretos por segundo.

1.2. Quantizao O sinal de mensagem ento quantizado, gerando, desta maneira, uma nova representao do sinal que discreto em ambos, tempo e amplitude. O processo de quantizao deve seguir uma lei de atribuio de valores, que pode ter uma escala uniforme ou varivel.

1.3. Codificao A codificao um processo no qual so atribudos cdigos binrios prdefinidos aos nveis de quantizao.

2 COMENTRIOS SOBRE MEDIDAS DE QUALIDADE SONORA: SNR (OBJETIVA) E MOS (SUBJETIVA) Ser descrito a seguir alguns dos mtodos conhecidos para avaliao de qualidade de sistemas de compresso de udio. 2.1 Razo Sinal/Rudo (SNR) A razo sinal / rudo (signal-to-noise ratio) uma razo amplamente conhecida e utilizada nos sistemas de compresso. As medidas baseadas em SNR so adequadas somente para sistemas que reproduzem a forma de onda original da entrada. Existem diversas variaes: SNR clssica, SNR segmentada, SNR perceptiva.
Tabela 1 - Comparao entre as medidas de qualidade objetiva

Fonte: Google

2.2 SNR Clssica Sendo s(n) a informao ausente de rudo (informao inicial) e r(n) a informao aps o processo de compresso, a relao de erro do sinal (relao sinal rudo) pode ser calculada da seguinte maneira, em dB.

A principal vantagem desta medida de qualidade a sua simplicidade, porem este valor estimado de qualidade do sinal muito fraco para uma grande variedade de distores, isto porque a SNR clssica no correlacionada com nenhum outro atributo subjetivo de qualidade do sinal de udio. Uma medida SNR errneamente alta pode ser obtida se o sinal de udio contm alta concentrao de trechos sonoros j que, o rudo tem maior interferncia em segmentos de baixa energia. 2.3 SNR Segmentada Para uma medida de maior qualidade, a forma mais fiel de se obter a SNR atravs do calculo de vrios curtos perodos. Desta forma, baseada em frames, calcula-se a SNR segmentada com a seguinte equao.

N tamanho do frame em amostras Para cada frame, normalmente de 15 a 25 ms calculada a SNR segmentada atravs da operao de mdia aritmtica entre as medidas de todos os segmentos do sinal. Alguns problemas podem ocorrer se durante os frames ocorrerem momentos de silncio, alterando o valor final da SNR de valores de mdulo elevado, 7

comprometendo a mdia final.

2.4 SNR segmentada perceptiva Esta medida tem como objetivo considerar as diferentes componentes em frequncia do sinal como tendo importncias diferenciadas na percepo do rudo por parte do ouvido humano. Esta SNR calculado com a equao descrita abaixo.

ew(n) erro perceptivo e(n) sinal de erro Esta a principal diferena entre a SNR segmentada e a SNR segmentada perceptiva, permitindo-se a distino entre as componentes do sinal analisado.

2.5 MOS (mean opinion score) No mtodo de verificao de qualidade do sinal de udio o MOS, ouvintes so questionados para que classifiquem a qualidade absoluta do sinal de voz sem saber qual a referncia de udio que est sendo utilizada. O MOS requer que algumas pessoas avaliem a qualidade geral de exemplos de fala submetidos vocoders para propsitos de comunicao telefnica. No teste MOS, cada avaliador define um escore de qualidade de sinal 8

reconstrudo segunda a escala graduada apresentada na Tabela 1. Ento, calcula-se a mdia aritmtica dos escores obtidos e determina-se o valor final da avaliao que dada pela expresso:

MOS

1 n Sl, L n 1

Este mtodo reproduz o ndice mdio de opinio (MOS) sobre a qualidade do udio, que uma escala utilizada conforme tabela a seguir.
Tabela 2 - Classificao dos ndices do MOS

Fonte: Google

Para referncia no julgamento absoluto do mtodo MOS, um sinal de referncia de udio inserido entre sinais que esto sendo julgados pelos ouvintes.

3 COMPRESSO DO UDIO

3.1 Conceito Consiste em diminuir o tamanho de um arquivo sem perder dados importantes. Na maioria das vezes as informaes retiradas so as redundantes ou as de pouca variao em relao s referncias. A grande dificuldade alcanar bons nveis de compresso e no perder informaes importantes.

Temos uma relao entre complexidade, qualidade e compresso. Estes itens esto interligados, podemos fixar um e ento os outros dois iro variar conforme necessidade. Como exemplo vamos comprimir um arquivo ao mximo possvel, com isto ser necessrio balancear entre qualidade e complexidade, quanto maior a complexidade melhor ser a qualidade, o que dificulta em termos de tecnologia, por outro lado se no for exigida complexidade a qualidade ser baixa.

O udio digital um dos principais motivos da compresso, o udio digital ocupa muito espao, 1 minuto de udio no comprimido de boa qualidade ocupa mais ou menos 10MB.

3.2 Por que utilizar compresso Existe uma razo simples para comprimir udio digital. udio digital no comprimido de boa qualidade ocupa muito espao. 1 minuto de udio no comprimido de boa qualidade ocupa mais ou menos 10Mb e precisaria de 50 minutos para ser transmitido por um modem de 28.800. A codificao de udio digital tenta comprimir o arquivo de forma que ele ocupe menos espao. Tcnicas de codificao de udio modernas como o MP3 (MPEG Layer 3) usa a percepo de udio do ouvido humano para atingir fatores de compresso de at 12 vezes sem nenhuma perda perceptvel na qualidade do som. 10

Para dados de udio, a forma mais bsica de comprimir/reduzir, envolve a reduo do nmero de bits e padres de amostras de udio. Alguns destes padres sero descritos logo em seguida.

11

4 LPC LINEAR PREDICTIVE CODING

LPC (Linear Predictive Coding) - Mtodo de compresso Digital designado especificamente para voz. Ele adapta o sinal de voz por um modelo analtico para a transmisso e depois decodifica para gerar uma voz sinttica similar original.

Com a disponibilidade de circuitos de processamento digital de sinais de baixo custo, novas tcnicas de compresso puderam ser empregadas. Uma destas tcnicas consiste da anlise da onda do sinal de udio com o objetivo de identificar um conjunto de caractersticas de percepo do sinal. Tais caractersticas so ento quantizadas e utilizadas para gerar um sinal sonoro comparvel ao sinal original. Tal som pode parecer sinttico, mas continua inteligvel.

O conjunto de caractersticas do sinal escolhido tem importncia fundamental na qualidade do som gerado por um decodificador LPC. Taxa de compresso muito alta, com cerca de 2.4kbps (ou mesmo 1.2kbps). Voz a tais taxas de transmisso to baixas so bastante sintticas, sendo mais usado em aplicaes militares ou naquelas onde taxa de transmisso um fator crucial a ser minimizado.

As caractersticas principais que determinam a percepo de um sinal pelo ser humano so:

Tom de voz (pitch): Relacionado com a frequncia do sinal. importante porque o ser humano mais sensvel a frequncias na faixa de 2 a 5kHz que em faixas de frequncia mais altas ou mais baixas que tal faixa.

Perodo: Durao do sinal. Volume: Quantidade de energia no sinal.

12

Alm dos parmetros acima, as origens do som, denominados Parmetros de Excitao do Trato Vocal, tambm so de importncia. Tais caractersticas so classificadas como: Sons vocais: Gerados pelas cordas vocais. Exemplos incluem os sons produzidos por m, v. Sons no vocais: Quando gerados as cordas vocais esto abertas.

Exemplos incluem os sons produzidos por f e s.


Figura 1 - Sinal LPC

Fonte: www.markcartwright.com

13

5 CELP (CODE EXCITED LPC)

CELP (Code Excited Linear Prediction) - Mtodo de compresso Digital designado especificamente para voz. Faz o mesmo trato vocal que um codificador LPC. Em adio, calcula o erro e o transmite. Portanto, produz uma qualidade maior do que a LPC. A recomendao ITU-T G.728 usa uma variao do CELP, LD-CELP, que requer uma banda passante de 16 kbps e computacionalmente um pouco mais complexa, requerendo hardware especial.

Os sintetizadores utilizados na codificao LPC padro so baseados num modelo simplificado do trato vocal. Um modelo mais sofisticado, conhecido como modelo de predio linear (CELP). Tal modelo um exemplo de uma famlia de modelos conhecidos como Enhanced Excitation (LPC) models.

utilizado quando baixos requisitos de transmisso so cruciais, mas uma qualidade aceitvel para um sistema multimdia necessria. No modelo LPC cada segmento tratado independentemente, diferentemente da codificao CELP, onde um conjunto limitado de segmentos utilizado. Cada segmento vlido denominado um waveform template. Um conjunto pr-computado de templates so compartilhados pelo codificador e

decodificador no que conhecido como template codebook.

Cada amostra digitalizada que compe uma template codificada por diferena. A template selecionada para codificar um determinado segmento escolhida de modo que a diferena tenha um erro de quantizao mnimo, o que resulta em uma melhor qualidade do sinal codificado.

As recomendaes da ITU-T G.728, G.729, G.729(A) e G.723.1, que cria uma boa qualidade de voz com grande taxa de compresso. Codificadores CELP introduzem uma srie de retardos durante a codificao do 14

sinal. Tais retardos devem ser considerados quando da seleo do algoritmo adequado a uma determinada aplicao. O retardo introduzido pela codificao PCM proporcional ao intervalo de tempo entre amostras. A 8kHz o delay de 0.125 ms - telefonia. G.728 tem um retardo total de 0.625ms, com transmisso a 16kbps telefonia com baixa taxa de bits. G.729 tem um retardo total de 25ms, com transmisso a 8kbps telefonia celular. G.729(A) idem ibidem - transmisso de voz e dados (DSDV). G.723.1 tem um retardo total de 67.5ms, com transmisso de 5.3/6.3kbps - vdeo e udio na Internet. Tanto LPC como CELP so usados principalmente para aplicaes de telefonia, motivo pelo qual os mesmo so orientados para compresso de voz. Perceptual Coding (PC), por sua vez, foram desenvolvidos para codificao de sinais de udio em geral (TV digital, etc.). PC tambm utiliza um modelo para a codificao dos sinais de udio: O modelo psicoacstico, que explora as limitaes do aparelho auditivo humano. O processo de codificao do sinal semelhante quele realizado em codificaes CELP, porm somente as caractersticas do sinal que so relevantes para a percepo humana so transmitidas, tais caractersticas de interesse do sinal incluem: Sensibilidade da Audio Mascaramento de Frequncia Mascaramento Espacial

15

6 QUADRO COMPARATIVO ENTRE CELP E LPC

Tabela 3

Fonte: Information Coding Techniques

16

7 REFERNCIA BIBLIOGRFICA

[1] Instituto Superior de Engenharia de Lisboa. Disponvel em: http://pwp.net.ipl.pt/isel/pribeiro/MPEGAudio/ - Acesso em maio de 2013.

[2] Som Brasil. Disponvel em: http: www.sombrasil.ig.com.br - Acesso em: maio de 2013.

[3] O Padro MIDI. Disponvel em: http://www.ime.usp.br/~kon/MAC5900/seminarios/seminario_Marcelo.pdf Acesso em: maio de 2013. [4] REVISTA DIGITAL CLUBE DO AUDIO Fisiologia da Audio. Disponvel em: http://www.clubedoaudio.com.br/MateriaTecnica/acusticaaudicao.aspx Acessado maio de 2013. [5] B.PIROPO Digitalizando Sons. Disponvel em: http://www.bpiropo.com.br/fpc20050808.htm>. Acessado maio de 2013. [6] www.markcartwright.com Acessado em maio de 2013. [7] Fundamentos de Sistemas Multimdia - Part 1 Aquisio, Codificao e Exibio de Dados - Luiz Fernando Gomes Soares - Laboratrio TeleMdia DI PUC-Rio Jan / 2007 [8] Information Coding Techniques 5.4 CODE EXCITED LPC (CELP) - R. Avudaiamma - Tata McGraw-Hill Education, 2010 - 322 pginas -

17

Vous aimerez peut-être aussi