Anais Aesbr 2006

Coordenador do Congresso / Conference Chair
Regis Rossi Alves Faria
Coordenador da Conveno / Convention Chair

Joel Brito
Editado por / Edited by

Regis Rossi A. Faria e Marcelo K. Zuffo
Coordenador Geral Conveno: Joel Brito (Presidente AES Brasil) Apoio logstico: Aurlio Antnio Mendes Nogueira
Elena Saggio
Coordenador do Congresso e Leandro Ferrari Thomaz
do Comit de Programa Tcnico: Regis Rossi Alves Faria (LSI-EPUSP) Simone Carvalho
Maria Francesca Neglia
Coordenador Editorial: Marcelo K. Zuffo (LSI-EPUSP)
Agradecimentos: Thereza Leonard (AES Past President)
Comit de Programa Tcnico: Anbal Ferreira (Univ. do Porto, Portugal) AES Board of Governors
Eduardo R. Miranda (Univ. Plymouth, UK) Luiz Wagner P. Biscainho
Fbio Kon (IME-USP) Sidnei Noceti Filho
Fernando Iazzetta (ECA-USP) Silvia Regina Saran Della Torre
Francisco J. Fraga (LSI-EPUSP)
Joo Antnio Zuffo (LSI-EPUSP) Editorao e arte: Totum Marketing e Comunicao
Joo Benedito dos Santos Junior (PUC-MG)
Jnatas Manzolli (IA-UNICAMP)
Luiz Wagner Pereira Biscainho (EP-UFRJ)
Marcelo Gomes Queiroz (IME-USP) Realizao / Promoo:

AUDIO ENGINEERING SOCIETY - SEO BRASIL
Marcelo Knrich Zuffo (LSI-EPUSP)
Maurcio Loureiro (EM-UFMG)
Miguel Arjona Ramirez (EPUSP) Organizao:
Paulo Esquef (FPF-AM)

Laboratrio de Sistemas Integrveis da
Pedro Donoso Garcia (EE-UFMG) Escola Politcnica da USP
Phillip Burt (EPUSP)
Regis Rossi Alves Faria (LSI-EPUSP)
Rubem Dutra R. Fagundes (PUC-RS) Apoio:
Sidnei Noceti Filho (EEL-UFSC)
Sylvio R. Bistafa (EP&FAU-USP)
Copyright 2006
Audio Engineering Society Brazil Section
* Anais em CD-Rom: ISBN 85-99997-01-7 (Anais em CD-Rom)
Os artigos publicados nestes anais foram reproduzidos dos originais finais entregues pelos autores, sem edies,
correes ou consideraes feitas pelo comit tcnico. A AES Brasil no se responsabiliza pelo contedo.
Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA,
www.aes.org. Informaes sobre a seo Brasileira podem ser obtidas em www.aesbrasil.org.
Todos os direitos so reservados. No permitida a reproduo total ou parcial dos artigos sem autorizao expressa da AES Brasil.
Impresso no Brasil.
Printed in Brazil.
Sociedade de Engenharia de udio
AES Audio Engineering Society Brazil Section
Endereo de correspondncia: Rua Carlos Machado 164, sala 305
Plo Rio de Cine e Vdeo Barra da Tijuca
Rio de Janeiro, Brasil Cep. 22775-042
e-mail: aesbrasil@aes.org
www.aesbrasil.org
telefone: +55(21) 2421-0112
fax: +55(21)2421-0112
Administrao
Presidente/Chairman: Joel Brito
Vice-Presidente/Vice-Chairman: Franklin G. Leite
Secretrio/Secretary: Carlos Ronconi
Tesoureiro/Treasurer: Guilherme Figueira
Comio/Committemen: Luiz Wagner Biscainho
Luiz Campos Reis
Joo Amrico Bezerra
Jos Pereira Jr.
Homero Sette Silva
Audio Engineering Society, Inc.

International headquarters
60 East 42nd St., Room 2520, New York, NY, 10165-2520, USA
e-mail: hq@aes.org
www.aes.org
telephone: +1(212)661-8528 - fax: +1(212)661-7829
Sumrio
Contents
Prefcio dos Organizadores / Organization Greetings .......... ..... 7
Revisores / Reviewers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Sesses de Artigos / Papers Sessions
Sesso 1 - Sonorizao Espacial, Som 3D, Acstica de Salas e Ambientes I

(Spatial sound systems, 3D Sound, Environmental and Room Acoustics I)
1. Anlise comparativa dos resultados dos parmetros objetivos de avaliao

da qualidade acstica de um auditrio multifuncional, obtidos por meio de
medies, simulaes, e clculos matemticos.
Lineu Passeri Jr., Sandra R. Moscati, Paulo Pinhal,
Heloisa Helena Afonseca Silva, e Sylvio R. Bistafa . . . . . . . . . . . . . . . . . . . . . 13
2. Sistema eficiente para auralizao utilizando agrupamento e

modelagem de HRTFs por wavelets
Julio C. B. Torres, Mariane R. Petraglia e Roberto A. Tenenbaum ... . . . . . . . 19
3. Avaliao objetiva de parmetros sonoros em salas: diagnstico

de qualidade acstica em Igreja Luterana - SP
Bianca Carla Dantas de Arajo, Maria Luiza Belderrain,
Thas Helena Luz Palazzo e Sylvio Reynaldo Bistafa . . . . . . . . . . . . . . . . 25
4. Avaliao de mtodos para gerao de som 3D

Fbio P. Freeland, Luiz W. P. Biscainho e Paulo S. R. Diniz . . . . . . . . . . . . . . . 31
Sesso 2 - Processamento Digital de udio, Voz e Sistemas Eletrnicos de udio
(Digital Audio and Speech Processing, and Audio Electronic Systems)
5. Comparison of speech enhancement / Recognition methods based

on ephraim and malah noise suppression rule and noise masking
threshold
Francisco J. Fraga, Andr Godoi Chiovato e Lidiane K. S. Abranches . . . . . . . . . . 38
6. A visual sound description for speech corporas manual phonemic

segmentation
She Kun e Chen Shu-zhen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7. Equalizador grfico digital de alta seletividade em VST

Leonardo de O. Nunes, Alan F. Tygel, Rafael A. de Jesus
e Luiz W. P. Biscainho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8. Aplicao em udio da aproximao mnimo erro mdio quadrtico

Sidnei Noceti Filho, Calisto Schwedersky e Luiz Fernando Micheli . . . . . . . . . . 53
9. O mtodo FCC de correo para amplificadores chaveados

operando no Esquema Sigma Delta.
Marcelo H. M. Barros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Sesso 3 - Sonorizao Espacial, Som 3D, Acstica de Salas e Ambientes II

(Spatial sound systems, 3D Sound, Environmental and Room Acoustics II)
10. Parmetros acsticos em salas de msica: anlise de resultados e

novas interpretaes
Fbio Leo Figueiredo e Fernando Iazzetta . . . . . . . . . . . . . . . . . . . . . . . . . . 66
11. Experimentaes de espacializao orquestral sobre a arquitetura

AUDIENCE
Leandro Ferrari Thomaz, Regis Rossi A. Faria, Marcelo K. Zuffo
e Joo Antnio Zuffo .................... . . . . . . . . . . . . . . . . . . . . 72
12. Descrio, Reaes e Propostas de Mitigao dos Impactos na

Qualidade Acstica das Salas de Aula e Atelier de uma Faculdade
de Arquitetura e Urbanismo por seus Alunos e Professores:
abordagem didtica, educativa e gestora
Jos Geraldo Querido e Cesar Augusto Alonso Capasso . . . . . . . . . . . . . . . . 78
Sesso 4 - Sntese, Modelagem de Instrumentos e Computao Musical
(Synthesis, Instrument modelling and Computer Music)
13. A Real-Time Texture Synthesizer based on Real-World Sound

Streams Representation and Control
Csar Costa, Jonatas Manzolli e Fernando Von Zuben . . . . . . . . . . . . . . . . . . . . . 85
14. Uma Reviso Bibliogrfica da Sntese Musical Por Modelagem

Fsica dos Instrumentos de Sopro
Lus Carlos de Oliveira, Ricardo Goldemberg e Jnatas Manzolli . . . . . . . . . . 91
15. Sintetizador Evolutivo de Segmentos Sonoros

Jos Fornari, Jnatas Manzolli e Adolfo Maia Jr. . . . . . . . . . . . . . . . . . . . . . 97
Sesso 5 - Psicoacstica, Percepo Auditiva, Anlise e Audio Automtica

(Psychoacoustics, Auditory Perception, Analysis and Automatic Listening)
16. Dead Regions and Speech Perception in Subjects with Auditory

Dysynchrony
Vinay S.N e Vanaja C.S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
17. Identificao de Notas Musicais de Violo Utilizando Redes Neurais

Alexandre L. Szczupak, Luiz W. P. Biscainho e Luiz P. Calba . . . . . . . . . . . . . . . 108
18. An efficient and very accurate fundamental frequency estimator

Adriano Mitre, Marcelo Queiroz e Regis R. A. Faria . . . . . . . . . . . . . . . . . . . . . 113
19. Automatic Genre Classification of Musical Signals

Jayme Garcia Arnal Barbedo e Amauri Lopes . . . . . . . . . . . . . . . . . . . . . 119
20. Fourier e Wavelets na Transcrio Musical Sinal de Audio

Josildo P. Silva, Frede O. Carvalho e Marcelo A. Moret . . . . . . . . . . . . . . . . . . . . . 125
ndice de Autores / Author Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

Prefcio dos Organizadores
com grande prazer que escrevo esta introduo aos Anais do 4 Congresso
da AES Brasil. Este ano experimentamos um crescimento substancial no s em
quantidade mas tambm na infra-estrutura, divulgao e participao no Congresso.
Para isso contribuiu de forma excepcional o apoio da Sociedade Brasileira de
Computao que nos cedeu acesso ao sistema de submisses de artigos, facilitando
enormemente nosso trabalho.
O Congresso ocupa um espao especial em nosso encontro pois representa

o ponto fundamental da sociedade, cujo objetivo claro: estimular o estudo e o
desenvolvimento do udio. Foi pensando em como poderamos apoiar esse avano
que empreendemos o esforo de organizar o Congresso h trs anos.
Os verdadeiros heris de um Congresso so o Coordenador do Programa

(Papers Chair) e o Comit. Eles convidam, imploram, mandam, chantageiam, cobram
favores, bajulam, enfim fazem tudo para conseguir que autores apresentem trabalhos,
com isso fazendo com que o todo seja muito maior do que a soma das partes. A esses
dedicados colaboradores, meu mais sincero agradecimento.
O que eu posso escrever sobre esses Anais? Eles cobrem um amplo espectro
de reas extremamente especializadas. Seus autores so pesquisadores acadmicos,
fabricantes e profissionais do mais alto quilate. Os autores so nossos Bandeirantes
do Sculo 21. Assim como seus antecessores de sculos atrs, os trabalhos que
os autores nos trazem abrem novas trilhas que nos levam fontes de sabedoria e
conhecimento (o equivalente s minas de diamantes do passado).
Os trabalhos vo desde o terico at aplicaes que j encontram-se

no mercado (ou quase). Eles representam o estado da arte em suas respectivas
especializaes.
Tenho a certeza de que o conhecimento aqui compartilhado ser de muita

utilidade a todos e que ano que vem teremos ainda mais trabalhos para apresentar.
Aos Congressistas de 2006, meus votos de que aproveitem esses dias de intensa
sinergia.
Joel Brito
Presidente AES Brasil
Coordenador Geral da Conveno
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006

Sejam benvindos ao 4 Congresso da AES Brasil 2006 para trs dias de uma
programao rica e diversificada sobre as atualidades e avanos que nos aguardam
num futuro prximo da engenharia de udio e disciplinas afins. O tema da conveno
este ano o udio na era da comunicao em linha com as mudanas e desafios
trazidos pela digitalizao dos nossos maiores meios de comunicao: o rdio e a
televiso.
Vinte artigos distribudos por 5 sesses foram publicados este ano, cobrindo
novidades e contribuies inditas principalmente nas reas de processamento de
udio, udio espacial, sonorizao, acstica ambiental e computao musical. Para
enriquecer ainda mais o evento, organizamos trs workshops especiais: um sobre
sade auditiva (audiologia e questes relacionadas preservao da audio), um
voltado para a prtica de medies acsticas, e um cobrindo o processo de implantao
do rdio e da TV digital no Brasil, contando com especialistas, pesquisadores,
representantes de agncias governamentais, associaes comerciais e convidados
internacionais.
Este ano fizemos um esforo considervel para aumentar os nmeros do

congresso em termos de artigos e de participao, ampliando sua divulgao e
construindo uma programao diversificada, que fosse ao mesmo tempo atraente
para a academia, para os engenheiros e para os profissionais do udio. Ampliamos
o comit de programa, convidando tambm membros da comunidade cientfica
internacional, e buscamos apoio divulgao junto AES Internacional e Regio
Latino-Americana.
Juntamente com a conveno nacional da AES Brasil, os congressistas ainda

tero acesso a uma intensa programao de palestras nacionais e internacionais
abordando diversos tpicos em tecnologias e sistemas para udio, bem como acesso
feira de exposies, demonstraes e atividades especiais espalhadas pelo centro
de convenes.
So Paulo uma metrpole plena de diversidade cultural e gastronmica, e a

localizao central do centro de convenes Rebouas facilita ainda a visita a museus,
restaurantes e sofisticados centros de compras nos arredores. Finalmente queremos
agradecer AES Internacional e SBC pelo apoio, e especialmente agradecer toda a
colaborao e disposio dos membros do comit tcnico, dos revisores, secretrios
e demais profissionais envolvidos na realizao deste evento.
Regis Rossi A. Faria

Coordenador do Congresso
Coordenador do Comit de Programa Tcnico

Organization Greetings
It is with pleasure that I write this introduction to the Proceedings of the 4th
AES Brazil Conference. This year we experienced a substantial increase not only in
quantity but also in infrastructure, spreading and participation in the conference. The
institutional support from the Brazilian Computer Society contributed exceptionally to
this, making available the access to its paper submission system, greatly easing the
organization work.
The conference takes a special part in our meeting while representing the
fundamental key of the society, which of course aims to foster the study and development
of audio. It was thinking in how we could support these advances that we undertook
the effort to organize this conference three years ago.
The actual heroes of a conference are the technical program chairman and the
committee. They invite, beg, order, blackmail, charge favors, at last make everything
to get that authors present their works, this way making the whole a lot larger than the
sum of the parts. To these dedicated collaborators, my very sincere thanks.
What can I write about the proceedings? They cover a wide spectrum of
extreme specialized areas. Their authors are academic researchers, manufacturers
and professional of highest esteem. The authors are our pioneers of XXI century. As
well as their antecessors centuries ago, their works take us to new trails to the source
of knowledge and wisdom (equivalent to the diamond mines in the past).
The works go from theoretical to the applications already found in the market
(or nearly). They represent the state-of-the-art in their respective specializations.
I am sure that all the knowledge here shared will be of great utility to all and that next
year we will have yet more works to present. To the 2006 conferencees my votes that
they enjoy these days of intense synergy.
Joel Brito
AES Brazil President,
Convention General Coordinator

Welcome to the 4th AES Brazil Conference 2006 for three days of a rich and
diversified program over several novelties and forecoming advances in the audio
engineering and related disciplines. This years theme is the audio in the communication
era in line with the changes and challenges brought by the digitalization of our most
important communication media: the radio and the television.
Twenty papers distributed over 5 sessions were published this year, covering
novel contributions mainly in the areas of audio processing, spatial audio, sound
systems, environmental acoustics and computer music. To further enrich the event,
we organized three special workshops: one about auditory health (audiology and
issues related to auditory loss prevention), one turned to the practice of acoustic
measurements, and one addressing the process of implantation of digital radio and
TV in Brazil, counting with experts, researchers, representatives from government
agencies and commercial associations, and international guests.
This year we made a considerable effort to increase the conference numbers

both in terms of papers and participation, amplifying its spreading and building a
diversified program at the same time interesting for the academia, engineers and
the audio professionals. We enlarged the technical program committee, inviting also
members from the international scientific community, and got the support from AES
International and Latin America Region to spread the event.
Jointly with the AES Brazil National Convention, the conferencees will also
have access to an intense program of national and international lectures approaching
several topics in audio technologies and systems, as well as access to the exhibition,
demos and special activities all over the convention center.
So Paulo is a metropolis full of gastronomic and cultural diversity, and the

convention center localization is strategic for accessing museums, restaurants and
sophisticated shopping spots around. Finally we want to thank the AES International
and the SBC (Brazilian Computer Society) for their institutional support, and specially
thank all the collaboration and disposition of the technical program committee
members, reviewers, secretaries and other professionals involved in the realization of
this event.
Regis Rossi A. Faria

Conference Coordinator
Technical Program Committee Chairman
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 10

Revisores
Reviewers
Anbal Ferreira
Eduardo R. Miranda
Fbio Kon
Fernando Iazzetta
Fernando Pacheco
Francisco J. Fraga
Joo Antnio Zuffo
Joo Benedito dos Santos Junior
Jnatas Manzolli
Leandro F. Thomaz
Luiz Wagner Pereira Biscainho
Marcelo Gomes Queiroz
Marcelo Knrich Zuffo
Mrio Minami
Maurcio Loureiro
Miguel Arjona Ramirez
Monique Nicodem
Paulo Esquef
Pedro Donoso Garcia
Phillip Burt
Regis Rossi Alves Faria
Rubem Dutra R. Fagundes
Sergio Rodriguez Soria
Sidnei Noceti Filho
Sylvio R. Bistafa

Sesses de Artigos
Papers Sessions
Sesso 1
Sonorizao Espacial, Som 3D, Acstica de Salas e Ambientes I
(Spatial sound systems, 3D Sound, Environmental and Room Acoustics I)

___________________________________
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Conveno Nacional da AES Brasil
08 a 10 de Maio de 2006, So Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo Brasileira podem
ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total ou parcial deste artigo
sem autorizao expressa da AES Brasil.
___________________________________
Anlise comparativa dos resultados dos parmetros objetivos de
avaliao da qualidade acstica de um auditrio multifuncional,
obtidos por meio de medies, simulaes, e clculos matemticos.
Lineu Passeri Jr. (i), Sandra R. Moscati (ii), Paulo Pinhal (iii), Helosa Helena Afonseca Silva (iv), e
Sylvio R. Bistafa (v)
Faculdade de Arquitetura e Urbanismo da USP, Departamento de Tecnologia da Arquitetura, Cidade
Universitria, 05424-970, So Paulo, SP.
(i) lineupasseri@uol.com.br
(ii) smoscati@uol.com.br
(iii) paulo@pinhalarquitetura.com.br
(iv) heloisahasarq@ig.com.br
(v) sbistafa@usp.br
RESUMO
Sero apresentados os resultados de medies de diversos parmetros objetivos de avaliao da qualidade acstica
de salas obtidos in-loco de um auditrio multifuncional na Grande So Paulo. Em seguida, sero apresentados os
resultados dos mesmos parmetros obtidos por intermdio de um programa de simulao acstica por traado de
raios. Por fim, os resultados do tempo de reverberao obtidos nos dois experimentos sero comparados com
aqueles que se obtm a partir da aplicao direta da frmula de Sabine. As semelhanas e as diferenas entre os
resultados dos mesmos parmetros, obtidos de maneiras diferentes, sero analisadas e discutidas. De posse desses
resultados, tambm sero analisadas algumas solues de projeto do ambiente.
INTRODUO so salas multifuncionais. Tais salas no se prestam a uma

atividade especfica, mas procuram oferecer caractersticas
Salas para usos especficos (concerto, pera, teatro e msica acsticas e funcionais capazes da abrigar o maior nmero
de cmara, por exemplo) no so comuns no Brasil, uma vez possvel de espetculos dos mais diversos tipos.
que tais especificidades no seriam condizentes com a
demanda por espaos to particulares. Assim, a grande
maioria das salas, construdas ou em construo, no Brasil,
PASSERI ET AL ANLISE COMPARATIVA DE PARMETROS OBJETIVOS DE QUALIDADE ACSTICA
Pode-se definir como qualidade sonora de uma sala o Tempo de Reverberao (RT60)
conjunto de atributos acsticos subjetivos que atendam s mais antigo e, ainda, o parmetro objetivo mais importante
expectativas acsticas dos ouvintes. Para cada finalidade de na avaliao acstica de uma sala. Pode ser definido como o
sala, h atributos acsticos subjetivos correspondentes que tempo necessrio para que o nvel de um som diminua de 60
devem ser atendidos. Em auditrios multifuncionais, espera- dB, a partir do instante de sua interrupo, num determinado
se que esses atributos sejam atendidos da forma mais ampla ambiente, expresso em segundos.
possvel, dentro das limitaes que salas desse tipo, via de
regra, impem. Early Decay Time (EDT10)
o tempo necessrio para que o som decaia de 10dB,
Diversos fatores influenciam o resultado daquilo que multiplicado por seis, cujo resultado extrapolado para uma
ouvimos no interior de uma sala. Controlar esses fatores , curva representando o seu decaimento de 60dB, expresso em
portanto, fundamental na determinao do resultado sonoro segundos.
que se espera em seu interior. DANTONIO et al [1]
descreve esses fatores como sendo: (i) as dimenses da sala, Initial Time Delay Gap (ITDG)
(ii) a geometria da sala, (iii) a localizao do ouvinte e sua Tambm chamado de Retardo Inicial, o tempo decorrido
habilidade de escuta, (iv) a localizao da(s) fonte(s) entre o som direto e a primeira reflexo num determinado
sonora(s), (v) os materiais de revestimento das superfcies ponto da sala. Este ndice tem sido correlacionado com a
internas da sala, e sua disposio no ambiente, (vi) e a impresso subjetiva de intimidade.
qualidade dos equipamentos de reproduo do som se
houverem. Definition (D50)
Ou Definio, baseia-se na caracterstica da audio
As caractersticas acsticas de uma determinada sala, tambm humana, na qual reflexes sonoras que cheguem ao ouvinte
referidas como atributos subjetivos de qualidade acstica e em at 50ms aps a chegada do som direto, so consideradas
musical foram descritas pela primeira vez por BERANEK benficas, melhorando sua audibilidade. Seu clculo feito a
[2] como sendo as seguintes: (i) presena, (ii) calor, (iii) partir da razo entre (1) a somatria das energias contidas no
intimidade, (iv) claridade, (v) difuso, e (vi) brilho ou som direto e no som proveniente das reflexes at 50ms, e (2)
textura. BARRON [3] relacionou as caractersticas a energia total da resposta impulsiva medida num
arquitetnicas de salas de diversos tipos, tamanhos e determinado ponto da sala. comumente correlacionada com
finalidades com suas caractersticas acsticas. a inteligibilidade da fala.
Os parmetros acsticos mais conhecidos o tempo de Clarity (C80)

reverberao e o nvel de rudo de fundo no se tm De clculo similar ao da Definio, com a diferena de que,
mostrado suficientes no sentido de atender aos atributos neste caso, consideram-se como benficas aquelas reflexes
subjetivos julgados mais relevantes. Alguns ndices objetivos, que chegam ao ouvinte em at 80ms aps a chegada do som
por sua vez, no se encontram ainda totalmente validados no direto. Por esse motivo, tem sido usada para caracterizar a
sentido de estabelecerem correlaes confiveis com as clareza ou a transparncia da msica em salas de
impresses subjetivas que se espera atender nos diversos concerto.
tipos de salas.
Early-to-late Energy Ratios (Elt)
Nesse contexto, uma srie de ferramentas digitais (programas uma proporo logartmica obtida a partir da resposta
computacionais) se prope a fornecer dados confiveis, tanto impulsiva da sala, entre a energia inicial (som direto) medida
de predio quanto de anlise e emisso dos resultados de no intervalo de tempo t[0,t], e a energia final (som
parmetros objetivos da qualidade acstica de um reverberante) medida no intervalo de tempo t[t,].
determinado ambiente. Faz-se, portanto, necessrio investigar
o desempenho desse tipo de ferramenta em um ambiente Tempo central (ts)
construdo, comparando seus resultados com aqueles Trata-se do centro de gravidade temporal da resposta
normalmente obtidos a partir do clculo do tempo de impulsiva ao quadrado. Caracteriza a durao da resposta
reverberao com a aplicao da frmula de Sabine. impulsiva e, portanto, trata-se de uma medida do grau de
interferncia da sala no sinal.
RESUMO DOS PARMETROS OBJETIVOS E SUA
CORRELAO COM ATRIBUTOS SUBJETIVOS Relative Loudness (L) ou Relative Strenght (G)
De acordo com SIEBEIN et al [4], diversos indicadores da Definido como o nvel de energia sonora num determinado
qualidade acstica de salas de grandes dimenses podem ser ponto (em geral, uma poltrona) de uma sala, medido a partir
calculados a partir de sua resposta impulsiva. Todos os da energia sonora produzida por uma fonte no palco, em
indicadores so derivados de p(t), ou seja, a presso sonora relao ao nvel de energia sonora obtido a 10m da mesma
ao longo do tempo, medida em diversos pontos de um mesmo fonte instalada em um ambiente anecico. Este ndice mede a
ambiente, por intermdio de uma fonte sonora e um contribuio efetiva das primeiras reflexes e da
microfone. reverberao, potncia do som em um ambiente.
Os indicadores mais comumente utilizados na avaliao Bass Ratio based on EDT

acstica de salas so os seguintes:
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 2

Este ndice foi proposto pela primeira vez por BERANEK OBJETIVOS DO TRABALHO
[2], e utilizava as informaes do tempo de reverberao por
banda de freqncias, para avaliar o timbre (ou balano tonal) Os objetivos do presente trabalho so (1) comparar os
de um ambiente, especialmente o seu calor. Em 1994 resultados de determinados parmetros de avaliao da
props-se a substituio de RT60 por EDT10 e, atualmente, o qualidade acstica de uma sala multifuncional, obtidos in-
ndice obtido por intermdio da relao entre (1) a soma dos loco, por intermdio de medies, e obtidos por intermdio
EDTs em 125Hz e 250Hz dividida pela (2) soma dos EDTs da utilizao de um programa de simulao acstica por
em 500Hz e 1000Hz. traado de raios, (2) comparar alguns resultados anteriores
com aqueles obtidos a partir da aplicao direta da frmula
de Sabine, (3) analisar e discutir as semelhanas e diferenas
Treble Ratio based on EDT entre os resultados obtidos, e (4) analisar a influncia das
Proposto pela primeira vez por CHIANG [5] para avaliar o solues de projeto do ambiente nos resultados obtidos.
timbre (ou balano tonal) de um ambiente, especialmente o
seu brilho, este ndice obtido por intermdio da relao
entre (1) a soma dos EDTs em 2000Hz e 4000Hz dividida BREVE DESCRIO DA SALA OBJETO DE
pela (2) soma dos EDTs em 500Hz e 1000Hz. ANLISE
A sala escolhida para ser objeto deste trabalho foi o Teatro
Inter-Aural Cross Correlation Coeficient (IACC80) Municipal Clara Nunes, localizado na cidade de Diadema, na
O ndice IACC est diretamente relacionado sensao de Grande So Paulo.
espacialidade da sala, uma vez que mede a diferena relativa
entre mesmos sons percebidos pelos ouvidos direito e esquerdo Trata-se de uma sala de mltiplo uso, com capacidade para
do ser humano, num ponto determinado. Este ndice chamado 434 espectadores, construda em 1983 e reformada ao longo
de Early Inter-Aural Cross Correlation Coeficient (IACCE ou do ano de 2004 (Fig. 1).
IACC80) se o intervalo de tempo utilizado na apropriao dessa
diferena estiver compreendido entre 0s e 80ms.
Lateral Energy Fraction (LEF)

Calculado por meio da proporo obtida entre (1) a energia
sonora integrada nos primeiros 80ms aps o som direto, em
ambos os lados (ouvidos) de um espectador hipottico, dividida
pelo (2) nvel total de energia sonora nos mesmos 80ms,
medido no mesmo ponto, este ndice est supostamente
correlacionado sensao da impresso espacial por parte
dos espectadores, sendo que valores mais elevados de LEF
corresponderiam a uma maior sensao de espacialidade do
ambiente.
Figura 1: Vista parcial da platia do Teatro Clara Nunes.
Support (ST1)
Proposto para medir o apoio ou o suporte que o som Seu palco original foi ampliado para permitir a apresentao
refletido pelas superfcies do palco d aos msicos que l esto de espetculos de diversos tipos, incluindo grupos de msica
se apresentando, porquanto est diretamente relacionado de cmara e orquestras (Fig. 2).
sensao de conjunto e balano dos msicos no palco.
De acordo com SIEBEIN et al [6], tais parmetros tm sido

cada vez mais utilizados no processo de projeto de salas de
espetculos, auditrios e teatros. Entretanto, ainda h muito a
ser pesquisado, com o intuito de estabelecer de uma forma
mais precisa quais as decises do projeto de arquitetura que,
realmente, interferem na resposta impulsiva em pontos
diferentes de uma sala, e o quanto a resposta impulsiva da sala
efetivamente contribui para o resultado da qualidade acstica
percebida pelos espectadores.
BISTAFA [7] conduziu um trabalho em que oito teatros da

cidade de So Paulo foram medidos segundo quatro dos treze Figura 2: Vista parcial do palco do Teatro Clara Nunes.
parmetros objetivos descritos acima RT60, EDT10, C50, e ST1
alm de um quinto parmetro S, denominado speech sound O piso da platia de concreto revestido com borracha tipo
level (em portugus: nvel sonoro da palavra falada). A Plurigoma. As paredes laterais so revestidas em lambris
principal concluso desse trabalho que os resultados obtidos de madeira e placas vibrantes. A parede dos fundos
nos oito teatros reiteram as recomendaes de BARRON [3] revestida por painel absorvente em l de rocha. O forro
para o projeto de salas com proscnio. constitudo por painis difusores policilndricos, construdos
em compensado de madeira.
O

DESCRIO DOS PROCEDIMENTOS Resultados obtidos na 3 fila, direita

Os resultados de T30+T60, EDT10, D50 e C80 foram os
Os parmetros objetivos analisados neste trabalho foram: seguintes:
Tempo de reverberao (T30+T60), Early Decay Time
(EDT10), Definio (D50) e Clareza (C80).
T- 30 + T-60 - FILA 03 LADO DIREITO - AURORA X CATT X
A partir da concluso das obras de reforma da sala objeto
SABINE
deste trabalho, e da adequao dos desenhos de projeto as
2,2
built, as seguintes atividades foram desenvolvidas: 2
1,8
1,6
S e g u n d o s (s )
Medies in-loco 1,4 T-30-Aurora
Os parmetros objeto deste trabalho foram medidos em 9 1,2
1 T-30 Catt
(nove) pontos na platia, sendo trs na 3 fila de poltronas (um 0,8
direita, um no centro e um esquerda), trs na 8 fila (um 0,6 Sabine
0,4
direita, um no centro e um esquerda), e trs na 13 fila (um 0,2
direita, um no centro e um esquerda). 0
125 250 500 1000 2000 4000
As medies foram feitas com a sala sem ocupao. Em todas Frequncia em bandas de oitava (Hz)
as situaes, a sala foi excitada a partir do estouro de bales
de borracha, colocados no palco, a 1,50m de altura do piso
(Fig. 3). EDT - FILA 03 LADO DIREITO - AURORA X CATT
1,4
1,2
1
E D T (s )
0,8 EDT - Aurora

0,6 EDT - Catt
0,4
0,2
0
125 250 500 1000 2000 4000
Frequncia em bandas de oitava (Hz)
Figura 3: Indicao da localizao da fonte sonora no palco do Teatro

Clara Nunes
D-50 - FILA 03 LADO DIREITO - AURORA X CATT
A captao foi feita por meio de um microfone
omnidirecional ShureTM Beta 58, e o sinal foi processado por 90
80
intermdio do programa computacional Aurora (8). 70
60
D -5 0 (% )
50 D-50 Aurora
Simulao acstica da sala 40
Os parmetros objeto deste trabalho foram ento calculados 30 D-50 Catt
20
nos mesmos 9 (nove) pontos na platia, sendo trs na 3 fila de 10
poltronas, trs na 8 fila, e trs na 13, considerando a sala sem 0
ocupao. 125 250 500 1000 2000 4000
Neste experimento, aps a modelagem em AutoCAD, a
exata localizao da fonte e dos nove receptores, passou-se
simulao acstica da sala, por intermdio do programa de
traado de raios Catt Acoustic, verso 7.2 (9). C-80 - FILA 03 LADO DIREITO - AURORA X CATT
12
Clculo do tempo de reverberao utilizando a
frmula de Sabine 10
Por fim, calculamos o Tempo de reverberao (T60) da sala a 8
C -8 0 (d B )
Aurora C-80
partir da frmula de Sabine (10). 6
4 Catt C-80
RESUMO DOS RESULTADOS OBTIDOS 2
0
Dos nove pontos de medio e simulao, apresentaremos os
125 250 500 1000 2000 4000
resultados comparativos de trs deles (3 fila, direita; 8 fila,
ao centro; e 13 fila, esquerda), resultados estes que foram Frequncia em bandas de oitava (Hz)
impressos nos grficos mostrados a seguir, para melhor
visualizao de suas semelhanas e diferenas:
O

Resultados obtidos na 8 fila, centro da sala Resultados obtidos na 13 fila, esquerda

Os resultados de T30+T60, EDT10, D50 e C80 foram os Os resultados de T30+T60, EDT10, D50 e C80 foram os
seguintes: seguintes:
T- 30 + T-60 - CENTRO, FILA 08 - AURORA X CATT X SABINE T-30 + T-60 - FILA 13, LADO ESQUERDO - AURORA X CATT X
SABINE
1,4 1,4
1,2 1,2
1 T-30 - Aurora 1
0,8 T-30 - Catt 0,8 T-30 Aurora
0,6 0,6 T-30 Catt
0,4 Sabine
0,4
0,2 Sabine
0,2
0
0
125 250 500 1000 2000 4000
125 250 500 1000 2000 4000
EDT - CENTRO, FILA 08 - AURORA X CATT EDT- FILA 13 ESQUERDA - AURORA X CATT
1,4 1,2
1,2
1
1
EDT - Aurora 0,8
E D T (s )
E D T (s )
0,8 Aurora EDT

0,6 0,6
EDT - Catt Catt EDT
0,4 0,4
0,2 0,2
0 0
125 250 500 1000 2000 4000 125 250 500 1000 2000 4000
Frequncia em bandas de oitava (Hz) Frequncia em bandas de oitava (Hz)
D-50 - CENTRO, FILA 08 - AURORA X CATT D-50 -FILA 13 LADO ESQUERDO - AURORA X CATT
100 100
90 90
80 80
70 70 Aurora D-50
D -5 0 (% )
D -5 0 (% )
60 D-50 Aurora 60
50 50
40 Catt D-50
40 D-50 Catt 30
30 20
20 10
10 0
0
125 250 500 1000 2000 4000
125 250 500 1000 2000 4000
C-80 - CENTRO, FILA 08 - AURORA X CATT C-80, FILA 13 LADO ESQUERDO - AURORA X CATT
14 14
12 12
10 10
C -8 0 (d B )
C-80 Aurora Aurora C-80

C -8 0 (d B )
8 8
6 C- 80 Catt 6 Catt C-80
4 4
2 2
0 0
-2 125 250 500 1000 2000 4000 125 250 500 1000 2000 4000
O

a partir de 1000Hz, porm com resultados distintos. Abaixo

CONCLUSES dessa freqncia, ambas as curvas apresentam
comportamento e resultados que, a exemplo de D50, no
Em relao ao Tempo de reverberao permitem avaliar o seu desempenho.
Os resultados de T30+T60, na 3, 8 e 13 fileiras revelam que
as curvas relativas simulao da sala obtidas por intermdio
do programa de traado de raios utilizado neste trabalho, e Possivelmente, tais distores sejam decorrentes da qualidade
aquelas obtidas a partir da frmula de Sabine, so muito do microfone utilizado, o que aponta para a necessidade de se
semelhantes em seu comportamento, ainda que o resultado fazer uso de um microfone com bom desempenho,
obtido por meio do programa de simulao, na 8 fila, tenha principalmente no que se refere captao dos sons de baixas
apresentado um pico em 250Hz. J as curvas obtidas a freqncias. No entanto, tendo em vista os resultados dos
partir das medies in-loco distanciam-se das demais, nos demais ndices, talvez seja necessrio refazer o procedimento
trs pontos. para medio deste parmetro.
Portanto, em relao ao Tempo de reverberao, podemos Em relao ao projeto da sala

concluir que possvel obter resultados expeditos bastante A concluso mais significativa, em relao ao projeto da sala,
seguros a partir da utilizao da frmula de Sabine, ao longo pode ser obtida a partir da observao dos grficos de EDT10
do desenvolvimento de projetos de ambientes de audio, na 3, 8 e 13 fileiras. Nota-se que os resultados do
permitindo que sua simulao, por meio de um programa de comportamento da sala medidos in-loco, nas trs situaes,
traado de raios, seja feita na fase final do projeto, servindo apresentam valores superiores queles obtidos por meio do
para afinar a sala. programa de simulao.
possvel que tais diferenas sejam decorrentes dos

Em relao ao EDT
Os resultados de EDT10 na 3, 8 e 13 fileiras, por sua vez, coeficientes de absoro considerados para as placas
mostraram que as curvas relativas simulao da sala obtida vibrantes instaladas no ambiente, cujo desempenho real seja
por intermdio do programa de traado de raios utilizado inferior quele levado em conta no clculo computacional.
neste trabalho, e aquelas obtidas a partir das medies in-
loco, apresentam comportamento e resultados bastante REFERNCIAS BIBLIOGRFICAS
prximos, a partir de 500Hz. Abaixo disso, os resultados
obtidos in-loco so superiores, nas trs situaes, [1] DANTONIO, P. & Cox, T. J. Room optimiser: a
provavelmente em decorrncia da qualidade do microfone computer program to optimise the placement of listener,
utilizado. loudspeakers, acoustical surface treatment, and room
dimensions in critical listening rooms. 103rd AES
Em relao ao EDT10, podemos concluir que possvel obter Convention, preprint 4555, paper H-6, New York (1997).
resultados seguros com um programa de traado de raios [2] BERANEK, Leo Leroy. Music, acoustics and
como o que foi utilizado neste experimento, atentando para a architecture. John Willey & Sons, Inc., USA (1962).
necessidade de se fazer uso de um microfone com bom
desempenho, principalmente no que se refere captao dos [3] BARRON, M. Auditorium acoustics and architectural
sons de baixas freqncias. design. E & Fn Spon, London, UK (1993).
[4] SIEBEIN, G. W. & Gold, M. A. The concert hall of the
Em relao ao D50 21st century: historic precedent and virtual reality.
Somente a partir de 1000Hz, ainda que na 13 fila Architecture: material and imagined, Proceedings of the 85th
verificaram-se algumas discrepncias. Porm, de um modo ACSA Annual Meeting., Washington, DC, pp 52-61 (1997).
geral, os resultados de D50 revelam que as curvas obtidas por
intermdio do programa de traado de raios e aquelas obtidas [5] CHIANG, W. Effects on architectural parameters on
a partir das medies in-loco apresentam comportamento e six acoustical measures in auditoria. Ph.D. Dissertation,
resultados bastante prximos. Abaixo de 1000Hz, os University of Florida, Gainesville, FL (1994).
resultados obtidos in-loco apresentam distores que no [6] SIEBEIN, G. W. & Kinzey Jr., B. Y. Recent
permitem avaliar o funcionamento do programa. innovations in acoustical design and research. In:
Architectural acoustics: principles and practice (edited by
provvel que tais distores nos resultados abaixo de William Cavanaugh & Joseph Wilkes), John Wiley & Sons,
1000Hz, obtidos por meio de medies in-loco, seja Inc., New York, NY (1999).
igualmente decorrente da qualidade do microfone utilizado, o
que aponta para a necessidade de se fazer uso de um [7] BISTAFA, Sylvio R. The acoustics for speech of eight
microfone com bom desempenho, principalmente no que se auditoriums in the city of So Paulo. First Pan-
refere captao dos sons de baixas freqncias. American/Iberian meeting on acoustics, Cancn, MX (2002).
[8] FARINA, Angelo. In http://www.ramsete.com/aurora.
Em relao ao C80
J os resultados de C80, nos mesmos trs pontos, demonstram [9] DALENBCK, Bengt-Inge. In http://www.catt.se.
que as curvas obtidas por intermdio do programa de traado [10] SABINE, Wallace C. Collected papers on acoustics,
de raios utilizado neste trabalho, e aquelas obtidas a partir das 1993, Peninsula Publishing, Los Altos, US.
medies, apresentam comportamento relativamente prximo
O

Sociedade de Engenharia de Audio
Artigo de Congresso
10a Convencao
Nacional da AES Brasil
Paulo, SP
08 a 10 de Maio de 2006, Sao
Este artigo foi reproduzido do original nal entregue pelo autor, sem edico es, correco es ou consideraco es feitas pelo comite
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaco es sobre a seca o Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproduca o total ou parcial
deste artigo sem autorizaca o expressa da AES Brasil.
Usando
Sistema Eciente para Auralizacao
Agrupamento e Modelagem de HRTFs por
Wavelets
Julio C. B. Torres1, Mariane R. Petraglia1, Roberto A.
Tenenbaum2
1

Escola Politecnica - Universidade Federal do Rio de Janeiro
Rio de Janeiro, RJ, Brasil
juliotorres@ufrj.br
mariane@pads.ufrj.br
2
IPRJ - Universidade do Estado do Rio de Janeiro
Nova Friburgo, RJ, Brasil
tenenbaum@iprj.uerj.br
RESUMO
Os sistemas de realidade virtual acustica requerem uma complexidade computacional muito elevada
para reproduzir as caractersticas tridimensionais do som. Uma forma de reduzir a complexidade de
tais sistemas e modelar de forma eciente a propagaca o do som. Utilizando um modelo baseado
na decomposica o das funco es de transferencia relacionadas ao receptor (HRTFs) por uma transfor-
mada wavelet, este artigo apresenta um sistema de auralizaca o eciente, que explora a similaridade
dos coecientes do modelo correspondentes a` s baixas freque ncias das HRTFs provenientes de direco es
proximas.
INTRODUC
AO campo sonoro.
Nos u ltimos anos, tem-se observado um cresci- A m de permitir que o ouvinte interaja com o sis-
mento consideravel dos sistemas de a udio imersivo, tema de a udio, modicando sua posica o, orientaca o
seja em sistemas com diversos alto-falantes ou atraves e ate caractersticas do campo sonoro, foram cria-
de fones de ouvido. Tal crescimento deve-se principal- dos os sistemas de realidade virtual acustica (SRVAs).
mente ao desenvolvimento de novas tecnologias e da Estes sistemas exigem um elevado grau de comple-
necessidade do ser humano sentir-se imerso no pro- xidade para que o som produzido seja equivalente
grama a udio-visual. Um exemplo disso e a recente ao gravado com cabecas articiais e, mesmo com o
inclusao de faixas de a udio em DVDs, gravadas com desenvolvimento tecnologico atual, nao e possvel a
cabecas articiais, que possibilitam ao ouvinte perce- utilizaca o desses sistemas em tempo real. A utilizaca o
ber as caractersticas tridimensionais do som no mo- em tempo real so se torna possvel caso sejam aceitas
mento da gravaca o. Porem, esse tipo de gravaca o nao simplicaco es no sistema. Contudo tais simplicaco es
permite ao ouvinte modicar sua posica o dentro do implicam, geralmente, na reduca o da qualidade e da -
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
delidade do a udio produzido, quando comparado com que originalmente possuia 100 coecientes no tempo
um sistema nao simplicado. pode ser implementada por uma transformada wavelet
Uma forma de reduzir a complexidade dos sistemas acrescida de um conjunto de 30 coecientes.
de realidade virtual acustica e modelar de forma mais Apesar desse ganho computacional consideravel,
eciente a propagaca o do som. A modelagem do re- obtido com a modelagem por wavelets, a grande re-
ceptor se da atraves das funco es de transferencia rela- dundancia de informaca o do conjunto de HRTFs pode
cionadas a` cabeca (Head-Related Transfer Functions ser utilizada para reduzir ainda mais o custo compu-
HRTFs) [1, 2], que correspondem a pares respostas tacional. Nesse sentido, vericou-se que, na faixa de
impulsivas (HRIRs) medidas para diversas direco es ao baixas freque ncias, as HRTFs de direco es proximas
redor do receptor. possuem um comportamento similar. Essa similari-
Quando se deseja fazer com que um indivduo per- dade existe pois sons de baixa freque ncia possuem
ceba que uma fonte sonora encontra-se em um de- grandes comprimentos de onda, maiores ate que um
terminado ponto ou direca o do espaco ao seu redor, torso humano, o que diculta ao ser humano denir
deve-se entao convoluir o sinal anecoico produzido a direcionalidade da fonte, principalmente devido ao
pela fonte com as HRIRs relativas a essa direca o. efeito de difraca o. Essa diculdade em reconhecer
Removendo-se a inuencia do sistema de reproduca o, a direca o dos sons de baixa freque ncia se traduz em
como por exemplo realizando uma equalizaca o de fo- uma caracterstica praticamente plana do modulo das
nes de ouvido, o som percebido devera ser identico HRTFs ate aproximadamente 1kHz.
ao ouvido em um ambiente real livre de reverberaca o Com base nesse modelo de HRTFs com wavelets,
(sala anecoica). este artigo apresenta uma analise de como o proces-
Um sistema de realidade virtual acustica pode pos- samento do som proveniente de direco es proximas
suir diversas fontes; mesmo com apenas uma fonte, as pode ser reduzido. Esse ganho de desempenho e ob-
ondas sonoras por ela emitidas podem sofrer multiplas tido considerando-se a similaridade dos coecientes
reexoes nas superfcies da sala. Assim, para cada da wavelet responsaveis pelas freque ncias baixas das
direca o possvel de chegada de uma frente de onda no HRTFs.
receptor, o sinal da fonte devera ser convoludo com
a HRIR da respectiva direca o. Observa-se, portanto, CARACTERISTICAS DAS HRTF S
que quanto mais reverberante for um ambiente, maior As HRTFs sao funco es cujas respostas em
sera o numero de direco es necessarias para gerar o si- freque ncia variam conforme a direca o da fonte so-
nal de a udio tridimensional. nora. A Fig. 1 apresenta os modulos das respostas
Entretanto, o ser humano possui uma capacidade li- em freque ncia de um conjunto de HRTFs pertencen-
mitada em reconhecer a direca o exata de uma fonte tes ao plano horizontal situado na altura das entra-
sonora [3]. A capacidade media do ser humano va- das dos canais auditivos. Este plano e equivalente a
ria entre 5 e 20 [1] e, portanto, um conjunto dis- uma elevaca o de 0 em um sistema de coordenadas
creto de direco es pode ser utilizado para medir as esfericas.
HRTFs sem perda da capacidade de reconhecimento
de direca o. Geralmente utilizam-se aproximadamente
700 direco es ao redor da cabeca, com a fonte situada
entre 1 e 1,2 metros, resultando em um conjunto de
1400 HRTFs [4, 2].
O custo computacional de um sistema com pro-
cessamento simultaneo de diversas direco es pode ser
reduzido de duas formas: diminuindo o numero de
direco es e/ou reduzindo o comprimento das HRIRs.
Reduzir o numero de direco es pode levar a` degradaca o
da espacialidade do a udio, uma vez que nem to-
das as direco es nas quais o som poderia atingir o re-
ceptor seriam utilizadas na simulaca o. A reduca o do
comprimento das HRIRs tambem podera interferir na
percepca o da direca o. Porem, se as caractersticas es-
pectrais de cada direca o forem mantidas, sera possvel
reduzir seu comprimento sem interferir na qualidade Figura 1: Modulo da resposta em freque ncia das
da auralizaca o. HRTFs com elevaca o de 0 .
Essa reduca o foi realizada com sucesso atraves
da modelagem das HRTFs por transformadas wa- Da Fig. 1 pode-se observar que na a rea de bai-
velets e ltros esparsos [5, 6, 7], onde obteve-se xas freque ncias (de 20 Hz a 1kHz) nao ha pratica-
uma reduca o de aproximadamente 70% em relaca o mente variaca o no modulo das HRTFs em funca o do
a sua implementaca o tradicional. Assim, uma HRIR a ngulo de azimute. Este padrao se mantem para as
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 20
subbanda 0
0.05
demais elevaco es onde se tem medica o das HRTFs. 0
As variaco es no modulo e na fase das HRTFs e as 0.05
diferencas entre as HRTFs de direco es diferentes au- 0.3

1 2 3 4 5 6 7 8 9 10 11 12
subbanda 1
0.2
xiliam na identicaca o da localizaca o da fonte so- 0.1
0
nora. Como em baixas freque ncias nao ha pratica- 0.1
1 2 3 4 5 6 7 8 9 10 11 12
mente diferencas, nessa faixa as HRTFs nao forne- 0.1
subbanda 2
0
cem informaca o necessaria para o reconhecimento da 0.1
0.2
0.3
direca o. Neste caso, prevalecem as diferencas in- 2 4 6 8 10 12 14 16 18
teraurais de tempo e de nvel de pressao sonora na
subbanda 3
0.1
0
0.1
discriminaca o da direca o [8, 9]. 0.2
5 10 15 20 25 30
M ODELAGEM DAS HRTF S COM A T RANS -
subbanda 4
0.1
Esquerdo
0 Direito
FORMADA WAVELET 0.1
5 10 15 20 25 30 35 40 45 50
Coeficientes
Nessa abordagem a HRIR e vista como um sistema
de resposta impulsional nita (FIR) e a modelagem e
realizada com base na decomposica o polifasica da sua Figura 3: Coecientes dos ltros esparsos de cada
funca o de transferencia [10, 11, 12], como mostrado subbanda e de cada ouvido para a direca o (0 , 90 ).
na Fig. 2.
ecientes obtidos com a modelagem atraves de wave-
x(n) lets para reduzir o custo computacional e tornar um
H 0(z) G0 (z L 0 ) sistema de realidade virtual acustica mais eciente.
Primeiro sera utilizado um procedimento para redu-
zir o numero total de coecientes esparsos, conside-
H 1(z) G1 (z L 1 ) rando um criterio de perda de energia das HRTFs.
Em seguida, o custo de implementaca o das HRTFs de
direco es proximas sera reduzido, considerando a simi-
laridade dos coecientes.
y(n)
HM-1 (z) GM-1 (z L M-1 ) do Numero
Reducao de Coecientes
A reduca o do numero de coecientes e obtida
Transformada Wavelet Filtros Esparsos
atraves de uma analise da energia acumulada dos co-
ecientes em cada subbanda. Contudo, a energia de
Figura 2: Sistema que utiliza a transformada wavelet cada HRTF varia conforme a direca o. Os valores
para modelagem de uma HRTF. maximo e mnimo de energia ocorrem para os a ngulos
de azimute de 90 e 270 , respectivamente. Dessa
Na Fig. 2 o banco de ltros de analise Hm (z) imple- forma, um criterio de energia nao deve ser denido em
menta uma transformada wavelet discreta e os ltros termos absolutos, mas sim em percentuais de energia
esparsos Gm (zLm ) sao ltros cujos coecientes pro- em cada subbanda, para cada direca o.
porcionam uma resposta impulsiva igual a` HRIR da
A energia da HRIR E(, ) e dada por
direca o que esta sendo modelada [13]. Os ltros base
utilizados na implementaca o da transformada wavelet
N1
foram selecionados por apresentarem a melhor relaca o E(, ) = p2, (n), (1)
custo/benefcio entre a seletividade e o comprimento n=0
[7]. Apos diversos testes com diferentes ltros, in- onde N e o comprimento da HRIR p, (n).
clusive biortogonais, os ltros prototipos Daubechies A energia por subbanda E m (, ) e dada por
de comprimento 8 (daub8) [14] foram empregados em
quatro estagios em uma estrutura de decomposica o em K
m 1
oitavas. E m (, ) = g2m,k (, ), (2)

Como exemplo, na Fig. 3 estao apresentados os co- k=0
ecientes dos ltros esparsos Gm (zLm ) que modelam onde Km e o numero de coecientes esparsos da sub-
as HRTFs de cada ouvido para a direca o denida pela banda m.
elevaca o = 0 e o azimute = 90 (fonte situada a A contribuica o cumulativa de cada coeciente es-
90 a` direita do ouvinte). parso, em cada subbanda, pode ser observada na
Fig. 4, para o ouvido direito e direca o = 0 e
REDUC
AO DO CUSTO COMPUTACIO-
= 90 . A soma das energias acumuladas em cada
NAL subbanda fornece a energia total da HRIR.
Nesta seca o sao apresentadas duas tecnicas basea- Conforme pode ser observado na Fig. 4, a ener-
das nas caractersticas espectrais das HRTFs e dos co- gia cumulativa na terceira banda, por exemplo, atinge
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 21
do Numero
Reducao
de Direcoes
subbanda 0
1
Os coecientes de cada subbanda sao responsaveis
0
1 2 3 4 5 6 7 8 9 10 11 12
por uma regiao do espectro da HRTF e a inuencia
subbanda 1
20 desses coecientes nas demais bandas depende da se-

0 letividade dos ltros prototipos utilizados na estru-
1 2 3 4 5 6 7 8 9 10 11 12
tura em oitavas. Considerando que o prototipo uti-
subbanda 2
20
lizado (daub8) possui uma relaca o satisfatoria entre
0
2 4 6 8 10 12 14 16 18
seletividade e custo de implementaca o (comprimen-
subbanda 3
20 tos dos ltros Hm (z) e atrasos produzidos), peque-

10 nas variaco es nos valores dos coecientes das ban-
0
5 10 15 20 25 30 das 0 e 1 (freque ncias mais baixas) nao produzem
subbanda 4
10
5
alteraco es signicativas nas demais bandas. O erro
0
medio quadratico para as demais bandas e da ordem
5 10 15 20 25 30 35 40 45 50
Coeficientes de -40 dB. Por outro lado, variaco es nos coecientes
da u ltima banda provocam alteraco es em todo o es-
Figura 4: Energia cumulativa dos coecientes espar- pectro, devido a` baixa seletividade do ltro de analise
sos para a direca o = 0 e = 90 , para o ouvido nessa banda.
direito. Se considerarmos uma regiao do espaco ao redor
do receptor (denida por um intervalo de valores de
elevaca o e azimute) [16], dentro dessa regiao havera
valor consideravel somente apos o terceiro coeci- diversas HRTFs que por sua vez serao substitudas
ente e tem praticamente toda energia acumulada ate pelas funco es reduzidas, conforme a modelagem pro-
o setimo coeciente. Assim, se desprezarmos os posta. Analisando os coecientes obtidos em uma de-
coecientes anteriores ao terceiro e posteriores ao terminada banda para todas as direco es pertencentes
setimo nesta banda restarao apenas cinco coecientes. a essa regiao do espaco, observa-se que os coecien-
Esta mesma analise e aplicada a todas as subbandas, tes relativos a` s baixas e medias freque ncias possuem
porem denindo-se limites de tal forma que a energia pouca variaca o. Para bandas mais altas, a variaca o dos
total perdida com os coecientes nao-signicativos coecientes e mais acentuada. Isto e esperado por dois
seja no maximo 10% da energia da HRIR original. motivos: a baixa seletividade dos ltros das bandas
Aplicando o criterio descrito em [7] para todas as mais altas e a grande variaca o existente entre os es-
direco es, obtem-se os intervalos (janelas) descritos na pectros das HRTFs em alta freque ncia.
Tab. 1. Esses intervalos garantem que havera uma Considerando a direca o = 0 e = 90 como
perda maxima de 10% de energia em cada HRTF. En- principal e utilizando um a ngulo de abertura de 40
tretanto, para diversas direco es a perda nao e maxima. tanto na elevaca o quanto no azimute, tem-se uma
Como mostrado em [7], a perda de 10% da energia to- regiao cujas extremidades sao 20 < < 20 e
tal da HRTF atraves da reduca o dos coecientes espar- 70 < < 110 . A Fig. 5 apresenta na primeira co-
sos produz menos erros em frequencia do que a perda luna os coecientes de todas as HRTFs percententes
direta de coecientes das HRIRs. Uma analise do erro a esta regiao, por subbanda. Nessa gura pode-se ob-
devido a` reduca o dos coecientes e apresentada em servar a variaca o dos valores dos coecientes devida a`
[15] variaca o de direca o. Na segunda coluna sao apresenta-
das, por subbanda, as curvas correspondentes a` media
Prototipo subbanda total e a` media mais o desvio padrao dos coecientes.
Daub8 0 1 2 3 4 K Analisando as variaco es dos valores dos coecien-
Intervalos 1-6 3-7 4-7 3-9 3-8 tes, verica-se que os maiores desvios ocorrem nas
No. coefs. 6 5 4 7 6 28 duas u ltimas bandas. Se nao ha praticamente variaca o
nos coecientes das bandas mais baixas, e uma pe-
Tabela 1: Intervalos e numero de coecientes signi- quena variaca o nao e capaz de introduzir distorco es
cantes dos ltros esparsos para cada subbanda. consideraveis na resposta em freque ncia, devido a` se-
letividade dos ltros da wavelet, entao e possvel utili-
Dessa forma, o numero de coecientes pode ser re- zar um conjunto comum de coecientes para a mesma
duzido para aproximadamente 30% do total se consi- banda de todas as HRTFs da regiao.
derarmos em cada subbanda apenas os coecientes de Substituindo-se os coecientes originais da primeira
maior signicancia. A energia perdida com o descarte subbanda de uma dada HRTF da regiao pela media dos
de coecientes e de no maximo 10% da energia total coecientes da primera subbanda de todas as HRTFs
da HRTF e nao altera signicativamente o conteudo da mesma regiao, verica-se que essa modicaca o re-
espectral das mesmas. No exemplo da Fig. 4, a ener- almente nao introduz variaca o que afete a percepca o
gia perdida e de apenas 4%, pois esses intervalos fo- da direca o do som processado. Isto pode ser obser-
ram obtidos com uma media para todas as direco es. vado na Fig. 6, onde o modulo e a fase da resposta em
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 22
Coeficientes Mdia e Mdia mais Desvio Padro
0.1 0.1 5
subbanda 0
0
0 0
5
Modulo (dB)
0.1 0.1
1 2 3 4 5 1 2 3 4 5 10
0.5 0.5
subbanda 1
15
0 0 20
25
0.5 0.5
1 2 3 4 5 6 1 2 3 4 5 6
1 1 30
2 3 4
subbanda 2
10 10 10
0 0 (a)
1 1 3
1 2 3 4 5 6 1 2 3 4 5 6
0.5 0.5
subbanda 3
0 0 1
Fase (rad)
0.5 0.5 0
2 4 6 8 2 4 6 8
0.2 0.2 1
subbanda 4
0 0 2 Original
Media banda 0
3
0.2 0.2 2 3 4
1 2 3 4 5 6 7 1 2 3 4 5 6 7 10 10 Frequencia (Hz) 10
Figura 5: (a) Variaca o dos coecientes de cada banda 0
5
para as HRTFs de uma regiao e (b) media e media mais
Modulo (dB)
10
desvio padrao dos coecientes. 15
20
25
freque ncia da HRTF original (coecientes originais) 30

2
10 10
3 4
10
sao comparados com os da HRTF onde os coecientes (b)
da primeira banda foram substitudos pela media dos 3
coecientes de todas as primeiras bandas. A Fig. 6 2
1
apresenta o resultado obtido para a direca o (0 , 90 ),
Fase (rad)
0
para ambos ouvidos. Este comportamento e similar 1
ao das demais direco es dessa regiao. 2 Original
Media banda 0
Utilizando a media dos coecientes das duas primei- 3
2 3 4
10 10 Frequencia (Hz) 10
ras bandas obtem-se o resultado apresentado na Fig. 7.
A Fig. 8 apresenta o resultado obtido utilizando-se os
Figura 6: Comparaca o de modulo e fase entre as res-
coecientes medios das tres primeiras bandas.
postas em freque ncia para a direca o (0 , 90 ), subs-
A partir dos gracos apresentados nas Figs. 6 a 8 tituindo os coecientes da primeira banda pelos co-
pode-se vericar que a substituica o dos ltros espar- ecientes medios: (a) ouvido esquerdo e (b) ouvido
sos responsaveis pelas baixas e medias freque ncias direito.
nao afetam signicativamente as resposta em
freque ncia das HRTFs pertencentes a essa regiao do 5
espaco. 0
Dessa forma um consideravel ganho computacio- 5

Mdulo (dB)
10
nal pode ser obtido se, ao inves de processamos to- 15
das subbandas de todas as direco es da regiao, realizar- 20
mos o processamento individual apenas das u ltimas 25
subbandas de cada direca o (HRTF) e apenas uma 30

2
10 10
3 4
10
vez as primeiras subbandas, visto que estas serao

iguais para todas as direco es da regiao. Tomemos 3
como exemplo uma regiao com 25 direco es e cada 2
1
direca o com 28 coecientes esparsos, conforme a
Fase (rad)
0
Tab. 1. Sem a utilizaca o do metodo proposto, se- 1
riam necessarias 25 28 = 700 operaco es de soma 2 Original
Mdia bandas 0 e 1
e multiplicaca o. Utilizando-se a media das bandas 0 3
2 3 4
10 10 10
e 1 em substituica o dos coecientes originais, serao
necessarias apenas 11 + 25 17 = 436 operaco es,
Figura 7: Comparaca o entre as respostas em
proporcionando uma reduca o de 37,7% na carga com-
freque ncia para a direca o (0 , 90 ), substituindo os co-
putacional.
ecientes das duas primeiras bandas pelos respectivos
Fica evidente que quanto maior for a regiao (maio- coecientes medios.
res a ngulos de abertura) maior sera o ganho computa-
cional. A analise apresentada neste artigo refere-se a
regioes com a ngulo de abertura de aproximadamente o ganho computacional e a qualidade de auralizaca o,
40 ao redor de uma direca o principal. E importante que sera inuenciada pelos desvios nas respostas
ressaltar que ha uma relaca o de compromisso entre em freque ncia das HRTFs em funca o do numero de
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 23
0
97, no. 6, pp. 39073908, 1995, MIT website:
5
http://sound.media.mit.edu/KEMAR.html.
Mdulo (dB)
10
15 [5] J. C. B. Torres, M. R. Petraglia, and R. A. Tenen-

20 baum, Auralizaca o de salas utilizando wavelets
25
30
para modelagem das HRTFs, Seminario de En-
2
10
3
10
4
10
genharia de Audio, 2002.
3 [6] J. C. B. Torres and M. R. Petraglia, Perfor-
2
mance analysis of an adaptive lter employing
1
wavelets and sparse sublters, in EUSIPCO
Fase (rad)
1
2000, Sep 2000, vol. II, pp. 9971001.
2 Original
3
Mdia bandas 0,1 e 2 [7] J. C. B. Torres, M. R. Petraglia, and R. A. Tenen-
2
10
3
10
4
10 baum, An ecient wavelet-based HRTF model
for auralization, Acustica/Acta Acustica, vol.
Figura 8: Comparaca o entre as respostas em 90, no. 1, Jan 2004.
freque ncia para a direca o (0 , 90 ), substituindo os co-
ecientes das tres primeiras bandas pelos respectivos [8] F. L. Wightman and D. J. Kistler, The dominant
coecientes medios. role of low-frequency interaural time dierences
in sound localization, J. Acoust. Soc. Am., vol.
91, no. 3, pp. 16481661, Mar. 1992.
direco es englobadas em um regiao do espaco. Assim,
diversos testes subjetivos serao ainda necessarios a m [9] F. L. Wightman and D. J. Kistler, Monaural
de avaliar, sob o aspecto psico-acustico, quais sao os sound localization revisited, J. Acoust. Soc.
a ngulos de abertura e as direco es principais que forne- Am., vol. 101, no. 2, pp. 10501063, Feb. 1997.
cem a melhor relaca o qualidade/ganho computacional.
[10] P. P. Vaidyanathan, Multirate Systems and Fil-

CONCLUS OES ter Banks, Prentice-Hall, Englewood Clis, New
Jersey, 1993.
Neste artigo foi apresentado um sistema para
auralizaca o com complexidade computacional re- [11] G. Strang and T. Nguyen, Wavelets and Filter
duzida, baseado em um modelo eciente para as Banks, Wellesley-Cambrigde-Press, Cambrigde,
HRTFs e no agrupamento destas funco es para direco es 1997.
proximas. Este agrupamento e possvel devido a` simi-
laridade dos coecientes do modelo correspondentes [12] M. Vetterli and J. Kovacevic, Wavelets and Sub-
a` s freque ncias baixas das HRTFs. Atraves da analise band Coding, Prentice-Hall, Englewood Clis,
do erro gerado pela simplicaca o proposta, podem ser New Jersey, 1995.
denidos os a ngulos de abertura (azimute e elevaca o)
[13] J. C. B. Torres, M. R. Petraglia, and R. A. Te-
e o numero de direco es agrupadas, sem que a quali-
nenbaum, HRTF modeling using wavelet de-
dade do sistema de a udio 3D seja prejudicada, con-
composition, XIV Congresso Brasileiro de Au-
siderando sua aplicaca o em um sistema de realidade
tomatica, pp. 22082213, Sep 2002.
virtual acustica (acustica de salas).
[14] I. Daubechies, The wavelet transform, time-

REFER ENCIAS
BIBLIOGR AFICAS frequency localization and signal analysis,
[1] J. Blauert, Spatial Hearing, The MIT Press, IEEE Trans. Inform. Theory, vol. 36, pp. 961
Cambridge, 1997. 1005, Sept. 1990.
[2] V. R. Algazi, R. O. Duda, D. M. Thompson, [15] J. C. B. Torres, M. R. Petraglia, and R. A. Te-
and C. Avendano, The cipic hrtf database, nenbaum, Low-order modelling of head-related
in WASPAA 01 (2001 IEEE ASSP Workshop transfer functions using wavelet transform, IS-
on Applications of Signal Processing to Audio CAS 2004, 2004.
and Acoustics), Oct. 2001, CIPIC website:
http://interface.cipic.ucdavis.edu/. [16] J. C. B. Torres, M. R. Petraglia, and R. A. Te-
nenbaum, Low-order modeling and grouping of
[3] F. L. Wightman and D. J. Kistler, Resolution of hrtfs for auralization using wavelet transforms,
front-back ambiguity in spatial hearing by liste- ICASSP 2004, 2004.
ner and source movement, J. Acoust. Soc. Am.,
vol. 105, no. 5, pp. 28412853, May 1999.
[4] W. G. Gardner and K. D. Martin, HRTF mea-
surements of a kemar, J. Acoust. Soc. Am., vol.
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 24
___________________________________
Artigo de Congresso
___________________________________
AVALIAO OBJETIVA DE PARMETROS SONOROS EM
SALAS: DIAGNSTICO DE QUALIDADE ACSTICA EM
IGREJA LUTERANA - SP
Bianca Carla Dantas de Arajo (1), Maria Luiza Belderrain (2), Thas Helena Luz Palazzo (3), Sylvio
Reynaldo Bistafa (4)
FAU-USP, Ps-graduao em Tecnologia da Arquitetura
01240-001, So Paulo, SP, Brasil
(1) dantasbianca@gmail.com
(2) mlacustica@hotmail.com
(3) thaispalazzo@yahoo.com.br
(4) sbistafa@usp.br
RESUMO
A qualidade acstica das salas tem por objetivo otimizar a gerao e recepo de informaes, visando o uso a que
so destinadas. Os requisitos para se alcanar uma boa qualidade sonora esto diretamente relacionados a
geometria do local e suas dimenses, caractersticas das superfcies internas e materiais de acabamento, entre
outras. O presente trabalho pretende avaliar a qualidade acstica de uma igreja, a partir dos parmetros objetivos e
subjetivos de anlise, obtidos a partir do software de medies AURORA e da simulao computacional no
software CATT-ACOUSTICS. Os resultados indicam baixa inteligibilidade da fala, mostrando que o espao
construdo no corresponde ao propsito para o qual foi idealizado.
internas nos recintos, que se baseiam no objetivo

INTRODUO fundamental de se conseguir otimizar a gerao e recepo de
Os esforos tcnicos para reduzir o nvel de rudo informaes, ou seja a comunicao. Os recintos referidos
num dado local procedente de um recinto contguo exterior, so aqueles em que o comportamento do som definido pelo
ou deste local para os recintos adjacentes, constituem o que uso destinado ao espao, e so comumente denominados
se convencionou chamar de acstica destrutiva. J a salas.
acstica construtiva seria aquela com os esforos dirigidos Os requisitos exigidos a um recinto para se conseguir
a aperfeioar os nveis sonoros que se deseja conceber num uma qualidade acstica satisfatria variam segundo o uso a
local com um mnimo de interferncia (SANCHO, 1982). que estabelecido. Alguns destes requisitos esto
Referindo-se a esta acstica construtiva, o diretamente relacionados com a geometria do local, outros
aperfeioamento acstico define as condies sonoras com suas dimenses, caractersticas das superfcies interiores,
DANTAS DE ARAJO ET AL. QUALIDADE SONORA EM IGREJA LUTERANA
e at com a implantao do recinto dentro do edifcio e deste de parmetros sonoros subjetivos e objetivos, com vistas a
em relao outra rea exterior. adequao do espao ao uso concebido; alm de permitir uma
Cada sala exige critrios e condies particulares comparao dos mtodos propostos para anlise.
tanto para a comunicao como para o conforto acstico
(SANCHO, 1982). Os critrios gerais de definio de
acstica de salas estabelecem a qualidade sonora das mesmas, PROCEDIMENTOS METODOLGICOS
como o tempo de reverberao, por exemplo, porm so Caractersticas gerais da edificao
especificados em relao ao seu uso. Podem ser critrios
A sala selecionada uma Igreja Luterana Igreja da
objetivos e subjetivos, estando sempre relacionados entre eles
Paz, localizada na Rua Verbo Divino, 392, Granja Julieta,
e o uso a que se referem, conforme mencionado.
So Paulo/SP. O uso predominante para a palavra falada
O tempo de reverberao era o nico parmetro (cultos) e, eventualmente, msica (apresentaes de corais e
acstico que relacionava o fenmeno fsico com as orquestra de cmara); possui uma rea em planta de 250 m2 e
impresses produzidas nas pessoas. Hoje, parmetros um p-direito mdio de 9,0 m perfazendo um volume
diferentes podem relacionar o comportamento fsico da sala aproximado de 2.250 m3. A forma hexagonal da planta da
com diferentes tipos de sensaes auditivas. Essas sensaes edificao possui como programa de necessidades um altar,
podem ser descritas como, por exemplo: intensidade, platia e balco. Os acessos so: entrada principal pela parede
impresso espacial, clareza, brilho, presena, dentre outros da frente; acesso alternativo pela parede lateral esquerda;
(GERGES, 2000). acesso ao balco por escada estruturada em parte da parede
A garantia de nveis de rudo compatvel com as lateral esquerda.
atividades humanas tem sido a principal componente do As superfcies so constitudas por piso altar em
conforto acstico em ambientes. No entanto, a acstica mrmore; piso platia em granito; escada em mrmore; piso
arquitetnica vem se desenvolvendo no sentido de propiciar balco em madeira (taco); paredes em alvenaria rebocada e
algo mais aos usurios de ambientes diversos a qualidade pintada; janelas em vitrais; portas e bancos em madeira; teto
sonora. abobadado em laje macia pintada. (Figuras 1 e 2).
Entende-se por qualidade sonora, um conjunto de
atributos acsticos subjetivos que venham de
encontro s expectativas da experincia acstica do
ouvinte. Conscientemente ou no, a expectativa do
usurio de uma sala de conferncias, que esta
propicie condies acsticas para uma adequada
inteligibilidade da fala. Isto ir requerer baixos nveis
de rudo com certeza, porm algo mais necessrio
para a adequada comunicao oral neste ambiente.
(BISTAFA, 2005, p. 3)
Para cada finalidade da sala, h atributos acsticos
Figura 1 Planta Baixa da Igreja analisada
subjetivos que devem ser atendidos. Diferentemente da sala
onde o uso a palavra falada, ou seja, uma sala de
conferncia, onde a reverberao deve ser reduzida, numa
sala destinada msica, certa reverberao necessria, no
sentido de garantir a experincia acstica que o ouvinte
espera ao escutar msica (BISTAFA, 2005).
Os atributos no se encontram ainda totalmente
definidos para a maioria das salas de audio crtica, sendo
muitos dos existentes, alvo de considervel debate e
controvrsia, e por este motivo objeto de pesquisa e
desenvolvimento. Os atributos de uma sala de conferncias
so diferentes daqueles de uma sala destinada msica; Figura 2 Corte esquemtico da igreja analisada
envolvem muitas vezes vrias dimenses subjetivas. Na sala
destinada msica, um atributo subjetivo relevante sentir- Medies dos parmetros acsticos
se envolvido pela msica uma outra dimenso subjetiva O princpio das medies identificar os parmetros
(BISTAFA, 2005). objetivos de qualidade acstica da sala real, a partir da
Para tanto, necessrio dispor-se de um ndice que Resposta Impulsiva (RI). As medies foram viabilizadas
quantifique objetivamente esta impresso subjetiva. Neste com o uso do software Aurora, desenvolvido pelo prof.
sentido, existem alguns ndices mensurveis que se Angelo Farina (Itlia). A obteno da Resposta Impulsiva
correlacionam com algumas das dimenses subjetivas, que (RI) foi realizada a partir de trs sinais: Balo estourando;
so os parmetros objetivos, ainda, tambm, sujeitos a Multi MLS Signal; Sine Sweep (estes dois ltimos emitidos
discusses e pesquisas. pelo prprio programa de medio). A fonte sonora foi
De forma a contribuir com o contexto apresentado, posicionada no centro do altar e a captao dos sinais foi feita
o presente trabalho busca avaliar, por mtodos de medies e em trs locais da Igreja: na frente da audincia (P1), no fundo
simulaes, a qualidade acstica de uma sala com audio da audincia (P2) e no balco (P3), conforme Figura 3.
crtica, no caso uma igreja, a partir da interpretao e registro
O

Os sinais foram emitidos e captados com trplica, ou Aps essa etapa foi preciso fornecer ao software
seja, em cada ponto trs vezes, e a partir da retirada a mdia informaes a respeito dos materiais de acabamento das
aritmtica dos valores dos parmetros objetivos da resposta superfcies (descritos anteriormente), atravs de coeficientes
impulsiva encontrada. Foi um total de 27 medies (9 para de absoro sonora e coeficientes de difuso sonora, nas
cada ponto). frequncias de 125 Hz a 4 kHz, disponveis na literatura. A
variao desses coeficientes tem o intuito de calibrar o
modelo, de modo a se obter resultados mais prximos da
realidade.
O arquivo master.geo sintetiza todos esses dados,
enquanto os arquivos source e receiver referem-se ao
posicionamento da fonte sonora (centro do altar) e dos
receptores (pontos P1, P2 e P3).
ANLISE DA QUALIDADE ACSTICA

Escolha dos parmetros
O software Aurora fornece inmeros parmetros
acsticos que qualificam uma sala, tais como: tempos de
reverberao (T20, T30, Tuser), early decay time (EDT),
tempo central (Ts), definio (D50), clareza (C80), fora
(strength), etc.
A fim de comparar os mesmos parmetros que
tambm o software de simulao fornece, so apresentados
cinco deles: T30 (s), EDT (s), C80 (dB), D50 (%) e Ts (s). A
seguir so apresentadas as definies dos parmetros
Figura 3 Planta baixa da igreja analisada com destaque para
localizao dos pontos de medio
selecionados, conforme Barron (2000). Tem-se:
x T30 (s) tempo de reverberao: tempo que a energia
Os equipamentos e materiais utilizados nas medies foram: acstica dentro de um recinto leva para decair 30 dB
Computador porttil (Sager 2850); (usualmente de 5 dB a 35 dB), depois que a fonte
Microfone sem fio (Gemini UHF 1610); sonora cessada. O parmetro mais conhecido o T60,
Caixa de som (SP 5000); ou tempo de decaimento para a energia sonora diminuir
Potncia (Crown 460 CSL); 60 dB, o qual foi desenvolvido por Sabine (1922),
Pr-amplificador (Gemini PH 700); atravs da relao inversamente proporcional entre o
Cabos de conexo; volume da sala (m) e a quantidade de absoro total da
Trip RMW para caixa PA; sala (m sabine). Os valores de T60 para salas destinadas
Softwares: Adobe Audition; Aurora; Excel; fala variam entre 0,8 e 1,2 s.
Bales de festa (bexigas). x EDT (s) early decay time ou tempo do decaimento
As medies refletem a condio de sala vazia ou inicial uma medida da taxa de decaimento sonoro,
sem pblico. Os dados obtidos com o sinal MLS (maximum baseada na primeira poro de 10 dB do decaimento.
length sequence) apresentaram distores, em funo da Em espaos altamente difusos, onde o decaimento
igreja em questo ser muito reverberante (devido s suas linear, as duas quantidades: EDT e T60 sero idnticas.
superfcies lisas e refletoras), o que foi agravado pela O parmetro EDT mostrou ser mais bem relacionado
condio de ambiente vazio. sensao subjetiva de reverberao, do que o prprio
Com relao s medies executadas com estouro de tempo de reverberao (SCHROEDER, 1965).
balo, observou-se muita discrepncia entre algumas x C80 (dB) ou clareza objetiva est relacionada ao
frequncias, em certos parmetros. Por esse motivo, na equilbrio entre a clareza percebida e a reverberncia, o
anlise dos resultados, optou-se por desprezar tanto as que particularmente delicado no caso de audio
avaliaes realizadas com o sinal MLS, como com o estouro musical. Pode ser expressa por (Equao 1):
de balo. Esse procedimento procurou aumentar a
confiabilidade nos valores dos parmetros em geral. C80 (dB) = 10 log [energia chega < 80 ms do som direto]_ (1)
[energia chega depois de 80 ms do som direto]
Simulaes sonoras
As simulaes do desempenho acstico da Igreja Este parmetro tem equivalncia direta com a fala. Os
analisada foram desenvolvidas no software Catt-Acoustics. valores da clareza devem estar compreendidos entre 3 <
C80 < 0; quanto mais prximo a zero, melhor.
Foi necessrio adequar o modelo geomtrico 3D
(sistema Autocad), de modo a definir todas as superfcies x D50 (%) ou definio est diretamente relacionada ao
como planos formados por pontos no sistema ortogonal. O entendimento da fala. Corresponde razo direta entre a
trabalho grfico exigiu que os planos ficassem totalmente energia que chega aos primeiros 50 ms e a energia total.
fechados, tornando o modelo da igreja estanque ou sem Assim, D50 sempre um nmero entre 0,0 e 1,0. D50 >
vazamentos. 70% representa uma inteligibilidade de 95% da fala.
O

x Ts (s) ou tempo central representa o centro de gravidade De uma forma geral, as ordens de grandezas dos
da rea da resposta impulsiva integrada [equivalente a valores encontrados foram coerentes nos dois mtodos
um tringulo, no grfico: nvel de presso sonora (dB) x utilizados, no entanto, pode-se perceber que h um
tempo (ms)]. O tempo central indicado para a fala distanciamento bastante evidente dos valores ideais quando
corresponde a 70 ms. se considera a escala de variao, principalmente dos
parmetros D50 e Ts. Observa-se que estes parmetros,
Valores obtidos com os softwares Aurora e Catt- obtidos no software Catt-Acoustics, apesar de fora dos
Acoustics. valores recomendados, so melhores do que os obtidos com o
software de medio Aurora, porm ainda muito longe dos
As mdias obtidas em cada ponto, para cada
valores ideais para o uso da fala.
parmetro, relativas aos resultados do Aurora e do Catt-
Acoustics, comparados aos valores ideais ao local, lembrando A fim de permitir a comparao direta entre os dois
que seu uso principal para a fala, esto registradas nas mtodos, os grficos de cada parmetro so apresentados com
tabelas 1 e 2. Os resultados obtidos so bem distintos para os valores mdios dos seguintes parmetros analisados: T30,
cada ponto, devido sua localizao, principalmente em EDT, C80, D50 e Ts; com os resultados do Aurora e do Catt
relao fonte sonora. Acoustics para os pontos P1, P2 e P3 (Figuras 4 a 8).
Tabela 1 Valores obtidos no AURORA x critrios de qualidade T30

Param V. P1 Comp P2 Comp P3 Comp
Ideal 3,2
3,08 3,08
T30 3
1,0 s 2,87 >> 2,85 >> 2,66 >>
(s) 2,8
2,87
2,78
2,85
EDT 2,66
1,0 s 3,42 >> 3,26 >> 3,09 >>
(s)
2,6
(s)
2,4
C80 -3 a 0
- 4,2 < - 7,0 << - 5,2 < 2,2
(dB) dB
D50 2
70% 17,7 << 8,2 << 7,8 <<
(%) P1 P2 P3
Ts (s) 70 ms 246,5 >> 251,1 >> 260,6 >> AURORA
pontos
CATT
A tabela 1 mostra que todos os parmetros
Figura 4 - Grfico dos valores de T30
analisados: T30, EDT, C80, D50 e Ts esto desfavorveis, ou
seja, a Igreja em questo muito reverberante, o que implica
na baixa inteligibilidade da fala e falta de clareza. Entre os EDT
pontos analisados, o ponto P1 localizado na parte frontal da 3,6
igreja apresenta condies acsticas um pouco melhores do 3,42
3,4
que os pontos P2 e P3, em funo da proximidade em relao 3,26
referida fonte. 3,2
(s)
3,07 3,09
3 2,97
2,92
Tabela 2 Valores obtidos no CATT-ACOUSTICS x critrios de 2,8
qualidade
Param V. P1 Comp P2 Comp P3 Comp 2,6
. Ideal P1 P2 P3
T30 1,0 s 2,78 >> 3,08 >> 3,08 >> AURORA
(s) CATT
EDT 1,0 s 3,07 >> 2,97 >> 2,92 >>
(s) Figura 5 Grfico dos valores de EDT
C80 -3 a 0 - 0,8 ok - 1,4 ok - 2,1 ok
(dB) dB
D50 70% 34,6 < 30,5 < 26,0 <
(%)
Ts (s) 70 ms 175,1 >> 193,2 >> 197,2 >>
A tabela 2 mostra que os parmetros analisados: T30,

EDT, D50 e Ts esto desfavorveis, definindo falta de clareza
e entendimento da palavra falada. Entretanto, os valores de
C80 (dB) clareza - esto dentro da faixa ideal, Isso mostra
que a relao entre a energia sonora inicial (at 80 ms) e a
energia sonora tardia (aps 80 ms) boa.
Apesar disto, no define que a sala esteja adequada,
pois quanto mais prximo a zero o valor melhor; alm disso,
foi o nico parmetro cujo valor est dentro do considerado
ideal pela literatura, no sendo suficiente para caracterizar a
sala.
O

primeiro apresenta resultados maiores, o terceiro apresenta

resultados menores em relao a este, e vice versa. Este fato
C80
confirma o posicionamento mais desfavorvel em relao
0
-0,80
fonte sonora, que prejudica a comunicao, no caso da fala.
-1
-1,40
-2 -2,10 Outra constatao a de que as curvas obtidas para
-3 os 3 pontos: P1, P2 e P3, na simulao acstica, so muito
(dB)
-4 -4,20 prximas entre si, com uma tendncia linear, como pode-se
-5 -5,20
-6
observar nos grficos apresentados, com exceo do
-7 -7,00 parmetro T30. No caso do parmetro EDT, as curvas so
-8 quase coincidentes formando uma reta. Esses resultados
P1 P2 P3 diferem daqueles obtidos na medio, a qual no apresentou
AURORA similaridade entre as curvas para os diversos pontos.
CATT
Figura 6 Grfico dos valores de C80 CONCLUSES

A anlise da qualidade acstica da Igreja da Paz, feita
D50 atravs de medies acsticas, com o uso do software Aurora
e tambm da simulao computacional, com o uso do
40
software Catt-Acoustics, apresentaram concluses esperadas,
35 34,60
30 30,50 quando confirmaram tanto a percepo subjetiva tida in
25 26,00 loco pelos autores, quanto opinio emitida pelo pastor da
referida Igreja, de que a mesma no apropriada fala
(%)
20
17,70
15 (pregao), por ser muito reverberante, mesmo com pblico.
10 Apesar de ter sido realizado o estudo da sala vazia, os
8,20 7,80
5
valores identificados do tempo de reverberao esto muito
0
superiores ao ideal para fala, constatando-se que mesmo a
P1 P2 P3
audincia de pessoas no capaz de absorver o som a ponto
AURORA
de baixar um mnimo de aproximadamente 1,66 s,
CATT
considerando o valor menor de T30 (2,66 s) encontrado
Figura 7 Grfico dos valores de D50 independente do mtodo.
Outro resultado constatado fora a falta de correlao
Ts entre os resultados obtidos com os mtodos de medio e
simulao. Acredita-se que a diferena confirmada nos
300 resultados do Aurora e do Catt Acoustics deve-se s
250 246,5 251,1 260,6 seguintes questes:
Impreciso na definio dos coeficientes de difuso
(ms)
200 193,2 197,2

175,1
150 sonora e, em menor escala, dos coeficientes de absoro
sonora das superfcies da sala, na simulao;
100
P1 P2 P3
Necessidade de simplificao do modelo geomtrico 3D
da sala, para a simulao computacional, distanciando-o
AURORA do modelo real;
CATT
Realizao das medies e simulao com a sala vazia,
Figura 8 Grfico dos valores de Ts o que reala a condio reverberante do espao (pode-se
supor que na presena de audincia, parcial ou completa,
Os grficos mostram que as curvas em geral tm a devido absoro oferecida pelo pblico, a qualidade
mesma tendncia, com exceo do parmetro T30 no ponto acstica da igreja seja um pouco melhorada).
P1, que apresentam valores prximos medidos e simulados. Este trabalho ressalva a necessidade de mais estudos
Em dois dos parmetros C80 e D50 os valores obtidos no neste contexto, a fim de subsidiar a apurao, ou seja, a
Catt Acoustics so maiores do que os obtidos no Aurora, o melhoria dos mtodos utilizados para avaliar salas com
que representa resultados menos distantes dos valores ideais, audio crtica, alm de reviso e adaptao das normas
porm ainda no satisfatrios. existentes, e criao de outras mais especficas.
O mesmo acontece com o T30, que apresenta valores Em funo do distanciamento dos valores obtidos em
simulados maiores do que medidos, com exceo feita ao relao aos valores ideais, para os cinco parmetros
ponto P1 que est mais prximo fonte sonora; fato que pode pesquisados, nos dois mtodos analisados, indica-se a
ter interferido no resultado, j que este parmetro est necessidade de correo acstica sala considerada, Igreja
diretamente relacionado ao tempo de reverberao, ou seja, Luterana da Paz.
tempo que a energia acstica dentro de um recinto leva para
decair 30 dB. REFERNCIAS BIBLIOGRFICAS
Pode-se observar nos grficos que h uma tendncia BARRON, M. (2000). Auditorium Acoustics and
de oposio dos resultados dos pontos P1 e P3. Quando o Architectural Design. E&FN SPON. 2000.
O

BISTAFA, S. R. (2005). Acstica Arquitetnica:

Qualidade Sonora em Salas de Audio Crtica. Descrio
detalhada. Acesso em out. 2005. Disponvel em:
www.poli.usp.br/p/sylvio.bistafa/ACUSARQ
GERGES, S.H.Y. (1992). Rudo: Fundamentos e Controle.

Departamento de Engenharia Mecnica da Universidade
Federal de Santa Catarina. 1 Edio, Florianpolis.
SANCHO, V.M., SENCHERMES A.G. (1982). Curso de

Acustica en Arquitectura. Colegio Oficial de Arquitectos de
Madrid, Madrid, 1982.
O

Artigo de Congresso
10a Convenc
ao Nacional da AES Brasil
08 a 10 de Maio de 2006, Sao Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edico es, correco
es ou con-
sideraco
es feitas pelo comite tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros
artigos podem ser adquiridos atraves da Audio Engineering Society, 60 East 42nd Street, New
York, New York 10165-2520, USA, www.aes.org. Informac oes sobre a seca
o Brasileira podem ser
obtidas em www.aesbrasil.org. Todos os direitos s ao reservados. N ao e permitida a reproducao
total ou parcial deste artigo sem autorizacao expressa da AES Brasil.
Avaliac
ao de Dois Novos M
etodos para Gerac
ao de Som 3D
Fabio P. Freeland1 , Luiz W. P. Biscainho1 , Paulo S. R. Diniz1
1
LPS PEE/COPPE & DEL/Poli, UFRJ
Caixa Postal 68504, Rio de Janeiro, RJ, 21941-972, Brasil
[freeland,wagner,diniz]@lps.ufrj.br
RESUMO
Este trabalho trata da gerac
ao de som tridimensional reproduzido atraves de fones de ouvido. Nesse contexto, os
autores desenvolveram recentemente duas novas tecnicas para interpolac ao de HRFTs (Head-Related Transfer
Functions) medidas para um conjunto finito de pontos ao redor de um ouvinte. Essas func oes modelam o
caminho do som da fonte sonora virtual a `s orelhas e, interpoladas, geram a ilus
ao do som em movimento.
Neste artigo, realizam-se avaliac
oes subjetivas daquelas tecnicas, comparando-as ao metodo bilinear triangular.
INTRODUC
AO guinte, s
ao mostradas as conguracoes dos testes subjetivos
A geracao de som tridimensional com fones de ouvido tem e os resultados obtidos. Por m, apresentam-se as conclusoes
sido bastante investigada nos u ltimos anos [1, 2, 3, 4, 5]. do trabalho.
Uma das tecnicas empregadas para se criar esse efeito e a
que utiliza as chamadas Func oes de Transferencia Relativas à
METODOS DE INTERPOLAC
AO
Cabeca (HRTFsHead-Related Transfer Functions). Essas Nesse trabalho, s ao comparados tres metodos de inter-
func
oes modelam o caminho entre a posic ao da fonte virtual polac
ao: o m etodo bilinear (chamado aqui de cl assico), o
e as orelhas e, como s ao medidas para um conjunto nito de m etodo com IPTFs e o metodo incremental sobre os coe-
posic
oes ao redor do ouvinte, devem ser interpoladas para se cientes da KLT (KLT incremental). Esses tres metodos
poder posicionar a fonte em qualquer outra posic ao. Essa consideram que s ao conhecidas as HRIRs de determinadas
interpolac
ao normalmente e feita sobre as respostas ao im- posic
oes sobre uma casca esferica ao redor do ouvinte, e
pulso correspondentes a cada HRTF, chamadas de Respostas obtem a funcao interpolada como uma combinac ao linear de
ao Impulso Relativas ` a Cabeca (HRIRsHead-Related Im- tr
es HRIRs relativas aos pontos que formam uma regi ao tri-
pulse Responses) [6]. angular que contem a posic ao desejada.
Recentemente, os autores do presente artigo desenvolve- A diferenca basica entre esses metodos est a no tipo de
ram duas tecnicas de interpolac ao: uma baseada em uma func
ao ao qual s ao aplicados os ponderadores calculados.
func
ao auxiliar chamada de Func ao de Transferencia Interpo- Para uma dada posic ao, o valor dos ponderadores nos tres
sicional (IPTFInterpositional Transfer Function) que re- casos sao os mesmos, calculados atraves das dist ancias angu-
duz a complexidade computacional do procedimento de inter- lares entre as posicoes que formam a regiao triangular onde
polac
ao [7]; e outra que interpola incrementalmente os coe- se encontra a posicao desejada, como no metodo cl assico [10].
cientes da transformada Karhunen-Loève (KLTKarhunen- No caso do metodo KLT incremental, esses ponderadores
Loève Transform) relativos ` as HRIRs [8]. Naqueles traba- s
ao utilizados somente para se interpolar a HRIR da posic ao
lhos, foram realizadas comparac oes atraves de medidas obje- desejada na primeira vez que se entra em uma determinada
tivas que indicaram que o desempenho dos metodos propostos regiao triangular. A partir dessa primeira interpolac ao, se
equivalem ao de um metodo cl assico de interpolac
ao chamado nao houver mudanca de regi ao, a interpolac
ao incremental
de bilinear [3, 9, 10]. apenas corrige o valor da func ao de acordo com a diferenca
No presente artigo, realiza-se a avaliac ao subjetiva des- entre as posic
oes anterior e atual [8].
ses dois metodos e compara-se o resultado ao atingido com
o m etodo bilinear. Na pr oxima secao, faz-se uma breve ex-
M
etodo Cl
assico
Na Fig. 1, pode-se ver um setor de uma esfera, sobre a qual fo-
planacao sobre os metodos propostos em [7, 8]. Na sec ao se-
ram medidas as HRIRs dos pontos A, B, C e D. Nesse caso, os
FREELAND ET AL. AVALIAO DE DOIS NOVOS MTODOS PARA GERAO DE SOM 3D
FREELAND ET AL. AVALIAC DE DOIS NOVOS METODOS

AO PARA GERAC DE SOM 3D
AO
grid
hA (k) wA
A
B A canal
. . sinal hB (k) wB esquerdo
monaural z
ou direito
P X
grid
hC (k) wC
D
.
C Figura 2: Estrutura da interpolac

ao cl
assica.
AC
h(k)
Figura 1: Detalhe das regi
oes triangulares sobre a esfera
1 (, ) 1 (k)
de referencia.
canal
sinal z 2 (, ) 2 (k) esquerdo
ponderadores utilizados pelos metodos de interpolac
ao men- monaural ou direito
cionados para um determinado ponto P podem ser obtidos
a partir das coordenadas de elevacao e de azimute de
M (, ) M (k)
acordo com
Figura 3: Diagrama da representac
ao pela KLT.
wC = , wB = , (1)
grid grid
realiza a interpolac
ao atraves da Eq. (7) utilizando a HRIR
wA + wB + wC = 1, (2) medida relativa ao ponto mais pr oximo do ponto P e duas
sendo as dist
ancias angulares denidas como HRIRs aproximadas pela cascata desta HRIR medida e duas
IPTFs (uma para cada aproximac ao).
= P A , = P X , (3) A IPTF pode ser denida como
HRTFf
grid = B A e grid = C A . (4) IPTFi,f = , (8)
HRTFi
Como pode ser visto na Figura 1, deve-se calcular a dist
ancia
onde HRTFi e HRTFf s ao as HRTFs associadas com os pon-
em func ao das coordenadas dos pontos envolvidos na in-
tos inicial e nal, respectivamente.
terpolac
ao. Assim, como
Seguindo a nomeac ao de vertices explicada anteriormente,
A as HRTFs relativas ao ponto P, como na Eq. (7), podem ser
= , (5) descritas por
grid AC
pode-se obter HRTFP = HRTFA (wA + wB IPTFA,B + wC IPTFA,C ), (9)
onde os pesos wA , wB e wC s ao calculados atraves das

= A AC , (6) Eqs. (1) e (2). Nesse caso, o ponto mais proximo ao ponto P
e
grid o ponto A. Note que, para se obter reduc ao da complexidade
onde A = P A e AC = C A . computacional, deve-se utilizar o modelo de ordem reduzida
Deve-se notar que e a dist
ancia do ponto P ate o lado para as IPTFs obtidas pela Equac ao (8).
do tri
angulo que liga as duas elevacoes a partir do ponto A. M
etodo KLT Incremental
Na pratica, assume-se, sem perda de generalidade, que os Os coecientes da interpolaca o classica podem ser utiliza-
pontos A e B tem a mesma elevac ao. dos tambem sobre os coecientes de uma transformada cujas
De uma forma ou de outra, os metodos de interpolac ao func
oes da base representem as HRIRs [4, 12]. Em [8], foi pro-
partem das HRIRs referentes a cada um dos pontos (A, B posta uma forma incremental de se realizar a interpolacao no
e C) e, com os ponderadores, geram a HRIR do ponto P. domnio da transformada KLT.
Tendo-se as HRIRs medidas ou aproximadas1 , o resultado Com as funcoes-base j (k) da KLT do conjunto de HRIRs
nal da interpolac
ao
e descrito por medidas, torna-se possvel calcular a HRIR associada a cada
ponto (, ) sobre a esfera de referencia fazendo-se
hP (k) = wA hA (k) + wB hB (k) + wC hC (k), (7)
N
X
onde h() (k) e a HRIR do ponto () e h P (k)
e a HRIR do , k) = h(k) +
h(, j (, )j (k), (10)
ponto P. j=1
Deve-se notar que a interpolac ao e realizada sobre as
func
oes de fase mnima [11]. Para se obter a aproximac ao onde j (, ) s
ao as func
oes de coecientes a serem interpo-
nal o atraso da HRIR desejada deve ser includo na es- ladas, h(k) e a HRIR m edia do conjunto medido e N e o
trutura de interpolacao. Para isso, calcula-se o excesso de numero de funcoes-base utilizadas na representac ao. A KLT
fase de cada HRIR com relac ao `
a sua versao de fase mnima, consegue com um n umero reduzido de func oes-base concen-
que se aproxima muito de um atraso puro [9], e calcula-se trar quase toda a energia do conjunto representado. Com
atraves da ponderac
ao dos atrasos estimados das tres HRIRs isso, pode-se utilizar um numero M < N de func oes-base na
dos pontos A, B e C. representac
ao. A Fig. 3 mostra o diagrama em blocos que
A Fig. 2 mostra o diagrama em blocos do procedimento aproxima uma das HRIRs (canal direito ou esquerdo) de um
de interpolac
ao descrito para um dos canais (esquerdo ou sistema binaural atraves da KLT. A grande vantagem dos
direito) do sistema binaural. m etodos de interpolac
ao no domnio da transformada est a
no fato de que ao acrescentar-se mais uma fonte sonora vir-
M
etodo IPTF tual, o n
umero de multiplicac oes e acrescido apenas de M , ja
O metodo IPTF [1, 7] se aproveita da reduc
ao de ordem con- que sao os coecientes que contem a informac ao de direc
ao.
seguida para o modelo de IPTFs para diminuir a complexi- Partindo de um valor inicial, que pode ser interpolado
dade computacional da interpolac ao cl
assica. Esse metodo fazendo-se
1 j (, ) = wA j (A , A ) + wB j (B , B ) + wC j (C , C ),
O metodo classico utiliza as HRIRs medidas. N
ao
e ne-
cess
ario estim
a-las. (11)
4o CONGRESSO
CONGRESSO / 10a CONVENO
CONVENC NACIONAL DA AES BRASIL, SAO
AO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 / 10 NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 32

AO
4
x 10 pr
e-gravado, gerado segundo cada tipo de interpolac ao, a m
2 de que eles julguem o efeito percebido. A caracterstica a ser
Triangular
IPTF
julgada deve ser bem esclarecida aos avaliadores, e a forma de
1,5 Incremental resposta deve ser a mais simples possvel para que a resposta
seja quase imediata.
Para que a inu encia de qualquer diferenca seja facilmente
mpa
1 percebida, o tipo de sinal a ser apresentado tambem e im-

M=32 portante. O que se faz normalmente e utilizar algum tipo
de rudo que excite todos os modos do sistema auditivo. Um
0,5
M=16 tipo de rudo bastante utilizado e o chamado rudo rosa. Esse
tipo de rudo tem espectro de potencia com decaimento de 3
0
dB por oitava (10 dB por decada) com a freq u
encia. Como
0 10 20 30 40 a percepc
ao de energia ao longo da freq uencia e aproximada-
Nmero de fontes mente logartmica, esse decaimento com a freq uencia resulta
Figura 4: Comparac
ao da complexidade computacional. em uma percepc ao mais uniforme da energia. Em todos os
testes realizados utilizou-se rudo rosa obtido de [13].
onde wA , wB e wC s ao calculados pelas Eqs. (1) e (2) e as Trinta e tres pessoas com idades entre 20 e 40 anos e
func
oes j (A , A ), j (B , B ) e j (C , C ) s
ao os coecien- sem problemas auditivos diagnosticados foram submetidas
tes da KLT para as HRIRs das posic oes A, B e C, respecti- aos mesmos testes. Nenhuma delas tinha conhecimento es-
vamente, pode-se aproximar por pecco de som tridimensional, sendo a maioria leiga nesse as-

j (l , l ) =
j (l1 , l1 ) + j,l1 (12) sunto. Os testes foram realizados em grupos de 3 a 6 pessoas
e o controle de apresentacao de cada seq uencia foi feito pelos
os coecientes da l-
esima posicao angular partindo da posic
ao autores do presente artigo, sendo possvel a reapresentac ao
anterior (l 1). O incremento j,l1 aplicado aos pesos j de qualquer seq u
encia de acordo com a necessidade de algum
ao l 1 para a posic
da posic ao l pode ser calculado como usuario. A intensidade dos sinais foi regulada previamente,

j (, ) mas aos avaliadores era permitida a alterac ao do nvel de
j,l1 = (l l1 ) + volume. Utilizaram-se fones de ouvido fechados2 com am-

=l1 ao fornecida por equipamento dedicado de 8 canais3 ,
plicac
=l1 permitindo que se zessem ate 8 avaliac oes simultaneamente.
Nao foi realizada medicao do rudo de fundo no interior da
j (, )
+ (l l1 ) . (13) sala, mas com os fones de ouvido do tipo fechado utilizados,
o efeito do ja bem reduzido rudo ambiente p ode ser des-
=l1
=l1
considerado. Foi ainda sugerido que as pessoas fechassem os
olhos a cada sequ
encia. Para que a avaliac ao levasse em conta
Ao se trocar de regi ao triangular, deve-se utilizar nova- apenas o efeito dos metodos de interpolac ao, escolheram-se
mente a interpolac
ao dada pela Eq. (11). apenas posicoes onde a interpolacao e necessaria.
COMPLEXIDADE COMPUTACIONAL Verificac

ao de Mudanca de Posic
ao e/ou Timbre
A complexidade computacional de cada um dos metodos Para avaliar se os m etodos de interpolac ao s
ao equivalentes,
mencionados acima pode ser obtida em func
ao do n
umero o primeiro teste aplicado foi o de simples comparac ao entre
de fontes F , fazendo-se os sinais gerados em uma mesma posic ao. Nesse teste, cada
comparac ao foi feita entre dois trechos de sinal de 1 segundo
CC = (3N + 6)F CIP T F = (2Q + N + 6)F (14) de duracao, exibidos em seq uencia, com um intervalo entre
CKLT = 3M F + (M + 1)N, (15) eles tambem de 1 segundo. As posic oes foram escolhidas
onde CC , CIP T F e CKLT s ao os numeros de multiplicacoes de forma aleat oria e independente, segundo uma distribuic ao
necess
arias aos metodos cl assico, IPTF e KLT incremental. uniforme nos intervalos 180 < < 180o e 40o < < 90o .
o
N e Q sao os numeros de multiplicacoes associadas `

as HRIRs Foram geradas 35 seq u
encias em posic oes distintas, das
e IPTFs, respectivamente, e M e o n umero de func oes-base quais 20 contem uma comparac ao entre a interpolac ao
da KLT utilizadas na representac ao das HRIRs. cl
assica realizada diretamente com as HRIRs e uma das ou-
Na Fig. 4, tem-se um gr aco do n umero de multiplicacoes tras desenvolvidas em [7, 8]: a com IPTFs de ordem reduzida
em func
ao do n umero de fontes simult aneas. Pode-se notar ou a KLT incremental. As outras 15 seq u
encias sao forma-
que com pouco mais de dez fontes o metodo KLT incremental das por sinais identicos gerados com a mesma forma de inter-
j
ae mais eciente que o triangular. Comparando o KLT com polac
ao, sendo 10 com a interpolac ao cl
assica e as outras 5
o IPTF, v e-se que isso ainda e verdade para F > 17, no caso divididas de maneira aleat oria entre os outros metodos inter-
de M = 16. Com isso, pode-se dizer que os mais ecientes, polac
ao. As seq u
encias foram apresentadas em uma ordem
dendendo do n umero de fontes desejado, sao os m
etodos KLT aleatoria.
incremental e IPTF. O julgamento foi realizado pedindo-se que os avaliadores
dessem uma nota de 1 a 4 que indicasse qu ao perceptvel era
TESTES SUBJETIVOS a diferenca entre os sinais da mesma seq uencia quanto à mu-
Os m etodos de interpolac ao tratados neste artigo j a fo- danca na posic ao e no timbre do rudo (distorc ao e perda de
ram confrontados de forma objetiva contra o metodo cl assico delidade). Da maior para a menor, os signicados das no-
em [7, 8], onde foram comparadas as respostas em freq uencia tas eram Diferenca imperceptvel, Quase imperceptvel,
interpoladas ao longo das posic oes. Para uma efetiva va- Bem evidente e Muito acentuada, respectivamente.
lidacao dessas tecnicas, faz-se necess
ario algum tipo de ava- Na Fig. 5, podem-se ver as notas medias atribudas a cada
liac
ao subjetiva. um dos m etodos e os limites de um desvio-padr ao (linhas
Na presente secao, esses metodos sao comparados atraves horizontais acima e abaixo da media). Da esquerda para a
de tres testes subjetivos. Primeiramente, realiza-se a des- direita, veem-se as medias para os metodos: cl assico sobre as
re- HRIRs (considerado o padr ao), de IPTFs de ordem reduzida
cric
ao dos testes aplicados, indicando-se o seu objetivo. E
e KLT incremental. Pode-se notar que, apesar de haver um
alizada, entao, a analise dos resultados desses testes, obtendo-
decrescimento da media, ela ainda est a dentro da faixa do
se dela algumas conclus oes.
desvio da nota para o metodo cl assico.
Descric
ao dos Testes O m etodo de An alise de Vari ancia (ANOVAAnalysis
De maneira geral, os testes tem como princpio comparar
2
direta ou indiretamente os resultados dos metodos de inter- HD265, marca registrada da Sennheiser.
3
polac
ao. Em cada teste, apresenta-se aos avaliadores o som Powerplay Pro-8 HA8000, marca registrada da Behringer.
4o CONGRESSO

AO
5 0,5
4 0,4
Taxa de acerto
Nota Mdia
3 0,3
2 0,2
1 0,1
0
0 Clssico IPTF KLT
Clssico IPTF KLT
Figura 5: Medias das notas de diferenca entre o metodo Figura 7: Taxas de acerto para o teste de sentido do
cl
assico e todos os outros. movimento.
N
NO NE Tabela 1: Tabela de confusao. Percepc
ao do movimento
para o metodo cl
assico. Valores percentuais.
Sentido Gerado
N NE L SE S SO O NO
O L N 51,5 0 0 0 57,6 0 0 6,0
NE 0 48,5 39,4 42,4 0 0 0 0
Percebido L 0 33,3 42,4 42,4 0 0 0 0
SE 0 18,2 18,2 15,2 0 0 0 0
SO SE S 45,5 0 0 0 33,3 0 0 0
S SO 3,0 0 0 0 3,0 27,3 30,3 15,2
Figura 6: Sentidos testados na avaliac
ao de percepc
ao O 0 0 0 0 0 36,4 36,4 15,2
de movimento. NO 0 0 0 0 6,1 36,3 33,3 63,6
of Variance) [14, 15] indicou que as estimativas encontra-

das para as m edias tinham signicancia estatstica maior que Tabela 2: Tabela de confus
ao. Percepc
ao do movimento
99, 99%. Assim, as pequenas diferencas encontradas indi- para o metodo IPTF. Valores Percentuais.
cam grande similaridade entre os metodos na comparac ao Sentido Gerado
direta. Pode-se, ainda, conrmar que os resultados s ao bas-
tante pr
oximos pelo fato de a mesma diferenca percebida en- N NE L SE S SO O NO
tre o metodo classico (padrao) e os outros ter sido perce- N 42,4 0 0 0 36,4 3,0 0 3,0
bida entre o metodo cl assico e ele mesmo (primeira barra NE 6,1 57,6 21,2 33,3 6,0 0 0 0
na gura).
Percebido
L 0 30,3 60,6 39,4 6,1 0 0 0

Com relac ao `
a dispers
ao das notas em torno da media,
nota-se que houve um aumento aproximadamente igual para SE 12,1 9,1 18,2 27,3 6,0 0 0 0
todos os metodos, comparados ao cl assico. Isso indica uma S 36,4 3,0 0 0 45,5 0 0 0
certa diferenca entre cada metodo testado e o cl assico, mas SO 0 0 0 0 0 24,3 30,3 24,3
insuciente para alterar signicativamente a media para os O 3,0 0 0 0 0 39,4 36,4 33,3
33 avaliadores.
NO 0 0 0 0 0 33,3 33,3 39,4
Verificac
ao da Percepc
ao do Movimento
O segundo teste aplicado procurou avaliar como e percebido
o sentido do movimento. Para tanto, foram gerados 24 si-
nais, 8 para cada tipo de interpolac ao. Cada um desses 8 Tabela 3: Tabela de confus
ao. Percepc
ao do movimento
partia da posic ao (0, 0) (frente do ouvinte) e seguia por um para o metodo KLT incremental. Valores percentuais.
arco na superfcie da esfera em direc ao a um dos oito pon- Sentido Gerado
tos cardeais mostrados na Fig. 6 que est ao posicionados 20o
acima (N), abaixo (S), ` a esquerda (L) ou ` a direita (O), ou N NE L SE S SO O NO
est ao diagonal, com 20o para cima e `
ao na direc a direita (NE), N 54,5 0 0 0 51,5 3,0 0 3,0
para baixo e ` a direita (SE), para cima e ` a esquerda (NO) e NE 6,1 48,5 27,3 27,3 0 0 0 0
Percebido
para baixo e ` a esquerda (SO). Cada sinal tinha durac ao de L 3,0 33,3 57,6 27,3 6,0 0 0 0
5 segundos, sendo que no primeiro e no u ltimo segundo a
fonte virtual permanecia parada nas posic oes inicial e nal,
SE 6,1 18,2 12,1 45,4 6,1 0 0 0
respectivamente. Aos avaliadores perguntou-se para qual das S 30,3 0 3,0 0 36,4 0 0 0
8 posicoes a fonte havia se deslocado. SO 0 0 0 0 0 30,3 15,1 24,3
Na Fig. 7, podem-se ver os resultados das taxas de acerto O 0 0 0 0 0 39,4 45,5 21,2
para cada um dos metodos de interpolac ao. Nota-se que os NO 0 0 0 0 0 27,3 39,4 51,5
metodos de interpolac ao IPTF e KLT incremental conseguem
ser pouco melhores que o cl assico, podendo, portanto, subs-
titu-lo com alguma vantagem.
Esse teste indica que o metodo KLT incremental e pre- mostrado na Fig. 7, nota-se que h a uma pequena melhora
fervel na substituic
ao do cl assico, j
a que, alem de ser es- nas taxas de acerto (diagonal nas tabelas) para os metodos
truturalmente mais eciente para o caso de m ultiplas fontes, KLT incremental e IPTF, em relac ao ao metodo cl
assico. Isso
apresentou uma taxa de acertos mais elevada. ca mais evidente para o metodo KLT incremental. Pode-se
Nas Tabelas 13, pode-se observar o percentual das respos- perceber, tambem, que as maiores confus oes s
ao entre os sen-
tas dadas pelos avaliadores para cada sentido gerado. Como tidos N e S, entre os sentidos NO, SO e O e entre os sentidos
4o CONGRESSO

AO
F
FRENTE A Tabela 4: Tabela de confus ao. Percepcao da posic
ao
para o metodo cl
assico. Valores Percentuais.
E
Posic
ao Gerada ,
D
G A B C D E F G H
A 54,6 27,2 6,1 30,3 0 0 0 0
B
Percebida ,
B 18,2 15,2 21,2 18,2 0 0 0 0
H C 3,0 36,4 60,6 12,1 0 0 0 0
C D 24,2 21,2 12,1 39,4 0 0 0 0
E 0 0 0 0 51,5 36,4 27,2 33,3
Figura 8: Posicoes testadas na avaliac
ao de percepc
ao F 0 0 0 0 36,3 42,4 48,5 6,1
da posic
ao est
atica. G 0 0 0 0 6,1 9,1 9,1 12,1
H 0 0 0 0 6,1 12,1 15,2 48,5
0,5
0,4 Tabela 5: Tabela de confusao. Percepcao da posic

ao
para o metodo IPTF. Valores Percentuais.
Taxa de acerto
0,3 Posic
ao Gerada ,
0,2
A B C D E F G H
A 57,6 12,2 6,1 57,6 0 0 0 0
0,1
Percebida , B 0 24,2 21,2 9,1 0 0 0 0
C 0 24,2 60,6 9,1 0 0 0 0
0
Clssico IPTF KLT D 42,4 39,4 12,1 24,2 0 0 0 0
E 0 0 0 0 48,5 57,6 27,2 27,3
Figura 9: Taxas de acerto para o teste de posic
ao F 0 0 0 0 45,5 27,3 12,1 3,0
est
atica. G 0 0 0 0 6,0 9,1 15,2 9,1
H 0 0 0 0 0 6,0 45,5 60,6
NE, SE e L. De fato, a confus ao entre cima e baixo e a mais

evidente. A distinc
ao lateral
e feita em quase todos os casos. Tabela 6: Tabela de confusao. Percepcao da posic
ao
Deve-se chamar atenc ao tambem para o fato de as taxas de
acerto serem todas em torno de 40%, o que e justicavel [16] para o metodo KLT incremental. Valores Percentuais.
pela simplicidade do modelo, que s o leva em conta a posic
ao Posic
ao Gerada ,
angular da fonte. A B C D E F G H
Verificac
ao da Percepc
ao da Posic
ao Est
atica A 45,5 21,2 15,2 39,4 0 0 0 0
Percebida ,
O terceiro e u ltimo teste de avaliacao aplicado foi para ava- B 24,1 27,3 15,2 3,0 0 0 0 0
liar a ecacia de cada metodo com relac ao à percepcao da C 15,2 24,2 39,4 9,1 0 0 0 0
posic
ao estatica. Para esse teste, como no anterior, geraram- D 15,2 27,3 30,2 48,5 0 0 0 0
se 24 sinais, 8 para cada metodo de interpolac ao. Para cada
E 0 0 0 0 51,5 30,3 30,3 18,2
m etodo, posicionou-se a fonte virtual nas localizacoes referen-
tes a cada um dos cubos mostrados na Fig. 8. Foi pedido ` as F 0 0 0 0 30,3 42,5 12,1 9,1
pessoas que respondessem em qual dos cubos a fonte sonora G 0 0 0 0 6,1 24,2 21,2 15,1
estava posicionada, considerando que a posic ao do ouvinte H 0 0 0 0 12,1 3,0 36,4 57,6
na gura era representada pelo cruzamento dos eixos, que ele
estaria olhando na direc ao da seta e que o plano sombreado
passava na altura das orelhas.
Na Fig. 9, veem-se as taxas de acerto para cada um dos de acertos igual a 77,7%. O segundo melhor e o m etodo
m etodos de interpolac
ao. Nota-se novamente que os metodos KLT incremental (67,5%), praticamente junto com o metodo
IPTF e KLT incremental conseguem praticamente a mesma cl
assico (66,7%).
taxa de acertos que o cl assico, com ligeira vantagem para o Dessa forma, conclui-se que os metodos testados podem
KLT incremental. ser considerados bons substitutos para o metodo classico,
Nas Tabelas 46 pode-se ver o percentual das respostas com uma certa vantagem para o KLT incremental, que na
dadas pelos avaliadores para cada uma das posic oes geradas. comparacao direta e o mais ecaz. Ao se desconsiderar a
Pode-se notar que para nenhum m etodo houve confus ao late- confusao frente/tr
as, o metodo IPTF tamb
em se mostra um
ral (nenhum sinal pareceu estar vindo do lado oposto ` aquele bom substituto.
em que foi gerado). O que realmente acontece e a confus ao
frente/tras e cima/baixo. Esse tipo de confus ao
e considerada
CONCLUSOES
normal, j a que a fonte foi posicionada em pontos do mesmo Neste trabalho, mostrou-se o conjunto de resultados de uma
cone de confus ao. Apesar disso, o metodo incremental com a avaliac
ao subjetiva realizada para dois metodos de inter-
KLT obteve um n umero maior de acertos para a maioria das polac
ao de HRTFs recentemente desenvolvidos pelos autores
posic
oes. do presente artigo. Esses resultados mostram a equivalencia
Geralmente, retira-se do c alculo de erros o efeito da con- entre os metodos de interpolac
ao propostos recentemente e o
fusao frente/tras, comum a todos os metodos, para se conse- cl
assico.
guir uma comparac ao mais clara entre os metodos quanto ` a Os resultados obtidos com os metodos KLT incremental
identicacao da posic
ao [2]. Nesse caso, somando-se os valo- e IPTF podem ser considerados um pouco melhores que o
res percentuais de mesma elevac ao e azimutes de mesmo sinal cl
assico.
(mesmo lado), o metodo IPTF obtem um n umero maior de Portanto, chega-se à conclus
ao de que os metodos IPTF e
acertos para a maioria das posic oes, cando com uma media KLT incremental s ao fortes candidatos a substituir o metodo
4o CONGRESSO
FREELAND ET AL. AVALIAO DE DOIS NOVOS METODOS PARA GERAO DE SOM 3D

AO
cl
assico. O m etodo KLT incremental e especialmente cotado [15] MATLAB, Statistics toolbox. Math Works Inc.
quando se trata do caso com m ultiplas fontes, onde sua baixa [16] D. R. Begault, Perceptual efects of synthetic reverbe-
complexidade o torna bem mais vantajoso [8].
ration on three-dimensional audio systems, J. Audio
E importante notar que as taxas de acerto aparentemente
Eng. Soc., vol. 40, pp. 895904, November 1992.
baixas (em torno de 40%) devem-se ao fato de n ao ter sido re-
alizado nenhum treinamento dos ouvintes antes dos testes (os [17] C.-J. Tan and W.-S. Gan, Direct concha exitation for
avaliadores foram apresentados aos tipos de som no momento the introduction of individualized hearing cues, J. Au-
da avaliacao). Al em disso, o teste exigia muito da capaci- dio Eng. Society, vol. 48, pp. 642653, July/August
dade de abstrac ao de cada um, j
a que o ambiente virtual n ao 2000.
e completo, s o tratando da localizac

ao da fonte. Espera-se
que o modelamento de outros efeitos como as primeiras re-
ex oes (early reverberation) e a compensac ao do movimento
da cabeca [16] possam melhorar muito esses resultados [17].

REFERENCIAS
BIBLIOGRAFICAS
[1] F. P. Freeland, Gerac
ao eciente de som tridimensio-
nal, tese de doutorado, Universidade Federal do Rio
de Janeiro, Programa de Engenharia EletricaCOPPE,
Dezembro 2005.
[2] D. R. Begault, 3D Sound for Virtual Reality and Mul-
timedia. Cambridge, MA, USA: Academic Press, 1994.
[3] L. Savioja, Modeling Techniques for Virtual Acoustics.
Ph.D. thesis, Helsinki University of Technology, Depar-
tament of Computer Science and Engineering, Teleco-
munications Software and Multimedia Laboratory Es-
poo, Finland, December 1999.
[4] J.-M. Jot, S. Wardle, and V. Larcher, Approaches to
binaural synthesis, in AES 105th Convention, (Califor-
nia, USA), AES, September 1998. (preprint 4861).
[5] V. R. Algazi, R. O. Duda, and D. M. Thompson,
Motion-tracked binaural sound, J. Audio Eng. Soc.,
vol. 52, pp. 11421156, November 2004.
[6] B. Gardner and K. Martin, HRTF measurements of a
KEMAR dummy-head microphone, Technical Report
280, MIT Media Lab., Cambridge, MA, USA, May 1994.
[7] F. P. Freeland, L. W. P. Biscainho, and P. S. R. Diniz,
Interpositional transfer function for 3D-sound genera-
tion, J. of the Audio Eng. Soc., vol. 52, pp. 915930,
September 2004.
[8] F. P. Freeland, L. W. P. Biscainho, and P. S. R. Di-
niz, Interpolation of head-related transfer functions
(HRTFs): A multi-source approach, in Proceedings of
the XII European Signal Processing Conference, (Vi-
enna, Austria), pp. 17611764, EURASIP, September
2004.
[9] J.-M. Jot, V. Larcher, and O. Warusfel, Digital signal
processing issues in the context of binaural and tran-
saural stereophony, in 98th AES Convention, (Paris,
France), AES, February 1995. (preprint 3980).
[10] F. P. Freeland, L. W. P. Biscainho, and P. S. R. Di-
niz, Interpolac
ao bilinear generalizada de HRTFs para
gerac
ao de som tridimensional, in Anais da VIII Con-
venca
o Nacional da AES Brasil, (S ao Paulo, SP, Brasil),
AES, Junho 2004.
[11] A. Kulkarni, S. K. Isabelle, and H. S. Colburn, On the
minimum-phase approximation of head-related transfer
functions, in IEEE Workshop on Applications of the
Signal Processing to Audio and Acoustics, (New Paltz,
New York), IEEE, October 1995.
[12] J. Chen, B. D. V. Veen, and K. E. Hecox, A spatial
feature extraction and regularization model for virtual
auditory display, in IEEE International Conference
on Acoustics, Speech, and Signal Processing, vol. 1,
pp. 129132, April 1993.
[13] S. Moshier. Internet, November 2003.
http://www.moshier.net/pink.html.
[14] E. W. Weisstein, Anova. From MathWorldA Wol-
fram Web Resource. http://mathworld.wolfram.com/
ANOVA.html.
4o CONGRESSO
Sesso 2
Processamento Digital de udio, Voz e Sistemas Eletrnicos de udio
(Digital Audio and Speech Processing, and Audio Electronic Systems)

___________________________________
Artigo de Congresso
___________________________________
Comparison of Speech Enhancement / Recognition Methods
Based on Ephraim and Malah Noise Suppression Rule and
Noise Masking Threshold
Francisco J. Fraga1, Andr Godoi Chiovato2 e Lidiane K. S. Abranches2
1
Laboratrio de Sistemas Integrveis da Escola Politcnica da USP (LSI-EPUSP)
2
Instituto Nacional de Telecomunicaes - Inatel
So Paulo, SP, CEP 05508-900, Brasil
franciscojfraga@gmail.com, agodoi@radial.br, lidiane@inatel.br
ABSTRACT
The proposed speech enhancement system uses a noise-masking threshold in a frame-by-frame basis in order to
perform some important modifications in the original Ephraim and Malah (EM) algorithm. These increased the
amount of noise reduction and simultaneously provide a more efficient elimination of the musical noise
phenomenon. Perceptual evaluation results have shown that the new algorithm outperforms the standard EM
algorithm for all types of nearly stationary noise considered in the experiment, in a wide signaltonoise ratio
range of noisy signals from SpEAR database.
INTRODUCTION these methods is the appearing of the musical residual

The widespread use of mobile communications in a variety noise in the enhanced speech, which presents a very
of real environments, including those with high ambient unnatural disturbing quality.
noise levels, highlighted the importance of having good The noise suppression rule proposed by Ephraim and
single-channel speech enhancement algorithms. Malah [1] made it possible to obtain a moderate noise
In this class of algorithms there is no reference channel reduction while avoiding completely the musical noise
available for noise estimation, which is realized only during phenomenon. On the other hand, at low signaltonoise
speech pauses. Usually, single-channel speech enhancement ratios (SNR < 10 dB), the Ephraim and Malah noise
systems are based on shorttime spectral attenuation, which Suppression Rule (EMSR) did not offer a strong attenuation
is the working principle of the so called subtractivetype of the unwanted noise.
algorithms. These subtractivetype algorithms are often used Based on this reasons, we proposed a new speech
because they are easy to implement and offer several enhancement scheme, which kernel is based on EMSR, but
possibilities of varying the subtraction parameters according with some modifications added in order to deal with noisy
to the intended application. However, the major drawback of speech presenting low signaltonoise ratios. It was done by
FRAGA ET AL. COMPARISON OF SPEECH ENHANCEMENT / RECOGNITION METHODS
introducing the concept of noisemasking threshold, which is The signal critical band analysis
a wellknown property of the human auditory system [2]. The first step calculates the present energy in each critical
The basic gain function proposed by Ephraim and Malah was band, assuming discrete non-overlapping critical bands.
modified by adapting its parameters based on the calculation
of the noise-masking threshold. This allows us to find a good bhi
tradeoff between the amount of noise reduction and the
speech distortion in a perceptual sense.
Bi
Z
P(Z )
bli
(4)
MASKING PROPERTIES IN SHORT-TIME where bli and bhi are the lower and upper boundaries of the ith
SPECTRAL ATTENUATION ALGORITHMS critical band and P(Z) is the power spectrum.
If we assume that y(n), the discretetime noisy input signal, is
composed by a clean speech signal s(n) and an uncorrelated Spreading function
additive noise signal d(n), then we can represent it as: A spreading function Si is then convolved with the critical
band spectrum Bi, generating the critical-band spread
y(n) s(n) d (n) (1) spectrum:
In the class of shorttime spectral attenuation algorithms, Ci Si * Bi (5)
also known as subtractive-type algorithms, the processing is
where Si is given by [4], in dB :
done on a frame-by-frame basis in the frequency domain:
Si 15,81 7,5 (i 0,4) 17,5 1 (i 0,474) 2 (6)
S (Z ) G(Z ) Y (Z ) with 0 d G(Z ) d 1 (2)
The phase of the noisy speech is used in order to re The noisemasking threshold calculation
synthesize the enhanced speech signal. The best result The noisemasking threshold is obtained by subtraction of a
achievable by any kind of subtractive-type algorithms is relative threshold offset Oi depending on the noise-like or
given by the combination of the clean speech spectral tone-like nature of the masker and the maskee signals.
magnitude with the noisy spectral phase. Following Virag
[2], this situation is called the theoretical limit. Berouti et al. Ti 10 log10 (Ci ) (Oi / 10) (7)
[3] proposed a flexible form of subtractive-type algorithm. In
their algorithm, the gain function used to estimate the In Sinha and Tewfiks method [5], Oi is given by a simple
magnitude of the short-time Fast Fourier Transform (FFT) of estimation, based on the fact that often the speech signal has
the clean speech signal is given by: a tonelike nature in lower critical bands and a noiselike
nature in higher bands, as shown in Fig. 1
J 1/ J J .
D (Z) D (Z)
1
1D . , if DE
Y (Z) Y (Z)

G(Z) 1/ J
(3)
J

D(Z)
E Y (Z) , otherwise

where D is the Oversubtraction factor (D > 1), E is the

Spectral Flooring factor (0 d E << 1) and the Exponent J
determines the sharpness of the transition from G(Z) = 1 to
G(Z) = 0. The choice of these three parameters allows
flexibility, but at low SNRs, it is impossible to minimize
speech distortion and residual noise, simultaneously.
The idea of exploiting the masking properties of human
Fig. 1: Relative threshold offset (after Sinha and Tewfik[5])
auditory system was taken from a successful speech
enhancement system proposed by Nathalie Virag [2]. In her
paper, she adapted the classical subtraction parameters in (3) Renormalization
using a perceptual model. This model, with some adaptations, The renormalization procedure is performed by a simple
presents some steps for the calculation of a noise-masking multiplication of each Ti by the inverse of the energy gain
threshold: obtained by the convolution.
Accounting for absolute thresholds
O A

In order to consider absolute thresholds, any critical band that

has a calculated noisemasking threshold lower than the
R
1 R post 1 Rprio
absolute threshold of hearing is replaced by the absolute
threshold in that critical band. T ,
In the method presented to noise masking threshold
prio
(9b)
calculation described above, the noise-masking threshold
must be calculated from the power spectrum of the clean T T T
speech. However, in practice only the original noisy signal is M>T @ exp (1 T ) I 0 T I1
available. Then a rough estimate of the clean speech signal is 2 2 2
computed using a simple power spectral subtraction scheme.
Virag used the masking threshold to adjust the spectral
where I0 and I1 are the modified Bessel functions of zero and
subtraction parameters D and E of (3), for each frequency Z
first order, respectively [1]. In (9a) and (9b), the frame index
of a given speech frame q:
q and the frequency index Z have been omitted for
D ( q, Z ) FD [D min , D max , T ( q, Z )] compactness reasons. The spectral gain depends on two
parameters:
(8)
E ( q, Z ) FE [ E min , E max , T ( q, Z )] Y ( q, Z ) 2 2
Y ( q, Z )
1 , if !1
R post (q, Z ) 2 2
where Dmin, Dmax and Emin, Emax are the minimal and maximal D (Z ) (Z )
D (10)

values of the oversubtraction and spectral flooring
0 , otherwise
parameters, respectively, and T(q,) is the calculated noise
masking threshold for each frequency Z of the current speech
frame q. The function FD performs a linear interpolation
R prio ( q, Z ) (1 P ) R post ( q, Z )
according to the following boundaries:
2
FD D max if T (q, Z ) T (q, Z ) min Y ( q 1, Z ) (11)
P G 2 (q 1, Z ) 2
FD D min if T ( q , Z ) T (q, Z ) max D (Z )
where T(q,)min and T(q,)max are the minimum and where G(q1, Z) stands for the gain function (9) estimated in
maximum values of T(q,), respectively. the previous frame. A detailed explanation about the effect of
The function FE operates in a similar way. N.Virag [2] has each parameter of (10) and (11) in the gain function
expressed by (9) can be found in [6].
chosen Dmin = 1, Emin = 0, Dmax = 6, Emax = 0,02 for an
acceptable tradeoff between residual noise and speech The a priori SNR Rprio(q,Z) is evaluated by the nonlinear
recursive relation of (11) and is the dominant parameter in
distortion. The parameter J was fixed to 2.
(9), as we can see in Fig. 2. Strong attenuations are obtained
But we have found out that with this scheme it was not
possible to eliminate completely the musical noise only if Rprio is low and low attenuations are obtained only if
phenomenon. In our work, the information given by the noise Rprio is high. When Rprio is low and the a posteriori SNR Rpost
masking threshold was used to adapt the Ephraim and Malah is high, there is a very strong attenuation (lefthand part of
noise suppression rule, as explained in next section. Fig. 2). This behavior is a consequence of the disagreement
between a priori and a posteriori SNRs and it is actually
useful in the elimination of the musical noise.
PROPOSED SPEECH ENHANCEMENT SYSTEM
The standard Ephraim and Malah Suppression Rule (EMSR)
is a special type of shorttime spectral attenuation algorithm
where the spectral gain G(q,Z) applied to each shorttime
spectral component |Y(q,Z)| of the current speech frame is
given by:
S 1 R prio
G . M [T ] (9a)
2 1 R post 1 R
prio
Fig. 2: EMSR gain versus a priori SNR for different values of

Rpost; top curve: Rpost = 17 dB; middle curve: Rpost = 0 dB;
bottom curve: Rpost = 17 dB.
O A

In our algorithm, the gain function is also calculated by TABLE II

(9), but a priori and a posteriori SNRs are derived by means AVERAGE PESQMOS MEASURES AT SNR FROM 5 TO 10 dB
of the following relations: NOISE TYPE o PINK F16 CAR FACTORY
2
Y (q, Z ) (Average SNR ) (6,97dB) (6,21dB) (7,89dB) (5,17dB)
R post ( q, Z ) 1
2 (12) No processing 1,878 2,194 3,183 2,213
D ( q, Z ) D (Z )
EMSR (P = 0.96) 2,489 2,749 3,667 2,622
R prio (q, Z ) (1 P ) R post (q, Z )
Proposed algorithm 2,663 2,883 3,695 2,744
2
Y (q 1, Z ) Theoretical limit 3,620 3,910 4,143 3,747
P Q G 2 (q 1, Z )
2
D (q, Z ) D (Z ) (13) TABLE III
2 AVERAGE PESQMOS MEASURES AT SNR FROM 10 TO 15 dB
Y (q 2, Z )
P (1 Q ) G 2 (q 2, Z ) NOISE TYPE o PINK F16
2
D (q, Z ) D (Z ) (Average SNR ) (14,85dB) (12,13dB)
where P and Q were experimentally set to 0.96 and 0.75, No processing 2,499 2,647
respectively, and the calculation of (q,Z) follows (8). The EMSR (P = 0.96) 3,254 3,257
time-frequency dependant perceptual overattenuation factor
Proposed algorithm 3,410 3,298
D(q,Z) operates in a way similar to parameter D in (3) and
depends on the noise masking threshold T(q,Z) (now with Theoretical limit 3,957 4,064
Dmin = 0.75, Dmax = 2.5), which is calculated for each frame q
as explained in the previous section.
Other important difference between our algorithm and In addition, we carried out an experiment using the
the standard EMSR is the presence of a third term in (13), proposed speech enhancement algorithm as a preprocessing
which was empirically proved to be efficient in increasing the step of a standard HMM connectedword speech recognition
smoothness of Rprio over successive frames, thus allowing system. The AURORA 2 experimental framework (based in
better reduction of the musical noise. It occurs because the a carefully prepared noisy database using the original clean
main cause of the musical noise is the inaccurate estimation TIDIGITS) was used exactly as described in [9], with the
of Rprio, which normally lead to great variations of this same frontend and backend, allowing direct comparison of
parameter over successive frames. performance with other systems.
TABLE IV
RESULTS AVERAGE WORD ACCURACY RECOGNITION RATE (%) TEST A
In order to compare the performance of our algorithm AND B (PARTIAL SNRS AND NOISE TYPES)
to the performance of the standard EMSR algorithm, we MULTICONDITION TRAINING FROM AURORA 2 DATABASE
performed an objective evaluation of the enhanced speech TEST A TEST B
quality using the PESQMOS [7] score. The noisy signals SNR
and the reference clean signals were obtained from the CAR TRAIN-STATION
(dB)
SpEAR [8] (tables I, II and III) and Aurora 2 [9] (tables IV, V ORIG OUR EMSR ORIG OUR EMSR
an VI) databases. In the first database (SpEAR), the noisy 15 97.61 98.09 98.15 95.53 97.69 97.50
signals were obtained by acoustically adding the clean signal
and the noise in a controlled environment. With several types 5 87.80 92.81 93.05 83.52 87.29 87.63
of noise combined with clean speech at different SNRs, the 0 53.44 80.50 81.39 56.12 69.82 69.81
results were presented in the form of averages (of both SNRs
and PESQ scores) from a total of 33 WAVE files.
TABLE V
AVERAGE WORD ACCURACY RECOGNITION RATE (%) TEST A AND
TABLE I B (PARTIAL SNRS AND NOISE TYPES) CLEAN TRAINING FROM
AVERAGE PESQMOS MEASURES AT SNR FROM 0 TO 5 dB AURORA 2 DATABASE
NOISE TYPE o WHITE PINK F16 FACTORY TEST A TEST B
SNR
(Average SNR ) (3,22dB) (2,78dB) (2,65dB) (3,49dB) CAR TRAIN-STATION
(dB)
No processing 1,980 1,917 2,094 2,414 ORIG OUR EMSR ORIG OUR EMSR
EMSR (P = 0.96) 2,487 2,386 2,484 2,756 15 90.04 95.35 96.69 83.65 92.38 93.77
Proposed algorithm 2,601 2,512 2,591 2,854 5 34.09 73.37 77.66 27.92 62.79 67.42
Theoretical limit 3,879 3,728 3,801 3,877 0 14.46 45.27 49.93 11.57 34.59 38.94
O A

TABLE VI [8] E. Wan, A. Nelson, and Rick Peterson. Speech

AVERAGE PESQ-MOS TEST A AND B (PARTIAL SNRS AND Enhancement Assessment Resource (SpEAR) database.
NOISE TYPES) CLEAN TRAINING FROM AURORA 2 DATABASE http://cslu.ece.ogi.edu/nsel/data/SpEAR_database.html.
TEST A TEST B Beta Release v1.0. CSLU, Oregon Graduate Institute of
SNR Science and Technology.
CAR TRAIN-STATION
(dB)
ORIG OUR EMSR ORIG OUR EMSR [9] H.G. Hirsch, D. Pearce, The AURORA Experimental
15 2.493 2.937 2.880 2.577 2.929 2.886 Framework for the Performance Evaluation of Speech
Recognition Systems under Noisy Conditions, ISCA
5 1.878 2.377 2.284 1.937 2.339 2.272 ITRW ASR2000, Paris, France, September 1820, 2000.
0 1.618 2.036 1.946 1.638 1.997 1.935
CONCLUSION
The perceptual results (PESQ-MOS) showed that our speech
enhancement system outperforms the standard EMSR
algorithm, for all noise types and SNRs considered in both
databases. The improvement can be mainly explained by the
effect of the introduction of a perceptualdependent
overattenuation factor in the derivation of Rprio and Rpost.
Regarding the speech recognition results, we can observe just
the opposite: the EMSR showed a slight better performance,
probably because it causes less distortion to the speech
signal.
REFERENCES
[1] Y. Ephraim and D. Malah, Speech enhancement using a
minimum meansquare error short-time spectral
amplitude estimator, IEEE Trans. Acoust., Speech,
Signal Processing, vol. ASSP32, no. 6, pp. 1109-1121,
1984
[2] N. Virag, Single Channel Speech Enhancement Based
on Masking Properties of the Human Auditory System,
IEEE Trans. Speech Audio Processing, vol. 7, no. 2, pp.
126137, March 1999.
[3] M. Berouti, R. Schwartz, and J. Makhoul, Enhancement
of speech corrupted by acoustic noise, in Proc. IEEE
ICASSP, Washington, DC, pp. 208211, Apr. 1979.
[4] M. R. Schroeder, B.S. Atal and J.L. Hall, Optimizing
Digital Speech Coders by Exploiting Masking Properties
of the Human Ear, in Journal of Acoustical Soc. of
America, pp. 1647-1652, 1979.
[5] D. Sinha and A.H. Tewfik, Low bit rate transparent
audio compression using adapted wavelets, Trans.
Signal Processing, vol.41, pp. 3463-3479, December
1993.
[6] O. Capp, Elimination of the Musical Noise
Phenomenon with the Ephraim and Malah Noise
Suppressor, IEEE Trans. Speech Audio Processing, vol.
2, no. 2, pp. 345349, April 1994.
[7] Antony W.Rix et. al., Perceptual Evaluation of Speech
Quality (PESQ). The New ITU Standard for EndtoEnd
Speech Quality Assessment, Journal of Audio Eng. Soc.,
vol. 50, no. 10, pp. 755778, October 2002.
O A

_________________________________
Artigo de Congresso
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
A Visual Sound Description for Speech Corporas Manual
Phonemic Segmentation
She Kun1, Chen Shu-zhen1
1
School of Electronic Information, Wuhan University, Wuhan 430079, China
intel_ghost@sohu.com, szchen@whu.edu.cn
ABSTRACT
A visual sound description, called sound dendrogram is introduced to simplify speech corporas manual
annotation. Sound dendrogram is a lattice structure, constructed by an iterative procedure of mergence from a
group of seed regions. It can present the corresponding speech excerpts rich structure information ranging
from coarse to fine. Tests show that all phonemic boundaries are contained in this lattice structure and easy to
identify. If integrated into the existed speech analysis programs, sound dendrogram can provide essential
information for speech corporas manual annotation.
phoneme to another. Spectrogram is the most used visual

INTRODUCTION description of an acoustic sound, by which an experienced
Building speech corpora is a vital task for developing phonetician can even see rather than hear speech, but
almost all the currently available speech processing spectrogram cannot provide speechs structure information
systems, including large vocabulary speech recognition directly. And, because of speechs continuous nature (that
systems [1, 2], speaker recognition systems [3] and is, articulation gesture changes continuously), the
language identification systems [4] etc.. Segmentation of boundaries between the realizations of two adjacent
speech, on phoneme level or word level, is a standard phonemes are blurred, so a human annotator will hesitate
annotation work within speech corpora. In the literature, on where to flag the phonemic boundary. So for the most
much effort is put to make this work automatic [5, 6], but cases, it is still by repeatedly listening to playback that a
however, the scores achieved by machine yet match those boundary can be confirmed. Thereby, speech annotation
by a trained phonetician, and true value is still given by remains time-consuming, which limits the scale of speech
manual annotation. corpora.
Some speech analysis tools, like Praat 1 , can provide In this paper, a kind of visual sound description, called
some assist to this tedious manual procedure. These tools sound dendrogram, is presented as a supplement to those
usually display speechs waveform, along with intensity mentioned above. It is a lattice structure automatically
and pitch contours, and sometimes short-time spectrogram, constructed from a group of seed regions and through an
too. However, the clues on phonemic boundaries, provided iterative procedure of mergence. Not like the other sound
by these descriptions are obscure, if not lacking, because in descriptions, sound dendrogram directly presents the
natural speech, there are many cases where intensity or structure information of an acoustic sound. The evaluation
pitch doesnt vary abruptly at the transition from one to sound dendrogram will show that all of a speech
excerpts phonemic boundaries are contained in the lattice
1
structure of its sound dendrogram. With the assist of sound
http://www.fon.hum.uva.nl/praat/
SHE ET AL. A VISUAL SOUND DESCRIPTION FOR SPEECH CORPORAS MANUAL PHONEMIC SEGMENTATION
dendrogram, we believe, speech corporas annotation work signal representation S[ n] in some degree and then
could be much easier.
carrying a difference operation to it. Smoothing and
CONSTRUCTION OF SOUND DENDROGRAM differencing can be done in a single step, by convolving
each dimension of S[ n] with the samples of the minus of
Sound dendrogram is built by a local clustering
procedure. First, the audio signal is divided by some means a Gaussians derivative, that is,
into a sequence of small sections, called seed regions, t2
d 1 2
whose borders are all potential phonemic boundary (These d [n] g (t ) t nT , g (t ) e 2V (1)
regions and their borders locate at the bottom level of the dt 2V
dendrogram). Then, distance of every two adjacent regions
is computed and every couple of regions with local where T denotes the signal representations sample period,
minimum distance is merged to form a new region. In this and V is the parameter of the Gaussian function g (t ) .
way, a new set of regions are born and they locate at the Then a new function for rate of change is given by
second level in the dendrogram. After, a new turn of
mergence of closest regions follows and the dendrogram cV [n] S [ n] d [ n] (2)
keeps growing upwards. This process repeats until only a
single region remains. The mergence step is illustrated by where the operator takes the magnitude of a vector. In
Figure 1.
order to have a fine level of sensitivity in cV [n] ,
Since whether to merge relies only on relative distance,
no threshold is needed. If the segmentation of seed V should be set to a small value.
regions is appropriate, several consecutive seed regions Finally, the local maximum points in cV [n] are
together will match a phoneme nicely, and they should
detected and used to form the seed regions. Since the
merge into a single region at some higher level in the
nonlinear modules in the 3rd stage of Seneffs model
lattice structure, as acoustic characters usually keep well
sharpen acoustic transition in speech [7], all real phonemic
stable through the duration of a phoneme in speech. On the
boundaries can be surely found. Some spurious borders
other hand, there is great difference between two regions
may be found too, but it does not matter much as these
separated by a phonemic boundary, so these two regions
borders will vanish quickly in the process of mergence
will resist merging and this boundary can spread to a very
when constructing sound dendrogram.
high level. Figure 2 shows a dendrogram produced in this
way and several other sound descriptions such as Distance Metric
waveform, spectrogram, etc. All of the phonemic At each level of sound dendrogram, a region is
boundaries (known by manual annotation) are contained in described by the mean of the signal representation vectors
the dendrogram and easy to identify, while the other of all samples belonging to this region, that is,
descriptions fail to give any information. n1
1
Signal Representation Srx S[i]
n1 n0 1 i n0
(3)
The segmentation of seed regions and the distance
metric are both based on a certain signal representation of where the samples indexed by n0 n1 belong to
acoustic sound. This paper adopts the third stage output of
an auditory model proposed by Seneff, which is a multi- region rx . Then, the distance between region r1 and region
dimensional representation and can be identified with the
average rate of neural discharge [7]. Rather than the r2 is defined as
strategy of framing before processing applied by short-
time analysis, such as Mel-frequency cepstrum coefficients, d (r1 ,r2 ) Sr1 -Sr2 u (1-cosD )
signal representation based on this auditory model is
reached by sampling after processing [8]. So, the Sr1 x Sr2 (4)
dynamic information in speech has been preserved in this cosD
signal representation through much smoother transition Sr1 Sr2
and thereby, it is capable of locating indistinctive
phonemic boundaries. where Sr1 -S r2 is the Euler distance between vectors
Segmentation of Seed Regions
To ensure that every phonemic boundary is among the
S r1 and S r , and
2
cos D is their normalized dot product.
borders of seed regions, the acoustic landmarks in speech The Euclidean metric over-emphasize the gain difference
are taken as seed regions border, since at these points the between two regions, and therefore two regions belonging
signal is undergoing significantly more change than in the to the same phoneme may keep from merging as a result of
neighboring environment, which always implies a the sound intensitys fluctuation. As shown in Figure 3, if
phonemes onset or offset. As mentioned above, the audio two adjacent regions belong to the same phoneme, the
signal is represented by a multi-dimensional according cosD approaches 1, and much less than 1 if
parameter S (t ) , so in this paper the magnitude of its first not. Glass [9] weights the Euler distance with 1/cosD
order derivative S (t ) is taken to indicate the rate of the
to magnify the distance between two regions separated by a
phonemic border. However, the Euler distance between
signals change. these two regions is significant, too, so the effect of
Since most analysis of speech is performed in a discrete
weighting is not obvious (See Figure 3). So, 1 cos D is
manner, the derivative operation has to be approximated by
adopted instead to suppress region distances within a
some discrete operator, such as smoothing the discrete
phoneme so that regions belong to the same phoneme
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 44
merge much easily. were tabulated. Next, the time difference between the
boundaries found and the actual boundaries as provided by
the transcriptions was compared. Finally, the height
distributions of the valid/invalid boundaries in these
dendrograms were examined. The evaluation was carried
out using several sentences spoken by three subjects (two
male, one female); these speeches were sampled at 16 kHz
in a noisy computer room, and contained 165 units,
phoneme or syllable 1 .
The best-path alignment procedure gave almost none
Fig. 1 A turn of region mergence
deletion error and 13% insertion error, respectively. The
(a) The set of regions locating at the ith level and the distances tradeoff between deletion and insertion error is met by all
between two adjacent regions (all local minimum distances are phonemic segmentation algorithms. Since sound
marked with downward arrows); (b) The set of regions at the i+1th dendrogram is used to provide clue for manual annotation,
level
it is crucial to get the deletion error as little as possible.
Relative higher insertion error rate may be due to coarse
annotation. In fact, the insertion error was well suppressed
by adopting the distance metric illustrated in equation (4).
To prove that, the distance metric adopted by Glass [9] was
used instead, and the insertion error became 20%. The
sound dendrogram of the speech excerpt in Figure 2 was
constructed again with the latter distance metric, and is
showed in Figure 4. The regions belonging to phoneme /z/
failed to merge together as a result of the reason mentioned
above.
The Analysis of the time difference between the
boundaries found and the boundaries provided by the
transcriptions showed that more than 74% of the
boundaries were within 10ms of each other, while 80% of
them were within 20ms. This degree of accuracy is
comparable with those acquired by normal manual
annotation [5, 6]. Finally, the statistics of boundary heights,
valid and invalid, are shown in Figure 5. The valid
boundaries are typically higher, so they can be
distinguished easily from those invalid.
Fig. 2 Some speech sound descriptions

(a) The waveform; (b) The wide band spectrogram; (c) The lattice
structure of sound dendrogram; (d) The intensity contour; (e) The
Pitch contour. The phonemic boundaries are marked on the bottom
(A, n, etc. are phonetic symbols signed with the SAM Phonetic
Alphabet)
Fig. 4 The dendrogram with a different distance metric
Fig. 3 Several distance metrics

Each stem locates on the borderline between two adjacent regions Fig. 5 Histogram of boundary height
Every boundary height is normalized by the total level number of its
EVALUATION AND DISCUSSION host sound dendrogram
The benefit from sound dendrogram was evaluated in 1

Some phonemes, especially stop consonants, like /p/, /b/, /t/, /d/
several ways. First, a path through each dendrogram which are transient, noncontinuant sound. Their properties are highly
best matched a time-aligned phonetic transcription was influenced by the vowels that follow them and few distinguishing
found using an automatic time alignment tool developed by features are shown in their own waveforms [10]. Since separating
us, and then, the deletion and insertion errors of these paths stop consonant and its following vowel is much difficult, they are
not separated in the phonetic transcription.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 45
Defining a metric to measure how much convenience can be found in the literature, like Husson [11], which
sound dendrogram can bring to manual annotation is hard, providing an automatic path-finding algorithm. Although
if not impossible. Therefore several more typical examples there is still large developing space for these methods [12],
are given, instead (Figure 6-8). With sound dendrogram the automatic found path can provide a useful reference. So,
available, the manual phonemic segmentation work a reliable path-finding method is worthy of further research.
becomes observing (for example, the spectrogram) and
choosing (the phonemic border from the dendrogram), REFERENCES
much easier than deciding where to put phonemic borders [1] Tang M. Large Vocabulary Continuous Speech
without any reference. Recognition Using Linguistic Features and
Constraints. Ph. D. thesis, the Massachusetts Institute
of Technology, 2005.
[2] Campbell J, Reynolds D. Corpora for the Evaluation
of Speaker Recognition Systems. Proceedings of the
International Conference on Acoustics, Speech, and
Signal Processing. Phoenix, pp. 829-832, May 1999.
[3] Furui S. 50 Years of Progress in Speech and Speaker
Recognition.
http://www.furui.cs.titech.ac.jp/publication/2005/SPC
OM05.pdf.
[4] Padr M, Padr L. Comparing Methods for Language
Identification.
Fig. 6 The sound dendrogram of speech excerpt 0_1 http://www.lsi.upc.edu/~nlp/papers/2004/sepln04-
(a) The spectrogram; (b) The sound dendrogram (The shadow
lattices are the path best matched with the phonetic transcription and
pp.pdf.
found automatically by the time alignment tool, the same in Figure 7 [5] Laureys T, Demuynck K, Duchateau J, Wambacq P.
and Figure 8) An Improved Algorithm for the Automatic
Segmentation of Speech Corpora. Proceedings of the
3rd International Conference on Language Resources
and Evaluation. Las Palmas, pp. 1564-1567, May
2002.
[6] Sharma M, Mammone R. Blind Speech
Segmentation: Automatic Segmentation of Speech
without Linguistic Knowledge. Proceedings of the 4th
International Conference on Spoken Language
Processing. Philadelphia, pp. 1237-1240, October
1996.
[7] Seneff S. A Joint Synchrony/Mean-Rate Model of
Auditory Speech Processing. Journal of Phonetics,
Special Issue, Vol. 16, No. 1, pp. 55-76, 1988.
[8] Cosi P. Evidence Against Frame-Based Analysis
Techniques. www.pd.istc.cnr.it/Papers/PieroCosi/cp-
Fig. 7 The sound dendrogram of speech excerpt 5_2 NATO98.pdf
[9] Glass J R. Finding Acoustic Regularities in Speech:
Application to Phonetic Recognition. Ph. D. thesis,
the Massachusetts Institute of Technology, 1988.
[10] Rabiner L, Juang B H. Fundamentals of Speech
Recognition. Prentice Hall, 1993.
[11] Husson J L, Laprie Y. A New Search Algorithm in
Segmentation Lattices of Speech Signals. Proceedings
of the 4th International Conference on Spoken
Language Processing, Philadelphia, pp. 2099 -2102,
October 1996.
[12] Husson J L. Evaluation of A Segmentation System
Based on Multi-Level Lattices. Proceedings of the 6th
European Conference on Speech Communication and
Technology. Budapest, pp. 471-474, September 1999.
Fig. 8 The sound dendrogram of speech excerpt 4_1
CONCLUSION
The sound dendrogram proposed by this paper can
reliably capture all phonemic boundaries in a speech.
When it is integrated into the existed sound analysis tools,
we believe, the efficiency of annotating speech corpora can
be improved significantly. Moreover, some automatic
method based on dendrogram for phonemic segmentation
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 46

Artigo de Congresso
Apresentado no 4 o Congresso da AES Brasil
10a Convencao
Paulo, SP
08 a 10 de Maio de 2006, S ao
Este artigo foi reproduzido do original nal entregue pelo autor, sem edic o es, correc o es ou considerac o es feitas pelo comite
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informac o es sobre a sec a o Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproduc a o total ou parcial
deste artigo sem autorizac a o expressa da AES Brasil.

Equalizador graco digital de alta seletividade
em VST
Leonardo de O. Nunes1, Alan F. Tygel1, Rafael A. de Jesus1,
e Luiz W. P. Biscainho 1
LPS PEE/COPPE & DEL/Poli, UFRJ
1

lonnes,alan,rjesus,wagner@lps.ufrj.br
RESUMO
Este trabalho apresenta a implementac a o de um equalizador graco digital de 1024 canais lineares
agrupados em 10 oitavas, com alta seletividade. A estrutura escolhida foi um Fast Filter Bank (FFB),
banco de ltros altamente seletivos que preserva a baixa complexidade da FFT, em que se baseia. Os
ganhos atribudos a cada oitava sao interpolados suavemente atraves dos ganhos de cada subcanal. A
implementac a o e realizada na linguagem C++, sendo gerado um plug-in no padrao VST.
INTRODUC
AO portabilidade do sistema, utilizou-se o padrao de plug-
in VST1 , amplamente aceito por fabricantes e usuarios
A extraordinaria evoluc a o dos processadores dig-
de aplicativos de a udio prossional.
itais no u ltimo quarto do seculo XX abriu as por-
tas para uma verdadeira revoluca o que aproximou as Apos esta Introduca o, o artigo e organizado da
aplicac o es de ciencia avanc ada do usuario comum. seguinte forma. Uma breve revisao da estrutura
Especicamente na a rea de a udio, o processamento chamada FFB (Fast Filter Bank) e seguida do detal-
digital pode ser encontrado desde nos equipamentos hamento de sua implementaca o proposta no trabalho.
domesticos de som ate numa quantidade de aplicativos Na sec a o seguinte especica-se o equalizador graco
para manipulaca o e reproduca o de a udio disponveis que serve de aplicac a o ao FFB, fazendo-se a corre-
em computadores pessoais. E possvel montar um sis- spondencia entre os ganhos denidos pelo usuario e
tema domestico relativamente sosticado de processa- os ganhos reais do banco de ltros. Apos uma breve
mento de a udio a baixo custo. discussao do plug-in em VST, apresentam-se as con-
clusoes.
Este trabalho tem como objetivo mostrar o uso de
uma ferramenta avancada de ltragem numa aplicac a o
tpica de a udio que possa ser facilmente utilizada por FAST FILTER BANK (FFB)
um prossional sem a necessidade de conhecimento
Denic ao
especializado em processamento de sinais. Sera ap-
resentado, entao, o procedimento de projeto de um Esta sec a o descreve o Fast Filter Bank (FFB), que e
equalizador graco digital de 10 oitavas baseado em a estrutura adotada como base do equalizador descrito
um Fast Filter Bank de 1024 canais lineares. Este neste trabalho.
banco de ltros combina alta seletividade com baixa 1 A marca VST (Virtual Studio Technology) e
propriedade da
complexidade. A m de permitir a facil utilizac a o e Steinberg Co.
NUNES ET AL. EQUALIZADOR GRFICO DIGITAL DE ALTA SELETIVIDADE EM VST
NUNES ET AL.
EQUALIZADOR GR AFICO DIGITAL DE ALTA SELETIVIDADE EM VST
Legenda:
)
(j z 10
H i,
Canal 0
0
(i,j) (2,0)
H
i,j (z Canal 4 10
)
(1,0)
Canal 2
Ganho em dB
20
(2,1)
30
Sinal de Canal 6
(0,0)
Entrada 40
Canal 1
(2,2) 50
Canal 5
(1,1) 60
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
Freqncia normalizada
Canal 3
(2,3)
Figura 2: Resposta de modulo na freque ncia de um

Canal 7
ltro da FFT.
Figura 1: Construc a o dos canais de um FFB de oito
canais a partir das versoes modicadas dos ltros-
kernel dos tres nveis da estrutura. 10
10
A ferramenta mais popular de analise espectral para

20
4 5 6 7 0 1 2 3 4
30
sinais discretos no tempo e a Discrete Fourier Trans- Ganho em dB

40
form (DFT) [1], denida como 50
60
N1
1
70
2kn
X[k] = x[n] e j N , 80
N n=0 90
100
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
onde x[n] e o sinal no tempo, X[k] e sua

representaca o no domnio da freque ncia, na forma de
um par (modulo,fase) associado a` componente e j N .
2kn Figura 3: Resposta de modulo na freque ncia dos
Ela admite implementaco es rapidas, genericamente canais do FFB. O ndice de cada canal esta indicado
chamadas de Fast Fourier Transform (FFT), das quais na gura.
as mais usuais sao as de raiz 2 [2].
E possvel representar a FFT na forma de um banco
de ltros em a rvore [3], conforme se ve na Figura 1. Como se pode observar na Figura 2, a resposta de
Diferentente da FFT usual, que opera sobre blocos modulo na freque ncia de um canal do banco de ltros
do sinal de entrada, nessa estrutura cada amostra da correspondente a` FFT apresenta baixa atenuac a o na
entrada origina N amostras na sada, uma para cada faixa de rejeic a o, da ordem de 13 dB. Com o intuito de
canal. O j-esimo ltro de cada nvel, i, da a rvore e melhorar essa caracterstica, em [4] propos-se o Fast
obtido pela modicaca o de um mesmo ltro-kernel Filter Bank (FFB), onde o ltro-kernel da FFT pode
ser substitudo por ltros de ordem mais alta, poten-
H(z) = 1 + z1 , (1) cialmente mais seletivos. Essa generalizaca o admite
ltros-kernel diferentes para cada nvel, H i (z).
de acordo com a expressao A ttulo de ilustrac a o, a Figura 3 mostra a resposta
de modulo na freque ncia para todos os canais de um

Hi j (z) = H(WN j z2
Li1
), (2) FFB de ordem 8 com ltros-kernel de ordens 23, 19 e
7 na ordem crescente dos nveis i, onde se pode notar
onde L = N, WN = e j N e j e j com os bits na a elevada atenuaca o na banda de rejeic a o.
2
ordem reversa. Com isso, o ltro-kernel e deslocado Para reduzir a complexidade computacional, o FFB
na freque ncia e estreitado por interpolaca o dos seus utiliza ltros de meia-banda simetricos de ordem
coecientes, de acordo com sua posic a o na a rvore. mpar. Apenas metade dos coecientes desses ltros
As replicas indesejadas na resposta de um dado l- sao nao-nulos, o que permite reduzir o numero de
tro, decorrentes da interpolaca o, sao estruturalmente multiplicaco es necessarias a um quarto da ordem do
eliminadas nos nveis subsequentes da a rvore. ltro. Alem disso, o uso de ltros complementares,
Os ltros dos canais resultantes apresentam fase lin- relacionados pela expressao
ear e o mesmo atraso de grupo. Dessa forma, ape-
Hi j (z) + Hi j (z) = 1,
sar das ordens elevadas dos ltros envolvidos, o u nico
efeito signicativo sobre a fase do sinal e um atraso evita operaco es redundantes. A sada y(n) do ltro
global. complementar H i j (z) para uma entrada x(n) pode ser
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 48
NUNES ET AL.

0
WNjM hi [M]
20 2Li 1 zeros

40
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1

WNj(M1) hi [1 M]
0
20
..
.
Ganho em dB
40

WNj2 hi [2]
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
20
2 Li1
1 zeros
40

1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
WNj hi [1]
1
0
20

WN j hi [1]
40
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
2 Li1
1 zeros

WNj(2) hi [2]
Figura 4: Construc a o do canal 0 de um FFB de oito ..
canais a partir das versoes modicadas dos ltros- .
kernel dos tres nveis da estrutura. Os gracos rep-
WNj(1M) hi [M 1]
resentam, de cima para baixo, a resposta de modulo 2Li 1 zeros
na freque ncia dos ltros (0,0), (1,0) e (2,0) e o ltro
WNj(M) hi [M]
resultante para o Canal 0 da Figura 1.
Tabela 1: Valores dos coecientes dos ltros H i j (z),
considerando um ltro-kernel H i (z) de ordem 2M + 1.
obtida atraves de:
Para tal foi necessario uma estrutura de dados que lev-
y(n) = x(n) y(n),
asse em conta o posicionamento dos zeros, de modo
onde a acessar a memoria diretamente (sem precisar per-
y(n) = hi j (n) x(n) correr toda a estrutura), alem de poder deslocar a
memoria alterando apenas um elemento.
e propria a sada do ltro H i j (z). Foi criada uma lista encadeada circular modicada,
O projeto dos ltros pode ser feito atraves do esquematizada na Figura 5, de modo a atender essas
metodo FRM (Frequency Response Masking) [5], que especicac o es. Cada elemento da lista contem um
permite a obtenc a o de ltros com banda de atenuac a o ponteiro para o seu antecessor, e mais quatro pon-
estreita, por interpolaca o de coecientes. teiros para os elementos situados a 2 Li amostras e
Em [6] pode ser encontrada uma discussao detal- a 2Li1 amostras, tanto a` sua esquerda quanto a` sua
hada do projeto dos ltros e da complexidade do FFB. direita. Essas distancias correspondem aos elementos
Os ltros obtidos em cada estagio da estrutura refer- nao-nulos (lembrando que para os coecientes h i [1] e
ente a` Figura 3, bem como o ltro resultante para o hi [1] a distancia e a metade). Um ponteiro sempre e
canal 0, podem ser vistos na Figura 4. mantido no elemento da memoria correspondente ao
coeciente em z0 e outro no elemento correspondente

Implementac ao a` amostra mais recente. Dessa maneira, a lista pode
Sera descrita a seguir a estrategia de implementaca o ser deslocada com apenas uma troca de ponteiros, e
do FFB adotada neste trabalho. os elementos nao-nulos podem ser acessados direta-
O FFB foi implementada em C++ [7], tendo mente.
sido criadas duas classes, a FfbFilter e a A classe FfbFilter utiliza essa lista encadeada
FfbFilterTree. A primeira descreve um u nico l- para implementar a memoria do ltro. Os coecientes
tro dentro da estrutura em a rvore, enquanto que a nao-nulos e nao-unitarios sao armazenados num vetor
outra descreve a propria a rvore. Sera feita agora uma estatico, membro da classe.
descric a o detalhada de cada classe. A ltragem e feita levando-se em conta o fato de
Os ltros utilizados pelo FFB possuem uma estru- os coecientes do ltro serem conjugados-simetricos;
tura muito particular que permite um numero reduzido para isso foi criada uma funca o que utiliza essa pro-
de operaco es. Apos as transformaco es necessarias de- priedade, requerendo o armazenamento de apenas
scritas em (2), os coecientes dos ltros se apresentam metade dos coecientes, alem de reduzir o numero de
como na Tabela 1. Como pode ser visto, o numero operaco es aritmeticas.
de elementos nao-nulos e nao-unitarios para os ltros Os dois principais metodos da FfbFilter sao o
Hi j (z) continua o mesmo do ltro-kernel H i (z). set param, no qual sao passados a posic a o do ltro
Os ltros foram implementados na forma direta nao- dzentro da a rvore (i e j) e os seus coecientes; e o
causal, multiplicando-se a sada da memoria pelo seu filter, que recebe um valor complexo correspon-
respectivo coeciente e somando os resultados, ape- dente a` entrada e retorna a amostra ltrada por ele e
nas para os coecientes nao-nulos e nao-unitarios. pelo seu complementar.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 49
NUNES ET AL.
Figura 5: Diagrama da organizaca o da memoria de um sub-ltro do nvel i, mostrando sua correspondencia com
os coecientes do ltro (abaixo). As casas marcadas com asterisco indicam os coecientes nao-nulos. As setas
indicam os ponteiros.
A classe FfbFilterTree possui um vetor contendo ltros atuam de 20 Hz a 20 kHz, limites aproximados
N 1 objetos do tipo FfbFilter, onde os ltros da audic a o humana.
estao ordenados externamente por i e internamente Um equalizador graco analogico emprega um po-
por j, ou seja, o primeiro elemento desse vetor cor- tenciometro para controlar o ganho de cada ltro ativo.
responde ao par (i, j) e (0, 0), o segundo e (1, 0), o Sua versao digital segue o mesmo princpio, sendo
terceiro e (1, 1), e assim por diante. o ganho denido por constantes multiplicadoras apli-
O construtor da FfbFilterTree le os coecientes cadas a` sada de cada ltro digital. O usuario atua
de cada ltro apartir de um arquivo-texto denominado sobre uma interface graca amigavel que frequente-
coefs.fir. Cada linha desse arquivo contem o valor mente simula o painel do equalizador analogico.
de metade dos coecientes nao-nulos e nao-unitarios
Uma conguraca o tpica de equalizador graco di-
de cada ltro, sucientes para o calculo. vide o espectro de a udio em oitavas, partindo do limite
O metodo que realiza a ltragem nessa classe e de- superior. Assim, considerando que se vai operar so-
nominado filter; recebe um valor em ponto utu- bre sinais digitais com qualidade de CD, cuja taxa de
ante como entrada e retorna um vetor complexo con- amostragem e de 44,1 kHz, o espectro u til se estende
tendo as sadas de todos os canais. A sada de cada l- ate 22,05 kHz. A u ltima (decima) oitava vai de 11,025
tro e armazenada no proprio vetor de sada (in place), a 22,05 kHz, a penultima de 5,5125 a 11,025 kHz e as-
da mesma maneira que na FFT [8]. sim sucessivamente, ate a faixa restante, de 0 a aprox-
Em [9] e mostrada uma simplicac a o adicional da imadamente 43,07 Hz.
estrutura do banco de ltros para o caso de sinais
Tendo-se decidido implementar o equalizador com
de entrada reais, utilizando sua simetria no domnio
base no FFB, cujo espacamento entre ltros e linear,
da freque ncia. Com isso, apenas metade dos l-
o numero de ltros que permite alcancar a resoluc a o
tros e utilizada, reduzindo o numero necessario de
de 43,07 Hz e 1024. Nesse contexto, o ltro 0 ca em
operaco es. A ordenaca o dos canais na sada do ltro,
torno de DC e o ltro 512, em torno de 22,05 kHz.
originalmente em bit-reversal, e perdida. Mais adiante
Em se tratando de sinais reais, cada par de ltros (i,
sera proposto um algoritmo para realizar a leitura dos
1024-i), 1 i 1023, recebera ganhos iguais e re-
canais, apos essa simplicac a o.
spondera pela i-esima faixa do espectro, entre 21,53i
O EQUALIZADOR e 21,53(i+2) Hz. Por sua vez, os ltros 0 e 512 podem
ter seus ganhos zerados sem prejuzo do desempenho,
Geral
Ideia ja que isso apenas limitara a faixa u til ao intervalo de
Em processamento de sinais, um equalizador se des- 21,53 Hz a 22,03 kHz.
tina a corrigir distorc o es lineares (de modulo e fase) A especicac a o de cada ltro do FFB determina,
sofridas por um sinal. Equalizadores para sinais de naturalmente, a complexidade global do sistema, que,
a udio normalmente objetivam corrigir modicac o es em u ltima analise, viabilizara ou nao a sua operaca o
introduzidas no sinal pelo sistema e pelo ambiente de em tempo-real. Os ltros utilizados neste trabalho tem
reproduca o do som. Os tipos mais comuns de equal- 40 dB de atenuac a o na faixa de rejeic a o, resultando
izadores de amplitude (modulo) sao: o parametrico, em ltros-kernel com 15, 11, 7, 3, 3, 3, 3, 3, 3 e 3
em geral com um numero reduzido de ltros com coecientes, em ordem crescente de i, equivalendo a
freque ncia central, ganho e largura de faixa ajustaveis; 16 multiplicac o es complexas por canal. Vale observar
e o graco, em geral com diversos ltros passa-faixa que os ltros podem ser alterados pela simples troca
com ganhos independentes por faixa. Tipicamente, os de um arquivo-texto, sem a necessidade de alterac a o
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 50
NUNES ET AL.
disponibilizados e as derivadas nas extremidades do

20
intervalo (i = 1 e i = N, para as quais foi adotado o
15 valor 0) e calculam-se as derivadas de segunda ordem.
Na segunda etapa recebem-se os pares de entrada, as
10
derivadas de segunda ordem e a abcissa x do ponto
5
que se deseja interpolar, e calcula-se o valor de y cor-
respondente.
Ganhos em dB
0 Para obter uma curva mais suave foi necessario adi-

cionar 2 pontos exteriores aos 10 pontos original-
5
mente disponveis na entrada, nas freque ncias de 22
10 e 22 kHz, respectivamente. Suas ordenadas foram de-
terminadas por uma simples extrapolaca o linear.
A rotina implementada recebe os 10 ganhos
15
20 denidos pelo usuario em dB, e retorna os 511 ganhos

para os canais de sada do FFB, tambem em dB. Um
0 1 2
10 10 10
Canais na escala logartmica
exemplo do resultado da interpolaca o descrita pode ser
visto na Figura 6.
Figura 6: Curva de ganhos do FFB interpolados a par-
tir dos ganhos fornecidos pelo usuario (). como VST
Implementac ao
Nesta subsec a o sera mostrado como as classes que
implementam o banco de ltros FFB e o interpolador
do codigo. descrito na subsec a o anterior sao combinados para
No sistema implementado, o usuario determinara formar o equalizador graco proposto. Tambem e
10 ganhos entre -12 e 12 dB, referentes a` s oitavas mostrado um algoritmo capaz de ordenar a sada do
de atuac a o do equalizador, centralizadas aproximada- FFB modicada para sinais reais.
mente em 30,5, 60,9, 122, 244, 487, 974, 1950, 3900, Um plug-in pode ser denido como um programa
7800 e 15600 Hz. Para obter os sub-ganhos lineares que interage com outro de modo a oferecer novas fun-
correspondentes aos ltros do FFB, interpolaram-se os cionalidades, sendo geralmente distribudo como bib-
ganhos fornecidos atraves de uma curva suave, a cubic liotecas compartilhadas (shared libraries). O VST,
spline. O procedimento e descrito na proxima sec a o. do ingles Virtual Studio Technology, e um padrao
desenvolvido pela empresa Steinberg, utilizado em
dos Ganhos
Interpolac ao uma variedade de aplicativos para a udio. Maiores
O problema da determinaca o dos ganhos pode ser informaco es sobre o padrao VST, bem como as bib-
resumido no seguinte: dada uma func a o tabelada y i = liotecas necessarias, podem ser encontradas em [11].
f (xi ), i = 1 . . . N, deseja-se obter o valor da func a o O plug-in implementado conta com 10 parametros
num ponto localizado no intervalo [x j , x j+1 ]. de entrada (os ganhos de cada oitava); esses ganhos
Uma possvel soluc a o seria a interpolaca o linear, sao interpolados para se obter os ganhos de cada canal
que encontra o ponto buscado sobre o segmento de atraves do metodo descrito na sec a o anterior. No
reta que liga os dois pontos conhecidos. Obviamente, padrao VST qualquer parametro sempre e fornecido
essa soluc a o possui a segunda derivada nula no inter- como um valor em ponto utuante no intervalo entre
valo considerado e innita ou indenida nos limites 0 e 1; consequentemente faz-se necessario o mapea-
deste. A cubic spline [10] e uma func a o de compor- mento dos valores recebidos para a faixa de 12 dB a
tamento suave na primeira derivada e contnuo na se- 12 dB. Os valores mapeados sao, entao, passados para
gunda, sendo denida pela equac a o o interpolador e o ganho de cada canal e armazenado
num vetor estaticamente alocado.
y = Ay j + By j+1 + Cyj + Dyj+1 , (3) A funca o responsavel pelo processamento do sinal
recebe um bloco de amostras e retorna um bloco de
onde
mesmo comprimento. Para cada amostra do bloco,
x j+1 x ela utiliza o metodo filter da FfbFilterTree para
A=
x j+1 x j obter a sada de todos os canais. Cada sada e multipli-
B=1A cada pelo ganho correspondente ao seu canal e esses
1 3 2 produtos sao somados, gerando a amostra de sada at-
C= A A x j+1 x j ual.
6
1 3 2 Devido a` simplicac a o realizada sobre a estru-
D= B B x j+1 x j . tura em a rvore do FFB, sua sada nao possui uma
6
ordenaca o simples. Como demonstrado em [ 9], para
A interpolaca o da cubic spline envolve duas etapas. entradas reais as sadas dos ltros H i,2 (z) podem
Na primeira, recebem-se os pares (x i , yi ) de entrada ser descartadas; isso implica o desaparecimento dos
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 51
NUNES ET AL.
Quadro 1: Algoritmo para localizac a o dos canais de sada na estrutura simplicada.

enquanto(contador<(N/2))
contador2 = 0;
enquanto(contador2 < contador)
se(bit_reversal(contador2+(2*contador),LL)>N/2)

Posic ao do canal (N-bit_reversal(contador2+(2*contador))) = contador2+(2*contador);
sen
ao

Posic ao do canal bit_reversal(contador2+(2*contador)) = contador2+(2*contador);
contador2++;
contador <<= 1;
canais numa progressao geometrica de razao 2, pois ao [2] J. W. Cooley and J. W. Tukey, An algorithm
se retirar um ltro do nvel i da a rvore, 2 9i canais de for the machine computation of complex fourier
sada desaparecerao. Por exemplo, ao se eliminar a re- series, Mathematics of Computation, vol. 19,
sposta do ltro H1,2 (z), os 28 u ltimos canais desapare- pp. 297301, 1965.
cem da estrutura em a rvore. Para localizar os canais
[3] Y. C. Lim and B. Farhang-Boroujeny, A com-
na sada e necessario percorrer o vetor de sada em
ment on the computational complexity of slid-
incrementos crescentes de acordo com a progressao
ing FFT, IEEE Transaction on Circuits and Sys-
geometrica, lembrando que as sadas para os canais
tems - II: Analog and Digital Signal Processing,
k > 512 sao equivalentes a` s sadas para 1024 k. O
vol. 39, no. 12, pp. 875876, 1992.
algoritmo no Quadro 1 descreve esse procedimento.
Esse algoritmo e utilizado apenas uma vez dentro [4] Y. C. Lim and B. Farhang-Boroujeny, Fast lter
do plug-in; a posic a o de cada canal e , entao, salva num bank (FFB), IEEE Transactions on Circuits and
vetor, de modo a diminuir o numero de operaco es den- Systems-II: Analog and Digital Signal Process-
tro do bloco de processamento do sinal. ing, vol. 39, pp. 316318, May 1992.
Devido a` complexidade global do plug-in, sua [5] Y. C. Lim, Frequency-response masking ap-
implementaca o corrente ainda nao permite a execuca o proach for the synthesis of sharp linear phase
em tempo real, o que requerera otimizac a o adicional digital lters, IEEE Transactions on Circuits
do codigo. and Systems, vol. 33, pp. 357 364, April 1986.

CONCLUS OES [6] Y. C. Lim and B. Farhang-Boroujeny, Analy-
Este trabalho apresentou uma implementaca o em sis and optimum design of the FFB, IEEE In-
C++ do algoritmo FFB aplicado a` realizac a o de ternational Symposium on Circuits and Systems,
um equalizador graco digital no padrao VST. A vol. 2, pp. 509 512, June 1994.
motivaca o inicial foi empregar o FFB numa aplicac a o [7] B. Stroustrup, The C++ Programming Lan-
tpica de a udio que pudesse usufruir de sua alta sele- guage. Addison-Wesley, 2000.
tividade e baixa complexidade. O sistema nal imple-
mentado foi testado com sinais de a udio reais de alta [8] P. S. R. Diniz, E. A. B. da Silva, and S. L. Netto,
qualidade, tendo sido bem avaliado em testes infor- Digital Signal Processing: System Analysis and
mais. Outras aplicac o es para o FFB poderao utilizar a Design. United Kingdom: Cambridge, 2002.
implementaca o geral aqui apresentada. [9] J. W. Lee and Y. C. Lim, Ecient implemen-
Como continuaca o deste trabalho, pretende-se au- tation of real lter banks using frequency re-
mentar a velocidade de execuca o do processamento sponse masking techniques, Asia-Pacic Con-
pela substituic a o da estrutura em a rvore, mais exvel, ference on Circuits and Systems, vol. 1, pp. 69
pela formulaca o matricial descrita em [12]. 72, 2002.
AGRADECIMENTOS [10] W. H. Press, B. P. Flannery, S. A. Teukolsky, and
W. T. Vetterling, Numerical Recipes in C: The
Os autores gostariam de agradecer a Filipe C. da C.
Art of Scientic Computing. Cambridge, 1992.
B. Diniz, Iuri Kothe e Sergio L. Netto pelas valiosas
discussoes ligadas ao trabalho; e a` s agencias de fo- [11] Steinberg, Steinberg VST plugin. webpage,
mento CNPq e FAPERJ pelo apoio na forma de bol- 2005. http://www.steinberg.de
sas de iniciac a o cientca e de auxlio ao projeto de /Steinberg/Developers8b99.html.
pesquisa.
[12] Y. C. Lim and J. W. Lee, Matrix formulation:

REFER ENCIAS
BIBLIOGR AFICAS fast lter bank, IEEE International Conference
on Audio, Speech and Signal Processing, vol. 5,
[1] S. Haykin and B. V. Veen, Signals and Systems. pp. V 1336, May 2004.
John Wiley & Sons, 1996.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 52
_________________________________
Artigo de Congresso
_________________________________
Aplicao em udio da Aproximao
Mnimo Erro Mdio Quadrtico
Sidnei Noceti Filho, Calisto Schwedersky e Luiz Fernando Micheli

LINSE - Laboratrio de Circuitos e Processamento de Sinais
Depto. Engenharia Eltrica, Universidade Federal de Santa Catarina
Telefone: (48)3331-9504, Fax: (48)3331-9091
88040-900, Florianpolis, SC, Brasil
sidnei@linse.ufsc.br , calisto@linse.ufsc.br , lfmicheli@linse.ufsc.br
RESUMO
Este artigo apresenta consideraes sobre uma funo pouco conhecida na literatura, aqui chamada funo
de Mnimo Erro Mdio Quadrtico (ME). Ela se caracteriza por apresentar, na banda de passagem, a
magnitude da resposta em freqncia mais prxima da ideal. feita uma comparao entre a funo ME
com outras funes clssicas usadas em divisores de freqncia para caixas acsticas. Alm disso,
mostrado como determinar uma funo de transferncia ME.
melhor caixa acstica. Se o ambiente acstico no for

INTRODUO adequado, a sua resposta pode produzir efeitos
Em sntese de filtros, a soluo (ou solues) pode(m) desagradveis ao ouvido em funo, por exemplo, das
ser obtida(s) com o uso de otimizao. No entanto, uma possveis reflexes das ondas sonoras.
soluo analtica possvel com a utilizao de funes de O objetivo deste trabalho no discutir estes aspectos de
aproximao clssicas cujas caractersticas j foram projeto relativos iterao entre filtros e alto-falantes, com
exaustivamente estudadas. Nesse caso, a determinao da suas complexas impedncias e variadas SPL (sound
funo de transferncia (FT) de um filtro passa pressure level), o complexo modelo eletro-mecnico-
primeiramente pela determinao da funo passa-baixa acstico de alta ordem, a influncia da disposio espacial
normalizada. Aps isso, faz-se uma simples dos alto-falantes nas caixas, etc., mesmo porque isto
desnormalizao (no caso de um filtro passa-baixa) ou de assunto para um livro completo. O objetivo discutir a
uma desnormalizao acompanhada de uma transformao opo de uso da funo de aproximao Mnimo Erro
em freqncia (nos casos de filtros passa-alta, passa-faixa e Mdio Quadrtico (ME) e compar-la com as funes mais
rejeita-faixa) [1]. usadas no projeto de crossovers. Esse trabalho mostra a
Conseguir uma sonoridade agradvel em um sistema forma de determinao de funes ME de qualquer ordem,
completo (fonte sonora + amplificao + caixa acstica + baseado nas poderosas ferramentas computacionais hoje
ambiente) no uma tarefa trivial em vista da enorme disponveis. Em adio, mostrada uma tabela com
variedade de parmetros envolvidos (eltricos, mecnicos e funes caractersticas at a ordem 15 e um procedimento
acsticos). Por exemplo, o ouvinte pode conjugar a melhor de clculo das constantes de ganho, o que facilita
fonte sonora, o melhor processamento eletrnico e a sobremaneira a obteno das FTs dos filtros ME.
NOCETI FILHO ET AL. APLIC. EM UDIO APROX. ME
importante salientar que FTs digitais tambm podem ser caractersticas ideais. A Fig. 1 mostra uma comparao
obtidas a partir das correspondentes funes analgicas. entre as respostas passa-baixa normalizadas ME com as
aproximaes clssicas utilizadas em crossovers. Todas as
COMENTRIOS SOBRE AS FUNES funes comparadas apresentam ordem n 4 e atenuao
CLSSICAS de $ p 3 dB no limite da banda de passagem normalizada
As funes clssicas usadas no projeto de crossovers Zp 1 rad/s . Uma funo LR de ordem quatro apresenta
para caixas acsticas sempre apresentam caractersticas naturalmente uma atenuao de $p 6 dB em
otimizadas em algum aspecto. A seguir, so comentadas as
caractersticas principais destas funes, considerando-se a Zp 1 rad/s . Assim, com o intuito de melhor comparar
mesma ordem n e a mesma atenuao $ p no limite da todas as funes, a aproximao LR foi escalada pelo fator
banda passante. ZN # 0,80224, de modo a apresentar tambm $ p 3 dB
Funes Butterworth (BT) no limite da banda.

Quando se compara as caractersticas de atenuao
A aproximao BT monotnica e apresenta a (CAA) com as caractersticas de fase (CAF) de funes de
magnitude da resposta em freqncia mais plana na banda aproximao passa-baixas clssicas (CB, LG, BT, LR, BS
passante dentre todas as funes de aproximao e GS) utilizadas em crossovers, observa-se que sempre
polinomiais. As aproximaes polinomiais so aquelas existe um compromisso entre tais caractersticas. Quanto
cujas FTS passa-baixa apresentam todos os zeros no melhores so as CAA, piores so as CAF e vice-versa.
infinito. Considera-se um filtro com melhores CAA aquele que
Funes Chebyshev (CB) atenda aos requisitos de seletividade com menor ordem.
Considera-se um filtro com melhores CAF aquele que
A aproximao CB se caracteriza por ser equiripple na
apresenta uma menor disperso do atraso de grupo na
banda passante e por apresentar o corte mais abrupto na
banda de interesse. Nesse contexto, as aproximaes CB,
banda de rejeio dentre todas as funes de aproximao
LG e BT so as que apresentam melhores CAA, nessa
polinomiais.
ordem.
Funes Legendre (LG)
A aproximao LG, dentre todas as aproximaes 0
BT
polinomiais monotnicas, se caracteriza por apresentar a ME
LG
maior declividade da magnitude na freqncia limite da -0,5
banda passante (o que a faz mais seletiva do que a BT). No GS LR
BS
entanto, a sua determinao no to trivial quanto a da -1,0
Magnitude (dB)
aproximao BT.
Funes Linkwitz-Riley (LR) -1,5
CB
A aproximao LR [2] uma tentativa de se obter
-2,0
aproximao do tipo passa-tudo em sistemas de duas vias,
quando se soma uma funo passa-baixa e uma passa-alta.
Nesse caso, teoricamente no so introduzidas distores -2,5
na magnitude dos sinais. Na prtica, utiliza-se apenas
aproximaes LR de segunda e quarta ordem. A -3,0
-1 0
10 10
aproximao de segunda ordem obtida a partir da cascata Freqncia (rad/s)
de dois filtros de primeira ordem. A aproximao de quarta (a)
ordem obtida a partir da cascata de dois filtros BT de
segunda ordem. importante observar que a vantagem dos -5
filtros LR no existe no caso de sistemas de trs ou mais GS
-10
vias.
-15
LR
Funes Bessel (BS) -20
Magnitude (dB)
A aproximao BS, dentre todas as aproximaes -25

BS
LG BT
polinomiais clssicas com plos complexos, se caracteriza -30
por apresentar a fase mais linear dentro da banda passante.
-35
Essa caracterstica no preservada nos filtros BS ME
passa-alta e passa-faixa. -40
-45
Funes Gauss CB
-50
A aproximao GS, dentre todas as aproximaes
-55
polinomiais clssicas com plos complexos, se caracteriza
100,1 100,2 100,3 100,4
por apresentar a melhor resposta temporal, isto , o menor
Freqncia (rad/s)
tempo de atraso e o menor overshoot na resposta ao
degrau. (b)
Fig. 1. Comparao da magnitude da resposta em freqncia da
COMENTRIOS SOBRE AS FUNES ME funo ME com outras funes clssicas. (a) Detalhe na banda de
passagem. (b) Detalhe na banda de rejeio.
As funes ME se caracterizam por melhor aproximar as
caractersticas reais da magnitude da resposta em interessante discutir, neste ponto, primeiramente a
freqncia na banda de passagem, em relao s razo da utilizao das funes LG. Elas so monotnicas
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 54
e apresentam caractersticas intermedirias de magnitude e H ( s ) H ( s ) 1 K ( s ) K ( s ) . (2)

fase (ou atraso de grupo) entre as funes CB e BT. Suas
CAA so melhores que as de um BT e piores que as de um A partir de (1), obtm-se a atenuao em dB
CB. Por outro lado, suas CAF so melhores que as de um
CB e piores que as de um BT. Sendo assim, as funes LG A() H () dB :
tm sido uma opo de uso entre as funes CB e BT.
Considere agora a comparao entre as funes LG e
ME. A Fig. 2 mostra a comparao, para n 5 , entre as
A() 10 log 1 K () 2
. (3)
respostas passa-baixa normalizadas ME e LG, com a Definindo H como a mxima distoro na banda passante
caracterstica ideal (brick wall filter). Como pode se normalizada Z p 1 rad/s (em alguns casos H o ripple) da
observar na Fig. 1 (b), as funes LG e ME apresentam
caractersticas de atenuao semelhantes a partir de funo caracterstica K (Z) , tem-se que:
Z p 1 rad/s . A vantagem principal da funo ME que
K (1) .
esta apresenta um menor erro na banda de passagem em
relao resposta do brick wall filter do que a funo LG Ento $ (1) $ p 10log(1 H 2 ) dB
(e tambm em relao a todas as outras funes de
aproximao). Ento qual a razo da pouca popularidade 12
e H 10$p 10
1 . (4)
da funo ME? Em primeiro lugar, para sua determinao
so necessrias ferramentas computacionais que no eram
facilmente disponveis no passado. Em segundo lugar, A funo caracterstica de um filtro ME dada por (5), onde
porque a referncia [3] faz apenas uma meno a este tipo M n (Z) um polinmio de grau n em Z .
de aproximao e a referncia [4] apresenta as funes
caractersticas bsicas at a ordem nove e no apresenta
K (Z) H M n (Z) . (5)
uma forma sistemtica de clculo da constante de ganho.
Assim, se o projetista procura uma funo alternativa
2
funo CB (que apresenta o corte mais abrupto dentre Conseqentemente, H (Z) 1 H 2 M n2 (Z) . (6)
todas as funes polinomiais, porm com um ripple igual
atenuao em Z p 1 rad/s ) e funo BT (que apresenta Usando (2), obtm-se:
magnitude da resposta em freqncia plana e melhores
caractersticas de fase), a melhor opo sem dvida a H ( s ) H ( s ) 1 H 2 M n2 (Z) . (7)
funo ME, ao invs da funo LG. Z2 s 2
A partir de (7), obtm-se numericamente as razes sk do

0
semiplano lateral esquerdo. A funo H ( s ) dada por:
-0,5 LG
n
-1,0
ME H (s ) (s s ) k s n bn 1 s n 1
" b1s b0 . (8)
Magnitude (dB)
k 1
-1,5
Brick wall
-2,0 A funo ganho T ( s ) :
-2,5
1 b0
-3,0 T (s ) n n 1
, (9)
H (0) s bn 1s " b1s b0
-3,5
-4,0
-1 0
onde por (6), H (0) (1 H 2 M n2 (0))1/ 2 . (10)
10 10
Freqncia (rad/s)
Fig. 2. Comparao da magnitude da resposta em freqncia das Note na Tabela 1 que M n2 (0) 0 para n mpar e, neste
funes ME, LG e brick wall filter.
caso, H (0) 1 . Porm, para n par M n2 (0) z 0 . A
DETERMINAO DAS FUNES ME informao sobre a constante H (0) foi inserida em (9)
porque ela perdida no clculo das razes de H ( s ) H ( s ) .
A funo atenuao H () de um filtro encontrada a
A magnitude da resposta em freqncia da funo ME
partir de sua funo caracterstica K () usando (1).
obtida de forma que M n () seja o mais prximo de zero
2 2
na banda de passagem normalizada, usando o critrio do
H () 1 K () (1) mnimo erro mdio quadrtico. Em adio, estabelecida a
condio M n (1) 1 de tal forma que K (1) M n (1) .
Usando continuao analtica (da teoria de variveis O polinmio M n () tem a forma apresentada em (11),
complexas), substituindo Z2 por s 2 , obtida (2), a no caso de funes pares e a forma apresentada em (12), no
chamada equao de Feldtkeller. Aps encontrar as razes caso de funes mpares. Essa diferena necessria para
de H ( s ) H ( s ) , para que se obtenha uma rede estvel, que a funo ao quadrado tenha apenas coeficientes em
escolhe-se aquelas localizadas no semiplano lateral Z2 . Assim, aps a substituio de Z2 por s 2 , os
esquerdo (so os plos do filtro). coeficientes resultantes so reais.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 55
M n () a0 a22 ... an n para n par (11) para n t 6 . Assim, se for necessrio operar com maior
exatido, pode-se optar em trabalhar com o produto
e M n () a1 a33 ... an n para n mpar (12) M n () u M n ().
A Fig. 3 (b) apresenta a magnitude da resposta em
Os coeficientes so escolhidos de forma que a seguinte
freqncia das funes ME passa-baixa normalizadas de
integral (erro mdio quadrtico) seja minimizada:
ordem dois a cinco, com mxima atenuao na banda de
1 1 passagem Ap de 1 dB e 3 dB, respectivamente. Quanto
E (M
0 n () 0) 2 d = M n2 ()d .
0
(13)
menor o valor de Ap , mais a resposta da funo ME se
Por simplicidade, mas sem perda de generalidade, vista aproxima da resposta do brick wall filter na banda de
a seguir a determinao dos polinmios M 4 () e M 42 () . passagem. No entanto, o preo que se paga que as
Para n 4 tem-se: funes com menores Ap so menos seletivas na banda de
rejeio.
M 4 () a0 a22 a44 .
Para que a condio M 4 (1) 1 seja satisfeita, ento 0

a0 a2 a4 1 . Isolando a0 obtm-se a0 1 a2 a4 .
-0,5
Assim, pode-se escrever (13) como:
-1,0
Magnitude (dB)
1 1
M (1 a
2
E n ()d 2 a4 a22 a44 )2 d.
0 0
-1,5
Um sistema de equaes lineares formado, em funo -2,0

dos coeficientes a2 e a4 , baseando-se na condio de
wE -2,5
minimizao do erro mdio quadrtico, ou seja, 0.
wak
-3,0
Assim:
10-2 10-1 100
1 Freqncia (rad/s)
wE
wa2 [(2a
0
4 2a2 2) 2 (2 4a2 2a4 ) (a)
4 (2a2 2a4 ) 2a46 ] d 0 0
e -0,5
1
wE
[(2a 2a4 2) 2a22 -1,0
Magnitude (dB)
2
wa4 0
(2 2a2 4a4 )4 2a26 2a48 ] d 0. -1,5
Resolvendo as integrais, obtm-se as duas equaes que -2,0

compem o sistema linear:
-2,5
(16 /15) a2 (128 /105) a4 4 / 3 0
-3,0
(128 /105) a2 (64 / 45) a4 8/ 5 0 .
10-2 10-1 100
Freqncia (rad/s)
A soluo do sistema a2 7 / 4 e a4 21/ 8 .
(b)
Sabendo-se que o somatrio dos coeficientes igual a 1,
Fig. 3. Magnitude da resposta em freqncia das funes ME com
encontra-se a0 1/ 8 . Assim, o polinmio M 4 () dado n = 2 a 5 com (a) Ap =1dB e (b) Ap = 3 dB.
por:
M 4 () (21/ 8) 4 (7 / 4)2 1/ 8 . EXEMPLO DE DETERMINAO DE UMA FUNO
DE TRANSFERNCIA ME
Conseqentemente, M 42 () M 4 () u M 4 () :
Como exemplo, mostrada a determinao da FT de um
2 441 8 147 6 119 4 7 2 1 filtro passa-faixa de ordem 4 para um crossover de trs
M ()4 Z Z Z Z . vias, apresentando mxima atenuao na banda passante
64 16 32 16 64
$p 1 dB , freqncia de corte inferior f i 300 Hz e
O processo descrito para ordem quatro pode ser freqncia de corte superior f s 2500 Hz .
estendido para outras ordens. Quando a ordem aumenta,
conveniente utilizar recursos computacionais para resolver O primeiro passo determinar a FT de um filtro
as integrais e o sistema de equaes lineares. Isso foi feito passa-baixa normalizado de ordem n 2 e Ap 1 dB no
para ordens n de 1 a 15 e os polinmios M n () e M n2 () limite da banda de passagem normalizada Z p 1 rad/s .
encontrados so apresentados na Tabela 1. importante Uma conveniente desnormalizao e uma transformao
observar que os coeficientes de M n2 () esto aproximados em freqncia sero efetuadas.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 56
Tabela 1 Polinmios M n () e M n2 () para ordens de 2 a 15

n Polinmios M n ()
2 (5 / 4) 1/ 4
3 (7 / 4)3 (3/ 4)
4 (21/ 8)4 (7 / 4)2 1/ 8
5 (31/ 8) 5 (15/ 4) 3 (5/ 8)
6 (429 / 64) 6 (495 / 64) 4 (135 / 64) 2 5/ 64
7 (715 / 64) 7 (1001/ 64) 5 (385 / 64) 3 (35 / 64)
8 (2431/128) 8 (1001/ 32) 6 (1001/ 64)4 (77 / 32)2 7 /128
9 (4199 /128)9 (1989 / 32) 7 (2457 / 64)5 (273/ 32) 3 (63/128)
10 (14697 / 256)10 (31492 / 256) 8 (23205 / 256)6 (6825 / 256) 4 (682 / 256)2 11/ 256
11 (26001/256)11 (31089/128)9 (53295/256)7 (19635/256)5 (361/32)3 (115/ 256)
12 (92863/512)12 (245157/512)10 (239827/512)8 (53295/256)6 (10519/256)4 (1485/512)2 17/512
13 (167153/512)13 (482885/512)11 (265587/256)9 (138567/256)7 (17321/128) 5 (7293/512)3 (215/512)
14 (605927/1024)14 (1901357/1024)12 (2323883/1024)10 (697165/512)8
(424361/1024)6 (60623/1024)4 (3191/1024)2 27/1024
15 (1104927/1024)15 (1871247/512)13 (5033009/1024)11 (3417475/1024)9
(1230291/1024)7 (112331/512)5 (8915/512)3 (403/1024)
n Polinmios M n2 ()
2 (25/16) Z4 (5 / 8) Z2 1/16
3 (49 /16) Z6 (21/ 8) Z4 (9 /16) Z2
4 (441/ 64) Z8 (147 /16) Z6 (119 / 32) Z4 (7 /16) Z2 (1/ 64)
5 (1089/64) Z10 (495/16) Z8 (615/32) Z6 (75/16) Z4 (25/64) Z2
6 (14513/323) Z12 (4666/45) Z10 (14184/161) Z8 (14184/161) Z6 (2382/421) Z4 (675/2048) Z2 (25/4096)
7 (4618/37) Z14 (52770/151) Z12 (18573/49) Z10 (8617/43) Z8 (5969/112) Z6 (1612/245) Z4 (419/1401) Z2
8 (23085/64) Z16 (185359/156) Z14 (20444/13) Z12 (12839/12) Z10 (38533/97) Z8
(14558/185) Z6 (5123/683) Z4 (539/2048) Z2 49/16384
9 (36589/34) Z18 (126419/31) Z16 (70204/11) Z14 (31993/6) Z12 (133467/52) Z10
(28649/40) Z8 (9841/89) Z6 (8188/975) Z4 (961/3967) Z2
10 (32957/10) Z20 (98871/7) Z18 (127704/5) Z16 (101451/4) Z14 (120655/8) Z12
(32963/6) Z10 (27696/23) Z8 (36350/243) Z6 (2240/241) Z4 (255/1166) Z2 65/38638
11 (82529/8) Z22 (49338) Z20 (607685/6) Z18 (116708) Z16 (414446/5) Z14
(150023/4) Z12 (248360/23) Z10 (47952/25) Z8 (18661/95) Z6 (8987/883) Z4 (332/1631) Z2
12 (197375/6) Z24 173690 Z22 399185 Z20 524091Z18 433681Z16 (470865/2) Z14
(338491/4) Z12 (258129/13) Z10 (26335/9) Z8 (16113/64) Z6 (9313/842) Z4 (375/2006) Z2 25/24072
13 106582,4778Z26 615809,870049Z24 1566893,99802Z22 2310328,22266Z20
2185649,02877Z18 1387643,67687Z16 6,00896,573196Z14 176835,9303Z12
34600,64944588Z10 4308,54616Z8 316,278316867Z6 11,935030717Z4 0,17551515583Z2
14 350139,380306Z28 2197426,20618Z26 6133428,33053Z24 10039120,059Z22
10697288,69914554Z20 7789321,825211772Z18 3958585,655396469Z16 1408885,23005206Z14
347204,3143101698Z12 57672,81216922631Z10 6158,744061257684Z8 390,6375583054145Z6
12,80912169951406Z4 0,1631734536301306Z2 6,85602425722 u 10 -4
15 1164306,090639831Z30 7887234,559682801Z28 23964383,15839925Z26 43129096,84118479Z24
51145274,41351520Z22 42062332,44050433Z20 24589788,81250985Z18 10304237,83456609Z16
3081950,074008407Z14 647274,4767984994Z12 92596,79890341107Z10 8584,204065794445Z8
475,5323885284167Z6 13,67782331091915Z4 0,15426114153Z2
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006
Segundo a Tabela 1, para n 2 , a funo M n2 (Z) : ( Bs ) 2 b0 / H (0)

T (s) . (19)
( s Z ) b1 Bs ( s 2 Z02 ) b0 ( Bs ) 2
2 2 2
0
2 4 2
M ()
4 (25 /16) Z (5 / 8) Z (1/16) . (14)
Colocando (19) em uma forma conveniente e
Assim, a funo atenuao ao quadrado : substituindo as variveis literais por valores numricos,
obtm-se
2
H () 1 2 (25/16)4 (5/ 8)2 (1/16) . (15)
3,00405411877 u 108 s 2
T (s) .
s 23004,8365s 3 +362043986s 2
4
Calculando-se H usando (4) e substituindo 2 por s 2

681145907000s 8.76681819 u 1014
em (15), obtm-se H ( s ) H ( s ) dada por:
A Fig. 4 mostra a magnitude da resposta em freqncia
25 5 1 do filtro passa-faixa projetado.
H ( s ) H ( s ) 1 0,2589254118 s 4 s 2 . (16)
16 8 16
As razes de H ( s ) H ( s ) so 0
s1,2,3,4 = r a r b j r0,832121237 r 0,944682885 j .
Magnitude (dB)
-5
Escolhendo as razes localizadas no semiplano lateral
esquerdo, forma-se o polinmio H ( s ) :
H (s ) s 2 b1s b0 , -10
onde b1 2a 1,664242474
-15
e b0 a 2 b2 1,58485150628 . 103
Freqncia (Hz)
Usando (10) calcula-se H (0) como: Fig. 4 Magnitude da resposta em freqncia do filtro ME passa-faixa.
1
1/ 2
CONCLUSES
H (0) 1 0,2589254 16 1,0080589458 .
Neste trabalho, foi discutida a funo de aproximao
Mnimo Erro Mdio Quadrtico que apresenta o menor
A funo de transferncia do filtro ME erro da magnitude da resposta em freqncia na banda de
passagem em relao resposta ideal do brick wall filter,
1 b0 dentre todos os outros tipos de funes de aproximao
T (s ) (17) clssicas conhecidas. Essa funo apresenta caractersticas
H (0) H ( s )
intermedirias de seletividade e de fase entre as
aproximaes Butterworth e Chebyshev e, portanto, uma
1,5721814 interessante opo de uso em lugar da aproximao
ou T ( s ) .
s 2 1,664242474s 1,58485150628 Legendre. Foi mostrada a forma de obter essas funes e
determinada uma simples equao para o clculo do ganho.
A equao (18) permite transformar uma FT passa-baixa
normalizada em uma passa-faixa com simetria geomtrica REFERNCIAS BIBLIOGRFICAS
[1]. Assim, a freqncia central do filtro Z0 (Zs Zi )1/ 2 . a
[1] S. Noceti Filho, Filtros Seletores de Sinais, 2 ed.
Em (18), B representa a banda passante dada por Florianpolis: Edufsc, 2003.
B Zs Zi 2S ( f s f i ) . a
[2] V. Dickason, Caixas Acsticas e Alto-falantes, 5 ed.
Rio de Janeiro: H. Sheldon, 1997.
s 2 Z02 [3] H. J. Blinchikoff and A. I. Zverev, Filtering in the
s . (18)
Bs Time and Frequency Domain, New York: Jonh Wiley
and Sons, 1976.
Substituindo (18) em (17), obtm-se [4] D. S. Humpherys, The Analysis, Design, and Synthesis
of Electrical Filters, N.J.: Prentice-Hall, Englewood
b0 / H (0) Cliffs, 1970.
T (s) 2
,
s Z
2
s 2 Z02
2

b1 b0
0

Bs Bs
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006
___________________________________
Artigo de Congresso
___________________________________
O Mtodo FCC de Correo para Amplificadores Chaveados
Operando no Esquema Sigma Delta Resultados
Fundamentais
Marcelo H. M. Barros
Grupo de Materiais e Dispositivos, Departamento de Fsica e Engenharia Fsica, Universidade Federal de
So Carlos, 13565-905, So Carlos, So Paulo.
HotSound. Ind. Com. de Equipamentos Eletrnicos Ltda, 13.270-294, Valinhos, So Paulo.
marcelo@hotsound.com.br
RESUMO
Este artigo ir expor as bases e os resultados fundamentais do mtodo FCC de correo para amplificadores
chaveados. Centrado no tratamento matemtico, via tcnica variacional, este procedimento introduziu melhoras
muito significativas no sistema amplificador chaveado, chegando a ter desempenho completamente similar a um
amplificador linear de alto padro, em termos da distoro, da resposta em frequncias, do mdulo da impedncia de
sada e do rudo residual de fundo, mas preservando a alta eficincia energtica tpica de um amplificador chaveado.
1. DESCRIO GERAL potncia chaveado classes AD ou BD (que daqui a diante

O mtodo FCC consiste em um procedimento sistemtico chamaremos simplesmente plataforma) e por meio das
para implementao de um conformador de ondas (wave- equaes de vnculo obtidas, puderam-se determinar os
shaping) [5,6,7] em estrutura recorrente na malha de parmetros livres de forma fechada e assim, estes operadores,
realimentao de amplificadores chaveados, a fim de se obter inicialmente genricos, se tornaram especficos para uma
a modulao 1-bit sigma-delta [6,7] com o mximo de dada plataforma e puderam ser finalmente convertidos em
fidelidade ao sinal original. O procedimento consiste em circuito eletrnico, por meio dos mtodos usuais. Esse
postular um grupo de operadores, ALPHA, BETA e conformador de ondas, assim obtido, foi inserido em uma
GAMMA-i, onde cada um deles representa uma etapa deste plataforma classe BD [4]. A adio desse conformador
conformador de ondas, mas com vrios parmetros livres. caracterizou o sistema como um grande modulador sigma-
Nestes operadores aplicaram-se tcnicas variacionais [8,9] a delta [6], com o estgio de sada fazendo parte desse loop [7].
fim de encontrar os melhores valores para os parmetros Este procedimento de otimizao introduziu melhoras muito
livres que minimizam os erros introduzidos nas diversas significativas no amplificador chaveado sigma-delta,
partes do amplificador chaveado. O resultado surge na forma chegando a ter um desempenho muito prximo, e at melhor
de equaes de vnculos, que inter-relacionam os parmetros em alguns aspectos, aos amplificadores lineares de potncia
livres e diminuem os graus de liberdade para apenas alguns compatvel, mas preservando sua principal virtude a alta
poucos dados, que foram posteriormente identificados como eficincia energtica, algo em redor de 95%, independente da
dados de sistema. Partindo destes poucos dados de sistema, potncia de sada, contra os tpicos 50-60% dos
inerentes a um dado conversor acoplado a um mdulo de amplificadores lineares (mas somente na mxima potncia).
M. BARROS O MTODO FCC RESULTADOS FUNDAMENTAIS
2. DESCRIES FUNCIONAIS DE ALPHA, BETA E Onde se percebe claramente a diferena fundamental entre o
GAMMA-i, AS EQUAES DE VNCULO E O esquema PWM e o SDM (sigma-delta modulation): a
MTODO VARIACIONAL densidade de amostras no mais uma constante do sistema.
Um amplificador chaveado (classe-AD) tpico descrito por O sinal portador (carrier, ou bias em [4]) pode ser removido
Attwood [2,3], Vanderkooy [4] e citado por Duncan [1] e por um filtro passa-baixas (bloco LP Filter, na fig. 1) a fim
consiste na seguinte estrutura bsica: de recuperar o sinal original. Procedimentos deste tipo j
foram extensivamente tratados na literatura.
Attwood [2,3], Vanderkooy [4] e vrios outros pesquisadores
dedicaram grande parte de seu trabalho procura de um
mtodo de correo que elevasse o padro de qualidade
sonoro dos amplificadores chaveados ao mesmo nvel dos
amplificadores lineares. Uma leitura destes trabalhos e
outros, pode esclarecer o quo custoso esse objetivo,
especialmente em situaes de grande potncia, como o
caso do udio profissional.
Fig.1 Amplificador chaveado bsico (aps 1983), como
O mtodo NDFL, proposto por Cherry para amplificadores
proposto por Attwood
lineares [5], forneceu a inspirao bsica para a procura de
uma tcnica recorrente de realimentao negativa aplicada a
Esse modelo pode ser considerado padro. Em [4],
amplificadores chaveados e essa a proposta do mtodo
Vanderkooy cita a classe BD como uma variante da classe
FCC, consistindo em um conformador de ondas de estrutura
AD original. A alta eficincia energtica destas plataformas
recorrente, otimizado matematicamente para realimentar um
largamente discutida na literatura e no ser considerada
conversor SDM operando em classe AD ou BD. Sua estrutura
aqui. O sinal aplicado (da banda de udio, 20-20kHz)
guarda certa semelhana com a proposta por Cherry [5] para
convertido no bloco PWM Comparator, onde emerge como
amplificadores lineares.
um sinal binrio, de apenas 2 estados e de frequncia
O sistema inicia com um bloco alimentador ALPHA (), que
constante; no caso de Attwood e Vanderkooy seguindo o
distribui o sinal para n+1 conformadores diferenciadores,
esquema PWM (pulse width modulation) [2,3,4]:
2.500 V
iniciando com BETA () e se estendem atravs dos
GAMMA-i (i), (i = 1,2,...,n). O ndice i pode assumir
A: v3_1
B: v8_1
qualquer valor inteiro positivo e ser mostrado que os erros

1.500 V
introduzidos pelas no-linearidades do conversor SDM +

0.500 V
-0.500 V
estgio de potncia decrescem quando i aumenta, ocorrendo
-1.500 V
uma melhora muito significativa de todos os parmetros do
-2.500 V
0.000us 10.00us 20.00us 30.00us 40.00us 50.00us 60.00us 70.00us 80.00us 90.00us 100.0us
amplificador chaveado.
ALPHA, BETA e os GAMMA-i so funcionalmente
Fig. 2 Amostragem PWM, com Fb=100kHz, Fs=20kHz e
descritos pelas seguintes funes transferncia (no so
M=0,8, segundo [4]
funes realimentao), no domnio da varivel complexa s
(transf. de Laplace), como est definido em [9]:
Na figura 2, o sinal aplicado Fs senoidal puro com
F=20kHz e o relgio (clock), chamado bias em [4], tem
frequncia de 100kHz e do tipo rampa (triangular). M o 1 1
(s) = (1)
ndice de modulao [4]. O sinal PWM aparece na figura 3: A Bs 1
C: u3a_6
2.500 V
Ds 1
(s) = C (2)
Es 1
1.500 V
G s 1
0.500 V
-0.500 V i(s) = Fi i (3)

-1.500 V
His 1
-2.500 V
onde i = 1,2,...n e os parmetros A, B, C, D, E, F, G e H so

Fig. 3 Sinal PWM, para a amostragem da figura 2, inicialmente desconhecidos. A, C e Fi so adimensionais e B,

segundo [4] D, E, Gi e Hi tm dimenses de inverso da frequncia
angular.
A converso 1-bit sigma-delta descrita (neste artigo) por Atravs de um procedimento sistemtico de otimizao,
Klugbauer-Heilmeier e por Esslinger [6,7]. Para o mesmo realizado por mtodos variacionais [8,9], foi possvel
sinal aplicado (Fs = 20kHz) tem a forma como segue: determinar os melhores parmetros A, B, C, D, E, F, G e H,
A: r16_2
B: v2_1
5.000 V
de modo que os graus de liberdade, inicialmente 8, foram
2.500 V drasticamente reduzidos. O processo variacional forneceu
algumas equaes de vnculo, que permitiram diminuir os
graus de liberdade. Os parmetros restantes, trs no total,
0.000 V
-2.500 V
foram identificados como dados de sistema, chamados A, A0
-5.000 V
e 'Z L e so oriundos da plataforma adotada, seguindo a
prescrio:
Fig. 4 Converso 1-bit sigma-delta para Fs = 20kHz e M =
0,8 segundo [6,7]
O A

A = ganho desejado em malha fechada; L U wu 2 T wu 2

A0 = ganho de malha aberta; = Ecin Epot = dx
'Z L = largura de banda, definida como sendo o inverso da 0 2 wt 2 wx

resoluo mxima da plataforma adotada que por sua vez Segundo o princpio de Hamilton, o movimento da corda
definida como sendo o pulso de durao mais curta que a deve ser tal que a integral
plataforma capaz de produzir.
t1 L U wu 2 T wu 2
O ndice i, que a princpio poderia assumir qualquer valor
J = dxdt , onde t0 e t1 so dois
inteiro positivo, na prtica depende da largura de banda da
plataforma utilizada e da largura de banda do conformador de
t0 0 2 wt
2 wx

ondas. Como i afeta diretamente a funo sensibilidade, instantes arbitrrios no tempo, seja estacionria. A equao
existir um valor para o qual o sistema se tornar instvel. de Euler-Lagrange para J toma ento a forma
Tambm est diretamente relacionado com a complexidade
do sistema. Assim, optou-se por escolher um i que fornecesse D w D w
0 , Em que a quantidade
ao amplificador chaveado o melhor desempenho, a partir do Dt wut Dx wu x
qual um incremento no traz nenhuma melhora significativa
(convergncia). Com a plataforma classe BD utilizada no U wu 2 T wu 2
= , geralmente chamada de
prottipo a convergncia foi rapidamente atingida, com i = 3. 2 wt 2 wx
densidade Lagrangeana. Procedendo com as operaes
2.1 O Mtodo Variacional
necessrias, reduz-se a equao de Euler-Lagrange forma
Um dos mtodos mais interessantes e antigos usados na
familiar:
fsica-matemtica o do clculo das variaes [8,9]. A idia
central est em minimizar (ou maximizar) uma certa funo w 2u w 2u
-T U 0
esttica, chamada funcional, por meio de pequenas variaes
wt 2 wx 2
em alguns de seus parmetros. Daremos aqui apenas um
exemplo de como essa tcnica pode ser usada para tratar que pode agora ser resolvida pelos mtodos usuais de EDP.
problemas em muitas dimenses, tal como foi realizado com Demonstrou-se assim, como o mtodo variacional pode
o mtodo FCC, mas apenas para ilustrar o seu uso. O caso da reduzir um problema de muitas dimenses para formas mais
corda distendida, como uma corda de piano ou de violo brandas. Estes mtodos so fartamente descritos na literatura
tpico e de grande interesse. usual de fsica-matemtica.
Uma corda distendida pode ser considerada como um sistema
com infinitos graus de liberdade, cada elemento dx sendo 3. RESULTADOS
tratado como uma partcula de massa dx. Portanto a energia Um prottipo com potncia na faixa de 2kWavg (@ 2 ohms)
cintica de um sistema de partculas como esse realizado seguindo as definies encontradas em [4] para a
classe BD foi implementado para anlise, inicialmente em
2
1 N 1L wu malha aberta. Numa segunda etapa, para comparao, foi
Ecin = mi vi2 torna-se uma integral Ecin = ( Udx)( ) aplicado o mtodo de realimentao proposto em [4] e
2i 1 20 wt
finalmente, em uma terceira etapa foi aplicado o mtodo
FCC. O conformador de ondas FCC foi construdo usando-se
A energia potencial da corda deformada mais facilmente os mtodos usuais de anlise, aps a obteno dos parmetros
calculada como sendo o trabalho efetuado contra a fora de a partir das equaes de vnculo e para os seguintes dados de
tenso T. O comprimento da corda deformada um pouco sistema:
maior do que o comprimento original L e dado por
A = 24dB
A0 = 26dB
L 2
wu 2S
L = ds 1 dx 'Z L =
0 wx 8 u 10 7 s
Para deformaes pequenas, temos que Nas medies foi empregado o analisador Audio Precision
System One + DSP com software APWin 2.24, interfaceado
2 2 pelo filtro auxiliar Audio Precision AUX-0025, conforme
wu 1 wu prescrito em [11]. As cargas so puramente resistivas. Todas
1 # 1 , por conseguinte, a extenso L
wx 2 wx as medies foram executadas em conformidade com as
referncias encontradas em [1], [10] e [11].
2
1 L wu A anlise para malha aberta, com Fb=192kHz forneceu
da corda aproximadamente L = L- L # dx , e a THD+N=0,6%, em regime permanente senoidal de 1kHz,
2 0 wx
carga fixa resistiva de 8 ohms e potncia mdia na carga,
energia potencial (trabalho realizado contra T ) dada por conforme definida em [1,10], de aprox. 625 Wavg.
2 Em [4] est definida uma tcnica de realimentao para
T L wu
Epot # T'L # dx , esta anlise nos permite escrever amplificadores chaveados. Ela foi implementada no mesmo
2 0 wx
prottipo classe BD, a fim de se fazer uma comparao direta
o Lagrangeano do sistema como sendo com o mtodo FCC. A medio forneceu THD+N = 0,9%,
O A

nas mesmas condies. E como citado por Vanderkooy [4], a que chamaremos amplificador linear de referncia) e ter-se-
realimentao produzida por um integrador introduz uma exata idia da posio em que o mtodo FCC colocou a
distoro, apesar de alguma melhora em outras figuras de plataforma chaveada classe BD.
mrito.
Na prxima etapa, foi introduzido o conformador FCC, 3.1 Resposta em Frequncias
mantendo-se a mesma plataforma utilizada para as medidas Inicialmente a magnitude da resposta em frequncias, para o
anteriores. Foram executadas medidas sucessivas nas mesmas mtodo FCC:
condies e a cada uma incrementava-se o ndice i de uma TT
+10
+8
unidade, a fim de atestar a diminuio da THD+N com o

+6
+4
+2
aumento de i, como foi antecipado em 2.

-0
-2
-4
+0 -6
-5 -8
d
-10 B -10
V
-15 -12
-20 -14
-25 -16
-30 -18
-35 -20
-40 -22
-24
-45
d -26
B -50
V -28
-55
-30
-60 20 50 100 200 500 1k 2k 5k 10k 20k 50k 100k 200k
-65 Hz
-70
-75
-80 Fig. 8 Magnitude normalizada da resposta em frequncias

para uma carga resistiva de 2 ohms, mtodo FCC, exibindo a
-85
-90
-95
-100
1k 2k 3k 4k 5k
Hz
6k 7k 8k 9k 10k
atuao do filtro AUX-0025
Fig. 5 Anlise espectral da tenso (normalizada) na carga,
para i = 1. THD+N=0,057% Percebe-se que, na banda de udio, a resposta perfeitamente
plana, pois o que se v quase que totalmente a marca do
Com i = 1 j foi possvel obter um valor bem superior aos filtro AUX-0025 [11]. Pode-se fazer a mesma medida para o
registrados anteriormente. Aumentando i ainda mais, vem: mtodo proposto em [4] e nas mesmas condies.
+10
T T
+0 +8
-5 +6
-10 +4
-15 +2
-20 -0
-25 -2
-30 -4
-35 -6
-40 -8
d
-45 B -10
d V
-50 -12
B
V -14
-55
-16
-60
-18
-65
-20
-70
-22
-75
-24
-80
-26
-85
-28
-90
-30
-95 20 50 100 200 500 1k 2k 5k 10k 20k 50k 100k 200k
-100 Hz
1k 2k 3k 4k 5k 6k 7k 8k 9k 10k
Fig. 9 A mesma resposta em magnitude, obtida para o

Hz
Fig. 6 Anlise espectral da tenso na carga, para i = 2. mtodo proposto em [4]

THD+N=0,013%
Onde fica evidente a superioridade do mtodo FCC em altas
J prximo da regio de convergncia. Incrementando i de frequncias.
mais uma unidade: O prximo passo ser examinar a fase da resposta, em relao
+0
entrada, conforme definido em [1,10]. Somente para o

-5
-10
-15
-20
-25
mtodo FCC encontra-se:
-30
T
TTT
T
-35 +40
-40
+30
-45
d
B -50 +20
r
-55
+10
-60
-65 +0
-70 -10
-75
d -20
-80 e
g
-85 -30
-90
-40
-95
-100 -50
1k 2k 3k 4k 5k 6k 7k 8k 9k 10k
Hz
-60
Fig. 7 Anlise espectral da tenso na carga, para i = 3.

-70
-80
THD+N=0,009% -90
20 50 100 200 500 1k 2k
Hz
5k 10k 20k 50k 100k 200k
Fig. 10 Fase da resposta em frequncias para o mtodo

A convergncia foi visivelmente alcanada para i = 3 e a FCC (2). Acima a resposta do filtro AUX-0025 e abaixo a
THD+N alcanou um valor mais que dez vezes melhor que o resposta do prottipo interfaceado pelo filtro AUX-0025
nvel de referncia de 0,1%.
O mtodo FCC prov o melhoramento de todas as principais Este grfico mostra o pouco atraso introduzido pelo
figuras de mrito do amplificador chaveado, tais como: amplificador chaveado assistido pelo mtodo FCC, com
resposta em frequncias, rudo residual de fundo, mdulo da carga resistiva de 2 ohms. Para o mtodo proposto em [4] o
impedncia de sada e a j (parcialmente) analisada, distoro atraso introduzido chegou a -90deg em 30kHz, mostrando a
harmnica+rudo. Na prxima sub-seo sero apresentados sua inabilidade de reproduzir as frequncias mais altas do
os resultados para todas essas figuras de mrito, mantendo espectro de udio. No caso do amplificador linear usado
fixo i = 3 e fazendo-se imediata referncia aos valores como referncia, os resultados so bastante compatveis com
obtidos com o mtodo de [4] e os obtidos com um os obtidos pelo prottipo assistido pelo mtodo FCC.
amplificador linear de alto padro (de potncia compatvel,
O A

3.2 Rudo Residual de Fundo 3.4 Distoro Harmnica Total + Rudo

Agora a anlise espectral por FFT do rudo residual de fundo Agora sero feitas anlises detalhadas da THD+N. O
presente na sada do amplificador quando sua entrada primeiro procedimento consiste em se fixar a frequncia do
desconectada [1,10]. Inicialmente para o mtodo FCC: sinal senoidal e variar sua amplitude [1,10]; para cada
incremento na amplitude feita uma medida da THD+N.
+40
+30
Primeiro, para o mtodo FCC:

+20
+10
+0 1
-10
0.5
-20
-30
d
B -40 0.2
r
-50
0.1
-60
-70 0.05
-80 %
-90
0.02
-100
-110 0.01
-120
10k 20k 30k 40k 50k 60k 70k 80k 90k 100k 0.005
Hz
Fig. 11 Anlise espectral do rudo residual de fundo para

0.002
o mtodo FCC. dBr=dBu

0.001
-30 -25 -20 -15 -10 -5 +0 +5 +10 +15
dBu
Fig. 13 THD+N versus amplitude de entrada com sinal de

Nota-se que dentro da banda de udio o range dinmico, teste de 1kHz para o mtodo FCC. A amplitude de sada
conforme definido em [1,10] extremamente grande, com 24dB maior. Abaixo carga de 8 ohms, ao centro carga de 4
SNR(22-22kHz) = 109,8dBr. O amplificador linear de ohms e acima carga de 2 ohms
referncia possui SNR(22-22kHz) = 100dBr.
Para o prottipo assistido pelo mtodo proposto em [4]; Onde se fez a mesma medida para trs cargas diferentes.
Pode-se ver que a THD+N fica restrita a valores inferiores ao
+40
+30
valor de referncia na maior parte do intervalo, elevando-se

+20
+10
somente nos limites de sua potncia mxima. Por outro lado,

+0
-10
atinge valores excepcionais (0,008%) em potncias medianas.

-20
-30
d
Para comparao, na prxima figura, a mesma medida, para o

B -40
u
-50
prottipo assistido pelo mtodo de [4], onde confirmamos o

-60
-70
-80
-90
-100
resultado fornecido no incio dessa seo.
10
-110
-120
10k 20k 30k 40k 50k 60k 70k 80k 90k 100k
Hz 5
Fig. 12 Anlise espectral do rudo residual de fundo para

o mtodo proposto em [4]
2
% 1
o quadro bastante inferior, com SNR(22-22kHz) = 82dBr. 0.5
Verifica-se que, no parmetro rudo residual de fundo, o 0.2
amplificador chaveado assistido pelo mtodo FCC obteve um

resultado que supera o amplificador linear de referncia.
0.1
-40 -37.5 -35 -32.5 -30 -27.5 -25 -22.5 -20 -17.5 -15 -12.5 -10 -7.5 -5 -2.5 +0 +2.5
dBu
Fig. 14 THD+N versus amplitude de entrada com sinal de

3.3 Mdulo da Impedncia de Sada e Fator de teste de 1kHz, para o mtodo proposto em [4]. A amplitude
Amortecimento de sada 32dB maior. Abaixo carga de 8 ohms, ao centro
O fator de amortecimento (damping factor), como est carga de 4 ohms e acima carga de 2 ohms.
definido em [1,10] pode ser facilmente obtido relacionando a
resposta em frequncias para uma carga conhecida com a A prxima figura exibe a THD+N versus amplitude para o
resposta em frequncias para uma carga infinitamente grande amplificador linear de referncia, que possui potncia
(amplificador com a sada em aberto) e calculando-o de ligeiramente inferior ao do prottipo FCC apresentado, mas
acordo com as definies encontradas em [1,10]. A partir do pde fornecer uma comparao til.
fator de amortecimento pode-se calcular o mdulo da 1
impedncia de sada, ainda conforme [1,10]. Um bom e

0.5
suficiente valor para o fator de amortecimento se situam entre

0.2
0.1
algumas centenas (200-600). Calculando-se o fator de 0.05
amortecimento na frequncia de 50Hz, obtm-se, para o

%
0.02
mtodo FCC, D 400 @ 8 ohms. A partir desse valor a 0.01
impedncia de sada (mdulo) obtida, |Z| = 0,02 ohms. Para 0.005
o amplificador linear de referncia, nas mesmas condies, 0.002
obtido D 570 com um respectivo |Z| = 0,014 ohms.

0.001
-20 -18 -16 -14 -12 -10 -8 -6 -4 -2 -0 +2 +4
dBu
O mesmo procedimento para o prottipo assistido pelo Fig. 15 THD+N versus amplitude de entrada com sinal de
mtodo proposto em [4] obteve D 28 @ 8 ohms, com um teste de 1kHz para o amplificador de referncia. A amplitude
respectivo |Z| = 0,286 ohms. O valor original (obtido com a de sada 32dB maior. Abaixo carga de 8 ohms, ao centro
plataforma sem nenhuma realimentao) foi D 10 @ 8 carga de 4 ohms e acima carga de 2 ohms.
ohms, com |Z| = 0,8 ohms. Mais uma vez, os resultados para
o amplificador chaveado + FCC concordam muito bem com Este excelente amplificador de tecnologia linear fornece uma
os obtidos para o amplificador linear de referncia.
O A

base segura do ponto onde o mtodo FCC colocou a 5. CONCLUSES

plataforma chaveada classe BD utilizada no prottipo. O amplificador de udio foi criado logo aps a inveno da
Agora, em lugar de se fixar a frequncia e varrer a amplitude vlvula eletrnica, na dcada de 1910. A sua enorme
ser feito o contrrio. Se Fixa a amplitude e varre-se a importncia econmica logo se tornou bvia e atualmente o
frequncia [1,10]. O grfico assim obtido o de THD+N nmero de pessoas, cujas atividades dependem, direta e
versus frequncia. indiretamente desse objeto continuamente crescente. A
importncia econmica de se gerar tecnologias de alto
1
rendimento energtico vai desde uma simples reduo do

0.5
volume e peso transportado (menor custo com transporte) at

0.2
0.1
0.05
uma reduo no consumo de energia eltrica.
Atualmente, universidades e empresas do mundo todo
%
0.02
0.01
buscam desenvolver seus prprios mtodos em amplificao
chaveada e sempre com os mesmos objetivos: alta eficincia
0.005
energtica e grande fidelidade sonora.

0.002
0.001
O mtodo FCC visa a implementar a modulao sigma-delta

20 50 100 200 500 1k 2k 5k 10k
Hz
Fig. 16 THD+N versus frequncia @ -6dB do mximo sinal de maneira otimizada para grande qualidade sonora, mas
admissvel, para carga de 2 ohms. Amplificador chaveado + mantendo a alta eficincia energtica. No futuro, com o
FCC aperfeioamento destes mtodos de alta eficincia, os
amplificadores lineares podero estar no mais completo
1
T
0.5
0.2
desuso.
0.1 Torna-se, portanto imperativo, que o meio acadmico do
%
0.05
Brasil, bem como s suas indstrias do setor de udio
0.02
profissional, dominem mtodos prprios e competitivos de
amplificao chaveada. Lembrando que os vrios mtodos
0.01
0.005
0.002
recentemente desenvolvidos no mundo todo so proprietrios
0.001
20 50 100 200 500
Hz
1k 2k 5k 10k e mantidos sob proteo.
Fig. 17 THD+N versus frequncia @ -6dB do mximo sinal
7. REFERNCIAS BIBLIOGRFICAS
admissvel, para carga de 2 ohms. Amplificador linear de
referncia
[1] Duncan, Ben; High Performance Audio Power
Amplifiers, Butterworth-Heinemann, 1996;
Onde se verifica, por comparao, a excepcional linearidade
[2] Attwood, Brian E.; Very High Fidelity Quartz
proporcionada pelo mtodo FCC em relao s diferentes
Controlled PWM (class D) Stereo Amplifiers for
frequncias do espectro de udio. O amplificador linear de
Consumer and Professional Use, An Audio
referncia apresenta nveis excepcionalmente baixos de
Engineering Society PrePrint, 1978;
THD+N nas frequncias mais baixas, contudo, nas mais altas
[3] Attwood, Brian E.; Design Parameters Important for
o comportamento no to bom. Em um sistema de alta
the Optimization of Very-Fidelity PWM Audio
qualidade este amplificador provavelmente seria indicado
Amplifiers, An Audio Engineering Society PrePrint,
para as frequncias mais baixas (sistema de graves), j o
1982;
amplificador chaveado FCC poderia ser utilizado em
[4] Vanderkooy, J.; New Concepts in Pulse-Width
qualquer faixa de frequncias.
Modulation, An Audio Engineering Society PrePrint,
Em toda a seo 3.4 a banda passante considerada pelo
1994;
analisador foi de 22-22kHz.
[5] Cherry, Edward M; Nested Differentiating Feedback
Loops in Simple Audio Power Amplifiers, J. Audio
4. FOTO DO PROTTIPO
Eng. Soc., Vol. 30, No. 5, 1982 May;
O prottipo utilizado nas anlises media cerca de 27x15cm e
[6] Klugbauer-Heilmeier, Josef; A Sigma Delta
pesava cerca de 500g, com potncia na faixa de 2kWavg.
Modulated Switching Power Amp, An Audio
Engineering Society Preprint, preprint 3227,1992;
[7] R. Esslinger, G. Gruhler and R.W. Stewart; Digital
Audio Power Amplifiers Using Sigma Delta
Modulation Linearity Problems in the Class-D Power
Stage, Audio Engineering Society Convention Paper,
2001;
[8] Arfken, G.B. & Weber, H.J., Mathematical Methods
for Physicists, Academic Press, 1995;
[9] Butkov, E., Mathematical Physics, Addison-Wesley
Publishing Company, Inc., 1968;
[10] Metzler, B. Audio Measurement Handbook, Audio
Precision, Inc., 1993;
[11] Hofer, B., Measuring Switch-Mode Power
Amplifiers, Write paper, Audio Precision, Inc., 2003.
Fig. 18 Prottipo classe BD + FCC
O A

Sesso 3
Sonorizao Espacial, Som 3D, Acstica de Salas e Ambientes II
(Spatial sound systems, 3D Sound, Environmental and Room Acoustics II)

_________________________________
Artigo de Congresso
_________________________________
Parmetros Acsticos em Salas de Msica: anlise de resultados e
novas interpretaes
Fbio Leo Figueiredo, Fernando Iazzetta

Departamento de Msica - Universidade de So Paulo
So Paulo SP - Brasil
fabioflf@hotmail.com, iazzetta@usp.br
RESUMO
Este artigo apresenta anlises e concluses sobre resultados de medies de parmetros acsticos estabelecidos
como critrios para avaliao da qualidade acstica de salas de msica. As medies foram realizadas em seis
importantes salas de concerto de So Paulo, durante o ano de 2005, dentro do projeto Acmus desenvolvido na
Universidade de So Paulo. Primeiramente exibimos um quadro geral dos resultados para cada parmetro. Em
seguida, buscamos nas caractersticas arquitetnicas das salas as causas ou explicaes para os resultados
observados. Verificamos as limitaes de alguns parmetros, e sugerimos novas interpretaes que podem
enriquecer a compreenso sobre a avaliao da qualidade acstica das salas de msica.
Cada uma dessas impresses associada a um parmetro

acstico de natureza subjetiva que est correlacionado a
INTRODUO uma grandeza fsica mensurvel, constituindo um
Em 2003 iniciamos na Universidade de So Paulo, conjunto de parmetros acsticos objetivos que formam
Brasil, um projeto de pesquisa em acstica de salas uma base cientfica para a anlise acstica das salas de
voltado para questes musicais. O ncleo de trabalho, msica.
intitulado AcMus [1], concentra-se no desenvolvimento Determinamos a metodologia experimental mais
de ferramentas computacionais para projeto, medio e adequada [3] e efetuamos medies em seis importantes
simulao do comportamento acstico de salas salas de concerto em So Paulo, comparando os
destinadas msica. resultados. Realizamos uma anlise crtica a respeito dos
O presente trabalho focaliza os resultados obtidos nas parmetros acsticos obtidos e aprofundamos a
pesquisas de medies acsticas efetuadas com base na compreenso sobre seus significados e suas utilidades.
norma ISO 3382 [2]. Os resultados das medies foram Por fim, fizemos uma anlise subjetiva de jri
processados de modo a levantarmos os parmetros correlacionando os parmetros acsticos medidos s
acsticos reconhecidos como critrios para avaliao da respectivas impresses acsticas sobre amostras musicais
acstica de salas. gravadas nas salas, que est detalhada na referncia [3].
Os parmetros acsticos subjetivos so critrios que Os parmetros analisados aqui so: RT60 (tempo de
definem a qualidade acstica de uma sala de msica. A reverberao), BR e TR (razo de graves e razo de
apreciao musical dentro da sala afetada por diversas agudos), RDR (razo entre som direto e som
impresses acsticas que ocorrem ao mesmo tempo. reverberante), EDT (early decay time), e C80 (clareza).
FIGUEIREDO E IAZZETTA PARMETROS ACSTICOS
Realizamos as medies nas salas do Teatro Municipal mesma sala. Entretanto, existem grandes diferenas na
de So Paulo, Teatro Srgio Cardoso, Anfiteatro percepo auditiva conforme mudamos de lugar num
Camargo Guarnieri (USP), Teatro Municipal de mesmo teatro, como pode ser verificado atravs das
Diadema, Teatro So Pedro e Teatro do Memorial da amostras musicais gravadas para a anlise do parmetro
Amrica Latina. RDR. Isso mostra como o parmetro RT60
absolutamente insuficiente para caracterizar a acstica de
uma sala.
RESULTADOS Verificamos que mesmo impresses como vivacidade
Tempo de reverberao (RT60): e reverberao, usualmente atribudas ao RT60,
mudavam bastante de acordo com os diversos locais de
Os resultados de reverberao foram, em geral,
escuta dentro de uma mesma sala, ainda que o parmetro
condizentes com a frmula de Sabine, ou seja: maiores
RT60 no apresentasse variaes na mesma proporo.
valores de reverberao para salas com maior razo
Certamente, outros parmetros exercem, juntamente com
entre volume e capacidade de absoro. As salas
o RT60, uma forte influncia sobre a impresso de
menores (Camargo Guarnieri, So Pedro e Diadema)
reverberao, conforme veremos mais adiante.
apresentaram menores tempos de reverberao em
Conforme as indicaes de Beranek [4] os resultados
comparao com as maiores (Municipal, Memorial e
de RT60 para o Teatro Municipal o colocam
Srgio Cardoso). Porm, algumas sutilezas do
essencialmente como um teatro bom para pera, os
comportamento do tempo de reverberao em funo da
teatros So Pedro e Camargo Guarnieri propcios para
freqncia podem ser melhor entendidas quando
msica de cmara ou reduzidas formaes orquestrais.
observamos as particularidades do tratamento acstico de
cada teatro.
Equilbrio entre graves e agudos (BR e TR):
O Memorial, que tem praticamente todas as paredes
cobertas por carpetes, e o Municipal, que tambm O parmetro BR usualmente relacionado ao calor
bastante acarpetado, so as salas que mais dispem de acstico, ou presena de graves. O parmetro TR
material absorvedor. O Camargo Guarnieri e normalmente relacionado ao brilho acstico. Os valores
principalmente o So Pedro tm relativamente pouca de BR e TR apresentam relativamente pouca variao
quantidade de material de absoro. Isso explica porque entre as diversas posies de captao numa mesma sala.
esses teatros apresentam tempos de reverberao mais As grandes dimenses da cmara reverberante no
estveis nas altas freqncias quando em comparao palco do Srgio Cardoso, e suas laterais de alvenaria,
com teatros maiores, porm mais absorvedores. fazem com que as ondas de baixas freqncias tenham
O Srgio Cardoso, que tambm um teatro usado para longos tempos de reverberao, gerando valores de BR
arte dramtica, possui um palco com 13.676 metros demasiadamente altos.
cbicos, que por si s um volume maior do que o de O Teatro de Diadema apresenta aberturas incomuns
alguns teatros. Isso resulta numa cmara reverberante nas laterais do palco, ocasionando um aumento
cujos efeitos podem ser comprometedores, quando no considervel na largura desse setor. Essa regio torna-se
bem controlados. A presena de alguns painis em torno propcia para o confinamento de ondas de baixas
do espao da orquestra no se mostrou suficiente para freqncias, ocasionando valores de BR relativamente
diminuir os efeitos do excesso de reverberao causado altos.
pela cmara reverberante e o resultado pode ser Alm de ser o teatro mais estreito, o Camargo
observado no grfico 1. Guarnieri o nico que apresenta em toda a extenso
lateral grande quantidade de superfcie de madeira
funcionando como membranas dissipadoras de energia
das ondas de baixa freqncia, o que resultou nos
menores valores de BR.
As paredes descobertas e lisas dos teatros So Pedro e
Camargo Guarnieri resultaram nos maiores ndices de
TR e o excesso de material absorvedor no Memorial
causou os menores valores desse parmetro.
Seguindo as orientaes bibliogrficas, analisamos as
amostras musicais gravadas nos teatros de maior BR
esperando perceber maior presena de graves nesses
teatros. Isso no aconteceu. A presena dos graves
percebida nas amostras no acompanhava a indicao
dos valores de BR, isto , teatros que apresentaram
grande diferena nos valores de BR no apresentaram a
mesma diferena na percepo auditiva da presena dos
graves, o que pode ser verificado fazendo-se uma
comparao entre as amostras gravadas e o grfico geral
Fig. 1: RT60 nas platias centrais dos teatros
de BR e TR.
Basta uma observao mais atenta na definio do
Com exceo do Teatro Municipal, que apresenta parmetro BR para concluirmos que de fato no faz
maior variedade de locais para escuta, os tempos de muito sentido esperarmos que ele seja bem
reverberao se mostraram, em geral, uniformes para correlacionado com a presena de graves. O parmetro
cada teatro, ou seja, no detectamos grandes variaes de BR engloba variveis de RT60, que informam a rapidez
RT60, para cada faixa de freqncia, dentro de uma do decaimento da energia acstica. A presena de graves
deve estar mais relacionada intensidade com que as
4
4O CONGRESSO
CONGRESSO / /10
10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 67
ondas de baixas freqncias atingem um determinado

ponto de captao. Devemos, portanto, esperar melhor
correlao entre tal impresso e o parmetro G
(strength), tomado para baixas freqncias.
Embora ainda referncias modernas apresentem o
referido equvoco, a concluso anterior confirmada por
referncias mais especficas e atualizadas. Em seu mais
recente trabalho, Beranek [4] associa a impresso de
presena dos graves ao novo parmetro Glow que a
mdia dos valores do parmetro G entre 125 Hz e 250
Hz.
A anlise do parmetro TR revelou fato semelhante. Fig. 2: Valores mdios de BR eTR
Encontramos amostras que eram muito mais opacas do
!
que outras, apresentando, entretanto, praticamente os As legendas no eixo horizontal so definidas por:
mesmos valores de TR. Seguindo o mesmo raciocnio
usado para o parmetro BR, podemos esperar que a
impresso de brilho acstico esteja relacionada no a Sigla Teatro
uma razo entre valores de RT60, mas quantidade de CG CamargoGuarnieri
energia de ondas de alta freqncia captadas. Embora SP So Pedro
no aparea em nenhuma referncia estudada, torna-se
TD Diadema
natural propor o emprego de outro novo parmetro, o
SC Srgio Cardoso
Ghigh , mdia dos valores do parmetro G entre 2 KHz e
ME Memorial
4 KHz, o qual, espera-se, esteja melhor relacionado ao
brilho acstico. TM Municipal
Tabela 1: Legenda dos teatros
A audio das amostras gravadas revelou uma outra
utilidade, bastante importante do ponto de vista musical,
para os parmetros BR e TR. Ao contrrio do que foi Clareza (C80):
constatado anteriormente, essa nova utilidade est em O parmetro C80 mede a razo entre a energia acstica
perfeito acordo com a definio dos parmetros. que chega em um ponto de captao nos primeiros 80 ms
O parmetro BR a razo entre os RT60 de graves e e a energia remanescente. Essa distribuio de energia ao
mdios e o TR razo entre os RT60 de agudos e longo do tempo determinada por caractersticas
mdios. Observamos que as salas que apresentavam peculiares de cada teatro. Dada a diversidade de
valores de BR prximos aos de TR soavam mais peculiaridades observadas nas salas que analisamos, de
equilibradas com respeito reverberao entre graves e se esperar tambm uma variedade no comportamento de
agudos, enquanto que nas salas que apresentavam C80.
maiores discrepncias entre esses parmetros ouvia-se Por exemplo, a platia do Teatro So Pedro tm forma
um desequilbrio indesejvel na reverberao entre de concha e h pouco material absorvedor nas
graves e agudos. superfcies. Isso faz com que as ondas de alta freqncia
Nas salas onde BR maior do que TR (Teatro de transitem mais pelo teatro, causando os menores valores
Diadema, Municipal e Memorial) h uma perceptvel de C80 para essa faixa de freqncia. No Memorial h
sobra de graves quando em comparao com teatros um excesso de material absorvedor e a distncia entre as
em que os valores de BR e TR so mais prximos paredes laterais muito grande. Alm disso, o teto
(Camargo Guarnieri e So Pedro) nos quais o decaimento parablico transforma os fundos da platia num
sonoro entre graves e agudos mais uniforme e calabouo para ondas de alta freqncia. Como
agradvel. resultado, os valores de C80 para essa faixa de
As conseqncias musicais desse desequilbrio vo freqncia na posio central do Memorial foram os
desde uma execuo aparentemente infiel do texto maiores.
musical (notas de mesma durao soando com diferentes Os valores de C80 no palco foram maiores que os da
duraes) at a sensao de que os naipes esto tocando platia em todos os teatros. Isso desejvel por facilitar
de forma desencontrada. o trabalho do maestro e tornar a audio mais agradvel
Conclumos, portanto, que a utilidade dos parmetros para o pblico.
BR e TR se restringe importncia que eles A partir de um ponto de vista conceitual, somos
apresentaram como critrios eficientes para a avaliao induzidos a esperar que quanto maior a reverberao
do equilbrio entre freqncias dentro de uma sala. numa sala, menor ser a clareza. De fato, os aglomerados
de curvas de RT60 em funo da freqncia so
descendentes, enquanto que os de C80 em funo das
mesmas freqncias so ascendentes.
4
4O CONGRESSO
CONGRESSO / /10
10
que em 80 ms o decaimento de energia de 3,2 dB, para

o caso de um RT60 de 1,5 s. Seria grosseiro demais
tentar estimar o que acontece nos primeiros 3,2 dB a
partir de um resultado vlido para o decaimento de 60
dB. mais razovel esperar uma correlao melhor entre
C80 e um valor referente ao intervalo de tempo
relacionado aos primeiros instantes de decaimento da
energia.
J conhecemos um parmetro relacionado ao
decaimento de energia nos primeiros instantes da
reverberao. Este parmetro o EDT (early decay
time), que calculado tomando-se a inclinao de
decaimento apenas para os primeiros 10 dB. Na anlise
dos grficos de decaimento notamos como possvel que
haja valores de EDT muito diferentes para valores de
RT60 bastante semelhantes.
Fig. 3: C80 nas platias centrais dos teatros
Seguindo o raciocnio anterior, podemos esperar que
seja mais provvel uma relao entre EDT e C80, de tal
Esse resultado deve-se ao fato de que ondas de baixas
forma que olhando para o grfico de um poderamos
freqncias so mais difusas e transpem melhor os
estimar o comportamento do outro, algo que como j
obstculos, enquanto que as de altas freqncias so mais
vimos mais difcil entre C80 e RT60. O prximo passo
direcionais e mais suscetveis de serem absorvidas em
comparar os trs parmetros (RT60, C80 e EDT) nas
cada incidncia sobre uma superfcie. Assim, as ondas de
mesmas posies de captao.
baixas freqncias sero captadas por mais tempo e
Dentro de cada setor os valores de RT60 so
sofrero um decaimento menos acentuado do que as de
praticamente os mesmos. Os valores de C80 assumem
altas freqncias, ou seja, maior RT60 e menor C80. O
valores diferentes entre as posies de cada setor. Os
mesmo raciocnio se aplica s ondas de alta freqncia,
valores de C80 na posio centro-meio do So Pedro so
levando a um RT60 menor e C80 maior.
menores que os da posio centro-trs. Para o mesmo
Porm, constatamos que essa regra geral vale para
setor o comportamento de EDT inverso: a posio
tendncias estatsticas com respeito freqncia, mas
centro-meio apresenta maiores valores de EDT do que a
nem sempre para comparao direta entre valores
posio centro-trs. No setor dos balces e galeria do
isolados; isto , dada uma determinada freqncia, no
Municipal esse fato se repete: a posio que estava em
podemos olhar no grfico de RT60, tomar o valor de um
cima no grfico de C80 est em baixo no grfico de
teatro que esteja abaixo de todos os outros e afirmar que
EDT.
ele estar acima de todos os outros no grfico de C80.
O que esses grficos querem expressar vai de encontro
Por exemplo, o Municipal apresenta os maiores valores
hiptese inicial segundo a qual quanto maior a clareza
de C80 no palco, entretanto seus valores de RT60 esto
menor a reverberao e vice-versa. O detalhe importante
numa regio intermediria com relao aos outros
que essa relao diz respeito aos primeiros instantes da
teatros. O teatro de Diadema o que apresenta menores
reverberao (EDT) e no reverberao total (RT60).
valores de RT60, porm, o que tem menores valores de
No caso em que o EDT sofre pouca variao entre as
C80 na regio dos graves, e na regio dos agudos est
posies de captao observamos que o C80 tambm
numa zona intermediria.
apresenta variaes menores.
Podemos compreender tais possibilidades se
Em alguns casos, a relao de proporcionalidade
observarmos os conceitos mais atentamente. O RT60
inversa entre EDT e C80 no se verificou para todas as
informa quanto tempo dura o decaimento, mas o C80
freqncias. Apesar desse fato, a concluso mais
informa como esse decaimento se d. Para um mesmo
importante a ser tomada, e que permanece vlida para
tempo de decaimento podemos ter vrias possibilidades
todos os casos observados, que Clareza musical muito
de distribuio de energia ao longo do tempo, ou seja,
mais sensvel ao decaimento nos primeiros instantes de
para um mesmo valor de RT60 h diversos valores
reverberao do que na reverberao total.
possveis de C80.
Essa concluso aparece em trabalhos mais recentes
Esse fato pode ser facilmente verificado quando
Beranek [4] e importante para compreendermos alguns
observamos os parmetros medidos em alguns teatros.
resultados acsticos observados. Por exemplo, o Teatro
Por exemplo, as trs diferentes posies de captao na
Srgio Cardoso apresenta excessivos valores de RT60.
platia central do So Pedro apresentaram praticamente o
Antes da concluso a que chegamos, poderamos ficar
mesmo RT60, porm seus valores de C80 so bastante
temerosos quanto Clareza percebida naquele teatro.
diferentes; o mesmo vale para as posies do balco
Entretanto, observamos que seus valores de EDT so
daquele mesmo teatro. Um caso ainda mais acentuado
bem menores que os de RT60, principalmente nas baixas
o dos pisos superiores (balces e galeria) do Teatro
freqncias. Os valores de EDT no Srgio Cardoso esto
Municipal, que tambm apresentam valores de RT60
dentro da mdia com relao aos outros teatros, isso
semelhantes entre si, mas os valores de C80 divergem
explica a posio intermediria ocupada pelo Teatro
fortemente. Certamente outros parmetros devem estar
Srgio Cardoso no grfico geral de C80, que tambm
influenciando a Clareza.
pode ser verificada nas amostras gravadas.
Como j mencionamos, a referncia temporal para o
clculo de C80 80 ms. Considerando um decaimento
linear em dB, j observado nos resultados da salas, e
utilizando uma regra de trs simples, podemos calcular
4
4O CONGRESSO
CONGRESSO / /10
10
Fig. 4: Comparaes entre RT60, C80 e EDT
4
4O CONGRESSO
CONGRESSO / /10
10
Razo Direto / Reverberante (RDR): O parmetro BR no se mostrou bem

O parmetro RDR a razo entre a energia direta e a correlacionado com a presena dos graves.
energia reverberante captadas em determinado ponto. O Tal impresso melhor correlacionada ao
valor do parmetro RDR obtido tomando-se como parmetro G (strength) tomado nas baixas
referncia o instante de chegada da primeira reflexo. A freqncias.
energia compreendida entre a captao do som direto e O parmetro TR nem sempre foi um bom
da primeira reflexo a energia direta, e aps o instante indicador de brilho.
da primeira reflexo a energia reverberante. A utilidade dos parmetros BR e TR se
O grfico a seguir mostra os valores de RDR restringe importncia que eles
calculados em trs setores diferentes para cada teatro, apresentaram como critrios eficientes para a
conforme o que foi obtido na seo de resultados : avaliao do equilbrio entre freqncias
dentro de uma sala.
O parmetro razo direto / reverberante se
mostrou mais estvel e coerente do que o
ITDG, no que diz respeito impresso de
intimismo.
Ao contrrio do RT60, o parmetro C80
sofre forte variao conforme o local de
captao na sala.
O parmetro C80 muito melhor
correlacionado ao EDT (early decay time) do
que ao RT60.
REFERNCIAS
[1] Iazzetta, F., Kon, F. and Silva, F. S. C. AcMus:
Design and Simulation of Music Listening
Enviroments, Anais do XXI Congresso da
Sociedade Brasileira de Computao, Fortaleza,
Brazil, 2001.
[2] ISO 3382 Acoustics Measurement of the
Fig. 5: Valores de RDR
reverberation time of rooms with reference to other
acoustical parameters, 1997.
[3] Figueiredo, F. L. Parmetros Acsticos Subjetivos:
Observamos um interessante padro no qual as Critrios para Avaliao da Qualidade Acstica de
posies de palco apresentam altos valores de RDR, as Salas de Msica. 2005. 258p. Dissertao de
posies do fundo da platia apresentam RDR baixo e as Mestrado. Escola de Comunicaes e Artes,
posies centrais, valores intermedirios. Isso mostra que Universidade de So Paulo, So Paulo, 2005.
o RDR um bom parmetro para indicar a distncia [4] Beranek, L. Concert halls and opera houses: music,
entre fonte sonora e local de captao, grandezas acoustics, and architecture, Springer-Verlag, New
referentes impresso de intimismo. York, 2004
Atravs da anlise auditiva das amostras gravadas,
percebemos que a sensao de intimismo e mesmo a de
reverberao muda bastante conforme a posio de AGRADECIMENTOS
captao, embora o parmetro RT60 se mantenha Esta pesquisa financiada pela FAPESP (processo n.
constante. Isso indica que ao lado do parmetro RT60, o 02/02678-0) e apoiada pela Roland Brasil.
parmetro RDR tambm determinante para a impresso
subjetiva de reverberao.
Quanto s suas aplicaes, o parmetro RDR pode ser
til como ferramenta auxiliar em simulaes acsticas ou
como monitorao do ponto de mixagem nos estdios de
gravao.
RESUMO DAS CONCLUSES

RT60 se mantm razoavelmente constante
para as vrias posies de captao dentro de
uma sala.
A impresso de reverberao muda
conforme a posio de audio dentro de
uma sala, embora os valores de RT60 muitas
vezes no acompanhem tal mudana.
Alm do RT60, o parmetro razo de som
direto / reverberante tem forte influncia
sobre a impresso de reverberao.
4
4O CONGRESSO
CONGRESSO / /10
10
_________________________________
Artigo de Congresso
_________________________________
Experimentaes de espacializao orquestral sobre a
arquitetura AUDIENCE
Leandro Ferrari Thomaz1, Regis Rossi A. Faria1, Marcelo K. Zuffo1 e Joo Antnio Zuffo1
1
LSI Escola Politcnica da USP
So Paulo, SP, 05508-900, Brasil
{lfthomaz, regis, mkzuffo, jazuffo}@lsi.usp.br
RESUMO
Descrevemos neste artigo a implementao de uma aplicao de espacializao orquestral desenvolvida sobre o
sistema AUDIENCE. O objetivo principal do AUDIENCE prover solues flexveis e escalveis para imerso
sonora multicanal. Abordamos um dos problemas tpicos em orquestrao: a configurao espacial do corpo
orquestral, erudito ou popular, com impacto direto sobre a apreciao da pea musical ou multimdia. A
aplicao proposta tem a finalidade de ampliar as possibilidades em orquestrao explorando aspectos espaciais
relevantes, e dando suporte para montagens usuais ou incomuns. Concebemos para tal uma cena musical virtual
com trs instrumentos, apresentamos o sistema construdo e resultados.
tornando possveis diversas experimentaes de

INTRODUO espacializao orquestral por parte do compositor, regente
Uma msica ou trilha sonora ao ser concebida carrega ou produtor musical, atravs da facilidade de testar
com ela alguns atributos que devem ser reproduzidos da livremente o posicionamento de fontes sonoras virtuais no
forma mais fidedigna possvel idia do compositor ou espao 2D/3D.
produtor, para que seja recebida em sua plenitude Neste artigo descrevemos o problema musical escolhido
expressiva pelos ouvintes. Um desses atributos a para a aplicao do sistema, no caso uma orquestrao
distribuio do som no espao. composta por trs instrumentos dentro de uma sala, que
A capacidade de posicionar ou redistribuir as fontes podem ser deslocados livremente no espao 3D, assim
sonoras no espao ao redor do ouvinte uma caracterstica como a posio do ouvinte.
muito solicitada na exibio de peas musicais, nas trilhas
sonoras e em jogos eletrnicos interativos. Ela importante PROBLEMA MUSICAL ABORDADO
tanto para garantir a expresso da idia original do A configurao espacial do corpo orquestral um
compositor, como para o regente, produtor ou arranjador, problema que vem sendo explorado sistematicamente por
bem como para calibrar um timo resultado final da compositores e regentes por mais de meio sculo. Peas
apresentao considerando a acstica do local. Entretanto, que utilizam a espacializao foram compostas por
nem sempre possvel realizar experimentaes de compositores como I. Xenakis (Terretektorh, 1965-66),
espacializao complexas ou sofisticadas em um ensaio para 88 instrumentistas espalhados pela platia; R. Murray
orquestral ou em apresentaes reais. Schaffer (Apocalypsis, 1976-77), para 12 coros dispostos
O sistema proposto contribui para a evoluo da em um crculo; e K. Stockhausen (Gruppen, 1955-57 e
engenharia de udio na rea de espacializao sonora, Spiral, 1970), para trs orquestras envolvendo a audincia
THOMAZ ET AL EXPERIMENTAES DE ESPACIALIZAO ORQUESTRAL
e para alto-falantes espalhados em forma esfrica em torno compositor e o regente na espacializao interativa
da audincia. Umas destas montagens pode ser vista na orquestral.
figura 1 [1]. O problema musical abordado neste experimento refere-
No Brasil, experimentos com a espacializao foram se espacializao de uma pequena orquestra, composta de
feitos principalmente por Fl Menezes, em peas como trs instrumentos contemporneos: contrabaixo eltrico,
Parcours de lEntit de 1994, para duas flautas, percusso guitarra eltrica e bateria tocando dentro de uma sala
e sons eletroacsticos, e Harmonia das Esferas, de 2000, cbica, conforme mostrado na figura 2. A posio do
para sons eletroacsticos octofnicos [2]. Na primeira ouvinte e dos instrumentos nesta cena pode ser alterada
pea, os flautistas se deslocam pelo espao cnico durante livremente, permitindo uma apreciao imediata e o
toda a apresentao. impacto sonoro da disposio desejada.
Esta formao til tambm quando o ouvinte tambm
um instrumentista que deseja simular uma sesso (ensaio)
tocando junto com os instrumentos virtuais, e assim avaliar
a melhor disposio relativa entre todos, segundo seus
propsitos. A formao atual pode ser expandida
explorando a escalabilidade do sistema, chegando mesmo a
poder considerar problemas musicais de grande porte,
efetivamente auxiliando o trabalho do compositor e/ou
regente.
ARQUITETURA AUDIENCE
O projeto AUDIENCE Audio Immersion Experience
Figura 1 Ensaio da pea Gruppen, de Stockhausen, para 3
by Computer Emulation est sendo conduzido na
orquestras. CAVERNA Digital da Universidade de So Paulo [5], um
ambiente de realidade virtual imersiva completa. O
Com essa evoluo, o compositor tem grandes objetivo principal o de investigar e prover solues
possibilidades para aumentar o interesse por sua flexveis e escalveis para imerso sonora multicanal,
composio, mas torna-se muito difcil para ele conseguir integradas ou no a ambientes de realidade virtual,
prever os resultados de suas idias espaciais sem que a conforme descrito em [3] e [4].
pea seja realmente executada, muitas vezes sem a
possibilidade de avaliar previamente por meio de um
ensaio real.
Idealmente, ele poderia ter uma orquestra com a
formao escolhida para a pea a sua disposio, fazendo
tantas experincias com a posio de cada instrumento
quanto necessrias. claro que esta situao
praticamente impossvel atualmente, devido ao custo de
mobilizar uma orquestra para este fim experimental,
deixando para o compositor apenas a alternativa da
imagem mental da formao orquestral e seu resultado
musical final.
Figura 3 Arquitetura genrica de camadas do AUDIENCE.
A arquitetura de produo de som espacial do

AUDIENCE, proposta por Faria em [3], est baseada em
uma abordagem modular de quatro camadas funcionais,
ilustradas na figura 3, permitindo a utilizao de tcnicas
diferentes na implementao das funes executadas em
Figura 2 Cena tri-dimensional do problema musical abordado,
com o posicionamento do ouvinte e das fontes sonoras. cada camada e mantendo a comunicao entre elas via uma
interface pr-definida e conhecida.
Seria muito interessante que ele dispusesse de uma A camada de composio da cena acstica faz a interface
ferramenta que o auxiliasse nessa espacializao da obra, com o compositor ou regente, que define a configurao da
sem que fosse necessria a presena dos msicos. O sala, a posio dos instrumentos e sua localizao virtual
sistema descrito neste artigo pode ser utilizado para a dentro da sala de concerto.
resoluo deste problema em msica, auxiliando o
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 73
Em seguida, a camada do simulador acstico calcula a obtidas adicionando canais aos j existentes. O limite o
propagao acstica da fonte sonora at o ouvinte, processamento computacional do sistema e a banda
posicionando-a no espao, e criando a ambincia da sala. utilizada para transmisso destes canais.
No codificador de udio espacial, o sinal anecico Uma das grandes vantagens do Ambisonics utilizar um
convolucionado com as repostas impulsivas geradas na nmero fixo de canais (de acordo com a ordem do
camada anterior, codificando os sinais de udio espacial no sistema), independente do nmero de alto-falantes
formato da tcnica de auralizao escolhida. utilizados na reproduo. Desta forma, pode-se montar um
A ltima camada responsvel pela mixagem das fontes arranjo de oito alto-falantes em cubo para uma reproduo
sonoras j codificadas, decodificando o sinal de udio e tri-dimensional utilizando-se apenas quatros canais. Isto
reproduzindo o campo sonoro atravs de uma matriz de no ocorre nos sistemas de espacializao (ou surround)
alto-falantes. usuais, como o Dolby Digital 5.1 1 , que necessita de um
canal para cada alto-falante.
TECNOLOGIA E INFRA-ESTRUTURA UTILIZADA Embora o nmero e a disposio de alto-falantes possam
Ambiente Virtual ser variados, melhores resultados so obtidos com um
nmero maior e dispostos de forma regular em torno do
No presente experimento o ambiente virtual sonoro ouvinte [7].
produzido por oito alto-falantes dispostos em uma forma
octogonal em torno do ouvinte, como mostra a figura 4.
Figura 5 Representao em coordenadas cartesianas da

cobertura dos sinais do Ambisonics de 1 ordem
Neste trabalho estamos utilizando um sistema de

Figura 4 Configurao octogonal (2D) de decodificao
Ambisonics utilizada no experimento primeira ordem, onde quatro canais so necessrios (W, X,
Y, Z). Esta configurao impe requisitos mnimos para
Estes alto-falantes so alimentados por dois um eventual sistema de transmisso multicanal deste
amplificadores de potncia de quatro canais cada, que por formato por radiodifuso. A cobertura espacial destes
canais pode ser vista na figura 5.
sua vez recebem o sinal de udio de uma placa multicanal.
Plataforma de programao
Tcnica de espacializao
Estamos utilizando o PureData (PD) como plataforma
A tcnica de espacializao utilizada o Ambisonics, para a construo dos blocos de software do sistema e suas
definida por Gerzon em diversos artigos como [6] e [7]. conexes. O PD, desenvolvido por Miller Pucket [9], um
Ela permite a gravao, manipulao e reproduo de ambiente de programao grfico para aplicaes musicais
espaos sonoros tri-dimensionais, naturais ou artificiais. e de udio, amplamente utilizado nas comunidades afins.
O Ambisonics uma soluo tecnolgica de duas partes, A escolha desta plataforma foi feita por ser uma
pois a codificao e reproduo funcionam separadamente, ferramenta aberta, flexvel e com um tempo de reposta com
de forma que no necessrio preocupar-se com o sistema baixa latncia para o processamento de udio, alm de
de reproduo no momento da gravao ou da sntese permitir a lgica de ligao entre o subsistema de udio e o
(artificial) do espao sonoro. O formato de transmisso de visualizao.
conhecido por B-Format, e consiste em um feixe
O PD utilizado no projeto AUDIENCE como a
multicanal de no mnimo quatro canais individuais
ferramenta que liga os diferentes mdulos, operando em
(Ambisonics de 1a ordem).
cada uma das camadas apresentadas, e renderiza o udio
Parmetros psico-acsticos podem ser levados em para reproduo final. As funes de cada camada so
considerao na decodificao, incrementando as implementadas em blocos no PD. O software tambm
indicaes necessrias ao sistema auditivo no oferece recursos para que esses mdulos possam se
reconhecimento da posio da fonte sonora. Um filtro comunicar com o navegador de realidade virtual e o
utilizado de forma a tratar separadamente o sinal de udio, sistema operacional, tornando possvel a passagem de
acima e abaixo de aproximadamente 700 Hz, uma vez que parmetros da navegao para o sistema que trata o udio.
nosso sistema auditivo discerne a localizao dos sons
graves principalmente pela diferena de fase, enquanto que IMPLEMENTAO
dos agudos pela diferena de intensidade ou amplitude [8].
A seguir apresentamos os quatro blocos implementados,
De acordo com Gerzon [6], quanto maior a ordem do
correspondentes a cada camada do AUDIENCE, bem
sistema, maior o grau de realidade na reproduo do
espao sonoro e do espao de audio estvel (sweet spot).
A ordem do sistema determina o nmero de canais a ser 1
utilizado. A tcnica escalvel e ordens superiores so Dolby Digital 5.1 marca registrada de Dolby
Laboratories, Inc
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 74
como o patch final, que faz a ligao entre os blocos e Spatialcoder

renderiza o udio. Eles so ilustrados na figura 8 adiante. Este mdulo (bloco 6 na figura 8) tem o papel de
codificar o sinal de udio anecico da fonte, utilizando as
Sceneparser respostas impulsivas geradas pelo acousticsim.
Este bloco faz a comunicao com o navegador do Para isso, foi implementado um algoritmo de convoluo
sistema de realidade virtual auditiva+visual ou somente de sinais. O mtodo utilizado o da convoluo overlap-
auditiva. Sua funo principal est na extrao (parsing) add usado em sinais de grande comprimento, caso do sinal
das propriedades e atributos da cena acstica. Este envia as de udio. Desta forma, temos uma convoluo contnua
posies atuais das fontes e do ouvinte, que so recebidas com baixa latncia.
pelo sceneparser e repassadas para a prxima camada A biblioteca FFTW [11] foi utilizada para efetuar as
(acousticsim). Para otimizar o funcionamento, as transformadas rpidas de Fourier, devido sua rapidez e
posies s so passadas quando de sua mudana, evitando fcil integrao ao cdigo, tanto no sistema operacional
clculos desnecessrios pelo acousticsim. Linux como no Windows. Otimizaes foram feitas no
O sceneparser mostrado no bloco 4 na figura 8. cdigo original para possibilitar a execuo de vrias
convolues ao mesmo tempo, visto que para cada fonte
sonora temos um bloco spatialcoder. Estas otimizaes,
Acousticsim basicamente de acesso a memria, diminuem
A funo principal deste mdulo (bloco 5 na figura 8) consideravelmente o uso de CPU.
executar a simulao acstica da sala. Para este Ao final do processamento pelo spatialcoder, temos
experimento, foi considerada uma sala de geometria os quatros canais codificados em B-Format para uma fonte
simples (retangular), sem obstrues, e uma tcnica que posicionada em algum ponto do espao sonoro tri-
calcula as reflexes sonoras, obtendo uma resposta dimensional.
impulsiva artificial.
Utilizamos um simulador acstico baseado no traado de
Spatialdecoder
raios, utilizando uma adaptao do mtodo de fonte-
imagem descrito por Allen em [10]. Uma reflexo nesta O decodificador espacial desenvolvido no atual sistema
tcnica vem de uma fonte-imagem virtual, localizada atrs basicamente um decodificador Ambisonics de primeira
da parede, baseada nas leis da geometria ptica, como pode ordem, com seu diagrama de blocos mostrado na figura 7.
ser visto na figura 6. Desta forma possvel calcular todas Este mdulo (bloco 7 na figura 8) recebe o sinal de udio
as reflexes 2 de uma onda sonora e o caminho destas at o em B-Format (quatro canais) e o decodifica para o nmero
ouvinte. de alto-falantes presentes, reproduzindo o espao sonoro
codificado na fase anterior. Uma mixagem feita antes,
atravs do bloco misturador, para que os sinais das diversas
fontes sonoras sejam misturados em apenas um vetor B-
Format, que alimentar o spatialdecoder.
A matriz de ganhos para a decodificao de diversas
configuraes de alto-falantes foi previamente calculada
por R. Furse, e esto disponveis em [12]. Aos sinais de
entrada so aplicados ganhos (DEJG), com um peso
especfico para cada alto-falante de sada n, e somadas.
Figura 6 Tcnica de traado de raios baseado no mtodo de

fonte-imagem.
Os parmetros necessrios para o clculo das respostas

impulsivas so as dimenses da sala, o coeficiente de
absoro das paredes, a posio da fonte e do ouvinte, bem
como o tamanho (em amostras) da resposta impulsiva.
A sada gerada pelo acousticsim consiste em quatro
respostas impulsivas (IRW, IRX, IRY, IRZ),
correspondentes aos quatro canais do padro B-Format do Figura 7 Diagrama de Blocos de um Decodificador Ambisonics de
Ambisonics de 1a ordem (W, X, Y, Z). Neste ponto, temos 1 Ordem
somente uma codificao da resposta do ambiente aos
impulsos no espao tri-dimensional. Os filtros psico-acsticos utilizam dois ganhos, G1 para
o sinal W e G2 para os outros, sendo que para cada ganho,
temos dois valores para contemplar a diviso de freqncia
em 700 Hz.
2
Nesta verso do sistema, usamos ganhos unitrios para
nmero limitado apenas pela capacidade de os filtros psico-acsticos descritos por Gerzon em [7].
processamento em tempo real para um dado comprimento
da resposta impulsiva.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 75
Filtros equalizadores, para de-reverberao acstica local,

no foram utilizados neste experimento. W = 0,707 * S (1)
X = cos(T * cos(I * S (2)
Patch do experimento Y = sen(T * cos(I* S (3)
Z = sen(I) * S (4)
A montagem do patch do experimento, mostrado na
figura 8, utiliza os blocos descritos anteriormente, alm de
Neste caso, posicionam-se as fontes sonoras sobre a
blocos internos do PD. Como estamos utilizando no
superfcie de uma esfera de referncia ao redor do ouvinte.
experimento trs fontes sonoras, so necessrios trs pares
de blocos acousticsim-spatialcoder para gerar o
udio espacializado a partir dos sinais anecicos (secos),
dos parmetros da sala, e da posio das fontes e do
ouvinte.
Figura 9 Planta do experimento, mostrando as posies dos

instrumentos e ouvinte.
Este patch no permite o controle individual do

distanciamento da fonte sonora, alm de no acrescentar
reverberao ao sinal anecico. A comparao est
Figura 8 Patch feito em Pure Data do experimento relacionada somente com a percepo da direo da fonte.
Algumas simplificaes forem consideradas no
O controle dos parmetros feito atravs de campos experimento, como a reproduo bi-dimensional atravs de
onde pode ser modificada a configurao da sala (1). As do anel com oito alto-falantes (figura 4) e a utilizao de
posies das fontes e do ouvinte so controladas atravs de ganhos unitrios nos filtros psico-acsticos.
sliders, determinando as coordenadas xyz dentro da sala
(2). Os blocos principais e suas conexes podem ser vistos RESULTADOS PRELIMINARES
no lado direito do patch. Um patch interno (3) faz as outras
O simulador acstico utilizado atualmente apresenta uma
conexes, de forma que o principal no fique poludo
boa reproduo da reverberao da sala, possibilitando
visualmente. As referncias de (4) a (7) correspondem s
uma percepo da profundidade do ambiente e das
quatro camadas do AUDIENCE.
distncias das fontes sonoras. No presente experimento,
EXPERIMENTO contudo, ele no apresentou uma resposta estvel para a
direcionalidade das fontes.
Montamos um cenrio flexvel que considera trs
instrumentos (baixo, bateria e guitarra) posicionveis no
ambiente sonoro virtual atravs da interface grfica do
patch, manipulada pelo usurio atravs de sliders, podendo
tambm alterar o tamanho da sala e os coeficientes de
absoro das paredes. A partir disto, testes foram feitos
alterando a posio das fontes e do ouvinte.
A figura 9 mostra uma posio fixa deste experimento,
onde um hipottico compositor quer ver os resultados de se
colocar a bateria prxima ao ouvinte, ao seu lado direito, a
guitarra sua frente, distante e esquerda, e o baixo atrs.
Uma viso em perspectiva da cena mostrada na figura 2.
Para comparar a espacializao gerada pelo simulador
acstico com uma gerada por um espacializador sem
ambincia, outro patch foi montado que no utiliza o bloco
acousticsim. A espacializao e codificao do sinal Figura 10 Formas de onda para o baixo: sinal anecico original (em
cima) e sinais B-Format do baixo posicionado (em abaixo)
feita utilizando as equaes de codificao do Ambisonics,
apresentadas em [13], As equaes mostradas a seguir
indicam como calcular o sinal de cada canal em B-Format, Outro problema que se manifestou durante o
experimento foi o pequeno sweet-spot conseguido dentro
baseado no sinal anecico (S) e nos ngulos de rotao (T
da montagem dos alto-falantes. Assim, para uma percepo
e elevao (I da fonte sonora com relao ao ouvinte.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 76
estvel da cena, era necessrio que o usurio do sistema REFERNCIAS BIBLIOGRFICAS

buscasse se posicionar no centro da montagem e reduzir
seus movimentos no espao de audio. [1] Griffiths, P. Modern Music. World of Art, 1994.
A figura 10 mostra a espacializao especfica do baixo [2] Menezes, F. Atualidade Esttica da Msica
eltrico, na posio indicada anteriormente. Acima da Eletroacstica. Editora Unesp, 1999.
figura, pode-se ver os parmetros de entrada do mdulo [3] Faria, R. R. A. Auralizao em ambientes
acousticsim. direita, grficos representam as formas audiovisuais imersivos. Tese de Doutorado em
de onda do sinal original seco (acima) e dos quatro sinais Engenharia Eletrnica, Escola Politcnica da
codificados em B-Format (W, X, Y e Z, abaixo na figura). Universidade de So Paulo, 2005.
Os testes feitos sem o simulador acstico mostraram [4] Faria, R. R. A., Thomaz, L., Soares, L., Santos, B.,
uma sensao de posio das fontes muito mais ntida, Zuffo, M., Zuffo, J. AUDIENCE Audio Immersion
embora a ambincia fosse perdida, tornando a experincia Experiences in the CAVERNA Digital. Anais do 10
menos prxima da realidade. Simpsio Brasileiro de Computao Musical, pg. 106-
117, Outubro, 2005.
CONCLUSO E TRABALHOS FUTUROS [5] Zuffo, J. A et al. CAVERNA Digital Sistema de
Multiprojeo Estereoscpico Baseado em
Nas condies em que foram realizados os
Aglomerados de PCs para Aplicaes Imersivas em
experimentos, a estabilidade da imagem espacial nas
Realidade Virtual. In: 4th Symposium of Virtual
imediaes do centro mostrou-se crtica com relao ao
Reality, Florianpolis, 2001. Proceedings.
posicionamento do usurio, e a percepo da
[6] Gerzon, M. Periphony: With-Height Sound
direcionalidade mostrou-se sensvel quando gerada
Reproduction. J. Audio Eng. Soc., Vol. 21, No. 1, pg.
somente atravs do algoritmo de simulao acstica. Com
2-10, January/February, 1973.
os resultados globais obtidos, podemos concluir que o
[7] Gerzon, M. Practical Periphony: The Reproduction of
sistema mostra-se bastante promissor para a finalidade
Full-Sphere Sound. Preprinted at the 65th Audio
proposta, e que possibilita uma forma indita para
Engineering Society Convention, London, 1980.
compositores e regentes executarem seus experimentos
[8] Gerzon, M. Surround-sound psychoacoustics.
orquestrais com um baixo custo.
Wireless World, pg. 483-485, December, 1974.
Uma das grandes vantagens do sistema sua fcil [9] Puckette, M. Pd Documentation.
utilizao, acessvel aos usurios no tcnicos, que o http://crca.ucsd.edu/~msp/Pd_documentation/.
pblico alvo desta aplicao. Alm disso, o sistema pode Acessado em: 14 de fevereiro de 2006.
ser implantado domesticamente, devido ao seu relativo [10] Allen, J. B., Berkley, D. A. Image method for
baixo custo, popularizando a ferramenta entre msicos. efficiently simulating small-room acoustics. Journal of
O sistema encontra-se em estgio de desenvolvimento, e the Acoustical Society of America, v.65, n.4, pg. 943-
muitas melhorias sero ainda incorporadas. Primeiramente, 950, Abril, 1979.
melhorias no simulador acstico devem ser consideradas [11] FFTW. www.fftw.org. Acessado em: 14 de fevereiro
para aprimorar a percepo da direcionalidade das fontes. de 2006.
A adio de novas fontes sonoras tornar o sistema mais [12] Furse, R. First and Second Order Ambisonic
til para que msicos possam fazer seus experimentos, bem Decoding Equations. www.muse.demon.co.uk/ref/
como uma melhora na interface para o compositor/regente speakers.html. Acessado em: 14 de fevereiro de 2006.
programar a espacializao orquestral como, por exemplo, [13] Malham, D., Myatt, A. 3-D Sound Spatialization
o uso de um joystick para controlar as posies. using Ambisonic Techiniques. Computer Music
Prev-se num futuro breve a cooperao com Journal, 19:4, pg. 58-70, Winter 1995.
compositores e regentes para que os testes possam ser
tambm balizados por especialistas da rea musical.
A montagem do sistema de alto-falantes deve ser
ajustada para que o sweet-spot seja maior. Tambm se
prev o aumento da ordem do Ambisonics, para segunda e
terceira ordens, e a adio de mais alto-falantes ao sistema,
o que acarretaria em um aumento significativo esperado na
qualidade e estabilidade do campo sonoro reproduzido.
Embora o sistema tenha sido projetado para o uso de trs
dimenses, para simplificar a experincia apenas
simulamos um campo bi-dimensional. Uma configurao
tri-dimensional acrescentando a noo de elevao fonte
sonora prevista em experimentos prximos. Esta
mudana apenas necessita da montagem de uma nova
configurao de alto-falantes, sendo que o software j
permite esse tipo de reproduo.
Finalmente, o decodificador Ambisonics poder prever
filtros de equalizao e ganhos no unitrios para o filtro
psico-acstico descrito, quesito importante para salas de
reproduo pequenas de acordo com Malham [13], para
que a espacializao torne-se mais fiel ao ouvido humano.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 77
_________________________________
Artigo de Congresso
_________________________________
Impactos na Qualidade Acstica das Salas de Aula e
Atelier de uma Faculdade de Arquitetura e Urbanismo por
seus Alunos e Professores
Jos Geraldo Querido1, Cesar Augusto Alonso Capasso2
1
Universidade de Taubat - Taubat, So Paulo, 12020 270, Brasil
2
Universidade Santa Ceclia - Santos, So Paulo, 11702 160, Brasil
jgquerido@bighost.com.br - cesarcapasso@unisanta.br
RESUMO
A acstica ambiental e a arquitetnica so dos principais parmetros dos projetos dos espaos escolares urbanos.
A pesquisa apresentada trata do desempenho do espao interno de uma faculdade relatado pelos seus usurios:
professores e estudantes de arquitetura e urbanismo. Eles descrevem impactos acsticos, suas reaes usuais a
eles e como interviriam para a sua mitigao. Este artigo prope discutir ensino da acstica ambiental e
arquitetnica numa abordagem didtica, educativa e gestora, sensibilizando o arquiteto a partir de suas
experincias pessoais.
desenvolver bibliografias especficas para o

INTRODUO acompanhamento de cursos de graduao convergem nesta
O desenvolvimento da Arquitetura e Urbanismo no linha, so, por exemplo: CARVALHO[3], DE MARCO[4]
Brasil, enquanto rea do conhecimento e profisso, vem se e SILVA[5].
desenhando nos moldes contemporneos nos ltimos 50 No atual momento histrico, a discusso sobre a
anos. Tanto no mbito acadmico da graduao quanto na incorporao das cincias ambientais na arquitetura est
atuao dos profissionais, um dos seus principais objetivos tratando das formas com as quais o aluno da graduao em
a tentativa de aliar conhecimentos da arte e da tcnica, arquitetura e urbanismo deve receber os conhecimentos
trabalhando principalmente com questes relacionadas ao necessrios para a sua incorporao no projeto do edifcio e
binmio forma e funo.[1] dos espaos urbanos. Discutem-se como estes
O Conforto Ambiental classificado como Matria conhecimentos, cujo desenvolvimento cientfico mais
Profissional pela Portaria N. 1.770 Ministrio da sistemtico recente, sero incorporados nos currculos
Educao e Cultura (MEC), de 21 de Dezembro de 1994, e das escolas de arquitetura e urbanismo. Neste processo no
desmembrado em quatro segmentos bsicos: o estudo das se tem esquivado de discusses, tais como, a escassa
condies acsticas, trmicas, lumnicas e energticas.[2] bibliografia nacional e a necessidade do estudo da fsica
O papel do segmento acstico da disciplina de conforto aplicada, coisa para a qual se supe um conhecimento
ambiental pode ser compreendido pelo estudo da defesa prvio que o arquiteto no adquiriu e que depende do
contra o rudo e pelo condicionamento sonoro no recinto. fortalecimento da informao e formao tcnica na rea e
Encontra-se ao longo de seu desenvolvimento nas a aplicao de novas metodologias e instrumentos de
faculdades de arquitetura autores que, dedicando-se a ensino.[6]
QUERIDO
QUERIDO EECAPASSO
CAPASSO IMPACTOS NA QUALIDADEIMPACTOS
ACSTICANADAS SALAS DE
QUALIDADE AULA E
ACSTICA
DAS
ATELIER DE UMA SALAS DE AULA
FACULDADE E ATELIER DE
DE ARQUITETURA
UMA FACULDADE DE ARQUITETURA
Discute-se a implantao de atividades laboratoriais em O questionrio do aluno se dirige a sala de aula que ele
complemento s aulas em sala, e a necessidade de que o utiliza durante as atividades do ano letivo e o do professor
aluno experimente a expresso prtica e terica dos aborda a sua experincia nas salas de aula em que atua. As
conhecimentos que suas competncias e habilidades questes so elaboradas de forma que leigos possam
requerem.[7] respond-las, bastando a vivncia do espao a ser
A Portaria MEC N 1.770/94 preconiza uma formao pesquisado. So utilizadas perguntas optativas e
de profissional generalista ao arquiteto. Afirma que deve dissertativas.
ser apto a compreender e traduzir as necessidades de O questionrio foi encaminhado a todos os 43
indivduos, grupos sociais e comunidades, com relao professores da faculdade por arquivo de texto na forma de
concepo, organizao e construo do espao interior e anexo em mensagem eletrnica via Internet. As respostas
exterior, abrangendo o urbanismo, a edificao, o foram enviadas caixa de mensagens e impressas sem que
paisagismo, bem como a conservao e a valorizao do se identificasse o respondente, a amostragem composta
patrimnio construdo, a proteo do equilbrio do pelas respostas enviadas pelos professores atingiu a
ambiente natural e a utilizao racional dos recursos 30,23%.
disponveis.[8] O questionrio foi aplicado aos alunos no interior da sala
Pressupem-se, portanto que as decises projetuais de aula, pelo pesquisador, que inicialmente esclarece que o
especificamente relacionadas acstica arquitetnica so procedimento autorizado pelo NAI e que os respondentes
estudadas num nvel no qual em determinados projetos o no seriam identificados.
arquiteto consultar acsticos. Porm, a utilizao de Cada turma do primeiro ao quinto ano do curso teve
especialistas no se justifica na maior parte dos casos, aos aplicado o questionrio em horrio de aula normal, sendo
projetos, atualmente, se exige a garantia da satisfao do pesquisada uma turma por dia no perodo de cinco dias
usurio e da eficincia energtica, coisa para a qual o consecutivos. A amostragem composta pela totalidade de
arquiteto deve estar preparado, j que um dos maiores alunos que compareceram a aula no dia e horrio da sua
responsveis pela qualidade ambiental final do espao aplicao e atingiu 60,07% do total de 273 alunos do curso.
arquitetnico e urbano.[9] Neste artigo apresenta-se tabulao geral, porm, pode-
O trabalho apresentado prope a realizao de exerccios se realizar tabulao por cada uma das cinco salas.
utilizando-se instrumentos subjetivos, cujas bases so Como h perguntas que possibilitam ao respondente
impresses dos alunos e professores em relao ao seu fornecer mais de uma resposta a tabulao considerou a
desempenho pessoal durante o decorrer das aulas, atividade porcentagem da recorrncia da pergunta no total de
na qual a acstica fundamental. respondentes, portanto a somatria dos valores porcentuais
A escolha da sala de aula como principal objeto de pode exceder aos 100% em alguns casos.
estudo visa demonstrar a importncia da qualidade
acstica, associada ao projeto de um edifcio para o qual
no cabe a presena de especialistas. O conforto acstico Questionrio aos professores
fundamental para o bom desenvolvimento das atividades Por favor, responda a partir de agora, especificamente
didticas e preservao da qualidade da sade de seus quanto ao Conforto Acstico das salas de aula (quinto
usurios, principalmente a dos professores, profissionais andar) desta Faculdade:
da voz, por vezes, inconscientes do fato.[10] 1- Voc sente dificuldade em ouvir e/ou entender as
Outro fator importante na escolha do ambiente escolar frases formuladas pelos alunos em sala de aula?
a atual necessidade da avaliao institucional continuada, Em curta distncia: entre a primeira fila e o meio da sala.
preconizada pelo MEC e que inclui a avaliao das ( )sim ( )no
instalaes, na qual se aborda questes do conforto
Em mdia distncia: Entre o meio e o fundo da sala.
ambiental das salas de aula.[11]
( )sim ( )no
O exerccio no est relacionado a qualquer disciplina,
trata-se de atividade livre desenvolvida por ocasio de uma 1.1- Em caso de resposta positiva, voc procura superar
pesquisa de mestrado, porm, poder ser incorporado s o problema? ( )sim ( )no
atividades do laboratrio de conforto ambiental e repetido 1.2- Em caso de resposta positiva, consegue resolver a
com freqncia torna-se instrumento didtico, de educao questo? ( )sim ( )no ( ) parcialmente
ambiental e contribui para a gesto acstica do espao pela 1.3- Em caso de resposta positiva, voc consegue
comunidade acadmica e pela mantenedora. identificar a origem do problema?
METODOLOGIA ( )sim ( )no ( ) no tem certeza
1.4- Qual ?
A pesquisa buscou um universo onde houvesse indcios
2- Voc percebe alguma dificuldade por parte dos alunos
de problemas relativos ao conforto ambiental e identificou
em ouvir suas palavras e/ ou compreend-las?
num trabalho do Ncleo de Avaliao Institucional (NAI)
de uma Universidade, dados que relatam a insatisfao do Em curta distncia: entre a primeira fila e o meio da sala.
corpo discente de uma das suas faculdades em relao s ( )sim ( )no
instalaes das salas de aula. Criaram-se dois instrumentos Em mdia distncia: Entre o meio e o fundo da sala.
que abordam aspectos subjetivos na forma de ( )sim ( )no
questionrios: o primeiro direcionado ao corpo discente e 2.1- Em caso de resposta positiva, como voc procura
outro ao docente. Desenvolveram-se levantamentos superar o problema?
espaciais de diversas tipologias alm de testes e clculos.
Todos os instrumentos so voltados caracterizao do 2.2- Em caso de resposta positiva, consegue resolver a
conforto acstico dos usurios durante o desenvolvimento questo? ( )sim ( )no ( ) parcialmente
das atividades didticas.
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 79
QUERIDO EECAPASSO
QUERIDO CAPASSO IMPACTOS NA QUALIDADEIMPACTOS
ACSTICANADAS
QUALIDADE ACSTICA
SALAS DE AULA E
DAS
DE ARQUITETURA
2.3- Em caso de resposta positiva, voc consegue 2- Voc sente dificuldade em ouvir e/ou entender as
identificar a origem do problema? frases formuladas pelos outros alunos durante as aulas?
( )sim ( )no ( ) no tem certeza Em curta distncia: num raio de no mximo quatro
2.4- Qual ? carteiras.
3- H rudos externos sala de aula que so percebidos ( )sim ( )no
por voc durante as atividades didticas? ( )sim ( )no Em mdia distncia: num raio acima de quatro carteiras.
3.1- Quais so? ( )sim ( )no
3.2- Por favor, classifique o grau de incmodo pelos 2.1- Em caso de resposta positiva, como voc procura
rudos externos: superar o problema?
( )no incomoda ( )incomoda pouco 2.2- Em caso de resposta positiva, consegue resolver a
( )incomoda medianamente ( )incomoda muito questo? ( )sim ( )no ( ) parcialmente
3.3- Com qual freqncia ele (rudo externo) ocorre? 2.3- Em caso de resposta positiva, voc consegue
( )nunca ( )eventualmente ( )freqentemente ( )sempre identificar a origem do problema?
3.4- Em caso de provocar incmodo voc procura ( )sim ( )no ( ) no tem certeza
superar o problema? ( )sim ( )no 2.4- Qual ?
3.5- Em caso de resposta positiva, descreva como? 3- Voc percebe alguma dificuldade por parte dos
3.6- Em caso de resposta positiva, consegue resolver a professores em ouvir suas palavras e/ ou compreend-las?
questo? ( )sim ( )no ( ) parcialmente Em curta distncia: at quatro metros.
4- H rudos internos na sala de aula que so percebidos ( )sim ( )no
por voc durante as atividades didticas? ( )sim ( )no Em mdia distncia: acima de quatro metros.
4.1- Quais so? ( )sim ( )no
4.2- Por favor, classifique o grau de incmodo pelos 3.1- Em caso de resposta positiva, como voc procura
rudos internos: superar o problema?
( )no incomoda ( )incomoda pouco 3.2- Em caso de resposta positiva, consegue resolver a
( )incomoda medianamente ( )incomoda muito questo? ( )sim ( )no ( ) parcialmente
4.3- Com qual freqncia ele (rudo interno) ocorre? 3.3- Em caso de resposta positiva, voc consegue
( )nunca ( )eventualmente ( )freqentemente ( )sempre identificar a origem do problema?
4.4- Em caso de provocar incmodo voc procura ( )sim ( )no ( ) no tem certeza
superar o problema? ( )sim ( )no 3.4- Qual ?
4.5- Em caso de resposta positiva, descreva como? 4. H rudos externos sala de aula que so percebidos
4.6- Em caso de resposta positiva, voc consegue por voc durante as atividades didticas? ( )sim ( )no
resolver a questo? ( )sim ( )no ( ) parcialmente 4.1- Quais so?
5- Voc classificaria o desempenho da acstica das salas 42- Por favor, classifique o grau de incmodo pelos
de aula como: rudos externos:
( ) pssimo ( ) sofrvel ( ) regular ( ) bom ( )excelente ( )no incomoda ( )incomoda pouco
6- Voc identifica problemas relacionados diretamente a ( )incomoda medianamente ( )incomoda muito
acstica arquitetnica no atelier, que de alguma forma 4.3- Com qual freqncia ele (rudo externo) ocorre?
comprometem o desempenho das suas atividades e/ou lhe ( )nunca ( )eventualmente ( )freqentemente ( )sempre
incomodam? ( )sim ( )no 4.4- Em caso de provocar incmodo voc procura
6.1- Quais so? superar o problema? ( )sim ( )no
4.5- Em caso de resposta positiva, descreva como?
Questionrio aos alunos 4.6- Em caso de resposta positiva, consegue resolver a
Por favor, responda a partir de agora, especificamente questo? ( )sim ( )no ( ) parcialmente
quanto ao Conforto Acstico desta sala de aula: 5- H rudos internos na sala de aula que so percebidos
1- Voc tem dificuldade em ouvir e/ou compreender as por voc durante as atividades didticas? ( )sim ( )no
palavras dos professores? 5.1- Quais so?
Em curta distncia: at quatro metros. 5.2- Por favor, classifique o grau de incmodo pelos
( )sim ( )no rudos internos:
Em mdia distncia: acima de quatro metros. ( )no incomoda ( )incomoda pouco
( )sim ( )no ( )incomoda medianamente ( )incomoda muito
1.1- Em caso de resposta positiva, voc procura superar 5.3- Com qual freqncia ele (rudo interno) ocorre?
o problema? ( )sim ( )no ( )nunca ( )eventualmente ( )freqentemente ( )sempre
1.2- Em caso de resposta positiva, consegue resolver a 5.4- Em caso de provocar incmodo voc procura
questo? ( )sim ( )no ( ) parcialmente superar o problema? ( )sim ( )no
1.3- Em caso de resposta positiva, voc consegue 5.5- Em caso de resposta positiva, descreva como?
identificar a origem do problema? 5.6- Em caso de resposta positiva, voc consegue
( )sim ( )no ( ) no tem certeza resolver a questo? ( )sim ( )no ( ) parcialmente
1.4- Qual ?
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 80
QUERIDO
QUERIDO EECAPASSO
QUALIDADE AULA E
ACSTICA
DAS
DE ARQUITETURA
6. Voc classificaria o desempenho da acstica das salas sobrepor-se aos rudos de fundo, indicam que a intensidade
de aula como: e a freqncia do impacto acstico so grandes. (Tab.3 e 4)
( ) pssimo ( ) sofrvel ( ) regular
( ) bom ( )excelente Sudorese 15,38%
7- Voc identifica problemas relacionados diretamente a Mal estar 7,69%
acstica arquitetnica no atelier, que de alguma forma Desidratao 7,69%
comprometem o desempenho das suas atividades e/ou lhe
incomodam? ( )sim ( )no Cansao 30,77%
7.1- Quais so? Desgaste 7,69%
Problemas na garganta 30,77%
Comprometimento das cordas vocais 15,38%
ANLISES E CONCLUSES Disperso 10,00%
A primeira concluso que se apresenta a ocorrncia de Incmodo 30,00%
impactos acsticos que interferem no desempenho de Desconforto provocado pela temperatura 20,00%
alunos e professores, eles so levantados nos instrumentos
objetivos e subjetivos. Portanto, conclui-se que a avaliao
Tabela 3 - Sintomas fsicos relacionados pelos professores
do NAI referendada pela atual pesquisa, e que o conforto ao mau desempenho do conforto ambiental do espao
acstico representa, junto aos usurios do espao da
faculdade, uma preocupao, influenciando diretamente
sobre as atividades didticas desenvolvidas. (Tab. 1 e 2) Quanto s questes relativas audibilidade os dados
obtidos nos instrumentos objetivos apresentam pontos
antagnicos em relao aos levantados pelos questionrios.
Em curta distncia: at quatro metros. Por exemplo: em todas as salas os testes de articulao
SIM 61,54% indicaram resultados muito bons, porm, contestados pelas
NO 38,46% respostas de professores e alunos que atestam problemas de
Em mdia distncia: acima de quatro audibilidade.
metros. Ao aprofundarmos a anlise com outros instrumentos
objetivos verificamos que o tempo de reverberao
SIM 92,31% calculado para cada uma das salas apresenta nveis muito
NO 7,69% superiores ao tempo timo de reverberao determinado
pela norma, isso, aliado a ocorrncia de rudos de fundo
Tabela 1 - Ocorrncia de dificuldade na audio ou pode piorar muito a articulao da sala, solicitando
entendimento das frases formuladas pelos alunos - pelo melhoria da relao sinal/ rudo o que pode explicar as
professor dificuldades relatadas nos questionrios.
Neste mesmo sentido h outros resultados dos
Em curta distncia: at quatro metros. questionrios dos professores que corroboram com a
SIM 28,66% hiptese de que o tempo de reverberao superior ao tempo
NO 70,73% timo de reverberao aliado aos rudos de fundo causam
problemas na relao sinal/rudo nas salas. Reaes tais
Em mdia distncia: acima de quatro metros. como falar vagarosamente, pedir silncio e falar mais
SIM 53,66% alto, obtidas dos professores quando inquiridos sobre
NO 45,12% dificuldades na audibilidade de suas palavras pelos alunos
podem relacionar-se a este tipo de impacto. (Tab. 4)
Tabela 2 - Ocorrncia de dificuldade na audio ou Neste caso os instrumentos subjetivos foram
entendimento das frases formuladas pelos professores - pelo significativamente importantes para a valorizao da
aluno dvida em relao aos resultados do teste de articulao, j
que, em todas as salas, quando questionados sobre a
Conclui-se tambm que os instrumentos de pesquisa inteligibilidade da comunicao, os alunos e professores
objetivos e subjetivos so complementares e importantes atestam dificuldades, o que intensifica a necessidade de
para as concluses que levem ao entendimento global da abordagens que levem a diagnosticar os causadores dos
avaliao de um espao, isso reforado neste caso em se impactos quanto audibilidade e articulao da sala.
tratando de uma avaliao ps-ocupao e onde os
instrumentos subjetivos representam a vivncia dos seus Pedindo silncio 7,69%
usurios, alunos e professores.
Falando mais alto 84,62%
Algumas das questes levantadas com os instrumentos
objetivos tm o seu impacto destacado pelas citaes Deslocando-me pela sala 7,69%
recorrentes entre os respondentes. Pode-se citar como Falando vagarosamente 7,69%
exemplo disso os rudos provenientes do corredor interno Resolve a questo 30,77%
de acesso s salas, que se destaca em relao ao rudo do
No resolve a questo 0,00%
buffet localizado em edifcio vizinho. A quantidade de
citaes que o corredor recebe de professores e de alunos Resolve parcialmente a questo 61,54%
significativa e supera em freqncia a de rudos externos.
A ocorrncia de problemas na garganta e nas pregas Tabela 4 - Reaes individuais dos professores contra a m
audio ou compreenso das suas palavras pelos alunos e
vocais de professores e a reao de elevar a voz para eficcia das reaes
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 81
QUERIDO
QUERIDO EECAPASSO
QUALIDADE AULA E
ACSTICA
DAS
DE ARQUITETURA
Quando se trata de aspectos relacionados voz de prever que a participao ativa nos processos de
professores, no se pode desconsiderar que o curso em implementao de melhorias garanta a conservao e
questo noturno, e quase a totalidade de professores, tem preservao de materiais e equipamentos a serem
outras atividades profissionais diurnas nos seus dias de instalados, assim como, um potencial reconhecimento das
aula, no sendo possvel, portanto, relacionar ao ambiente melhorias. As hipteses iniciais levantadas junto aos
as possveis patologias. Para isso os resultados obtidos nos instrumentos subjetivos que podem ser diretrizes iniciais
instrumentos objetivos e subjetivos no se mostram para a correo ou mitigao dos impactos acsticos so:
conclusivos. - Necessidade de diminuio da influncia de rudos
Outro aspecto importante verificado que os dados internos e externos na sala de aula, que atualmente
levantados pelos questionrios junto ao corpo discente so mascararam a comunicao verbal e contribuem para a
respaldados pelos levantados junto ao corpo docente. Na disperso e desconforto dos usurios do espao, alm de
pesquisa confirma-se que a identificao dos impactos impactos na sade do corpo docente;
coincidente e refora a similaridade entre os levantamentos - Tratamento das salas quanto aos problemas de
com instrumentos objetivos e aqueles obtidos segundo a inteligibilidade durante as atividades didticas, que
percepo e vivncia dos espaos pelo corpo discente e atualmente comprometem o entendimento da fala e
docente. contribuem para a disperso e desconforto dos usurios do
A grande questo que fica em aberto refere-se a espao, alm de impactos na sade do corpo docente.
identificao dos graus de incmodo, sua freqncia e a Conclui-se que aes diretas no sentido da gesto dos
real interferncia dos impactos no conforto acstico, nas espaos da universidade e da faculdade so identificadas
atividades didticas e at na sade dos professores. Para nos instrumentos subjetivos e podem gerar aes no
isso ser necessria a incluso de medies acsticas, sentido da educao ambiental:
porm, pode-se determinar a tipologia de ensaios a partir - Os alunos poderiam ser orientados no sentido de no se
das informaes obtidas. reunirem nos corredores durante os perodos de aula,
Verificaram-se pontos de divergncia nos dados ocupando para conversas e reunies ocasionais o espao do
levantados junto ao corpo discente no que se refere aos hall da escadaria ou o espao do atelier, onde as atividades
graus de incmodo e a sua freqncia. Nota-se uma corriqueiras no seriam comprometidas pela influncia
tendncia de crescimento da intensidade das classificaes destas aes.
do impacto coincidente com o tempo de curso do aluno. - A diminuio da velocidade dos ventiladores em 20%
No que se refere utilizao de dados recolhidos nos muitas vezes diminui em 90% o rudo gerado por eles e
instrumentos subjetivos que podem gerar diretrizes e tambm poderia ser alvo de discusso entre os usurios.
influenciar nas aes de gesto ambiental do espao pode- - A criao de polticas ambientais que provoquem a
se concluir que alm da simples identificao dos impactos discusso da conduta acstica tica, junto ao corpo discente
acsticos h a reao de boa parte dos usurios quanto a e docente da faculdade. Pode iniciar-se pela discusso
sua mitigao, seja por parte de professores (Tab. 5 e 6) ou sobre o uso dos aparelhos celulares durante as aulas, assim
alunos. (Tab. 7 e 8) como abordar as conversas paralelas. Estas aes poderiam
ser ampliadas para todo o Campus, por exemplo,
Reagem 81,82% abordando o rudo por uso de carros com som ligado acima
No reagem 18,18% dos limites necessrios para a audio pelos seus
passageiros nas ruas do entorno do Campus.
- Programas que sensibilizem os professores para
Tabela 5 - Ocorrncia de reao individual ao incmodo por
rudos de fundo internos sala de aula professores notarem-se como profissionais da voz e da necessidade
de aes no sentido do uso correto do aparelho fonador e
para os procedimentos bsicos da higiene vocal so
Reagem 69,23% importantssimos.
No reagem 30,77% - Gerenciar as atividades do Campus de forma integrada
e considerando a interferncia entre os edifcios do ginsio
Tabela 6 - Ocorrncia de reao individual ao incmodo por de esportes, da piscina e da sala de musculao so
rudos de fundo externo sala de aula - professores medidas que mitigariam os impactos externos sem
qualquer custo inicial. Pode iniciar-se imediatamente pela
Reagem 58,43% adequao de calendrios e horrios de aulas e
competies realizadas na piscina e ginsio.
No reagem 41,57%
Conclui-se tambm que aes diretas no sentido da
interferncia fsica dos espaos da universidade e da
Tabela 7 - Ocorrncia de reao individual ao incmodo por
rudos de fundo internos sala de aula alunos
faculdade so identificadas nos instrumentos subjetivos:
- Intervenes relacionadas ao corredor interno no
sentido de diminuir a interferncia dos rudos gerados neste
Reagem 51,83% espao em relao ao interior das salas de aula.
No reagem 48,17% - Adequaes dos pisos das salas de aula e dos seus
mobilirios so identificadas nos instrumentos subjetivos,
Tabela 8 - Ocorrncia de reao individual ao incmodo por pois barulhos provenientes de rudos das carteiras so
rudos de fundo externo sala de aula alunos mencionados por alunos e professores.
- O nvel de rudo dos ventiladores pode ser analisado,
Isso indica um potencial de utilizao de mecanismos da, tomadas atitudes no sentido de programao de
que dependam da participao ativa dos usurios. Pode-se manutenes temporrias com o objetivo de evitar a
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 82
QUERIDO EECAPASSO
QUERIDO CAPASSO IMPACTOS NA QUALIDADEIMPACTOS
ACSTICANADAS
QUALIDADE ACSTICA
SALAS DE AULA E
DAS
DE ARQUITETURA
emisso de rudos por vibraes oriundas de problemas O prximo passo no sentido do desenvolvimento de
mecnicos. Diretriz que indiquem futuras aquisies de instrumentos de sensibilizao da comunidade acadmica,
aparelhos de baixo nvel de rudo, em mdio prazo, boa para a importncia da utilizao de elementos do conforto
alternativa para minorar o impacto dos ventiladores. acstico no exerccio do projeto de arquitetura, a
- A melhoria da capacidade de absoro dos avaliao da real contribuio da experincia descrita neste
revestimentos da sala medida que auxiliaria no sentido da artigo junto aos estudantes e professores. A sua
diminuio do potencial de impactos de inteligibilidade e implantao como instrumento didtico regular, de
em menor escala dos rudos internos. Depende do discusso ambiental e de gesto acstica do espao
aprofundamento da prospeco acstica e de uma avaliao tambm deve ser .
mais profunda, j que os instrumentos subjetivos no
esgotam a questo. O clculo do tempo de reverberao REFERNCIAS BIBLIOGRFICAS
das salas, medida inicial desenvolvida junto aos
instrumentos objetivos, tambm indica a necessidade da
[1] ARTIGAS, J. B. V. A Funo Social do
ampliao do potencial de absoro dos revestimentos.
Arquiteto. So Paulo: Nobel, 1989.
Quando a pesquisa aborda as questes de qualidade
acstica do atelier, conclui-se que os impactos [2] BRASIL. Ministrio da Educao e Cultura.
identificados pelos alunos esto de acordo com as Portaria 1.770/94. Trata das diretrizes curriculares
hipteses levantadas pelos levantamentos in loco. Os para cursos de arquitetura e urbanismo. Braslia: DF,
instrumentos subjetivos demonstram-se eficientes, porm, 1994.
quando se analisa a importncia dada ao impacto, verifica-
se que as turmas mais antigas de alunos tendem a valorizar [3] CARVALHO, B. A. Acstica aplicada Arquitetura.
mais as interferncias em relao quelas que esto Rio de Janeiro: Livraria Freitas Bastos, 1967.
iniciando o curso.
Vale ressaltar que a surpresa em relao aos [4] DE MARCO, C. S. Elementos de Acstica
instrumentos objetivos foi a citao, por parte dos alunos, Arquitetnica. So Paulo: Nobel, 1982.
da interferncia de rudos externos no atelier, o que havia
sido desconsiderado. Essa identificao leva a necessidade [5] SILVA, P. Acstica Arquitetnica &
Condicionamento de Ar. Belo Horizonte: Termo
de aprofundamento da verificao da interferncia de
Acstica Ltda., 1997.
rudos externos incluindo-se o atelier em futuras medies.
Nas respostas dos professores e nas demais [6] PEREIRA, F. O. R.; BITTENCOURT, L.
consideraes dos alunos, quanto aos impactos no atelier, Configurao de Laboratrios de Conforto
os pontos levantados pelos instrumentos objetivos so Ambiental e Preservao de Energia. In: IX
ratificados: necessidade de elementos que contribuam na Congresso Nacional da Associao Brasileira de
absoro da energia sonora, isolamento entre cobertura Escolas de Arquitetura - XVI Encontro Nacional Sobre
metlica e ambiente interno e sua compartimentao Ensino de Arquitetura e Urbanismo UEL. Londrina,
acstica, possibilitando eventos simultneos. PR. Novembro, 1.999.
Sobre o exerccio realizado conclui-se que as
contribuies dos instrumentos subjetivos utilizados, no [7] MEIRA, M. E. Laboratrios, LABINF / LABCON /
sentido propositivo so vlidas. LABTEC: Configuraes Preconizadas. In: IX
Conclui-se que como primeiro passo no sentido da Congresso Nacional da Associao Brasileira de Escolas
delimitao dos problemas acsticos do espao pela de Arquitetura - XVI Encontro Nacional Sobre Ensino de
Arquitetura e Urbanismo UEL. Londrina, PR.
instituio, os dados obtidos junto aos usurios, abordando
Novembro, 1.999.
o seu desempenho nas atividades didticas confivel e os
questionrios junto ao corpo docente e discente so [8] BRASIL. Ministrio da Educao e Cultura. Portaria
complementares. 1.770/94. Trata das diretrizes curriculares para cursos de
As perguntas de carter classificatrio da sala de aula arquitetura e urbanismo. Braslia: DF, 1994.
(item 6 do questionrio aos alunos e item 5 do questionrio
aos professores) no se mostraram significativas para as [9] PEREIRA, F. O. R.; BITTENCOURT, L.
concluses quanto ao impacto acstico vivido pelos Configurao de Laboratrios de Conforto
respondentes. Considera-se que elas poderiam ser retiradas Ambiental e Preservao de Energia. In: IX
do questionrio sem trazer prejuzos para a pesquisa. Congresso Nacional da Associao Brasileira de
Notadamente os aspectos dos rudos de fundo foram Escolas de Arquitetura - XVI Encontro Nacional Sobre
mais bem delimitados do que os demais, relacionados ao Ensino de Arquitetura e Urbanismo UEL. Londrina,
condicionamento sonoro no recinto, isso se considerando a PR. Novembro, 1.999.
contribuio propositiva, porm, sob a tica da anlise do
impacto acstico no desempenho pessoal, a identificao [10] BEHLAU, M., DRAGONE M. L. S. e NAGANO L.
de problemas de audibilidade e compreenso das palavras A Voz que Ensina. Rio de Janeiro: Revinter, 2004.
entre os usurios do espao da sala de aula significativa.
[11] BRASIL. Ministrio da Educao e Cultura. Lei
Conclui-se que a delimitao do real impacto do espao
de Diretrizes e Bases da Educao Nacional (LDB),
em relao audibilidade s ser possvel com medies
Lei 9394/96. Braslia: DF, 1996.
acsticas, assim como, o nvel das aes em relao
interferncia dos rudos de fundo sero eficazes na medida
em que se estabelecerem comparaes dos dados
quantitativos in loco previstos pelas normas tcnicas.
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 83
Sesso 4
Sntese, Modelagem de Instrumentos e Computao Musical
(Synthesis, Instrument modelling and Computer Music)

_________________________________
Artigo de Congresso
o
Apresentado no 4 Congresso da AES Brasil
_________________________________
Population-Based Generative Synthesis: A Real-Time
Texture Synthesizer based on Real-World Sound Streams
Csar Costa1,2, Jonatas Manzolli1, Fernando Von Zuben2
1Interdisciplinary Nucleus for Sound Studies (NICS)
2Laboratory of Bioinformatics and Bio-inspired Computing (LBiC/FEEC)
University of Campinas (Unicamp)
PO Box 6101, 13083-970, Campinas, SP, Brazil
{cesar;jonatas}@nics.unicamp.br, vonzuben@dca.fee.unicamp.br
ABSTRACT
The Population-Based Generative Synthesis (PBGS) is a real-time texture synthesizer - based on granular
synthesis - with a novel grain generation methodology. Real-world sound streams are used as a systemic control
source, bringing more versatility to the task of representing the final sonic objective. Therefore, PBGS is a
perceptual-friendly alternative to parametric methods of synthesis. Bio-inspired algorithms are conceived to
self-organize a population of sound grains in response to sonority and dynamical compositional stimuli. Based
on a variety of experiments, the outcome of the PBGS device resembles complex textures with a colorful timbre
palette, and inherits sonic attributes from the provided control references.
INTRODUCTION
Xenakis Screens [15] and subsequent Granular
Synthesis [14] surged on the 70s as a new sound
generative paradigm bringing more complexity and
colorfulness to digitally generated audio. It is based on
Gabors discoveries on the limitations of humans fast
frequency variation perception (acoustic quanta theory) [9].
An analogy to the acoustic quanta theory is shown in
Figure 1. Human visual space resolution has equivalent
limitations. On the left, a low-resolution quarter of circle is
shown and quantization could be easily perceived. On the Figure 1. Effect of resolution on perception.
right, a high-resolution image is presented. Although Xenakis wrote that complex sounds could be reproduced
quantized, it invokes a continuum perception. The way by playing a book of screens with a regular rate (just like a
sound is perceived is equivalently limited, being in movie with frames, see Figure 2). He defines a screen as a
frequency or in time. low-duration sound with well defined spectrum
distribution. In his work, a stochastic generative
COSTA ET AL. POPULATION-BASED GENERATIVE SYNTHESIS
COSTA ET AL. POPULATION-BASED GENERATIVE

SYNTHESIS
methodology oriented by deterministic events is applied to Our proposal is to use real-world sound streams as a way
the screen generation process. of representing a desired sonority and defining the
objective sonic scenario. We apply bio-inspired techniques
to adapt the synthesizer behavior in order to make it
capable of producing sonic material associated with a
specified sonic scenario.
Going deeper on the application of real-world sound
streams, they are also used as dynamical control of the
synthesizer. The goal is not only to promote the
achievement of complex behavioral sound, but also to
control the synthesis with desired complexity.
BIO-INSPIRED MODEL
To provide the functioning reported above, it is
Figure 2. Book of Screens: sound seen as a movie. necessary to find a methodology to automatically extract
Xenakis method allows the user to compose sound sonic features from a screen sequence and store them in a
material with rich spectral and dynamical complexity. computer based structure. This extraction procedure is a
However, due to its parametrical nature, it is quite limited hard task due to its high-dimensionality and to the fuzzy
concerning intuitiveness of user interaction. Other notion of what should be a relevant sonic feature for
traditional granular synthesizers suffer from the same human perception. It is also necessary to develop a screen
limitation. The so-called Ecologically-based GS [11] has sequence generation technique guided by these sonic
arised as an alternative paradigm correlating synthesis features. These demands are not fulfilled by exact
methology with dynamic and perception of natural sounds, mathematical procedures.
but the sound organization is still assigned to the user. Bio-inspired computation is a set of techniques based on
Hence, to synthesize a desired sonority it is necessary to natural processes such as evolution, self-organization and
know how to properly organize the sonic material. social behavior. The purpose is to bring, by means of
Nonetheless, the use of natural sounds makes Ecologically- computer simulation, attributes like self-adaptation. Our
based GS the approach more akin to the one to be aim is to exploit transforming environments and self-
presented here. regulation to develop new operational conditions [8]. Some
As will be explained in the section devoted to the bio- common applications that have some relation to our needs
inspired model, bio-inspired computation allows the are self-organization (in the self-organizing process of the
integration between sonic features and compositional Representative Structure) and pattern recognition (when
strategies, controlling various aspects in the evolution of a automatically obtaining the relevant features).
population of sound material. We developed a sonic A population-based approach has been adopted. The idea is
control model based on a population-based search where to obtain the most representative population of screens
we envisaged that a composer, helped by a bio-inspired which could identify different details of the representative
algorithm, will be able to find a stimulating diversity of set. This way, the sonic features can be stored in the form
sounds. Given inherent self-organization on sound of reference prototypes. The Representative Structure
populations, we hope to generate variety and complexity in would be composed of a population of screens. In this task,
the sound domain such as biological systems produce [8]. self-organization has an important role on the process of
The paper is organized as follows. The next section identifying, organizing and separating screens with
presents an overview of the Population-Based Generative different features. These are well-known attributes of Self-
Synthesis (PBGS), followed by the presentation of relevant Organizing Maps (SOM) [12]. However, we have tried
aspects surrounding bio-inspired models. Next, a some alternative population-based self-organizing
description of the implementation is outlined, followed by algorithms, based on Artificial Immune Systems (AIS) [6]
the experiments and the analysis of the obtained results. and evolutionary computation (EC) [10]. Under the
Some concluding remarks are then presented in the last existence of reference prototypes, the self-organizing
section. process in denoted in the literature as Learning Vector
Quantization (LVQ) [13]. Figure 3 depicts the outcome of
OVERVIEW OF THE PBGS METHOD a two-dimensional LVQ process. The gray circles are the
input samples that will be represented by the black circles.
On PBGS we take advantage of Xenakis model synthesis Of course, the two-dimensional scenario should be
capabilities, explored in the context of a new interface interpreted solely as a pictorial view of what would happen
paradigm. We defined sonic scenario (SS) as the group of
sounds featured with a certain set of sonic qualities. The
composer expects the output material to be included in a
desired sonic scenario. Instead of controlling numerical
attributes in a parametric interface, we adopt bio-inspired
models as strategies to create distinct sonic control layers.
The essence of our approach has already been explored in
other contexts by the same research group [3,4,5]. We have
replaced Xenakis original stochastic frame generation
process by a bio-inspired algorithm, with unusual and
strongly desired attributes like diversity maintenance and Figure 3. Learning Vector Quantization bi-dimensional graphical
advanced search capabilities in feature spaces. sample. Gray: input samples. Black: representative population.

4O CONGRESSO / 10A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006

SYNTHESIS
in practice, with the gray and black circles residing in similarity to those on the sonority reference input screen
spaces of a much higher dimension. sequence. In [4], GA is applied in a sound synthesis
The black circles correspond to the population of method and the paper supplies important considerations
prototypes that will pass through a self-organizing process about its use in sonic applications.
responsible for the final spatial configuration presented in Contrary to traditional applications of GA, PBGS is
Figure 3. Notice that the black circles are organized to interested in the whole population and not solely in the best
capture the most relevant aspects of the input samples. individual of the population. Notice that, given the fitness
They are called representative prototypes because they can function, the population at a given generation operates as
be interpreted as concise representations of the input an LVQ device.
samples, generally expressing a consensual explanation of
the local variability in the neighboring input samples. THE ARCHITECTURE
The task of PBGS is to produce sound material guided
Self-Organized Map (SOM) by a reference dynamic and that could be included in a
Results in Figure 3 can be obtained by means of a self- given sonic scenario. The architecture is presented in
organizing map (SOM). A Kohonens SOM associates Figure 4. On PBGS, we propose that the composer
high-dimensional data with a population of output nodes expresses his desired sonic scenario into a set of sound
arranged in a low-dimensional grid. Output nodes are samples arranged in a sequential sound stream, named
extensively interconnected with many local connections. Sonority Reference (SR).
Based on neurons organization principles, topologically
close nodes are sensitive to physically similar stimulus.
Thus, the output nodes are ordered in a natural manner
without external interference in a process called
unsupervised learning. After a repeated presentation of the
input dataset, output node positions will specify clusters or
vector centers that sample the input space such that the
density function of the vector centers tends to approximate
the probability density function of the input vectors [12]. A
deeper explanation can be found in [5] where SOM has
been applied in a timbre design methodology.
Figure 4. The PBGS Architecture
Artificial Immune Systems (AIS)
As screens, we have used low-duration sample frames
Artificial Immune Algorithms are adaptive procedures extracted from a source stream and windowed by a
inspired by the biological immune system and devoted to Gaussian-like envelope. A sound stream converted into a
the solution of challenging computational problems [6]. screen sequence is said to be on a Granular Domain (GD).
Biological Immune Systems are capable of recognizing a The first action of the system is to convert the sonority
wide range of antigens with a reduced number of reference into a screen sequence in the granular domain. At
antibodies, applying two mechanisms: clonal selection and this point, bio-inspired algorithms are applied to the
affinity maturation. Once these principles are applied in the sequence with the purpose of extracting prototypes with
realm of computer systems, it is possible to create a limited noticeable features and storing them in a computational
population of digital antibodies to represent a wide rage of structure denoted Representative Structure (RS). To
digital antigens (or input data). AIS has already been used accomplish this task, self-organizing maps or artificial
in sonic applications as reported in [3]. Antibody networks immune systems could be considered in isolation or
for self-organization are similar to self-organizing maps, integrated in a hybrid framework. In the experiments to be
except for the absence of a local neighborhood to guide the presented, self-organizing maps have been considered in
interaction of the antibodies. Besides, the size of the isolation.
population is self-regulated [7]. PBGS provides a second control level associated with
the synthesis process. The Dynamical Control (DC) input
Evolutionary Computation (EC) receives a sound stream that works as a guideline for the
The Genetic Algorithm (GA) is an Evolutionary output generation. Just as the sonority reference, the
Computation paradigm that consists of a set of dynamical control is converted into a screen sequence in
computational techniques based on Darwins Evolutionary the granular domain.
Theory and the survival of the fittest principle. Given a
population of individuals whose physical features are Further, the synthesizer applies the dynamical control
coded in a digital DNA, simple genetic operators like sequence to generate prototypes in the Representative
mutation, crossover and selection are repeatedly applied to Structure in order to obtain a screen sequence that once
produce the next generations. The fitness of each converted to a sound stream must be included in the sonic
individual in the population is provided by an objective scenario expressed in the sonority reference, and having its
function. The genetic operators promote a parallel dynamic related to the dynamical control. At this stage, an
exploration of the search space with a concentration of the evolutionary algorithm is implemented, so that the output
individuals in the most promising regions, i.e. regions stream is composed of individuals with better fitness
whose samples are given high fitness values. It happens extracted from a population of prototypes at a given
because individual with high fitness values are favored in generation of the evolutionary algorithm. The dynamical
the reproduction phase, having a higher probability of control screen sequence acts as a setpoint. It is expected
spreading his genetic material to the future generations. On that the output screen carries sonic features provided by the
PBGS, the fitness of an individual is proportional to its
4O CONGRESSO / 10
A

SYNTHESIS
population at the Representative Structure and follows the The second module receives as input the RS and the
dynamics specified by the dynamical control. dynamical control stream. It chops the input stream in a
An interesting feature of PBGS architecture is that both grain sequence which is submitted to the SOM algorithm.
main procedures, sonority reference LVQ and output A sequence of best match grains (SOMs best matching
generation, could flow independently. So, it is possible to units) is obtained as a result and the output stream is then
vary system sonority during output generation. Thus, the reconstructed by an overlap technique.
synthesizer allows real-time operation in both of its inputs. This implementation is sample rate independent.
It is possible to vary output sonority maintaining the However, the frequency rate must be equal on both
learning process during presentation. In the other input, sonority reference and dynamical control streams.
working with the dynamic guidance gives the opportunity
to the composer to operate the synthesizer as a musical C++ version
instrument. Focusing on the real-time performance, a second
implementation was developed on C++ to work on Linux
Screen Comparison OS with PortAudio Sound API2 [2]. The main difference
All mechanisms presented for the self-organizing from the MATLAB version is that the training and the
procedure of the Representative Structure needs a specific synthesis modules could work in parallel as different
metric to compare its individuals. Our approach is to threads, allowing real-time sonority variation. Also, it has
calculate similarity on spectral domain applying the to be optimized to avoid unnecessary latency to output. At
traditional FFT algorithm. Thus, for optimal performance this time, an evolutionary algorithm was adopted to
grain sizes are chosen to be power of two. perform LVQ.
The real-time implementation uses PCM 16bit coded
Screen Context audio originated by a live microphone input or a RAW file
We could not see an individual screen isolated in time for both sonority reference and dynamical control. The
since time evolution is one of the most remarkable features output could be directed to soundcard output, to a RAW
of sound for our perception. Thus, we define a Screen file or both.
Context as the temporal circumstances that trigged the
appearance of a certain spectral event. Again, determining EXPERIMENTS AND RESULTS
what relevant features must be considered is a fuzzy task. Four experiments have been considered and are listed in
In our method, the individuals used in the population Table 1. Table 2 presents experiments parametric space,
were composed of the screens itself and their respective considering: grain size (GS), population size (PS) and the
context. The context is implementation-specific and its sonic population variety (SPV).
completeness may vary according to the computational
resources available. Exp. Objective
IMPLEMENTATION 1 Verify sonority and dynamic transference to output
The PBGS was implemented on two different 2 Verify if real-time performance can be achieved
architectures. At first, a non real-time prototype on the 3 Verify the influence of system parameters on behavior
MATLAB environment was conceived, intended to work
as a base for PBGS architecture development. Afterwards, 4 Verify spectral and dynamical tracking behavior
a C++ version under LINUX OS was programmed to yield
Table 1. Experiments and Objectives
real-time performance.
Parametric Space
MATLAB version Exp.
In the first attempt, the MATLAB environment has been GS (ms) PS SPV
chosen due to its easiness of reusing already available bio- 1 22 128 High
inspired algorithms (developed by the research group) and
2 11-92 128/256/512 Low
signal processing tools. It has been focused on the
development of the architecture and in the set up of 3 11-92 32/64/128/256/512 Low
algorithm details, having no real-time performance
4 11-92 128 Fixed
requisites. The resultant software has two modulates: one
for the RS training and another for the synthesis process Table 2. Parametric Space: GS (grain size); PS (population size,
itself. On this implementation, the sound streams were in power of two); SPV (sonic population variety, i.e., number of
coded in 16-BIT PCM and encapsulated on WAVE audio sounds in the population from different sources).
format.
On the first module, a SOM algorithm from Helsinki Experiment 1
University of Technology CIS SOM Toolbox1 [1] was Using MATLAB simulation, we verified if there were
used. It receives as input the sonority reference stream and traces of the sonority reference at the output stream and
functional parameters of the learning algorithm: grain size also if the dynamical control was operating correctly. We
(in samples), population size (number of SOMs neurons) used three different sonic scenarios: a male voice, a guitar
and training epochs (number of times that a grains is solo and a synthetic harmonically well-defined sound.
presented to the SOM). As output, it returns a population They were cross-presented to both inputs and the output
of grains that works as the RS. was further analyzed.
1 2
http://www.cis.hut.fi/projects/somtoolbox http://www.portaudio.com/
4
4O CONGRESSO / 10
CONGRESSO / 10 A CONVENO
CONVENO NACIONAL
NACIONAL DABRASIL,
DA AES AES BRASIL, SO 08
SO PAULO, PAULO,
A 10 DE08 A 10DE
MAIO DE2006
MAIO DE 2006 88

SYNTHESIS
The results indicate that the obtained output presents systems parameters. Regarding the influence of grain size
relevant features derived from the sonority reference and on perception, the experiments have shown that smaller
the dynamics inherent to the control stimuli guided the grains implies in a poorer frequency definition (perceived
generation of the sound material. This effect can be in both listening and visual media). Figure 6 shows the
verified even visually using a sonogram (see Figure 5). result of the execution with a small grain 11ms (left) and
Please refer to the online reference3 for the sound files and with a large grain 185ms (right).
all the results. On Figure 5, the synthetic sound was used as Concerning to population size, output sound
a sonority reference and the voice was used as a dynamical complexness decreased dramatically when using few
guideline. On the left, the voice signal is in gray and the individuals. With the increase of population size it had low
output is in black. On the right, the output sonogram shows effect over sound complexity and caused a noticeable
that the high-energy peaks, generally associated with voice depreciation on system performance.
sounds, are present, but mixed with harmonically well-
defined lines, characteristic of the sonority reference.
Figure 6. Influence of Grain Size: sonogram with small

grains (left), and with large grains (right)
Figure 5. Experiment 1 Output: voice as dynamical control
and harmonic sound as sonority reference. Left, output Experiment 4
dynamic in black and control dynamic in gray. Right, output This experiment was conceived in order to better
sonogram.
comprehend how the synthesizer acts on some specific
On some runs, with a voice used as a dynamical control,
circumstances. We intended to test the dynamic and
it was possible to discern the phrase spelt at the same time
spectral tracking capability (i.e. we presented sound with
that the sonority variance could be recognized.
well defined spectral distribution and dynamical behavior
As a perceptual comparison, three listeners confirmed
and analyzed the output). For this execution (see Figure 7),
the existence of traces of references sonority on resultant
sine samples have been considered as a sonority reference
sound material.
(left) and a sine-based linear spectral evolution sound as a
dynamical guidance (right).
Experiment 2
On real-time implementation we have estimated the
computational demand of the method, with a clear
indication that real-time performance can be achieved
without much effort. Larger sound streams were used for
RS training and a microphone as dynamical control.
Processor usage and latency times were verified.
Concerning the performance, in a mid-range personal
computer, it had no problems on running in real-time. It
has used a maximum rate of 5% on an INTEL PENTIUM
Figure 7. Tracking Experiment: Left, Sonority Reference in
IV 2.2GHz with an overall rate of 3%. On the learning time (top-left) and in spectrum (back). Right, Dynamical
task, it trained a 4 minutes file in an overall rate of 1 Control.
minute with the worst result lasting 106. During
execution there werent experienced sound faults. The
latency observed was caused by the accumulation of the
grains and that was expected (always < 100ms). The
latency could be calculated since the dynamical of the
input and the output were very similar.
Regarding the influence of parametric variation over
system performance, it was observed that the increase in
population size implies a higher computational demand.
Also, a smaller grain configuration implies a higher grain Figure 8. Experiment 4: outputs dynamic (left); and spectral
behavior (right).
density over time. Thus, it demands a more intense
populational search and consequently it becomes more The tracking experiment (Figure 7) produced the results
computationally expensive. It is important to notice that the depicted in Figure 8. The resulting sound successfully
grain size has little effect on a single populational search followed the reference dynamics, being more accurate with
due to the FFT computation complexity nature. smaller grains. The sonogram shows that the spectral
evolution had a positive slope, just as the control stimuli,
Experiment 3 and was composed of well defined sinusoidal samples.
We verified how sensitive the synthesis behavior and the DISCUSSION
human perception are with respect to variation in the
A summary of experimental results is shown in Table 3.
Experiment 1 indicated that PBGS successfully preserves
3
http://www.nics.unicamp.br/~cesar/granular references sonority features on the output. This is the main
4
4O CONGRESSO / 10
CONVENO NACIONAL
NACIONAL DABRASIL,
SO PAULO, PAULO,
A 10 DE08 A 10DE
MAIO DE2006
MAIO DE 2006 89

SYNTHESIS
functionality of the proposed method together with the ACKNOWLEDGMENTS

control features.
On Experiment 3, grain sizes have affected quality of the This work has been supported by grants from Fapesp and
sonority transference. Small grain setup implies poor CNPq.
output-reference correlation. However, as seen on REFERENCES
Experiment 4, it produced sound material with high
dynamical fidelity related to control stream. Also, small [1] Alhoniemi, E., Himberg, J., Parhankangas J. and
grains made screen context representation overweigh Vesanto J. SOM Toolbox for MATLAB 5 Report A57
perceptual inexpressive details, i.e., depreciating more Libella Oy, Espoo 2000, April 2000.
structured - and relevant to sonority perception [2] Bencina, Ross and Burk, Phil, PortAudio - an Open
dynamical behavior. On the other side, excessive large Source Cross Platform Audio API, In Proceedings of
grains may force the screen context to ignore fast the 2001 International Computer Music Conference,
dynamical nuances. It was also verified on Experiment 2 Havana Cuba, September 2001. pp. 263-266.
that small grains are more computational expensive. [3] Caetano, M., Manzolli, J., Von Zuben, F. J.
Application of an Artificial Immune System in a
Compositional Timbre Design Technique, in
Exp. Results
Proceedings of ICARIS 2005, Alberta, Canada. In
1 Sonograms and perceptual inspection have been Press. 2005.
achieved. [4] Caetano, M., Manzolli, J., Von Zuben, F. J.
Real-Time was made feasible. Interactive Control of Evolution Applied to Sound
2 Grain Size Computational Effort; Synthesis. In Proceedings of the 18th International
Population Size Computational Effort. Florida Artificial Intelligence Research Society
Grain Size Frequency Definition; (FLAIRS), Clearwater Beach, EUA. 2005.
3
Population Size Spectral Variations [5] Caetano, M., Costa, R.C., Manzolli, J., and Von
Output successfully tracks dynamic control Zuben, F. J. Self-Organizing Topological Timbral
4 Design Methodology Using a Kohonen Neural
guidance. Grain Size Dynamic Fidelity
Network. In Proceedings of the 10th Brazilian
Table 3. Summary of experimental results. Legend: increase, Symposium on Computer Music (SBCM), Belo
decrease, implies. Horizonte, Brazil, 2005, 94-105.
Experiment 3 indicated that small populations produce [6] de Castro, L. N., Timmis, J. Artificial Immune
poor spectral variation at the output. Complex sounds Systems: A New Computational Intelligence
emphasize such property better than pure sine waves Approach, Springer-Verlag, 2002.
streams. Enriched sound scenarios required an increment in [7] de Castro, L.N., Von Zuben, F.J. aiNet: An Artificial
the size of the population in order to be correctly Immune Network for Data Analysis. in Abbass, H.A.,
represented. When using larger-size populations with Sarker, R.A. & Newton, C.S. (eds.) Data Mining: A
simpler sounds, much of the representative power is wasted Heuristic Approach, Idea Group Publishing, pp. 231-
and many individuals stored redundant data. This is 259, 2002
actually a common problem with LVQ procedures [13]. [8] de Castro, L.N., Von Zuben, F.J. (eds.) Recent
Developments in Biologically Inspired Computing.
CONCLUSION Idea Group Inc., 2004.
[9] Gabor, D. Acoustical Quanta and the Theory of
The PBGS method has been proposed, implemented and
Hearing. Nature, vol. 159, 1946, 591-594.
the obtained results have been analyzed. The obtained
[10] Goldberg, D.E. Genetic algorithms in search,
sound at the output of the synthesizer inherits sonic
optimization, and machine learning. Addison-Wesley.
qualities from the reference provided. We have developed
1989.
a bio-inspired synthesis procedure that is not dependent on
[11] Keller, D., Truax, B. Ecologically-based Granular
composer capability of translating his sonic expectations
Synthesis. ICMC 1998, Ann Arbor, Michigan. 1998.
into a parametric and well-structured mathematical
[12] Kohonen, T. Self-organizing maps. Springer-Verlag.
domain.
2000.
Electroacustic composition and real time performance
[13] Kohonen, T. Learning Vector Quantization for
are straightforward applications of the PBGS. Also, by
Pattern Recognition. Technical Report TKK-F-A601.
working on a real-time basis it opens new possibilities for
Helsinki University of Technology, 1986
computational-based synthesizers. Based on a sound
[14] Roads, C. Introduction to Granular Synthesis,
stream control paradigm, the control stimuli can be
Computer Music Journal vol.12 n.2, 1988.
provided by other sound interfaces on live presentations or
[15] Xenakis, I. Formalized Music. Indiana University
improvisation. For example, it could be controlled by a
Press. 1971.
guitar in a rock solo, working like a varying sonority effect
processor.
Regarding future perspectives, they include the
development of more elaborate bio-inspired algorithms,
more comprehensive screen contexts and the conception of
alternative synthesis techniques. We also intend to further
release a user-friendly software package based on the C++
implementation.

_________________________________
Artigo de Congresso
_________________________________
Sntese por Modelagem Fsica de Instrumentos de Sopro
Lus Carlos de Oliveira1, Ricardo Goldemberg2, Jnatas Manzolli2
1
FEEC-NICS-Bolsita do CNPq, 2IA-NICS; UNICAMP
CEP: 13083-970, Campinas, SP, Brasil
{luis,rgoldem,jonatas}@nics.unicamp.br
RESUMO
Este artigo est centrado na reviso bibliogrfica de mtodos de sntese de som de instrumentos musicais de
sopro, especificamente o naipe das madeiras; clarinetas, os saxofones entre outros. A sntese por modelagem
fsica uma tcnica que vem ampliando seu grau de importncia, pois oferece maior interao entre o msico e
o modelo computacional que representa o instrumento simulado. Este artigo dividido em trs seces: Sntese
Musical por Modelagem Fsica, Modelagem Fsica de Instrumentos de Sopro e Mtodos Experimentais
necessrios para determinao e anlise de parmetros envolvidos no processo de gerao sonora destes
instrumentos.
iniciar um estudo da sntese sonora que mais se aproxima

INTRODUO do nosso modelo experimental. Iniciamos a pesquisa com
Desde 2003, temos investigado a natureza das um levantamento de referncias sobre a utilizao de
sonoridades de instrumentos de sopro, principalmente da modelagem fsica para a construo de modelos de sntese
clarineta, utilizando um mecanismo de simulao sonora de instrumentos musicais.
experimental que tem comportamento fsico anlogo ao Apesar da preocupao central deste trabalho residir na
envolvido na performance de instrumentos de sopro. discusso e reviso da bibliografia sobre a sntese de
Durante a nossa pesquisa, percebemos que existem muitos instrumentos musicais de sopro, em particular, do naipe
fatores que so determinantes na construo e no das madeiras (incluem a clarineta, o saxofone, o obo,
entendimento de um modelo que possa elucidar todas as etc.), tambm so mencionados artigos voltados sntese
relaes e variveis intrnsicas ao processo de gerao por modelagem fsica de outros instrumentos musicais. A
sonora dos instrumentos musicais. trajetria adotada neste artigo parte de uma pequena
Frente a esta complexidade, optamos por utilizar um exposio histrica sobre pesquisadores que se
mtodo de pesquisa denominado Projeto Fatorial, que preocuparam em estudar os instrumentos mencionados do
possibilitou comparar e verificar a importncia relativa dos ponto de vista cientfico. Os comentrios partem de
diversos fatores envolvidos na produo sonora dos trabalhos feitos a partir da metade do sculo XIX at
instrumentos analisados. Todavia, ficou claro que o meados do sculo XX.
controle de todas as variveis de um sistema experimental Em seguida, sero apresentadas referncias mais
um problema complexo o que nos estimulou a ampliar o recentes divididas em trs sees. A primeira, dividida em
escopo da nossa pesquisa no sentido de utilizar, tambm, trs sub-sees, refere-se s etapas envolvidas na
simulao computacional para depois, com a mesma, modelagem fsica propriamente dita. Nela so detalhados
podermos interpretar as medidas do nosso modelo os procedimentos envolvidos na elaborao de modelos
experimental. Neste momento, nos pareceu relevante, fsicos que tm aplicao para a sntese de instrumentos
OLIVEIRA ET AL. SNTESE SONORA POR MODELAGEM
musicais de sopro. So apresentadas algumas equaes e dissipao trmica. Desta forma, um instrumento de sopro
estratgias adotadas na modelagem. necessita de uma fonte externa de suprimento de energia,
A segunda seo dedicada aos artigos que tm por pois o prprio processo de produo sonora consome a
preocupao a determinao e anlise dos parmetros energia intrnsica do sistema. Quanto mais energia
oriundos dos modelos fsicos. Este tratamento obtido suprida, mais dissipada mas ainda assim a amplitude de
especificamente atravs de experimentos. Nela so oscilao cresce. Vale a recproca quando a energia suprida
apresentados modelos empricos para a amplitude e diminui.
frequncia de notas em trs regies distintas da clarineta. O trabalho de Bouasse [4] marca a transio entre os
Estes resultados so componentes de nossa pesquisa. trabalhos desenvolvidos por Helmholtz e a era moderna.
A ltima seo trata genericamente dos algortmos que Mais recentemente, Benade [5, 6, 7, 8, 9] tambm
abordam os modelos voltados para a sntese de desenvolveu uma srie de trabalhos tericos e
instrumentos musicais. O foco est direcionado para os experimentais sobre instrumentos de sopro de madeira bem
resultados na performance artstica. como um conjunto de modelos de tais instrumentos. Alm
Finalmente, este artigo se encerra com um levantamento dele, Fletcher e Rossing [10] detalharam modelos de vrios
dos problemas apontados pelos diversos autores e so outros instrumentos em um minucioso trabalho.
apresentadas algumas propostas para a continuidade deste
trabalho. MODELAGEM FSICA
Segundo Smith [11], existem basicamente dois tipos de
modelos fsicos utilizados para a sntese de som de
PANORAMA HISTRICO instrumentos musicais: os modelos globais (lumped
No tutorial dedicado ao estudo da modelagem fsica de model) e os modelos distribudos (distributed model).
instrumentos de sopro, Keefe [1] faz um pequeno apanhado O modelo global consiste em equaes que no
histrico. Ele cita Helmholtz [2] onde, na primeira edio descrevem microscopicamente os fenmenos envolvidos
de On the Sensations of Tone de 1862, estabeleceu os em um sistema. Ele uma aproximao fsica global do
princpios para classificar os instrumentos de sopro em sistema como por exemplo, o conjunto formado pela
duas classes: instrumentos com palheta (reed pipe) e boquilha, lbios e palheta. Por outro lado, os modelos
instrumentos sem palheta (flue pipe). Para os distribudos tm por preocupao a descrio do fenmeno
instrumentos com palheta ele fez uma diviso em trs sub- a nvel microscpico e divide o sistema em blocos
classes: 1) palheta fixa, como o rgo de tubo com palheta funcionais. Estas duas categorias de modelos podem tanto
e a gaita; 2) palheta construda de bambu (arundo donax), representar um sistema dinmico, onde as propriedades
incluindo os de palheta simples como a clarineta e o variam com o tempo, quanto um sistema esttico, onde no
saxofone e os de palheta dupla como o obo e o fagote; 3) h variao de propriedades com o tempo.
vibrao labial, incluindo os instrumentos onde os lbios
atuam com ao valvular como o caso do trompete, Etapas de Modelagem
trombone, trompa, etc. A segunda classe, a de instrumentos Keefe [1] enumera sete etapas na elaborao de um
sem palheta, inclui as flautas e os rgos de tubo sem modelo no domnio do tempo. A primeira etapa (I)
palheta. corresponde formulao propriamente dita do sistema
Quinze anos mais tarde, na edio de 1877, Helmholtz dinmico que, para ele, a mais crucial de todas. Vrias
formulou teorias quantitativas sobre o mecanismo pelo simplificaes devem ser consideradas no modelo com
qual oscilaes so mantidas em tubos com palhetas. Este vistas a tornar o tratamento computacional factvel.
trabalho estabeleceu a base para toda pesquisa posterior O modelo dinmico proposto por Keefe, vlido tanto
sobre este assunto. Sua teoria, ao contrrio de formular um para clarinetas e saxofones (a diferena est na geometria)
modelo detalhado da dinmica envolvida, incorporou como para metais (a diferena est nos valores dos
restries que precisavam ser satisfeitas para se criar parmetros), consiste de um sistema de trs equaes
oscilaes em estado de regime permanente. diferenciais ordinrias de primeira ordem acoplados por
Pouco tempo depois, em 1894, Rayleigh [3] apontou um hiato de tempo (time delay).
sobre a importncia do estudo de sistemas dinmicos no As trs variveis consideradas fundamentais so:
lineares para o desenvolvimento de teorias de instrumentos deslocamento da palheta (x), velocidade da palheta (ur) e
musicais. Ele elaborou a primeira descrio quantitativa de vazo volumtrica atravs da abertura da palheta (u), todas
oscilaes auto-sustentadas que serviram de pano de fundo representadas na Eq. (1). As demais variveis so obtidas
para o estudo de processos mecnicos no-lineares e em funo destas e o modelo dinmico com as
modelos de acstica musical a partir da dcada de 1960. correspondentes equaes est representado na Eq. (1). A
Utilizando uma nova terminologia, analisou sistemas que nomenclatura das demais variveis e parmetros
possuem estreita ligao com o oscilador de Van der Pol. encontram-se na Tab. (1), com valores no S.I..
Ele mostrou que existe resistncia negativa no processo de Ainda segundo Keefe [1], desconsiderando-se as
gerao de oscilaes auto-sustentadas, indicou a propriedades do acoplamento temporal associadas com a
existncia das bifurcaes de Hopf, bem como resposta linear da coluna de ar (assumida por hiptese), o
desenvolveu a teoria das instabilidades transversas em jatos espao de fase correspondente a este sistema dinmico
de ar. tri-dimensional, pois h trs variveis fundamentais. A
Tanto Helmholtz quanto Rayleigh entenderam que a presena do hiato de tempo (time delay) proporciona ao
caracterstica essencial para a sustentao de uma nota em espao de fase uma dimenso muito maior, porm, as notas
um instrumento de sopro a existncia de dissipao musicais esto restritas a um subespao (do espao de fase)
parte da energia transmitida sob a forma de radiao de dimenso menor.
acstica, mas a maior parte perdida na forma de atrito e
4O CONGRESSO / 10
A
Para os instrumentos de palheta (arundo donax) assume- A teoria subjacente para a soluo das equaes (2), (3)
se que esta fecha com o aumento da presso de ar. Esta e (4) est apresentada em McIntyre et alii [12].
caracterstica destes instrumentos representada A segunda etapa (II), bastante importante, diz respeito
escolhendo =1 na Equao (1). Nos instrumentos de escolha dos parmetros envolvidos no modelo. Alm das
vibrao labial (metais) assume-se que o processo variveis que o descrevem, existe um conjunto de
inverso e impe-se a abertura com o aumento da presso parmetros no sistema dinmico. Por exemplo, a massa,
escolhendo-se =1. dureza e umidade da palheta, geometria da coluna de ar, da
1 palheta, etc. De acordo com Keefe [1], o parmetro central
x t u r t a presso de ar que entra no tubo. Esta presso representa
Sr
a fonte externa de energia que contrabalana a perda por
G dissipao trmica e viscosa.
1
g r Sr Z c u r t Z2r >x t H @
ur Do ponto de vista experimental, para compreender o
u r t Sr

G >P p t @ Z u t processo de produo sonora faz-se necessrio determinar
u 0 h c a faixa de valores plausveis, do ponto de vista fsico, dos
r
parmetros. A resposta a este questionamento vir das duas
1 P0 ph t Z c >u t u r t @ etapas seguintes.
u t
I e x C u D x ESgn u

Anlise Paramtrica
Um conjunto de valores plausveis dos parmetros
Eq. 1: Equaes que configuram o modelo utilizado para escolhido. Em seguida, estabelece-se uma condio inicial
simular clarineta. Ver Keefe [1]. fisicamente vivel para as trs variveis. Na seqncia, o
sistema de equaes diferenciais integrado
numericamente no tempo. A terceira etapa (III)
Parmetro Denominao do Parmetro corresponde simulao no domnio do tempo (dinmica).
c Velocidade do som Em qualquer instante o sistema dinmico est em um
Densidade do ar ponto do espao de fase e a evoluo do sistema no tempo
S rea da coluna de ar da entrada corresponde s trajetrias no espao de fase (TEF). Aps
Zc c/S, Impedncia caracterstica na entrada um perodo inicial de transientes, as TEF tendem a se
Sr rea dinmica da palheta aproximar de um conjunto limite que dependente das
r Frequncia de ressonncia da palheta (rad/s) condies iniciais e dos valores dos parmetros escolhidos.
fr r, freq. de ressonncia da palheta em Hz Dada a terminologia de sistemas dinmicos no-lineares,
r Massa dinmica por unidade de rea da um conjunto limite que pode ser observado
palheta experimentalmente chamado de atrator. Um atrator
gr r/Qr Onde Qr tem valor 3 para madeiras e peridico o atrator cuja trajetria no espao de fase
varivel para metais descreve uma curva fechada. Benade e Kouzoupis [5]
H Abertura de equilbrio da ponta da palheta estabeleceram que um regime de oscilao uma
l Comprimento da abertura da ponta da oscilao multicomponente, estvel e no-linear, na qual
palheta vrios picos de ressonncia descrevem um controlador de
fluxo para manter uma oscilao cujos componentes
w Largura da abertura da ponta da palheta
espectrais so membros de uma srie harmnica exata.
Ie pl/(wH), Inertncia da ponta da palheta
Este o conceito de um atrator peridico quando aplicado
C Constante de controle de fluxo (44,4 para
a instrumentos de sopro, afirma Keefe [13].
madeiras)
Uma vez estabelecida a simulao dinmica, a etapa (IV)
1,5 (palheta simples), 2(palheta dupla e corresponde ao estudo da sensibilidade paramtrica. Isto ,
metais) deve-se estudar o quanto o sistema dinmico sensvel a
2 (palhetas simples, dupla e metais) variaes nos valores dos parmetros. Provavelmente,
P0 Presso do ar alguns valores de parmetros devero ser obtidos atravs
R(t) Funo de reflexo da coluna de ar na sua de dados experimentais e este o foco da seco seguinte.
entrada Com os valores dos parmetros estabelecidos, pode-se
ph(t) Presso da boquilha convoluda com a seguir s trs ltimas etapas, onde novas questes podem
funo de reflexo da coluna de ar ser levantadas: (V)simulao em tempo real (que depende
Para madeiras (1) para metais (-1) da tecnologia de hardwares e softwares disponveis);
Tab.1: Parmetros e smbolos da Eq. 1. (VI)percepo e cognio musical onde discutido o
quo prximo de um instrumento real o sistema
A vazo volumtrica de ar que efetivamente passa pelo dinmico est; ,e finalmente, (VII)aplicao no
tubo a diferena entre a vazo que chega at a abertura da desenvolvimento de sonoridades de instrumentos musicais
palheta e a vazo que varrida pela palheta, isto : e performance. Este ltimo ser o assunto da penltima
u d t u t u r t (2) seo deste artigo.
A presso na boquilha, p(t), calculada a partir de: No seu artigo, Keefe [1] utilizou um oscilador
pt ph t Z c u d t (3) harmnico simples como modelo para a palheta. Para
resolver este conjunto de Equaes Diferenciais Ordinrias
Onde a varivel ph(t) guarda os valores passados da foi utilizado um mtodo numrico implcito de segunda
presso atravs da convoluo da funo de reflexo da ordem. Isto resultou numa nica equao no linear que foi
coluna de ar, r(t), com a presso da boquilha e vazo resolvida pela regra de Newton. O artigo apresenta os
efetiva atravs da coluna, isto : resultados da simulao para uma clarineta e analisa o
ph t r t >pt Z c u d t @ (4)
4O CONGRESSO / 10
A
efeito de diversos fatores, como presso na boquilha,

deslocamento da ponta da palheta, etc sobre a sonoridade. pt pin t pout t

S (5)
Modelagem por Waveguides u t >pin t pout t @
Uo c
No entanto, antes de passarmos s seces seguintes,
vale a pena fazermos um corte nesta exposio para
Eq. 5: Equaes que representam a interconexo entre os
analisarmos uma modelagem distinta. Ela tem particular
mdulos.
interesse para o propsito de sntese musical. Trata-se da
modelagem atravs de waveguides.
Esta modelagem conduzir tambm ao modelo digital
Borin et al. [14] apresentaram que os modelos fsicos de
waveguide para a poro cilndrica do tubo e a um
instrumentos musicais podem ter suas partes decompostas,
modelo de entrada dupla para um tubo de seco
geralmente, em dois blocos: de ressonncia (resonator) e
transversal varivel.
de excitao (excitation).
Os modelos utilizados para os blocos de excitao, como
para a palheta da boquilha de uma clarineta ou para o arco
em contato com a corda de um violino so geralmente no
lineares. A descrio de um bloco de ressonncia, sem
perda de generalidades, redutvel a um sistema dinmico
linear cujas caractersticas formam a base para aplicao
em anlise de instrumentos e sntese musical. Um dos
modelos mais eficientes para este bloco o modelo
waveguide. Ele modela a propagao de onda em um
meio distribudo como cordas, tubos e instrumentos de
sopro, ,segundo Smith [11].
Os modelos globais so implementados, para sntese
sonora, comumente por filtros digitais de segunda ordem.
Por outro lado, os modelos distribudos so implementados
por linhas de atraso (delay lines), que so denominadas por
digital waveguides quando usadas em modelagem fsica.
Os modelos distribudos podem ser combinados
livremente com os modelos globais, sempre segundo
Smith. Por exemplo, a modelagem de um saxofone pode
consistir de um modelo global para o conjunto palheta- Fig. 1: Quatro mdulos bsicos da modelagem de um
instrumento de sopro de palheta simples. Ducasse [14].
boquilha e um modelo distribudo para o tubo.
Desta forma, estruturas complexas podem ser
MTODOS EXPERIMENTAIS
construdas atravs da montagem e acoplamento destes
Modelo Emprico
elementos. A reside a sua importncia para a sntese
Numa trajetria oposta apresentada at aqui, as
musical.
relaes entre as variveis que caracterizam o sistema
Outro exemplo de modelagem do elemento de
formado pelo ar escoando atravs do instrumento musical
ressonncia por waveguide pode ser encontrada no
podem ser totalmente obtidas atravs de experimentos.
trabalho de Ducasse [15, 16]. Ele afirma que a simulao
Em trabalhos realizados pelos autores [17, 18] tratamos
no domnio do tempo (dinmica) da operao fsica de
o sistema como uma caixa preta. Isto , procuramos obter
instrumentos musicais permite criar transitrios e
uma relao entre um conjunto de variveis de entrada
fenmenos perceptivos que so difceis de se obter por
(independentes) com a amplitude e freqncia (variveis de
outro mtodo de processamento de dados.
sada ou dependentes) de algumas notas de uma clarineta.
No seu artigo ele sugere fazer a modelagem atravs de
Obtivemos um modelo linear para cada uma das
uma estrutura modular. O instrumento com palheta simples
componentes espectrais de trs notas em regies distintas,
constitudo por mdulos cujos elementos se
tanto para a amplitude como para a freqncia. Os modelos
interconectam. Ele inova quando inclui no seu modelo de
obtidos tm potencial de servir como referncia para uma
boquilha com palheta simples a ao do instrumentista,
posterior elaborao de sntese sonora, empregando
representado pela ao da lngua, dos lbios e da
softwares como o MATLAB e PD atravs de sntese
respirao.
aditiva para cada componente espectral e usando a
A Fig. 1 mostra os quatros mdulos elementares do
envoltria de Blackman-Harris, como na obteno dos
modelo: 1)Boquilha, 2)Tubo, 3)Furo com Cobertura e
dados experimentais.
4)Campana. Esta representao por mdulos tambm
O aparato experimental est apresentado na Fig. 3 e os
bastante til na programao orientada-objeto devido a sua
detalhes podem ser examinados nos trabalhos indicados.
flexibilidade. Cada elemento possui uma ou duas entradas
Nos experimentos as variveis independentes consideradas
de comunicao com os outros elementos do sistema, cada
foram: 1)Volume vazio do tanque pulmo (x1), 2)Dureza
uma sendo caracterizada por uma entrada, pin e uma sada,
da palheta (x2), 3)Posio de contato na palheta (x3),
pout.
4)Abertura da boquilha (x4), 5)rea de contato com a
Fazendo a aproximao por uma onda plana em cada
palheta (x5) e 6)Quantidade de material absorvente sonoro
entrada, a presso mdia p em cada seco transversal S e a
(x6).
vazo volumtrica de ar u atravessando esta seco so
dadas pela Eq. (5). A densidade do ar e a velocidade do
som esto representadas pelas letras o e c,
respectivamente.
4O CONGRESSO / 10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 94
de orifcios em vrias posies e comprimento ao longo do

tubo principal. Ou seja, com esta hiptese, ele considera
que os parmetros de impedncia associados com cada furo
so independentes dos demais furos. Os parmetros de
impedncia mencionados correspondem indutncia
(inertance) e capacitncia (compliance) acsticas e
sero determinados em funo da freqncia.
Ele utilizou o modelo de um circuito de seco em T de
uma linha de transmisso para representar os furos tonais
de um tubo de instrumento de sopro, conforme
representado na Fig. (2). As impedncias em srie possuem
o ndice a para indicar o caso antissimtrico e a impedncia
cruzada possui o ndice s para indicar o caso simtrico. As
impedncias em srie Za e a impedncia Zs estaro
Fig. 3: Aparato experimental para determinao de associadas tanto com o furo aberto quanto com o furo
modelagem emprica.
fechado.
Tanto para a frequncia (Hz) como para a amplitude
(dB) o modelo linear obtido da forma:
Y a0 a1x1 a2 x 2 a3 x 3 a4 x 4 a5 x 5 a6 x 6
A ttulo de exemplo, .para a regio chalumeau (grave),
estudamos o efeito destas variveis sobre a nota E3 da
clarineta (D3 do piano) utilizando um projeto de
experimentos. As tabelas 2 e 3 indicam os valores dos
coeficientes obtidos (ai, i=0,...,6) para as variveis
(dependentes) intensidade (Yi) e frequncia (Yf) dos
modelos da fundamental e das componentes espectrais (at
a 12). Fig. 2: Circuito eltrico para analogia com o sistema fsico.
Yi -ao a1 a2 a3 a4 a5 a6 MANIPULAO MUSICAL DE SNTESE POR

D3 21 -1,6 1,4 0,2 -0,9 -3,2 -0,2 MODELAGEM FSICA
2 59 0,4 -0,2 1,6 -2,6 -6,4 -0,4
Waveguides
3 23 -0,3 1,0 -0,8 -0,3 -2,0 -0,3
4 47 0,5 1,8 -0,3 -0,3 -3,2 -1,0 Conforme as palavras de Smith [11], um instrumento
5 32 0,8 -1,0 -1,5 -1,6 2,8 1,0 musical precisa ter vida nas mos do instrumentista. A
6 34 0,6 1,9 -1,9 -1,2 -0,4 0,9 caracterstica principal reside na interatividade entre o
7 35 0,6 -0,9 -0,2 -1,2 0,6 0,2 msico e seu instrumento. A principal fonte de vida na
8 28 -1,6 0,6 -0,4 1,6 -1,4 -0,2
maior parte dos instrumentos acsticos (deixando de lado a
9 42 1,0 -1,8 -0,3 -2,0 1,0 1,8
10 36 1,5 -1,0 -1,8 0,3 2,5 0,5 performance do artista) reside nas suas formas de
11 41 2,5 -2,2 -0,2 -0,5 -3,0 1,2 ressonncia.
12 36 2,2 0,6 -2,2 0,4 4,2 0,6 Smith [11] exemplifica atravs do violoncelo. As cordas
Tab.2: Coeficientes do modelo emprico da amplitude da ressoam para fornecer a altura da nota (pitch) e ainda
nota D3 (piano). todo o corpo do instrumento ressoa proporcionando
pequenas variaes da nota tocada. A ressonncia, ele
Yf -ao a1 a2 a3 a4 a5 a6 continua, fornece memria e carter varivel ao som. O
D3 146 -0,2 -1,0 -1,0 0,2 0,2 1,0
2 295 2,4 0,4 -1,9 -0,9 -1,6 0,4 msico interage com a ressonncia corporal de maneira
3 440 -1,5 1,5 2,2 0,8 -1,5 0,0 imprevisvel, algumas vezes reforando outras cancelando
4 588 0,9 1,6 0,4 -1,6 -1,9 0,4 parcialmente o estado de ressonncia acumulado.
5 735 -1,6 0,4 0,9 0,4 -1,6 0,4 O autor perfaz um apanhado geral sobre o estado da arte
6 885 0,0 0,5 1,5 0,8 -2,8 -0,8
da modelagem fsica de instrumentos musicais. Ele no se
7 1031 -0,2 2,5 0,5 -0,2 -3,8 -1,0
8 1178 -1,5 2,8 2,2 0,0 -4,0 -1,2 restringe apenas famlia dos instrumentos de sopro.
9 1325 -1,0 2,5 1,8 0,2 -3,0 -1,0 Aborda ainda os instrumentos de corda, metais, voz,
10 1473 -0,6 2,9 3,4 0,9 -4,2 -2,2 instrumentos de percusso e ambientes acsticos.
11 1620 -1,2 2,2 1,6 0,9 -3,6 -0,4 Sua abordagem, no entanto, restringiu-se ao uso das
12 1770 -0,4 2,4 3,2 1,2 -5,2 -0,9
digital waveguides, sua especialidade. Uma das razes
Tab.3: Coeficientes do modelo emprico da frequncia da
nota D3 (piano).
pelas quais o mtodo de Smith teve grande repercusso no
contexto da computao musical foi a facilidade com que
Anlise Paramtrica as waveguides podem ser implementadas
A modelagem fsica, como apresentada pela Eq. (1), computacionalmente.
envolve o emprego de vrios parmetros. Estes podem ser
determinados atravs da simulao, porm, os resultados Modelos de Sntese e Manipulao Musical
devem sempre ser confrontados com valores obtidos Atualmente, sintetizadores musicais que tm por base
empiricamente. modelos que procuram descrever o mecanismo de
O tratamento experimental para a modelagem fsica foi produo sonora possibilitam ao msico ferramentas mais
inicialmente considerado por Keefe [13] tratando o eficientes para o controle e produo tanto de sonoridades
instrumento de sopro de madeira como sendo uma coleo novas como tradicionais.
4
4O CONGRESSO / 10
CONVENO NACIONAL
NACIONAL DABRASIL,
SO PAULO, PAULO,
A 10 DE08 A 10DE
MAIO DE2006
MAIO DE 2006 95
Smith [11] apresenta uma anlise de vrios algoritmos [5] BENADE, A.H. e KOUZOUPIS, S.N. (1988). The
de sntese a partir do ponto de vista estrutural. Para o caso clarinet spectrum: Theory and experiment. J. Acoust.
de algoritmos que utilizam as estruturas contidas na sntese Soc. Am. 83, 292-304.
aditiva ou granular faz-se necessrio especificar vrios [6] BENADE, A.H. e LARSON, C.O. (1985).
parmetros e o resultado depender da coerncia com que Requirements and Techniques for measuring the
estes parmetros foram escolhidos. Esta coerncia no musical spectrum of the clarinet. J. Acoust. Soc. Am.
intrnseca estrutura e precisa ser garantida durante a 78, 1475-1498.
especificao dos parmetros. [7] BENADE, A.H. (1976). Fundamentals of Musical
Uma segunda categoria de algoritmos diz respeito Acoustics. Oxford University Press, New York.
estrutura de multi-blocos feed-forward, na qual alguns [8] BENADE, A.H. e GANS, D.J. (1968). Sound
blocos geram um sinal que ser alimentado a outros blocos Production in wind instruments. Ann. N.Y. Acad. Sci.
para posterior processamento. Esta estrutura inclui tcnicas 155, 247-263.
lineares e no-lineares tais como a sntese subtrativa, [9] BENADE, A.H. (1966). Relation of air-column
sntese FM, sntese AM e algumas remotas snteses por resonances to sound spectra produced by wind
modelagem fsica. A principal caracterstica desta classe de instruments. J. Acoust. Soc. Am. 40, 247-249.
algoritmos o surgimento de uma complexidade sonora [10] FLETCHER, N.H. E ROSSING, T.H. (1991). The
intrnseca estrutura. Isto , escolhendo a sntese atravs Physics of Musical Instruments. 2nd ed, New York:
desta tcnica damos estrutura a tarefa de produzir Springer-Verlag
nuances que caracterizam a complexidade do som [11] SMITH, J.O. (1996). Physical Modeling Synthesis
sintetizado. Update. Computer Music Journal 20(2): 44-56.
A ltima classe de algoritmos caracterizada por uma [12] McINTYRE, M.E., SCHUMACHER, R.T. e
estrutura de multi-blocos interativos. A sntese por WOODHOUSE, J. (1983) On the Oscillations of
modelagem fsica um caso especial desta classe de Musical Instruments. J. Acoust. Soc. Am. 74, 1325-
algoritmos que possui ainda uma interpretao fsica 1345.
precisa. Esta interpretao til para a identificao dos [13] KEEFE, D.H. (1983). Theory of the Single Woodwind
parmetros de controle do modelo. Tone Hole e Experiments on the Single Woodwind
Finalmente, a sntese por amostragem (sampling Tone Hole. Journal of the Acoustical Society of
synthesis) oferece, para o caso de uma nica nota tocada, America 72(3): 676-699.
uma grande possibilidade de interao entre msico e [14] BORIN, G., De POLI, G., SARTI, A. (1992).
instrumento. A tcnica baseada em modelos fsicos, no Algorithms and Structures for Synthesis Using
entanto, oferece uma maior expressividade musical alm Physical Models. Computer Music Journal. 16(4): 30-
de exigir menor capacidade de memria, ainda que 42.
implique na necessidade de uma mquina com maior poder [15] DUCASSE, E. (2003). A Physical Model of Single-
de clculo. Reed Wind Instrument, Including Actions of the
Player. Computer Music Journal. 27(1): 59-70.
CONCLUSES E PROPOSTAS [16] DUCASSE, E. (2002). An Alternative to the
Este trabalho teve como espinha dorsal os artigos do Traveling-Wave Approach for Use in Two-Port
Keefe [1, 13], Smith [11] e Ducasse [15]. Entretanto, estes Descriptions of Acoustic Bores. Journal of the
trabalhos no forneceram detalhes dos procedimentos Acoustical Society of America 112(6): 3031-3041.
adotados. Portanto, existe um conjunto de conhecimentos [17] OLIVEIRA, L.C, GOLDEMBERG, R., MANZOLLI,
essenciais que deveremos adquirir para, realmente, J. (2005). Estudo Experimental da Sonoridade
testarmos os modelos apresentados nestes artigos. Chalumeau da Clarineta atravs de Projeto Fatorial
Tal postura, pode dar condies de entender os processos (I), Anais da IX Conveno Nacional da AES, SP.
computacionais, a modelagem matemtica e, [18] OLIVEIRA, L.C, GOLDEMBERG, R., MANZOLLI,
principalmente, verificar a natureza e a qualidade sonora de J. (2005). Estudo Experimental da Sonoridade
simulaes. Para ns, o objetivo final desenvolver um Chalumeau da Clarineta atravs de Projeto Fatorial
modelo que possa estabelecer uma ponte entre o mundo (II), Anais do XV Congresso da ANPPOM, RJ
real dos instrumentos musicais e as simulaes que
estudamos.
Propomos, inicialmente, reproduzir os resultados
apresentados naqueles artigos atravs de simulaes. Isto
permitir produzir uma anlise quantitativa terica com
apoio em resultados experimentais, gerando resultados
mais precisos que os disponveis no momento.
REFERNCIAS BIBLIOGRFICAS
[1] KEEFE, D.H. (1992). Physical Modeling of Wind
Instruments. Computer Music Journal 16(4): 57-73.
[2] HELMHOLTZ, H.L.F. (1954). On the Sensations of
Tone. Traduo em ingls da verso alem de 1877
por A.J. Ellis. New York: Dover Publitions.
[3] RAYLEIGH, Lord (1894). The Theory of Sound.
Macmillan, New York: reeditado pela Dover, 1945.
[4] BOUASSE, H. (1929-30). Instruments Vent. Paris:
Librairie Delagrave.

_________________________________
Artigo de Congresso
_________________________________
Sintetizador Evolutivo de Segmentos Sonoros
Jos Fornari 1, Jnatas Manzolli 2, Adolfo Maia Jr. 3
Ncleo Interdisciplinar de Comunicao Sonora NICS - UNICAMP
Rua da Reitoria, 165 - Cidade Universitria "Zeferino Vaz"
CEP: 13 091 - 970 - Caixa Postal: 6166.
Campinas, So Paulo, Brasil
[fornari, jonatas, adolfo]@nics.unicamp.br
RESUMO
Apresentamos nesse trabalho a implementao em software do mtodo da sntese evolutiva de segmentos
sonoros, (SESS), conforme descrita em [1]. A sntese evolutiva inspirada nos processos biolgicos de
reproduo e seleo de indivduos em uma populao em funo do meio. Na SESS segmentos sonoros
(waveforms) so tratados como indivduos pertencentes a uma populao onde o som sintetizado o caminho
evolutivo dos melhores indivduos de cada gerao da populao de sons. A implementao foi feita utilizando a
linguagem de programao PD (Pure Data).
inspira-se na teoria Darwiniana da evoluo das espcies

INTRODUO biolgicas, atravs dos processos de reproduo e seleo.
Desde o surgimento dos primeiros processos eltricos e Existem diversos outros mtodos musicais
eletrnicos com objetivos musicais, vem-se desenvolvendo baseados na computao evolutiva, tais como o GenJam
uma grande quantidade e variedade de mtodos de sntese [6], um algoritmo gentico para simular improvisos de
sonora. Estes mtodos podem ser organizados em trs Jazz; um processo evolutivo de gerao automtica de
categorias: 1) mtodos lineares, tais como a sntese aditiva processos de sntese sonora [7]; um processo de gerao
[2], mtodos no-lineares, como a sntese FM [3] e evolutiva de padres rtmicos [8]; e o VoxPopuli [9], um
mtodos de edio, como o caso da sntese wavetable [4]. software de composio musical interativa que utiliza
Todas estas categorias de mtodos de sntese sonora algoritmos genticos e funes de adequao para criao
apresentam algo em comum: so mtodos determinsticos, de seqncias musicais. A SESS , ao que sabemos, o
pois apresentam um nico tipo ou padro fixo de sada (o primeiro mtodo evolutivo de sntese sonora pois utiliza
som sintetizado) para uma condio fixa dos parmetros de algoritmos genticos e funo de adequao no para a
controle do processo de sntese. A sntese evolutiva , ao manipulao do controle de um mtodo determinstico de
que sabemos, o primeiro mtodo no-determinstico de sntese mas para a sntese sonora em si, agindo
sntese sonora uma vez que o som sintetizado evolui ao intrinsecamente no segmento sonoro.
longo do tempo no sentido de se adaptar a determinadas
caractersticas ou regras, mesmo que os parmetros de
controle da sntese permaneam inalterados.
A Sntese Evolutiva de Segmentos Sonoros
(SESS) um mtodo computacional de sntese sonora
baseado na Computao Evolutiva [5], que por sua vez,
FORNARI ET AL. IMPLEMENTAO DO SESS EM PD
Pd um software livre e pode ser baixado em um

O MTODO DA SESS pacote para um sistema operacional especfico, um pacote
Na SESS os indivduos so amostras discretas (digitais) com fontes, ou direto do CVS. O Pd desenvolvido em
de segmentos sonoros com uma dada taxa de amostragem multi-plataformas, portanto completamente portvel;
(amostras/s) e resoluo (bits). O conjunto de todos os existem verses para Win32, IRIX, GNU/Linux, BSD,
indivduos compe a populao, onde ocorre a evoluo. MacOS X e rodando em qualquer coisa desde um
O caminho da evoluo da populao condicionado PocketPC, um Mac antigo ou um novo PC. Usando
atravs de uma medida de distncia dada por uma funo softwares como "Flext" e "Cyclone" pode-se escrever
de adequao, fitness, que mede a distncia entre as "externals" e "patches" que rodam no Max/MSP e no Pd.
caractersticas perceptuais sonoras dos indivduos da (www.puredata.org).
populao com os de outro conjunto de indivduos, o
conjunto alvo. A evoluo da populao ocorre em
estgios, chamados de gerao.
A evoluo da populao feita por dois
processos: a reproduo e a seleo. Em cada gerao a
reproduo gera novos indivduos e a seleo escolhe o
melhor indivduo da populao, ou seja, o mais adaptado
aos critrios dados pelo conjunto alvo.
No processo de reproduo agem dois
operadores genticos: crossover e mutao. O crossover
permuta caractersticas sonoras dos indivduos em
Fig. 1. Alguns mdulos bsicos do PD.
reproduo (os progenitores). A mutao insere
modificaes aleatrias nessas caractersticas, aumentando
assim a diversidade da populao. Chamamos de gentipo A figura acima mostra alguns mdulos bsicos
do indivduo o conjunto de caractersticas perceptuais do PD. Estes podem ser conectados entre si para compor os
sonoras que o compem, ou seja, suas grandezas algoritmos de processamento de udio.
psicoacsticas. O processo de evoluo atua sobre os
gentipos dos indivduos.
Na reproduo, o gentipo modificado pelo
crossover e pela mutao. Na seleo, pela escolha do
indivduo mais adequado, ou seja, o melhor indivduo. O
grau de adequao de cada indivduo medido pela
distncia entre o seu gentipo e um conjunto de gentipos
dos indivduos do conjunto alvo, que condicionam a
evoluo da sntese evolutiva.
O resultado sonoro deste mtodo de sntese o
segmento sonoro escolhido como melhor indivduo. A
cada gerao da populao o processo de seleo busca
pelo melhor indivduo da populao, ou seja, aquele com
menor distncia em relao ao alvo. Ao longo das geraes
tem-se uma sucesso de melhores indivduos que, como
segmentos sonoros, tendem a convergir para indivduos
cada vez mais similares, isso considerando que o conjunto
alvo permanea inalterado ao longo das geraes.
O mtodo da sntese evolutiva extensivamente
explicado em [10], serviu de inspirao para dois pedidos
de patente nacionais [11] e [12] e vem sendo desenvolvido
no NICS (www.nics.unicamp.br/~fornari) patrocinado pela Fig. 2. Exemplo de sntese sonora bsica, com
FAPESP, sob a forma de projeto de PosDoc no Brasil, processamento e controle em tempo-real.
processo: 04/00499-6R
Os object boxes iro conter mtodos de
IMPLEMENTAO DO SESS EM PD processamento (terminados por ~) ou controle de udio.
Cada verso de PD acompanha uma ampla biblioteca de
Pure Data (PD) uma linguagem de programao visual mtodos, mas tambm possvel criar novos mtodos,
desenvolvido inicialmente por Miller Puckette [13]. Trata- escrito em linguagem C ou C++.
se de uma ferramenta grfica de programao em tempo O SESS foi desenvolvido em PD utilizando
real, para udio, video, e processamento grfico. Ele a subpatches. Existem duas maneiras de cria-los em PD, o
terceira maior ramificao da famlia de linguagem de primeiro, que so salvos como parte do cdigo so
programao modular, conhecida como Max (Max/FTS, representados em PD por um object box contendo as letras
ISPW Max, Max/MSP, jMax, etc.) originalmente pd seguidas pelo nome do subpatch. A segunda maneira,
desenvolvida por Miller Puckette (IRCAM). O ncleo do a utilizao de um subpatch escrito como cdigo
Pd escrito e mantido por Miller Puckette, com a separado, que deve ser previamente salvo como um
contribuio de muitos outros desenvolvedores. arquivo do tipo *.pd e acessado atravs de um object box
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 98
contendo o esse nome, sem a extenso .pd. Estes so Quando expandidos, esses subpatches mostram os
chamados de abstractions. algoritmos das figuras 5 e 6. Estes tambm contm outros
Em PD subpatches podem conter um nmero subpatches.
ilimitado de subpatches dentro de outros subpatches, A
implementao do SESS utiliza extensivamente essa
caracterstica. Abaixo tem-se a implementao do SESS
em PD atravs de quatro subpatches principais.
Fig. 5. Implementao do processo de seleo da SESS.
Fig. 3. Implementao da SESS

No processo de seleo, tem-se um subpatch que calcula
a distancia euclidiana, utilizada para o clculo da mtrica
Observe que o subpatch conjunto um L2, usada aqui como a funo de adequao entre
abstraction e, portanto um arquivo *.pd distinto, salvo indivduos.
separadamente do arquivo da SESS. A razo disso que
conjuntos contm uma grande quantidade de dados
(todos os arrays que contm os segmentos sonoros da
populao e alvo) o que torna conveniente mant-los
separadamente.
Cada subpatch possui uma grande quantidade de
boxes e outros subpatchs, em particular, um chamado
contador que serve para a contagem dos pontos de cada
array. O controle da SESS feito por MIDI (note e
velocity) e pelos controles descritos no mtodo da sntese
evolutiva, a saber, as taxas dos operadores genticos:
crossover e mutao e a velocidade de proliferao, que
determina a velocidade de execuo do ciclo de cada
gerao (em ms).
Fig. 6. Implementao do processo de reproduo da

SESS
No processo de reproduo tem-se um array

temporrio utilizado para armazenar os clculos dos
operadores genticos: crossover e mutao. O crossover
escolhe uma seco em posio e tamanho aleatrio que
misturado entre cada indivduo da populao a a respectiva
seco do melhor indivduo. A mistura ocorre de acordo
com a taxa de crossover dada na figura 4. A mutao
Fig. 4. Controle da SESS mistura o array com um segmento de nmeros aleatrios
normalizados entre [-1,1], de acordo com a taxa de
mutao, tambm dada na figura 4.
Os processos de seleo e reproduo esto contidos
dento dos subpatches pd SELECAO e pd
REPRODUCAO mostrados na figura 3.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 99
RESULTADOS EXPERIMENTAIS modelo da waveform como gentipo do indivduo) de

acordo com as taxas de crossover e mutao.
Foi aqui implementada a verso mais simples do SESS,
conforme descrita em [1] onde os indivduos so O SESS vai inicialmente selecionar o individuo
segmentos sonoros de udio digital (16bits, 44.1KHz) da populao que mais prximo dos indivduos do
contidos em arrays de 1024 pontos (equivalente a 23,21ms conjunto alvo. Este ser o primeiro melhor indivduo. Logo
de udio). O conjunto populao contm 12 indivduos que em seguida o processo de reproduo modifica todos os
so senoides normalizadas ([-1,1]), em diferentes elementos do conjunto populao atravs das operaes
freqncias. O conjunto alvo formado por 3 indivduos genticas entre cada indivduo da populao e o melhor
que so rudos-brancos normalizados. indivduo escolhido anteriormente. Finalmente o processo
seleo escolhe um novo indivduo mais prximo do alvo.
Este equivale a uma gerao da SESS. O som sintetizado
corresponde a seqncia de melhores indivduos de cada
gerao. Abaixo tem-se a ilustrao da waveform de alguns
desses melhores indivduos ao longo do processo de
sntese.
Fig. 7. Populao de indivduos do SESS
Observa-se que na medida em que o tempo passa, sob a

forma do avano dos ciclos de processamento do SESS
representado pelas geraes da populao, o segmento
sonoro do melhor indivduo vai se tornando mais
semelhante aos segmentos do alvo. Isso ocorre porque o
processo de seleo sempre busca o individuo na
populao mais semelhante aos indivduos do alvo e o
coloca como melhor individuo, enquanto que o processo de
reproduo est sempre criando novos indivduos
descendentes dos indivduos da gerao anterior e o melhor
indivduo. Assim cria-se uma variabilidade fenotpica entre
os indivduos, porm sempre na direo de torn-los mais
parecidos ao melhor indivduo, que o indivduo mais bem
adaptado da sua gerao. Em uma escala muito mais
simplificada, isso emula adaptao biolgica que os
indivduos de uma populao sofrem pela condio do
meio. Na SESS, o meio ambiente simplificadamente
representado pelo alvo, e a condio de semelhana com
este equivale presso condicionante deste meio.
Fig. 8. Conjunto alvo do SESS
Os operadores genticos crossover e mutao agem

diretamente sobre o segmento sonoro (correspondente ao
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 100
CONCLUSES E COMENTRIOS REFERNCIAS BIBLIOGRFICAS

interessante observar que a implementao da SESS [1] Fornari, Jos, Jnatas Manzolli, Adolfo Maia, Furio
de fato simula o processo adaptativo da evoluo das Damiani. The Evolutionary Sound Synthesis
espcies. Note que no h qualquer troca de dados entre os Method. Short-paper do ACM multimedia, E.U.A.
arrays do alvo e os da populao. Os processo de seleo 2001.
e reproduo so capazes de criar melhores indivduos [2] Kleczkowski, P., Group additive synthesis. COMP.
cada vez mais semelhantes aos indivduos do alvo. Uma MUSIC J. Vol. 13, no. 1, pp. 12-20. 1989.
vez que utilizamos o segmento como gentipo e fentipo [3] J. Chowning, "The synthesis of complex audio spectra
podemos visualizar a semelhana entre as waveforms, no by means of frequency modulation," Journal of the
entanto a percepo sonora se baseia em grandezas Audio Engineering Society, vol. 21, pp. 526-534,
psicoacsticas para estabelecer a semelhana entre sons. 1973.
Um prximo modelo de sntese evolutiva levar em conta [4] Horner, Andrew; Beauchamp, James; Haken, Lippold.
essas caractersticas para medir a distncia entre Methods for multiple wavetable synthesis of musical
indivduos. Um extrator de curvas psicoacstica j foi instrument tones. J AUDIO ENG SOC. Vol. 41, no.
desenvolvido para tal [12] e est em fase de 5, pp. 336-356. 1993.
implementao. [5] Fogel, D. B., Evolutionary Computation: Toward a
Outra caracterstica a ser melhorada o tamanho dos New Philosophy of Machine Intelligence, IEEE
segmentos sonoros. A utilizao de segmentos de 1024 Press, 46 47, 1995.
pontos resulta em sons muito curtos (~23ms na taxa de [6] Biles, J. A., Gen Jam: A Genetic Algorithm for
amostragem de 44,1KHz). Isto impede a percepo Generating Jazz Solos, Proceedings of the 1994
auditiva das diferenas entre melhores indivduos. A International Computer Music Conference,
utilizao de arrays maiores (acima de 44100 pontos) no (ICMC94), 131137, 1994.
trivial e necessita uma ampla remodelagem da [7] R Garcia. "Growing Sound Synthesizers using
implementao do SESS no PD, que j est em andamento. Evolutionary Methods". Proceedings of ALMMA
A utilizao da linguagem de programao PD para a 2002 Workshop on Artificial Models, 2001
implementao do mtodo de sntese sonora evolutiva, sob [8] N Tokui, H Iba. "Music composition with interactive
a forma de um sintetizador evolutivo em software, foi evolutionary computation.". Proceedings of the third
bastante eficiente e satisfatria. As principais razes para International Conference GA2000, 2000.
sua utilizao so: 1) PD uma linguagem rpida [9] Moroni, A., Manzolli, J., Von Zuben, F., Gudwin, R.,
(considerada to rpida quanto executveis em linguagem Vox Populi: An Interactive Evolutionary System for
C), desenvolvida especialmente para o processamento e Algorithmic Music Composition, Leonardo Music
controle de algoritmos de multimdia operando em tempo- Journal, San Francisco, USA, MIT Press, Vol. 10,
real. 2) PD gratuita, de cdigo aberto e distribuio livre 2000.
(nos termos da "Standard Improved BSD License"), 3) PD [10] Fornari, Jos Eduardo. Sntese Evolutiva de
possui uma grande comunidade de programadores e Segmentos Sonoros. Dissertao de Doutoramento.
desenvolvedores na internet, (ver site: www.puredata.org) , DSIF/FEEC/UNICAMP. 2003
4) PD multi-plataforma (roda em Windows, Linux, e [11] Fornari, Jos, Jnatas Manzolli, Adolfo Maia.
MacOS, entre outros). 5) PD expansvel (permite criar Mtodos e Dispositivos Evolutivos para a anlise,
novos mdulos de processamento atravs de sub-rotinas, Processamento e Sntese de sinais digitais unis e
na prpria linguagem PD, chamadas de abstractions, ou multidimensionais, Pedido de Patente. Protocolado no
criar externals, criadas em outras linguagens de INPI em 23 de Maro de 2005, Protocolo: PI0500958-
programao, tais como: C, C++ ou Fortran). 6) PD pode 8.
se comunicar em rede e interconectar com outros [12] Fornari, Jos, Jnatas Manzolli. Mtodo Extrator de
programas de processamento de udio em tempo-real, tais Curvas Psicoacsticas de Intensidade Sonora e
como JACK e Ardour. Freqncia Fundamental, Pedido de Patente,
Protocolado no INPI em 15 de Dezembro de 2005.
Este um trabalho em andamento, onde iremos Protocolo: 01850064017.
implementar novas verses do SESS incorporando [13] M Puckette. "Pure Data: another integrated computer
caractersticas mais prximas da realidade biolgica que music environment ". Proceedings, Second
inicialmente motivou e inspirou o desenvolvimento deste Intercollege Computer Music Concerts, 1996.
mtodo. Entre outras, podemos citar: 1) implementao de
populao de tamanho varivel (conceito de extino e
superpopulao), 2) indivduos com gnero e tempo de
vida (conceitos de sexo e morte). 3) diferentes formas de
representao do gentipo do indivduo (ex: waveform,
curvas psicoacsticas e espectrograma, entre outros), 4)
novas formas operaes genticas (ex: operadores
crossover e mutao no domnio da freqncia), 5) novas
funes de adequao (utilizando outras mtricas alm da
distancia Euclidiana). 6) Diferentes formas de controle da
sntese (ex: MIDI aftertouch controlando taxa de
operadores genticos. MIDI modulation controlando taxa
de proliferao).
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 101
Sesso 5
Psicoacstica, Percepo Auditiva, Anlise e Audio Automtica
(Psychoacoustics, Auditory Perception, Analysis and Automatic Listening)

_________________________________
Artigo de Congresso
_________________________________
Dead regions and speech perception in subjects with
auditory dyssynchrony
Vinay S.N 1 and Vanaja C.S 1
1
Department of Audiology, All India Institute of Speech and Hearing
Manasagangothri, Mysore 570006, India
shrivinyasa@gmail.com
ABSTRACT
Auditory Dyssynchrony (AD) is a hearing disorder in which sound enters the inner ear normally but the
transmission of signals from the inner ear to the auditory cortex is impaired (Starr et al. 1996). Studies have
shown that speech recognition scores (SRS) are affected in AD subjects (Sininger et al. 1995; Starr et al. 1996).
However earlier studies have not identified the presence of dead regions in subjects with AD. The aim of the
present study was to identify the presence of dead regions in subjects with AD using TEN (HL) test and to
compare the SRS in AD subjects with and without dead regions. The SRS was correlated with the edge
frequencies. Audiometric thresholds at different frequencies were compared for AD subjects with and without
dead regions. Results of TEN (HL) test on subjects with AD indicated 21 out of 29 ears had a dead region.
Results indicated poor SRS in AD subjects with dead region compared to those without dead regions. SRS also
reduced as the edge frequency increased. AD subjects with dead region had higher audiometric thresholds than
those without dead regions.
Diagnosis of AD is based upon the results of auditory
INTRODUCTION brainstem response (ABR) and otoacoustic emissions
Auditory dysynchrony (AD) is a hearing disorder in (OAE). The hallmark of AD is a negligible or very
which sound enters the inner ear normally but the abnormal ABR reading together with a normal OAE
transmission of signals from the inner ear to the auditory reading (Sininger & Starr, 2001). The audiometric pattern
cortex is impaired. The term was coined by Starr, Picton, reveals a rising pattern. Often, speech perception is worse
Sininger, Hood & Berlin (1996). It has been showed that than would be predicted by the degree of hearing loss
patients with AD demonstrate primarily a timing deficit (Sininger, Hood, Starr, Berlin, & Picton, 1995; Starr,
that is consistent with a lack of neural synchrony (Zeng, Picton, Sininger, Hood & Berlin, 1996). Subjects with AD
Oba, Garde, Sininger & Starr, 1999). Although AD is not show normal frequency resolution and varying degrees of
yet fully understood, researchers believe the condition temporal disruption (Sininger, Hood, Starr, Berlin, &
probably has more than one etiology (Sininger & Starr, Picton, 1995). The severity of this temporal abnormality is
2001). In some cases, it may involve damage to the inner strongly correlated to speech perception ability (Rance,
hair cells (IHCs). Other causes may include faulty Beer & Cone-Wesson, 1999; Wunderlich & Dowell, 2002).
connections between the inner hair cells and the nerve Another factor that can affect speech identification scores
leading from the inner ear to the auditory cortex, or is the presence of dead regions in the cochlea and/or
damage to the nerve itself. A combination of these neurons. It has been reported that speech recognition scores
problems may also occur. is poor in subjects with dead regions (Vickers, Moore &
VINAY S. N. AND VANAJA C. S. SPEECH PERCEPTION IN AUDITORY DYSSYNCHRONY
Baer et al. 2001; Nagaraj & Moore, 2002). However, there Instrumentation
is a dearth in the studies to investigate the presence of dead The following instruments were used for the present
regions in subjects with AD. study:
Studies carried out to investigate the potential benefits of i) A two channel clinical audiometer consisting of
hearing aids, cochlear implants, and other technologies for supra-aural headphones with earcushions. The audiometer
individuals with AD have revealed inconclusive results was calibrated to conform to ANSI standards.
(Sininger & Starr, 2001). Some investigators have reported ii) A middle ear analyzer to assess the functioning
that hearing aid is useful in 50% of the subjects, whereas in of the middle ear.
others, there is deterioration in performance when a iii) A computer connected to the audiometer to
hearing aid is prescribed (Rance, Beer & Cone-Wesson, present the TEN stimuli.
1999; Starr, Picton, Sininger, Hood, and Berlin (1996). It is
possible that subjects who did not benefit from hearing aid Materials
had dead regions whereas others did not have dead regions. i) TEN (HL) compact disc (Moore, Glasberg and
Thus the following were the aims of the present study: Stone, 2004).
ii) Monosyllables word list (Mayadevi, 1974).
i) Identifying the presence of dead regions in
subjects with AD. Procedure
ii) Comparison of audiometric thresholds in i) Pure tone audiometry: Air conduction thresholds
auditory neuropathy subjects with and without dead were determined at the octave/mid-octave frequencies,
regions. 250, 500, 750, 1000, 1500, 2000, 3000, 4000, 6000 and
iii) To compare speech recognition scores in subjects 8000 Hz. Bone conduction thresholds were determined at
with AD with and without dead regions. 250, 500, 1000, 2000 and 4000 Hz. The thresholds were
iv) To investigate the correlation between speech measured using the modified Hughson-Westlake procedure
recognition scores and edge frequency of the dead region proposed by Carhart and Jerger (1959).
in subjects with AD.
Studies carried out to investigate the potential benefits of ii) Speech audiometry: Speech recognition scores
hearing aids, cochlear implants, and other technologies for were determined using the monosyllabic word list
individuals with AD have revealed inconclusive results (Mayadevi, 1974). 20 monosyllables were chosen based
(Sininger & Starr, 2001). Some investigators have reported upon the frequency of occurrence in Kannada language.
that hearing aid is useful in 50% of the subjects, whereas in Stimuli were presented at 40 dB SL of the pure tone
others, there is deterioration in performance when a average thresholds. The subjects were asked to repeat the
hearing aid is prescribed (Rance, Beer & Cone-Wesson, monosyllables that the tester presented. The percentage of
1999; Starr, Picton, Sininger, Hood, and Berlin (1996). It is correct scores was determined.
possible that subjects who did not benefit from hearing aid
had dead regions whereas others did not have dead regions. iii) Threshold Equalizing Noise (TEN HL) test: The
Thus the following were the aims of the present study: TEN (HL) test was used to check for the presence of dead
regions in subjects with AD. The absolute thresholds and
i) Identifying the presence of dead regions in masked thresholds in the presence of TEN were measured
subjects with AD. using the two-channel clinical audiometer with the
ii) Comparison of audiometric thresholds in modified Hughson-Westlake procedure proposed by
auditory neuropathy subjects with and without dead Carhart and Jerger (1959). The presentation of the TEN
regions. level was 10 dB SL of the highest audiometric thresholds.
iii) To compare speech recognition scores in subjects For audiometric thresholds above 80 dB HL, TEN test was
with AD with and without dead regions. carried out for frequencies in which the thresholds are
iv) To investigate the correlation between speech below 90 dB HL as thresholds above 90 dB HL are a
recognition scores and edge frequency of the dead region definite indication of a dead region (Moore, 2001). The
in subjects with AD. TEN and signal levels was controlled by the use of
attenuators on the audiometer. The potentiometers
METHOD controlling the tape inputs was set to give a reading of 0 dB
on the VU meters of the audiometer, while playing the
Subjects
calibration signal. This ensured that the signal and the
Study consisted of two groups of subjects- Auditory noise level per ERB were equal to the level indicated on
neuropathy subjects with dead regions (21 ears; age the audiometer.
ranging from 14 to 45 years; mean age: 23.71 years) and
auditory neuropathy subjects without dead regions (8 ears; RESULTS AND DISCUSSION
age ranging from 18 to 37 years; mean age: 25.16 years). Table 1 indicates pure tone audiometric thresholds (dB
The diagnosis of auditory neuropathy was based on the HL), TEN (HL) and speech recognition scores (SRS)
following test results: values for auditory neuropathy subjects with possible
dead regions.
i) Normal outer hair cell functioning evident by the
presence of TEOAEs amplitude and/or presence of
cochlear microphonics (CM)
ii) Abnormal or absent auditory brainstem responses
(ABRs)
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 104
Subjects TEN SRS ABR OAE ERB these subjects than that are found in subjects having
(%) ( 4.85
b ) cochlear hearing loss (Moore & Glasberg, 1986; Moore,
S1 RE + 25 Absent Present
1998; Florentine & Buus, 1984). The temporal processing
S1 LE - 30 Absent Present disorder in subjects with auditory neuropathy is associated
S2 RE + 0 Absent Present 10.37 with impairment in detection of short duration acoustic
signals (Sininger & Starr, 2001). The second group of
S2 LE + 0 Absent Present 4.85 subjects showed high TEN (HL) thresholds at only certain
S3 RE - 65 Absent Present frequencies, in which, high TEN (HL) thresholds were
S3 LE - 65 Absent Present present more at the lower frequencies than at the higher
frequencies. It is interesting to note that high thresholds in
S4 RE - 70 Absent Present TEN (HL) in this group of subjects may indicate loss of
S4 LE + 25 Absent Present 0 sound transmission due to neural dysynchrony than due to
complete loss of IHCs and/or auditory neurones. These
S5 RE + 0 Absent Present 2.74 subjects may also have complete damage of the IHCs
S5 LE + 0 Absent Present 4.85 resulting in loss of transduction.
S6 RE + 0 Absent Present 2.74
TEN (HL) results in subjects with Auditory
S6 LE - 0 Absent Present neuropathy
S7 RE + 55 Absent Present 16.31 22
18
S8 LE + 55 Absent Present 16.31
16
Number of subjects
14
S9 LE + 0 Absent Present 0 12
10
S10 LE + 70 Absent Present 16.31 6
S11 LE + 0 Absent Present 2.74 4
2
S12 RE - 0 Absent Present 0
1 2
S12 LE - 0 Absent Present
AN with DR AN without DR
S13 RE - 0 Absent Present
Figura 1 Auditory neuropathy subjects with and without dead
S13 LE + 0 Absent Present 2.74 regions
S14 LE + 65 Absent Present 0 TEN (HL) test was administered on subjects with
auditory neuropathy (29 ears). 21 ears showed abnormal
S15 LE + 80 Absent Present 2.74 TEN (HL) results in which the masked thresholds were 10
S16 RE + 0 Absent Present 16.31 dB or above than the absolute thresholds. 8 ears obtained
masked thresholds within 10 dB of the absolute thresholds.
S16 LE + 0 Absent Present 16.31
Subjects with auditory neuropathy have a dysynchrony in
Subject; RE-Right ear; LE-Left ear; + indicates TEN test result positive the auditory neurones.
indicates negative
Table 1 TEN (HL) test, ABR and OAE results, speech recognition Comparison of audiometric thresholds in auditory
scores (SRS) and ERB number in Auditory neuropathy subjects
neuropathy subjects with and without dead
regions
TEN (HL) results revealed two types of patterns were
observed in subjects with auditory neuropathy. One type 80
showed abnormally high TEN (HL) thresholds at all
70
frequencies in which TEN (HL) was measured. Results
60
Threshold (dB HL)
revealed abnormally high TEN (HL) thresholds in subjects

S7 (RE), S8 (RE, LE), S10 (RE, LE) & S16 (RE, LE) at all 50
frequencies in the TEN (HL) test. High TEN (HL) 40
thresholds were obtained in spite of good audiometric 30
thresholds at these frequencies in these subjects. This may 20
indicate more of a central problem or other problems
10
related to coding of sounds such as loss of synchrony
0
rather than due to the complete damage to the IHCs and/or
0 1 2 3 4 5 6
auditory neurones. Subjects with auditory neuropathy
experience conduction block in the sound transmission Frequency (kHz)
pathway at the level of auditory neurones (Starr et al.
1998). This conduction block and the loss of neural Figura 1 Mean audiometric thresholds for auditory neuropathy
synchrony may also lead to high thresholds in TEN (HL). subjects with (Diamond filled line) and without (square filled line)
Also, results indicate that subjects with auditory dead regions
neuropathy have poor speech recognition scores due to a
more severe degree of temporal processing problems in
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 105
Audiometric thresholds were compared across auditory Comparison of speech recognition scores and
neuropathy subjects with and without dead regions. extent of dead regions in subjects with auditory
Independent sample t test was carried out for statistical neuropathy
significance by comparison of the audiometric thresholds The presence of dead regions in subjects with auditory
in auditory neuropathy subjects with and without dead neuropathy was estimated using the TEN (HL) test and the
regions. Statistical analyses revealed significant difference extent of dead regions was expressed in terms of the ERB
in audiometric thresholds for auditory neuropathy subjects number. Each frequency represents a corresponding ERB
with and without dead regions at 1500, 2000, 3000 & 4000 number and the difference in the two ERB numbers
Hz. There was no significant difference at 500 (t = 0.754), indicated the extent of dead regions in these subjects. The
750 (t = 0.443), 1000 (t = 1.317), 1500 (t = 2.093), 2000 (t ERB number can be calculated using the formula
= 2.10), and 4000 Hz (t = 2.363). However, there was a
significant difference observed only at 3000 Hz ( t = 3.221, E = 21.4 log10(4.37F + 1) (1)
p<0.01) Results show that high audiometric thresholds at
the low frequencies is associated with the presence of E = ERB number; F is in kHz (Moore, 2003). The results
asynchrony, that is in tune with the low frequency are demonstrated in the form of a scatter plot (fig. 4).
loss/rising audiogram configuration. The audiometric
hearing loss is more due to the dyssynchrony of the 100
auditory neurones rather than due to the damage to the
IHCs. For auditory neuropathy subjects with and without 80
Speech Recognition Scores %

dead regions, audiometric thresholds at high frequencies
did not show statistically significant results which conclude 60
that the difference in the thresholds is due to the loss of 40
asynchrony in the auditory neurones. The differences in the

results obtained at 3000 Hz may be a result of temporal 20
disorder resulting in asynchronous firing.

0
Comparison of speech recognition scores for -20
auditory neuropathy subjects with and without

-10 0 10 20
dead regions ERB number
Figura 4 Scatter plot indicating the speech recognition scores (%)

10 in terms of the extent of dead regions (ERB number)
S p e e c h r e c o g n itio n s c o r e s (% )
9
8 Pearsons correlation was carried out to know the
7 correlation in the speech recognition scores to the extent of
6 dead regions in auditory neuropathy subjects which
5 revealed a positive result in the TEN test. Results revealed
4 a low correlation (=0.285) indicating that the speech
3 recognition scores did not depend on the extent of dead
2 regions in subjects with auditory neuropathy. This may be
1 due to the fact that speech recognition scores are adversely
0 affected in subjects with auditory neuropathy due to loss of
1 2 synchrony. The role of the presence of dead regions in
Subjects these subjects may be a compounding factor for poor
speech recognition in these subjects. Studies on speech
recognition abilities and presence of dead regions reveal
Figura 3 Mean speech recognition scores for auditory neuropathy
subjects with (1) and without (2) dead regions statistically significant difference in the scores in high
frequency sensorineural hearing impaired subjects with and
Speech recognition scores for 20 monosyllables were without dead regions (Moore, 2001; Vickers et al. 2001;
compared in auditory neuropathy subjects with (21 ears) Baer et al. 2002). Subjects with dead region do not have
and without (8 ears) dead regions. The scores were any surviving inner hair cells in that regions and hence the
calculated in terms of percentage. However, for statistically transduction of sound stimulus is not possible in those
test analyses, the raw scores were considered. Independent frequencies (Moore et al. 2000). Hence, speech recognition
samples t test results revealed no statistically significant abilities are poor in these subjects. Also, results comparing
difference in speech recognition scores in auditory audiometric thresholds in auditory neuropathy subjects
neuropathy subjects with and without dead regions. Speech with and without dead regions give a divided opinion. The
perception problems in subjects with auditory neuropathy difference in the audiometric thresholds may be just be a
can be related to severe temporal processing disorders result of loss of synchrony in those frequencies. Speech
(Starr et al. 1996). Also, the speech recognition scores in perception is also affected in the frequency regions where
the subjects do not correlate with the pure tone audiometric there is asynchrony resulting in the loss of transduction.
thresholds (Yellin et al. 1989). Also, poor speech CONCLUSION
recognition abilities are reported in subjects with dead
regions (Moore, 2001; Vickers et al. 2001; Baer et al. From the present study, it may be concluded that, dead
2002). However, high thresholds in TEN (HL) in these regions are seen in subjects with AD. Speech perception
subjects may not indicate the presence of dead regions, but abilities will be poorer in AD subjects with dead regions
may be due to the loss of synchrony in these subjects. than without dead regions. The speech perception scores
also depend upon the edge frequency of the dead region.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 106
Speech recognition scores deteriorate, as the edge [17] Zeng, F.G., Oba, S., Garde, S., Sininger, Y., & Starr,
frequency is higher in terms of frequency. A. (1999). Temporal and speech processing deficits in
auditory neuropathy. Neuro Report, 10, 3429-3435..
REFERENCES
[1] Bacon, S.P., & Gleitman, R.M. (1992). Modulation
detection in subjects with relatively flat hearing
losses. Journal of Speech and Hearing Research, 35,
642-653.
[2] Carhart, R., and Jerger, J. F. (1959). "Preferred
method for clinical determination of pure-tone
thresholds," Journal of Speech and Hearing Disorders,
24, 330-345.
[3] Formby, C., & Muir, K. (1988). Modulation and gap
detection for broadband and filtered noise signals.
Journal of the Acoustical Society of America, 84,
545-550.
[4] Mayadevi, N. (1974). The development and
standardization of a common speech discrimination
test for Indians. An unpublished Masters dissertation
submitted to University of Mysore.
[5] Moore, B.C.J. (2001). Dead regions in the cochlea:
Diagnosis, perceptual consequences and implications
for the fitting of hearing aids. Trends in
Amplification, 5, 1-34.
[6] Moore, B.C.J., Glasberg, B.R., and Stone, M.A.
(2004). New version of the TEN test with calibrations
in dB HL, Ear and Hearing, 25(5), 478-487.
[7] Moore, B. C. J., Huss, M., Vickers, D. A., Glasberg,
B. R., and Alcntara, J. I. (2000). "A test for the
diagnosis of dead regions in the cochlea," British
Journal of Audiology, 34, 205-224.
[8] Moore, B.C.J., Shailer, M.J., & Schooneveldt, G.P.
(1992). Temporal modulation transfer functions for
band-limited noise in subjects with cochlear hearing
loss. British Journal of Audiology, 26, 229-237.
[9] Rance G., Beer D., Cone-Wesson, B. (1999). Clinical
findings for a group of infants and
[10] young children with auditory neuropathy. Ear &
Hearing; 20: 238-252.
[11] Sininger, Y., & Starr, A. (2001). Auditory neuropathy:
A new perspective on hearing disorders. Singular
Publishers.
[12] Sininger, Y., Hood, L.J., Starr, A., Berlin, C.I., &
Picton, T.W. (1995). Auditory loss due to auditory
neuropathy. Audiology Today, 7, 10-13.
[13] Starr, A., McPherson, D., Patterson, J., Luxford, W.,
Shannon, R., Sininger, Y., Tonokawa, L., & Waring,
M. (1991). Absence of both auditory evoked
potentials and auditory percepts dependent on time
cues. Brian, 114, 1157-1180.
[14] Starr, A., Picton, T.W., Sininger, Y., Hood, L.J., &
Berlin, C.I. (1996). Auditory neuropathy. Brain, 119,
741-753.
[15] Vickers, D. A., Moore, B. C. J., and Baer, T. (2001).
Effects of low pass filtering on the intelligibility of
speech in quiet for people with and without dead
regions at high frequencies, Journal of the Acoustical
Society of America, 110, 1164-1175.
[16] Vinay, & Moore, B.C.J. (2002). Effects of high pass
filtering on speech intelligibility in subjects with
normal hearing and subjects with and without dead
regions at low frequencies. Unpublished Master of
Philosophy thesis submitted at University of
Cambridge, United Kingdom.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 107

Artigo de Congresso
10a Convencao Nacional da AES Brasil
08 a 10 de Maio de 2006, Sao Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edic oes, correc
oes ou considerac
oes feitas
pelo comite tecnico. A AES Brasil n ao se responsabiliza pelo conte
udo. Outros artigos podem ser adquiridos
atraves da Audio Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org.
Informacoes sobre a sec
ao Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados.
Nao e permitida a reproducao total ou parcial deste artigo sem autorizac
ao expressa da AES Brasil.
Identificacao de Notas Musicais de Violao

Utilizando Redes Neurais
Alexandre L. Szczupak1, Luiz W. P. Biscainho1, e
Luiz P. Caloba 1
1LPS PEE/COPPE & DEL/Poli, UFRJ
aleizor,wagner,caloba@lps.ufrj.br
RESUMO
A identicacao de notas musicais em um sinal polifonico pela simples analise de seu espectro
de frequencias e dicultada por possveis superposicoes dos harmonicos de diferentes notas.
Neste trabalho, que aborda especicamente sons de viol ao, buscamos superar esse problema
utilizando redes neurais na analise do espectro frequencial. Para aproveitar as caractersticas
particulares dos sinais de m usica, substitumos como instrumento de representacao espectral
para sinais discretos a DFT pela Constant-Q Transform, que distribui geometricamente as
linhas espectrais.
INTRODUC
AO sao descritas com maior densidade de linhas que
oitavas mais baixas.
Realizar a transcricao de uma peca musical para Para otimizar a an alise, pode-se utilizar a CQT
a partitura exige extenso conhecimento de teoria (Constant-Q Transform) [2], uma transformada
musical e percepcao auditiva aprimorada. Um sis- espectral com seletividade constante e freq uencias
tema de transcricao autom atico, que identique centrais espacadas em progressao geometrica, as-
as notas de um sinal de m usica, pode se tornar sim como nas escalas de igual temperamento.
uma ferramente u til na popularizacao do uso de Neste estudo utilizamos a CQT para represen-
partituras e no ensino de teoria musical. tar o espectro freq uencial de sinais de violao. Es-
Comumente, sinais discretos sao representados sas representacoes sao utilizadas no treinamento e
no domnio da freq uencia atraves da DFT (Dis- teste de um conjunto de redes neurais projetadas
crete Fourier Transform), com resultados dis- para identicar as notas presentes em gravacoes
postos sobre uma escala linear de freq uencias. do instrumento. A m de se aferir o grau de
Porem, nas escalas musicais de igual tempera- diculdade do reconhecimento de acordo com o
mento, utilizadas na m usica ocidental desde o numero de notas simult aneas, adotou-se a se-
seculo XVIII [1], as freq uencias fundamentais das guinte estrategia: criar 6 redes, cada uma delas
notas sao dispostas em progressao geometrica com especializada na identicacao de um n umero dife-
1
razao 2 12 . Em uma representacao atraves da rente de notas simult aneas.
DFT, o n umero de linhas espectrais por oitava Essas redes podem ser projetadas para identi-
varia em funcao da freq uencia: oitavas mais altas car notas de outros instrumentos musicais, desde
SZCZUPAK ET AL. IDENTIFICAO DE NOTAS MUSICAIS DE VIOLO UTILIZANDO REDES NEURAIS
SZCZUPAK ET AL. IDENTIFICAC DE NOTAS MUSICAIS DE VIOLAO
AO UTILIZANDO REDES NEURAIS
que estes tambem possuam anacao temperada.

A identicacao de notas musicais em sinais po-
lif
onicos atraves de redes neurais tambem foi abor-
dada por Matija Marolt [3, 4]. Em seus estu-
dos, dedicados a` identicacao de sons de piano,
redes especializadas sao utilizadas na reconheci-
mento de cada nota. Seu sistema SONIC apre-
senta, para diferentes polifonias, erros entre 1,9
e 14% na analise de sinais sintetizados e 11,5 e
14,1% na analise de sinais reais.
Diversas alternativas tem sido propostas para Figura 1: Representacao do braco de um viol ao.
resolucao do problema de identicacao de notas si- As cordas mais agudas estao nas posicoes inferio-
mult aneas. Uma extensa bibliograa sobre trans- res.
cricao musical autom atica pode ser encontrada
em [5]. Pode-se destacar um metodo desenvolvido
por Anssi Klapuri para a estimacao das notas pre- incluindo valores intermediarios para maior re-
sentes em sinais polifonicos [6]. Este metodo, que solucao.
nao utiliza redes neurais, baseia-se em modelos A f ormula da CQT pode ser obtida atraves de
perceptivos da audicao humana e tambem adota algumas alteracoes na f ormula da DFT direta de
a estrategia aqui empregada de aferir separada- uma seq uencia x[n] janelada, dada por:
mente o desempenho do sistema para n umeros di-
ferentes de notas simultaneas. 1
N 1
2
X[k] = w[n]x[n]ej N kn , k [0, N 1],

O VIOLAO N n=0
(1)
De um viol ao de 6 cordas podem ser extradas
onde:
44 notas diferentes, de E2 (82,41Hz) ate B5
N = numero de amostras do sinal;
(987,77Hz). As notas podem soar individual-
w = funcao de janelamento.
mente ou em combinacoes de duas ate seis no-
tas simult aneas. Dessas 44 notas, 34 podem ser
Para obter seletividade constante e espacamento
produzidas por um m usico utilizando pelo menos
logartmico, o n umero de amostras analisadas
duas posicoes distintas sobre o braco do instru-
deve variar em funcao da frequencia desejada, e o
mento. As notas restantes - cada uma das quais
ndice freq
uencial k presente na exponencial deve
so pode ser gerada a partir de uma u nica posicao
ser substitudo pela seletividade desejada (Q) [2].
sobre o braco - sao as cinco mais graves e as cinco
mais agudas do instrumento. N [kcq ]1
1 2
Para realizar este estudo, gravamos individual- Xcq [kcq ] = w[n, kcq ]x[n]e
j N [k
cq ]
Qn
,
mente as 44 notas de 5 violoes diferentes. A Fi- N [kcq ] n=0
gura 1 contem uma representacao de um braco (2)
de viol ao. As cordas do instrumento est ao de- onde:
senhadas somente sobre as 78 posicoes utilizadas N [kcq ] = fs Q
fkcq ;
durante as gravacoes. Com essa escolha, todas as
34 notas que podem ser produzidas em posicoes fs = frequencia de amostragem;
distintas foram gravadas duas vezes. As 10 notas fkcq = q kcq fmin = freq
uencia sob an
alise;
restantes foram gravadas apenas uma vez. Suas fmin = freq uencia mnima escolhida para a
posicoes estao destacadas na gura. analise.
Para cada posicao escolhida, foram realizadas
duas gravacoes: em uma, a corda do violao foi A razao q entre as freq
uencias adjacentes da
tocada diretamente com os dedos; na outra, com CQT deve ser escolhida de acordo com a precisao
uma palheta. freq
uencial desejada.
ESPECTRAL Neste estudo utilizamos um algoritmo r apido
REPRESENTAC
AO para c
alculo da CQT [7, 8], baseado no algoritmo
Transformacoes espectrais utilizando a CQT re- FFT:
sultam em vetores complexos, assim como na
N 1
DFT, porem com valores dispostos sobre uma es- 1
Xcq [kcq ] = X[k]K [k, kcq ], (3)
cala logartmica de frequencias. Por conveniencia, N
k=0
na analise de sinais de musica, essa escala pode ser
denida sobre as freq uencias das notas de uma es-
cala musical de temperamento igual, ou mesmo
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
PAULO, 10 MAIO DE 2006
DE MAIO DE 2006109
onde: sob a condicao de nenhuma nota aparecer mais

que uma vez por combinacao. Na pr atica essa
K[k, kcq ] = situacao e possvel, ocorrendo quando o m usico
N 1 N (kcq )
fk
j2 fcq (n N 2kn
2 ) ej N .
toca uma mesma nota simultaneamente em cor-
n=0 w[n( 2
N
), k ]e s
2 cq
das diferentes. Como as 5 notas mais graves e as
(4) 5 mais agudas sao representadas apenas uma vez
por grupo de gravacoes - diferentemente das de-
possvel mostrar que, para um dado kcq , a
E mais notas, que podem ser tocadas sobre posicoes
uencia K[k, kcq ] apresenta valores signicati-
seq diferentes do braco do instrumento - uma copia
vos apenas em uma faixa concentrada de valores adicional de cada e inserida no grupo. Cada grupo
de k. Considerando nulos os valores muito peque- passa, assim, a ter 88 gravacoes diferentes. Dessa
nos da sequencia, podemos reduzir drasticamente forma, todas as notas, em vez de todas as posicoes,
o numero de multiplicacoes realizadas, obtendo tem a mesma probabilidade de aparecer em uma
um algoritmo r apido. combinacao.
Em cada rotina, 8 grupos de sinais sempre s ao
PRE-PROCESSAMENTO reservados para a criacao do conjunto de treina-
A etapa inicial consiste na organizacao de um mento das redes. Sao formados pelos sinais de
banco de dados formado pelas gravacoes citadas 4 violoes, produzidos com e sem palheta. Outros
anteriormente. dois grupos s ao reservados para a criacao dos con-
As gravacoes foram realizadas em ambiente juntos de teste e validacao. S ao formados pelos
domestico, com resolucao de 16 bits e taxa de sinais do viol ao restante, produzido com e sem
amostragem de 44100 Hz. Para registrar com palheta.
delidade a sonoridade de cada viol ao, utiliza- Conforme sera visto a seguir, existem algumas
mos um microfone com resposta na freq uencia de diferencas nas metodologias aplicadas na primeira
+/ 1,5 dB sobre a faixa de interesse (de 77,78 Hz e na segunda rotina em relacao a`s demais. As di-
ate 5274,04 Hz). Cada um dos sinais foi regis- ferencas foram determinadas em funcao da quan-
trado com raz ao sinal/rudo maxima de aproxi- tidade de dados disponveis.
madamente 50dB.
Em cada gravacao, apenas a corda utilizada na
Descrico
es das Rotinas
geracao da nota podia vibrar. As 5 demais cor- Para a primeira rotina, referente a uma nota
das permaneciam abafadas. Todos os sinais foram apenas, os conjuntos de treinamento, teste e va-
segmentados em blocos com 1 segundo de duracao lidacao foram criados da seguinte forma:
iniciados no ataque de cada nota, mesmo quando Treinamento
as duracoes das notas se estendiam alem desse li-
mite. Todos os sinais dos 4 violoes reservados para
Foram criadas seis rotinas para organizacao dos o treinamento das redes foram utilizados na
sinais, cada uma referente a uma quantidade di- criacao do conjunto. As CQTs de cada
ferente de notas musicais. Em todas as rotinas um deles foram calculadas sobre a faixa que
os sinais eram divididos em grupos discriminados abrange desde 77,78 Hz (um semitom abaixo
pelo viol ao utilizado e pela forma de execucao, da nota mais grave do violao) ate 5274,04 Hz
com ou sem palheta. Na rotina referente a apenas (suciente para cobrir ate o quinto harmonico
uma nota, os sinais segmentados formavam dire- de C6, a nota seguinte à nota mais aguda
tamente os grupos. Nas outras rotinas, foram rea- de um violao comum). A precis ao freq
uen-
lizadas combinacoes dos sinais atraves da soma de cial escolhida foi de 1/8 de semitom. A
suas amplitudes e posterior divis ao do resultado analise se estende ate 5274,04 Hz para evi-
pelo n umero de notas combinadas1 . tar perda de informacoes sobre os harmonicos
mais energeticos das notas mais agudas.
Os sinais formados desse modo simulam com-
binacoes de notas tocadas simultaneamente por Foram criados vetores com os valores abso-
um m usico. Desconsideramos os efeitos de in- lutos de cada transformada calculada. Cada
teracao entre cordas diferentes tocadas ao mesmo vetor foi normalizado de forma a tornar o so-
tempo. Em todos as rotinas, ap os a geracao das matorio de seus elementos igual a 1. Em se-
combinacoes, os sinais foram multiplicados por guida, de cada vetor foi subtrada sua pr
opria
uma janela de Hamming. media.
As notas utilizadas em cada combinacao foram Essas representacoes espectrais foram arma-
escolhidas aleatoriamente dentre as disponveis, zenadas em uma matriz de representacoes.
1 Neste trabalho n Uma matriz de objetivos tambem foi criada
ao foi considerada a variac
ao de
din
amica na execuc
ao das notas. Tentou-se, no entanto, e associada à matriz de representacoes. Cada
manter as amplitudes aproximadamente equalizadas. uma das colunas da matriz de objetivos e um
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
DE MAIO DE 2006110
vetor-objetivo que contem 44 elementos com robustez das redes.

valores 1 ou -1. Cada elemento pode ser as-
sociado a uma das 44 notas encontradas num AS REDES NEURAIS
viol
ao comum, da seguinte forma: se, por Foram desenvolvidas 6 redes do tipo feed-
exemplo, a representacao espectral contida forward / backpropagation totalmente conectadas,
numa coluna x da matriz de representacoes cada uma direcionada para a analise de quantida-
for da nota G2 (quarta nota a partir de E2), des diferentes de notas simult
aneas.
entao o quarto elemento da coluna x da ma-
Todas as redes foram criadas com a mesma to-
triz de objetivos e igual a 1 e todos os outros
pologia:
elementos na mesma coluna s ao iguais a -1.
Em seguida, as colunas da matriz de re- duas camadas
presentacoes sao permutadas em ordem
176 neuronios na primeira camada e 44
aleat
oria. A mesma ordem e utilizada na per-
neuronios na segunda
mutacao das colunas da matriz de objetivos.
todos os neuronios com funcao de ativacao do
Teste e Validacao
tipo tangente hiperbolica
Um procedimento similar foi realizado com os
conjuntos de teste e validacao, porem desta O treinamento buscava minimizar o erro
vez foram utilizados os sinais extrados do quadr
atico medio atraves do metodo do gradiente
viol
ao restante. Neste caso os sinais sao descendente.
divididos em dois conjuntos com o mesmo
n
umero de elementos. A determinacao de Crit
erio de Parada
quais sinais formam os grupos tambem e O treinamento das redes era paralisado quando
aleatoria. N
ao ha restricao sobre quantas re- o erro quadratico medio do conjunto de validacao
presentacoes de sinais gravados com ou sem tendia a aumentar.
palheta formam cada grupo.

POS-PROCESSAMENTO
Atraves da mesma metodologia aplicada na
criacao do conjunto de treinamento sao cria- Para cada rede referente a n notas simultaneas,
das matrizes de representacoes e de objetivos assumiu-se que as posicoes dos n maiores valores
para os grupos de teste e validacao. encontrados nos vetores de sada indicariam as no-
tas que devem ser classicadas como presentes na
Para a segunda rotina, para duas notas si- combinacao analisada. Assim, para a rede de uma
mult aneas, foram avaliadas as possveis com- nota, apenas o maior valor entre os elementos do
binacoes de 2 sinais por grupo que tenham no- vetor e considerado. Para a rede de duas notas,
tas diferentes, totalizando 3784 arranjos diferen- os dois maiores valores sao considerados, e assim
tes. Com essas combinacoes, o procedimento se- por diante.
gue igual ao da primeira rotina, apenas com uma
alteracao: desta vez os vetores-objetivo sao for- RESULTADOS
mados com dois elementos iguais a 1, em vez de
apenas um. A seguir, listam-se os resultados nais das si-
mulacoes descritas acima.
As 4 demais rotinas, para criacao dos conjuntos
para an alise de 3, 4, 5 ou 6 notas simult aneas, Para uma nota:
respectivamente, sao similares entre si. Elas se di-
ferenciam da segunda rotina em 3 aspectos: pelo MSE = 0,000258.
numero de notas simult aneas analisadas; porque Percentual de erros = 0.
nao foram geradas todas as combinacoes possveis
devido ao elevado n umero de possibilidades; e por- Para duas notas:
que em cada rotina s ao criados 2 conjuntos de
4000 combinacoes de notas diferentes. Um dos MSE = 0,002402.
conjuntos determina quais combinacoes sao utili- Percentual de erros = 1,64%, sempre
zadas no grupo de treinamento e o outro, quais com uma so nota errada.
sao utilizadas no grupo de teste. Os dois conjun-
tos sao criados independentemente. Para tres notas:
Como as combinacoes do conjunto de treina- MSE = 0,003959.
mento sao geradas de forma aleat oria e n
ao abran-
Percentual de erros = 6,22%, sempre
gem todas as possibilidades, criar os conjuntos de
com uma so nota errada.
testes e validacao a partir de combinacoes gera-
das independentemente possibilita a avaliacao da
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
DE MAIO DE 2006111
Para quatro notas: ser desenvolvido um sistema que determine ape-

nas os intervalos entre as notas presentes numa
MSE = 0,009764. combinacao, sem se ocupar de suas alturas abso-
Percentual de erros = 14,37%, sendo lutas.
14,22% com uma nota errada e 0,15%
com duas notas erradas. AGRADECIMENTOS
Os autores gostariam de agradecer ao eng. Gus-
Para cinco notas:
tavo Luis Almeida de Carvalho por sua con-
MSE = 0,015622. tribuicao na etapa inicial deste trabalho e às
agencias de fomento CAPES, FAPERJ e CNPq
Percentual de erros = 22,10%, sendo pelo apoio na forma de bolsa de mestrado e de
21,83% com uma nota errada e 0,27% auxlio a projetos de pesquisa.
com duas notas erradas.

REFERENCIAS
BIBLIOGRAFICAS
Para seis notas:
[1] A. Isaacs and E. Martin, Dicion ario de
MSE = 0,023388. Musica. Rio de Janeiro, RJ: Zahar, 1985.
Percentual de erros: 32,72%, sendo
[2] J. C. Brown, Calculation of a constant Q
31,45% com uma nota errada e 1,27%
spectral transform, J. Acoust. Soc. Amer.,
com duas notas erradas.
vol. 89, no. 1, pp. 425434, January 1991.

CONCLUSOES [3] M. Marolt, A comparison of feed forward
Foi apresentada uma topologia baseada em re- neural network architectures for piano music
des neurais para identicacao de notas de violao transcriptions, Proceedings of the 1999 Inter-
tocadas simultaneamente. Foi denida e execu- national Computer Music Conference, Beijing,
tada uma estrategia de simulacoes para quanti- China, 1999.
car a diculdade da tarefa em relacao ao n umero [4] M. Marolt, Sonic: Transcription of Polypho-
de notas executadas. Como se esperava, o desem- nic Piano Music with Neural Networks, in
penho das redes projetadas associado ao metodo Proceedings of the Workshop on Current Re-
de analise de seus vetores de sada mostrou depen- search Directions in Computer Music, (Barce-
der fortemente do n umero de notas simult aneas lona, Spain), 2001.
analisadas. Embora erros de mais de 10% possam
nao ser toler
aveis conforme a aplicacao em vista, [5] A. Klapuri, Signal Processing Methods for the
os resultados preliminares para a topologia pro- Automatic Transcription of Music. Ph.D. dis-
posta pareceram promissores, embora tendo sido sertation, Tampere University of Technology,
dissociados os tratamentos de diferentes n umeros Tampere, Finland, March 2004.
de notas executadas. Basta observar que para
combinacoes de ate 3 notas, s o houve erros de 1 [6] A. Klapuri, A Perceptually Motivated
nota, e para combinacoes de 4 a 6 notas, so houve Multiple-F0 Estimation Method, in IEEE
erros de 1 ou 2 notas. A busca de uma tenden- Workshop on Applications of Signal Proces-
ciosidade nesses erros (para que notas ocorriam, sing to Audio and Acoustics, (New Paltz, NY,
e quais as notas erroneamente acusadas?) deve USA), October 2005.
indicar possveis formas de reduzi-los. [7] J. C. Brown and M. S. Puckette, An ecient
Deve-se observar que a comparacao dos resulta- algorithm for the calculation of a constant-Q
dos do presente artigo com os dos trabalhos re- Transform, J. Acoust. Soc. Amer., vol. 92,
ferenciados (como tambem entre estes) nao pode no. 5, pp. 26982701, November 1992.
ser feita diretamente. Os diferentes criterios de
avaliacao dos erros e o uso de bancos de dados [8] B. Blankertz, The constant Q Transform.
distintos impedem a comparacao coerente entre URL: http://ida.rst.fhg.de/publications/
os metodos. drafts/Bla constQ.pdf.
Pr
oximas metas possveis neste trabalho, alem
da investigacao minuciosa das ocorrencias dos er-
ros: criar um sistema unicado para tratamento
de qualquer n umero de notas, o que pode envolver
estrategias heursticas para determinacao de sua
arquitetura; estudar diferentes metodos de tra-
tamento das amplitudes, para por m avaliar o
efeito de variacoes de dinamica. Tambem pode
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
DE MAIO DE 2006112

Artigo de Congresso
10a Convencao
Paulo, SP
08 a 10 de Maio de 2006, Sao
Este artigo foi reproduzido do original nal entregue pelo autor, sem edico es, correco es ou consideraco es feitas pelo comite
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaco es sobre a seca o Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproduca o total ou parcial
deste artigo sem autorizaca o expressa da AES Brasil.
Accurate and Efcient Fundamental Frequency

Determination from Precise Partial Estimates
Adriano Mitre1, Marcelo Queiroz1, Regis R. A. Faria2
Department of Computer Science,
1
Paulo
Institute of Mathematics and Statistics, University of Sao
Laboratory of Integrated Systems,
2
Paulo
Polytechnic School, University of Sao
adriano@mitre.com.br, regis@lsi.usp.br, mqz@ime.usp.br
A BSTRACT
An algorithm is presented for the estimation of the fundamental frequency (F0 ) of monophonic sounds.
The method relies upon accurate partial estimates, obtained on a frame basis by means of enhanced
Fourier analysis. The use of state-of-the-art sinusoidal estimators allows the proposed algorithm to work
with frames of minimum length (i.e., about two fundamental periods). The accuracy of the proposed
method does not degrade for high pitched sounds, making it suitable for musical sounds.
INTRODUCTION properties of speech signals are more complex than

those of an average music signal. The F0 values in
Extracting the fundamental frequency (F0 ) contour music are temporally more stable than in speech.
of a monophonic sound recording has a number of Despite the aforementioned dierences, it is occa-
applications, such as audio coding, prosodic analysis, sionally possible to employ speech-tailored PDAs to
melodic transcription and onset detection. monophonic musical recordings, with variable degree
Pitch determination in speech signals is a exten- of success.
sively studied topic, mostly motivated by immediate The human voice and most pitched musical instru-
applications in telecommunications. Musical pitch es- ments used in Western music produce quasi-harmonic
timation, however, has received considerably less at- sounds1 . The reason for this is encountered in the
tention. physics of vibrating strings and tubes. As the pitch of
Speech and musical pitch estimation pose dierent a quasi-harmonic sounds is closely related to its fun-
challenges for pitch determination algorithms (PDA). damental frequency, both terms were used indistinctly
Fundamental frequency estimation in music signals is in the present work.
in many ways more challenging than that in speech
signals. In music, the pitch range can be wide, com- PROPOSED METHOD
prising more than seven octaves, and the sounds pro-
duced by dierent musical instruments vary a lot in A number of techniques have been proposed for
their spectral content. The inharmonicity phenom- pitch estimation, mostly aiming at measuring period-
enon has to be taken into account. icity in the time or frequency domain. Most funda-
On the other hand, the dynamic (time-varying) 1 The mallet percussion family is a notable exception.
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES

mental frequency estimation methods may be clas- an accuracy2 of at least F0min 2 1 Hz is needed,
24
sied according to the domain on which they oper- where F0min denotes the lowest expected fundamental
ate. The ones which operate directly on the signal frequency in the input signal. In order to accurately
waveform are termed time-domain methods. Meth- follow expressive subtleties such as vibrati and glis-
ods which transform the waveform to a spectral repre- sandi a higher accuracy is needed.
sentation are called frequency-domain methods. This Frequency accuracy of conventional STFT is half
transformation is usually carried out by means of con- the inverse of frame length, represented by {2}1 Hz.
stant Q or short-time Fourier transforms (STFT). STFTs frequency resolution3 , although constrained
Although the proposed method employs the Fourier by the frame length, depends also on the window
transform, it does not operate on the complete spec- shape. More precisely, it is determined by the 6 dB
trum signal, but rather on a small set of partials. It re- bandwidth of the window power spectrum main lobe
quires frequency analysis, followed by extraction and and is given by Lw 1 Hz, where Lw depends on
estimation of partials. The list of partials in each frame the window. For classic windows, such as Hann and
is the input to the proposed algorithm. Blackman, Lw lies between 1.2 and 3.1 [3, 4].
The main steps of the proposed method are shown For instance, in order to discriminate between
in Figure 1. pitches of a 6-stringed guitar whose lowest pitch is
an E corresponding to 82.4 Hz, one needs a frame of
1
audio frame duration at least 2 82.4
24
21 207 ms.
Musical signals seldom exhibit quasi-periodic behav-
Short-Time Fourier Transform
iour for so long. Large frames tend to lower temporal
precision because of contamination from two or more
Detection of Partials
succesive notes occurring in a single analysis frame.
In addition, a temporal accuracy of 20 ms asks for an
Estimation of Partials
overlap factor of 90% and therefore raises the compu-
tational workload by a factor of ten.
F0 Determination
In monophonic quasi-harmonic signals any two par-
tials are at least F0min Hz apart and thus a frame length
F0 Refinement
of Lw F0min 1 s is enough for them to be resolved (i.e.,
F0 estimate separated). This new bound is much tighter than the
previous one. For the guitar example, a Hamming-
windowed frame of 1.81 82.41 22 ms is enough.
Figure 1: Flowchart of the proposed method.
Fortunately, several techniques exist for improving
the estimates of resolved partials. These generally fall
Detection of Partials into two categories, phase-based and interpolation-
The spectral analysis module produces, for each based.
audio frame, its corresponding complex spectrum.
Interpolation-based Techniques
Notwithstanding, we note that only prominent partials
are relevant for fundamental frequency estimation. One of the techniques for improving the estimates
Under reasonable assumptions, each partial in the of sinusoidal components is spectral oversampling. It
input signal produces a local maximum in the magni- is usually attained by means of zero-padding, which
tude spectrum; the converse is not true due to smearing consists in adding a sequence of zeros to the win-
eects and noise intrinsic to discrete analysis. There- dowed frame before computing the STFT. The disad-
fore several heuristics were proposed to discriminate vantage of spectral oversampling is that the increase
local maxima induced by partials from those induced in the computational workload is proportional to the
by noise. A popular strategy in analysis/resynthesis improvement in accuracy.
systems is partial tracking [1, 2], which does not op- Another technique is quadratic (or parabolic) inter-
erate on isolated frames and thus suggests an oine polation, whose estimates are computed using each lo-
partial ltering strategy. cal maximum of the spectrum and its adjacent bins.
In the present study, the discrimination between It benets from the fact that the main lobe of the
genuine and spurious peaks is postponed to the sub- logarithmic power spectrum of several windows are
sequent module. In this approach every peak is esti- 2 In the present work, the term accuracy is used in the sense of
mated as if it were a partial. Then, the ones whose exactness. An estimator is thus said to have accuracy if every
frequency estimate depart more than half bin from its estimate is within of its true value, i.e., | fi fi | < for all i.
3 Throughout the text, frequency resolution will refer to how
original value are discarded as noise.
close two sinusoids may get while still being separable in the spec-
Estimation of Partials trum. A resolution of means that two sinusoids with same am-
plitude and frequencies f1 and f2 may separated if and only if
In order to correctly estimate a 12-tone-equal- | f1 f2 | and min { f1 , f2 } . The second inequality is due
tempered pitch from a given fundamental frequency, odd-simmetry of the spectrum of real signals.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES SO
SAO
BRASIL, PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 114
very close to a quadratic function. Purposefully de- Finally, non relevant partials are ltered prior to fun-
signed windows are sometimes employed, which are damental frequency determination. A partial is con-
obtained by taking the inverse transform of a perfect sidered relevant if its frequency is within human hear-
quadratic function. The parabolic interpolation tech- ing range (2020, 000 Hz) and its magnitude is strictly
nique is often combined with spectral oversampling. positive.
For the special case of the Hann window, Grandke
designed an interpolation technique which considers Fundamental Frequency Determination
each peak and its greatest neighbour [5]. The proposed method assumes that the strongest
A number of interpolation techniques exist for the partial belongs to the main harmonic series, thus its
rectangular-windowed STFT4 , however spectral leak- frequency is expected to be multiple of F0 . Letting f
age problems prevent the use of rectangular window denote the frequency corresponding to the strongest
for musical signal analysis. partial, the set of candidates for F0 is composed by
submultiples of f . Formally,
Phase-based Techniques

More sophisticated partial estimation techniques def f f
use the phase spectrum in addition to magnitude infor- C = cn = :1n (3)
n F0min
mation. The Derivative Method [6] uses the spectra
of the original signal and its derivative (aproximated The next step consists in collecting the harmonic
by a low-pass lter) and the Spectral Reassignment series corresponding to each F0 candidate. This is
Method [7, 8] associates energy content to the cells of carried out by the following algorithm: rstly, par-
a time-frequency representation in order to improve tials are sorted in decreasing order of magnitude; then,
accuracy of the estimates. Thanks to a trigonometric each partial is sequentially assigned to the nearest (in
interpretation of the Derivative Method, an improved a quarter tone vicinity) empty slot of the candidates
estimator was derived in [9]. The new estimator is as harmonic series.
precise for close-to-Nyquist frequencies as the Deriv- As a result of the previous algorithm, the i-th har-
ative is for low frequencies. monic of the n-th candidate is given by
These techniques give better estimates at the ex-
pense of additional STFT computations. Comparative H[n][i] = arg maxn pmag (4)
pi
studies of these techniques with respect to mean error,
variance and bias can be found in [10] and [11]. where p denotes a partial with frequency pfreq and
Amplitude Estimation magnitude pmag . In words, H[n][i] is the partial with
Except by quadratic interpolation and spectral over- greatest magnitude among the set of potential i-th har-
sampling, the aforementioned techniques only esti- monic of the n-th candidate, given by
mate the frequency of partials. Nevertheless, one can
pfreq

obtain precise amplitude estimates of partials by ap- n
i = p : li < < hi (5)
plying analytical knowledge about the window used. icn
Denoting by fk the frequency estimate of the partial where li and hi ensure smaller than quarter-tone devi-
at the k-th bin, whose center frequency is fk , and by ation and, in the case of higher order harmonics, pre-
W the frequency response of the window, the precise vent single partials from being assigned to multiple
amplitude estimate for the partial is given by the for- adjacent harmonics slots. Formally,
mula
ak
a k = (1)

i 1

W fk fk li = max
24
21 ,

(6)

i
Prior to fundamental frequency determination, de-

scribed in the Fundamental Frequency Determina-

24 i + 1

tion section, the magnitude of the partials must be hi = min
2, (7)
i
normalized to absolute decibels. This is accomplished
by the following formula. In short, if the i-th harmonic of the n-th candidate
belongs to the spectrum, it will be assigned to H[n][i].
a kdBnorm = + 20 log10 ak (2) Otherwise, it is agreed that H[n][i]mag = 0.
It is further necessary to quantify the prominence of
The term is set to map the maximum possible am- each candidate according to its harmonic series. This
plitude to 70 dB. It is determined by the window size takes into account psychoacoustic factors, particularly
(in samples), the windowing function and the record- the critical band [12, 2.4 and 3.4]. The functions
ing bit-depth. and dened below are based on the harmonic sum
4 Rectangular-windowed STFT is often misleadingly referred to model [13, 6.3.3]. The psychoacoustic motivation
as unwindowed, instead of unsmoothed, STFT. for these formulas can be found in the same reference.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES SO
SAO
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 115
Formally stating, the prominence of the n-th candi- where H[i] denotes the i-th partial of the harmonic se-
date is given by ries of c , which is, H[i] = H[][i].
def
I(n) The F0 renement might be thought as an weighted

(n) = H[n][i]mag (i) (8) average of local F0 estimates. Local estimates should

i=1 be understood regarding the harmonic indice, i.e., the

local F0 estimate for the i-th harmonic is H[i]freq /n.
I(n) = max j : H[n][ j]mag > 0 (9)

and (i) denotes the fraction of the critical band ADVANTAGES AND DRAWBACKS
which corresponds to the i-th harmonic, given by It is well known that spectral and temporal reso-
lutions are reciprocals and thus detecting F0 as low
1, if i 4

(i) = (10) as f Hz requires a window whose length is at least
(i) (i 1) , otherwise
K f 1 s, where K is independent of f . In the case
n 1 of Fourier spectrum based methods, K is mainly de-

+
(n) = log21/3 n (11) termined by the window [3].

n

On the one hand, all short-time F0 estimators suf-
The fundamental frequency estimation is performed fer from this limitation. On the other hand, while
in three steps, given the prominence of the candidates waveform-based PDAs have their precision deter-
as dened above. The rst step selects those candi- mined (i.e., xed) by the signals sample rate, the pre-
dates with relative prominence of at least [0, 1] cision of F0 estimates produced by spectrum-based
with respect to the maximal prominence: PDAs might be increased by employing longer win-
dows. Notwithstanding, the use of interpolation may
C = cn C : (n) max {(m)} (12) be helpful for methods on either domain.
m|cm C
The precision of the proposed method has the same
For each of these candidates the weighted average har- order of magnitude as that of the sinusoid estimator
monic magnitude is computed as: employed, occasionally surpassing it due to the rene-
I(n)
ment procedure. It must be noted, however, that if spu-
H[n][i]mag (i) rious peaks in the magnitude spectrum are incorrectly

(n) =
i=1
(13) classied as partials and collected to the harmonic se-
I(n)

(i) ries of the winner F0 candidate, the renement stage
i=1 may degrade, instead of enhance, the initial F0 esti-
mate.
Then the one with the highest value of is selected as
F0 , whose index is The method is timbre-independent, being robust to
the following phenomena:
= arg max { (n)} (14)
n:cn C weak or absent fundamental
Fundamental Frequency Renement incomplete series (e.g., only odd harmonics)
The exact value of the estimated F0 was based on
sinusoidal-like sounds
the frequency estimate of a single partial: the strongest
one. However, the F0 estimate may be improved by moderate levels of inharmonicity (as found in
considering frequency estimates of all partials in the acoustic instruments)
harmonic series of the winner candidate. Since partial
estimates are expected to be non-biased, individual er- It must be noted that although inharmonicity is not
rors should cancel each other out by averaging. explicitly modelled, the tolerance of the harmonic se-
The realiability of a partial estimate is aected by its ries collector allows for moderately inharmonic low
signal-to-noise ratio (SNR) and the stability of its ab- order partials.
solute frequency. Therefore strong and small indexed Experiments conducted with severely bandlimited
harmonics should be privileged, since they have the (e.g. telephone-like bandpass ltered) versions of mu-
higher SNR and smallest absolute frequency modula- sical recordings have shown that the method is robust
tions. against bandlimiting. In some sense this is expected,
Taking these facts into account, we propose the fol- since the method is partially derived from a bandwise
lowing formula for further rening the initial funda- multiple-F0 estimator [14].
mental frequency:
IMPLEMENTATION ISSUES
I(n)

H[i]freq /i H [i]mag (i) Proling revealed that the most processing-intense
step of the proposed method is the calculation of the
F0 =
i=1
(15)
I(n) STFT, which can be carried out by the Fast Fourier
H [i]mag (i) Transform algorithm.

i=1
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES SO
SAO
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 116
The memory required by the method, excluding the
estimated F0 (Hz)
STFT, is proportional to |C|, the number of candidates.
It can be seen from Equation 3 that |C| is indirectly de-
440
pendant on the window length, as F0min should never
be lower than Lw 1 . Notwithstanding, the num-
ber of candidates can be safely assumed to be smaller 5 6 7
time (s)
8 9 10
than 200, as in musical sounds it is usually the case

that f < 5 kHz and F0min > 27.5 Hz. Figure 3: Expressive violin performance of an excerpt
Thus, not only the processing, but also the memory from a classical piece.
requirements of the proposed method are dominated
by the STFT.
frame length to a minimum (i.e., about two fundamen-
EXPERIMENTS AND RESULTS tal periods). This accounts for increased time reso-
lution and reduced computational workload. The re-
By the writing of this article, only informal (al- duced number of conguration parameters makes it
though extensive) evaluation was conducted. The re- easier to ne-tune the method. Furthermore, informal
sults were, in general, very encouraging. Figures 2 evaluation suggests that the method is very robust for
and 3 show F0 contours produced by the proposed musical sounds.
method with expressive recordings of acoustic instru-
ments. R EFERENCES
There were two main reasons that retarded formal
evaluation. The rst reason is that there is no stan- [1] Robert J. McAulay and Thomas F. Quatieri.
dardized musical database available for the task of Speech Analysis/Synthesis Based on a Sinu-
PDA evaluation, i.e., one which provides reference F0 soidal Representation. IEEE International
tracks along with the audio recordings. The second Conference on Acoustics, Speech and Signal
reason is that, to the best of authors knowledge, there Processing (ICASSP), 34(4):744754, 1986.
is no tool available for automatic generating statistics [2] Mathieu Lagrange, Sylvain Marchand, Martin
from reference and estimated F0 tracks. Raspaud, and Jean-Bernard Rault. Enhanced
In an eort to remedy the situation, an auto- Partial Tracking Using Linear Prediction. In Pro-
matic PDA evaluation tool was developed and musi- ceedings of the 6th International Conference on
cal monophonic recordings were collected, compris- Digital Audio Eects(DAFx-03), Londres, Reino
ing most acoustic, electric and electronic instruments. Unido, 2003.
In spite of this, manually obtaining reference F0 tracks
for the recordings is a laborious process which could [3] Fredric J. Harris. On the Use of Windows for
not be concluded until the articles submission dead- Harmonic Analysis with the Discrete Fourier
line. Transform. Proceedings of the IEEE, 66(1), Jan-
It must be stressed that formal evaluation will uary 1978.
be carried out. As soon as the work is
done, the recordings, reference F0 tracks, evalu- [4] Albert H. Nuttall. Some Windows with Very
ation tool and results will be made available at Good Sidelobe Behavior. IEEE Transactions
http://www.mitre.com.br/pda. on Acoustics, Speech and Signal Processing,
29(1):8491, February 1981.
440
[5] Thomas Grandke. Interpolation algorithms for
estimated F0 (Hz)
discrete Fourier transforms of weighted signals.

220
IEEE Transactions on Instrumentation and Mea-
surments, 32(2):350355, June 1983. 1983.
110
1 2 3 4 5 6 7
time (s) [6] Myriam Desainte-Catherine and Sylvain Marc-
hand. High Precision Fourier Analysis of
Figure 2: Expressive saxophone performance of the Sounds Using Signal Derivatives. Journal of
initial notes of a jazz standard. the Audio Engineering Society, 48(7/8):654
667, July/August 2000.
CONCLUSION [7] Kunihiko Kodera, Roger Gendrin, and Claude

de Villedary. Analysis of time-varying sig-
A new algorithm was proposed for monophonic F0 nals with small BT values. IEEE Transactions
estimation. The method benets from state-of-the- on Acoustics, Speech and Signal Processing,
art partial estimators to reduce the required analysis 26(1):6476, February 1978.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES SO
SAO
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 117
[8] Franccois Auger and Patrick Flandrin. Im-

proving the readability of time-frequency and
time-scale representations by the reassignment
method. IEEE Transactions on Signal Process-
ing, 43(5):10681089, May 1995.
[9] Mathieu Lagrange, Sylvain Marchand, and Jean-

Bernard Rault. Improving sinusoidal frequency
estimation using a trigonometric approach. In
Proceedings of the 8th International Conference
on Digital Audio Eects (DAFx-05), Madrid,
Spain, September 20-22 2005.
[10] Florian Keiler and Sylvain Marchand. Survey On

Extraction of Sinusoids in Stationary Sounds. In
Proceedings of the 5th International Conference
on Digital Audio Eects (DAFx-02), Hamburg,
Germany, September 2002.
[11] Stephen Hainsworth and Malcolm Macleod. On

Sinusoidal Parameter Estimation. In Proceed-
ings of the 6th International Conference on Dig-
ital Audio Eects (DAFx-03), London, United
Kingdom, September 2003.
[12] Juan G. Roederer. The Physics and Psy-

chophysics of Music: An Introduction. Springer-
Verlag Telos, 3rd edition, 1995.
[13] Anssi Klapuri. Signal Processing Methods for

the Automatic Transcription of Music. PhD the-
sis, Tampere University of Technology, March
2004.
[14] Anssi P. Klapuri. Multiple Fundamental Fre-

quency Estimation Based on Harmonicity and
Spectral Smoothness. IEEE Transactions on
Speech and Audio Processing, 11(6):804816,
November 2003.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
AES SO
SAO
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 118
_________________________________
Artigo de Congresso
_________________________________
Automatic Genre Classification of Musical Signals
Jayme Garcia Arnal Barbedo1, Amauri Lopes1
1
Department of Communications FEEC Unicamp
Campinas, So Paulo, C.P. 6101, Brazil
jgab@decom.fee.unicamp.br , amauri@decom.fee.unicamp.br
ABSTRACT
This paper presents a strategy to perform automatic genre classification of musical signals. The technique
divides the signals into 21.3 ms frames, from which 7 features are extracted. The frames are grouped into 1 s
analysis segments. Some statistical results of the features along each analysis segment are used to calculate a
vector of parameters. An extensive comparison is carried out between such segment vectors and some reference
vectors. The procedure points out the genre that best fits the characteristics of each segment. The final
classification of the signal is given by the genre that appears more times along all signal segments.
There are not many previous works that specifically deal

1. INTRODUCTION with musical genre classification in the literature. The most
The advances in information, communication and media significant proposal to specifically deal with this task was
technologies experienced in the last decades have made [1], and some other works followed its paths [2, 3]. Several
available a large amount of all kinds of data. This is strategies dealing with related problems have been
particularly true for music, whose databases have grown proposed in research areas such as speech/music
exponentially since the advent of the first perceptual coders discriminators [4-7] and classification of a variety of
early in the 90s. This situation demands tools able to ease sounds [8, 9].
searching, retrieving and handling such huge amount of The strategy presented here divides the audio signals
data. Among such tools, automatic musical genre into 21.3 ms frames from which the following 7 features
classifiers (AGC) can have a particularly important role, are extracted: zero-crossing rate (ZCR), spectral centroid,
since they could be able to automatically index and retrieve bandwidth, spectral roll-off, spectral flux, loudness and
audio data in a human-independent way. This is very fundamental frequency. The frames are grouped into 1 s
useful because a large portion of the metadata used to analysis segments, and the results of each feature along
describe music content is inconsistent or incomplete. each analysis segment are used to calculate three
Audio search and retrieval is the most important parameters: mean, variance, and a third parameter called
application of AGC, but is not the only one. There are prevalence of the main peak. Therefore, a 21-element
several other technologies that can benefit from AGC. For vector, from now on called test vector, will be associated
example, it would be possible to create an automatic to each segment. In the next step, the test vectors are
equalizer able to choose which frequency bands should be compared to a set of reference vectors that characterize
attenuated or reinforced according to the label assigned to each one of the 13 musical genres here considered. The
the signal being considered. AGC could also be used to comparison procedure consists in calculating the Euclidean
automatically select radio stations playing a particular distance between test and reference vectors, and is carried
genre of music. out in a pair-of-genres basis, meaning that each test vector
BARBEDO AND LOPES AUTOM. GENRE CLAS. MUSICAL SIGN.
is always tested against the reference vectors of only two 3. TAXONOMY

musical genres at a time. For each pair of genres, the label
of the reference vector that is closer to the test vector is Figure 1 shows the structure of the taxonomy adopted in
taken as winner genre for that specific segment and pair of the present work.
genres. After all possible combinations of pairs have been As can be seen in Figure 1, there is a maximum of 4
considered, the genre that has won more times is taken as hierarchical layers and a total of 13 musical genres in the
the preliminary label for that segment. The procedure is lowest layer. The description of each box is presented next.
repeated for all segments. The final classification of the Such taxonomy was created aiming to include as many
signal is given by the genre that has been taken as genres as possible, improving the generality of the method,
preliminary label for the greatest number of segments. but keeping at the same time the consistency of the
taxonomy, as commented in Section 2. It is also important
to highlight that as many genres are considered, the more
2. DISCUSSIONS ON GENRE LABELING difficult is to perform a correct classification. Therefore,
under this point-of-view the strategy proposed here faces
Besides the inherent complexity involved in harder conditions than previous ones.
differentiating and classifying musical signals, the AGC
From this point to the end of the paper, all musical
have to face other difficulties that make this a very tricky
classes of the lowest hierarchical level in Figure 1 are
area of research. In order to work properly, an AGC
called genres, while the divisions of higher levels are
technique must be trained to classify the signals according
called upper classes or simply classes.
to a predefined set of genres. However, there are two major
problems involved in such predefinition, which will be
discussed next. 3.1. Classical
Firstly, the definition of most musical genres is very The songs of this class have the predominance of
subjective, meaning that the boundaries of each genre are classical instruments like violins, cello, piano, flute, etc.
mostly based on individual points-of-view. As a result, This class is divided into two genres:
each musical genre can have its boundaries shifted from - instrumental: songs of this genre have no vocal elements;
person to person. The degree of arbitrariness and
inconsistency of music classification into genres can be - opera/chorus: this genre includes opera and classical
found in [10], where the authors compared three different songs where the orchestra is accompanied by a chorus.
Internet genre taxonomies: allmusic.com, amazon.com and
mp3.com. The authors drawn three major conclusions: 3.2. Pop/Rock
- there is no agreement concerning the name of the genres This is the largest class of songs. The first division of
only 70 words are common to all three taxonomies; this class is based in the presence or not of electronic
- among the common words, not even largely used names, elements, which are normally generated by synthesizers:
as Rock and Pop, denote the same set of songs. - if there is a predominance of electronic elements, the
- the three taxonomies have different hierarchical signals are classified as electronic;
structures. - if there are no electronic elements, or such elements are
As pointed out in [11], if even major taxonomic very mild, the signals are classified as organic.
structures present so many inconsistencies among them, it The subclass electronic is divided into the genres
is not possible to expect any degree of semantic pop and techno. Techno songs have a faster and more
interoperability among different genre taxonomies. Despite repetitive beating than pop songs.
such difficulties, there have been efforts to develop
The subclass organic is still split one more time before
carefully designed taxonomies [10, 11]. However, no
unified framework has been adopted yet. reaching the lowest level:
To deal with such difficulty, the taxonomy adopted in - Songs classified as rock have a predominance of
this work was designed using genres and nomenclatures electrical guitars and drums. The final division of this class
that are largely used by most reference taxonomies (like into genres is performed taking into account the rhythm
the three ones cited before), and therefore are most likely and intensity of the song. Songs classified as soft rock
to be readily identified by most users. This procedure are slow and soft; songs classified as hard rock have a
reduces the inconsistencies and tends to improve the more marked beating, stronger presence of drums and a
precision of the method, as will be seen in Section 5. faster rhythm; finally, songs classified as heavy metal are
However, it is important to emphasize that some degree of noisy, fast, and often have very aggressive vocals.
inconsistency will always exist due to the subjectiveness - Songs classified as country are quite related to rock.
involved in classifying music, situation that limits the As in the case of rock, electrical guitars play an important
reachable accuracy. role, but they have a particular sonority that is common in
The second major problem is the fact that a large part of folk songs typical of southern United States. The final
modern songs have elements from more than one musical division of this class into soft country or dancing
genre. For example, there are some jazz styles that country is performed according to the rhythm, which is
incorporate elements of other genres, as Fusion (jazz + slow in the first case and fast in the second one.
rock); there are also recent reggae songs that have strong
elements of rap; as a last example, there are several rock 3.3. Beating
songs that incorporate electronic elements generated by
The songs that compose this third and last musical class
synthesizers. To deal with this problem, the strategy used
have strong percussive elements and a very marked
in this work is to divide basic genres into a number of
beating. The first division of this class is as follows:
subgenres able to embrace such intermediate classes, as
will be described in the next Section.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 120
MUSIC
Classical Pop/Rock Beating
Instrumental Opera/Chorus Organic Electronic Vocal Percussive
Rock Country Pop Techno Rap Reggae Jazz Latin
Soft Hard Heavy Soft Danc.

Rock Rock Metal Country Country
Figure 1 - Musical Genre Taxonomy.
- if the vocal elements are strong and dominate the song, where |X(k)| is the magnitude of spectral line k resulting
the signal is classified as vocal; from a Discrete Fourier Transform with 1,024 samples
- if the percussive elements dominate the perception, the applied to the frame i and K is half the number of spectral
song is classified as percussive. lines.
The vocal class is further divided into two genres: rap,
whose songs have really marked vocals, sometimes looking 4.3. Loudness
like actual speech, and reggae, the typical music of Jamaica. The first step to calculate this feature is modeling the
Some recent reggae songs are quite related to rap, situation frequency response of human outer and middle ears. Such
that can cause some difficulties to differentiate such genres. response is given by [12]
Finally, the percussive class is divided into two genres:
W k 0.6 3.64 f k 10 f k , (3)
0.6 f k 3.3
2
0.8 3 3.6
6.5 e
- Jazz, which are songs dominated by piano and
saxophone. Electric guitars and drums can also be present, where f(k) is the frequency in kHz given by
especially in modern tendencies of jazz like Fusion; vocals,
f k k d , (4)
when present, are very characteristic and peculiar.
- Latin, which is composed by Latin rhythms like salsa, and d is the difference in kHz between two consecutive
mambo, samba and rumba; the songs of this genre have a spectral lines (in this work, 46.875). The frequency
very dancing and percussive rhythms, with strong presence response is used as a weighting function that emphasizes or
of instruments of percussion and, sometimes, guitars. attenuates spectral components according to the hearing
behavior. The loudness of a frame is calculated according to
K W k
X k
2
4. FEATURE EXTRACTION ld i i
10 20
. (5)
k 1
Before the feature extraction, the signal is divided into
frames using a Hamming window of 21.3 ms, with 50 %
superposition. The signals used in this work are sampled at 4.4. Spectral Centroid
48 kHz, resulting in frames of 1,024 samples. The extraction This feature represents the mass center of the spectral
of the features is performed individually for each frame. energy distribution of the signals, and is given by
The description of each feature is presented in the following. K
k X k
2
i
4.1. Zero-Crossing Rate
eci k 1
K
. (6)
A zero crossing occurs whenever the amplitudes of two
X k
2
consecutive signal samples have opposed signs. The ZCR i

k 1
for a given frame is given by
The spectral centroid is given in terms of spectral lines.
N
To obtain the value in Hz, ce must be multiplied by d.
zcri 0.5 sgn > x n @ sgn > x n 1@ ,
i i
(1)
n 1
where xi(n) represents the samples of ith frame and 4.5. Bandwidth
sgn[xi(n)] is 1 or +1 as xi(n) is negative or positive This feature determines the frequency bandwidth of the
respectively. signal, and is given by
K
4.2. Spectral Roll-Off ce k Xi k
2 2
i
This feature determines the frequency Ri for which the bwi k 1
. (7)
sum of the spectral line magnitudes is equal to 95% of the K
X k
2
total sum of magnitudes, as expressed by i

k 1
Ri K
X k i
0.95 X k ,
i
(2) Equation 7 gives the bandwidth in terms of spectral
lines. To get the value in Hz, lb must be multiplied by d.
k 1 k 1
TH
AES 110 CONVENTION, AMSTERDAM, NETHERLANDS, 2001 MAY 12-15 3
4.6. Spectral Flux remaining peak, whose inverse provides the corresponding
This feature is defined as the quadratic difference fundamental frequency. The estimated frequencies are then
between the logarithms of the magnitude spectra of converted to the MIDI scale, according to the procedure
consecutive analysis frames and is given by described in [1] and given by
K
f
^log > X k @ log > X k @` m 12 log 2 69 , (10)
2
fei . (8)
k 1
10 i 10 i 1
440
The purpose of this feature is to determine how fast the where f is the frequency in Hz and m is the MIDI number.
signal spectrum changes along the frames.
4.7. Fundamental Frequency 5. CLASSIFICATION STRATEGY

This feature is based on the concept of multiple The features extracted for each frame are grouped into
fundamental frequency detection. Since most audio signals analysis segments corresponding to 1 s of the signal.
are polyphonic (several sound sources), some kind of Therefore, each group will have 92 elements, from which
processing must be applied in order to accurately detect three parameters are extracted: mean, variance and main
multiple fundamental frequencies. Most of the strategy peak prevalence. This last parameter is calculated
described in the following is inspired in the multipitch according to
analysis model presented in [13], as illustrated in Figure 2.
max > ft i , j @
As can be seen, the input (signal frames) is divided into p ft j , (11)
1 I
two bands by a filtering process. The high frequency
portion of the input is obtained blocking frequencies below I
ft i , j
i 1
1 kHz, while a 70-1000 Hz passband filter determines the
low frequency portion. The high frequency portion
where ft(i,j) corresponds to the value of feature ft in the
is then submitted to a half-wave rectification. After that, it
frame i of segment j, and I is the number of frames into a
is also submitted to a 1 kHz lowpass filtering.
segment. This parameter aims to infer the behavior of
extreme peaks with relation to the mean values of the
The periodicity detection, which results in x2 in Figure 2, feature. High pft indicate the presence of sharp and
is given by dominant peaks, while small pft often means a smooth
x2
IDFT DFT xlow DFT xhigh
c c
, (9) behavior of the feature and no presence of high peaks.
As a result of this procedure, each segment will lead to
where DFT and IDFT represent the Discrete Fourier 12 parameters, which are arranged into a test vector to be
Transform and its inverse, respectively, and k is the compared to a set of reference vectors. The determination
compression factor to be used. The value of k is usually 2, of the reference vectors is described next.
which makes Equation (2) equivalent to the conventional
calculation of the autocorrelation. In the present work, k 5.1. Determination of Reference Vectors
was set to 1 after an optimization process.
The reference vectors were determined according to the
The peaks of the autocorrelation given by x2 are good following steps:
indicators of potential fundamental frequencies present in
the signal. However, since the signals are polyphonic and a) Firstly, 80 signals with a length of 32 s were carefully
often very complex, x2 shows lots of spurious information selected to represent each one of the 13 genres adopted in
that can lead to wrong estimations. To reduce the amount this work, resulting in a training set with 1,040 signals. The
of unwanted information, a peak pruning technique is signals were selected according to the subjective attributes
applied. Firstly, a half-wave rectification is applied to clip expected for each genre, and were taken from the database
negative values of x2. The resulting function is time scaled described in Section 6.
(expanded in time) by a factor of two and subtracted from b) Next, the parameter extraction procedure was applied
the clipped autocorrelation function. This procedure tends to each one of the training signals. Since such signals have
to eliminate all peaks whose time lags are twice the time 32 s, 32 vectors of 12 parameters were generated for each
lag of a stronger reference peak. It also removes near zero signal, or 2,560 vectors representing each genre.
values of the autocorrelation. The procedure can be c) A comparison procedure was carried out taking two
repeated for other multiples of each reference peak. In this genres at a time. For example, the training vectors
work, all peaks with twice and three times the time lag of corresponding to the genres pop and rap were used to
the reference peaks are eliminated. determine the 6 reference vectors (3 for each genre) that
The last step determines the time lag of the main resulted in the best separation between such genres. Such
reference vectors were chosen as follows. Firstly, a huge
xhigh
Highpass Half-wave rect.
at 1 kHz Lowpass filt. DFT J
input x2
output
+
Autocorrelation
IDFT
Enhancer
xlow
Lowpass Highpass
at 1 kHz DFT J
at 70 Hz
Figure 2 - Multipitch analysis scheme.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 122
set of potential reference vectors was determined for each and 92. If such segment has less than 0.5 s, its frames are
genre, considering factors as the mean of the training incorporated to the previous segment, which will then have
vectors and the range expected for the values of each between 92 and 138 frames.
parameter, discarding vectors that are distant from the
cluster. After that, for a given pair of genres, all possible Reference Vectors Winner
A A A B B B Genre B
six-vector combinations extracted from both sets of
A A A C C C Genre A
potential vectors were considered, taking into account that A A A D D D Genre A
Summary for
Segment 1
each set must contribute with three vectors. For each A A A E E E Genre E
Genre A 2 wins
combination, an Euclidean distance was calculated B B B C C C Genre B Genre B 4 wins
Segment 1
between each potential vector and all training vectors from B B B D D D Genre B Genre C 1 win
Genre D 0 win
(A)
both genres. After that, each training vector was labeled B B B E E E Genre B Genre E 3 wins
C C C D D D Genre C Winner Genre B
with the genre corresponding to the closest potential
C C C E E E Genre E
vector. The combination of potential vectors that resulted D D D E E E Genre E (D)
in the highest classification accuracy was taken as the (B) (C)
actual set of reference vectors for that pair of genres.
10 s Signal
d) The procedure described in item c was repeated for all Genre B Genre B Genre E Genre E Genre B Genre B Genre B Genre A Genre B Genre B
possible pairs of genres (78 pairs for 13 genres). As a (E)
result, each genre has 12 sets of 3 reference vectors, Genre A 1 wins
resulting from the comparison with the other 12 genres. Genre B 7 wins Final Signal
Genre C 0 win Classification:
The number of reference vectors was fixed at 3 because Summary for
10 s Signal Genre D 0 win
this is the best compromise between accuracy and Genre E 2 wins
Winner Genre B
Genre B
robustness. If less than 3 vectors were used, the set would (F) (G)
not be general enough to represent the respective genre; on
the other hand, if more than 3 vectors were adopted, the Figure 3 - Classification Procedure.
reference set would adapt too much to the set of training
signals, losing robustness. The classification is carried out directly in the lowest
This pair-of-genres based comparison provides much levels of the structure shown in Figure 1. This means that a
better differentiation between the genres than using a signal is firstly classified according to the basic genres, and
single comparison considering all genres at a time. This is the upper classes are classified accordingly (bottom-up
so because particular differences between the genres are approach). This strategy was adopted because it was
much more stressed and explored in this way. observed that as lower is the hierarchical layer in which the
signal is directly classified the more precise is the
5.2. Test Procedure classification of the signal into upper classes. In tests with
a top-down approach, where the signals were classified
Figure 3 illustrates the final classification procedure of a
layer by layer, starting with the topmost, the accuracy
signal. The figure was constructed considering a
achieved was between 3 % and 5 % lower than that one
hypothetical division into 5 genres (A, B, C, D and E) and
a signal of 10 s, in order to simplify the illustrations. achieved using the bottom-up approach.
Nevertheless, all observations and conclusions are valid for Next section presents the results achieved by the
the 13 genres and 32 s signals actually considered in this proposal.
work. As can be seen in Figure 3, the procedure begins
with the extraction of the parameter vector from the first
segment of the signal (Figure 3A). Such vector is 6. TESTS AND RESULTS
compared with the reference vectors corresponding to each The database used in this work is composed by 2,103
pair of genres, and the smallest Euclidean distance
music excerpts, which represent more than 20 hours of
indicates the closest reference vector in each case (gray
audio data (13.5 GB). The signals were sampled at 48 kHz
squares in Figure 3B). The labels of such vectors are taken
and quantized with 16 bits. The audio material was
as the winner genres for each pair of genres (C). In the
extracted from Compact Discs, from Internet radio
following, the number of wins of each genre is
streaming and also from coded files (mp3, wma, ogg, aac).
summarized, and the genre with most victories is taken as
the winner genre for that segment (D); if there is a draw, The music database was divided into a training set of 1,039
the segment is labeled as inconclusive. The procedure is files, which was used to determine the reference vectors
repeated for all segments of the signal (E). The genre with described in Section 5, and into a test set, which was used
more wins along all segments of the signal is taken as the to validate the technique.
winner (F); if there is a draw, the summaries of all Figure 5 shows the confusion matrix associated to the
segments are summed and the genre with more wins is tests. First column shows the target genres, and first row
taken as winner. If a new draw occurs, all procedures shows the genres actually estimated by the technique.
illustrated in Figure 4 are repeated considering only the Taking the first line as example, it can be seen that, from
reference vectors of the drawn genres; all other genres are the 98 actual classical songs, 88 were correctly classified, 6
temporarily ignored. The probability of a new draw is very were classified as opera, and 4 were classified as jazz.
close to zero, but if it occurs, one of the drawn genres is The main diagonal in Figure 4 shows the correct
taken at random as winner. Finally, the winner genre is estimates, and all values outside the main diagonal are
adopted as the definitive classification of the signal (G). errors. Also, as darker is the shading of an area, the lower
Normally, the last segment of a signal will have less than is the hierarchical layer. As can be seen, most of errors are
one second. In such cases, if the segment has more than 0.5 concentrated inside a same class. Considering each layer
s, it is considered and the parameters are calculated using separately, the accuracy was: 85.1 % for the 1st layer,
the number of frames available, which will be between 46 77.4% for the 2nd layer, 61 % for the 3rd layer and 58 % for
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 123
the 4th layer. Considering only the bottom genres, the ones observed in subjective tests with human listeners.
accuracy achieved was 63.7 %. Although the good results achieved by the proposed
techniques, further improvement is still possible. The first
CL OP RO RS HM CO CD PO TE RA RE JA LA and more obvious direction for new research is the
CL 88 6 0 0 0 0 0 0 0 0 0 4 0 development of new features able to extract more useful
OP 11 50 0 0 0 0 0 0 0 0 0 5 0
RO 0 0 58 5 14 0 2 4 4 0 1 0 3 information from the signals. Such new features could be
RS 1 0 6 50 0 5 1 7 0 1 2 2 3 based on psychoacoustic properties of human hearing,
HM 0 0 13 3 56 0 1 3 1 0 0 0 0 improving the correlation with the actual human
CO 1 0 3 8 0 30 10 0 0 0 0 2 7 perceptions. Another direction for future research is
CD 1 0 7 8 1 3 20 4 0 0 1 5 12
expanding the number of genres and the number of
PO 0 0 7 4 1 0 0 59 11 3 7 3 4
TE 0 0 3 0 3 0 0 14 53 6 7 0 3 hierarchical levels, since it is expected that as deeper is the
RA 0 0 0 0 0 0 0 3 4 58 15 0 2 hierarchical structure, the more accurate is the
RE 0 0 0 5 0 1 0 5 1 5 55 1 9 classification of upper classes. Another interesting line of
JA 1 5 2 6 0 7 2 5 0 0 3 50 7 research is the extraction of features directly from the
LA 0 1 3 7 0 4 3 10 1 3 7 5 57
compressed domain of songs submitted to perceptual
Figure 4 - Confusion matrix
coders like MP3, WMA and Ogg-Vorbis.
As expected, the accuracy is higher for upper classes.
The accuracy achieved for the first layer is above 85%, Acknowledgements
which is an outstanding result. The accuracy of 63.7 % for Special thanks are extended to FAPESP for supporting
the basic genres is also excellent, especially considering this work under grant 04/08281-0.
that the signals were classified into 13 genres, which is
more than any other previous work.
References
A direct comparison with previous techniques is very
difficult, because the databases used in each case are [1] G. Tzanetakis and P. Cook, Musical Genre
different. However, some conclusions can be drawn. Most Classification of Audio Signals. IEEE Trans. on
of previous works have achieved an accuracy of about 60 Speech and Audio Processing, 10(5): 293-302, 2002.
%, but using simple taxonomies. Taking specifically the [2] G. Agostini, M. Longari and E. Pollastri, Musical
results obtained in [1], the accuracy achieved was 61 % for Instrument Timbres Classification with Spectral
a division into 10 genres. This indicates that the technique Features. EURASIP Journal on Applied Signal
here proposed is, in terms of accuracy, at least at the same Processing, 2003(1): 5-14, 2003.
level of the best previous proposals. [3] D. Pye, Content-based methods for the management
of digital music. In Proc. of ICASSP, Istanbul, pp.
Another aspect that must be considered is the
2437-2440, 2000.
performance of the technique when compared to a
subjective classification. As discussed in Section 2, [4] J. Saunders, Real-Time Discrimination of Broadcast
classifying musical signals in genres is a naturally fuzzy Speech/Music, In Proc. of ICASSP, Atlanta, pp. 993-
and tricky task, even when subjectively performed. The 996, 1996.
performance of humans in classifying musical signals into [5] L. Lu, H. -J. Zhang and H. Jiang, Content Analysis for
genres was investigated in [11]. In such research, it was Audio Classification and Segmentation. IEEE Trans.
asked for college students to classify musical signals into on Speech and Audio Proc., 10(7): 504-516, 2002.
one of 10 different genres. The subjects where previously [6] E. Scheirer and M. Slaney, Construction and
trained with representative samples of each genre. The Evaluation of a Robust Multifeature Speech/Music
students were able to correct judge 70 % of the signals. Discriminator. In Proc. of ICASSP, Munich, pages
Despite a direct comparison is not possible due to 1331-1334, 1997.
differences in the taxonomy and databases, it can be [7] M. J. Carey, E. S. Parris and H. Lloyd-Thomas, A
concluded that the technique here proposed has achieved a Comparison of Features for Speech/Music
performance very close to that obtained in the subjective Discrimination. In Proc. of ICASSP, Phoenix, pages
tests, even with 3 more genres to consider. 149-152, 1999.
Under the point-of-view of computational effort, the [8] E. Wold, T. Blum, D. Keislar, J. Wheaton, Content-
strategy has also achieved good results. The program, Based Classification, Search, and Retrieval of Audio.
running in a personal computer with an AMD Athlon IEEE MultiMedia, 3(3): 27-36, 1996.
2000+ processor, 512 MB of RAM and Windows XP OS, [9] T. Zhang, C.-C. J. Kuo, Audio Content Analysis for
has taken a little more than 20 s to process an audio file of Online Audiovisual Data Segmentation and
32 s. This performance indicates that the procedure can be Classification. IEEE Trans. on Speech and Audio
suitably used in real-time applications. Processing, 3(4): 441-457, 2001.
[10] F. Pachet, D. Casaly, A Taxonomy of Musical Genres.
In Proc. of Content-Based Multimedia Information
7. CONCLUSIONS AND FUTURE WORK Access (RIAO), Paris, 2000.
[11] J.-J. Aucouturier and F. Pachet, Representing Musical
This paper presented a new strategy to classify music Genre: A State of the Art. Journal of New Music
signals into genres. The technique uses 7 features, sets of Research, 32(1): 83-93, 2003.
reference vectors and a pair-of-genres based analysis to [12] T. V. Thiede, Perceptual Audio Quality Assessment
infer the classification of the signals. Using a Non-Linear Filter Bank. PhD Thesis,
The hierarchical approach has resulted in excellent Technical University of Berlin, 1999.
performance in terms of accuracy, even when lower layers [13] T. Tolonen and M. Karjalainen, A Computationally
are considered. The results are comparable to the best Efficient Multipitch Analysis Model. IEEE Trans. on
techniques previously developed, and are very close to that Speech and Audio Processing, 8(6): 708-716, 2000.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 124

Sinal de udio de Piano
1

Amplitude

1

Funo de Deteco Bello(2003)
1

Magnitude

0
100 300
Tempo(ms)

4 CONGRESSO / 10
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006

126

4 CONGRESSO / 10

127

4 CONGRESSO / 10

128

4 CONGRESSO / 10

129

4 CONGRESSO / 10

130
ndice de Autores
Author Index
Abranches, L. K. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Arajo, B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Barbedo, J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Barros, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Belderrain, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Biscainho, L. W. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31, 47, 108
Bistafa, S. R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13, 25
Calba, L. P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Capasso, C. A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Carvalho, F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Chiovato, A. G. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Costa, C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Diniz, P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Faria, R. R. A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72, 113
Figueiredo, F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Fornari, J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Fraga, F. J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Freeland, F. P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Goldemberg, R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Iazzetta, F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Jesus, R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Lopes, A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Maia Jr. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Manzolli, J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85, 91, 97
Micheli, L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Mitre, A. B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Moret, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Moscati, S. R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Nagaraj, V. S. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Noceti Filho, S. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Nunes, L. ........................................... 47
Oliveira, L. C. ...................................... 91
Palazzo, T. ...................................... 25
Passeri, L. ........................................... 13
Petraglia, M. ..................................... 19
Pinhal, P. ........................................... 13
Queiroz, M. G. ...................................... 113
Querido, J.G. ...................................... 78
Schwedersky, C. ...................................... 53
She, K. ........................................... 43
Shu-zhen, C. ...................................... 43
Silva, H. ........................................... 13
Silva, J. P. ........................................... 125
Szczupak, A. ...................................... 108
Tenenbaum, R. A ...................................... 19
Thomaz, L. ...................................... 72
Torres, J. ........................................... 19
Tygel, A. F. ........................................... 47
Vanaja, C. S. ........................................... 103
Von Zuben, F. J. ...................................... 85
Zuffo, J. A. ........................................... 72
Zuffo, M. K. ........................................... 72

Audio Engineering Society - Seo Brasil
Patrocinadores:
Digidesign Ciclotron
Staner Libor
FZ Audio Selenium
Expositores:
Ass. Brasileira dos Profissionais de udio JPF Ind. e Com. de Comp. Eletrnicos Ltda
Acoustic Caixas Profissionais Ltda MM-Rio Acessrios Musicais Ltda
Clnica Audiolgica Audicare LTDA Oversound Ind. e Com. Eletro Acstico Ltda
H. Sheldon Servios de Marketing Ltda Pride Music Com. Imp. Distr. Ltda
Spectral Balance Pro Audio Lighting Ferreira & Bento do Brasil Ltda
Ciclotron Ind. Eletrnica Ltda Quanta Brasil Imp. e Exp. Ltda
CIS Group Corporation Editora Msica e Tecnologia
Decomac Brasil Ltda Roland Brasil Imp. Exp. Com. Rep. e Servios Ltda
Digidesign Royal Instrumentos Musicais Ltda
Feeling Estruturas Metlicas Ind. e Com. Ltda Sabra Som Comercial Ltda
Empresa Folha da Manh S/A Eletrnica Selenium S/A
FZ Indstria e Comrcio Ltda Sennheiser
HMP Marketing Editorial Ltda SLM Sound Ligth M. Com. Ltda
Hotsound Ind. e Com. Equipos. Eletrnicos Ltda Ookpik Amplicadores e Instrumentos Musicais
IATEC - Inst. de Artes e Tcnicas em Comunicao Staner Eletrnica Ltda
Instituto de udio & Vdeo Studio R Eletrnica Ltda
VD Ribeiro Epp Taw Equipamentos de Sonorizao Ltda
Leson Lab. de Engenharia Snica Ltda Clever Luz e Som Comercial Ltda
Libor Comrcio e Importao Ltda Yamaha Musical do Brasil Ltda
LJM Indstria e Comrcio Ltda

Anais Aesbr 2006

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Anais Aesbr 2006

Transféré par

Droits d'auteur :

Formats disponibles

Coordenador do Congresso / Conference Chair

Regis Rossi Alves Faria

Coordenador da Conveno / Convention Chair

Editado por / Edited by

Coordenador do Congresso e Leandro Ferrari Thomaz

Maria Francesca Neglia

Coordenador Editorial: Marcelo K. Zuffo (LSI-EPUSP)

Agradecimentos: Thereza Leonard (AES Past President)

Eduardo R. Miranda (Univ. Plymouth, UK) Luiz Wagner P. Biscainho

Fbio Kon (IME-USP) Sidnei Noceti Filho

Fernando Iazzetta (ECA-USP) Silvia Regina Saran Della Torre

Francisco J. Fraga (LSI-EPUSP)

Joo Antnio Zuffo (LSI-EPUSP) Editorao e arte: Totum Marketing e Comunicao

Joo Benedito dos Santos Junior (PUC-MG)

Jnatas Manzolli (IA-UNICAMP)

Luiz Wagner Pereira Biscainho (EP-UFRJ)

Marcelo Gomes Queiroz (IME-USP) Realizao / Promoo:

Maurcio Loureiro (EM-UFMG)

Miguel Arjona Ramirez (EPUSP) Organizao:

Paulo Esquef (FPF-AM)

Phillip Burt (EPUSP)

Regis Rossi Alves Faria (LSI-EPUSP)

Rubem Dutra R. Fagundes (PUC-RS) Apoio:

Sidnei Noceti Filho (EEL-UFSC)

Sylvio R. Bistafa (EP&FAU-USP)

* Anais em CD-Rom: ISBN 85-99997-01-7 (Anais em CD-Rom)

Audio Engineering Society, Inc.

Prefcio dos Organizadores / Organization Greetings .......... ..... 7

Sesses de Artigos / Papers Sessions

Sesso 1 - Sonorizao Espacial, Som 3D, Acstica de Salas e Ambientes I

1. Anlise comparativa dos resultados dos parmetros objetivos de avaliao

2. Sistema eficiente para auralizao utilizando agrupamento e

3. Avaliao objetiva de parmetros sonoros em salas: diagnstico

4. Avaliao de mtodos para gerao de som 3D

5. Comparison of speech enhancement / Recognition methods based

6. A visual sound description for speech corporas manual phonemic

7. Equalizador grfico digital de alta seletividade em VST

8. Aplicao em udio da aproximao mnimo erro mdio quadrtico

9. O mtodo FCC de correo para amplificadores chaveados

Sesso 3 - Sonorizao Espacial, Som 3D, Acstica de Salas e Ambientes II

10. Parmetros acsticos em salas de msica: anlise de resultados e

11. Experimentaes de espacializao orquestral sobre a arquitetura

12. Descrio, Reaes e Propostas de Mitigao dos Impactos na

13. A Real-Time Texture Synthesizer based on Real-World Sound

14. Uma Reviso Bibliogrfica da Sntese Musical Por Modelagem

15. Sintetizador Evolutivo de Segmentos Sonoros

Sesso 5 - Psicoacstica, Percepo Auditiva, Anlise e Audio Automtica

16. Dead Regions and Speech Perception in Subjects with Auditory

17. Identificao de Notas Musicais de Violo Utilizando Redes Neurais

18. An efficient and very accurate fundamental frequency estimator

19. Automatic Genre Classification of Musical Signals

20. Fourier e Wavelets na Transcrio Musical Sinal de Audio

ndice de Autores / Author Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

O Congresso ocupa um espao especial em nosso encontro pois representa

Os verdadeiros heris de um Congresso so o Coordenador do Programa

Os trabalhos vo desde o terico at aplicaes que j encontram-se

Tenho a certeza de que o conhecimento aqui compartilhado ser de muita

4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 

Este ano fizemos um esforo considervel para aumentar os nmeros do

Juntamente com a conveno nacional da AES Brasil, os congressistas ainda

So Paulo uma metrpole plena de diversidade cultural e gastronmica, e a

Regis Rossi A. Faria

4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 

4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 

4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006

4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006

4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006