Vous êtes sur la page 1sur 127

|AFTHA CAFFEF CFUZ CA8FEL

INTEPFACES 0E VDZ Eh
AhIENTES HIPEPhI0IATICDS








0Issertao apresentada Area de Concentrao:
Artes PlstIcas da Escola de ComunIcao e Artes
da UnIversIdade de So Paulo, como exIgncIa
parcIal para obteno do Titulo de |estre em
Artes, sob a orIentao da Profa. 0ra. SIlvIa
LaurentIz.


So PauIo
2006
2 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos J
anca ExamInadora













______________________________


______________________________


______________________________


4 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 5












Pesumo










Esta pesquIsa pretende refletIr conceItualmente sobre uma Interface especifIca:
Interface de voz e seu potencIal de crIar novas possIbIlIdades InteratIvas e artistIcas em
ambIentes hIpermIdItIcos. D sonho humano de conversar com computadores exIste h
muIto tempo no campo da fIco cIentifIca, no entanto est se tornando realIdade como
opo amplamente acessivel e dIsponivel em redes computacIonaIs globaIs atravs da
nternet apenas a partIr do InicIo do sculo XX. Novos modos de Interao trazem
consIgo novas possIbIlIdades, tanto quanto novos desafIos. D foco deste trabalho est no
contexto atual das Interfaces de voz, e nas oportunIdades e desafIos emergentes do seu
uso. D escopo compreende tambm uma pesquIsa sobre obras e projetos InteratIvos de
arte que usam de algum modo tecnologIas de voz - sintese ou reconhecImento de
voz/fala em algum grau durante a Interao. parte Integrante tambm deste
trabalho, o desenvolvImento de uma experImentao artistIca na Web com Interface de
voz IntelIgente, ou seja, com reconhecImento e sintese de fala - o moZcco de voSes.

Palavraschave - Interface, voz, web, hIpermidIa, arte.
6 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 7












Abstract










ThIs research Is concerned wIth the conceptual thInkIng about a specIfIc Interface: voIce
Interface and Its potentIal to create new InteractIve and artIstIc possIbIlItIes In
hypermedIatIc envIronments. The human dream of talkIng to computers has exIsted for a
long tIme In the realm of scIentIfIc fIctIon; however It Is becomIng true as a wIdely
accessIble and avaIlable optIon In global computer networks through the nternet just
from the begInnIng of the 21
st
century. New InteractIon modes brIng new possIbIlItIes as
much as new challenges. ThIs work focuses on the actual context of voIce Interfaces and
the new emergent opportunItIes and challenges from theIr uses. The scope also
comprehends a research about InteractIve art works and projects that somehow use
voIce technologIes - voIce/speech synthesIs or recognItIon - In some degree durIng the
InteracItIon. t Is also a component part of the present work the development of an
artIstIc experImentatIon on the Web wIth an IntellIgent voIce Interface, I.e., speech
synthesIs and recognItIon - the moZcco de voSes (\oce Moscc).

Keywords Interface, voIce, web, hIpermedIa, art.
8 nterfaces de 7oz em AmbIentes HIpermIdItIcos

nterfaces de 7oz em AmbIentes HIpermIdItIcos 9











Para meus paIs, Foldo e AlzIra,
pelo eterno IncentIvo e torcIda.

Para Pedro e |arIana,
por serem a InspIrao da mInha vIda.

Para NIlson,
pela parcerIa, cumplIcIdade, IncentIvo e apoIo, sempre,
que tornam possiveIs meus projetos e sonhos.
10 nterfaces de 7oz em AmbIentes HIpermIdItIcos

nterfaces de 7oz em AmbIentes HIpermIdItIcos 11





ACPA0ECIhENTDS



A orIentadora SIlvIa LaurentIz,
pelo apoIo constante e amIzade.

A LocaWeb,
pelo uso do Loca7oz, atravs do qual me foI possivel desenvolver,
testar e dIsponIbIlIzar o moZcco de voSes.

A Jorge LuIz AntonIo,
pela cuIdadosa revIso ortogrfIca deste trabalho.


12 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 1J
SUhAPID


INTPD0UD ............................................................................ 15

. TecnologIas de FeconhecImento e Sintese de 7oz e Fala ...................... 19
.1. TecnologIas de Sintese de 7oz e Fala ...................................... 20
.2. TecnologIas de FeconhecImento AutomtIco de 7oz e Fala ............ 22
.J. TecnologIas de 7oz e Fala na Web .......................................... 24

. Trabalhos de Arte com 7oz ........................................................ 27

. nterfaces de 7oz
.1. nterfaces ..................................................................... 59
.2. nterfaces de 7oz ............................................................ 60

7. HIpermidIa e nteratIvIdade nas nterfaces de 7oz
7.1. HIpermidIa .................................................................... 69
7.2. nteratIvIdade ................................................................ 74

7. HIbrIdIzao e ConvergncIa ....................................................... 77

7. AplIcao: moZcco de voSes ..................................................... 85
7.1. ConceItuao artistIca do moZcco de voSes ............................ 86
7.2. Fesultados .................................................................... 90

CDNSI0EPADES FINAIS ............................................................... 91

PEFEPNCIAS ILIDCPAFICAS ...................................................... 9J
14 nterfaces de 7oz em AmbIentes HIpermIdItIcos

LIsta de fIguras ......................................................................... 97
LIsta de tabeIa .......................................................................... 98

ANEXD I: |emorIal descrItIvo e codIgos fonte da aplIcao
moZcco de voSes .................................................. 99

ANEXD II: LInha do tempo da hIstorIa da sintese e
reconhecImento de voz ........................................ 119

ANEXD III: C0FD| com arquIvos complementares IlustratIvos,
Imagens e videos ................................................. 125



nterfaces de 7oz em AmbIentes HIpermIdItIcos 15
INTPD0UD

D sonho humano de conversar com computadores de modo natural no novo.
|aIs do que falar com computadores, a aspIrao humana de crIalos sua
Imagem e semelhana remonta antIguIdade, como o exemplo de Talos, o
automato de bronze crIado por Hfestus na mItologIa grega, conforme PerkowItz
(2004). LIvros e fIlmes de fIco cIentifIca que habItam nosso ImagInrIo
apresentam vrIos exemplos deste anseIo, como nas srIes de televIso e cInema
Star Trek, onde a trIpulao da Enterprse conversa com os computadores de
bordo e com androIdes como o comandante 0ata; Lost In the Space, onde WIll
FobInson tem no seu robo um amIgo confIdente; as conversas e Interaes
humanas com os robos CJPD e F202 em Star Wars; 8lade Funner, entre outros
(PerkowItz, 2004:9).
No entanto, fora das telas e pgInas de fIco cIentifIca, as tecnologIas de
sIntetIzao e reconhecImento de voz so adquIrIram precIso e confIabIlIdade
para seu uso em larga escala apenas no InicIo do sculo 21, trazendo tona a
possIbIlIdade de fInalmente realIzar nosso sonho de conversar com computadores,
e aInda maIs, no apenas com um computador de cada vez, mas com vrIos e em
rede, por meIo da nternet
[1]
.
Neste contexto, e a partIr da necessIdade de padres abertos (open stcndcrds
[2]
)
para possIbIlItar a ampla utIlIzao das tecnologIas de voz na Web, surgIu a
lInguagem 7oIceX|L, cuja especIfIcao ofIcIal pelo WJC (World WIde Web
ConsortIum - wJc.org) aconteceu em outubro de 2001, e que nos permIte
'conversar com a Web' e seus computadores.
Atualmente, o padro domInante de acesso Web aInda por meIo de
navegadores exclusIvamente vIsuaIs. |esmo quando feIto por meIo de telefones
celulares, este acesso acontece normalmente de modo vIsual, pelos pequenos
monItores dos aparelhos. Exceto por musIcas de fundo e reproduo de sons em
sItes, a Web tem sIdo 'surda e muda', e, portanto, lImItada. TIm 8ernersLee,
durante seu dIscurso na SpeechTek 2004, em setembro de 2004 em Nova York,
dIsse que a tecnologIa de voz um IngredIente Importante para a Web
concretIzar seu completo potencIal (Speech Tech |agazIne, 2004). Na mesma
16 nterfaces de 7oz em AmbIentes HIpermIdItIcos
lInha, de acordo com Farber (2004), 8Ill Cates declara que a tecnologIa de voz se
tornar uma tendncIa predomInante em todos os dIsposItIvos dentro de dez
anos.
Por outro lado, arte, cIncIa e tecnologIa vm convergIndo e camInhando juntas
com grande IntImIdade desde o fInal do sculo XX, como relatado por Popper:
Por mIlhares de anos, cIncIa e tecnologIa constItuiram atIvIdades dIstIntas,
mas no sculo 19 elas se juntaram em uma relao muIto maIs proxIma. sso
coIncIdIu com sua convergncIa com as artes, e seu desenvolvImento levou
gradualmente ao que no fInal do sculo 20 podemos chamar de arte
tecnologIca ou eletronIca. Se a contInuIdade e coerncIa hIstorIcas desta arte
podem ser demonstradas, suas caracteristIcas dIstIntas, partIcularmente aos
olhos do publIco, a sofIstIcao tecnologIca de seus produtos. A
convergncIa e combInao de dIferentes tecnologIas que marca o seu
desenvolvImento tem sIdo explorada por artIstas para sua mxIma efIcIncIa
em produzIr trabalhos ImpressIonantes vIsual e Intelectualmente. (Popper,
199J: 7)
Nesse contexto tecnologIco, onde as tecnologIas e Interfaces de voz emergentes
comeam a alterar o cenrIo, acrescentando no apenas novas possIbIlIdades de
Interao e experImentao artistIcas, mas tambm adIcIonando complexIdade
aos processos, hIbrIdIzao e convergncIa de midIas, a compreenso do seu
potencIal e a experImentao prtIca so fundamentaIs para alavancar novos
processos crIatIvos e possIbIlIdades esttIcas.
7ale salIentar aquI que as aplIcaes maIs obvIas para o uso das tecnologIas de
voz esto relacIonadas a produes comercIaIs, Incluso dIgItal e acessIbIlIdade.
E mesmo nessas reas, estamos vIvendo aInda o periodo de aurora dessas
tecnologIas de voz em ambIentes hIpermIdItIcos Web, e portanto so poucos os
textos de referncIa especifIcos sobre o assunto ou mesmo yctewcys
[J]
de voz
dIsponiveIs, necessrIos para o desenvolvImento dessas Interfaces de voz, quer
vIa telefone ou browser. ExIste atualmente apenas um browser que tem recursos
para suportar aplIcaes de voz - o Dpera
[4]
.
Essa pesquIsa tem como objetIvo analIsar em que medIda as Interfaces de voz
afetam ou acrescentam novas formas de InteratIvIdade, hIbrIdIzao e
convergncIas na Web, atravs de comparaes com os modos exIstentes e
desenvolvImento de uma experImentao artistIca com Interface de voz
nterfaces de 7oz em AmbIentes HIpermIdItIcos 17
IntelIgente, ou seja, com reconhecImento e sintese de fala - o moZcco de voSes
(CabrIel, 2004).
0ado ao contexto Inovador em que se Insere, buscamos os alIcerces teorIcos para
esta pesquIsa em dIferentes fontes, poIs estIvemos envolvIdos com as questes da
Interface (Lvy,199J; Cohen,2004; Johnson,2001; Farber,2004; Kerckhove,200J;
NIelsen,200J), da lInguagem em sI (PInker,2002; WIlson,2002; Santaella,2001;
ZakIa,1997) e dos conceItos decorrentes, como InteratIvIdade, convergncIa e
hIbrIdIzao (|urray,200J; Kerckhove,200J; |anovIch,2001; Plaza,2000;
Ascott,1997; |achado,2001; Palazzo,2002).
Esta dIssertao foI dIvIdIda em seIs capitulos.
D prImeIro capitulo, "TecnologIas de FeconhecImento e Sintese de 7oz",
apresenta o hIstorIco das tecnologIas de voz, desde os prImeIros estudos e
experImentaes no InicIo do sculo XX at o estgIo atual.
D segundo capitulo, "Trabalhos de Arte com 7oz", traz uma relao de obras de
arte que de algum modo envolvem a voz, traando um breve panorama
contextual entre a arte e as tecnologIas de reconhecImento e sintese de fala.
D terceIro capitulo, "nterfaces de 7oz", conceItua e analIsa a ImportncIa
crescente das Interfaces no cenrIo atual, altamente tecnologIco, no qual
vIvemos cercados e medIados por Interfaces, e, em seguIda, foca
especIfIcamente as Interfaces auraIs ou multImodaIs e suas partIcularIdades.
D quarto capitulo, "HIpermidIa e nteratIvIdade nas nterfaces de 7oz",
dedIcado s reflexes sobre as Interaes em Interfaces de voz no ambIente
hIpermIdItIco da Web.
D quInto capitulo, "HIbrIdIzao e ConvergncIa", apresenta reflexes sobre
como os processos de hIbrIdIzao e convergncIa Inerentes ao contexto atual das
novas midIas, maIs especIfIcamente voz, possIbIlItam a crIao de novos padres
esttIcos e potIcos.
No sexto capitulo, "AplIcao: moZcco de voSes", apresentamos e descrevemos
o trabalho de webarte moZcco de voSes (CabrIel, 2004), que foI desenvolvIdo
18 nterfaces de 7oz em AmbIentes HIpermIdItIcos
com o IntuIto de dIsponIbIlIzar a experImentao e contato com Interfaces de voz
IntelIgentes
[5]
, bem como com a hIbrIdIzao e convergncIa das midIas.
Nas consIderaes fInaIs, apontamos que o sonho humano de conversar com
computadores em lInguagem natural est comeando a se tornar realIdade,
trazendo Inumeras novas possIbIlIdades para dIversas reas do conhecImento, mas
junto com esta realIzao vm tambm novas complexIdades, hIbrIdIzaes e
convergncIas nunca antes sonhadas.

[1] Ds termos 'nternet' e 'Web' so usados frequentemente como sInonImos, no entanto,
representam coIsas dIferentes. A Web (World WIde Web) parte da nternet, sendo um dos
muItos servIos que ela oferece. A Web utIlIza hIpermidIa em sua formao bsIca, e um
sIstema de Informao muIto maIs recente que usa a nternet como meIo de transmIsso atravs
de um de seus protocolos - o HTTP (Hyper Text Transfer Protocol), o Protocolo de TransferncIa
de HIper Texto.
[2] Dpen Standards - so especIfIcaes dIsponiveIs publIcamente que fornecem um mtodo comum
de se alcanar uma meta especifIca. A lInguagem HT|L e as especIfIcaes de CSS, so padres
abertos, e a sua popularIdade Ilustra a ImportncIa deles e como eles encorajam a Interoperao
entre plataformas de hardware e software. Normalmente os padres abertos para a Web so
especIfIcados pelo WJC - World WIde Web ConsortIum (www.wJc.org).
[J] Cateways - so sIstemas que possIbIlItam que duas redes de tecnologIas dIferentes possam
"conversar". Portanto, gateways funcIonam como "portaIs" de passagem tecnologIca.
[4] D browser Dpera (www.opera.com) comeou a suportar tecnologIas de voz a partIr da sua
verso 8, lanada em 2005. At o presente momento, |aro/2006, contInua sendo o unIco
browser com suporte s tecnologIas de voz, e, por enquanto, so em Ingls.
[5] nterfaces de voz IntelIgentes so conceItuadas como Interfaces com as quaIs podese InteragIr
usando lInguagem natural. 7er maIores detalhes no Capitulo .

nterfaces de 7oz em AmbIentes HIpermIdItIcos 19
I. TecnoIogIas de PeconhecImento e Sntese de Voz e FaIa
Antes de InIcIarmos o hIstorIco das tecnologIas de voz, apresentaremos algumas
defInIes essencIaIs que usaremos ao longo do presente trabalho, taIs como
"sintese de voz ou fala" e "reconhecImento de voz".
Podemos defInIr "sintese de voz ou fala" (speech synthesIs) como a produo
artIfIcIal da fala humana. SIstemas projetados com essa fInalIdade so chamados
de sIntetIzadores de fala, e podem ser software ou hardware. SIstemas de sintese
de fala so frequentemente chamados de TTS (texttospeech, ou em portugus,
detextoparafala) - em referncIa sua habIlIdade de converter texto em fala.
Por outro lado, "reconhecImento de voz" (speech recognItIon) a tecnologIa pela
qual sons, palavras e frases faladas por humanos so IdentIfIcados por
computadores. No entanto, Importante salIentar que "FeconhecImento de voz
consIste apenas em IdentIfIcar a palavra dIta, no o sIgnIfIcado das palavras"
(WIlson, 2002: 775). Compreender a lInguagem humana rea de estudo de outro
campo da cIncIa da computao chamado Processamento de LInguagem Natural,
ou NLP (Natural Language ProcessIng), que, assocIado ntelIgncIa ArtIfIcIal e s
tecnologIas de FeconhecImento de 7oz e Fala, resolvem o contexto e a sIntaxe da
lInguagem. Portanto, por trs dos sIstemas de reconhecImento de voz e fala
exIstem outros tIpos de processamentos para relacIonar e/ou usar as palavras
reconhecIdas na fala. Exemplos de sIstemas dIferentes por trs de um sIstema de
reconhecImento de fala podem ser o uso da voz do usurIo como comandos para
executar determInadas aes, ou sIstemas que respondem ao que foI dIto pelo
usurIo, InteragIndo com ele. Como em qualquer outra rea de sIstemas, o grau
de complexIdade de cada aplIcao depende no apenas das tecnologIas
envolvIdas, mas do contexto e funcIonalIdades requerIdas.
Conforme Sasso (2004), o computador falante maIs famoso de todos os tempos, o
HAL 9000, do fIlme de 1968 de Arthur Clark e Stanley KubrIck, 2001: 0mc
Ddssc no Espco, falava Ingls perfeIto. E quando foI lobotomIzado por ser
humano demaIs, ele saIu cantando "0aIsy 8ell". A InspIrao de Clark para esta
cena foI a prImeIra musIca cantada por uma fala sIntetIzada por computador,
realIzada por |ax |athews nos LaboratorIos 8ell em 1961.
20 nterfaces de 7oz em AmbIentes HIpermIdItIcos
Para construIr um computador como HALL 9000, que compreendesse
perfeItamente o que dIto ao seu redor e pudesse responder em lInguagem
falada perfeIta, serIa necessrIo equIplo com um sIstema de sintese de fala
para poder falar fluentemente, sIstema de reconhecImento de voz para captar,
ou 'ouvIr', o que falado ao seu redor, e de sIstema de processamento de
lInguagem natural, para que pudesse compreender o que foI dIto. Apesar de um
computador to sofIstIcado quanto HALL 9000 aInda estar no futuro, muItas
tecnologIas de voz - reconhecImento e sintese de fala - j esto dIsponiveIs hoje,
e apresentaremos a seguIr um breve hIstorIco sobre elas.

I.1. TecnoIogIas de Sntese de Voz e FaIa
Conforme Traunmuller (2000), a prImeIra mquIna de fala mecnIca foI
construida por Wolfgang von Kempelen, em 1791 - a SpeakIng |achIne (FIg. 1.1
abaIxo). A IdIa era modelar o trato vocal humano com aparelhos - fole para o ar,
junco para as cordas vocaIs, e cavIdade bucal moldada de borracha com buracos
para as narInas. sso podIa ser manIpulado para produzIr palavras e sentenas
curtas. D equIvalente moderno, conhecIdo como modelcyem ]scc, emprega
emulaes matemtIcas do trato vocal do mesmo modo (Sasso, 2004).






FIgura .1 - SpeakIng |achIne
(|quIna Falante) de Wolfgang von
Kempelen, como pode ser vIsta no
0eutsches |useum em |unIch (fonte:
Traunmuller, 2000)
nterfaces de 7oz em AmbIentes HIpermIdItIcos 21
No entanto, no foI antes do InicIo do sculo XX que novas solues surgIram.
Conforme o EEE (2002), dIsposItIvos mecnIcos para produzIr sintese de fala
foram concebIdos no mundo da fIco, e projetados pela prImeIra vez no comeo
do sculo XX. A Inveno do telefone, no fInal do sculo XX, e os esforos
subsequentes para reduzIr os requerImentos de largura de banda para transmItIr
voz trouxeram de volta a IdIa. Nos anos J0 do sculo XX, os engenheIros de
telefonIa dos LaboratorIos 8ell desenvolveram o famoso 7oder, um sIntetIzador
de fala que foI apresentado ao publIco com grande agIto na World's FaIr de 19J9,
mas que precIsava de um operador habIlIdoso.


FIgura .2 - Lanamento do 7D0EF na World's FaIr, de 19J9 (fonte: EEE, 2002)

22 nterfaces de 7oz em AmbIentes HIpermIdItIcos
SIstemas totalmente automtIcos de sintese de fala apareceram no InicIo dos
anos 60 do sculo XX, com a Inveno dos novos esquemas automtIcos de
programao, tal como Programao PrevIsivel AdaptatIva (AdaptIve PredIctIve
CodIng APC). Com taIs novas tcnIcas em mos, os engenheIros dos LaboratorIos
8ell novamente voltaram sua ateno para a sintese de fala. Por volta do fInal
dos anos 60 eles havIam desenvolvIdo um sIstema para uso Interno no sIstema
telefonIco, uma mquIna que lIa Instrues de cabeamento para os Instaladores
de cabos telefonIcos da Western ElectrIc, que podIam ento manter os olhos e
mos no seu trabalho. Progresso posterIor levou Introduo, em 1976, da
KurzweIl FeadIng |achIne (|quIna de LeItura KurzweIl) que pela prImeIra vez
permItIu ao cego 'ler' textos comuns ao contrrIo do 8raIlle. Em 1978, a
tecnologIa estava to bem estabelecIda e barata para produo que ela pode ser
usada em um brInquedo Texas nstruments' SpeakandSpell (FaleeSoletre da
Texas nstruments). AssIm, o desenvolvImento desta Importante tecnologIa levou
quInze anos, do InicIo ao seu uso comercIal, envolvendo profIssIonaIs de vrIas
reas, muItos dos quaIs aInda esto vIvos, e tIveram um Impacto de longo alcance
em outras tecnologIas e, atravs delas, na socIedade como um todo.

I.2. TecnoIogIas de PeconhecImento AutomtIco de Voz e FaIa
Apesar de exIstIr por pelo menos tanto tempo quanto a sintese de fala no campo
da fIco cIentifIca (um exemplo o robo Cort recebendo Instrues no clssIco
fIlme "D 0Ia em que a Terra Parou" The 0cy the Ecrth Stood Stll), o
desenvolvImento do reconhecImento automtIco de fala tem uma hIstorIa maIs
curta. FoI precIso muIto maIs progressos na teorIa e tcnIca do processamento
dos sInaIs dIgItaIs (0SP dIgItal sIgnal processIng), que de 1960, tal como APC
(AdaptIve PredIctIve CodIng), para que o seu desenvolvImento fosse mesmo
consIderado.
Trabalhos no InicIo dos anos 70 do sculo XX foram conduzIdos pela IndustrIa de
telefonIa que almejava tanto a dIscagem atIvada por voz (voIceactIvated dIalIng)
quanto os procedImentos de segurana (securIty procedures) baseados em
reconhecImento de fala. Atravs de um desenvolvImento gradual nos anos 80 e
90, taxas de erro em ambas as reas foram baIxadas at o ponto onde as
nterfaces de 7oz em AmbIentes HIpermIdItIcos 2J
tecnologIas pudessem ser comercIalIzadas. Em 1992, a ATET lanou seu servIo
operador automtIco 7FCP (7oIce FecognItIon Call ProcessIng), e em 1997 a
Apple lanou um software para dItado de voz em |andarIn ChIns. (EEE, 2002)
7ale a pena acrescentar que, apesar do Rcdo Rex (ver FIgura .J) ser consIderado
por muItos o prImeIro sIstema mecanIzado de reconhecImento de fala (Cohen,
2004: XX), tecnIcamente falando ele apenas a prImeIra referncIa de sIstemas
de traduo de lInguagens (oral para mecnIca) e no de reconhecImento de fala
proprIamente dIzendo.


FIgura .J - D brInquedo FadIo Fex, de 1911 (fonte: http://radIoattIc.com/Images/
hoke/Hoke_FadIoFex.jpg, em 29.set.2005)

D FadIo Fex um brInquedo produzIdo em 1911, onde um cachorro de celuloIde -
o Fex, fIcava sentado em sua casInha at que algum dIssesse o seu nome,
quando ento ele saltava - um sIstema acIonado pela fala. No entanto, o processo
que fazIa com que o cachorro saltasse era baseado em energIa acustIca, e no em
reconhecImento de fala, poIs ele era Incapaz de dIstInguIr dIferentes comandos.
Quando o brInquedo exposto a uma energIa acustIca de 500 hertz, a corrente
que energIza a base de ferro InterrompIda e lIbera a fora magntIca que
prende o cachorro base, e ento ele salta da sua casInha. Neste caso, a vogal
'e' em 'Fex', quando falada pela maIor parte das pessoas, crIa um tom de
aproxImadamente 500 hertz.
24 nterfaces de 7oz em AmbIentes HIpermIdItIcos
No ApndIce 8, apresentamos uma lInha do tempo da hIstorIa da sintese e
reconhecImento de voz.

I.3. TecnoIogIas de Voz e FaIa na Web
No InicIo do sculo XX, 60 anos depoIs do 7oder e apenas J5 anos depoIs do APC,
ambas dessas tecnologIas InterrelacIonadas podIam ser consIderadas
completamente operacIonaIs, num caso onde uma hIstorIa tecnologIca tortuosa
teve um modesto e maIs ou menos prevIsto Impacto socIal.
AtIngIndo assIm um grau de confIabIlIdade e precIso sufIcIentes para serem
usadas em larga escala, as tecnologIas de voz (reconhecImento e sintese de fala)
comearam a ser consIderadas como opo para uso amplo na nternet. 0este
modo, em 2001, o WJC (World WIde Web ConsortIum) ofIcIalIzou a prImeIra
especIfIcao da lInguagem open standard 7oIceX|L, que possIbIlIta o
desenvolvImento de Interfaces de voz IntelIgentes na Web (ver hIstorIa do
reconhecImento e sintese de fala no ApndIce 8). Hoje, possivel 'conversar'
com a Web por telefone, browser, e at mesmo por 7oP
[1]
, graas ao 7oIceX|L.
Interessante salIentar que as tecnologIas de reconhecImento e sintese de fala -
tecnologIas IntelIgentes de voz - esto relacIonadas a permItIr conversao em
lInguagem natural entre o homem e sIstemas computacIonaIs dIversos. Este o
caso de quando lIgamos por telefone para um sIstema computacIonal e
conversamos com o sIstema e no com uma pessoa na outra ponta, ou o caso de
quando damos comandos de voz a mquInas, conversamos com o navegador Web
do nosso computador, etc. Um exemplo de uso de Interfaces IntelIgentes de voz
o ServIo de AuxilIo LIsta da TelefonIca em So Paulo, onde lIgando por
telefone para 102, conversamos com o sIstema para obtermos Informaes de
numeros de telefones - humanos conversando com um sIstema computacIonal em
lInguagem natural.
Por outro lado, no caso de sIstemas que permItem a comunIcao em lInguagem
natural entre pessoas, no h necessIdade de tecnologIas IntelIgentes, j que a
conversao em lInguagem natural mantIda entre humanos, e os sIstemas
apenas so meIos para que Isso acontea. Este o caso dos sIstemas de telefonIa
nterfaces de 7oz em AmbIentes HIpermIdItIcos 25
na nternet (7oP
[1]
) mencIonados anterIormente, como o Skype
[2]
por exemplo,
que funcIona como um telefone conectando pessoas. Nestes casos, no so
usadas Interfaces de voz IntelIgentes, poIs no h necessIdade de sIstemas
computacIonaIs de reconhecImento e sintese de fala.
Dutro caso que no exIge sIstemas de reconhecImento e sintese de fala so
sIstemas computacIonaIs que usam voz prgravada, reproduzIndoas quando
necessrIo, e recebem como comandos numeros dIgItados. Esses sIstemas so
comuns em menus acessados por telefone em autoservIos bancrIos,
entretenImento por telefone, etc., onde ouvImos uma gravao com as opes de
numeros que devemos dIgItar no telefone para acessar o servIo.
Como as tecnologIas de reconhecImento e sintese de fala na Web so aInda muIto
recentes, e apenas um browser atualmente tem suporte a elas (ver nota de
rodap [J] da ntroduo), seu uso aInda no foI amplamente adotado. Pouco a
pouco, desde 2001, o uso de Interfaces de voz IntelIgentes vem crescendo, e
exIstem prevIses de que at 2014 elas sero tendncIa predomInante em todos
os dIsposItIvos (Farber, 2004)
Como Instrumento experImental desta dIssertao, foI desenvolvIdo o trabalho de
webart moZcco de voSes, que usa Interface de voz IntelIgente por telefone, e
que apresentado no capitulo 7.

[1] VoIP - 0esIgnao para 7oIce over P ou 7oz sobre P, tambm conhecIda por "Telefone por P",
a tecnologIa que torna possivel estabelecer conversaes telefonIcas na nternet ou em uma
rede P em vez de uma lInha dedIcada transmIsso de voz, prescIndIndo da comutao de
cIrcuItos e o seu consequente desperdicIo de largura de banda.
[2] Skype - |aIs famoso sIstema de voz sobre P atual que permIte fazer lIgaes telefonIcas entre
computadores e tambm para lInhas telefonIcas tradIcIonaIs. Pode ser obtIdo no endereo
http://www.skype.com/.
26 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 27
II. TrabaIhos de Arte com Voz
Com o IntuIto de contextualIzar o desenvolvImento artistIco e o uso de voz,
apresentamos um breve panorama de obras de arte que empregam de algum
modo uma relao com a voz.
Ds trabalhos de arte com voz aquI apresentados esto organIzados
aproxImadamente em ordem crescente de envolvImento dos processos de
sIntetIzao e reconhecImento da fala humana. Como alguns trabalhos do mesmo
autor tIveram novas verses ao longo do tempo, como o caso de Le PIssenlIt,
por exemplo, preferImos apresentar juntos o trabalho orIgInal e sua verso maIs
recente, ao Invs de apresentar a verso maIs recente no fInal. Alm dIsso, o
IntuIto aquI no classIfIcar, mas apenas apresentar os trabalhos que envolvem
tecnologIas de voz/fala. Ds textos e Imagens mostrados a seguIr, que foram
extraidos dos websItes dos respectIvos trabalhos, conforme o endereo onlIne
apresentado, foram por nos lIvremente traduzIdos, e os textos orIgInaIs esto
relacIonados no fInal deste capitulo, como notas de rodap.
Le Pssenlt, por Edmond Couchot e |Ichel 8ret (nstalao - 1996)
http://www.artmag.com/techno/landowsky/projet.html (acessado em 29.mar.2006)
CaracteristIcas - uso da boca e sopro para gerar movImento em Imagem dIgItal. (Nota
apesar de este trabalho no usar a voz proprIamente dIta, optamos por relacIonlo
nesta lIsta poIs ele envolve o sopro, que pode ser relacIonado aos fluxos de ar que
cIrculando de maneIra aproprIada pelo aparelho fonador humano geram a fala.)
D prIncipIo do trabalho consIste em soprar sobre uma Imagem. Na parte de baIxo da
tela, lIgada a um computador, h uma flor de dentedeleo. Quando se sopra a flor,
por meIo de um captor colocado em cIma de uma placa transparente, soltase uma
grande quantIdade de aqunIos que voam com o vento. Cada flor se desmancha de
certa maneIra, rpIda ou lentamente, em busca do sonho ou da efIccIa.
(...) Na realIdade, as Imagens so resultado de uma Interao entre um objeto vIrtual
a pena ou a flor dentro do computador, e um elemento estranho, externo, o sopro
do espectador.
[1]

28 nterfaces de 7oz em AmbIentes HIpermIdItIcos

FIgura .1 - magem 'soprada' de Le Pssenlt, 1996 (fonte:
http://www.artmag.com/techno/landowsky/projet.html, em 29.mar.2006)

Les Pssenlts, por Edmond Couchot e |Ichel 8ret (nstalao - 2005) E
Tcmpopo, por Kentaro Yamada (nstalao - 2005)
Les Pssenlts http://www.arborescence.org/artIcle.phpJ:Id_artIcle=458 (acessado em
8.maI.2006)
CaracteristIcas - uso da boca e sopro para gerar movImento em Imagem dIgItal.
Neste trabalho InteratIvo, 9 flores dentedeleo so gentIlmente dIspersadas pela
brIsa vIrtual correspondente ao sopro real que o Interator dIrecIona tela; as
sementes se soltam, e ento, voam e caem lentamente. Novas flores nascem
novamente prontas para se submeterem ao sopro de uma nova Interao.
[2]

FIgura .2 - nstalao Les Pssenlts, ParIs, 2005
(fonte: http://www.arborescence.org/artIcle.phpJ:Id_artIcle=458, 8.maI.2006)

nterfaces de 7oz em AmbIentes HIpermIdItIcos 29
Tcmpopo http://tampopo.kentaroyamada.com/ (acessado em 8.maI.2006)
PosterIormente, Kentaro Yamada montou a Instalao Tcmpopo na Nova ZelndIa e
em Tokyo, usando o mesmo conceIto de Les Pssenlts em rede e usando som.
Tcmpopo dentedeleo em japons, e no Japo, assIm como na Nova ZelndIa, os
dentesdeleo ocupam uma esfera do folclore. Uma sImples ao de soprar crIa um
espao contra agItao das atIvIdades humanas, crIa uma relao dIreta com a
natureza, e age como um gatIlho para memorIas e jornadas nostlgIcas. Talvez,
desperte memorIas de desejos feItos e h muIto tempo esquecIdos. Tcmpopo um
dentedeleo gIgante, um trabalho dIgItal InteratIvo que permIte que se sopre na
cabea do dentedeleo e se veja suas esporas getIlmente soltandose e voando. Esta
Instalao usa Input de som alImentado por mIcrofone, e o som do sopro faz as
esporas do dentedeleo se espalharem. 0oIs ou maIs dentesdeleo se comunIcam
entre sI, e um sopro pode afetar no apenas o dentedeleo na frente do Interator
como outros dentesdeleo na rede (ou nternet). 7rIos partIcIpantes podem soprar
os seus dentesdeleo e os de outros parIcIpantes, a partIr de localIzaes remotas,
usando esta tcnIca.
[J]

FIgura .J - nstalao Tcmpopo, Tokyo, 2005
(fonte: http://tampopo.kentaroyamada.com/, em 8.maI.2006)
8crbe Lbercton, por Fon KuIvIla (Dbjeto - 1989)
http://www.snIggle.net/barbIe.php (acessado em 28.mar.2006)
CaracteristIcas - reproduo de falas prgravadas.
A 8crbe Fclcnte Adolescente (Teen Tclk 8crbe) (brInquedo lanado em 1989) provou
ser o fIm da pIcada. As pessoas que j estavam angustIadas com a fIgura anorexIca da
8crbe e seu modo de transformar brIncadeIra em consumIsmo superfIcIal no podIam
J0 nterfaces de 7oz em AmbIentes HIpermIdItIcos
acredItar em seus ouvIdos quando a voz eletronIca da 8crbe falante balbucIava:
"|atemtIca dIficIl", "Eu adoro fazer compras!", "Um dIa teremos roupas
sufIcIentes:". Em 1989, a 8crbe Lbercton Drycnzcton (DrganIzao de LIberao
da 8arbIe) foI formada, e aproveItando as sImIlarIdades da voz da 8crbe Fclcnte
Adolescente (Teen Tclk 8crbe) e do boneco pato falante 6.l.1oe (Tclkny 0uke 6.l.
1oe) - que era um boneco de ao, eles desvIaram algumas centenas de unIdades de
cada um deles e fIzeram uma cIrurgIa de troca de estereotIpos no lote, transferIndo
para o pato as falas da 8crbe e para a 8crbe as falas do pato. A cIrurgIa no foI uma
coIsa sImples - placas de cIrcuIto tIveram que ser adaptadas, um capacItor mudado, e
um swItch reprojetado. A Imprensa fez parecer que foI uma sImples e fcIl operao,
mas na realIdade ela necessItou algumas pesquIsas e dedIcao. A 8crbe Lbercton
Drycnzcton devolveu os bonecos alterados - 8crbes e patos para as prateleIras das
lojas de brInquedos, que ento os revenderam. As crIanas que compraram eram
surpreendIdas com bonecas 8crbes que grItavam "A vIngana mInha!" e patos de
ao 6.l. 1oes que sonhavam acordados dIzendo, "7amos planejar nosso casamento
dos sonhos!". AdesIvos escrItos "LIgue para o notIcIrIo da sua rede de T7 local"
colocados engenhosamente nas costas dos brInquedos asseguraram que os
compradores dos brInquedos alterados lIgassem para a Imprensa ImedIatamente e a
midIa tIvesse genuInos receptores para entrevIstar assIm que a noticIa explodIu.
[4]


FIgura .4 - 'Dperao' na 8arbIe para mudar a programao das falas (fonte:
http://www.snIggle.net/barbIe.php, em 28.mar.2006)

Alert, por 8arbara |usIl (nstalao - 200J)
http://www.okcentrum.at/englIsh/presse/relocatIon.html (acessado em 28.mar.2006)
CaracteristIcas - reproduo de de sons e falas prgravadas.
D pano de fundo caracteristIco do som - sIrenes, alarmes - e o alto nivel de barulho
da cIdade de Cluj foram o ponto de partIda para o trabalho Alert. 8arbara |usIl
reprogramou os sIstemas de alarme de dez veiculos da regIo de Cluj e substItuIu o
sInal de alarme com canes e textos relacIonados com o tema 'roubo'. Com esses
nterfaces de 7oz em AmbIentes HIpermIdItIcos J1
novos alarmes Instalados nos carros como uma 'Interveno permanente', ela deIxou
sua proprIa nota acustIca em Cluj.
[5]

FIgura .5 - Alert no PrIx Ars ElectronIca 2004 (fonte:
http://www.noemalab.org/sectIons/specIals/ars_electronIca_2004/arte.html, em 25.abr.2006)

l Hcve Never Recd the 8ble, por JIm Campbell (nstalao - 1995)
http://www.jImcampbell.tv/|W/|W8Ible/Index.html (acessado em 28.mar.2006)
CaracteristIcas - reproduo de sons e falas prgravadas, com renderIzao de texto
escrIto.
A memorIa o texto completo da verso do FeI James da 8iblIa e o objeto um velho
dIcIonrIo Webster. A 8iblIa sussurada a partIr de um dIcIonrIo, uma letra por vez.
D trabalho guarda o texto ASC da 8IblIa e a voz do artIsta sussurando as letras do
alfabeto. D texto eletronIco da 8IblIa acessa as letras sussuradas uma por vez,
crIando a representao do artIsta lendo a 8iblIa. Enquanto as letras sendo
sussurradas eram gravadas, o FequIem de |ozart era tocado de fundo, assIm cada
letra sussurada tem um fragmento da musIca assocIado com ela.
[6]



FIgura .6 - l Hcve Never Recd the 8ble, 1995
(fonte:
http://www.jImcampbell.tv/|W/|W8Ible/Index.html,
em 28.mar.2006)
J2 nterfaces de 7oz em AmbIentes HIpermIdItIcos
Drpheus, por Ken FeIngold (nstalao 1996)
http://www.kenfeIngold.com/catalog_html/orpheus.html (acessado em 28.mar.2006)
CaracteristIcas - emIsso de fala, com renderIzao de texto escrIto.
Drpheus aparece como uma Imagem projetada de uma cabea marIonete falante. D
trabalho derIvado do fIlme Drphe (1950) de Jean Cocteau, e projetado para
Instalaes em locaIs fora do trfIco comum - uma cave, uma torre abandonada, ou
outra localIdade obscura. 0e tempos em tempos, ele fala uma sentena, e elas
aparentemente nunca so repetIdas. As declaraes sucedem da seguInte maneIra:
prImeIro, eram usadas as sentenas orIgInaIs (traduzIdas) do fIlme - todas as frases
que eram faladas no rdIo, em sequncIa - como uma matrIz gramatIcal. AssIm a
matrIz uma espcIe de corte transversal do fIlme orIgInal, focando a ateno em
apenas um aspecto do fIlme - o truque do rdIo que a |orte arranja para atraIr
Drpheus para o Inferno, os 'textos encontrados' da midIa que hIpnotIza Drpheus.
Ento, foram adIcIonadas novas palavras (do proprIo artIsta), como possiveIs palavras
na matrIz. D programa de computador randomIcamente solta palavras desta matrIz a
cada vez por meIo do loop da pea completa. 0este modo, a sIntaxe orIgInal fIxa,
mas a poesIa em tempo real e varIvel.
[7]


FIgura .7 - Drpheus
(fonte: http://www.kenfeIngold.com/catalog_html/orpheus.html, em 28.mar.2006)
Speech Sculptures, por 8ruce Cannon (nstalaes 1994)
http://electronIcsculpture.org/ http://brucecannon.org/ (acessado em 28.mar.2006)
CaracteristIcas - gravao e reproduo de voz.
nterfaces de 7oz em AmbIentes HIpermIdItIcos JJ
SrIe de esculturas eletronIcas, sendo que algumas delas envolvem fala e voz, tal
como o Capsules (1999200J), um conjunto de cpsulas do tempo de udIo
customIzado projetado para permItIr que seus donos gravem uma mensagem e a
envIem para o futuro. Enquanto sIstemas futuros tero Interfaces para auto
programao e modIfIcao, a prImeIra mquIna confIgurada como uma colaborao
entre o artIsta e o seu dono.
[8]


FIgura .8 - Ccpsule #1, 1999 (fonte:
http://electronIcsculpture.com/sculptures/tIme_capsule/tIme_capsule.htm, em 28.mar.2006)

netsony, por Amy Alexader (Web - 2000)
http://netsong.org/ (acessado em 28.mar.2006)
CaracteristIcas - sintese de fala crIando uma cano atravs de lInks fornecIdos a
partIr de uma busca na Web.
netsony a cano da Web, gerada e executada por um robo de um mecanIsmo de
busca na Web. Para InIcIar uma netsong, a pessoa entra com um termo de busca no
sIstema, e o robo netsong buscar este termo em um mecanIsmo de busca, e ento
escolher uma pgIna entre os resultados da busca e comea a seguIr os lInks a partIr
desta pgIna. Ele contInuar a seguIr os lInks IndefInIdamente, voltando e redefInIndo
o camInho caso encontre um beco sem saida. FeunIndo textos de cada pgIna que
vIsIta, o robo netsony saboreIa a narratIva lirIca e pungente da Web e comea a
cantla. No contente em apenas surfar a autoestrada da Informao, o netsony a
transforma em musIca.
[9]

FIgura .9 - LogotIpo netsony (fonte: http://netsong.org/, em 28.mar.2006)

J4 nterfaces de 7oz em AmbIentes HIpermIdItIcos
lP Poetry, por Custavo Fomano (Projeto Web - 2004)
http://www.fundacIon.telefonIca.com/at/vIda/pagInas/ev7.html (acesssado em 28.mar.2006)
CaracteristIcas - sintese de fala recItando poesIas geradas a partIr de textos
selecIonados na nternet.
Projetado para desenvolver tanto software e hardware que Iro, usando textos
selecIonados da nternet como materIal bruto, gerar automatIcamente poesIa para ser
recItada por poetasautomatos. Esses automatos, chamados de P 8ots, recItam a
poesIa crIada pelo software empregando uma srIe de regras de gerao. Ds P 8ots
IronIcamente emularo cabeas tendo bocas compostas por autofalantes com telas
LC0, e olhos substItuidos por conexes e cabos de redes.
[10]


FIgura .10 - Esquema do projeto lP Poetry (fonte:
http://www.fIndelmundo.com.ar/IppoetryvIda7/proyecto.htm, em 25.abr.2006)

Huye Hcrry, por Arthur Elsenaar, Femko Scha (7ideo / nstalao 2000)
http://Iaaa.nl/home.html http://Iaaa.nl/hh/cv.html (acessados em 28.mar.2006)
CaracteristIcas - sintese de fala apresentados por meIo de um personagem dIgItal de
sIstema computacIonal.
Huye Hcrry uma das personalIdades da mquIna de sintese de fala |Talk, projetada
por 0ennIs Klatt no Speech Lcborctory (LaboratorIo de Fala) do |..T., e atualmente
nterfaces de 7oz em AmbIentes HIpermIdItIcos J5
comercIalIzado pela 0ytcl Equpment Corporcton como 0ECTclk. D personagem
Huye Hcrry comeou sua carreIra profIssIonal como uma modesta 'cabeafalante',
mas durante a ultIma dcada desenvolveu e se tornou uma das vozes maIs destacadas
e confIveIs na dIscusso sobre arte, socIedade e tecnologIa - sempre representando o
ponto de vIsta computacIonal com grande vIgor e clareza. Ele agora assumIu a
presIdncIa do nstItute of ArtIfIcIal Art em Amsterd, e est maIs e maIs envolvIdo
em atIvIsmo politIco como um partIcIpante do movImento dos dIreItos das mquInas.
Huye Hcrry tambm trabalha como cantor em vrIos gneros musIcaIs,
frequentemente em conjunto com seus amIgos Perfect Paul e WhIsperIng Wendy.
[11]


FIgura .11 - Huye Hcrry, um programa de computador, conversando com o artIsta
Arthur Elsenaar (fonte: http://www.brownalumnImagazIne.com/storydetaIl.cfm:0=602, em
25.abr.2006)

Tclkny Mcchne, por |artIn FIches (nstalao 1990)
http://www.floraberlIn.de/soundbag/Index5J.html (acessado em 28.mar.2006) e
http://www.muenster.org/cuba/haus/cultur/InmedIasres/rIches.html (acessado em
28.mar.2006)
CaracteristIcas - sintese de fala crIada por meIo de sIstema fisIco que ImIta o sIstema
vocal, controlado por computador.
Tclkny Mcchne um sIntetIzador de fala acustIco. Ds sons falados so produzIdos
usando um fluxo de ar e ressonadores como na fala natural. A mquIna tem J2 gaItas,
cada uma uma verso sImplIfIcada do trato vocal humano. Elas reproduzem os
espaos que so formados na boca, narIz e garganta quando nos falamos. As gaItas
so construidas de acordo com as medIdas de fotografIas de raIos X tIradas de uma
pessoa falando. Em outras palavras, a gaIta E (EpIpe) reproduz a forma estreIta da
J6 nterfaces de 7oz em AmbIentes HIpermIdItIcos
boca humana dIzendo E, a gaIta DD tem algo como um pequeno buraco redondo de
lbIos em forma de DD e assIm por dIante. S, F, Sh e sons sImIlares so produzIdos por
assobIos especIaIs que reproduzem as formas feItas pelos lbIos, lingua e dentes. As
vlvulas que controlam o fluxo de ar so operadas por um computador.
[12]


FIgura .12 - The Tclkny Mcchne, 19901992 (fonte:
http://www.floraberlIn.de/soundbag/Index5J.html, em 28.mar.2006)

Dh to qu vs lcbcs, por 0on FItter (7ideo Performance nteratIva 1994)
http://aesthetIcmachInery.com/ohtoI.html (acessado em 28.mar.2006)
CaracteristIcas - uso da voz para controle de textos e Imagens.
Nesta performance, a voz de CenevIeve Letarte controla o texto e Imagens InteratIvas
usando o sIstema de video InteratIvo de FItter (http://aesthetIc
machInery.com/orpheus.html). A velocIdade de mudana das telas de texto e seus
movImentos eram determInados pelo tempo de Letarte cantando. D texto e as
Imagens deslIzavam vagarosamente para fora do fundo da tela durante periodos de
sIlncIo, mas retornavam quando o canto recomeava. As Imagens eram projetadas
para o publIco atravs uma grande tela de video.
[1J]

nterfaces de 7oz em AmbIentes HIpermIdItIcos J7

FIgura .1J - 7Ideo Performance Dh to qu vs lcbcs (fonte: http://aesthetIc
machInery.com/ohtoI.html, em 28.mar.2006)

Messc d \oce, por Colan LevIn, Zachary LIeberman, Jaap 8lonk, Joan La
8arbara (Performance 200J)
http://tmema.org/messa/messa.html (acessado em 28.mar.2006)
CaracteristIcas - algoritmo de anlIse de fala, transformando a fala em Imagens.
Messc d \oce est relacIonado com as ImplIcaes potIcas de tornar a voz humana
vIsivel. A tecnologIa central que torna Isso possivel um sIstema de software
customIzado que Integra algorItmos de anlIse de fala e vIso computacIonal em
tempo real. EspecIfIcamente, um computador usa uma cmera de video para rastrear
as localIzaes das cabeas dos performers. Este computador tambm analIsa os
sInaIs de udIo provenIentes dos mIcrofones dos performers. Em resposta, o
computador mostra vrIos modos de vIsualIzaes em uma tela de projeo atrs dos
performers; essas vIsualIzaes so sIntetIzadas de modos fortemente assocIados aos
sons falados e cantados pelos performers. Alm dIsso, devIdo ao sIstema de
rastreamento das cabeas, essas vIsualIzaes podem ser projetadas de tal modo que
parecem emergIr dIretamente das bocas dos performers. Em algumas vIsualIzaes,
elementos grfIcos projetados no apenas representam os sons vocaIs vIsualmente,
mas tambm servem como uma Interface InteratIva atravs da qual os sons
desenhados por ela podem ser realImentados e manIpulados pelos performers.
[14]

J8 nterfaces de 7oz em AmbIentes HIpermIdItIcos


FIgura .14 - Perfomances Messc d \oce (fonte: http://tmema.org/messa/messa.html,
em 28.mar.2006)

Summoned \oces, por aIn |ott (nstalao - 200J)
http://www.reverberant.com/|E/Index.htm (acessado em 28.mar.2006)
CaracteristIcas - anlIse e sintese de fala manIpulada por sIstema computacIonal.
D Summoned \oces age como uma memorIa vIva de pessoas e lugares. Ele consIste
de uma srIe de Instalaes de porta com um porteIro eletronIco (Interfone), um
sIstema de som e um computador lIgado em rede a um arquIvo central e um servIdor
de banco de dados. A metfora projetada da porta apresenta um cenrIo famIlIar de
se anuncIar em uma porta de entrada e esperar pela resposta de uma pessoa
desconhecIda. A sInalIzao InstruI o publIco para falar, fazer sons ou sInaIs no
nterfaces de 7oz em AmbIentes HIpermIdItIcos J9
Interfone. As vozes so guardadas e Interpretadas, e resultam em um playback
composto pelas vozes dos IndIviduos que j se foram. Summoned \oces age como um
Interpretador de som, um quadro de mensagens e uma Impresso de uma comunIdade
- um lugar para expresso, reflexo e surpresa.
[15]


FIgura .15 - nstalao Summoned \oces (fonte:
http://www.reverberant.com/|E/Index.htm, em 28.mar.2006)

0nverscl Trcnslctor, por 0avId Fokeby (nstalao - 1999)
http://homepage.mac.com/davIdrokeby/trans.html (acessado em 28.mar.2006)
CaracteristIcas - anlIse e sintese de fala manIpulada por sIstema computacIonal.
D 0nverscl Trcnslctor um trabalho de som e video InteratIvo focado no
equIpamento de som do corpo humano. A Interface para este trabalho um
mIcrofone com uma cmera de video embutIda em sua cabea de tal modo que a
cmera olhe dIretamente para a boca do Interator em close. D som da voz e o video
dos lbIos se movendo so capturados pelos computadores. Esses sons e Imagens
fornecem a maIor parte do conteudo, e so usadas para controlar a maIorIa da
InteratIvIdade do trabalho. Um monItor de computador fIca na frente do Interator e
mostra as Imagens processadas da boca. D som gravado na memorIa do computador,
e fIca dIsponivel para anlIse, processando o resultado ImedIatamente. D som
analIsado pelo conteudo fonmIco e Informao da IntensIdade vocal. Esta
Informao usada para controlar os vrIos aspectos do processamento do som e
saidas. D som que entra alImentado em um sIstema vIvo de sintese granular de
modo que o som possa ser estIcado (com ou sem mudana de tom), encurtado,
dIsperso, e dIfuso de vrIas maneIras. D udIo que entra no sIstema tambm
cortado em fragmentos tIpo sIlabas que so guardados e tocados novamente em
resposta a caracteristIcas do udIo que entrou. Como resultado, um denso mundo
40 nterfaces de 7oz em AmbIentes HIpermIdItIcos
sonoro construIdo usando apenas os sons fornecIdos recentemente pelos
Interatores. D aspecto do video deste trabalho planejado para ser secundrIo ao
udIo. A tela InIcIalmente preta. Quando o mIcrofone ouve um som, o video da boca
aparece gradualmente (em fade In) e desaparece novamente gradualmente (em fade
out) quando o som termIna. Quando nenhum som ouvIdo por algum tempo, curtos
videoclIps parecem comentar a relao entre lInguagem e o corpo.
[16]


FIgura .16 - Um stll do video em 0nverscl Trcnslctor
(fonte: http://homepage.mac.com/davIdrokeby/trans.html, em 28.mar.2006)

6ver o] Ncmes, por 0avId Fokeby (nstalao - 2000)
http://homepage.mac.com/davIdrokeby/gon.html (acessado em 28.mar.2006)
CaracteristIcas - sintese de fala resultante de processo de reconhecImento
computacIonal vIsual de objetos.
6ver o] Ncmes sImplesmente um sIstema de computador que d nomes a objetos. A
Instalao IncluI um pedestal vazIo, uma cmera de video, um sIstema de computador
e uma pequena projeo de video. A cmera observa o topo do pedestal. D espao da
Instalao cheIo de coIsas, objetos de vrIos tIpos. D vIsItante pode escolher um
objeto ou um conjunto de objetos no espao, ou qualquer coIsa que possa ter consIgo,
e colocar no pedestal. Quando um objeto colocado no pedestal, o computador
captura uma Imagem. Ele executa ento vrIos niveIs de processamento de Imagem
(anlIse de contorno, dIvIso em objetos ou partes separveIs, anlIse de cor, anlIse
de textura, etc.). Esses processos so vIsiveIs em uma projeo de video em tamanho
natural acIma do pedestal. Na projeo, os objetos fazem a transIo do real para a
Imagem gradatIvamente sImplIfIcados, conforme o sIstema tenta perceblos. Ds
resultados dos processos analitIcos so ento 'IrradIados' atravs de uma conexo
metaforIcamente lIgada a uma base de dados asssocIatIva de objetos, IdIas,
nterfaces de 7oz em AmbIentes HIpermIdItIcos 41
sensaes, etc., conhecIdos. As palavras e IdIas estImuladas pelo objeto aparecem
no background da tela do computador, mostrando o que poderIa bem
aproxImadamente ser descrIto como um 'estado da mente'. 0as palavras e IdIas que
ressoam a maIorIa das percepes do objeto, uma frase ou sentena em Ingls correto
construida e ento falada em voz alta pelo computador.
[17]


FIgura .17 - 6ver o] Ncmes no KIasma |useum of Contemporary Art In HelsInkI
(2000) (fonte: http://homepage.mac.com/davIdrokeby/gon.html, em 28.mar.2006)

0nverscl Whstlny Mcchne, por |arc 8ohlen e JT FInker (nstalao - 200J)
http://www.realtechsupport.org/new_works/uwm.html (acessado em 28.mar.2006)
CaracteristIcas - reconhecImento e sintese de assobIos como forma prImItIva de fala e
comunIcao.
D assobIo uma comunIcao prImItIva na maIorIa das lInguagens humanas. AssobIar
um tIpo de vIagem no tempo para um estado menos artIculado. HabItantes de
Comera, uma das lhas CanrIas, usam uma lInguagem de assobIo, a SIlbo Comera,
para se comunIcarem dos cumes de uma colIna para outra. Seus poderosos assobIos
vIajam maIs longe que a palavra falada. Nos compartIlhamos assobIos e canes com
muItos anImaIs. |amiferos e pssaros carregam em sI os meIos para assobIar. 0o
mesmo modo que carregamos remInIscncIas fisIcas de nossa evoluo corporal,
carregamos a capacIdade para assobIar. 0nverscl Whstlny Mcchne uma
InvestIgao do IrrItante problema do desIgn de Interfaces homemmquIna. D
assobIo est muIto maIs proxImo dos prImItIvos sInaIs sem fonemas compativeIs com a
mquIna dIgItal que o confuso dominIo da lInguagem falada. Ao contrrIo de forar
mquInas a se adaptarem aos humanos na lInguagem falada, a 0nverscl Whstlny
42 nterfaces de 7oz em AmbIentes HIpermIdItIcos
Mcchne sugere que nos encontremos em um meIo termo. Ds assobIos ocorrem entre
todas as lInguagens e culturas. Todas as pessoas tm a capacIdade de assobIar, apesar
de que muItas no assobIem bem. No necessItando de fonemas, o assobIo uma pr
lInguagem, um candIdato para um Esperanto lImItado para a comunIcao homem
mquIna. Alm das alternatIvas para Interfaces computacIonaIs, a 0nverscl Whstlny
Mcchne tambm oferece o potencIal para uma nova aproxImao para comunIcao
homemanImal. Ela capaz de ImItar o assobIo de certos pssaros to facIlmente
quanto pode sIntetIzar assobIos humanos. PoderIa Isso levar a novas formas de troca
entre homemcomputadoranImal:
[18]

FIgura .18 - 0nverscl Whstlny Mcchne (fonte:
http://www.realtechsupport.org/new_works/uwm.html, em 28.mar.2006)

Tclk Nce, por ElIzabeth 7ander Zaag (nstalao - 1999/2000)
http://www.Itaucultural.org.br/ (acessado em 8.maI.2006)
CaracteristIcas - reconhecImento de fala InteragIndo com videos prgravados.
Tclk Nce (Seja CentIl ao Falar) analIsa sentenas declaratIvas em que a entonao
sobe ao fInal de frase (upIsm, em Ingls). Essa caracteristIca, somada amplItude,
numero de palavras por mInuto, pausas e sexo do falante, defIne a relao deste com
o poder. D jogo estruturado por meIo de cooperao e Incluso. D partIcIpante o
performer e a experIncIa IndIvIdual, embora outros possam assIstIr ao jogo. A
Instalao chama a ateno para Inflexes e atItudes socIaIs das quaIs no nos damos
conta no processo de comunIcao do dIaadIa. D espectador/usurIo InIcIa uma
conversa com duas adolescentes cuja partIcIpao foI prgravada em video. Ambas
InsIstem em usar o poder persuasIvo do upIsm (elevando o tom ao fInal da frase e
fazendo com que afIrmaes soem como perguntas). Por meIo da Interao, o
espectador aprende a domInar o software e a manIpullo com o emprego de upIsms.
[19]


nterfaces de 7oz em AmbIentes HIpermIdItIcos 4J

FIgura .19 - Tela da Instalao Tclk Nce, Emoo ArtIfIcIal, 1999 (fonte:
http://www.Itaucultural.org.br/, em 8.maI.2006)

Rdny the Net, por ChrIsta Sommerer e Laurent |Ignonneau (nstalao
2000)
http://www.Interface.ufg.ac.at/chrIstalaurent/WDFKS/CDNCEPTS/FIdIngtheNetConcept.html
(acessado em 28.mar.2006)
CaracteristIcas - reconhecImento de fala gerando download e exIbIo de Imagens
obtIdas na nternet.
Rdny the Net um trabalho de arte InteratIvo no qual, enquanto doIs usurIos
conversam e se comunIcam, as palavraschave da sua comunIcao so captadas pelo
mecanIsmo de reconhecImento de fala do sIstema. Essas palavraschave so, ento,
usadas para busca e downlocd de Imagens correspondentes na nternet. Quando os
usurIos falam, por exemplo, sobre 'casas' ou 'flores', dIferentes Imagens de 'casas'
ou 'flores' so baIxadas. Como normalmente exIste uma vasta quantIdade de Imagens
dIsponiveIs para cada palavrachave, os usurIos vem novos icones de Imagens sendo
trazIdos da nternet. Todas as Imagens so, ento, coletIvamente mostradas na janela
InteratIva do sIstema e fluem dos respectIvos lados de cada usurIo. Como as Imagens
vm tanto do lado esquerdo como do lado dIreIto da tela, elas todas fluem em
dIreo umas das outras, antes de saIrem da tela e serem substItuidas por novas
Imagens derIvadas de novas palavraschave faladas pelos doIs usurIos. D completo
cenrIo de Imagem na superficIe da janela muda constantemente, j que ele uma
Interpretao dIreta do dIlogo dos usurIos e da comunIcao entre eles. Ambos os
usurIos podem tambm tocar os icones de Imagem na tela: Isso congela as Imagens
temporarIamente de forma que os usurIos podem olhar com maIs detalhes para
icones especifIcos de Imagens. Fazendo Isso, o endereo exato da Web (UFL) desta
Imagem especifIca pode ser baIxado em uma tela de computador separado, de forma
que os usurIos descubram de onde a Imagem veIo e a que ela se refere. Rdny the
Net, portanto, fornece um modo dIvertIdo e entretIdo de navegar na nternet e, um
tanto sImIlar a assIstIr T7, os usurIos tornamse Intensamente envolvIdos na vasta
44 nterfaces de 7oz em AmbIentes HIpermIdItIcos
quantIdade de Informao vIsual dIsponivel e apresentada pelo sIstema. No entanto,
ele obvIamente maIs InteratIvo do que assIstIr televIso, e os usurIos podem
controlar o conteudo do que esto assIstIndo atravs de suas proprIas decIses,
dIlogo e Interao.
[20]


FIgura .20 - Rdny the Net, 2000 (fonte: http://www.Interface.ufg.ac.at/chrIsta
laurent/WDFKS/CDNCEPTS/FIdIngtheNetConcept.html, em 28.mar.2006)

RE:MARK, por Colan LevIn / Zachary LIeberman (nstalao 2002)
http://www.flong.com/remark/Index.html (acessado em 28.mar.2006)
CaracteristIcas - reconhecImento de fala gerando fonemas escrItos e Imagens
abstratas.
RE:MARK uma Instalao de doIs partIcIpantes que apresenta Igualmente uma
vIsualIzao InteratIva da fala de seus usurIos. Ele dIrIge sua InvestIgao na dIreo
do dominIo sImbolIco da palavra falada e escrIta. Ds sons falados em um par de
mIcrofones so analIsados e classIfIcados por um sIstema de reconhecImento de
fonemas. Quando um fonema reconhecIdo com sufIcIente confIana, o nome escrIto
do fonema (por exemplo, oh, ee, ah, etc.) projetado na tela da Instalao. Se o
som do usurIo no reconhecIdo pelo classIfIcador do sIstema, ento uma forma
abstrata gerada no lugar, baseada dIretamente nas caracteristIcas tImbraIs da
vocalIzao. Conforme o vIsItante fala, os correspondentes fonemas escrItos e formas
abstratas so renderIzados como sIlhuetas e parecem emergIr da sombra da cabea
nterfaces de 7oz em AmbIentes HIpermIdItIcos 45
de quem fala. Um sIstema de vIso computacIonal permIte aos vIsItantes arrastar
essas formas pela tela com a sombra de seus corpos. D resultado uma Iluso
dIvertIda e reveladora, na qual os vIsItantes da Instalao se tornam atores num
mundo de sombras de lInguagem reatIva de desenho anImado.
[21]


FIgura .21 - magens do RE:MARK
(fonte: http://www.flong.com/remark/Index.html, em 28.mar.2006)

nChc(n)t, por 0avId Fokeby (nstalao - 2000)
http://homepage.mac.com/davIdrokeby/nchant.html (acessado em 28.mar.2006)
CaracteristIcas - reconhecImento e sintese de fala com sIncronIzao de
precessamentos em rede de computadores.
nchc(n)t uma comunIdade de 6vers o] Ncmes (ver referncIa mencIonada
anterIormente a este trabalho neste capitulo) lIgadas por uma rede. Eles se
IntercomunIcam, e, assIm fazendo, 'sIncronIzam' seus 'estados da mente' Internos
IndIvIduaIs. Quando deIxados InInterruptamente se comunIcarem entre sI, eles
eventualmente comeam a cantar um fluxo compartIlhado de assocIaes verbaIs.
Este consenso revelouse bastante orgnIco. Ds sIstemas "sentem" seus camInhos em
dIreo uns aos outros, encontrando ressonncIa em sInonImos e palavras com sons
sImIlares, trabalhando por meIo de dIferentes formulaes de declaraes sImIlares
at fInalmente alcanarem harmonIa, unIssonncIa. Cada entIdade equIpada com
um mIcrofone altamente focado e com software de reconhecImento de voz. Quando o
vIsItante fala em um dos mIcrofones, essas palavras do lado de fora 'dIstraem' aquele
sIstema, estImulando uma mudana no 'estado da mente' daquela entIdade. Como
resultado, aquele computador saI da sIncronIa do canto (chant). Conforme ele
46 nterfaces de 7oz em AmbIentes HIpermIdItIcos
comea a comunIcar seus novos dados recebIdos para seus vIzInhos maIs proxImos, a
comunIdade cantando perde sua coerncIa, com o canto se desvIando para uma festa
caotIca de vozes. Na ausncIa de novas Interrupes, as IntercomunIcaes reforam
as sImIlarIdades e atraem a comunIdade novamente para o canto. As orelhas vIsiveIs
nos monItores dos computadores mostram o estado de receptIvIdade de cada sIstema.
Quando o sIstema est pronto para ouvIr, uma orelha 'dIsponivel' mostrada na tela.
Se o sIstema ouve um som, ele muda a sua orelha para 'concentrada'. Quando
'pensando', um dedo pressIona a orelha. Se o sIstema se sente sobrecarregado de
estimulos, ele tampa a sua orelha com a mo para IndIcar sua IndIsposIo para ouvIr.
Conforme o sIstema processa a fala, as palavras so mostradas na orelha no monItor.
0epoIs que a fala termIna, o sIstema InspIrase nela conforme segue Internamente
lIgaes assocIatIvas estImuladas por ela. Ento o sIstema fInalIza a fala usando os
estimulos recentes como temas domInantes da corrente de pensamentos.
[22]


FIgura .22 - 7Ista da Instalao nChc(n)t, Walter PhIllIps Callery, 8anff Centre for
the Arts (fonte: http://homepage.mac.com/davIdrokeby/nchant.html, em 28.mar.2006)

Mllennum \enus, por Sharon Crace (nstalao)
http://www.fundacIon.telefonIca.com/at/egrace.html (acessado em 28.mar.2006)
CaracteristIcas - reconhecImento e sintese de fala Interpretados por uma personagem
dIgItal.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 47
Mllenum \enus uma Instalao em que o partIcIpante tem uma conversa com um
cybory. Ela sussurra segredos IncalculveIs sobre o mIlnIo e espera por uma resposta.
Ela fala de um tempo dIferente do nosso, um tempo de desaparecImento. Ela fala
sobre as eternas varIaes em uma nova lInguagem, um novo sIstema de
representao entre estimulos e respostas. No fInal ela pergunta se possivel resIdIr
no tempo, Inventar expectatIvas de vIda, reInventar o espao. EquIpamento usado:
estao de trabalho PC, reconhecImento de voz, cmera de vIgIlncIa, dIsco laser.
[2J]


FIgura .2J - nstalao Mllennum \enus (fonte:
http://www.fundacIon.telefonIca.com/at/egrace.html, em 28.mar.2006)
Synthetc Speech Thectre (1986) e lnqury Thecter (1991), por Stephen WIlson
(nstalaes)
http://userwww.sfsu.edu/7EswIlson/ (acessado em 28.mar.2006)
CaracteristIcas - reconhecImento e sintese de fala Interpretados por personagens
dIgItaIs (Synthetc Speech Thectre) / reconhecImento de fala Interpretado por
sIstema de navegao vIrtual (lnqury Thectre).
Synthetc Speech Thectre uma Instalao com quatro personalIdades
computacIonaIs programadas para conversar com os vIsItantes vIa sintese de fala e
reconhecImento de voz. D computador permItIa que cada voz vIesse de seu proprIo
espao.
[22]

lnqury Thectre uma Instalao em que os partIcIpantes podem fazer uma
camInhada vIrtual pela |IssIon Street no tnIco baIrro |IssIon de So FrancIsco. D
48 nterfaces de 7oz em AmbIentes HIpermIdItIcos
reconhecImento de fala determIna a dIreo do movImento e a entrada vIrtual nas
lojas. As Imagens so acompanhadas por musIca dos paises de orIgem dos resIdentes
de |IssIon.
[24]


FIgura .24 nstalao lnqury Thecter no Ars ElectronIca 1991 (fonte:
http://lInztermIne.aec.at/en/archIves/prIx_archIve/prIx_projekt.asp:IProject0=10885, em
25.abr.2006)
Drycnum, por Creg NIemeyer, 0an Perkel and Fyan Shaw (nstalao 2005)
http://art.berkeley.edu/nIemeyer/ (acessado em 28.mar.2006)
CaracteristIcas - reconhecImento e sintese de fala para controle de jogo.
Drycnum um projeto de arte colaboratIvo que explora a voz humana por meIo do
som, da Imagem e da tecnologIa. D Drycnum Plcytest (2005), um vIdeogame no qual
os jogadores navegam atravs de um modelo da caIxa de voz humana usando suas
proprIas vozes como controladores de jogo, a pea central da Instalao de uma
semana Drycnum, que IncluI uma hIstorIa anterIor do Drycnum, um fIlme, e uma
srIe de Ilustraes recentes gravadas em vIdros e espelhos.
[25]



FIgura .25 - nstalao Drycnum,
2005, New Langton Arts, San
FrancIsco, CA. Photo: |onIca Lam
(fonte:
http://art.berkeley.edu/nIemeyer/,
em 28.mar.2006)
nterfaces de 7oz em AmbIentes HIpermIdItIcos 49
Lvny Room, por ChrIsta Sommerer E Laurent |Ignonneau (nstalao 2001)
www.Interface.ufg.ac.at/chrIstalaurent/WDFKS/CDNCEPTS/TheLIvIngFoomConcept.html
(acessado em 28.mar.2006)
CaracteristIcas - reconhecImento e sintese de fala em ambIente de Imerso obtendo
Imagens da nternet.
The Lvny Room um ambIente IntelIgente, composto de Imagem, som e voz
InteratIvos. Ele se torna 'vIvo' e comea a 'sentIr' quando os usurIos entram e
Interagem com sua sala. Como em um perfeIto sIstema de vIgIlncIa, todos os sons,
vozes, gestos e movImentos dos usurIos so detectados atravs de rastreamento de
cmera assIm como por sIstemas de som e de reconhecImento de voz. Quando os
vrIos usurIos comeam a InteragIr e se comunIcar uns com os outros dentro dessa
sala, eles passam tambm a se comunIcar com o The Lvny Room. Como se fosse um
organIsmo IntelIgente, The Lvny Room reagIr aos usurIos atravs da Interpretao
da posIo coletada e os dados de fala na forma de Imagens e elementos de Imagem
mostrados nas quatro grandes paredes de projeo da sala. Todas as Imagens e
elementos de Imagens so dIretamente derIvados da nternet, eles so as
Interpretaes do The Lvny Room para as Interaes e conversas dos usurIos. 7Isto
que a posIo, movImento e dados de voz dos usurIos esto constantemente
mudando, as Imagens que fluem da nternet esto constantemente mudando tambm.
0evIdo quase IlImItada quantIdade de dados de Imagem dIsponivel na nternet, os
usurIos fIcam completamente Imersos neste espao de Imagem vIrtual da nternet,
mostrado como fluxosvIvos nas quatro paredes de projeo. Alm de Interpretar
vIsualmente as Interaes e conversaes, The Lvny Room tambm usa esses dados
para gerar e transmItIr sua proprIa saida de som e voz. ConceItualmente, The Lvny
Room joga metaforIcamente com IdIas de vIgIlncIa, deteco, IntelIgncIa,
Incorreta compreenso de sIgnIfIcados, e comunIcao. Para os usurIos, ela fornece
um sentImento de Imerso em um espao de dados dInmIco e constantemente
mudando, cheIo de Imagens, sons e vozes ImprevIsiveIs.
[26]


FIgura .26 - The Lvny Room, 2001
(fonte:
www.Interface.ufg.ac.at/chrIsta
laurent/WDFKS/CDNCEPTS/TheLIvIngFoomConcept.html,
em 28.mar.2006)
50 nterfaces de 7oz em AmbIentes HIpermIdItIcos
Como podemos observar, at o presente momento, aInda so poucos os trabalhos
que envolvem reconhecImento de voz/fala, e a maIorIa deles so Instalaes
apoIadas em desenvolvImento de software especifIco para tanto (e no em
sIstemas e tecnologIas stcndcrd publIcamente dIsponiveIs).
Algumas dessas Instalaes usam a Web de algum modo, como, por exemplo,
Rdny the Net, mas as unIcas obras relacIonadas acIma que 'acontecem'
realmente no ambIente Web so netsony e Tcmpopo. No prImeIro caso, netsony,
usa apenas tecnologIas de sIntetIzao de voz, sem reconhecImento de fala ou
dIlogos; e no segundo, Tcmpopo, usa apenas o som vocal sem o reconhecImento
de fala proprIamente dIto. D lP Poetry, apesar de ser tambm projetado para
Web, aInda apenas projeto e tambm usa somente sIntetIzao de voz, sem
envolver reconhecImento de fala.
Conforme mencIonado anterIormente, so muIto recentemente as tecnologIas de
voz adquIrIram precIso e confIabIlIdade sufIcIentes para ser usadas em larga
escala, e, portanto na Web. sso explIca a pouca quantIdade de experImentaes
artistIcas na Web com taIs tecnologIas at o presente momento.
No IntuIto de aplIcar e experImentar os conceItos apresentados na presente
dIssertao, em 2004 foI desenvolvIda a webart moZcco de voSes (CabrIel,
2004), que usa reconhecImento e sintese de fala e converge o telefone e a Web,
atravs do uso de tecnologIas web standards (voIcexml). Para permItIr a ampla
experImentao na rede, o sIstema foI desenvolvIdo em trs linguas - portugus,
Ingls, espanhol. A aplIcao ser apresentada no capitulo 7.

[1] Le Pssenlt (1996) Texto orIgInal em francs, extraido do websIte: Le prIncIpe consIste
souffler sur une Image. Au bas de l'cran relI l'ordInateur, repose une fleur de pIssenlIt.
Lorsque l'on souffle sur la fleur, par l'IntermdIaIre d' un capteur dIspos sur une plaque
transparente, des multItudes d' akenes s' en dtachent et s' en vont au hasard du vent. Chacun
effeuIlle la sphere toIle sa manIere, rapIdement ou lentement, cherchant le rve ou
l'effIcacIt. (...) En ralIt, ces Images sont le rsultat d' une InteractIon entre objet vIrtuel
plume ou pIssenlIt , rsIdant dans l'ordInateur, et un lment tranger, extrIeur, le souffle du
spectateur.
[2] Les Pssenlts (2005) Texto orIgInal em Ingls, extraido do websIte: n thIs InteractIve work, 9
umbels of dandelIon are gently scattered by a vIrtual breeze correspondIng to the real breath
nterfaces de 7oz em AmbIentes HIpermIdItIcos 51
that the spectator dIrects to the screen; seeds detached themselves, then, fly away and fall
down slowly. New umbels grow agaIn ready to undergo the puff of a new InteractIon.
[Arborescence 05, School of art, AIxenProvence]
[J] Tamoo - Texto orIgInal em Ingles, extraido do websIte: TA|PDPD Is Japanese for dandelIon,
and In Japan, as Is In New Zealand, dandelIons occupy a sphere of folklore. A sImple actIon of
blowIng creates a space amongst the bustle of human doIngs, It creates a dIrect relatIonshIp wIth
nature, and It acts as a trIgger of memorIes and nostalgIc journeys. Perhaps It trIggers memorIes
of wIshes made and long sInce forgotten. The subject In TA|PDPD Is a gIant loomIng dandelIon,
an InteractIve dIgItal work that lets you blow on the head of the dandelIon and watch Its spores
gently drIft away. (.) Tecnology ThIs InstallatIon use sound Input fed through mIcrophone, and
blowIng sound trIggers seeds to spread. use cheap mIcrophone from K|art, they are especIally
good for pIckIng up blowIng noIse. Two or more dandelIons communIcate to each other usIng
ColIn |oock's UnIty (http://moock.org/unIty) multIuser server/clIent. Dne blow can affect not
only the dandelIon In front of you but other dandelIons on the network (or nternet). A number of
vIewers can blow each other's and theIr dandelIon from remote locatIons usIng thIs technIque.
[4] arbe Lberaton - Texto orIgInal em Ingls, extraido do websIte: Teen Tclk 8crbe proved to
be the fInal straw. People who were already upset at 8arbIe's anorexIc fIgure and her way of
turnIng play Into superfIcIal consumerIsm couldn't belIeve theIr ears when 8arbIe's electrIc voIce
box gIggled: "|ath Is hard", " love shoppIng!", "WIll we ever have enough clothes:". n 1989 the
8arbIe LIberatIon DrganIzatIon was formed. TakIng advantage of sImIlarItIes In the voIce
hardware of Teen Tclk 8crbe and the Tclkny 0uke 6.l. 1oe doll, er, "actIon fIgure," they
absconded wIth several hundred of each and performed a stereotypechange operatIon on the
lot. The surgery was no sImple matter - cIrcuIt boards had to be trImmed, a capacItor moved,
and a swItch reengIneered. The press made It sound lIke an easy popandswItch operatIon, but
thIs took some research and dedIcatIon. The 8LD returned the altered dolls to the toy store
shelves, who then resold them to chIldren who had to Invent scenarIos for 8arbIes who yelled
"7engeance Is mIne!" and C.. Joes who daydreamed "Let's plan our dream weddIng!" Cleverly
placed "call your local T7 news" stIckers on the back ensured that the medIa would have genuIne
recIpIents to IntervIew as soon as the news broke.
[5] Alert Texto orIgInal em Ingls, extraido do websIte: The characterIstIc backdrop of sound -
sIrens, alarms - and the hIgh noIse level of the cIty of Cluj were the startIng poInt for the work
Alert. 8arbara |usIl reprogrammed the alarm systems of ten vehIcles from the regIon of Cluj
and replaced the alarm sIgnal wIth songs and texts relatIng to the theme of theft. WIth these
Installed In the cars as a permanent InterventIon, she left behInd her own acoustIc note In Cluj.
[6] l have Never Read the ble Texto orIgInal em Ingls, extraido do websIte: The memory Is the
complete text from the KIng James versIon of the 8Ible and the object Is an old Webster's
0IctIonary. The 8Ible Is whIspered from the dIctIonary one letter at a tIme. The work stores the
ASC text of the 8Ible and the artIst's voIce whIsperIng the letters of the alphabet. The
electronIc text from the 8Ible accesses the whIspered letters one at a tIme, creatIng a
52 nterfaces de 7oz em AmbIentes HIpermIdItIcos
representatIon of the artIst readIng the 8Ible. WhIle recordIng the letters beIng whIspered,
|ozart's Requem was playIng In the background, so each whIspered letter has a fragment of the
musIc assocIated wIth It.
[7] 0rheus Texto orIgInal em Ingles, extraido do websIte: Drpheus appears as the projected
Image of a speakIng puppet head. The work Is derIved from the fIlm Drphe (1950) by Jean
Cocteau, and Is Intended for InstallatIon In a place removed from ordInary traffIc In a cave, an
abandoned tower, or another obscure locatIon. From tIme to tIme, he speaks a declaratIve
statement, and these are seemIngly never repeated. The statements came about as follows:
FIrst, It was used the orIgInal (translated) sentences from Cocteau's fIlm all of the phrases that
were spoken over the radIo, In sequence as a grammatIcal matrIx. So the matrIx Is a kInd of
crosssectIon of the orIgInal screenplay, payIng attentIon to only one aspect of the fIlm the
radIo trIck that 0eath arranges In order to lure Drpheus Into the underworld, the found texts
from the medIa that hypnotIze Drpheus. Then, It was added further words (of the artIst own), as
possIble words In the matrIx. The computer program randomly pulls words from thIs matrIx each
tIme through the loop of the overall pIece. n thIs way, the orIgInal syntax Is fIxed, but the
poetry Is realtIme and varIable.
[8] Seech Scultures - Neste caso, o texto apresentado um resumo feIto sobre a obra e no uma
traduo.
[9] netsony Texto orIgInal em Ingles, extraido do websIte: netsong Is the song of the Web, as
performed by a Web search engIne robot. To start a netsong, the person enters a searchterm.
When provIded a searchterm, the netsong bot wIll search for thIs term In a search engIne, then
choose a page from the search results and begIn followIng lInks from that page. t wIll contInue
to follow lInks from the resultIng pages IndefInItely, backIng up and reroutIng If It hIts a dead
end. HappIly gatherIng text from each page It vIsIts, the netsong bot savors the unIque lyrIcalIty
and poIgnant narratIve of the Web and begIns to sIng It. Not content to merely surf the
InformatIon superhIghway, the netsong bot makes It musIc.
[10] lP Poetry Texto orIgInal em Ingls, extraido do websIte: Project to develop both software
and hardware that wIll, usIng texts selected from the nternet as raw materIal, generate
automatIc poetry to be recIted by poetautomatons. These automatons, called P 8ots, recIte the
poetry created by hIs software employIng a serIes of poetrygeneratIng rules. The P 8ots wIll
IronIcally emulate heads havIng mouths comprIsed of loudspeakers housIng LC0 screens, and eyes
replaced by network connectIons and wIres.
[11] Huye Harry Texto orIgInal em Ingls, extraido do websIte: Huge Harry Is one of the
personalItIes of the speech synthesIs machIne |Talk, desIgned by 0ennIs Klatt at the |..T.
Speech Laboratory, and currently marketed by the 0IgItal EquIpment CorporatIon as 0ECtalk. He
started hIs professIonal career as an unassumIng talkIng head, but over the last decade he has
developed Into one of the most outspoken and authorItatIve voIces In the dIscussIon about art,
socIety and technology always representIng the computatIonal poInt of vIew wIth great vIgor
nterfaces de 7oz em AmbIentes HIpermIdItIcos 5J
and clarIty. He has now taken on the presIdency of the nstItute of ArtIfIcIal Art In Amsterdam,
and Is IncreasIngly Involved In polItIcal actIvIsm as a partIcIpant In the machIne rIghts movement.
Huge Harry also works as a sInger In varIous musIcal genres, often In collaboratIon wIth hIs
frIends Perfect Paul and WhIsperIng Wendy.
[12] Talkny Machne Texto orIgInal em Ingls, extraido do websIte: TalkIng |achIne Is an
acoustIc speech synthesIzer. The speech sounds are produced usIng a flow of aIr and resonators
just as In natural speech. The machIne has J2 pIpes, each one a sImplIfIed versIon of the human
vocal tract. They reproduce the spaces whIch are formed In the mouth, nose and throat when we
speak. The pIpes are buIlt accordIng to measurements of XFay photographs taken of a person
speakIng. n other words, the EpIpe reproduces the narrow shape of the human mouth sayIng E,
the DD pIpe has somethIng lIke the small round DDshaped lIps and so on. S, F, Sh and sImIlar
sounds are produced by specIal whIstles whIch reproduce the shapes made by the lIps, tongue
and teeth. The valves whIch control the flow of aIr are operated by a computer.
[1J] 0h to qu vs la-bas Texto orIgInal em Ingls, extraido do websIte: n thIs performance,
Letarte's voIce controlled InteractIve Imagery and text usIng FItter's InteractIve vIdeo system
(http://aesthetIcmachInery.com/orpheus.html). The speed of the changIng screens of text and
theIr movement was determIned by the tempo of Letarte's sIngIng. The text and Imagery would
slowly slIde off the bottom of the screen durIng perIods of sIlence, but return when the sIngIng
resumed. The Imagery was projected to the audIence through a large screen vIdeo projected
Image.
[14] Messa d Voce Texto orIgInal em Ingls, extraido do websIte: |essa dI 7oce Is concerned
wIth the poetIc ImplIcatIons of makIng the human voIce vIsIble. n |essa dI 7oce, the core
technology whIch makes thIs possIble Is a custom software system whIch Integrates realtIme
computer vIsIon and speech analysIs algorIthms. SpecIfIcally, a computer uses a vIdeo camera In
order to track the locatIons of the performers' heads. ThIs computer also analyses the audIo
sIgnals comIng from the performers' mIcrophones. n response, the computer dIsplays varIous
kInds of vIsualIzatIons on a projectIon screen behInd the performers; these vIsualIzatIons are
synthesIzed In ways whIch are tIghtly coupled to the sounds spoken and sung by the performers.
DwIng to the headtrackIng system, moreover, these vIsualIzatIons can be projected such that
they appear to emerge dIrectly from the performers' mouths. n some of the vIsualIzatIons,
projected graphIcal elements not only represent vocal sounds vIsually, but also serve as a
playable InteractIve Interface by whIch the sounds they depIct can be retrIggered and
manIpulated by the performers.
[15] Summoned Voces Texto orIgInal em Ingls, extraido do websIte: Summoned 7oIces acts as a
lIvIng memory of people and place. t consIsts of a serIes of door InstallatIons each wIth an
Intercom, sound system and a computer that Is networked to a central fIle and database server.
The desIgn metaphor of the door presents a famIlIar scenarIo, that of announcIng oneself at a
doorway and waItIng for a response from persons unknown. SIgnage Instructs the publIc to speak,
make sounds or sIng Into the Intercom. TheIr voIce Is stored and Interpreted, and results In local
54 nterfaces de 7oz em AmbIentes HIpermIdItIcos
playback composed of the IndIvIdual's voIce wIth those that have gone before. Summoned 7oIces
acts as an Interpreter of sound, a message board and an ImprInt of a communIty a place for
expressIon, reflectIon and surprIse.
[16] Unversal Translator Texto orIgInal em Ingls, extraido do websIte: UnIversal Translator Is
an InteractIve sound and vIdeo work focused on the sound hardware of the human body. The
Interface for thIs work Is a mIcrophone wIth a mIcro vIdeo camera embedded In Its head so that
the camera looks dIrectly at the mouth from very close up. The sound of the voIce and vIdeo of
the movIng lIps are captured by computers. These sounds and Images provIde most of the
content, and are used to control most of the InteractIvIty of the work. A computer monItor faces
the Interactor and dIsplays the processed mouth Images. Sound Is recorded Into computer
memory, and Is avaIlable for analysIs, processIng and output ImmedIately. The sound Is analysed
for phonemIc content, and vocal IntensIty InformatIon. ThIs InformatIon Is used to control varIous
aspects of the sound processIng and output. ncomIng sound Is fed Into a lIve granular synthesIs
system so that the sound may be stretched (wIth or wIthout pItch shIft), shortened, shattered,
and dIffused In varIous ways. The IncomIng audIo Is also chopped Into syllablelIke fragments
whIch are stored and replayed In response to features In the IncomIng audIo. As a result, a dense,
hoverIng soundworld Is constructed usIng only the sounds provIded over the recent past by the
Interactors. The vIdeo aspect of thIs work Is Intended to be secondary to the audIo. The screen Is
InItIally black. When the mIcrophone hears a sound, the vIdeo of the mouth fades up Into
vIsIbIlIty, fadIng out agaIn when the sound Is fInIshed. When no sound Is heard for some tIme,
short vIdeo clIps appear that comment on the relatIonshIp between language and the body.]
[17] Cver oj Names Texto orIgInal em Ingls, extraido do websIte: The CIver of Names Is quIte
sImply, a computer system that gIves objects names. The InstallatIon Includes an empty
pedestal, a vIdeo camera, a computer system and a small vIdeo projectIon. The camera observes
the top of the pedestal. The InstallatIon space Is full of stuff... objects of many sorts. The
gallery vIsItor can choose an object or set of objects from those In the space, or anythIng they
mIght have wIth them, and place them on the pedestal. When an object Is placed on the
pedestal, the computer grabs an Image. t then performs many levels of Image processIng
(outlIne analysIs, dIvIsIon Into separate objects or parts, colour analysIs, texture analysIs, etc.)
These processes are vIsIble on the lIfesIze vIdeo projectIon above the pedestal. n the
projectIon, the objects make the transItIon from real to Imaged to IncreasIngly abstracted as the
system trIes to make sense of them. The results of the analytIcal processes are then 'radIated'
through a metaphorIcallylInked assocIatIve database of known objects, Ideas, sensatIons, etc.
The words and Ideas stImulated by the object(s) appear In the background of the computer
screen, showIng what could very loosely be descrIbed as a 'state of mInd'. From the words and
Ideas that resonate most wIth the perceptIons of the object, a phrase or sentence In correct
EnglIsh Is constructed and then spoken aloud by the computer.
[18] Unversal Whstlny Machne Texto orIgInal em Ingls, extraido do websIte: WhIstlIng Is a
communIcatIon prImItIve In most human languages. WhIstlIng Is a kInd of tIme travel to a less
artIculated state. nhabItants of Comera, one of the Canary slands, use a whIstlIng language, el
nterfaces de 7oz em AmbIentes HIpermIdItIcos 55
SIlbo Comera, to communIcate from hIlltop to hIlltop. TheIr powerful whIstles travel farther than
the spoken word. We share whIstlIng and song wIth many anImals. |ammals and bIrds carry the
means for whIstlIng In them. Just as we carry physIcal remnants of our bodIly evolutIon In us, we
carry the capacIty for whIstlIng In us. U.W.| Is an InvestIgatIon Into the vexIng problem of
humanmachIne Interface desIgn. WhIstlIng Is much closer to the phonemeless sIgnal prImItIves
compatIble wIth dIgItal machInery than the messy domaIn of spoken language. As opposed to
pushIng machInes Into engagIng humans In spoken language, U.W.|. suggests we meet on a
mIddle ground. WhIstlIng occurs across all languages and cultures. All people have the capacIty to
whIstle, though many do not whIstle well. LackIng phonemes, whIstlIng Is a prelanguage
language, a candIdate for a lImIted Esperanto of humanmachIne communIcatIon. 8eyond
alternatIves to computer Interfaces, U.W.|. also offers the potentIal for a new approach to
humananImal communIcatIon. U.W.|. Is capable of ImItatIng certaIn bIrd whIstles as easIly as It
can synthesIze human whIstles. Could thIs lead to new forms of humanmachIneanImal
exchanges:
[19] Talk Nce - Texto extraido do websIte http://www.Itaucultural.org.br/, em 8.maI.2006.
[20] Rdny the Net Texto orIgInal em Ingls, extraido do websIte: FIdIng the Net Is an nternet
art work where whIle two users talk and communIcate wIth each other, the keywords of theIr
communIcatIon are beIng pIcked up by the system's speech recognItIon engIne. These keywords
are then used to search and download the correspondIng Images from the nternet. When users
for example speak about houses or flowers, dIfferent Images of houses or flowers are
downloaded. As there Is usually a vast amount of Images avaIlable for each keyword, users see
new Image Icons constantly beIng retrIeved from the nternet. All Images are then collectIvely
dIsplayed In J0 In the system's InteractIve wIndow and streamed from the respectIve sIde of
each user. As Images come from eIther the left or rIght sIde of the screen, they all stream toward
each other before leavIng the screen and beIng replaced by new Images derIved from new
keywords spoken by the two users. The entIre Image scenarIo on the wIndow surface constantly
changes, sInce It Is a dIrect InterpretatIon of the users' dIalogue and communIcatIon wIth each
other. 8oth users can also touch the Image Icons on the screen: thIs halts the Images temporarIly
so users can look at specIfIc Image Icons In more detaIl. 8y doIng thIs, the exact Web address
(UFL) for thIs specIfIc Image Icon can be downloaded onto a separate computer screen so users
fInd out where thIs Image came from and what It refers to. FIdIng the Net thus provIdes an
entertaInIng and playful way to browse the nternet and, somewhat sImIlar to watchIng T7, users
become IntensIvely engaged In the vast amount of vIsual InformatIon avaIlable and presented by
the system. However FIdIng the Net Is obvIously more InteractIve than watchIng T7, and users
can control the content of what they are watchIng through theIr own decIsIons, dIalogue and
InteractIon.
[21] RE:MARK Texto orIgInal em Ingls, extraido do websIte: FE:|AFK Is an InstallatIon for two
partIcIpants whIch lIkewIse presents an InteractIve vIsualIzatIon of Its users' speech. FE:|AFK
addresses Its InquIry towards the symbolIc domaIn of the spoken and wrItten word. n RE:MARK,
sounds spoken Into a paIr of mIcrophones are analyzed and classIfIed by a phoneme recognItIon
56 nterfaces de 7oz em AmbIentes HIpermIdItIcos
system. When a phoneme Is recognIzed wIth suffIcIent confIdence, the wrItten name of the
phoneme (for example, oh, ee, ch, etc.) Is projected on the InstallatIon's dIsplay. f the user's
sound Is not recognIzed by the system's classIfIer, then an abstract shape Is generated Instead,
based dIrectly on the tImbral characterIstIcs of the vocalIzatIon. As the vIsItor speaks, the
correspondIng wrItten phonemes and abstract forms are rendered as sIlhouettes, and appear to
emerge from the shadow of the speaker's head. A computervIsIon system permIts the vIsItors to
sweep these forms across the screen wIth the shadow of theIr body. The result Is a playful and
revelatory IllusIon, In whIch the InstallatIon's vIsItors become actors In a shadow world of
reactIve cartoon language.
[22] n-cha(n)t Texto orIgInal em Ingls, extraido do websIte: ncha(n)t Is a communIty of CIvers
of Names lInked by a network. They IntercommunIcate, and through doIng so, 'synchronIze' theIr
IndIvIdual Internal 'states of mInd'. When left unInterrupted to communIcate among themselves,
they eventually fall Into chantIng, a shared stream of verbal assocIatIon. ThIs consensus unfolds
very organIcally. The systems feel theIr way towards each other, fIndIng resonance In synonyms
and sImIlar soundIng words, workIng through dIfferent formulatIons of sImIlar statements untIl
fInally achIevIng unIson. Each entIty Is equIpped wIth a hIghly focused mIcrophone and voIce
recognItIon software. When a gallery vIsItor speaks Into one of the mIcrophones, these words
from the outsIde dIstract that system, stImulatIng a shIft In that entIty's 'state of mInd'. As a
result, that IndIvIdual falls away from the chant. As It begIns communIcatIng thIs new Input to Its
nearest neIghbors, the communIty chantIng loses Its coherence, wIth the chantIng veerIng
towards a partylIke chaos of voIces. n the absence of further dIsruptIons, the
IntercommunIcatIons reInforce the sImIlarItIes and draw the communIty back to the chant. The
ears vIsIble on the computer monItors show the state of receptIvIty of each system. When the
system Is ready to lIsten, a lIstenIng ear Is shown on the screen. f the system hears a sound, It
cups Its ear to concentrate. When 'thInkIng', a fInger Is pressed Into the ear. f the system feels
over stImulated, It covers Its ear wIth a hand to IndIcate Its unwIllIngness to lIsten. As a system
processes speech, the IncomIng words are dIsplayed In the ear on the monItor. After the
IncomIng speech fInIshes, the system muses on the Input as It Internally follows assocIatIve lInks
stImulated by the Input, and then It resumes speakIng, usIng the recent stImulI as domInant
themes of the stream of thoughts.
[2J] Mllenum Venus Texto orIgInal em Ingls, extraido do websIte: |IllenIum 7enus Is an
InstallatIon where the partIcIpant has a conversatIon wIth a cyborg. She whIspers untold secrets
about the |IllenIum and waIts for a reply. She talks from a tIme dIfferent from our own, a tIme
of dIsappearance. She talks about the eternal varIatIons In a new language, a new system of
representatIon between stImulus and answers. n the end she asks If It Is possIble to dwell In
tIme, to Invent lIfe span, to reInvent space. EquIpment used: PC workstatIon, voIce recognItIon,
surveIllance camera, vIdeo laserdIsc.
[24] Synthetc Seech Theatre lnqury Theater Texto orIgInal em Ingls, extraido do websIte:
SynthetIc Speech Theatre Is an InstallatIon wIth 4 programmed computer personalItIes conversed
wIth vIewers vIa synthesIzed speech and voIce recognItIon. Computer enabled each voIce to come
nterfaces de 7oz em AmbIentes HIpermIdItIcos 57
from Its own space. nquIry Theater Is an InstallatIon where partIcIpants could take a vIrtual walk
down |IssIon Street In San FrancIsco's ethnIc |IssIon neIghborhood. Speech recognItIon
determIned dIrectIon of movement and vIrtual entry Into the stores. mages were accompanIed
by musIc from countrIes of orIgIn for |IssIon resIdents.
[25] 0ryanum Texto orIgInal em Ingls, extraido do websIte: Drganum Is a collaboratIve art
project, whIch explores the human voIce through sound, Image and technology. Drganum Playtest
(2005), a vIdeo game In whIch gamers navIgate through a model of the human voIce box usIng
theIr own voIces as game controls Is the centerpIece of the weeklong Drganum InstallatIon,
whIch Includes an earlIer Drganum story, a movIe, and a serIes of recent IllustratIons etched In
glass and In mIrrors.
[26] The Lvny Room Texto orIgInal em Ingls, extraido do websIte: The LIvIng Foom Is an
IntellIgent, InteractIve Image, sound and voIce envIronment. t becomes alIve and starts to
sense when users enter and Interact wIth thIs room. LIke In a perfect surveIllance system all
sounds, voIces, gestures and motIons of the users are detected through stateoftheart camera
trackIng as well as sound and voIce recognItIon systems. When the varIous users start to Interact
and communIcate wIth each other wIthIn thIs room, they wIll also start to communIcate wIth
The LIvIng Foom. As If It were an IntellIgent organIsm, The LIvIng Foom wIll react back to the
user by InterpretIng the collected posItIon and speech data In form of Images and Image
elements dIsplayed on the room's four large projectIon walls. All Images and Image elements are
dIrectly derIved from the nternet, they are The LIvIng Foom's InterpretatIon of the users'
InteractIons and conversatIons. SInce the users' posItIon, movement and voIce data are constantly
changIng, the Images streamed from the nternet are changIng constantly as well. 0ue to the
almost unlImIted amount of Image data avaIlable on the nternet, the users wIll become
completely engulfed In thIs vIrtual Image space of the nternet, dIsplayed as lIfestreams on the
four projectIon walls. 8esIdes InterpretIng the users' InteractIons and conversatIons vIsually, The
LIvIng Foom also uses these data to generate and broadcast Its own sound and voIce output.
Conceptually The LIvIng Foom thus metaphorIcally plays wIth Ideas of surveIllance, detectIon,
IntellIgence, InterpretatIon, mIssInterpretatIon and communIcatIon. To the users It provIde a
feelIng of ImmersIon Into a constantly changIng and dynamIc data space, full of unpredIctable
Images, sounds and voIces.
58 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 59
III. Interfaces de Voz
III.1. Interfaces
Segundo PIerre Lvy (199J: 176), "uma Interface homem/mquIna desIgna o
conjunto de programas e aparelhos materIaIs que permItem a comunIcao entre
um sIstema InformtIco e seus usurIos humanos". Portanto, at que humanos e
computadores comecem a falar a mesma lingua, as Interfaces sero sempre
necessrIas para medIar entre eles os sIgnos.
A Interface uma relao a trs: o computador, o usurIo, e o desIgner que a
projeta. 0ependendo do modo como projetada, a Interface IntermedIar a
relao entre homem e computador de maneIras dIferentes. AdmItIndose que a
lInguagem utIlIzada pelo homem no mude, e que a lInguagem utIlIzada pelo
computador tambm no, a Interface o unIco elemento mutvel na relao que
poder afetar a Interao entre homem e computador. Neste sentIdo, a Interface
o elemento dIferencIal na relao.
As Interfaces e tecnologIas a elas assocIadas afetam e guIam nossa percepo e o
modo como agImos no mundo. FrIedrIch NIetzsche costumava dIzer que a
mquIna de escrever InfluencIou profundamente o seu modo de pensar e
escrever. EInsteIn dIzIa que seu lpIs fazIa clculos maIs rpIdos que sua mente.
Johnson (2001) defende o mesmo ponto de vIsta em relao s Interfaces de
computadores, e chama a ateno para o fato de que elas transformam o modo
como crIamos e nos comunIcamos se a metfora da Interface do computador
fosse outra que no uma escrIvanInha, provavelmente pensariamos de outra
maneIra. Tambm PIerre Lvy referese grande InfluncIa que as tecnologIas
exercem sobre nosso modo de agIr e pensar ao afIrmar que
dIversos trabalhos desenvolvIdos em psIcologIa cognItIva a partIr dos anos
sessenta mostraram que a deduo ou a Induo formaIs esto longe de serem
pratIcadas espontaneamente e corretamente por sujeItos reduzIdos apenas
aos recursos de seus sIstemas nervosos (sem papel, nem lpIs, nem
possIbIlIdade de dIscusso coletIva). Lvy (199J: 152)
Uma das maIs fortes tendncIas preconIzadas para o futuro que os
computadores se tornaro InvIsiveIs, como acredIta Farber (20041), de modo que
as Informaes e servIos dIgItaIs na nternet, ao Invs de serem transmItIdos vIa
60 nterfaces de 7oz em AmbIentes HIpermIdItIcos
computadores convencIonaIs, estaro dIsponiveIs atravs de quase todas as coIsas
que tocamos: quIosques, assentos de avIo, jornaIs e uma ampla gama de novos
dIsposItIvos. No entanto, mesmo que os computadores desapaream, as suas
Interfaces aInda afetaro o modo como pensamos e agImos, poIs provvel que
Interfaces de computadores InvIsiveIs requeIram um novo nivel de Interao
humana e despertem um novo nivel de pensamento e percepo.
Na era contempornea em que vIvemos, estamos cercados por tecnologIa e
mquInas em todos os lugares, e portanto estamos Imersos em Interfaces (mesmo
que elas sejam InvIsiveIs). sto tambm ocorre, e de modo acentuado, na
nternet usamos a nternet por meIo de Interfaces, e elas afetam nossas
Interaes.
As Interfaces vIsuaIs tm sIdo o padro domInante na nternet at o momento - a
Web tem sIdo 'surda e muda' (no sentIdo de no podermos InteragIr com ela
conversando em lIguagem natural). No entanto, com a evoluo da precIso e
dIsponIbIlIdade das tecnologIas de voz (reconhecImento e sintese de fala)
atualmente, possivel 'conversar com a Web', InteragIndo de modo oral atravs
das Interfaces de voz, vIa telefone ou browser, como analIsaremos a seguIr.

III.2. Interfaces de Voz
nterfaces de voz so sIstemas computacIonaIs especIalIzados que permItem que
ocorram dIlogos entre seres humanos e computadores (outros sIstemas
computacIonaIs), de modo que os comandos computacIonaIs sejam sIntetIzados
em voz para serem entendIdos pelos humanos, e as falas humanas sejam
reconhecIdas e transformadas em codIgos computacIonaIs pelos computadores.
0este modo, por exemplo, ao Invs de acessar uma pgIna vIsual na Web, atravs
de browser, para preencher um formulrIo de reserva de passagem area, pode
se atravs do uso de Interfaces de voz, falar com a Web para se fornecer as
mesmas Informaes.
As Interfaces de voz so exclusIvas no sentIdo que elas so baseadas na lInguagem
falada. A comunIcao oral tem um grande papel na vIda dIrIa. 0esde as maIs
nterfaces de 7oz em AmbIentes HIpermIdItIcos 61
tenras Idades, gastamos uma parte substancIal de nossas horas acordados em
conversas (Cohen 2004: 7).
Segundo PInker (2002: 10), a lInguagem um InstInto - uma adaptao bIologIca
para transmItIr Informao. A IdIa da lInguagem como um tIpo de InstInto foI
concebIda pela prImeIra vez por 0arwIn em 1871, e no sculo XX, a tese maIs
famosa de que lInguagem como InstInto foI elaborada por Noam Chomsky
(PInker, 2002: 14). Sendo ento a lInguagem um InstInto natural humano, no
de se admIrar que desde que as mquInas exIstem na ImagInao humana, a
utIlIzao da lInguagem natural para conversar com elas um desejo latente.
Conforme WIlson:
A habIlIdade de produzIr e compreender a lInguagem falada foI IdentIfIcada
por antropologos como uma das prIncIpaIs realIzaes de nossas espcIes.
Dutros anImaIs, como os golfInhos e os prImatas, podem ter capacIdades de
comunIcao vocal sIgnIfIcantes, mas eles no se aproxImam das capacIdades
humanas. (WIlson, 2002: 775)
No entanto, apesar de falar ser o modo maIs natural e humano de InteragIr,
acessar a nternet atravs de Interfaces de voz to dIferente de navegar na
Web com um browser vIsual (como o nternet Explorer ou Dpera, por exemplo)
quanto conversar ao telefone dIferente de ler uma revIsta e escrever uma
carta. Hoje, estamos acostumados a 'folhear' e 'escrever' na Web, o que
bastante dIferente de 'conversar' com a Web.
Pensando nas dIferenas envolvIdas entre Interfaces vIsuaIs e auraIs, podemos
comear com as partIcularIdades das caracteristIcas da voz. A prImeIra a
transIncIa. AssIm que falada ou escutada, a voz desaparece, e exIge que
lembremos o que foI dIto. Por outro lado, elementos vIsuaIs so persIstentes:
A voz um meIo unIdImensIonal com persIstncIa zero. D monItor (de
computador) um meIo bIdImensIonal que combIna persIstncIa (voc pode
olhar para ele pelo tempo que quIser) com atualIzao seletIva (voc pode
dIgItar um valor em qualquer campo da tela sem mudar o resto dela).
(NIelsen, 200J)
AInda, segundo Santaella:
D prImeIro prIncipIo da sonorIdade est na sua evanescncIa, algo que a
passagem do tempo leva desaparIo, pelo sImples fato de que o som foI
feIto para passar, aquIlo que acontece no tempo para ser levado junto com o
tempo, e o prImeIro (...) prIncipIo da vIsualIdade est na forma, mesmo
62 nterfaces de 7oz em AmbIentes HIpermIdItIcos
quando Informe, forma que se presentIfIca dIante dos nossos olhos. Algo que
se Impregna de matrIa, mesmo quando essa matrIa onirIca. (Santaella,
2001: J69)
A segunda partIcularIdade da voz a InvIsIbIlIdade. sso torna maIs dIficIl IndIcar
ao usurIo quaIs opes que ele pode executar e o qu ele precIsa dIzer para
executlas. Nas Interfaces vIsuaIs, podemos ter sempre vIsiveIs os menus e
Instrues que os acompanham a cada etapa dos processos em execuo.
A terceIra partIcularIdade a assImetrIa da voz. A voz pode ser produzIda muIto
maIs rapIdamente do que pode ser entendIda; um usurIo pode falar maIs rpIdo
do que dIgItar; e um usurIo pode escutar maIs devagar do que pode ler. Em
Interfaces vIsuaIs, o usurIo tem o seu proprIo rItmo de Interao para sIncronIzar
antes de dar contInuIdade ao processo. Nas Interfaces de voz, o rItmo nem
sempre controlado por ele, e, sIm, pela Interface.
Podemos dIzer, segundo Cohen (2004: 6), que exIstem duas modalIdades possiveIs
de Interfaces de voz quanto aos sentIdos humanos utIlIzados - 1) puramente
auraIs: onde todo o processo ocorre apenas atravs de sons e da oralIdade da
fala, sem auxilIo de qualquer suporte vIsual; 2) multImodaIs: onde o processo de
Interfaceamento por voz auxIlIado por algum tIpo de sIstema vIsual assocIado.
No prImeIro caso, Interfaces de voz puras, temos como exemplo, o acesso
Interface por meIo do telefone (ver, como exemplo, a aplIcao moZcco de
voSes, no Capitulo 7). No segundo caso, podemos cItar como exemplo os
browsers (navegadores) multImodaIs, como o Dperc 8, que permIte acesso
sImultaneamente a Informaes vIsuaIs enquanto se Interage sImultaneamente
por voz. (7er a aplIcao Multmodcl Chnese Food, usando o Dpera, em
[http://wwwJ06.Ibm.com/software/pervasIve/multImodal/chInese/],
desenvolvIda pela 8|).
As metodologIas e prIncipIos de desIgn de Interfaces de voz (7U - 7oIce User
nterface) se sobrepem substancIalmente com os usados para o desIgn de outros
tIpos de Interfaces. No entanto, exIste uma quantIdade de caracteristIcas das
Interfaces de voz que apresentam desafIos e oportunIdades unIcas de desIgn.
0uas caracteristIcas se destacam quando a modalIdade puramente aural, e a
Interao atravs da lInguagem falada. (Cohen 2004: 6)
nterfaces de 7oz em AmbIentes HIpermIdItIcos 6J
Alm das partIcularIdades da voz proprIamente dItas afetarem as Interfaces de
voz puramente auraIs, seu funcIonamento tambm dIfere do das Interfaces
vIsuaIs, conforme o quadro abaIxo, montado por nos:


Interfaces VIsuaIs Interfaces de Voz

8aseada em pgInas vIsuaIs bIocos de dIIogos

Planejada para controIe peIos oIhos controIe peIos ouvIdos

Ao do usurIo
crebro l toque
(mouse clIques / dIgItao)
crebro l faIa

Controle do
usurIo
muItI tarefa
(vrIas janelas sImultneas
de tarefas)
mono tarefa
(uma conversao por vez)

Controle da
Interao
usurIo
(o usurIo controla o browser
vIsual user n commcnd)
computador
(o servIdor controla o browser de voz
o browser controla o processo)

Tabela .1 - Quadro comparatIvo entre o modo de operao de
Interfaces vIsuaIs e de voz

Segundo o Cartner Croup (Farber, 2004), em 2015 as Interfaces sero InvIsiveIs e
estaro em toda parte. Apesar de os sensores serem os grandes responsveIs pela
anuncIada transparncIa das Interfaces no futuro, provavelmente as Interfaces de
voz tero sua parte de responsabIlIdade neste processo, j que InvIsIbIlIdade
uma das caracteristIcas oraIs das Interfaces de voz puras. Alguns tcnIcos
entusIastas das tecnologIas de reconhecImento e uso de voz chegam a declarar
que "a Web se destIna a ser um telefone e no uma revIsta", como afIrma |ary
CronIn, colunIsta especIalIza em negocIos de nternet da revIsta Fortune (CronIn
apud |eIo 0IgItal, 2000). No entanto, ser que as Interfaces de voz, e sensores
Iro realmente causar o desaparecImento de todas as Interfaces vIsuaIs:
Conforme Kerckhove, est "aparente na arte e na hIstorIa ocIdentaIs durante a
AntIguIdade e, novamente, do FenascImento at os tempos modernos, que o vIs
sensorIo domInante tem sIdo a vIso. (...) Hoje, graas eletrIcIdade, o vIs
64 nterfaces de 7oz em AmbIentes HIpermIdItIcos
atual domInante desafIado por um vIs tctIl" (200J: 21), j que usamos
mouses, teclados, etc., durante a maIorIa dos processos de Interao
computacIonaIs. Se pensarmos nas Interfaces InvIsiveIs, devemos lembrar que
InvIsivel no o mesmo que InexIstente. nvIsivel pode ser ImaterIal, mas a
possIbIlIdade de se projetar Interfaces vIsuaIs atravs de eyesphones (pequenos
oculos que podem ser conectados nos computadores e projetam a tela frente
dos olhos), por exemplo, alIam a tendncIa de sensores e computadores InvIsiveIs
com as domInncIas vIsual e tctIl humanas.
Johnson defende que "sImples palavras contInuam desempenhando um enorme
papel na Interface hoje. E esse papel parece fadado a se tornar no minImo maIs
decIsIvo para nossos espaosInformao na proxIma dcada..." (2001: 101).
ConsIderando que o processador de texto afeta profundamente nosso modo de
crIar e escrever, e cada modalIdade de Interface altera nosso modo de pensar e
agIr no mundo, esperase realmente que as Interfaces coexIstam e tragam
hIbrIdIzaes de meIos e formas, tal como aconteceu com o emaIl, que segundo
Johnson (2001: 105), pela efemerIdade do seu formato dIgItal, crIou um estIlo de
escrIta maIs descontraido, maIs coloquIal, uma fuso de carta escrIta com
conversa por telefone.
No cenrIo tecnologIco atual, WIlson defende que
Ds computadores vm com um bagagem conceItual derIvada de suas orIgens
hIstorIcas em empresas comercIaIs e mIlItares. A tela do computador e suas
convenes de Imagem derIvam da longa hIstorIa da representao da Cultura
DcIdental Indo da pIntura, perspectIva, fotografIa, cInema, anImao grfIca
e metforas do computador. 0e modo sImIlar, a Interface fisIca convencIonal
do computador de teclado com mouse vem com uma bagagem cultural
sIgnIfIcante. Suas restrIes tm lImItado a ImagInao no sentIdo de pensar
modos pelos quaIs os sIstemas de Informaao dIgItal podem ser Integrados com
a vIda humana. (...) PesquIsadores e artIstas tm comeado a questIonar como
a Interface entre sIstemas dIgItaIs e pessoas poderIam se estender maIs
amplamente na vIda humana. ndo alm de teclados e mouse, como os
computadores poderIam ler as aes humanas tal como movImento, gesto,
toque, olhar, fala, e Interaes com objetos fisIcos: D computador vestivel
pode um dIa converter a ao do corpo em funo de Informao. (WIlson,
2002: 729)
As Interfaces de voz so uma nova opo no cenrIo atual. Segundo WIlson (2002:
775), "a extenso da fala para as mquInas marcar um evento cultural
sIgnIfIcante que mobIlIzar a ateno artistIca".
nterfaces de 7oz em AmbIentes HIpermIdItIcos 65
Levandose em consIderao que 'falar' no o mesmo que 'ler' e 'escrever', e
que esses processos coexIstem ao longo da hIstorIa da humanIdade desde as maIs
antIgas referncIas conhecIdas, podemos especular aquI que o maIs provvel
que os dIferentes tIpos de Interface - vIsual, oral, sensorIal, tctIl, etc - co
exIstam no futuro, atendendo s dIferentes necessIdades humanas, ao Invs de se
sobreporem ou se substItuirem mutuamente como os futurologos maIs entusIastas
declaram. LogIcamente, cada novo tIpo de Interface traz seus beneficIos que
atendem necessIdades especifIcas, mas as necessIdades so dIversas e varIveIs
em funo de contexto, cultura e convenIncIa.
Segundo NIelsen (200J), "as Interfaces de voz no substItuIro as telas (Interfaces
vIsuaIs) como meIo de escolha da maIorIa dos usurIos de Interface. (...) |uItas
pessoas tm uma Impresso exagerada sobre os beneficIos das Interfaces de voz,
provavelmente baseadas na proemInncIa dos computadores operados por voz de
Star Trek". D autor tambm aponta que as Interfaces de voz tm seu grande
potencIal no caso de: 1) usurIos com defIcIncIa que no os permIta usar um
mouse e/ou teclado, ou que no possam ver; 2) usurIos em sItuaes de olhos ou
mos ocupadas, como no caso de estar dIrIgIndo um carro ou consertando um
equIpamento complexo; J) usurIos que no tm acesso a um teclado e/ou
monItor (e poderIam usar, ao Invs, o telefone). Fessalta aInda que as Interfaces
de voz so uma grande promessa como um componente adIcIonal para dIlogos
multImodaIs do que como unIco canal de Interface.
Uma experIncIa funcIonal de comparao entre Web browsers controlados por
voz (em modo multImodal) e Web browsers controlados por mouse conduzIda na
UnIversIty of |arIland mostra que o controle por voz melhora o tempo de
performance em aproxImadamente 50 para determInados tIpos de tarefas.
|edIdas de subjetIvas de satIsfao IndIcam que par navegao por voz, lInks
textuaIs so preferiveIs a lInks numrIcos, mas que o mouse aInda maIs fcIl de
usar para navegao de uso geral na Web (ChrIstIan, 2000).
Podemos destacar outras potencIalIdades das Interfaces de voz, como em
sItuaes em que elas se tornam a opo preferIda, ao Invs de conversas com
pessoas proprIamente dItas, como apontado em Cohen (2004: 9), que o caso de
quando o assunto envolvIdo na conversa pode causar algum tIpo de
66 nterfaces de 7oz em AmbIentes HIpermIdItIcos
constrangImento ao usurIo (por exemplo, quando ele quer saber valores de
fInancIamentos maIs longos, e fIca constrangIdo de perguntar a uma pessoa ou
operador sobre taxas menores ou sobre muItas opes). Apesar de este fator no
ser caracteristIca apenas das Interfaces de voz, estando presente em qualquer
Interface Impessoal homemcomputador, o fato de se poder usar lInguagem
natural para 'conversar' com o computador sobre assuntos constrangedores,
como se estIvesse conversando com uma outra pessoa, pode fornecer uma
experIncIa que seja atraente e agradvel, e que ao mesmo tempo atenda s
necessIdades do usurIo (Cohen, 2004: 11).
0e acordo com Nass e 8rave (2005), as pessoas so 'atIvadas por voz':
respondemos a tecnologIas de voz como respondemos a pessoas e nos
comportamos como se estIvssemos em qualquer sItuao socIal, e, assIm, as
Interfaces de voz podem realmente emergIr como a proxIma fronteIra para
tecnologIa amIgvel e efIcIente.
Lembrando tambm que telefones - tanto fIxos como celulares - exIstem em
maIor numero e com maIor penetrao no globo terrestre (muItos lugares na
AfrIca, por exemplo, em que eventualmente no exIstam computadores
dIsponiveIs, tm grande probabIlIdade de terem telefones dIsponiveIs), as
Interfaces de voz permItem um alcance global maIor do que as Interfaces vIsuaIs.
Se somarmos a Isso o fato de que as prevIses tecnologIcas so de que, em breve,
a quantIdade de celulares acessando a nternet ser maIor que o acesso por
computadores desktop, as Interfaces de voz estaro natural e IntrInsIcamente
nesses dIsposItIvos para acesso rede global tanto quanto so usadas para
conversas InterpessoaIs.
Pensando nas possIbIlIdades artistIcas que as Interfaces de voz trazem, alm da
conversao com computadores em lInguagem natural proprIamente dIta,
podemos usar vrIas caracteristIcas da voz, quanto sua produo, como
potencIal esttIco e InformacIonal. Na sintese de fala, comea a ser possivel
(como no caso da especIfIcao do 7oIceX|L 2.1) a manInulao de tom, sexo,
volume, velocIdade, entonao e estresse da voz, e Isso pode ser usado para se
crIar dIferentes percepes e reaes por parte dos Interatores. Esta
possIbIlIdade de manIpulao das caracteristIcas vocaIs pode auxIlIar na narratIva
nterfaces de 7oz em AmbIentes HIpermIdItIcos 67
dInmIca (crIada em tempo real) de hIstorIas permItIndo o uso de personagens
dIstIntos e mesmo a sua crIao dInamIcamente e em tempo real, de acordo com
as condIes do momento. Alm dIsso, num dado contexto, poderiamos ter
loopIngs de frases, num outro momento poderiamos ter frases que se sobrepem,
denotando uma trIdImensIonalIdade espacIal - maIs altas na frente, maIs baIxas
atrs, que remeterIam a outras temporalIdades. AInda, acompanhados de
vIsualIdade, o ambIente trIdImensIonal ganharIa espacIalIdade sonora, e assIm
por dIante.
Nas Interfaces de voz, e provavelmente em qualquer Interface, 'o que se dIz'
(conteudo) a questo maIs Importante no projeto funcIonal de Interao, e o
maIs Importante determInante de usabIlIdade, segundo NIelsen (200J). Portanto,
segundo ele, as Interfaces de voz no nos lIberam dos problemas maIs
substancIaIs do desIgn de Interfaces: 1) selecIonar as tarefas a serem suportadas;
2) determInar a estrutura do dIlogo; J) decIdIr quaIs comandos ou
funcIonalIdades estaro dIsponiveIs; 4) deIxar os usurIos especIfIcarem o que
eles querem, e; 5) fazer com que o computador d feedback sobre suas aes.
Conforme mencIonado anterIormente, segundo Cohen, "as metodologIas e
prIncipIos de desIgn das Interfaces de voz sobrepemse substancIalmente com
quelas usadas em desIgn de outros tIpos de Interfaces. No entanto, exIste uma
quantIdade de caracteristIcas das Interfaces de voz que propem desafIos e
oportunIdades unIcas" (2004: 6). D grande desafIo atual o desIgn das Interfaces
de voz, e apesar de o presente trabalho no focar no projeto das Interfaces em
sI, Importante ressaltar aquI, como descrIto em Cohen (2004: 4), que a
compreenso das capacIdades humanas bsIcas e a compreenso das
necessIdades e objetIvos do usurIo so as chaves para o desIgn de Interfaces de
sucesso.
A Introduo de tecnologIas de voz IntelIgentes no cenrIo atual aumenta a
complexIdade da sonorIdade em relao aos estgIos computacIonaIs anterIores,
poIs alm de funcIonar como Instrumento que permIte os prolongamentos de
habIlIdades audItIvas, elas possIbIlItam a sua completa dIgItalIzao e InscrIo
em lInguagem computacIonal, junto e mIsturada com a verbal (comandos ou
Informaes de voz reconhecIdos por Interfaces de voz IntelIgentes tornamse
comandos ou dados textuaIs ou verbaIs). Conforme Santaella, "a (lInguagem)
68 nterfaces de 7oz em AmbIentes HIpermIdItIcos
verbal a maIs mIsturada de todas as lInguagens, poIs absorve a sIntaxe do
dominIo sonoro e a forma do dominIo vIsual" (Santaella, 2001: J71).
As Interfaces de voz so um novo passo e possIbIlIdade para as Interaes
homemcomputador, num processo de dIssoluo da lInha dIvIsorIa entre telefone
e nternet, e coexIstIndo com outros tIpos de Interfaces. FIca claro que elas tm
seu maIor potencIal em atIvIdades e aplIcaes em que a modalIdade audItorIa
e a Interao se faz por meIo da lInguagem falada. Por suas proprIas
caracteristIcas peculIares, relatIvas ao uso da voz, elas trazem novas
potencIalIdades artIstIcas, assocIadas a outros lImItes, especIalIdades e
complexIdades, e possIbIlItam, por meIo da convergncIa que suas tecnologIas
permItem, um novo modo e um novo meIo de comunIcar, InteragIr, desenvolver e
crIar.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 69
IV. HIpermdIa e InteratIvIdade nas Interfaces de Voz
IV.1. HIpermdIa
Apesar de alguns autores dIferencIarem os termos 'hIpermidIa' e 'hIpertexto',
ressaltando, InclusIve, que a hIpermidIa abrangerIa um contexto maIor
equIvalendo a vrIos hIpertextos (ou seja, a hIpermidIa serIa uma estrutura
hIpertextual funcIonando em rede, nternet ou em outro contexto maIor), no h
necessIdade de tal dIferencIao no presente trabalho
[1]
, e, portanto, estamos
consIderando aquI que os termos se equIvalem, representando uma estrutura de
sIstema de navegao nolInear, vInculada, de acesso aleatorIo, com artIculao
entre lInguagens (utilizando diferentes tipos de representao e atingindo
diferentes modalidades perceptivas) e InteratIvIdade.
Sabemos que a nternet formada por vrIos servIdores e clIentes, sendo que os
tIpos de clIentes maIs usuaIs, at o presente momento, so baseados em
Interfaces vIsuaIs, como os clIentes de emaIl (Dutlook Express, por exemplo),
browsers Web (nternet Explorer ou |ozIlla, por exemplo), clIentes de telnet
(como o HypertermInal), etc. As Interfaces de voz, por sua vez, acrescentam maIs
um tIpo de clIente rede, no afetando sua topologIa em termos de servIdores,
mas mudando drastIcamente o clIente.
D clIente de voz, ou melhor, o browser de voz, pode ser um aparelho telefonIco,
um software que o sImule (com 7oP - 7oIce Dver P, por exemplo), um browser
multImodal (como o Dpera 8, por exemplo), ou aInda devces de mIcrofone/alto
falantes. Apesar de, nas Interfaces de voz, os clIentes serem dIferentes daqueles
que utIlIzam as Interfaces vIsuaIs, podemos ter exatamente as mesmas aplIcaes
usando sImultaneamente esses doIs tIpos de Interfaces. Conforme Palazzo (2002),
a arquItetura de sIstemas hIpertextuaIs se dIvIde em nivel de apresentao, nivel
da mquIna abstrata, e nivel da base de dados. As Interfaces de voz sItuamse no
nivel de apresentao e podem alterar a estrutura do sIstema apenas no que se
refere a este nivel, mantendo assIm Intactos os demaIs, conforme Ilustrado no
esquema a seguIr:

70 nterfaces de 7oz em AmbIentes HIpermIdItIcos

FIgura 7.1 - Esquema de funcIonamento de uma aplIcao Web acessada por Interface de
voz, vIa telefone, e Interface vIsual, vIa browser em computador
(dIagrama elaborado por nos).

Como se pode ver na FIgura 7.1, o camInho em roxo (trao cheIo) representa a
camada de apresentao da aplIcao quando acessada pela Interface de voz, vIa
telefone, e o camInho azul (tracejado) representa a camada de apresentao da
aplIcao quando acessada por um Web browser computacIonal vIsual. A camada
da mquIna abstrata o box 'Web App', que acessado do mesmo modo tanto
pela Interface de voz quanto pela vIsual. A partIr da mquIna abstrata que so
feItos os acessos aos bancos de dados - camada de dados, e que podem ser
exatamente os mesmos tambm nos doIs casos, Independentemente de quaIs
tecnologIas sejam usadas nos trs niveIs - apresentao, mquIna abstrata, e
dados.
Neste caso, em que o sIstema o mesmo, permItIndo acesso por Interfaces
dIstIntas (vIsual e aural), os dados capturados na Interface vIsual ou na Interface
de voz no podem ser dIferentes nem em qualIdade e nem em quantIdade, vIsto
que so o Input necessrIo para a mquIna abstrata. No entanto, o tratamento da
entrada dos dados normalmente necessIta de tratamento completamente dIstInto
entre as Interfaces vIsuaIs e auraIs. Por exemplo, por meIo de um formulrIo
vIsual em um Web browser, podemos apresentar todas as opes possiveIs dos
Estados brasIleIros para que o usurIo escolha um. Para obter a mesma escolha de
Estado pelo usurIo em uma Interface de voz, talvez as opes precIsem ser
nterfaces de 7oz em AmbIentes HIpermIdItIcos 71
dIvIdIdas em regIes com menos opes (Sul, Sudeste, Norte, Nordeste, e Centro
Deste), para depoIs refInar a escolha do Estado. No entanto, a Informao
necessrIa, o nome do Estado escolhIdo pelo usurIo, a mesma que ser
fornecIda mquIna abstrata. Neste caso, a mesma aplIcao pode ser usada
sImultaneamente com ambas as Interfaces - vIsual e de voz.
Este um fator muIto Importante para permItIr a InterlIgao e hIbrIdIzao dos
sIstemas, j que para que o processo de IntermIxagem ocorra necessrIo que
haja algum nivel em comum nos sIstemas IntermIxados.
LogIcamente, as Interfaces de voz permItem funcIonalIdades e captao de dados
que no so pertInentes ou possiveIs em Interfaces vIsuaIs, tal como a gravao
de uma mensagem de voz. AplIcaes que se benefIcIam das capacIdades
especifIcas das Interfaces de voz precIsam eventualmente capturar / processar /
armazenar dados de modo especifIco, separadamente da aplIcao prIncIpal,
para tratar os dados especifIcos. Esta sItuao de terse dados especifIcos, no
entanto, no nova. |esmo nos sIstemas vIsuaIs, dependendo do devIce e suas
capacIdades tecnologIcas, muIto comum encontrarse caracteristIcas dIferentes
em devIces/Interfaces dIferentes e que precIsem de um tratamento dIferencIado
em paralelo ao sIstema prIncIpal. Um exemplo dIsso so os Web browsers de
Palms e celulares que, muItas vezes, tm dIversas lImItaes e/ou dIferenas
quanto ao tIpo de Informao que podem fornecer aos sIstemas, se comparados
com os Web browsers computacIonaIs. No entanto, cada vez temse feIto um
esforo maIor em tentarse manter o nivel da mquIna abstrata e da base de
dados constantes Independentemente do tIpo de Interface ou devce no nivel de
apresentao, mesmo que Isso sIgnIfIque bases de dados maIs abrangentes, que
englobem dados especifIcos opcIonaIs em funo da Interface. Esta tendncIa,
regulamentada pelos padres abertos (open stcndcrds) especIfIcados pelo WJC -
World WIde Web ConsortIum, vIsa maIor Integrao e InteroperabIlIdade na Web,
facIlItando convergncIa e hIbrIdIzao.
As Interfaces de voz funcIonam como uma porta de entrada ou como um centro
InIcIal do sIstema que InterlIga o usurIo a um contexto hIpermIdiatIco maIor na
Web, de modo que o Interator pode 'escrever' seu camInho de modo nolInear a
partIr das opes dIsponiveIs na Interface de voz. No entanto, quando se analIsa o
72 nterfaces de 7oz em AmbIentes HIpermIdItIcos
processo de 'leItura' das opes para escolha e tomada de decIso em Interfaces
de voz, no se tem como fugIr da lInearIdade Inerente da oralIdade: as opes
so apresentadas em ordem lInear para uma posterIor escolha nolInear por
parte do Interator.
ConsIderandose que a oralIdade apresenta caracteristIcas lIneares Intrinsecas
quanto recepo do usurIo, poderseIa InIcIalmente deduzIr que as Interfaces
de voz no serIam sIstemas hIpermIdItIcos, e que o grau de complexIdade terIa
dImInuido comparandose com as Interfaces vIsuaIs em rede. No entanto, a
lInearIdade caso partIcular da nolInearIdade e as Interfaces de voz fazem
parte dos sIstemas hIpertextuaIs maIores, atuando como nos e centros
transItorIos, InterlIgando o Interator s demaIs camadas da rede. Segundo |urray
(200J: 10), o termo 'nolInear' deverIa ser substItuido por 'multIsequencIal' e
'multIforme', como expresses para compreender os novos formatos narratIvos
que: proporcIonam ao Interator a habIlIdade de navegar por camInhos
Intercruzados a partIr de dIferentes pontos de vIsta, no prImeIro caso; e em
multIplas verses geradas a partIr da mesma representao fundamental, no
segundo. Alm dIsso, as partIcularIdades da voz - transIncIa, InvIsIbIlIdade,
assImetrIa, ImperfeIes e lImItaes - aumentam o nivel de complexIdade do
sIstema, e consequentemente a necessIdade de rIgor organIzacIonal. A assImetrIa
da voz, por exemplo, exIge uma rIgorosa anlIse e programao das Interfaces de
voz de modo a adequar os rItmos de reproduo/entendImento.
Apesar de a apresentao de cada camada de uma Interface de voz ser feIta
atravs da oralIdade lInear, os aprofundamentos e navegaes do usurIo entre as
camadas segue um camInho hIpertextual, ou seja, nolInear, que pode InclusIve
Intercruzarse e InterlIgarse com sIstemas vIsuaIs e/ou hibrIdos na rede,
tornando a complexIdade aInda maIs acentuada. Um exemplo desses sIstemas
hibrIdos o trabalho de webart moZcco de voSes (vIde capitulo 7), apresentado
maIs adIante, no qual opes e fragmentos de gravaes oraIs, feItas no sIstema
por um Interface de voz acessada por telefone, confIguram e apresentam
regIstros vIsuaIs e sonoros em uma Interface vIsual de navegao na Web. Ds
sIgnos vIsuaIs e sonoros de um mesmo sIstema e banco de dados so acessados,
gerados e experImentados por duas Interfaces hIpermIdItIcas dIstIntas - a de voz
e a vIsual.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 7J
Em termos de cIberarte, verIfIcamos que as Interfaces de voz apresentam todos
seus traos caracteristIcos como descrIto em Lvy (1997): partIcIpao atIva dos
Intrpretes, crIao coletIva, obraacontecImento, obraprocesso, Interconexo e
mIstura dos lImItes, obra emergente. Em termos de processos comunIcacIonaIs,
as Interfaces de voz multIplIcam as possIbIlIdades de expresso do IndIviduo, poIs
a voz humana traz com ela um tanto da pessoa que fala, segundo Kerckhove
(1997).
Pensandose em termos de labIrInto, devIdo transIncIa da voz, os camInhos
apresentados durante a fala precIsam ser guardados na nossa memorIa de curta
durao, e para que possam ser acessados de modo confortvel para uso,
necessrIo que eles sejam muIto maIs lImItados que em uma Interface vIsual,
onde eles podem estar relacIonados na tela do computador e no precIsando ser
transferIdos para nossa memorIa de curta durao. Conforme estudado por |Iller
(1956), e explIcado por ZakIa (1997: 82), vemos que somos lImItados na
quantIdade de Informao que conseguImos reter corretamente na memorIa de
curta de durao:
Todos os nossos sentIdos esto conectados na memorIa. Temos memorIas no
apenas de experIncIas vIsuaIs, mas tambm de experIncIas envolvendo som,
cheIro, paladar, tato, movImento e equIlibrIo. As memorIas que lembramos por
um longo periodo de tempo so chamadas de memorIa de longa durao (LT| -
longterm memory) e so contrastadas pelas memorIas de curta durao (ST| -
shortterm memory) que lembramos apenas durante o tempo sufIcIente para us
las e ento esquecemos. (...) ExIste um lImIte na quantIdade de Informao no
relacIonada que uma pessoa consegue guardar na ST|, de cInco a nove Itens, em
mdIa sete.
[2]

AssIm sendo, nossa capacIdade para usar opes faladas menor que nossa
capacIdade em uslas no modo vIsual, onde alm de no precIsarmos memorIza
las todas (poIs so persIstentes e no transIentes, como a voz), temos aInda uma
maIor memorIa assocIada.
0este modo, quanto maIs opes apresentadas durante a fala, maIs o labIrInto se
assemelha ao LabIrInto do reI dos Arabes (o deserto) e menos ao LabIrInto do reI
da 8abIlonIa (labIrInto com portas, escadas e muros), conforme descrIto por Leo
(1999: 58), referIndose ao famoso texto "Ds doIs reIs e os doIs labIrIntos" de
Jorge LuIz 8orges. No prImeIro caso o deserto, a complexIdade e no
lInearIdade do labIrInto so muIto maIores, poIs as opes de camInhos so
74 nterfaces de 7oz em AmbIentes HIpermIdItIcos
InfInItas e no demarcadas, dIfIcultando a navegao e retomada de camInho em
meIo complexIdade. No segundo caso o labIrInto de muros, o grau de
complexIdade e nolInearIdade decaem, poIs os muros, portas, escadas, e
demarcaes em geral, conferem um lImIte complexIdade e opes do sIstema.
IV.2. InteratIvIdade
Apesar de as Interfaces de voz propIcIarem um modo de Interao maIs natural e
humano entre homem/computador, elas apresentam vrIas dIferenas em relao
s Interfaces vIsuaIs.
A prImeIra dIferena referese a como funcIonam os browsers vIsuaIs de tela
(como o nternet Explorer) e os browsers de voz (como o telefone). No prImeIro
caso, o usurIo tem um controle muIto maIor do processo, poIs ele domIna o
tempo e espao de uso do browser vIsual. No segundo caso, o computador que
determIna o rItmo do browser de voz, pelo telefone (ou sIstema equIvalente,
como 7oP - 7oIce Dver P), e que controla o tempo/espao do processo.
Alm dIsso, no caso de browsers vIsuaIs, janelas e processamentos sImultneos
permItem a multIplIcao da IdentIdade do usurIo no cIberespao atravs da
persIstncIa sImultnea de dIversas janelas e processamentos sImultneos. No
caso do processamento oral, mesmo que optemos por um lInk para determInada
Informao e depoIs voltemos ao mesmo contexto que estvamos, no temos
como reter os doIs contextos oraIs sImultaneamente. Dra estamos em um, ora
estamos em outro. Contextos oraIs dIferentes no conseguem persIstIr
sImultaneamente devIdo sua dependncIa em relao ao tempo, a transIncIa
da voz. Portanto, apesar das Interfaces de voz permItIrem o acesso
hIpermIdItIco a um contexto maIor, elas lImItam alguns aspectos da
funcIonalIdade da Interao que normalmente so possiveIs atravs das Interfaces
vIsuaIs. No entanto, se pensarmos um pouco alm dos termos funcIonaIs, numa
proposta potIca nas Interfaces de voz, poderiamos ImagInar um cruzamento de
trIlhas provenIentes de dIferentes contextos sonoros e obter um emaranhado de
Informaes auraIs de dIferentes fontes, todas ao mesmo tempo. Neste sentIdo,
ao Invs de lImItao, teriamos novas possIbIlIdades artistIcas atravs das
Interfaces de voz.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 75
0evIdo aInda transIncIa, InvIsIbIlIdade e assImetrIa caracteristIcas de
processos oraIs em Interfaces de voz, o lImIte de Informaes processados, e que
determInam a possIbIlIdade das Interaes, tambm dIfere das Interfaces
computacIonaIs vIsuaIs tradIcIonaIs. Por exemplo, uma busca por palavra chave
perfeItamente possivel em uma Interface de voz, tanto quanto em uma Interface
vIsual. No entanto, qual o lImIte de Informaes que conseguImos analIsar
atravs do resultado oral: Conforme mencIonado anterIormente, e segundo
Kerckhove (200J: 20), a dIfIculdade de fechamento muIto maIor no caso oral.
Portanto, Interfaces de voz tornam dIficIl o processamento de volumes muIto
grandes de Informao devIdo s peculIarIdades da oralIdade.
Nesse contexto, o equIlibrIo entre controle/prazer e frustrao do usurIo sItua
se em uma zona tnue. Segundo |urray (200J: 127), "Quando as coIsas que
fazemos trazem resultados tangiveIs, experImentamos o segundo prazer
caracteristIco dos ambIentes eletronIcos - o sentIdo de agncIa. AgncIa a
capacIdade gratIfIcante de realIzar aes sIgnIfIcatIvas e ver os resultados de
nossas decIses e escolhas". Quando o volume e rItmo da Interface de voz
possIbIlItam o fechamento e controle do processo por parte do usurIo, o prazer
do agencIamento realmente ocorre. No entanto, um leve desvIo que ImpossIbIlIte
o controle do usurIo no agencIamento, e seu consequente prazer, pode causar
frustrao e at mesmo abandono do processo. Ds desafIos so grandes, mas no
maIs que as possIbIlIdades que vIslumbram no horIzonte das Interfaces de voz.
A experImentao desses lImItes e combInaes de possIbIlIdades trazem rIqueza
adIcIonal que pode ser explorada pela arte.

[1] Dutros autores preferem conceItuar aInda 'hIpermidIa' como o resultado da Integrao de
'hIpertexto' com 'multImidIa'. Estamos utIlIzando o termo 'hIpermidIa' (ao Invs de 'hIpertexto')
poIs ele subentende uma maIor abrangncIa com relao s formas de expresso e representao
do conhecImento, embora para nos seja uma reavalIao do termo orIgInal 'hIpertexto'.
[2] Traduo nossa. Texto orIgInal em ZakIa (1997: 82): All of our senses are connected In memory.
We have memorIes not only for vIsual experIences but also of experIences InvolvIng sound, smell,
taste, touch, movement, and balance. The memorIes we remember for a long tIme are called
longterm memorIes (LT|) and are contrasted wIth shortterm memorIes (ST|) that we
76 nterfaces de 7oz em AmbIentes HIpermIdItIcos
remember just long enough to use and then forget. (.) There Is a lImIt to the amount of
unrelated InformatIon a person can hold In ST|, from fIve to nIne Items, averagIng seven."

nterfaces de 7oz em AmbIentes HIpermIdItIcos 77
V. HIbrIdIzao e ConvergncIa
No nosso contexto atual, provavelmente estamos vIvendo a maIor revoluo das
comunIcaes da hIstorIa, como argumenta |anovIch:
provvel que assIm como a Imprensa no sculo 14 e a fotografIa no sculo 19
tIveram um Impacto revolucIonrIo no desenvolvImento da socIedade e cultura
modernas, hoje estamos no meIo de uma revoluo de novas midIas - a
mudana de toda a cultura para formas de produo, dIstrIbuIo e
comunIcao, medIadas por computador. Esta revoluo dIscutIvelmente
maIs profunda que as anterIores, e estamos apenas comeando a regIstrar seus
efeItos InIcIaIs. Sem duvIda, a Introduo da Imprensa afetou apenas um
estgIo da comunIcao cultural - a dIstrIbuIo de midIa. 0e modo
semelhante, a Introduo da fotografIa afetou apenas um tIpo de comunIcao
cultural - as Imagens paradas. Em contraste, a revoluo computacIonal das
midIas afeta todos os estgIos da comunIcao, IncluIndo a aquIsIo,
manIpulao, armazenamento e dIstrIbuIo; ela afeta tambm todos os tIpos
de midIa - textos, Imagens paradas, Imagens em movImento, som e
construes espacIaIs. (2001: 19)
As novas midIas representam o encontro de duas trajetorIas hIstorIcas separadas:
computador (no seu sentIdo orIgInal, enquanto mquIna de processar dados
numrIcos) e tecnologIas de midIa. As duas comearam por volta de 18J0, e a
sintese dessas duas hIstorIas resulta na traduo de todos os tIpos de midIas
exIstentes em dados numrIcos acessiveIs por computadores. D resultado a
nova midIa - grfIcos, Imagens em movImento, sons, formas, espaos, e textos
que se tornaram computveIs; Isto , ela composta sImplesmente por outro
conjunto de dados computacIonaIs (|anovIch, 2001: 20).
Antes de analIsarmos o quanto as tecnologIas e Interfaces de voz favorecem ou se
relacIonam com a hIbrIdIzao e convergncIa de novas midIas, precIsamos
conceItuar, para efeIto desta pesquIsa, o que entendemos por esses termos.
ExIstem dIversas defInIes para 'hIbrIdIzao' e 'convergncIa', dependendo da
rea de estudo de orIgem, e em muItos casos so tIdas como equIvalentes. Apesar
de na botnIca 'hIbrIdIzao' envolver questes de esterIlIdade do hibrIdo
gerado, e 'convergncIa' relacIonarse com a tendncIa de membros de uma
populao a se tornarem IguaIs, tanto um termo quanto o outro defInem
processos em que duas ou maIs entIdades quaIsquer, sejam elas seres, midIas,
dados, etc., juntamse ou mIsturamse de algum modo.
78 nterfaces de 7oz em AmbIentes HIpermIdItIcos
AssIm, tanto o termo 'hIbrIdIzao' como 'convergncIa' tm sIdo usados sem
dIstInes, frequentemente, nas maIs dIversas reas, para desIgnar combInaes.
No caso das novas midIas, comum encontramos menes tanto a 'convergncIa
de midIas' quanto a 'hIbrIdIzao de midIas'. D mesmo ocorre com
hIbrIdIzao/convergncIa de dados, de equIpamentos, etc. AssIm sendo, devIdo
Interpenetrao dos termos, nesta pesquIsa 'hIbrIdIzao' e 'convergncIa'
sero consIderados equIvalentes, representando processos de juno ou mIstura
de entIdades e/ou codIgos.
Na maIs bsIca essncIa, da recombInao dos codIgos atomIco, numrIco e
gentIco, podemos gerar todos os tIpos de hIbrIdIzaes e convergncIas
possiveIs. No entanto, acredItamos que essas recombInaes podem ocorrer em
dIversos niveIs. Por um lado, no nivel maIs Intrinseco das recombInaes,
podemos mIsturar os elementos formadores dos seres, em nivel dos seus codIgos
bsIcos quer sejam atomIcos, numrIcos ou gentIcos , como recombInaes de
0NA, por exemplo, no codIgo gentIco, gerando seres com novas caracteristIcas
decorrentes da mudana do seu codIgo essencIal.
No extremo oposto, no nivel maIs extrinseco das recombInaes, podemos
mIsturar seres InteIros em meIos dIferentes, sem alterar seus codIgos bsIcos
formadores, como no caso da convergncIa dIgItal de midIas, onde entes dIgItaIs
InteIros, provenIentes de dIversas midIas dIstIntas, trafegam e so
dIsponIbIlIzados juntos em um outro dIsposItIvo e/ou midIa dIferente. Nesse
caso, no modIfIcamos o codIgo essencIal de cada entIdade, mas apenas as
'transportamos' para outro contexto.
Nas convergncIas de midIa, conforme Zuffo (2005 :72), "as redes de
comunIcao de dados, computadores, radIodIfuso e televIso dIfusora,
radIocomunIcao, telefonIa fIxa e celular, sIstemas de gravao e reproduo de
video e som tenderIam, e tendem, a serem combInadas e colocadas em um unIco,
ou mesmo dIstrIbuidas, em poucos tIpos de equIpamentos". No senso comum,
convergncIa de midIas o resultado do desenvolvImento de padres
tecnologIcos e de comunIcao capazes de Integrar os padres de dIferentes
aparelhos, aplIcatIvos, midIas e ambIentes em uma mesma plataforma. Entende
se por convergncIa de midIas, especIfIcamente, a Integrao numa mesma
nterfaces de 7oz em AmbIentes HIpermIdItIcos 79
plataforma das dIferentes formas de midIa, como televIso, computador,
telefone, P0A - Personal 0IgItal AssIstent em geral (como pclm tops), rdIo e
Web, dentre outras. A convergncIa um atrIbuto de padres de comunIcao, a
partIr de uma plataforma, Independente de qual plataforma seja essa.
Poderiamos dIzer, ento, que na convergncIa de midIas o foco da recombInao
maIs nas midIas do que nas entIdades que nelas trafegam.
AInda nas recombInaes extrinsecas, poderiamos pensar tambm em processos
de hIbrIdIzao e convergncIa que ocorrem entre os codIgos bsIcos formadores
- atomIco, numrIco e gentIco , ou seja, relacIonando os codIgos entre sI. Neste
processo, podemos ter uma 'traduo' completa de um codIgo em outro ou uma
'colaborao' entre codIgos. No prImeIro caso - traduo , podemos cItar como
exemplo a dIgItalIzao de um desenho em papel para arquIvo dIgItal, num
processo de convergncIa, no qual uma entIdade de codIgo atomIco passa para o
codIgo numrIco e pode, a partIr dai, se recombInar com qualquer outra entIdade
numrIca ou dIgItal, em outros processos de recombInaes. No segundo caso
colaborao , podemos cItar os cIbrIdIsmos, onde entIdades atomIcas e dIgItaIs
se complementam, exIstIndo por meIo de doIs codIgos. Segundo Anders:
CibrIdos - hibrIdos de materIal e cIberespao - so entIdades que no
poderIam exIstIr sem reconcIlIar a nova classe de simbolos com a
materIalIdade que eles carregam. (...) CibrIdos so maIs que sImplesmente
uma separao completa (entre materIal e sImbolIco). Entre esses doIs
podemos ter componentes compartIlhados. (Anders, 2001)
Portanto, por meIo das recombInaes nos codIgos formadores essencIaIs das
entIdades ocorrem os processos de hIbrIzIdao e convergncIa, em dIversos
niveIs - Intrinseco e extrinseco (InclusIve traduo e colaborao).
Nas artes, esses processos de recombInao j ocorrIam anterIormente com a
Imagem, o verbo e mesmo a musIca. No entanto, eram aInda lImItados no caso da
voz, devIdo a restrIes tecnologIcas que esto desaparecendo nos ultImos anos,
como veremos a seguIr.
At o InicIo dos anos 2000, o uso de Interfaces de voz homemcomputador com
lInguagem natural era muIto lImItado no contexto das novas midIas, poIs para
tanto, era necessrIo que a voz humana em conversao natural tambm pudesse
ser traduzIda em dados numrIcos e se tornar um set de dados computacIonaIs, e
80 nterfaces de 7oz em AmbIentes HIpermIdItIcos
a tecnologIa para Isso aInda era muIto restrIta e normalmente dIsponivel apenas
em solues proprIetrIas, caras e com ausncIa de padres stcndcrds. As
tecnologIas de reconhecImento e sintese de voz na Web possIbIlItam essa
convergncIa, e a voz humana e os comandos de voz em lInguagem natural
comeam a convergIr para as novas midIas tambm.
7ale ressaltar que o uso de voz humana gravada e mesmo formas sImples de
produo de reconhecImento de fala so usadas j h bastante tempo como parte
Integrante das novas midIas - desde pelo menos os anos 80 do sculo XX. D
dIferencIal nas tecnologIas de voz atuaIs, com reconhecImento e sintese de fala
na rede, o modo como ela pode ser processada e se mIsturar aos demaIs dados
computacIonaIs. A voz, em sIstemas com reconhecImento de fala, no maIs
necessarIamente apenas um conjunto de bIts dIgItalIzado tal e qual
(recombInao extrinseca), como uma musIca dIgItalIzada, por exemplo, mas
pode se tornar comandos traduzIdos pelas tecnologIas e Interfaces de voz e
'entendIdos' pelos sIstemas, e que se 'mIsturaram' com outros dados
computacIonaIs de novas midIas (recombInao Intrinseca) sejam eles
provenIentes de texto, Imagem, ou qualquer outra coIsa. Em outras palavras, a
voz humana quando capturada por Interface de voz com reconhecImento de fala
realmente pode InteragIr e convergIr com outros tIpos de dados nas novas midIas,
e se recombInar de modo totalmente dIgItal, sem levar consIgo nenhum trao
analogIco da sua orIgem - os comandos de voz traduzIdos em codIgos
computacIonaIs, tal como os textos dIgItados em um processador de texto
perdem a referncIa de orIgem e caracteristIcas de 'punho' de quem escreveu ou
de 'tImbre' de quem falou.
Portanto, verIfIcamos que as Interfaces de voz com reconhecImento de fala
permItem um processo de convergncIa em que a voz pode ser totalmente
transformada em dados numrIcos dIgItaIs, reduzIda Informao bsIca falada,
sem delatar as suas orIgens, sem traos analogIcos da sua forma orIgInal. |esmo
que os dados 'convergIdos' sejam posterIormente transformados em analogIcos
novamente, eles tero as caracteristIcas que o processo lhes conferIr e no maIs
suas caracteristIcas analogIcas orIgInaIs (por exemplo, o tImbre de voz,
entonao, velocIdade, etc., orIgInaIs de quem eventualmente falou os dados que
foram convertIdos em textos dIgItaIs). Neste sentIdo, apos a convergncIa, os
nterfaces de 7oz em AmbIentes HIpermIdItIcos 81
dados podem ser mIsturados com dados de outras orIgens e gerar conjuntos de
dados e produtos totalmente novos, InclusIve comandos. (ver, no capitulo 7, o
caso da aplIcao de webart, o moZcco de voSes - a Interao humana com a
Interface de voz no telefone e Web sImultaneamente, que gera comandos e
dados computacIonaIs que um exemplo deste tIpo de convergncIa). Neste
processo, reduzImos a voz Informao essencIal que ela transmIte, traduzIndo
(recombInao extrinseca - traduo) para o codIgo numrIco do computador e
posterIormente mIsturando com outros dados dIgItaIs (recombInao Intrinseca).
No, entanto, podemos tambm crIar hIbrIzaes com Interfaces de voz em
processos em que a dIgItalIzao da fala mantm relao com sua orIgem e
quando mIsturada com outras formas dIgItaIs, aInda assIm possa revelar
caracteristIcas analogIcas detectveIs (por exemplo, o tImbre de voz, entonao,
velocIdade, etc., orIgInaIs de quem eventualmente falou os dados que foram
dIgItalIzados) (ver, no capitulo 7, o caso da aplIcao de webart, o moZcco de
voSes -, em que a mensagem gravada pelo Interator com a Interface de voz no
telefone e Web sImultaneamente, gera arquIvos de voz, que, mesmo sendo
dIgItalIzadas, mantm todas as suas caracteristIcas quando apresentadas nas
pastIlhas do moZcco na Web - eles revelam suas orIgens). Neste caso temos
apenas uma traduo da voz para o codIgo numrIco do computador, e ela ser
tratada como um bloco, um fragmento que no se transformar em outro tIpo de
dado ou entIdade, num processo de recombInao extrinseca apenas.
CIbrIdIsmos provavelmente tambm so potencIalIzados pela adIo de Interfaces
de voz nternet. Segundo 8eIguelman (2004: 1), "o corpo humano se
transformou em um conjunto de extenses lIgadas a um mundo cibrIdo, pautado
pela Interconexo de redes e sIstemas on e off lIne", e aInda, "ao mesmo tempo
que esses corpos so dIluidos em uma massa descarnada, feIta de Informao,
essa mesma massa de dados duplIca sua exIstncIa como telepresena e presena
fisIca". ConsIderandose que as Interfaces de voz acrescentam novas formas de
Interconexes s redes e sIstemas, e permItem a 'colaborao' entre on e off lIne
tanto quanto os demaIs sIstemas em rede, elas tendem a favorecer o cIbrIdIsmo
de sIstemas e objetos, sejam eles artistIcos ou no.
82 nterfaces de 7oz em AmbIentes HIpermIdItIcos
AnalIsando as possIbIlIdades de convergncIas e hIbrIdIzaes mencIonadas,
verIfIcamos que podemos gerar por meIo de Interfaces de voz tanto IntermidIas
como multImidIas, segundo Plaza:
No movImento constante de superposIo de tecnologIas sobre tecnologIas,
temos vrIos efeItos, sendo um deles a hIbrIdao de meIos, codIgos e
lInguagens, que se superpem e se combInam em processos chamados
IntermidIa e multImidIa (...) Num prImeIro caso, a montagem de vrIos deles
pode fazer surgIr outro que a soma qualItatIva daqueles que o constItuem.
Neste caso, a hIbrIdao produz um dado InusItado, que a crIao do novo
meIo antes InexIstente, temos assIm processos de coordenao (sInergIa) entre
lInguagens e meIos, uma IntermidIa. Uma segunda possIbIlIdade superpor
dIversas tecnologIas, sem que a soma resolva o conflIto (...) resultando ento
numa espcIe de collage que se conhece como multImidIa. (Plaza, 2000)
D conceIto de hIbrIdIzao para Plaza, conforme cItado, abrangerIa tambm o
conceIto de metamidIa, defInIdo por |anovIch (2002): "remapear objetos de
midIas antIgas em novas estruturas atravs de software computacIonal,
transformando, portanto a midIa em uma metamidIa". Na metamidIa, cada
objeto de midIa antIga preserva e mostra suas orIgens. A peculIarIdade das meta
midIas que o mapeamento dos objetos da midIa antIga em novas estruturas
atravs de software computacIonal, acrescentam funcIonalIdades de novas midIas
aos objetos de midIa antIga, tal qual zoom, busca, fIltros, multIplas vIstas, etc.
AnalIsandose os processos de convergncIa de midIas no cenrIo atual, em
relao aplIcao das Interfaces de voz, as possIbIlIdades potencIaIs so
grandes. Por um lado, elas permItem a dIssoluo total das fronteIras entre o
telefone e a nternet, num processo de convergncIa entre taIs midIas de modo
que o resultado fInal pode ser consIderado um terceIro ente, com qualIdades
proprIas. Por outro lado, permItem a crIao de hIbrIdIzaes mantendo
caracteristIcas dos elementos orIgInrIos das midIas, de acordo com o modo que
utIlIzamos as tecnologIas de reconhecImento e sintese de voz, para recombInar a
fala, ao dIspor das nossas Intenes artistIcas.
Essas caracteristIcas de convergncIa e hIbrIdIzao amplIamse globalmente,
quando ocorrem na nternet, ou Web.
ConsIderandose que "A cultura telemtIca dIz respeIto conectIvIdade global
das pessoas, dos lugares, mas acIma de tudo, da mente. A nternet a Infra
estrutura crua de uma conscIncIa emergente, um crebro global", conforme
nterfaces de 7oz em AmbIentes HIpermIdItIcos 8J
Ascott (1997), poderiamos especular aquI que as Interfaces de voz acrescentam
bocas e ouvIdos ao corpo hIpertextual do crebro global.
Poderiamos dIzer, portanto, que, alm de as Interfaces de voz amplIarem as
possIbIlIdades de convergncIa e hIbrIdIzao, elas tambm acrescentam
potencIalIdades esttIca da aparIo em emergncIa no mundomente (World
mInd) descrIto aInda em Ascott (1997).
Toda nova tecnologIa ou forma de Interao homemcomputador causa
consequentes Impactos na experImentao artistIca. No entanto, Importante
observar, conforme |achado, que "a multIplIcao do aparato tecnologIco
nossa volta pode nos dar a falsa Impresso de que estamos experImentando algo
novo, quando na verdade nos podemos no estar experImentando coIsa alguma"
(|achado, 2001: 1J). A sImples Introduo de uma nova tecnologIa no sIgnIfIca
necessarIamente uma exploso crIatIva possIbIlItada por meIos cada vez maIs
avanados, e necessrIo saber dIstInguIr o trabalho do verdadeIro crIador, de
uma lado, e a tarefa do mero funcIonrIo das mquInas, de outro (|achado,
2001: 14).
Alm dIsso, um outro aspecto que deve ser consIderado na Introduo das novas
tecnologIas de voz no contexto atual, que toda nova tecnologIa traz consIgo
efeItos colateraIs que normalmente so InIcIalmente desconsIderados devIdo ao
deslumbramento que as novas possIbIlIdades sedutoras exercem. Um exemplo que
Ilustra bem Isso a lenda que Socrates contou a Fedro "D Julgamento de
Tamuz":
Na regIo de NucratIs, no EgIto, houve um dos velhos deuses daquele pais
(...), chamavase Thoth. FoI ele que Inventou os numeros e o clculo, a
geometrIa e a astronomIa, o jogo de damas e os dados, e tambm a escrIta.
Naquele tempo governava todo o EgIto, Tamuz, que resIdIa no sul do pais, na
grande cIdade que os egipcIos chamam Tebas do EgIto (...). Thoth foI ter com
ele e mostroulhe as suas artes, dIzendo que elas devIam ser ensInadas aos
egipcIos. |as o outro quIs saber a utIlIdade de cada uma, e enquanto o
Inventor explIcava, ele censurava ou elogIava, conforme essas artes lhe
parecIam boas ou ms. 0Izem que Tamuz fez a Thoth dIversas exposIes
sobre cada arte, condenaes ou louvores cuja meno serIa por demaIs
extensa. Quando chegaram escrIta, dIsse Thoth: Esta arte, caro reI, tornar
os egipcIos maIs sbIos e lhes fortalecer a memorIa; portanto, com a escrIta
InventeI um grande auxIlIar para a memorIa e sabedorIa. Fesponde Tamuz:
Crande artIsta Thoth! No a mesma coIsa Inventar uma arte e julgar da
utIlIdade ou prejuizo que advIr aos que a exercerem. Tu, como paI da
escrIta, esperas dela com o teu entusIasmo precIsamente o contrrIo do que
84 nterfaces de 7oz em AmbIentes HIpermIdItIcos
ela pode fazer. Tal coIsa tornar os homens esquecIdos, poIs deIxaro de
cultIvar a memorIa; confIando apenas nos lIvors escrItos, so se lembraro de
um assunto exterIormente e por meIo de sInaIs, e no em sI mesmos. Logo, tu
no Inventaste um auxIlIar para a memorIa, mas apenas para a recordao.
TransmItes aos teus alunos uma aparncIa de sabedorIa, e no a verdade, poIs
eles recebem muItas Informaes sem Instruo e se consIderam homens de
grande saber, embora sejam Ignorantes na maIor parte dos assuntos. Em
consequncIa, sero desagradveIs companheIros, tornarseo sbIos
ImagInrIos ao Invs de verdadeIros sbIos. (Socrates, 2002: 118119)
Interessante observar, na hIstorIa acIma, que no so o Inventor Thoth est
errado quando super valorIza a sua Inveno , mas tambm exIste um erro de
julgamento de Tamuz a sua crena de que a escrIta ser um fardo, e nada maIs
do que um fardo para a socIedade. Ele falha ao no ImagInar quaIs poderIam ser
os beneficIos da escrIta, que, como sabemos, tm sIdo consIderveIs (Postman,
1992: 14). A Inveno da escrIta lIberou o homem da tradIo oral, separando a
voz da presena real, crIstalIzando palavras e permItIndo a propagao do
conhecImento para alm dos lImItes da sua encarnao.
Portanto, toda nova tecnologIa tanto uma uma beno como um fardo o
surgImento de novas possIbIlIdades, convergncIas e hIbrIdIzaes tecnologIcas
so InegveIs com a Introduo das tecnologIas IntelIgentes de voz no contexto
atual, no entanto, elas so apenas novas ferramentas dIsposIo do artIsta, a
quem cabe a Imutvel funo de explorar novas possIbIlIdades crIatIvas e os
lImItes dos novos meIos.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 85
VI. ApIIcao: moZaco de voSes
Neste capitulo, apresentaremos o moZcco de voSes, uma aplIcao de web art
desenvolvIda como experImentao para a presente dIssertao, a qual permIte
que o partIcIpante converse com a obra atravs de uma Interface de voz por
telefone convergIndo para a Web. A Interface de voz usa tecnologIas de
reconhecImento e sintese de fala, permItIndo que as pessoas conversem em
lInguagem natural com a obra para se 'InserIr' como uma pastIlha colorIda de um
mosaIco vIsual/aural na Web.
A Interface vIsual na Web permIte ouvIr e vIsualIzar as Interaes por telefone e
possuI dIversos modos de navegao e busca.
A Interao com o moZcco de voSes feIta da seguInte maneIra:
1) Pelo telefone, atravs da Interface de voz com reconhecImento e sintese
de fala, na qual o Interator escolhe uma cor e grava uma mensagem. Cada
Interao atravs da Interface de voz gera uma nova pastIlha do mosaIco
na Web, com a cor escolhIda pelo Interator ao telefone, e, ao ser clIcada,
a pastIlha toca a mensagem gravada por ele. Para InteragIr com o moZcco
de voSes vIa telefone:
a. Em portugus, no 8rasIl, pelo telefone (11) J047.4790, com o
codIgo de aplIcao 115572J602.
b. Em espanhol, nos EUA, pelo telefone (800) 289.5570, ou (407) J86
2174, com o PN number 9991421114.
c. Em Ingls, nos EUA, pelo (800) 289.5570, ou (407) J862174, com o
PN number 9991421055.
Dbservao - em espanhol e Ingls, a aplIcao permIte tambm
Interao por 7oP (7oIce Dver P)
[2]
, atravs dos seguIntes numeros:
1) ngls: *19991421055 ; 2) Espanhol: *19991421114.
2) Na Web, o mosaIco vIsualIzado/acessado atravs do endereo
http://www.mozaIcodevoses.com.br/ (dominIo que entra dIretamente na
Interface em portugus) ou http://www.voIcemosaIc.com.br/ (dominIo
86 nterfaces de 7oz em AmbIentes HIpermIdItIcos
que entra dIretamente na Interface em Ingls) . As Interaes no mosaIco
na Web permItem vrIos modos de navegao, localIzao de pastIlha
atravs do numero do telefone usado para Interao, localIzao de
pastIlhas orIgInadas de lIgaes telefonIcas dentro de uma mesma rea,
etc.

VI.1. ConceItuao artstIca do moZaco de voSes
0e acordo com o estudo "25 years of really cool stuff" (|akofske, 2005),
desenvolvIdo pelo |T em parcerIa com a CNN, a nternet lIdera a lIsta das
Inovaes tecnologIcas maIs Importantes dos ultImos vInte e cInco anos, seguIda
do emaIl, computador pessoal, fIbraotIca e telefone celular. Essas
transformaes tecnologIcas e comunIcacIonaIs tm causado profundas
modIfIcaes socIaIs que afetam o modo como percebemos e nos relacIonamos
com o mundo. Entre essas transformaes, a convergncIa de midIas e a
IntoxIcao tecnologIca so doIs fenomenos que, apesar de afetarem o
comportamento humano, no so percebIdos pela maIorIa das pessoas, que os
absorve sem fIltros ou reflexes.
Neste contexto foI crIado o moZcco de voSes (fIgura 7.1), um trabalho de web
art que junta em uma mesma obra vrIas dualIdades, que no se contrapem,
mas, ao contrrIo, se mIsturam e se completam, taIs como: oral/vIsual,
sImples/complexo, arte/cIncIa, velho/novo, lowtech/hIghtech, tempo/espao,
homem/computador, IndIvIdual/comunIdade, passIvo/atIvo,
causalIdade/casualIdade, entre outras, com o IntuIto de causar reflexo e
conscIncIa sobre adIcIonar sentIdos/tecnologIas de "voz" e "ouvIdos" nternet,
sobre a convergncIa e hIbrIdIzao de midIas, e, prIncIpalmente, sobre nossa
humanIdade e IndIvIdualIdade no meIo das modIfIcaes socIotecnologIcas que
temos vIvencIado.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 87

FIgura 7.1 - Tela do moZcco de voSes, em 27.maro.2006 (fonte: CabrIel, 2004)

A obra reune voz e Imagem em um mosaIco vIsual/sonoro (data vIsualIzatIon) na
Web usando as cores escolhIdas e vozes gravadas por pessoas que Interagem por
telefone a partIr de qualquer lugar no mundo.
A Interface de voz utIlIza sintese de fala e reconhecImento de voz e funcIona por
meIo de lIgaes telefonIcas feItas a partIr de qualquer telefone - fIxo ou movel.
A Informao da cor escolhIda pelo usurIo, por IntermdIo da Interface de voz,
um exemplo de convergncIa computacIonal entre o telefone e a Web. Quando o
usurIo fala a cor, "azul" por exemplo, esta Informao transformada no dado
de texto "azul" que ser guardado no banco de dados e ser a cor usada para a
pastIlha deste usurIo no mosaIco na Web. Esta Informao, apos falada e
transformada no texto "azul", no guardar nenhum trao da sua orIgem, nem
88 nterfaces de 7oz em AmbIentes HIpermIdItIcos
que seja falada novamente pelo computador atravs da sIntetIzao de voz
(exemplo de processos de convergncIa mencIonados no capitulo 7). J no caso
da gravao da voz do usurIo com a mensagem que ser colocada em sua
pastIlha no mosaIco, uma Informao que dIgItalIzada exatamente como
entra, sem se transformar em outro tIpo de dado que possa ser usado com outras
fInalIdades (como ocorreu no caso da cor, que foI transformada de dado de voz
em texto, e ai pode ser apresentada no mozaIco como a pIntura da pastIlha e no
como uma fala). 0esse modo, a mensagem do usurIo entra como um fragmento
que revela, de algum modo, suas orIgens, e, portanto, constItuI um exemplo de
hIbrIdIzao entre telefone e Web (tambm mencIonado no capitulo 7).
D mosaIco vIsto e ouvIdo na Web. 0esse modo ocorre a dIssoluo de fronteIras,
hIbrIdIzao e convergncIa da maIs antIga rede de comunIcao global, o
telefone, e a maIor rede de computacIonal do mundo, a nternet.
A obra forma uma comunIdade vIsual/sonora, o moZcco de voSes, na qual cada
pastIlha com as Informaes IndIvIduaIs das pessoas partIcIpantes (cor e gravao
de voz) formam e partIcIpam do todo, crIando um dIlogo
comunIdade/IndIvIdual. A voz humana carrega em sI parte de quem fala,
portanto, ao se gravar as vozes de pessoas no mosaIco, elas esto se InserIndo
nele. A obra foI desenvolvIda em maIo/2004, em trs linguas - portugus, Ingls e
espanhol , para permItIr partIcIpao global.
Alm do carter vIsual/sonoro, a espontaneIdade de formao do mosaIco
tambm um fator Importante que adIcIona obra o fortuIto e o Inesperado.
Como as pessoas que fazem as lIgaes telefonIcas vo formando o mosaIco ao
longo do tempo, ele est constantemente mudando. Alm dIsso, como as pessoas
podem escolher sua cor e gravar lIvremente uma mensagem de voz para
partIcIpar do mosaIco, sua esttIca em evoluo e o seu resultado fInal so
ImprevIsiveIs. A fIgura 7.2 apresenta screenshots da tela do moZaIco ao longo do
tempo, entre abrIl/2004 e maro/2005.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 89

FIgura 7.2 - Evoluo do moZcco de voSes no tempo

Neste contexto, o moZcco de voSes causa um colapso de tempo e espao poIs
mapeIa em uma unIca tela partIcIpaes que vm de dIferentes localIzaes
geogrfIcas, em dIferentes linguas e de dIferentes momentos. AdIcIonalmente,
por IntermdIo da Interface vIsual, uma pessoa pode facIlmente localIzar a sua
partIcIpao no mosaIco procurando pelo numero do seu proprIo telefone (de
onde ela fez a lIgao). A Interface permIte tambm localIzar todas as pastIlhas
(partIcIpaes) dentro de um mesmo codIgo de rea telefonIco (por exemplo: 11
para So Paulo), o que sIgnIfIca mapear partIcIpaes de regIes geogrfIcas
especifIcas na comunIdade total: subcomunIdades dentro da comunIdade do
mosaIco.


90 nterfaces de 7oz em AmbIentes HIpermIdItIcos
VI.2. PesuItados
D moZcco de voSes conta atualmente, em maIo/2006, com aproxImadamente
trezentas pastIlhas, o que sIgnIfIca trezentas Interaes por telefone. As
Interaes ocorreram a partIr de dIversos locaIs do mundo, e em dIversas linguas,
como pode ser detectado pelo Ccller l0 (numero de telefone de quem lIga, que
fIca guardado no banco de dados da aplIcao).
Na Web, as vIsItas ao sIte nos dominIos voIcemosaIc.com.br e
mozaIcodevoses.com.br totalIzam, at maIo/2006, maIs de 10.000 vIsItas (unIque
sessIons) desde o seu lanamento em julho/2004.

[1] A Webart moZcco de voSes (http://www.mozaIcodevoses.com.br/) foI lanada em jul.2004 e
desde ento foI selecIonada e publIcada/exIbIda nos seguIntes festIvaIs de arte eletronIca, no
8rasIl e exterIor - 1) Sound Toys 2004, [http://www.soundtoys.net/a/perp.php:perp=184], UK;
2) SpotlIghted no TurbuIence.org, [http://www.turbulence.org/], NY, US, |aI.2005; J) |eno
Honrosa no prog:hE, [http://www.progme.org/], 8rasIl, Jul.2005; 4) IngenIo 400 - Fourth
CentennIaI of 0on uIxote, [http://www.IngenIo400.com/], Espanha, Jul.2005; 5) 15o FestIvaI
InternacIonaI de Arte EIetrnIca VIdeobrasII, Panoramas do Sul - EIxo nvestIgaes
Contemporneas, [http://www.vIdeobrasIl.org.br/], 8rasIl, Set.2005; 6) FILE FestIvaI 2005 -
FestIvaI InternacIonaI da LInguagem EIetrnIca 2005, [http://www.fIle.org.br/], 8rasIl,
Nov.2005; 7) huseu do EssencIaI e do AIm 0Isso, 8rasIl, 2005; 8) FILE FestIvaI PIo 2006 -
FestIvaI InternacIonaI da LInguagem EIetrnIca 2006, [http://www.fIle.org.br/], 8rasIl,
|ar.2006; 9) SpecIal |entIon no II hedIa Arts do V FestIvaI de La Imagemn UnIversIdad de
Caldas y Unesco, ColombIa, 2006; 10) SICCPAPH Art CaIIery 2006,
[http://www.sIggraph.org/s2006], USA, Jul.2006.
[2] VoIP - VoIce Dver IP (7oz Sobre P) - Tambm chamada de TelefonIa P (P Telephony),
TelefonIa nternet (nternet Telephony), ou 0IgItal Phone, 7oP o roteamento das conversaes
de voz atravs da nternet ou qualquer outra rede baseada no protocolo P (nternet Protocol). Ds
dados de voz fluem em uma rede de proposIto geral comutada por pacotes, ao Invs das
tradIcIonaIs lInhas dedIcadas de transmIsso de voz comutadas por cIrcuItos (WIkIpedIa, 2005).
nterfaces de 7oz em AmbIentes HIpermIdItIcos 91
CDNSI0EPADES FINAIS

Conforme nos encontremos cada vez maIs Imersos em ambIentes tecnologIcos
onde o relacIonamento com computadores tem se tornado parte essencIal do
nosso cotIdIano, vemos que o sonho humano de conversar com computadores de
modo natural uma aspIrao cada vez maIs presente.
Apesar de totalmente sImples e natural na fIco, a Interao atravs de
lInguagem natural entre homens e computadores tem trIlhado um longo e dIficIl
camInho nos campos da cIncIa e arte. ExperImentos cIentifIcos e artistIcos tm
buscado explorar e amplIar o uso da voz nas Interaes homemcomputador, e
apesar de aInda termos lImItaes tecnologIcas em campos como o
reconhecImento amplo (Independente de quem fala) do dIscurso lIvre, por outro
lado alcanamos alturas jamaIs sonhadas, como conversar com uma rede de
computadores (nternet - Web) como um todo.
A partIr da dIsponIbIlIzao das tecnologIas de voz de modo padronIzado e aberto
na Web (Web open standard), no InicIo do sculo XX, um prImeIro passo na
dIreo da ampla experImentao e aplIcao de Interfaces de voz foI dado.
|uIto aInda est por vIr, mas j de InicIo podemos perceber as potencIalIdades e
desafIos que esse novo modo de Interao por voz, que seja puramente aural ou
multImodal, traz consIgo.
Apesar do vIs sensorIo domInante ter sIdo a vIso, Isso tem sofrIdo mudanas
desde a Introduo do computador no cotIdIano das pessoas, por IntermdIo da
Introduo de novas Interfaces de Interao. AcredItamos que a nova
possIbIlIdade de usar a voz como Interface deve afetar tambm, em algum grau,
essa mudana gradual da predomInncIa sensorIal.
Como foI vIsto em dIversos trabalhos de arte apresentados no capitulo , e nas
questes abordadas nos capitulos subsequentes, as tecnologIas de voz permItem
exploraes e possIbIlIdades unIcas, e, em ambIentes hIpermIdItIcos,
multIplIcam suas potencIalIdades de hIbrIdIzao e convergncIa.
92 nterfaces de 7oz em AmbIentes HIpermIdItIcos
LogIcamente, estamos aInda vIvendo a aurora das Interfaces de voz usadas em
escala e com penetrao muIto aInda est por despontar e desenvolverse neste
cenrIo. No entanto, para explorar as potencIalIdades e superar as lImItaes de
qualquer nova tecnologIa que surja, necessrIo crIatIvIdade e engenhosIdade,
que lIdem com as bnos e maldIes que a acompanham.
AcredItamos que Inegvel que as Interfaces de voz afetam ou acrescentam
novas formas de InteratIvIdade, hIbrIdIzao e convergncIas na Web. No
entanto, como acontece com qualquer tecnologIa, o grande desafIo das
Interfaces de voz est no seu uso e no em sua exIstncIa seu potencIal artistIco
ou comercIal est nas mos e ImagInao dos artIstas e pessoas que as usam.
Atravs do moZcco de voSes atIngImos o objetIvo de propIcIar a experImentao
de uma Interface de voz com reconhecImento e sintese de fala em ambIente
hIpermIdItIco amplo - a Web que permIte tanto a convergncIa (no caso das
cores) quanto hIbrIdIzao (no caso das mensagens gravadas) das Informaes
entre telefone e Web. A aplIcao de web art apenas uma das InfInItas
possIbIlIdades de experImentao artistIca utIlIzando Interfaces de voz
IntelIgentes.
No estgIo atual, o uso de Interfaces de voz na Web, em ambIentes
hIpermIdItIcos, aInda modesto - tanto as puramente auraIs quanto as
multImodaIs, apesar do potencIal que apresentam e das tecnologIas de voz j
dIsponiveIs.
Futuras experImentaes artistIcas de Interfaces de voz na Web poderIam
explorar Interfaces multImodaIs em que aural e vIsual se complementam e se
auxIlIam na Interao. As lImItaes tecnologIcas atuaIs, quanto ao controle da
sIntetIzao da voz (tImbre, velocIdade, entonao, nfase, etc..), e quanto aos
modos de Interao (hoje apenas um browser - o Dpera - tem suporte para
tecnologIas de voz, e este suporte apenas em Ingls), devem ser superadas
gradualmente, possIbIlItando maIs varIaes e potencIalIdades.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 9J
PEFEPNCIAS ILIDCPAFICAS

AN0EFS, Peter (2001). Toward an archItecture of mInd, n: CAASTAR
Symposum: Extreme pcrcmeters. New dmensons o] ntercctvty
(july.2001). 0Isponivel em
[http://www.uoc.edu/artnodes/eng/art/anders0J02/anders0J02.html]. Acesso em
10.maI.2006.

ASCDTT, Foy (1997). CultIvando o HIpercortex, n: 0D|NCUES, 0Iana (org.).
A Arte no Sculo XXl: a humanIzao das tecnologIas. So Paulo, EdItora
Unesp.

8ECUEL|AN, C. (2004). AdmIrvel |undo CibrIdo. n: 8FASL, Andr;
ALZA|DFA, Ceane; FALC, Carlos HenrIque; JESUS, Eduardo de (org.). Culturc
em Fluxo: novcs medces em rede. 1 ed. 8elo HorIzonte: Puc|Inas, v. 1, p.
264282.

CHFSTAN, KevIn; KULES, 8Ill; YDUSSEF; Adel (2000). A ComparIson of 7oIce
Controlled and |ouse Controlled Web 8rowsIng. 0Isponivel em
[http://otal.umd.edu/SHDFE2000/voIcebrowse/]. Acesso em 27.set.2005.

CHUFCHLAN0, |. Paul (1998). |atrIa e ConscIncIa. So Paulo, UNESP.

CDHEN, |Ichael; CANCDLA, James; 8ALDCH, JennIfer (2004). 7oIce User
nterface 0esIgn. 8oston, AddIsonWesley.

CDUCHDT, Edmond (200J). A TecnologIa na Arte: da fotografIa realIdade
vIrtual. Traduo: Sandra Fey. Porto Alegre, EdItora da UFFCS.

0D|NCUES, 0Iana (Drg.) (200J). Arte e 7Ida no Sculo XX: tecnologIa,
cIncIa e crIatIvIdade. So Paulo, UNESP.

0FACDN SYSTE|S (2005). A TImelIne E HIstory of 7oIce FecognItIon Software.
0Isponivel em [http://www.dragonmedIcal
transcrIptIon.com/hIstory_speech_recognItIon_tImelIne.html]. Acesso em
22.jul.2005.

FAF8EF, 0. (2004). 2014: |agIc Software, Free Hardware, n Z0Net.com.
0Isponivel em
[http://techupdate.zdnet.com/techupdate/storIes/maIn/Cates_gIves_magIcal_softw
are_tour.html]. Acesso em J. abr.2004.

FAF8EF, 0. (20041). 2015: Sensors Everywhere, Computers nvIsIble. n:
Z0Net.com. 0Isponivel em
[http://techupdate.zdnet.com/techupdate/storIes/maIn/Cartner_senses_a_world_sa
ns_computers.html]. Acesso em J.abr.2004.

EEE - NSTTUTE DF ELECTFCAL AN0 ELECTFDNCS ENCNEEFS, NC. (2002).
AutomatIc Speech SynthesIs E FecognItIon. 0Isponivel em
94 nterfaces de 7oz em AmbIentes HIpermIdItIcos
[http://www.Ieee.org/organIzatIons/hIstory_center/sloan/ASSF/assr_Index.html].
Acesso em 22.jul.2005.

JDHNSDN, Steven (2001). Cultura da nterface: como o computador
transforma nossa maneIra de crIar e comunIcar. Traduo: |arIa LuIza X. de
A. 8orges. FIo de JaneIro, J. Zahar.

KEFCKHD7E, 0errIck de (1997). A FealIdade 7Irtual Pode |udar a 7Ida:, n:
0D|NCUES, 0Iana (org.). A Arte no Sculo XXl: c humcnzco dcs
tecnoloycs. So Paulo, EdItora Unesp, p. 4951.

KEFCKHD7E, 0errIck de (200J). A ArquItetura da ntelIgncIa: nterfaces do
corpo, da mente e do mundo, n: 0D|NCUES, 0Iana (org.). Arte e \dc no
Sculo XXl. So Paulo, EdItora Unesp, p. 1526.

KLATT, 0ennIs (1987). FevIew of texttospeech conversIon for EnglIsh, n:
Smthsoncn Speech Synthess Hstory Pro]ect. 0Isponivel em
[http://www.mIndsprIng.com/-ssshp/ssshp_cd/dk_7J7a.htm]. Acesso em
J0.abr.2006.

CA8FEL, |artha (2004). moZaIco de voSes. 0Isponivel em
[http://www.mozaIcodevoses.com.br/]. Acesso em 18.maI.2006.

CL8EFT, J.; FDSLEF E. (1997). 0ennIs Klatt's HIstory of Speech SynthesIs, at
8erkeley UnIversIty websIte. 0Isponivel em
[http://www.IcsI.berkeley.edu/eecs225d/klatt.html]. Acesso em 5.abr.2006.

LAUFENTZ, SIlvIa (2004). Padres Emergentes e/ou 7alores EsttIcos, n: Xlll
Encontro Ncconcl dc ANPAP Arte em Pesqusc: espec]cdcdes. AnaIs,
EdItora da Posgraduao em Artes da UnIversIdade de 8rasilIa, 0F - 8rasilIa,
vol 2, p. J81J87.

LEAD, LucIa (1999). A ComplexIdade da HIpermidIa, n: D Lcbrnto dc
Hpermdc. 1.ed. So Paulo: lumInuras, p. 5576.

L7Y, PIerre (199J). As TecnologIas da ntelIgncIa: o futuro do pensamento
na era da InformtIca. Traduo: Carlos rIneu da Costa. So Paulo, Ed. J4.

L7Y, PIerre (1996). D que o vIrtual. So Paulo, Ed. J4.

L7Y, PIerre (1997). Quatro Dbras TipIcas da CIbercultura: Shaw, FujIhata,
0avIes, n: 0D|NCUES, 0Iana (org.). A Arte no Sculo XXl: c humcnzco dcs
tecnoloycs. So Paulo, Ed. Unesp.

|ACHA0D, ArlIndo (2001). |quIna e magInrIo. J.ed. So Paulo, E0USP.

|AKDFSKE, |elIssa (2005). 25 years of really cool stuff. Lemelson|T
Program and CNN. 0Isponivel em
[http://web.mIt.edu/newsoffIce/2005/top25.html]. Acesso em 10.mar.2005.

nterfaces de 7oz em AmbIentes HIpermIdItIcos 95
|AND7CH, Lev (2001). The Language of New |edIa. CambrIdge, |T Press.

|AND7CH, Lev (2002). The AntISublIme deal In 0ata Art. 8erlIm.

|LLEF, C. (1956). The |agIcal Number Seven, Plus or |Inus Two: Some
LImIts on our CapacIty for ProcessIng nformatIon, n: Psycholoyccl Revew,
J, 8197. 0Isponivel em [http://psychclassIcs.yorku.ca/|Iller/]. Acesso em
14.maI.2006.

|UFFAY, Janet H. (200J). Hamlet no Holodeck: o futuro da narratIva no
cIberespao. Traduo ElIssa Khoury 0aher e |arcelo Fernandez CuzzIol. So
Paulo, tau Cultural.

NASS, C. e 8FA7E, S. (2005). WIred for Speech: How 7oIce ActIvates and
Advances the HumanComputer FelatIonshIp. The |T Press.

NELSEN, J. (200J). 7oIce nterfaces: AssessIng the PotentIal. 0Isponivel em
[http://www.useIt.com/alertbox/200J0127.html]. Acesso em J0.ago.2005.

NDF|AN, 0onald A. (199J). ThIngs That |akes Us Smart: 0efendIng Human
AttrIbutes In the Age of the |achIne. CambrIdge, Perseus 8ooks.

NDF|AN, 0onald A. (2004). EmotIonal 0esIgn: Why We Love (or Hate)
Everyday ThIngs. New York, 8asIc 8ooks.

PALAZZD, LuIz. (2002). SIstemas de HIpermidIa AdaptatIva: Fundamentos,
TecnologIas e AplIcaes. 0Isponivel em
[http://gpIa.ucpel.tche.br/-lpalazzo/sha/]. Acesso em 2J.ago.2004.

PAFENTE, Andr (Drg.) (199J). magemmquIna: a Era das TecnologIas do
7Irtual. FIo de JaneIro, Ed. J4.

PEFKDWTZ, S. (2004). 0IgItal People: From 8IonIc Humans to AndroIds.
WashIngton, Joseph Henry Press.

PNKEF, Steven. (2002). D nstInto da LInguagem - Como a mente crIa a
lInguagem. So Paulo, |artIns Fontes.

PNKEF, Steven. (2004). Como a |ente FuncIona. So Paulo, CompanhIa das
Letras.

PLAZA, JulIo; TA7AFES, |onIca. (1998). Processos CrIatIvos com |eIos
EletronIcos: PotIcas 0IgItaIs. So Paulo, HucItec.

PLAZA, JulIo. (2000). Arte e nteratIvIdade: AutorDbraFecepo, n:
Ccdernos dc Pos6rcduco, nstItuto de Artes, UnIcamp. CampInas (ano 4,
vol 4, N.1), pp. 2JJ9.

PLATAD (2002). Fedro. Traduo: Alex |arIns. So Paulo: |artIns Claret.

96 nterfaces de 7oz em AmbIentes HIpermIdItIcos
PDPPEF, Frank (199J). Art of ElectronIc Age. Traduo: 8ernard HemIngway.
New York, Harry N. Abrams.

PDST|AN, NeIl (1992). TecnopolIo: a rendIo da cultura tecnologIa.
Traduo: FeInaldo Cuarany. So Paulo, Nobel.

PFA0D, CIlbertto (200J). Arte TelemtIca: dos IntercmbIos pontuaIs aos
ambIentes vIrtuaIs multIusurIo. So Paulo, tau Cultural.

SANTAELLA, LucIa (2001). |atrIzes da LInguagem e Pensamento - Sonora,
7Isual, 7erbal. So Paulo, lumInuras.

SASSD, Len (2004). 7oIces from the |achIne. 0Isponivel em
[http://emusIcIan.com/tutorIals/emusIc_voIces_machIne/]. Acesso em
25.jul.2005.

S|THSDNAN nstItutIon (2002). SmIthsonIan Speech SynthesIs HIstory
Project. 0Isponivel em
[http://www.mIndsprIng.com/-ssshp/ssshp_cd/ss_hIst.htm]. Acesso em
22.jul.2005.

SPEECH TECHNDLDCY |ACAZNE (2004). TIm 8ernersLee Dpens 0ay Two of
SpeechTEK wIth a 7IsIon for Speech Technology, n: Speech Tech Mcyczne.
0Isponivel em [http://www.speechtechmag.com/pub/Industry/109201.html].
Acesso em 15.set.2004.

TFAUN|ULLEF, Hartmut (2000). HIstory of Speech SynthesIs, 17701970.
0Isponivel em [http://www.lIng.su.se/staff/hartmut/kemplne.htm]. Acesso em
5.abr.2006.

7DCEX|L FDFU| (2000). 7oIceX|L's HIstory, n: Forum Tutorcl. 0Isponivel
em [http://www.voIcexml.org/tutorIals/Intro7.html]. Acesso em 5.abr.2006.

WKPE0A (2005). 7oIce over P. 0Isponivel em
[http://en.wIkIpedIa.org/wIkI/7oP]. Acesso em 27.set.2005.

WLSDN, S. (2002). nformatIon Arts. 8oston, |T Press.

WLSDN, S. (2005). ntersectIons of Art, Technology, ScIence E Culture -
LInks. 0Isponivel em
[http://userwww.sfsu.edu/-Infoarts/lInks/wIlson.artlInks2.html]. Acesso em
10.jan.2006.

ZAKA, FIchard 0. (1997). PerceptIon and magIng. Newton, Focal Press.

ZUFFD, J. A. (2005). A ConvergncIa 0IgItal e a nterpenetrao de |ercados
nas TecnologIas da nformao, ln: Revstc Fonte: Converyncc 0ytcl.
PerIodIco, Prodemge, |Inas CeraIs, n.J, p. 7278.
nterfaces de 7oz em AmbIentes HIpermIdItIcos 97
LISTA 0E FICUPAS
FIgura .1 Speckny Mcchne (|quIna Falante) de Wolfgang von Kempelen .. 20
FIgura .2 \D0ER na World's FaIr, de 19J9 ......................................... 21
FIgura .J D brInquedo Rcdo Rex, de 1911......................................... 2J
FIgura .1 magem "soprada" de Le Pssenlt, 1996 ............................... 28
FIgura .2 nstalao Les Pssenlts, ParIs, 2005.................................... 28
FIgura .J nstalao Tcmpopo, Tokyo, 2005 ....................................... 29
FIgura .4 'Dperao' na 8arbIe para mudar a programao das falas ......... J0
FIgura .5 Alert no PrIx Ars ElectronIca 2004....................................... J1
FIgura .6 l Hcve Never Recd the 8ble, 1995 ...................................... J1
FIgura .7 Drpheus ..................................................................... J2
FIgura .8 Ccpsule #1, 1999 .......................................................... JJ
FIgura .9 LogotIpo netsony .......................................................... JJ
FIgura .10 Esquema do projeto lP Poetry............................................ J4
FIgura .11 Huye Hcrry conversando com o artIsta Arthur Elsenaar ............. J5
FIgura .12 The Tclkny Mcchne, 19901992 ........................................ J6
FIgura .1J 7Ideo Performance Dh to qu vs lcbcs ............................... J7
FIgura .14 Perfomances Messc d \oce .............................................. J8
FIgura .15 nstalao Summoned \oces ............................................. J9
FIgura .16 Um stll do video em 0nverscl Trcnslctor ............................ 40
FIgura .17 6ver o] Ncmes ............................................................. 41
FIgura .18 0nverscl Whstlny Mcchne ............................................. 42
FIgura .19 Tela da Instalao Tclk Nce.............................................. 4J
FIgura .20 Rdny the Net, 2000 ...................................................... 44
FIgura .21 magens RE:MARK .......................................................... 45
FIgura .22 7Ista da Instalao nChc(n)t ............................................ 46
FIgura .2J nstalao Mllennum \enus ............................................ 47
FIgura .24 nstalao lnqury Thecter no Ars ElectronIca 1991 .................. 48
FIgura .25 nstalao Drycnum, 2005 ................................................ 48
98 nterfaces de 7oz em AmbIentes HIpermIdItIcos
FIgura .26 The Lvny Room, 2001 .................................................... 49
FIgura 7.1 Esquema de funcIonamento de uma aplIcao Web
acessada por Interface de voz, vIa telefone, e Interface vIsual,
vIa browser em computador .............................................. 70
FIgura 7.1 Tela do moZcco de voSes, em 27.maro.2006 ....................... 87
FIgura 7.2 Evoluo do moZcco de voSes no tempo .............................. 89

LISTA 0E TAELA
Tabela .1 Quadro comparatIvo entre o modo de operao de
Interfaces vIsuaIs e de voz .................................................. 6J
nterfaces de 7oz em AmbIentes HIpermIdItIcos 99







ANEXD I
|emorIal 0escrItIvo e codIgos fonte da aplIcao moZcco de voSes
(descrIta no capitulo 7)
100 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 101
hemorIaI 0escrItIvo do moZaco de voSes
Introduo
D sIstema moZcco de voSes composto de modulos de programas hospedados em
um server na Web/nternet (atualmente LocaWeb), com a fInalIdade de captar
gravaes de vozes pelo telefone, feItas lIvremente pelos usurIos para formarem
um mosaIco vIsual de pastIlhas colorIdas na Web representado as lIgaes.
Foram regIstrados quatro dominIos na FAPESP para acesso ao moZcco de voSes na
Web:
o mozaIco.com.br
o mozaIcodevoses.com.br
o mosaIcodevozes.com.br
o voIcemosaIc.com.br

D moZcco de voSes na Web formado por pastIlhas que vo surgIndo no banco
de dados do sIstema na Web a cada vez que um usurIo faz uma lIgao
telefonIca para o sIstema. A Interface de reconhecImento de voz do sIstema pode
ser feIta por qualquer gateway de voIceX|L, sendo que atualmente esto sendo
usados os seguIntes gateways de voz:
o Loca7oz, 8razIl - tel (11) J047.4790, numero da aplIcao:
115572J602
o 7oxeo, USA ** 869 1 (999) 126021J (7oP)

No entanto, o gateway de voz utIlIzado no afeta o sIstema, sendo que possivel
utIlIzar qualquer gateway compativel com o padro 7oIceX|L, e portanto o
gateway de voz pode ser trocado a qualquer Instante, sem prejuizo do sIstema, e
no fazendo parte dele.

102 nterfaces de 7oz em AmbIentes HIpermIdItIcos
CaracterstIcas TcnIcas
D sIstema moZcco de voSes foI desenvolvIdo em 7oIceX|L, ASP, HT|L,
JavaScrIpt, Flash|X e usa banco de dados Access, em sIstema operacIonal
WIndows. Ds modulos que compem o sIstema esto descrItos abaIxo, e suas
lIstagens de codIgos de programao vm a seguIr.
nterfaces de 7oz - sIstema composto pelos seguIntes programas/pgInas:
maIn.asp - |odulo em 7oIceX|L, em portugus, que faz a Interface de voz com
os usurIos que lIgam pelo telefone. Este modulo recebe a lIgao, solIcIta uma
cor e a gravao de uma mensagem para representar o usurIo no mosaIco na
Web. (exIstem tambm os modulos maIneng.asp e maInesp.asp, que fazem as
Interfaces de voz em Ingls e espanhol, respectIvamente).
grava.asp - |odulo em ASP, que grava no 8anco de 0ados do sIstema a
mensagem, a cor, a IdentIfIcao do telefone que fez a lIgao, etc. (exIstem
tambm os modulos gravaeng.asp e gravaesp.asp, que fazem as gravaes em
Ingls e espanhol, respectIvamente).

SIstema Web sIstema composto pelos seguIntes programas/pgInas:
Index.htm - pgIna HT|L de abertura do moZcco de \oses, em portugus,
vIsualmente na Web. (exIstem as pgInas Indexeng.htm e Indexesp.htm para as
aberturas em Inlgs e espanhol, respectIvamente).
martha.htm - pgIna HT|L com o currIculum e Informaes da autora do moZcco
de voSes. (exIstem tambm as pgInas marthaeng.htm e marthaesp.htm, com as
Informaes para as verses do moZcco em Ingls e espanhol)
partIcIpe.htm - pgIna HT|L com as Informaes de como partIcIpar do moZcco
de voSes atravs da lIgao telefonIca. (exIstem tambm as pgInas partIcIpe
eng.htm e partIcIpeesp.htm para as verses em Ingls e espanhol).
duvIda.htm - pgIna HT|L com Informaes geraIs sobre o moZcco de voSes e
formulrIo para entrar em contato com a autora - |artha Carrer Cruz CabrIel,
atravs do emaIl martha@nmd.com.br (exIstem tambm as pgInas duvIda
eng.htm e duvIdaesp.htm para as verses em Ingls e espanhol).
nterfaces de 7oz em AmbIentes HIpermIdItIcos 10J
entrada.swf - modulo em Flash |X (actIonscrIpt) que monta o moZcco de voSes
vIsual na Web, em portugus, Ingls ou espanhol (dependendo de qual modulo de
abertura foI acessado Index, Indexeng, ou Indexesp), atravs da carga dos
modulos varIaveIs.swf e grafIco.swf, como descrIto na sequncIa.
grafIco.swf - modulo em Flash |X que l as varIveIs passadas pelo modulo
varIaveIs.swf e monta o mosaIco vIsual na tela. Ao carregar, ele fIca na espera
das varIveIs que o modulo varIaveIs.swf Ir passar.
varIaveIs.swf - modulo em Flash |X que chama o arquIvo varIaveIs.asp, que
acessa e Interage com o banco de dados, verIfIca se houve alguma nova Incluso
para passar pro modulo grafIco.swf mostrar na tela.
tocar.asp - modulo em ASP para ler e tocar as mensagens gravada, quando o
mozaIco clIcado.
varIaveIs.asp - modulo em ASP que acessa o banco de dados para lIgar com o
modulo varIaveIs.swf.

LIstagem do cdIgo fonte dos mduIos do moZaco de voSes
maIn.asp

:xml versIon=1.0 encodIng=Cp1252:

!0DCTYPE vxml PU8LC '//Nuance/0T0 7oIceX|L 1.0//EN'
'http://voIcexml.nuance.com/dtd/nuancevoIcexml12.dtd'

vxml versIon=1.0 xml:lang=pt8F
scrIpt![C0ATA[functIon sIpParaNum(s) [
return s.substr(4,(s.IndexDf('@') 4)); ]]]/scrIpt
meta name=Cenerator content=78uIlder 1.2.J0 /
form Id=form1
block
audIo src=mozaIco.wav7oc est entrando no mosaIco de
vozes/audIo
A seguIr, voc escolher uma cor, e gravar uma mensagem lIvre, de no
|xImo 15 segundos, que te personIfIque no mosaIco.
/block

fIeld modal=false hotword=false name=color
grammar type=text/gsl
![C0ATA[([
azul
104 nterfaces de 7oz em AmbIentes HIpermIdItIcos
roxo
verde
amarelo
laranja
vermelho
vIoleta])]]
/grammar
prompt bargeIn=true
Com qual cor voc deseja ser representado:
azul, roxo, verde, amarelo, laranja, vermelho ou vIoleta:
/prompt
fIlled mode=any
prompt bargeIn=true7oc escolheu:
value expr=color /
/prompt
/fIlled
/fIeld

record beep=true dtmfterm=true name=mensagem fInalsIlence=2000
maxtIme=15000
prompt bargeIn=trueCrave sua mensagem no mosaIco de vozes. Fale apos
o bIp, e tecle cerquIlho para encerrar./prompt
noInput count=17oc aInda est ai:
reprompt /
/noInput
noInput count=JNo estou ouvIndo nada. Por favor tente maIs tarde. At
logo.
dIsconnect /
/noInput
/record

fIeld modal=false hotword=false name=confIrma type=boolean
prompt bargeIn=true7oc gravou a seguInte mensagem:
value expr=mensagem mode=tts /Tecle um para confIrmar ou doIs para
regravar a mensagem.
/prompt
/fIeld

fIlled mode=all
var name=callerId /
assIgn name=callerId expr=sIpParaNum(sessIon.telephone.anI) /
If cond=confIrma
submIt method=post enctype=applIcatIon/xwwwformurlencoded
expr='grava.asp' namelIst=callerId mensagem color /
/If
clear namelIst=mensagem confIrma /
/fIlled
/form
/vxml
nterfaces de 7oz em AmbIentes HIpermIdItIcos 105

grava.asp

:xml versIon=1.0 encodIng=SD88591:
!0DCTYPE vxml PU8LC '//Nuance/0T0 7oIceX|L 1.0//EN'
'http://voIcexml.nuance.com/dtd/nuancevoIcexml12.dtd'

vxml versIon=1.0 xml:lang=pt8F
meta name=Cenerator content=78uIlder 1.2.J0/
form Id=form1
block name=block1

Set Upload = Server.CreateDbject(SoftArtIsans.FIleUp)

telefone=Upload.Form(callerId)
cor=Upload.Form(color)

Set oConn = Server.CreateDbject(A0D08.ConnectIon)
oConn.ConnectIonStrIng = 0rIver=[|Icrosoft Access 0rIver (*.mdb)];08Q= E
Server.|apPath(dados/mosaIco.mdb)
oConn.Dpen

Set oFS= Server.CreateDbject(A0D08.Fecordset)
oFS.Dpen SELECT * FFD| telefone, oConn, 2, J

0Im contadorderegIstro
contadorderegIstro=1

0o WhIle Not oFS.EDF
contadorderegIstro=contadorderegIstro+1
oFS.|oveNext
Loop

0Im valor, I, j
0Im matrIz(1600)
0Im posIcoes(1600)
0Im valorrandomIco, temp
0Im exIste, contador

I=1
contador=1
exIste=true


If (contadorderegIstro=1) Then
randomIze
posIcao=nt(1600* Fnd +1)
Else
oFS.|oveFIrst
106 nterfaces de 7oz em AmbIentes HIpermIdItIcos

0o WhIle Not oFS.EDF
posIcoes(I)=oFS(posIcao)
I=I+1
oFS.|oveNext
Loop

valorrandomIco=1600(contadorderegIstro1)

for I=1 to 1600

for j=1 to contadorderegIstro
If (posIcoes(j) = I) Then
exIste=false
end If
next

If (exIste=false) Then
exIste=true
else
matrIz(contador)=I
contador=contador+1
end If
j=1
next
randomIze
posIcao=matrIz(nt(valorrandomIco * Fnd) +1)
end If

dIahoje=date

mes=(month(dIahoje))
If (Len(mes)2) Then
mes= 0 E mes
End If

dIa=(day(dIahoje))
If (Len(dIa)2) Then
dIa= 0 E dIa
End If

dIahoje= dIa E mes E year(dIahoje)

hora= tIme
hora=Feplace(hora, :, )

hora=Left(hora, Len(hora)2)
datahora=dIahoje E hora
nterfaces de 7oz em AmbIentes HIpermIdItIcos 107

If (contadorderegIstro=1) Then
oFS.AddNew
oFS(qtde) = contadorderegIstro
oFS(nome) = nome
oFS(cIdade) = cIdade
oFS(telefone) = telefone E datahora
oFS(data) = datahora
oFS(cor) = cor
oFS(posIcao) = posIcao
oFS.Update
Else
If (contadorderegIstro1600) Then
oFS.AddNew
oFS(qtde) = contadorderegIstro
oFS(nome) = nome
oFS(cIdade) = cIdade
oFS(telefone) = telefone E datahora
oFS(cor) = cor
oFS(posIcao) = posIcao
oFS.Update
Else
oFS.AddNew
oFS(qtde) = contadorderegIstro
oFS(nome) = nome
oFS(cIdade) = cIdade
oFS(telefone) = telefone E datahora
oFS(cor) = cor
oFS(posIcao) = posIcao
oFS(data) = datahora
oFS.Update
End If

End If

oFS.Close
Set oFS = NothIng

oConn.Close
Set oConn = NothIng

Upload.SaveAs e:\home\w4fu\web\mosaIco\waves\ E telefone E datahora E
.wav



Set objC0DSYS|aIl = Server.CreateDbject(C0D.|essage)
Set objC0DSYSCon = Server.CreateDbject (C0D.ConfIguratIon)
108 nterfaces de 7oz em AmbIentes HIpermIdItIcos

objC0DSYSCon.FIelds(http://schemas.mIcrosoft.com/cdo/confIguratIon/smtpser
ver) = smtp2.locaweb.com.br

objC0DSYSCon.FIelds(http://schemas.mIcrosoft.com/cdo/confIguratIon/smtpser
verport) = 25

objC0DSYSCon.FIelds(http://schemas.mIcrosoft.com/cdo/confIguratIon/sendusIn
g) = 2

objC0DSYSCon.FIelds(http://schemas.mIcrosoft.com/cdo/confIguratIon/smtpcon
nectIontImeout) = J0
objC0DSYSCon.FIelds.update
Set objC0DSYS|aIl.ConfIguratIon = objC0DSYSCon
objC0DSYS|aIl.From = martha@nmd.com.br
objC0DSYS|aIl.To = martha@nmd.com.br
objC0DSYS|aIl.Subject = |ensagem recebIda pelo moZaIco de 7oSes: E
Upload.Form(callerId)
objC0DSYS|aIl.Text8ody = |ensagem recebIda: E Now
objC0DSYS|aIl.AddAttachment e:\home\w4fu\web\mosaIco\waves\ E
telefone E datahora E .wav

objC0DSYS|aIl.Send
Set objC0DSYS|aIl = NothIng
Set objC0DSYSCon = NothIng

Set |aIler = NothIng
Set Upload = NothIng


Sua mensagem foI envIada e agora voc faz parte do mosaIco de vozes. Acesse
o mosaIco na web atravs do endereo www, ponto, mosaIco de vozes, ponto,
kom, ponto, br. DbrIgada e at logo.
/block
/form
/vxml


Index.htm

!0DCTYPE HT|L PU8LC //WJC//0T0 HT|L 4.01 Frameset//EN
http://www.wJ.org/TF/html4/frameset.dtd
html
headtItlemoZaIco de 7oSes/tItle
meta httpequIv=ContentType content=text/html; charset=Iso88591
/head

frameset cols=*,1 frameborder=ND border=0 framespacIng=0
frame src=entrada.asp:lIngua=portugues name=entrada noresIze
frame src=tocar.asp name=toque scrollIng=ND
/frameset
nterfaces de 7oz em AmbIentes HIpermIdItIcos 109
noframesbody

/body/noframes
/html

martha.htm

!0DCTYPE HT|L PU8LC //WJC//0T0 HT|L 4.01 TransItIonal//EN
html
headtItle|artha Carrer Cruz CabrIel/tItle
meta httpequIv=ContentType content=text/html; charset=Iso88591
style type=text/css
!
.tItulo [fontfamIly: Trebuchet |S, 7erdana; color: #9999FF; fontstyle: normal;
lIneheIght: normal;
fontweIght: bold; fontvarIant: normal; texttransform: none; fontsIze: 14px; ]

/style
style type=text/css
!
.texto [fontfamIly: Trebuchet |S, 7erdana; color: #FFFFFF; fontstyle: normal;
lIneheIght: normal; fontweIght: normal; fontvarIant: normal; texttransform:
none; fontsIze: 11px; textalIgn: justIfy; ]

a [fontfamIly: Trebuchet |S, 7erdana, ArIal, HelvetIca, sansserIf;
fontsIze: 11px; fontstyle: normal; lIneheIght: normal; fontweIght: normal;
fontvarIant: normal;
color: #8080FF; textdecoratIon: none; ]

/style
/head

body bgcolor=#000000 leftmargIn=0 topmargIn=0 margInwIdth=0
margInheIght=0 class=texto
table wIdth=95 border=0 alIgn=center cellpaddIng=1 cellspacIng=5
tr
tdp alIgn=centerImg src=Images/tmosaIco.jpg wIdth=429
heIght=J9/p
pspan class=tItulo|artha Carrer Cruz CabrIel/spanbr
a href=maIlto:martha@nmd.com.brmartha@nmd.com.br/a / a
href=http://www.martha.com.br/
target=_blankwww.martha.com.br/abr
br
/p
table wIdth=90 border=0 alIgn=center cellpaddIng=0 cellspacIng=0
tr tdp class=textoCraduada em EngenharIa CIvIl pela UNCA|P em
1984, recebendo o
PrmIo nsItuto de EngenharIa pelo 1o lugar da sua turma. Posgraduada em
ComunIcao
de |arketIng pela ESP|SP em 1995, e posgraduada em 0esIgn CrfIco pela
Faculdade de
110 nterfaces de 7oz em AmbIentes HIpermIdItIcos
8elas Artes de So Paulo em 2002, com a monografIa D 8It Nosso de Cada
0Ia. |estrado
em Artes em andamento na ECA/USP, com a pesquIsa focada em Interfaces
dIgItaIs.
Consultora tcnIca InternacIonal da AllHealthNet.com (USA), desde 2000.
Professora de
Novas TecnologIas e |arketIng para nternet na UnIversIdade AnhembI
|orumbI,
desde Fev.200J. 0Iretora de tecnologIa da N|0 nternet E |ultImidIa (SP),
recebendo
10 PrmIos I8est, entre 1998 e 200J, pelos websItes da Turma da |onIca e
Escolanet.
Palestrante frequente em congressos no 8rasIl e USA desde 1998, destacando
se as
partIcIpaes em: 1) Web0ev Share 200J Conference na UnIversIdade de
ndIana, USA,
out.200J, onde recebeu o 8est PresentatIon Award na Content: 0esIgn E
StrategIes
track pela apresentao Colors on the Web Few ThIngs, Creat Fesults; e 2)
CU|FEC/Educause
Conference na UnIversIdade do Texas, AustIn, USA, maI.2004, onde foI
convIdada como Feature
Speaker para apresentar HIgh Tech, HIgh Touch Web nterfaces: Colors,
|ultImedIa and
7oIceX|L'. br (CurrIculum completo, em Ingls, em a
href=http://www.martha.com.br/ target=_blankwww.martha.com.br/a)
/p/td /tr /table

/td /tr /table
pEnbsp;/p pEnbsp;/p
/body
/html

partIcIpe.htm

!0DCTYPE HT|L PU8LC //WJC//0T0 HT|L 4.01 TransItIonal//EN
html
head tItlePartIcIpe/tItle
meta httpequIv=ContentType content=text/html; charset=Iso88591
style type=text/css
!
.tItulo [ fontfamIly: 7erdana; color: #9999FF; fontstyle: normal; lIneheIght:
normal; fontweIght: bold;
fontvarIant: normal; texttransform: none; fontsIze: 14px; ]

/style
style type=text/css
!
.texto [ fontfamIly: 7erdana; color: #FFFFFF; fontstyle: normal; lIneheIght:
normal; fontweIght: normal;
fontvarIant: normal; texttransform: none; textalIgn: justIfy; fontsIze: 11px;
]
nterfaces de 7oz em AmbIentes HIpermIdItIcos 111

a [ fontfamIly: 7erdana, ArIal, HelvetIca, sansserIf; fontsIze: 11px; fontstyle:
normal; lIneheIght: normal;
fontweIght: normal; fontvarIant: normal; color: #8080FF; textdecoratIon: none;
]

/style
/head

body bgcolor=#000000 leftmargIn=0 topmargIn=0 margInwIdth=0
margInheIght=0 class=texto
table wIdth=95 border=0 alIgn=center cellpaddIng=1 cellspacIng=5
tr tdcenter
Img src=Images/tmosaIco.jpg wIdth=429 heIght=J9/p/p
/center
pspan class=tItuloPartIcIpebr
br
/span/p
table wIdth=90 border=0 alIgn=center cellpaddIng=0 cellspacIng=0
tr
td pspan class=textoPara fazer parte do moZaIco de voSes, lIgue
para
strong(11) J047.4790/strong, de qualquer telefone fIxo ou movel.
br
Enbsp;br
Fornea o codIgo strong115572J602/strong e sIga as Instrues. br
Enbsp;br
0epoIs acesse o mosaIco na web http://www.mozaIcodevoses.com.br/ e
voc
estar InserIdo nele. LocalIzese buscando o numero do telefone do qual
lIgou para partIcIpar./p/td
/tr
/table
pspan class=tItulo /span/p

/td /tr/table pEnbsp;/p

duvIda.htm

!0DCTYPE HT|L PU8LC //WJC//0T0 HT|L 4.01 TransItIonal//EN
html
head tItlenformaes do moZaIco de voSes/tItle
meta httpequIv=ContentType content=text/html; charset=Iso88591
style type=text/css
!
.tItulo [ fontfamIly: 7erdana; color: #9999FF; fontstyle: normal; lIneheIght:
normal; fontweIght: bold;
fontvarIant: normal; texttransform: none; fontsIze: 14px; ]

112 nterfaces de 7oz em AmbIentes HIpermIdItIcos
/style
style type=text/css
!
.texto [ fontfamIly: 7erdana; color: #FFFFFF; fontstyle: normal; lIneheIght:
normal; fontweIght: normal;
fontvarIant: normal; texttransform: none; fontsIze: 11px; textalIgn: justIfy; ]

a [ fontfamIly: 7erdana, ArIal, HelvetIca, sansserIf; fontsIze: 11px; fontstyle:
normal; lIneheIght: normal;
fontweIght: normal; fontvarIant: normal; color: #8080FF; textdecoratIon: none;
]
Input [ fontfamIly: 7erdana; color: #000000; fontstyle: normal; lIneheIght:
normal; fontweIght: normal;
fontvarIant: normal; texttransform: none; fontsIze: 12px; ]

/style/head

body bgcolor=#000000 leftmargIn=0 topmargIn=0 margInwIdth=0
margInheIght=0 class=texto
table wIdth=95 border=0 alIgn=center cellpaddIng=1 cellspacIng=5
tr tdp alIgn=centerImg src=Images/tmosaIco.jpg wIdth=429
heIght=J9/p
pspan class=tItulonformaes/span
pEnbsp;
table wIdth=90 border=0 alIgn=center cellpaddIng=0 cellspacIng=0
tr
td P class=textoCada pastIlha no mosaIco representa uma pessoa.
Para Informaes de como se InserIr no moZaIco de voSes, a
href=partIcIpe.htmclIque
aquI/a.
P class=textoAs pastIlhas que vo aparecendo na tela so novas
pessoas que entraram no mosaIco.
P class=textoPara ouvIr as mensagens gravadas pelas pessoas que
formam o mosaIco, clIque sobre as pastIlhas.
P class=textoAs pessoas podem ser localIzadas pelo numero do
telefone
de onde elas gravaram as mensagens. 7oc pode procurar por uma
pessoa,
ou por sua proprIa mensagem, atravs do numero do telefone. As
pastIlhas
localIzadas sero marcadas com luz . 7oc pode tambm buscar por
todas as pessoas de uma mesma rea, fazendo a busca apenas pelo
000 (deIxando o numero do telefone em branco).
P class=textoNo caso de duvIdas ou comentrIos, entre em contato:
/p
form |ETHD0=PDST
ACTDN=http://www18.locaweb.com.br/scrIpts/Form|aIl.pl
Input TYPE=H00EN NA|E=recIpIent 7ALUE=martha@nmd.com.br
Input TYPE=H00EN NA|E=subject 7ALUE=moZaIco de voSes
Input TYPE=H00EN NA|E=redIrect
7ALUE=http://www.4fun.com.br/mosaIco/envIado.htm
nterfaces de 7oz em AmbIentes HIpermIdItIcos 11J

table border=0 alIgn=center cellpaddIng=J cellspacIng=2
tr td colspan=2 class=textoPara: |artha Carrer Cruz
CabrIel/td /tr
tr td span class=textoNome: /spanbr /td
tdNPUT NA|E=nome TYPE=TEXT sIze=40/td /tr
tr td class=textoE|aIl: /td
tdNPUT NA|E=emaIl TYPE=TEXT sIze=40/td /tr
tr td valIgn=top class=texto|ensagem:/td
tdtextarea name=mensagem cols=J0
rows=10/textarea/td /tr
tr td colspan=2center
NPUT TYPE=submIt NA|E=submIt 7ALUE=EnvIar
Input type=reset name=Feset value=LImpar
/center/td /tr
/table

/FDF|
/td /tr /table
P class=textoEnbsp;
/td /tr /table
pEnbsp;/p pEnbsp;/p
/body
/html

tocar.asp

@LANCUACE=78SCFPT CD0EPACE=1252

numerotelefone= Fequest.form(url)
endereco=waves/ E numerotelefone E .wav
response.WrIte(endereco)
0Im cIdade, nome

If (numerotelefone) Then
Set oConn = Server.CreateDbject(A0D08.ConnectIon)
Set oFS = Server.CreateDbject(A0D08.Fecordset)
oConn.Dpen 0F7EF=[|Icrosoft Access 0rIver (*.mdb)];08Q= E
Server.|apPath(dados/mosaIco.mdb)
oFS.Dpen SELECT * FFD| telefone WHEFE (telefone = ' +
Feplace(numerotelefone, ', '') + '), oConn, 2, J

f Not oFS.EDF Then
nome=oFS(nome)
cIdade=oFS(cIdade)
cor=oFS(cor)
end If

oFS.Close
114 nterfaces de 7oz em AmbIentes HIpermIdItIcos
set oFS = NothIng

oConn.Close
Set oConn = NothIng

end If

0Im selecaocor, corrgb

selecaocor = cor
Select Case selecaocor
Case branco corrgb = #FFFFFF
Case amarelo corrgb = #FFFF00
Case azul corrgb = #00FFFF
Case azulIndIgo corrgb = #0000FF
Case vermelho corrgb = #FF0000
Case laranja corrgb = #F09058
Case vIoleta corrgb = #CFJ2F0
Case verde corrgb = #00FF00
End Select


html
head
tItleTocando/tItle
meta httpequIv=ContentType content=text/html; charset=Iso88591
style type=text/css
!
.nomes [ fontfamIly: 7erdana, ArIal, HelvetIca, sansserIf; fontsIze: 14px; font
style: normal;
fontweIght: normal; color: #CCCCCC; ]

/style
/head

body bgcolor=#000000
center
table border=0 wIdth=70
tr td
! Pspan class=nomes=cIdade/span
Pembed src==endereco heIght=5 wIdth=5 autostart=true
hIdden=true
/embed
/P
/td/tr/table
/center
/body /html


nterfaces de 7oz em AmbIentes HIpermIdItIcos 115
varIaveIs.asp

@Language=78ScrIpt

DptIon ExplIcIt

0Im oFS, oConn, oFS1, oFS2, contador

0Im resultado1
contador=1
Set oConn = Server.CreateDbject(A0D08.ConnectIon)
Set oFS = Server.CreateDbject(A0D08.Fecordset)

oConn.Dpen 0F7EF=[|Icrosoft Access 0rIver (*.mdb)];08Q= E
Server.|apPath(dados/mosaIco.mdb)

oFS.Dpen SELECT * FFD| telefone, oConn, 2, J

f oFS.EDF Then
Fesponse.WrIte sucesso=FalseE
Else
Fesponse.WrIte sucesso=okEresultado1=
0o WhIle Not (oFS.EDF or contador400)
resultado1 = resultado1 E oFS(nome) E / E oFS(cIdade) E / E
oFS(telefone) E / E oFS(cor) E / E oFS(posIcao) E ,
contador=contador+1
oFS.|oveNext
Loop
End f

oFS.Close
Set oFS = NothIng
oConn.Close
Set oConn = NothIng

Fesponse.WrIte Server.UFLEncode(resultado1)


entrada.swf

Carrega os doIs modulos na tela grafIco.swf e varIaveIs.swf. (no tem como
apresentar lIstagens Impressas de programas flash, tIpo FLA)

varIaveIs.swf

Chama o arquIvo varIaveIs.asp, que chama o 80 e que devolve as varIveIs e passa
para o grafIco.swf. (no tem como apresentar lIstagens Impressas de programas
flash, tIpo FLA)

116 nterfaces de 7oz em AmbIentes HIpermIdItIcos
grafIco.swf

Ao carregar, ele fIca espera das varIveIs que o arquIvo varIaveIs.swf Ir
passar, e assIm que o resultado estIver carregado, as varIveIs so passadas
separadas por virgulas, a prImeIra passagem serIa converter essa cadeIa em uma
matrIz.

If ((resultadoundefIned)) [
fInal = resultado.splIt(,); ]

Em seguIda, levantamos o total dos regIstros e acIonamos o plIm (alerta sonoro
na web) para caso haja novos elementos, se separamos as varIveIs, em dIferentes
matrIzes: nome, cIdade, telefone, cor, posIo.

contador = 0;
total = 0;
whIle ((fInal[contador]undefIned) and (fInal[contador]) and
(contadorlength(fInal))) [
total++;
contador++;
]
If ((contador_root:contadortemp) ) [
If ((_root:contadortemp) and (_root:contadortempundefIned))[
_root.plIm.gotoAndPlay(5);
]
_root:contadortemp = contador;
]
mnome = new array();
mcIdade = new array();
mtelefone = new array();
mcor = new array();
mposIcao = new array();
pessoas = new array();
contador = 0;
whIle (contadortotal) [
temp = fInal[contador];
pessoas = temp.splIt(/);
mnome[contador] = pessoas[0];
mcIdade[contador] = pessoas[1];
mtelefone[contador] = pessoas[2];
mcor[contador] = pessoas[J];
mposIcao[contador] = pessoas[4];
contador++;
]
Com as matrIzes defInIdas, pIntamos os quadrados com as cores escolhIdas pelo
usurIo, e lInkamos cada elemento sua mensagem gravada.
contador = 0;
whIle (contadortotal) [
varcores = new Color(m+mposIcao[contador]);
swItch (mcor[contador]) [
nterfaces de 7oz em AmbIentes HIpermIdItIcos 117
case amarelo :
varcores.setFC8(0xFFFF00);
break;
case azul :
varcores.setFC8(0x00FFFF);
break;
case roxo :
varcores.setFC8(0x77J1AJ);
break;
case vermelho :
varcores.setFC8(0xFF0000);
break;
case laranja :
varcores.setFC8(0xF09058);
break;
case verde :
varcores.setFC8(0x00FF00);
break;
case vIoleta :
varcores.setFC8(0xCFJ2F0);
break;
case branco :
varcores.setFC8(0xFFFFFF);
break;
]
duplIcate|ovIeClIp(lInks, lInks+contador, contador);
setProperty(lInks+contador, _x, getProperty((m+mposIcao[contador]),
_x));
setProperty(lInks+contador, _y, getProperty((m+mposIcao[contador]),
_y));
set(lInks+contador + :url, mtelefone[contador]);
contador++;
]
LocalIzadores procuramos na matrIz o ddd + telefone e posIcIonamos os
localIzadores na tela como luzInhas pIscando. Caso o telefone no exIsta no 80,
chamada uma mensagem de erro. As outras opes serIam, somente o telefone e
somente o ddd, varIando somente a varIvel telefonecompleto, na procura.
contador = 0;
I = 0;
telefonecompleto = ddd+telefone;
exIste = false;
acender = new array();
whIle (I=total) [
temp = mtelefone[I];
cadeIa = temp.slIce(0, length(temp)12);
valor = cadeIa.IndexDf(telefonecompleto);
If (valor1) [
exIste = true;
acender[contador] = mposIcao[I];
118 nterfaces de 7oz em AmbIentes HIpermIdItIcos
contador++;
]
I++;
]


If (exIste == true) [
for (I=0; Icontador; I++) [
duplIcate|ovIeClIp(brIlho, brIlho+I, I+40000);
setProperty(brIlho+I, _x, getProperty((m+ acender[I]), _x));
setProperty(brIlho+I, _y, getProperty((m+ acender[I]), _y));
exIste = false;
]
] else [
_root.erros.gotoAndPlay(telefone);
gotoAndPlay(2);
]

nterfaces de 7oz em AmbIentes HIpermIdItIcos 119







ANEXD II
LInha do tempo da hIstorIa da sintese e reconhecImento de voz
120 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 121
LInha do tempo da hIstrIa da sntese e reconhecImento de voz
Conforme CIlbert (1997), Sasso (2004), Traunmuller (2000), 0ragon Systems (2005),
Cohen (2004) e 7oIceX|L (2000), podemos traar a seguInte lInha do tempo na
hIstorIa da sintese de fala e reconhecImento de voz:

171

111


136
Wolfgang von Kempelen Inventa a SpeakIng |achIne, prImeIra prImeIra
mquIna de fala mecnIca (Sasso, 2004)
D brInquedo FadIo Fex, consIderado por muItos como o prImeIro sIstema
mecanIzado de reconhecImento de fala, foI lanado no mercado (Cohen,
2004:XX)
D ATET's 8ell Labs produzIu o prImeIro sIntetIzador de fala eletronIco
chamado de 7oder (0udley, FIesz and WatkIns). Esta mquIna foI
demonstrada na World FaIrs de 19J9 por experts que usavam um teclado e
pedaIs para atIvar a mquIna e emItIr fala. (0ragon, 2005)
[1]

16 John PIerce do 8ell Labs declarou que sintese de fala E reconhecImento de


voz no serIam uma realIdade por vrIas dcadas porque requerIam
IntelIgncIa artIfIcIal. (0ragon, 2005)

IncIo
dos
anos
170
A soluo para reconhecImento de voz E fala da HIdden |arkov |odelIng
(H||) foI Inventada por Lenny 8aum da PrInceton UnIversIty e
compartIlhada com vrIos contratantes da AFPA (Advanced Fesearch
Projects Agency) IncluIndo a 8|. H|| uma estratgIa matemtIca
complexa de compatIbIlIdade de padres (patternmatchIng) que no fInal
das contas foI adotada por todas as companhIas lideres de reconhecImento
de voz E fala, IncluIndo 0ragon Systems, 8|, PhIlIps, ATET e outras.
(0ragon, 2005)

171








176
A 0AFPA (0efense Advanced Fesearch Projects Agency) estabeleceu o
programa de PesquIsa de Compreenso de Fala (Speech UnderstandIng
Fesearch SUF) para desenvolver sIstemas computacIonaIs que pudessem
compreender fala continua (dIscurso lIvre). Lawrence Foberts, que InIcIou o
programa, gastou J mIlhes de dolares por ano dos fundos governamentaIs,
por 5 anos. Crandes grupos de projeto do SUF foram estabelecIdos C|U, SF,
|T's LIncoln Laboratory, Systems 0evelopment CorporatIon (S0C), e 8olt,
8eranek, e Newman (88N). Este foI o maIor projeto de reconhecImento de
fala de todos os tempos. (0ragon, 2005)
0esenvolvIda a |quIna KurzweIl de leItura para os cegos, por Faymond
KurzweIl. (CIlbert, 1997)
[1]


178




D brInquedo popular Speak and Spell (Fale e Soletre) da Texas nstruments
foI IntroduzIdo no mercado. Speak and Spell usava um chIp de fala que levou
a grandes passos no desenvolvImento de sintese de som maIs parecIdo com a
voz humana. (0ragon, 2005)
[1]

122 nterfaces de 7oz em AmbIentes HIpermIdItIcos
178

17
D barato sIstema 7otrax TypenTalk (dIgIte falando), foI desenvolvIdo por
FIchard Cagnon, 1978. (CIlbert, 1997)
[1]

D sIstema |Talk do |..T. foI desenvolvIdo por Jonathan Allen, SherI
HunnIcut, e 0ennIs Klatt. (CIlbert, 1997)
[1]


182 A Covox foI fundada. A companhIa trouxe o som dIgItal (atravs do The
7oIce |aster, Sound |aster e The Speech ThIng) para o Commodore 64,
AtarI 400/800, e fInalmente o 8| PC em meados dos anos 80. (0ragon,
2005)



183
A 0ragon Systems, empresa de tecnologIas de fala e lInguagens, foI
fundada. (0ragon, 2005)
0esenvolvIdo o Klattalk por 0ennIs Klatt do |..T. que formou a base para o
sIstema comercIal 0ECtalk da 0IgItal EquIptment CorporatIon's. (CIlbert,
1997)
[1]


184


185
A SpeechWorks, fornecedora lider das solues de reconhecImento de fala
automtIco (automated speech recognItIon ASF) pelo telefone , foI
fundada. (0ragon, 2005)
0esenvolvImento do sIstema de texttospeech (de texto para fala) da ATET
8ell LaboratorIes. (CIlbert, 1997)
[1]


13 A Covox vende seus produtos para a CreatIve Labs, nc. (0ragon, 2005)

15









A 0ragon Systems lana um software de reconhecImento de fala no nivel de
dItado. FoI a prImeIra vez que a tecnologIa de reconhecImento de voz E
dItado de fala foI dIsponIbIlIzada para consumIdores. A 8| e KurzweIl
seguIram o mesmo camInho poucos meses depoIs. (0ragon, 2005)
D projeto ATET Phone Web tem InicIo com 0ave Ladd, ChrIs FammIng, Ken
Fehor, e Curt Tuckey da ATET Fesearch. A IdIa era crIar um sIstema de
gateway (portal) rodando um browser de voz Interpretando uma lInguagem
de marcao (markup) de dIlogos de voz, que se comunIcarIa com
conteudos web e telefones comuns. Este foI o InicIo do 7oIceX|L.
(7oIceX|L, 2000)

16 A Charles Schwab a prImeIra companhIa a destInar recursos para o
desenvolvImento de um sIstema de reconhecImento de fala 7F (nteractIve
7oIce FecognItIon) com a Nuance. D programa, 7oIce 8roker, permIte que
at J60 usurIos sImultneos lIguem para obter cotaes de aes do
mercado e opes. ela manIpula at 50.000 requIsIes por dIa. D sIstema
revelou 95 de precIso e preparou o camInho para outras companhIas como
Sears, Foebuck and Co., e UnIted Parcel ServIce of AmerIca nc., e E*Trade
SecurItIes seguIrem seus passos. (0ragon, 2005)

A 8ellSouth lana o prImeIro portal de voz mundIal, chamado 7al e
posterIormente nfo 8y 7oIce. (0ragon, 2005)

17 A 0ragon IntroduzIu o Naturally SpeakIng, o prImeIro software dIsponivel
de dItado continuo (sem a necessIdade de fazer pausas entre as palavras
para que o computador entendesse o que estava sendo dIto). (0ragon, 2005)
nterfaces de 7oz em AmbIentes HIpermIdItIcos 12J

18 A Lernout E HauspIe comprou a KurzweIl. A |Icrosoft InvestIu 45 mIlhes de
dolares na Lernout E HauspIe para formar uma parcerIa que IrIa
eventualmente permItIr |Icrosoft usar sua tecnologIa de reconhecImento
de voz e fala em seus sIstemas. (0ragon, 2005)

1 A |Icrosoft adquIrIu a EntropIc, dando |Icrosoft acesso ao que era
conhecIdo como o "maIs precIso sIstema de reconhecImento de voz e fala"
do mundo. (0ragon, 2005)
0evIdo necessIdade de uma padro unIco para lInguagem de marcao de
voz InIcIada no projeto Phone Web (que depoIs de 1995 seus partIcIpantes se
separaram e montaram verses dIferentes de lInguagem na ATET, Lucent,
|otorola, e tambm a 8| montou a sua), a ATET, Lucent, |otorola e 8|
comearam a organIzao do 7oIceX|L Forum, e desenvolveram o 7oIceX|L
0.9. (7oIceX|L, 2000)

2000 D WJC (World WIde Web ConsortIum - wJ.org) aceIta a lInguagem 7oIceX|L
1.0 para ser especIfIcada como standard. (7oIceX|L, 2000)
A Lernout E HauspIe adquIrIu a 0ragon Systems por aproxImadamente 460
mIlhes de dolares. (0ragon, 2005)

A Tell|e IntroduzIu o prImeIro portal de voz mundIal. (0ragon, 2005)

A Net8ytel lanou o prImeIro possIbIlItador de voz do mundo, que IncluI uma
aplIcao onlIne de pedIdos com Integrao em tempo real pela Internet
para entregas. (0ragon, 2005)

2001 D (World WIde Web ConsortIum - wJ.org) publIca a recomendao da
especIfIcao do 7oIceX|L 2.0.

A ScanSoft fecha a aquIsIo dos produtos/desenvolvImento de lInguagem e
fala da Lernout E HauspIe. (0ragon, 2005)

2003 A ScanSoft lana o 0ragon NaturallySpeakIng 7 |edIcal, baIxando os custos
de servIos mdIcos atravs do uso de reconhecImento de fala altamente
precIso. (0ragon, 2005)

A ScanSoft fecha a aquIsIo da SpeechWorks nternatIonal, nc. (0ragon,
2005)

A ScanSoft fecha negocIo para dIstrIbuIr e dar suporte aos produtos 8|
7Ia7oIce 0esktop Products. (0ragon, 2005)




[1] 7er CIlbert (1997) para ouvIr (e fazer download) das amostras de sintese de fala durante as vrIas fases
da hIstorIa das tecnologIas de sintese de fala e voz, compIladas por 0ennIs Klatt em 1997 em seu artIgo
"PevIew of text-to-speech conversIon for EngIIsh" J. Acous. Soc. Amer. 82, 7J779J (verso orIgInal
completa dIsponivel onlIne em Klatt (1997)).
124 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 125








ANEXD III
C0FD| com arquIvos complementares IlustratIvos, Imagens e videos
126 nterfaces de 7oz em AmbIentes HIpermIdItIcos
nterfaces de 7oz em AmbIentes HIpermIdItIcos 127
C0-PDh com arquIvos compIementares IIustratIvos, Imagens e vdeos
0evIdo caracteristIca dInmIca da nternet, os endereos e conteudos onlIne
referencIados no presente trabalho podem se modIfIcar ao longo do tempo, de
maneIra espontnea, dIferente do que ocorre com as referncIas da midIa
Impressa.
Portanto, com o IntuIto de auxIlIar o leItor, achamos convenIente apresentar um
C0FD|, anexo ao presente trabalho, IncluIndo arquIvos complementares que
funcIonam como uma 'fotografIa' do momento em que os acessos foram realIzados.
A aplIcao moZcco de voSes, apresentada no capitulo 7, e a maIorIa dos
trabalhos de arte apresentados no capitulo , tambm exIstem apenas onlIne. No
caso do moZcco de voSes, produzImos um video explIcatIvo do seu funcIonamento
e tambm um sImulador que funcIona em modo local em computadores sem a
nternet. D sImulador apresenta as pastIlhas gravadas at o momento do seu
desenvolvImento, em setembro/2005, para ser apresentado no 15o Festvcl
lnterncconcl de Arte Eletrncc \deobrcsl, Panoramas do Sul - EIxo nvestIgaes
Contemporneas. As Imagens referentes aos trabalhos do capitulo , que foram
capturadas na Web, bem como videos complementares de Instalaes, tambm
obtIdos da Web, tambm foram adIcIonados.
AssIm, o C0FD| apresenta os seguIntes dIretorIos, com os seguIntes conteudos:
moZaIco_de_voSes - sImulador, videos explIcatIvos em portugus e Ingls, e
Imagens capturadas da aplIcao na Web.
Fef_8IblIografIcas_WWW gravao de textos da Web usados na FeferncIa
8IblIogrfIca, nas datas de seus respectIvos acessos.
7oIceArtworks - Imagens e videos dos trabalhos de arte referencIados no
capitulo .

Vous aimerez peut-être aussi