Síntese de Fala em Português Brasileiro Baseada em Modelos Ocultos de Markov

Sntese de Fala em Portugus Brasileiro Baseada em
Modelos Ocultos de Markov

Por
Carlos Francisco Soares de Souza

Dissertao de Mestrado
Universidade Federal de Pernambuco

posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
RECIFE, AGOSTO/2010
Universidade Federal de Pernambuco
Centro de Informtica
Ps-graduao em Cincia da Computao
Carlos Francisco Soares de Souza
Sntese de Fala em Portugus Brasileiro Baseada em

Modelos Ocultos de Markov
Trabalho apresentado ao Programa de Ps-graduao em

Cincia da Computao do Centro de Informtica da Univer-
sidade Federal de Pernambuco como requisito parcial para
obteno do grau de Mestre em Cincia da Computao.
Orientador: Edson Costa de Barros Carvalho Filho
RECIFE, AGOSTO/2010
Catalogao na fonte
Bibliotecria Jane Souto Maior, CRB4 -571
Souza, Carlos Francisco Soares de

Sntese de fala em portugus brasileiro baseada em
modelos ocultos de Markov / Carlos Francisco Soares de
Souza - Recife: O Autor, 2010.
xiii, 80 folhas : il., fig., tab.
Orientador: Edson Costa de Barros Carvalho Filho.

Dissertao (mestrado) Universidade Federal de
Pernambuco. CIn. Cincia da computao, 2010.
Inclui bibliografia e apndice.
1. Inteligncia artificial. 2. Inteligncia computacional. 3.

Processamento de fala. 4. Sntese de fala. I. Carvalho Filho,
Edson Costa de Barros. I. Ttulo.
006.3 CDD (22. ed.) MEI2010 0189

Dedido este trabalho a meus amados pais e irm, Sobrinho,
Lcia e Paula, que me do o apoio necessrio para
alcanar qualquer objetivo e ter sucesso na vida.
Agradecimentos
Primeiramente meus pais e irm, Sobrinho, Lcia e Ana Paula, que foram e sempre
sero os responsveis por minha base familiar, que sempre me faz acreditar que posso
conseguir os objetivos mais desafiadores.
Em seguida, mas no menos importante, a meu orientador e amigo, professor Edson
Carvalho, pela orientao e suporte necessrios para a concluso deste trabalho.
A minha irm, fonoaudiloga Ana Paula, que alm do suporte familiar, me ajudou
bastante nos aspectos fonticos e fonolgicos deste trabalho, e na gravao das bases de
dados, juntamente com seu esposo, meu grande amigo, Marcos Aurlio.
Ao grande amigo Carlos Pina, pela amizade e assistncia fundamental ao desenvolvi-
mento deste trabalho.
A minha prima Carla Virgnia e seu esposo Wagner Cunha, pelo apoio constante em
Recife.
Ao amigo e parceiro de trabalho na Vocal Lab, Alexandre Maciel, pelo apoio e
orientaes necessrias. Adicionalmente, ao amigo Daniel Brito, tambm membro da
empresa.
Ao Ranniery Maia, pela prestatividade no esclarecimento de questes relacionadas ao
desenvolvimento deste trabalho.
A todos os meus familiares e parentes aqui representados por: Ceclia Soares, Carlos
e Maria Soares, Silvio e Nilza Lobato, Fbio Rolim, Josu Rolim, Eduardo Motta, Lcia
Rolim, Izabel Rolim, Maria Rolim, Luis e Mercedes Motta e Aviz e Daniel Rolim.
A todos os meus amigos aqui representados por Alexandre Conceio e Jeane
Anselmo, Fabrcio Lima e Ana Tereza, Luana Paula Arajo, Fabrcio Tuma, Katarine
Costa, Nercy Virgnia, Ismael Nazareno, Ana Paola Pedrosa e Lidiane Jaime.
A todos os meus familiares e amigos que acreditaram em meu potencial e, direta ou
indiretamente, ajudaram no desenvolvimento deste trabalho, e que por razes conhecidas
esto aqui representados pelas pessoas acima citadas.
iv
"A preocupao com o prprio homem e seu destino deve constituir
sempre o interesse principal de todos os esforos tcnicos."
ALBERT EINSTEIN
Resumo
O avano da tecnologia nos conduz a uma relao cada vez mais prxima a computadores
e outros dispositivos eletrnicos. Juntos a este avano dos equipamentos est a evoluo
das interfaces humano-maquina que auxiliam nesta relao nem sempre agradvel. Assim
sendo, o desenvolvimento de sistemas que tm como objetivo tornar esta comunicao
mais natural e agradvel tem estado em foco, e dentre estes, os sistemas de processamento
de fala so excelentes opes, pois permitem esta interao com equipamentos atravs da
fala, como na comunicao humana tradicional. Atualmente, tanto o reconhecimento de
fala quanto a sntese j se fazem presentes no dia-a-dia, como reconhecedores de palavras
no pr-atendimento de call centers de empresas, ou fala sinttica para se comunicar com
o usurio em equipamentos de navegao GPS, leitores de mensagens de celular e e-mail,
dentre outros. O uso de modelos ocultos de Markov em processamento de fala tem
alcanado excelentes resultados, primeiramente em reconhecimento, onde foram suas
primeiras aplicaes e as que obtiveram maior destaque, e atualmente tambm em sntese,
superando inclusive aspectos negativos de outras abordagens, como a necessidade de uma
extensa base de dados de unidades fonticas para obter bons resultados. Esta dissertao
apresenta o desenvolvimento de um sintetizador de fala para o idioma portugus falado
no Brasil, baseado em modelos ocultos de Markov. Este trabalho aborda a construo de
um algoritmo de determinao da slaba tnica de palavras, um algoritmo de converso
de grafemas em fonemas, e um algoritmo de separao silbica de palavras transcritas
foneticamente. Por conseguinte, apresenta a tcnica e suas caractersticas aplicadas
sntese de fala.
Palavras-chave: processamento de fala, sntese de fala, modelos ocultos de markov
vi
Abstract
The technology improvement leads us to an ever closer relationship to computers and

other electronic devices. Together with this progress of equipments, evolutions of human-
machine interfaces supports this not always pleasurable relationship. Therefore, the
development of systems that aims to make this communication more natural and enjoy-
able has been in focus, and between of these, speech processing systems are excellent
choices, since they allow the interaction with this devices through speech, as in tradi-
tional human communication. Currently, both the speech recognition and the synthesis
are already present in everyday life, as recognizing words at the pre-services of com-
panies callcenters, or synthetic speech to communicate with user in GPS navigation
equipment, voice readers of mobile text messages and email, among others. The use of
hidden Markov models in speech processing have achieved excellent results primarily
in recognition, where were his first applications and had the main highlight, and now
also in synthesis, surpassing even the negative aspects of other approaches, such as need
for an extensive database of phonetic units for good results. This dissertation presents
development of a speech synthesizer to brazilian portuguese language, based on hidden
Markov models. This works includes the construction of an algorithm for words stressed
syllable determination, an algorithm for graphemes to phonemes conversion, and an
algorithm to separate syllables of phonetically transcribed words. Therefore, it presents
the approach characteristics and it applications in speech synthesis.
Keywords: speech processing, speech synthesis, hidden markov models
vii
Sumrio
Lista de Figuras x
Lista de Tabelas xi
Lista de Siglas xii
1 Introduo 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Converso Texto-Fala 5
2.1 Analise Textual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Analise Fontica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Anlise Prosdica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.1 Parmetros Prosdicos . . . . . . . . . . . . . . . . . . . . . . 9
3 Modelos Ocultos de Markov no Processamento de Fala 11

3.1 Processos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Elementos de um modelo oculto de Markov . . . . . . . . . . . . . . . 14
3.3 Os Trs Problemas Bsicos . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.1 Problema 1: qual a maior probabilidade de uma observao ter
sido gerada por um modelo? . . . . . . . . . . . . . . . . . . . 16
3.3.2 Problema 2: qual a sequncia de estados que melhor representa
as observaes? . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.3 Problema 3: como ajustar os parmetros do modelo a fim de
maximizar sua probabilidade? . . . . . . . . . . . . . . . . . . 20
3.4 Anlise mel-cepstral . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5 Reconhecendo com HMM . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6 HMM como um Gerador de Observaes . . . . . . . . . . . . . . . . 24
3.7 Viso Geral de Um Sintetizador de Fala Baseado em HMM . . . . . . . 26
3.7.1 Mdulo de Treinamento . . . . . . . . . . . . . . . . . . . . . 26
3.7.2 Mdulo de Sntese . . . . . . . . . . . . . . . . . . . . . . . . 29
viii
4 Sintetizador de Fala para Portugus do Brasil baseado em HMM 31
4.1 Informaes da Locuo . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.1 Pr-processamento Textual . . . . . . . . . . . . . . . . . . . . 31
4.1.2 Converso Grafema-Fonema e Determinao da Vogal Tnica
em Palavras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.3 Diviso Silbica . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.4 Classificao . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Informao Contextual . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3 Agrupamento de Contexto baseado em rvores de Deciso . . . . . . . 39
4.4 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.1 Base de Dados de Fala . . . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Preparao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.3 Parmetros de Treinamento . . . . . . . . . . . . . . . . . . . 42
4.5 Avaliao dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . 43
5 Concluses 47
5.1 Propostas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Referncias Bibliogrficas 49
Appendices 59
A Speech Assessment Methods Phonetic Alphabet SAMPA 60
B The International Phonetic Alphabet IPA 62
C Regras para determinao de vogal tnica em palavras 64
D Regras para Converso de Grafemas em Fonemas 68
E Algoritmo de Separao Silbica 78
ix
Lista de Figuras
2.1 Sintetizador de Fala: viso geral . . . . . . . . . . . . . . . . . . . . . 6

2.2 Elementos formadores da prosdia em um sistema de converso texto-fala 10
3.1 Propriedade Markoviana . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2 Exemplo de Cadeia de Markov com 3 estados . . . . . . . . . . . . . . 13
3.3 Exemplo do modelo de urnas e bolas com N estados, ilustrando um
modelo oculto de Markov discreto. . . . . . . . . . . . . . . . . . . . . 15
3.4 Esquema de blocos de um recohecedor . . . . . . . . . . . . . . . . . . 24
3.5 Viso Geral de Um Sintetizador Baseado em HMM . . . . . . . . . . . 27
3.6 Vetor de Caracteristicas das Observaes . . . . . . . . . . . . . . . . . 28
4.1 Ilustrao do texto de uma locuo a ser convertida em Informao

Contextual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 rvore de Deciso para Agrupamento de Contexto . . . . . . . . . . . 41
4.3 Resultados da avaliao para frases de 1 a 9 . . . . . . . . . . . . . . . 45
4.4 Resultados da avaliao para frases de 10 a 18 . . . . . . . . . . . . . . 46
4.5 Resultados da avaliao para frases de 19 a 27 . . . . . . . . . . . . . . 46
4.6 Resultado geral para todas as frase . . . . . . . . . . . . . . . . . . . . 46
A.1 Speech Assessment Methods Phonetic Alphabet SAMPA . . . . . . . 61
B.1 The International Phonetic Alphabet IPA . . . . . . . . . . . . . . . . 63
x
Lista de Tabelas
4.1 Conjunto de fonemas utilizados, de acordo com o SAMPA International

Group of Phoneticians (2009) . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Caractersticas utilizadas na composio das Informaes Contextuais
Maia et al. (2006) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
C.1 Tabela de regras para a determinao da vogal tnica em palavras . . . . 67
D.1 Tabela de smbolos utilizados para explicar as regras de converso de

grafema para fonema . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
D.2 Regras de converso de grafema para fonema para letra A . . . . . . . . 69
D.3 Regras de converso de grafema para fonema para letra B . . . . . . . . 69
D.4 Regras de converso de grafema para fonema para letra C . . . . . . . . 70
D.5 Regras de converso de grafema para fonema para letra D . . . . . . . . 70
D.6 Regras de converso de grafema para fonema para letra E . . . . . . . . 71
D.7 Regras de converso de grafema para fonema para letra F . . . . . . . . 71
D.8 Regras de converso de grafema para fonema para letra G . . . . . . . . 71
D.9 Regras de converso de grafema para fonema para letra H . . . . . . . . 71
D.10 Regras de converso de grafema para fonema para letra I . . . . . . . . 72
D.11 Regras de converso de grafema para fonema para letra J . . . . . . . . 72
D.12 Regras de converso de grafema para fonema para letra K . . . . . . . . 72
D.13 Regras de converso de grafema para fonema para letra L . . . . . . . . 72
D.14 Regras de converso de grafema para fonema para letra M . . . . . . . 72
D.15 Regras de converso de grafema para fonema para letra N . . . . . . . . 72
D.16 Regras de converso de grafema para fonema para letra O . . . . . . . . 73
D.17 Regras de converso de grafema para fonema para letra P . . . . . . . . 73
D.18 Regras de converso de grafema para fonema para letra Q . . . . . . . . 73
D.19 Regras de converso de grafema para fonema para letra R . . . . . . . . 74
D.20 Regras de converso de grafema para fonema para letra S . . . . . . . . 75
D.21 Regras de converso de grafema para fonema para letra T . . . . . . . . 75
D.22 Regras de converso de grafema para fonema para letra U . . . . . . . . 76
D.23 Regras de converso de grafema para fonema para letra V . . . . . . . . 76
D.24 Regras de converso de grafema para fonema para letra X . . . . . . . . 76
D.25 Regras de converso de grafema para fonema para letra W . . . . . . . 76
D.26 Regras de converso de grafema para fonema para letra Y . . . . . . . . 76
xi
D.27 Regras de converso de grafema para fonema para letra Z . . . . . . . . 77
xii
Lista de Siglas
F0 Fundamental Frequency
GPS Global Position System
HMM Hidden Markov Model
HMM Hidden Markov Model Toolkit
HTS Hidden Markov Model Based Speech Synthesis System
MFCC Mel-scale Frequency Cepstral Coefficient
MLSA Mel Log Spectrum Approximation
LPC Linear Predictive Coding
TTS Text To Speech
PDF Probability Density Function
xiii
Introduo
1
A comunicao o grande instrumento de troca de informaes entre seres humanos, que
integrada tecnologia, faz com que esteja em constante evoluo. Sua importncia no
est apenas na relao entre seres humanos, mas tambm com as ferramentas advindas
do avano tecnolgico.
Os primeiros sistemas operacionais, por exemplo, eram controlados apenas por linhas
de comandos, limitando seu uso a quem detivesse o conhecimento. Com o passar do
tempo, surgiram as interfaces grficas, cheias de botes, cones, menus e outros recursos
que os tornavam mais intuitivos, principalmente quando manipulados por um dos grandes
inventos da poca, o mouse, que possibilitava a realizao de aes atravs de simples
cliques.
A tecnologia evoluiu em diversos aspectos muito alm da melhoria de interfaces,
seu poder computacional aumentou, tornou-se portvel, e acessvel a grande parte da
populao. Computadores, antes mquinas caras, que apenas grandes empresas com
alto poder aquisitivo podiam ter, hoje so facilmente encontrados em todos os tipos de
empresas e at mesmo em residncias, para uso domstico. Esta evoluo possibilita
que sistemas computacionais estejam presentes em praticamente todos os equipamentos
eletrnicos atuais, de vdeo-games geladeiras, do simples uso domstico ao auxlio para
o desvendamento do genoma humano e busca para a cura do cncer.
Atualmente possvel ver computadores falando, entendendo e aprendendo, no
apenas auxiliando pessoas em tarefas, mas tambm as substituindo. J possvel ligar
para call centers de empresas, e ao invs de falar com um atendente humano, interagir
com um atendente virtual atravs da fala, que identifica o assunto a ser tratado e direciona
ao setor especfico ou at mesmo resolve sem a necessidade de um atendente humano.
A ideia de fazer com que mquinas fossem capazes de gerar sinais de fala, como
humanos, existe h mais de setenta anos. Um dos primeiros registros de aplicaes desta
1
1.1. MOTIVAO
categoria de 1936, quando a empresa U.K. Telephone Company lanou um relgio

falante, que possua frases armazenadas, e apenas as concatenava quando necessrio
Black and Lenzo (2007).
Klatt (1987) mostra o estado da arte das tcnicas de primeira gerao, baseadas em
modelos parametrizados que simulam o comportamente do trato vocal humano, que
apesar de praticamente no serem utilizadas hoje em dia, so teis para entender os
conceitos da sntese de fala, em geral.
Da primeira gerao para as atuais, segunda e terceira, os sistemas de sntese evoluram
de abordagens baseadas em conhecimento para baseadas em dados, como em Allen et al.
(1987), de Campos Teixeira Gomes (1998), Dutoit (2001), Lin et al. (2005), Morais and
Violaro (2005), e mais recentemente as baseadas em estatstica parametrizada, como
em Tokuda et al. (2002), Zen and Toda (2005), Clark et al. (2007), Black et al. (2007),
Braga et al. (2008). Lemmetty (1999) mostra a evoluo dos estudos de sntese de fala,
incluindo contexto histrico e abordagens mais atuais, assim como enumera diversos
sintetizadores existentes.
Nos ltimos anos, houve uma crescente evoluo dos dispositivos de sntese de fala,
e excelentes resultados j so alcanados por sintetizadores atuais. Ainda assim, novas
tcnicas ainda surgem, em busca de melhor qualidade e desempenho, tentando superar as
fraquezas das tcnicas atuais.
1.1 Motivao
Um sintetizador de fala pode ser definido como um sistema que produza sinais de fala
artificialmente a partir de textos digitados, e pode ser desenvolvido atravs de software
ou hardware.
A converso de texto-escrito em texto-falado no um procedimento trivial, uma
vez que, por mais simples que seja o idioma que est sendo trabalhado, ele possui
particularidades, como palavras com mesma grafia e com sons diferentes dependentes do
contexto, dentre outras. Adicionalmente, deve ser capaz de lidar com siglas, nmeros,
abreviaes e, alm do mais, para obter naturalidade prxima da voz humana, necessrio
desenvolver um bom modelo prosdico, que o principal instrumento para expressar
emoes e sentimentos em falas. A prosdia quem gera a entonao que determinadas
palavras ou slabas devem ter de acordo com o que o usurio deseja expressar; o grande
diferencial que a linguagem falada tem sobre a escrita, que neste sentido bastante
limitada.
2
1.2. OBJETIVOS
A utilizao da fala como interface em sistemas computacionais segue uma tendncia

natural, que busca tornar a interao humano-mquina mais direta e efetiva, uma vez
que a fala est presente em todas as culturas, permitindo a comunicao de forma mais
natural e eficiente Simes (1999).
Sintetizadores de fala j so muito utilizados hoje em dia, como em navegaes com
equipamentos GPS, leitura de mensagens e outras informaes em telefones celulares
e e-mails, tradutores, realizao de operaes atravs do telefone em bancos, auxlio
de pessoas portadoras de deficincias visuais na usabilidade de sistemas operacionais e
aplicativos especficos, assim como o auxlio na comunicao de pessoas portadoras de
deficincia na fala.
Com isso, surge a polmica: um sistema que produza uma fala compreensvel, mesmo
que com qualidade razovel, no seria o suficiente para o que se prope? Em parte, sim.
Os primeiros sistemas que convertiam texto em fala, mesmo que de baixa qualidade,
surpreenderam positivamente pessoas com deficincia visual, diferentemente das outras
pessoas. A experincia mostra que as pessoas no se importam apenas com o que est
sendo falado, mas tambm como est sendo falado, pois no se sentem confortveis
ouvindo voz no natural, robotizada Taylor (2009). Grande parte das pessoas no se
sentem a vontade quando sabem que esto conversando com uma mquina, ficam sempre
desconfiadas e apreensivas, ainda mais quando a qualidade da voz no boa. Vozes mais
naturais, com qualidade similar fala humana, so bem mais aceitveis nesse sentido.
Assim, o objetivo da Sntese de Fala claramente dividido em duas grandes partes:
construir um sistema capaz de transmitir uma mensagem com clareza; e fazer com que
esta fala sinttica se parea ao mximo com a fala humana. Estas duas caractersticas so
referenciadas como Inteligibilidade e Naturalidade Taylor (2009).
1.2 Objetivos
Dentre diversas abordagens utilizadas para o desenvolvimento de sistemas sintetizadores
de fala, a baseada em modelos ocultos de Markov tem mostrado bons resultados, como
em Yoshimura (2002), Tokuda et al. (2002), Zen and Toda (2005).
da Silva Maia (2008) aplicou o conhecimento alcanado pela literatura anterior para
dar incio ao desenvolvimento de um sintetizador para o portugus falado no Brasil. Ele
detalha o uso de HMM para sntese de fala, assim como reune informaes a respeito do
idioma para a realizao do agrupamento baseado em contexto.
Assim, define-se como objetivo deste trabalho o desenvolvimento de um sintetizador
3
1.3. ESTRUTURA
de fala baseado em modelos ocultos de Markov, detalhando a construo das etapas que
levam a este objetivo, como:
1. Determinao da slaba tnica em palavras.
2. Converso de grafemas em fonemas.
3. Separador silbico de palavras transcritas foneticamente.
Aprimoramentos sero buscados atravs da melhoria da qualidade da base de dados

utilizada para treinamento, alm da quantidade de frases utilizadas para o treinamento.
1.3 Estrutura
Este trabalho est organizado da seguinte forma:
O Captulo 2 descreve as macro etapas de um sistema de converso de texto em fala:
Seo 2.1, Seo 2.2 e Seo 2.3.
O Capitulo 3 apresenta os fundamentos necessrios a certa dos Modelos Ocultos de
Markov, e descreve, de forma geral, o funcionamento de um sintetizador baseado em
modelos ocultos de Markov.
O Capitulo 4 descreve os detalhes da implementao realizada, assim como os
resultados obtidos atravs de testes subjetivos realizados.
O Capitulo 5 conclui as ideias do trabalho e ressalta alguns aspectos importantes
e relevantes percebidos durante o desenvolvimento do trabalho, alm de apresentar
possveis evolues.
4
Converso Texto-Fala
2
Ao analisar a comunicao humana, possvel identificar dois componentes: verbal e
prosdico. A parte verbal a comunicao simblica, feita atravs de palavras, que
organizadas em sequncia, formam uma sentena. Em contra partida, o componente
prosdico no um composto por smbolos, e sim por entonaes, que so responsveis
por expressar algum sentimentos, emoes, surpresa, ou at mesmo enfatizar uma palavra
em uma sentena.
A prosdia no um componente discreto, uma vez que no possui unidades que
possam ser combinadas em sequncia para expressar algum significado. Uma frase
de elogio, quando falada com entonao indicando discordncia, pode muito bem ser
interpretada como sarcasmo. Quando estes dois componentes no entram em acordo, a
informao prosdica quem prevalece.
Em linhas gerais, o processo de comunicao humana , de certa forma, simples.
Considerando um dilogo entre dois indivduos, um assumindo o papel de locutor e
o outro de ouvidor. Quando o primeiro pensa em uma mensagem para passar para o
segundo, ele codifica esta mensagem em voz e transmite o sinal falado. Ao receber o sinal,
ouvindo, o indivduo descodifica-o, para poder entender seu significado. Claramente se
pode identificar neste processo quatro fases distintas: gerao, codificao, descodificao
e entendimento.
Nota-se que um texto escrito quase que exclusivamente codifica apenas o componente
verbal da mensagem, ignorando o prosdico. Diferente da fala, que, por sua vez, possi-
bilita a codificao de emoes como parte da mensagem, o que no necessrio para a
grande maioria dos documentos, como jornais, revistas, manuais de instrues, dentre
outros.
Sob um ponto de vista tcnico, o mecanismo de sntese de fala pode observado de
forma a compreender quatro macro partes, ilustradas na Figura 2.1 e explicadas a seguir.
5
2.1. ANALISE TEXTUAL
Figura 2.1 Sintetizador de Fala: viso geral.
2.1 Analise Textual

o mdulo responsvel pela normalizao do texto escrito. Nele feita a extrao da
maior quantidade de informaes presentes no texto para auxiliar nas prximas fases do
processo como um todo. Tem como principais funes detectar a estrutura de documentos,
identificar sentenas presentes no texto, fazer a transcrio de caracteres no ortogrficos
para texto, assim como nmeros e smbolos.
na Anlise Textual que o texto no processado, vai ser preparado para a fase de
Anlise Fontica, onde seus valores escritos sero convertidos em sonoros, para que
possam ser executados pelo motor de sntese.
Esta fase tambm deve identificar particularidades do idioma, como palavras que
apresentam a mesma forma de escrita, porm com significados diferentes, conhecidas
na literatura por Homnimos, e que podem ser sub classificados em duas categorias,
os Homfonos e os Homgrafos. A primeira compreende uma gama de palavras que
possuem a mesma pronncia, porm com grafia diferente, como as palavras sesso
e cesso, que podem significar reunio e o ato de ceder, respectivamente. J a se-
gunda, composta por palavras que possuem a mesma grafia, mas ainda assim possuem
significados diferentes, dependendo do contexto em que so empregadas, e podem ser
exemplificadas pela palavra mente, que pode ser a terceira pessoa do verbo mentir ou
estar relacionada ao intelecto de algum.
Os homgrafos ainda possuem uma outra caracterstica que tambm no pode ser
identificada por regras, que a mudana da abertura da vogal tnica, exemplificada em
Almoo aqui todos os dias e O almoo estava realmente delicioso.
Para que seja feito este processamento, o primeiro passo extrair as primeiras infor-
maes presentes no texto, que so as palavras. Em uma frase como:
O SEGREDO DO SUCESSO O ESFORO.
claramente identificado o limite de cada palavra a ser analisada, o espao em branco,

que, obviamente, s possvel identificar em textos escritos, uma vez que falas contnuas
6
2.2. ANALISE FONTICA
no possuem esta caracterstica. Entretanto, nem todas as frases so simples de serem

analisadas, pela presena de particularidades da escrita, como em:
A PARTIR DE 1 DE FEVEREIRO DE 2010, O DR. FABRCIO APENAS ATEN-

DER NO CONSULTRIO DA R. BRZ, EM FRENTE A ABO, DE FORMA A
OFERECER UM CONFORTO MAIOR SEUS PACIENTES.
Onde a presena do caractere especial aps a primeira ocorrncia do numeral 1

obriga com que ele lido como primeiro e no mais como um, at porque tambm
no existe uma transcrio ortogrfica para este caractere. O mesmo acontece com o
nmero 2010, que deve ser lido como sendo apenas um, e no uma sequncia de quatro
nmeros. J as palavras DR. e R. possuem um ponto junto s suas grafias, mas que
no representam final de uma sentena, e sim abreviaes. A primeira claramente faz
referncia palavra DOUTOR, mas a segunda permite diversas interpretaes, podendo
ser a palavra RUA ou at mesmo o nome da rua, por exemplo, RODOLFO BRZ. A
mesma frase ainda conta com o acrnimo ABO, que no deve ser lido como escrito, e sim
por suas letras individuais A, B e O, e com o homnimo homgrafo FORMA,
que neste caso significa MANEIRA, mas, possui grafia igual a forma para o preparo de
um bolo.
Outro detalhe que deve ser analisado que nem todos os acrnimos devem ser lidos
atravs de suas letras individuais, pois exemplos como UNICEF e ONU quebram
esta regra. Alm do que, um texto pode simplesmente possuir parte escrita em caracteres
maisculos para enfatizar uma determinada sentena, como em Hoje tem jogo do time
da sala, BOA SORTE!.
Todas essas questes no possuem regras para serem tratadas, e devem ser analisadas
de acordo com o contexto, ou at mesmo com um dicionrio de termos auxiliares, o que
tambm no seria til no caso de palavras desconhecidas, afinal o texto analisado tambm
pode conter ocorrncias de palavras que nem mesmo pertenam ao dicionrio auxiliar
do sistema, que ainda assim deve ser capaz de analisar determinadas palavras e tomar
decises sobre como lidar com elas.
2.2 Analise Fontica

Este mdulo recebe como entrada os dados provenientes da Anlise Textual, ou seja, o
texto pr-processado, convertido em palavras, para que assim possa realizar a transcrio
fontica do mesmo.
7
2.3. ANLISE PROSDICA
O dicionrio auxiliar citado na seo anterior, tambm chamado de Lxico, tem um

papel fundamental em um conversor Texto-Fala, uma vez que o ideal que ele possua
estas informaes:
Formas flexionadas de termos;
Transcries fonticas das vrias formas que uma palavra pode ter, assim como as
informaes de slaba tnica e diviso silbica;
Detalhes sobre acrnicos, incluindo todas as informaes dos itens anteriores;
Anlise morfolgica, assim como atributos sintticos e semnticos;
Qualquer outra informao que complemente as listadas acima podem integrar um

dicionrio Lxico de uma linguagem, uma vez que este tipo de informao auxilia na
compreenso do sentido real que um determinado texto pode estar querendo expressar.
Mas, de posse de um dicionrio lxico, qual o papel de um sistema conversor de
grafemas em fonemas baseado em regras? a idia exatamente a de usar o esforo de um
conversor baseado em regras para a construo de um dicionrio, para ser utilizado junto
ao sistema e, posteriormente, apenas utiliz-lo em casos de excees, quando o sistema
busca por uma palavra desconhecida.
Todavia, a questo da prioridade do dicionrio ou do conversor uma questo comple-
mentamente aberta, uma vez que no uma tarefa trivial a construo de um dicionrio
completo a ponto de cobrir a grande maioria das palavras de um idioma, com suas devidas
flexes, anlises, etc.
A literatura aponta diversos mtodos para converso de grafemas em fonemas, como
os sistemas baseados em regras Trancoso et al. (1994a), Silva et al. (2006), Braga et al.
(2006), Siravenha (2009), os sistemas baseados em autoaprendizado, como utilizando
redes neurais Trancoso et al. (1994b), Hain (2000), rvores de regresso e classificao
Chen and Han (2004), modelos ocultos de Markov. Taylor (2005)
2.3 Anlise Prosdica

Huang et al. (2001) define Prosdia como uma complexa trama de efeitos fsicos e
fonticos empregados para expressar atitudes, suposies e ateno como um canal
paralelo na comunicao falada cotidiana. Ela tem um papel importante na compreenso
do sentido da locuo, que vai alm das palavras escritas.
8
A transcrio fontica trata apenas da determinao da sequncia de fonemas que ir

formar o sinal de fala correspondente ao texto de entrada. No entanto, existem outras
caractersticas importantes, tal como a prosdia, que carrega informaes adicionais
quelas expressas pela sequncia de segmentos fonticos. O processamento prosdico
essencial para garantir a inteligibilidade do sinal de fala sintetizado e, principalmente,
para assegurar a sua naturalidade. Simes (1999)
Do ponto de vista do ouvinte, a prosdia consiste na percepo e valorizao dos
seguintes itens:
Pausas: indicam frases e evitam ficar sem flego ao falar.
Pitch: frequncia fundamental do som, tambm tratado como tom.
Durao: durao e ritmo de fonemas.
Intensidade: relacionado a amplitude, volume.
Dentre estes, o Pitch o mais expressivo, uma vez que quando se fala, varia-se a
frequncia fundamental para expressar sentimentos e emoes relacionadas ao que est
sendo falado, ou at mesmo apenas para chamar ateno para determinados aspectos.
Uma mensagem falada de um modo constante, com pitch uniforme e sem pausas, ou com
pausas uniformes entre palavras, soa completamente no natural.
A Figura 2.2 ilustra os elementos formadores da prosdia em um sistema de converso
texto-fala, onde a entrada o texto aps anlise textual junto com a sequncia de fonemas
a ser gerada, e a sada a sequncia de fonemas com suas respectivas duraes e contorno
do pitch.
O estilo da fala presente tambm na Figura 2.2 nico e pessoal, e pode dar um
tom a fala. um estilo prprio que cada pessoa possui, que muitas vezes varia de acordo
com regio e cultura, e estado emocional no momento da fala.
A estrutura prosdica simblica o elo entre a multiplicidade infinita das caractersti-
cas pragmticas, semnticas e sintticas de uma locuo e sua frequncia fundamental
relativamente limitada, duraes de fonemas, energia e qualidade de fala. Nela so
inseridas pausas entre frases, informaes de contexto, tonicidade, dentre outras. Morais
and Violaro (2005)
2.3.1 Parmetros Prosdicos

Simes (1999) define os parmetros prosdicos como caractersticas do sinal de fala
9
Figura 2.2 Elementos formadores da prosdia em um sistema de converso texto-fala
associadas aos segmentos fonticos da locuo, cuja manipulao reflete na estrutura

prosdica desta locuo. Os trs principais parmetros so:
1. Durao: o intervalo de tempo entre o incio e o fim de um segmento fontico.
2. Frequncia Fundamental: tambm conhecida por F0, um valor instantneo do

sinal de fala que est diretamente associado taxa de vibrao das pregas vocais,
que se manifesta atravs da periodicidade da forma de onda nos sinais sonoros.
3. Intensidade: um termo associado amplitude da forma de onda.
Os conceitos de frequncia fundamental e pitch esto diretamente relacionados. A

frequncia fundamental um valor associado a cada instante do sinal de fala, correspon-
dente ao inverso do perodo do sinal sonoro. O pitch, por conseguinte, um conceito
meramente perceptual, e diz respeito sensao de altura, grave e agudo. Quanto maior
for a freqncia fundamental, maior ser o pitch ou, equivalentemente, mais agudo ser o
sinal. Simes (1999)
10
Modelos Ocultos de Markov no
3
Processamento de Fala
Processos do mundo real produzem resultados que podem ser caracterizados por sinais
de natureza discreta, como caracteres em um alfabeto finito; ou contnua, como amostras
de fala, medies de temperatura, msicas. A fonte do sinal pode ser estacionria ou
no, isto , com propriedades estatsticas que variam ou no com o tempo. Os sinais, por
sua vez, podem ser puros, procedentes de uma nica fonte, ou corrompidos por sinais
de outra fonte, como rudos, ou distores de transmisso, reverberao e etc Rabiner
(1989).
Dentre as motivaes para modelagens baseadas em sinais, Rabiner (1989) cita
que um modelo de sinais pode fornecer a base para a descrio terica de um sistema
de processamento de sinais, por exemplo, para a amplificao de um sinal de udio
corrompido por rudos e distores de transmisso, pode-se utilizar o modelo de sinais
para projetar um sistema que remova o rudo e elimine a distoro da transmisso.
Modelos de sinais tambm so capazes de fornecer informaes importantes sobre o
processo que gerou o sinal, sem a necessidade que este esteja disponvel. Neste caso,
com um bom modelo de sinais, possvel simular a fonte e aprender o mximo sobre ela
com simulaes.
Em geral, modelos ocultos de Markov (HMM, do ingls Hidden Markov Model) so
utilizados para modelar processos que so geridos por um processo Markoviano embutido,
cuja dinmica no pode ser diretamente observada. Esse processo Markoviano evolui no
tempo por meio de transies entre seus estados, as quais so responsveis pela emisso
de sinais observveis.
11
3.1. PROCESSOS DE MARKOV
3.1 Processos de Markov

Segundo Zucchini and MacDonald (2009), uma sequncia de variveis aleatrias discretas
{Ct : t N} dita uma Cadeia de Markov, discreta no tempo, se para todo t N for
satisfeita a propriedade de Markov, dada por:

Pr(Ct+1 |Ct , . . . ,C1 ) = Pr(Ct+1 |Ct ) 3.1

Ou seja, condicionado ao histrico do processo at o tempo t, equivalente a condio

para o valor mais recente de Ct . Compactando, sendo Ct um histrico definido por
{C1 ,C2 , . . . ,Ct }, a propriedade de Markov pode ser escrita como:

Pr(Ct+1 |Ct ) = Pr(Ct+1 |Ct ) 3.2

A propriedade de Markov pode ser considerada como o primeiro relaxamento para a

hiptese de independncia. As variveis aleatrias {Ct } so dependentes de uma maneira
especfica que matematicamente conveniente, como na Figura 3.1, onde o passado e o
futuro so dependentes apenas atravs do presente.
Figura 3.1 Propriedade Markoviana. Zucchini and MacDonald (2009)
As probabilidades de transies definidas para um espao de estados formam uma

matriz de transio, que pode ser do tipo homognea se no sofrer alteraes ao longo do
tempo, ou seja, se for estacionria. Conhecendo a matriz de transio e a distribuio
de probabilidades do estado em questo, possvel calcular todas as probabilidades de
interesse.
A fim de ilustrar este processo, considere o exemplo de um modelo de Markov com
trs estados para descrever, de um modo simplificado, o estado de tempo Figura 3.2.
Neste modelo, cada estado corresponde a uma observao diria das seguintes condies
climticas Rabiner (1989):
1. estado 1: chuvoso
2. estado 2: nublado
3. estado 3: ensolarado
12
3.1. PROCESSOS DE MARKOV
Considerando: 1) a condio do tempo no dia t caracterizada por apenas um dos

estados acima; 2) ser um processo Markoviano de primeira ordem; 3) sua matriz de
transio dada por:

a11 a12 a13 0.4 0.3 0.3
A = {ai j } = a21 a22 a23 = 0.2 0.6 0.2

a31 a32 a33 0.1 0.1 0.8

ilustrada na Figura 3.2,
Figura 3.2 Exemplo de Cadeia de Markov com 3 estados.
Supe-se que no primeiro dia, t = 1, o tempo esteja ensolarado. De acordo com o

modelo, qual a probabilidade que o tempo para os prximos sete dias seja dado pela
sequncia sol-sol-chuva-chuva-sol-nublado-sol?
Definindo a sequncia observada de estados por
O = {S3, S3, S3, S1, S1, S3, S2, S3}
para os dias t=1, . . . , 8, tem-se:
P(O|modelo) = P(S3, S3, S3, S1, S1, S3, S2, S3|modelo)

= P(S3)P(S3|S3)P(S3|S3)P(S1|S3)P(S1|S1)P(S3|S1)P(S2|S3)P(S3|S2)
= 3 a33 a33 a31 a11 a13 a32 a23
= 1 (0.8) (0.8) (0.1) (0.4) (0.3) (0.1) (0.2)
= 1.536 104
13
3.2. ELEMENTOS DE UM MODELO OCULTO DE MARKOV
onde,

i = P(X0 = Si ), 1 i N 3.3

usada para indicar a probabilidade inicial de cada estado.

O processo descrito anteriormente corresponde a um evento observvel, onde cada
observao corresponde a um estado. Este modelo bastante restritivo e no se aplica
maioria das situaes reais. A partir de ento, expande-se o conceito de modelo de
Markov, onde cada observao funo probabilstica de um estado, que resulta em
um modelo que um processo duplamente estocstico, com processos estocsticos no
observveis adjacentes, mas que podem ser observados atravs de outro conjunto de
processos estocsticos que produzam a sequncia de observaes Rabiner (1989).
Assim, cada estado pode gerar uma observao dentre um conjunto, de acordo com
esta funo prabilistica. A mesma sequncia de observaes pode ser gerada, com
probabilidades diferentes, atravs de sequncias diferentes de estados, que geram uma
sequncia de observaes desconhecida. Este modelo chamado de no-observvel, e
aplicvel solues de uma grande variedade de problemas reais.
Para ilustrar a ideia de um HMM, considere o exemplo de um sistema de urnas e
bolas, esquematizado conforme Figura 3.3, composto por N urnas e M de bolas de
cores diferentes. Inicialmente, isolado em uma sala, um individuo escolhe aleatoriamente
uma urna, e seleciona uma bola ao acaso. Sua cor anotada, como uma caracterstica
observada, e a mesma ento recolocada na urna de origem. Ento, uma nova urna
selecionada, seguindo o mesmo processo aleatrio da urna anterior, e outra bola
selecionada e tambm registrada. Este processo gera uma sequncia finita de observaes
de cores, a ser modelada como o resultado de um HMM. Cada estado corresponde a uma
urna, e cada probabilidade de uma cor ser selecionada definida para cada estado. A
escolha da urna ditada pela matriz de transio de estados do modelo oculto de Markov.
3.2 Elementos de um modelo oculto de Markov

Um HMM caracterizado pelos seguintes elementos:
1. O nmero N de estados do modelo, onde cada estado denotado por S = {S1 , S2 , . . . , SN },

e o estado no tempo t denotado por qt .
14
3.2. ELEMENTOS DE UM MODELO OCULTO DE MARKOV
Figura 3.3 Exemplo do modelo de urnas e bolas com N estados, ilustrando um modelo oculto de
Markov discreto. Rabiner (1989)
2. O nmero M de smbolos distintos observveis por estado. Smbolos individuais

so denotados por V = {V1 ,V2 , . . . ,VM }
3. A distribuio de probabilidades de transio entre estados, definida pela matriz

A = {ai j }, em que:
ai j = P(qt+1 = S j |qt = Si j ), 1 i, j N.
4. A distribuio de probabilidades dos smbolos observveis para cada estado,

definida por B = {b j (k)}, onde:
b j (k) = P(Vk , no instante t |qt = S j ), 1 j N, 1 k M
5. A distribuio de probabilidades inicial para cada estados, definida por = {i },

onde:
i = P(qt = Si ), 1 i N.
Dados os valores apropriados de N, M, A, B e , o Modelo Oculto de Markov pode ser

utilizado como um gerador de uma sequncia de observaes O = O1 O2 . . . OT , onde cada
observao um smbolo de V , e T o nmero de observaes da sequncia, definidos
por:
1. Primeiro passo, t = 1, escolhe-se um estado inicial q1 = Si , de acordo com a
15
3.3. OS TRS PROBLEMAS BSICOS
distribuio de probabilidades inicial de estados .
2. Escolhe-se uma observao Ot = Vk de acordo com a distribuio de probabilidades

de smbolos no estado Si , definida pela matriz B.
3. Transita-se para um novo estado S j = qt+1 , de acordo com a distribuio de proba-

bilidades de transio de estados, definida pela matriz A.
4. Se t > T a sequncia est finalizada. Caso contrrio, t incrementado e, retorna-se

para o passo 2.
Como visto, um Modelo Oculto de Markov composto de vrios elementos, no

entanto, por convenincia, usa-se a notao compacta
= (A, B, ).
para indicar a configurao completa dos parmetros do modelo.
3.3 Os Trs Problemas Bsicos

Dado um modelo oculto de Markov, existem trs problemas que devem ser solucionados
a fim de tornar o modelo til para situaes reais. Rabiner (1989)
3.3.1 Problema 1: qual a maior probabilidade de uma observao

ter sido gerada por um modelo?
Este um problema de avaliao, onde dado um modelo, = (A, B, ), e uma sequn-
cia de T observaes, O = O1 O2 . . . OT , como calcular a probabilidade, P(O| ), desta
sequncia ter sido produzida por este modelo? Esta situao tambm pode ser vista como
uma situao em que se deseja obter o modelo com a maior probabilidade de ter gerado a
sequncia desejada, dentre modelos que estejam sendo comparados.
Para o clculo desta probabilidade, considerando conhecida a sequncia de estados,
Q = q1 , q2 , . . . qt , a probabilidade da sequncia de observaes ter sido gerada pelo modelo
dada por:

T
P(O|Q, ) = t=1 P(Ot |qt , ) = bq1 (o1 )bq2 (o2 ) . . . bqT (oT ), 3.4

16
por outro lado, a probabilidade da sequncia de estados, Q = Q1 , Q2 , . . . , QT , dado o

modelo :

P(Q| ) = a1 aq1 q2 aq2 q3 . . . aqT 1 qT 3.5

A probabilidade conjunta da sequncia de observaes e da sequncia de estados

dado o modelo resulta do produto dos dois termos anteriores:

P(O, Q| ) = P(O|Q, )P(Q| ) 3.6

Por fim, a probabilidade da sequncia de observaes dado o modelo resulta da soma,

para todas as sequncias de estados possveis, desta probabilidade conjunta:

P(O| ) = P(O, Q| )P(Q| ) 3.7

todos os Q

= q1 bq1 (O1 ) aq1 q2 bq2 (O2 ) . . . aqT 1 qT bqT (OT ). 3.8

q1 ,q1 ,...,qT

O clculo da probabilidade, P(O| ), atravs da equao equao
3.7
muito
T T
custoso, envolvendo um nmero (2T 1)N multiplicaes e N adies. Mesmo para
uma quantidade pequena, por exemplo, 5 estados e 100 observaes por estado, este valor
da ordem de 2 100 5100 ' 1072 computaes. Assim sendo, Baum and Petrie (1966)
props um processo recursivo para o clculo desta probabilidade de uma forma mais
eficiente, o Algoritmo Forward-Backward.
Considerando a varivel progressiva, forward, t (i), definida como a probabilidade
de observao parcial da sequncia O1 , O2 , . . . , Ot at ao instante t, junto ocorrncia do
estado, Si , no instante, t, dado o modelo , tem-se:

t (i) = P(O1 , O2 , . . . , Ot , qt = Si | ) 3.9

que pode ser calculada de acordo com:
1. Inicializao:

t (i) = i bi (Oi ), 1 i N 3.10

17
2. Induo:
" #
N
t+1 ( j) = t (i)ai j b j (Ot+1), 1 t T 1, 1 j N. 3.11

i=1
3. Terminao:
N
P(O| ) = T (i) 3.12

i=1
Em resumo, a probabilidade da sequncia de observaes dada pela soma da varivel

progressiva para todos os estados, Si , no instante final T .
Utilizando este algoritmo recursivo, o clculo de P(O| ) necessita apenas de N(N +
1)(T 1) + N multiplicaes e N(N 1)(T 1) adies, o que para N = 5 e T = 100
perfaz 3000 operaes contra as 1072 necessrias para o clculo atravs da equao

equao
3.7
.
De mesmo modo, deve-se considerar a varivel regressiva, backward, t (i) que repre-
senta a probabilidade de ocorrncia da sequncia parcial de observaes, Ot+1 , Ot+2 , . . . OT ,
no instante t + 1 at o final, T , dado o modelo, , e o que ocorreu o estado, Si , no instante
t, tem-se:

t (i) = P(Ot+1 , Ot+2 , . . . OT |qt = Si , ) 3.13

que pode ser calculada recursivamente atravs de:
1. Inicializao:

t (i) = 1, 1 i N. 3.14

2. Induo:
N
t (i) = ai j b j (Ot+1 )t+1 ( j), t = T 1, T 2, . . . , 1., 1 j N. 3.15

i=1
E a probabilidade P(O| ) dada por:
N
P(O| ) = 1 (i)bi (O1 )i 3.16

i=1
Uma aplicao do clculo da probabilidade de uma sequncia de observaes dado

um determinado modelo, o reconhecimento de fonemas, onde existe um modelo que
18
represente cada fonema. Para uma sequncia de observaes, dado como reconhecido o
fonema correspondente ao modelo com maior probabilidade.
3.3.2 Problema 2: qual a sequncia de estados que melhor repre-

senta as observaes?
Dados uma sequncia de T observaes, O = O1 O2 . . . OT , e um modelo, = (A, B, ),
como escolher uma sequncia de estados, Q = q1 , q2 , . . . qt , que melhor represente as
observaes, ou seja, qual a mais provvel? Neste caso, a parte escondida ser utilizada
para comparaes, para encontrar a que mais se aproxime da observao desejada.
Diferente do Problema 1, este no tem uma soluo exata, ele simplesmente busca
pela melhor sequncia de estados que represente a sequncia de observaes. Assim, a
determinao da sequncia de estados que corresponda a uma sequncia de observaes
ter que obedecer a um determinado critrio, onde critrios diferentes conduziro a
possveis diferentes sequncias.
Um dos critrios possveis, a escolha de um estado com maior probabilidade a cada
instante, sendo esta probabilidade de estar no estado, Si , no instante, t, em termos das
variveis forward-backward, dada por:
t (i)t (i) t (i)t (i)

t (i) = = N 3.17

P(O| ) i=1 t (i)t (i)
Sendo a melhor sequncia de estados, utilizando este critrio, dada por:

qt = argmax [(t (i))] , 1 i N, 1 t T. 3.18

Embora este mtodo maximize o nmero de estados com maior probabilidade em

cada instante, pode gerar uma sequncia de estados no vlida, bastando para isso que
a probabilidade de transio entre dois estados seja zero. Com isso, outra soluo
escolher a sequncia de estados que gera a sequncia de observaes com maior
probabilidade, P(Q|O, ), que equivalente a maximizar P(Q, O| ). A tcnica que
realiza essa maximizao de forma eficiente, baseado em programao dinmica,
chamado de Algoritmo de Viterbi, e definido da seguinte forma:
1. Inicializao:

1 (i) = i bi (O1 ), 1 i N 3.19

1 (i) = 0. 3.20

19
2. Recurso:

t ( j) = max t1 (i)ai j b j (Ot ), 1 i N, 2 t T, 1 j N 3.21

t ( j) = argmax t1 (i)ai j , 1 i N, 2 t T, 1 j N. 3.22

3. Terminao:

P = max [T (i)] , 1 i N. 3.23

qT = argmax [T (i)] , 1 i N 3.24

4. Escolha da melhor sequncia de estados:

qt = t+1 (qt+1

), t = T 1, T 2, . . . , 1. 3.25

3.3.3 Problema 3: como ajustar os parmetros do modelo a fim de

maximizar sua probabilidade?
Esta situao tem como objetivo ajustar os parmetros de um dado modelo, = (A, B, ),
a fim de maximizar a probabilidade, P(O| ). Para isso, utilizada uma sequncia de
observaes, chamada de sequncia de treinamento, para treinar o modelo. Neste
treinamento os parmetros do modelo vo ser adaptados aos dados sequncia observada,
consequentemente gerando um modelo melhor a represente.
Rabiner (1989) afirma que dentre os trs problemas, este de longe o mais difcil de
resolver, pois no existe mtodo analtico que permita obter os parmetros, = (A, B, ),
que maximizam a probabilidade de um modelo gerar a sequncia completa de observaes,
P(O| ). No entanto, existe um algoritmo capaz de maximizar a probabilidade local do
modelo, Algoritmo de Baum-Welch, que ser explicado a partir de ento.
Considerando t (i, j) a probabilidade de estar no estado Si no instante t, e no estado
S j no instante t + 1, dado um modelo inicial, = (A, B, ), e a sequncia de treinamento
O, tem-se:

t (i, j) = P(qt = Si , qt+1 = S j |O, ) 3.26

que pode ser expressa em termos das variveis forward-backward de acordo com:
20
t (i)ai j b j (Ot+1 )t+1 ( j)

t (i, j) =
P(O| )
t (i)ai j b j (Ot+1 )t+1 ( j)
=
P(O| )
t (i)ai j b j (Ot+1 )t+1 ( j)
= N 3.27

i=1 Nj=1 t (i)ai j b j (Ot+1 )t+1 ( j)

Considerando a definio de t (i) na equao
3.17 como a probabilidade de estar
no estado Si , no instante t, dado o modelo e a sequncia de observaes, ento, pode-se
relacionar t (i) com t (i, j) somando ao longo de j, de acordo com:
N
t (i) = t (i, j). 3.28

j=1
Se for feito o somatrio de t (i) sobre o tempo de observao t, obtem-se a estimativa

do nmero de vezes que o estado Si visitado ao longo do tempo, ou equivalente, o
nmero de transies feitas a partir de Si , se o tempo t = T for excludo do somatrio.
Analogamente, ao somar t (i, j) de t at T 1, tem-se a estimativa do nmero de
transies de Si para S j , ou seja:
T 1
t (i) = nmero esperado de transies a partir de Si 3.29

t=1
T 1
t (i, j) = nmero esperado de transies de Si para S j 3.30

t=1
Utilizando estas frmulas, tem-se um mtodo que possibilita reestimar os parmetros

de um modelo, de acordo com:
i = nmero de vezes esperado no estado Si no tempo (t = 1)

= t (i) 3.31

21
3.4. ANLISE MEL-CEPSTRAL
nmero esperado de transies de Si para S j

ai j =
nmero esperado de transies a partir de Si
T 1
t=1 t (i, j)
= T 1
3.32

t=1 t (i)
nmero de vezes esperado no estado S j observando Vk

b j (k) =
nmero de vezes esperado no estado S j
T
t=1, Ot =vk t ( j)

= T
3.33

t=1 t ( j)
Definindo o modelo atual como = (A, B, ) e utilizando estes parmetros para

calcular os parmetros do novo modelo = (A, B, ), Baum and Sell (1968) provaram
que:
1. Ou = , que significa que define um ponto crtico da funo de probabilidade

e, portanto, o modelo aquele que maximiza a sequncia de observao;
2. Ou mais provvel que , pois P(O| ) > P(O| ), o que significa que um
novo modelo ( ) foi encontrado, de onde mais provvel que a sequncia de
observaes O tenha sido gerada.
Processo este que executado iterativamente, at que = ou um limite seja

alcanado.
3.4 Anlise mel-cepstral

A anlise mel-cepstral foi desenvolvida como uma maneira de desconvoluir dois sinais.
No processamento da fala, oferece uma metodologia para a separao do sinal de excitao
da resposta impulsiva do trato vocal.
Os coeficientes mel-cepstrais so caractersticos do som, proporcionam reduo no
volume de dados em amostras que compem uma locuo falada, sem perda significativa
de informao til. So obtidos a partir de um tipo de representao cepstral, que plota
a amplitude de um sinal versus sua quefrncia, o inverso da frequncia. uma tcnica
til para separar componentes de um sinal complexo formado por diversos simultneos,
mas diferentes elementos combinados Mello (2010). resultante da Transformada de
22
3.5. RECONHECENDO COM HMM
Fourier de um espectrum decibel. A escala mel uma escala perceptual de pitch, que
a percepo da frequncia fundamental do som. O nome mel se originou da palavra
melodia para indicar que a escala baseada em comparao de pitch. de Queiroz et al.
(2006)
A tcnica de extrao de parmetros MFCC baseia-se no uso do espectro da voz
alterado segundo a escala Mel, uma escala perceptual amplamente utilizada em reconhec-
imento de fala, que procura se aproximar das caractersticas de sensitividade do ouvido
humano. Na escala Mel para cada tom com uma determinada frequncia, medida em Hz,
associa-se um valor medido em mel, que a unidade de frequncia dessa escala.
3.5 Reconhecendo com HMM

Dentre as maiores aplicaes dos Modelos Escondidos de Markov est na rea de Recon-
hecimento. Para tal, so criados modelos probabilsticos das entidades do vocabulrio a
reconhecer, ento o reconhecimento efetuado determinando a probabilidade da entidade
ter sido gerada por cada um dos modelos.
Para a construo de um reconhecedor de sinais de fala utilizando HMM, deve-se
inicialmente construir um conjunto de modelos, um para cada classe de sons (fonemas,
palavras, etc.) a reconhecer, atravs dos seguintes passos que constituem a fase de treino:
1. Definir o conjunto de classes de sons a reconhecer que corresponder ao nmero L

de modelos a treinar.
2. Escolher uma topologia (o tipo de modelo, o nmero de estados e o nmero de

observaes por estado)
3. Obter, para cada classe, um conjunto com dimenso razovel de dados de treino.
4. Treinar os modelos utilizando, por exemplo, a reestimao de Baum-Welch;
Para o reconhecimento de um som, comea-se por extrair a sequncia de observaes

correspondente ao sinal de fala. Seguidamente calculada a probabilidade da sequncia
de observaes, dado cada um dos modelos. Atribui-se a sequncia de observaes o som
(classe) associado ao modelo que obteve a mxima probabilidade.

P(O| j ) = max P(O|i ), 1 i L. 3.34

23
3.6. HMM COMO UM GERADOR DE OBSERVAES
Figura 3.4 Esquema de blocos de um recohecedor.
O esquema de blocos do reconhecedor utilizando estes modelos apresentado na

Figura 3.4
As caractersticas do sinal de entrada que servem como observaes, obtidos trama-a-
trama, so normalmente parmetros espectrais derivados de coeficientes LPC, tais como
os cepstrum, a energia, e as respectivas variaes em relao trama anterior (delta
cepstrum e delta energia). Sendo estes valores contnuos, necessrio proceder sua
quantificao vectorial, tornando-os um conjunto finito de smbolos, resultando numa
degradao da percentagem de reconhecimento, a menos que se utilize um livro de cdigo
bastante grande. Outra soluo para este problema a utilizao de modelos contnuos,
onde as distribuies associadas s observaes so caracterizadas por uma mistura de
funes densidade de probabilidade, normalmente com distribuio gaussiana, como
apresentado a seguir, na Seo 3.6.
Nas aplicaes dos HMM para o reconhecimento de fala, no se usa normalmente
modelos ergdicos (completamente ligados) mas sim modelos esquerda-direita, ou seja,
modelos em que de um estado Si s possvel transitar para o estado Si+1 ou permanecer
no mesmo estado.
3.6 HMM como um Gerador de Observaes

A representao mais comum das observaes de um sistema de reconhecimento de fala
baseada em MFCC, sendo assim formada por um vetor de valores contnuos. Para
cada fonema construdo um modelo probabilistico que informa a probabilidade de
observao de uma entrada acstica particular. Uma das vantagens desta abordagem
que com uma pequena quantidade de parmetros se consegue sumarizar a probabilidade
comportamental de um evento. Para variveis contnuas, estas funes so chamadas
Funo Densidade de Probabilidade (PDF).
24
3.6. HMM COMO UM GERADOR DE OBSERVAES
Outra funo importante a distribuio Gaussiana, que definida por:
1 (o)2
(o; , ) = e 2 2 3.35

2
onde a mdia dos valores, 2 a varincia, e o desvio padro.
A Gaussiana tem muitas propriedades matemticas interessantes e por causa disso e
pelo fato de grande parte dos fenomenos naturais pertencerem a este tipo de distribuio,
muitas vezes visto como a distribuio de probabilidade mais comum.
Quando se lida com vetores de dados, como neste caso as observaes so frames
acsticos, se faz necessrio o uso de uma Gaussiana Multivariada, que uma extenso da
univariada. importante notar que enquanto se tem um valor mdio para cada componente
no vetor, se tem uma matriz de covarincia, , no um vetor de varincias. Isto acontece
porque se quer modelar no a varincia de cada componente, mas a covarincia entre
cada componente. Assim sendo, a PDF de uma Gaussiana N-dimensional definida por:
1 1 T 1 (o)
(o; , ) = p e 2 (o) 3.36

M
(2) | |
onde M a dimensionalidade da observao, o vetor de mdias e a matriz
covarincia.
Com isso, pode-se construir um sistema com um modelo para cada fonema, descrito
por uma Gaussiana Multivariada. Por exemplo, para uma locuo desconhecida, se for
conhecida a fronteira de cada fonema, testa-se cada modelo at encontrar o com maior
probabilidade dentre os frames observados da fala. A partir da, encontra-se a sequncia
de fonemas que mais se parece com a observao da locuo em questo.
De acordo com da Silva Maia (2008) e Taylor (2009), buscando melhorar a acurcia
do modelo, para se obter a probabilidade de se ter o, no estado s j , no tempo t, utiliza-se
uma multi-mistura de Gaussianas, b(ot ), definida por:
" #k
K Lk
b(ot ) = ws j kl (otk ; s j kl , ) 3.37

k=1 l=1 s j kl
onde K o nmero de parmetros de entrada (MFCC, F0, etc.), Lk e k so o nmero

de componentes da mistura e o peso para os parmetros, ws j kl o peso, no estado s j , do
l-simo componente misturado para o parmetro k.
Segundo Taylor (2009), frames com fonemas no so estticos e evoluem em funo
do tempo, permitindo assim que sejam feitas adies s funes de observaes, incluindo
coeficientes extras que descrevam no apenas os dados, mas tambm as taxas de mudana
25
3.7. VISO GERAL DE UM SINTETIZADOR DE FALA BASEADO EM HMM
dos coeficientes e da taxa de mudana. Esses coeficientes so chamados de velocidade

ou delta, e acelerao ou delta-delta, respectivamente.
Estes coeficientes no apenas lidam com estas taxas de mudana, mas tambm so
capazes de compensar alguma fraqueza do poder de modelagem dos HMMs.
(ct + 1 ct 1)
dt =
3.38
2
Adicionalmente, para calcular a taxa de mudana ao longo de vrios frames, usa-se:
Ll=1 l(ct + 1 ct 1)
dt = 3.39

2 Ll=1 l 2
onde dt o coeficiente delta, ct o coeficiente cepstral e L o tamanho da janela em
que a taxa de mudana calculada.
3.7 Viso Geral de Um Sintetizador de Fala Baseado em

HMM
Os procedimentos apresentados na Seo 3.6 correspondem ao conjunto bsico de
procedimentos necessrios para o funcionamento de um sintetizador baseado em HMM,
como o ilustrado na Figura 3.5
3.7.1 Mdulo de Treinamento

Neste mdulo os parmetros da fala so extrados, a comear por uma sequncia de
logaritmos de frequncia fundamental log(F01 ), . . . , log(F0N ) , onde N a quantidade
de frames das locues da base de dados de treinamento. Em seguida, obtida uma
sequncia de vetores de coeficientes mel-cepstrais c1 , . . . , cN que representam o espectro
T
de cobertura da fala, onde cada um desses vetores ci = ci0 , . . . , cM

0 , onde i indica o
nmero do frase, e T indica a transposta, obtido atravs de uma anlise mel-cepstral de
ordem M, considerando a sequncia de logaritmos de frequncia fundamental j extrados,
a fim de remover a periodicidade do sinal. Por fim, uma sequncia de coeficientes no
peridicos b1 , . . . , bN obtido das locues com as mesmas taxas dos coeficientes mel-
cepstrais e log(F0). Maia et al. (2006)
Junta-se estas caractersticas extradas, os HMMs com informaes contextuais
extrados de cada locuo.
26
Figura 3.5 Viso Geral de Um Sintetizador Baseado em HMM.
27
Em seguida, cada
h Tvetor deT observaes
i de sada oi para o i simo frame consiste em
cinco fluxos, oi = oi1 , . . . , oi5 , ilustrados na Figura 3.6, onde:
Figura 3.6 Vetor de Caracteristicas das Observaes. da Silva Maia (2008)
Fluxo 1 (oi1 ): vetor composto por coeficientes mel-cepstrais, ci0 , . . . , cM 0 , seus re-
i M 2 i 2 M
spectivos componentes delta c0 , . . . , c0 e delta-delta c0 , . . . , c0 .
Fluxos 2, 3 e 4 (oi2 , oi3 , oi4 ): composto respectivamente pelo logaritmo da frequncia

fundamental log(F0i ) e seus respectivos delta log(F0i ) e delta-delta 2 log(F0i ).
Fluxo 5 (oi5 ): vetor composto por coeficientes de aperiodicidade, bi1 , . . . , bi5 , e seu
correspondente delta bi1 , . . . , bi5 e delta-delta 2 bi1 , . . . , 2 bi5 .
O vetor de observaes oi sada de um estado S de um HMM, de acordo com

a distribuio de probabilidade mostrada em equao
3.37 para K = 5. Para os ve-
T T 2 T T T 2 T
tores de fluxo 1 e 6, oi1 = ci ci ci , e oi5 = bi bi bi , so modelados por
uma distribuio Gaussiana contnua e de mistura simples (L1 = L5 = 1), onde a di-
mensionalidade 3(M + 1) para oi1 e 15 para oi5 . Para os vetores de fluxo 2, 3 e 4,
oi2 = [log(F0i )], oi3 = [log(F0i )] e oi4 = 2 log(F0i ) , onde a probabilidade de sada

modelada por uma distribuio Gaussiana multiespaos, com dois componentes na

mistura, L2 = L3 = L4 = 2. da Silva Maia (2008)
28
Para cada HMM k, a durao dos S estados so representadas por vetores d k =

k
d1 , . . . , dSk , onde dSk representa a durao do estado S. Adicionalmente, cada vetor de

duraes modelado por uma dsitribuio Gaussiana de mistura simples S dimensional.

As probabilidades de sada dos vetores de durao de estados so ento reestimadas por
interaes pelo algoritmo de Baum-Welch, da mesma forma que as probabilidades de
sadas dos parmetros de fala. da Silva Maia (2008)
Durante o treinamento, uma tcnica de agrupamento de contexto aplicada aos fluxos
de coeficientes mel cepstrais, log(F0) e parmetros de aperiodicidade, bem como para
os modelos de duraes dos estados. No final do processo, 3S + 1, diferentes rvores
de deciso so geradas, S rvores para os logaritmos de frequncias fundamentais, uma
rvore para cada estado s, S rvores para cara parmetro de aperiodicidade, uma para
cada estado s tambm, e por fim uma rvore para durao do estado.
3.7.2 Mdulo de Sntese

O mecanismo de sntese comea convertendo os dados da locuo que se deseja sintetizar
em informaes contextuais, Seo 4.2, os quais so utilizados para selecionar o n
correspondente na rvode de deciso de tamanho 3S + 1 gerada pelo agrupamento de
contexto do treinamento.
Ao final deste passo, 4 sequncias de HMM referentes ao n selecionado so geradas
para os quatro parmetros da fala:
1. Coeficientes mel-cepstrais, HMM com S estados.
2. Logartimo da frequncia fundamental, HMM com S estados.
3. Coeficientes de aperiodicidade, HMM com S estados.
4. Duraes dos estados, HMM com um nico estado.
A determinao dos parmetros dar-se- da seguinte maneira: utiliza-se as 4 se-

quncias de HMM para criar os coeficientes mel-cepstrais, logaritmo da frequncia
fundamental e parmetros de aperiodicidade. Inicialmente, os vetores de duraes de
estados d 1 , . . . , d K , onde K e o numero de HMMs em cada sequncia, so determina-
dos pela distribuio Gaussiana K S dimensional, definindo a sequncia de estados
S = s1 , . . . , sL , onde L o nmero de frames da locuo a ser sintetizada e si o estado do
HMM cujo i simo frame pertence. Aps isso, os vetores de coeficientes mel-cepstrais
29
c1 , . . . , cL , os parmetros de aperiodicidade b1 , . . . , bL e os logaritmos da frequncia fun-

damental log(F01 , . . . , log(F0L ) so determinados de acordo com a sequncia HMM, de
modo a maximinar suas probabilidades de sada dado s, considerando os componentes
delta e delta-delta. Maia et al. (2006)
O sinal de excitao gerado das sequncia de logaritmos da frequncia fundamental
log(F01 , . . . , log(F0L ) e parmetros de aperiodicidade b1 , . . . , bL , baseados na gerao de
excitao mista de acordo com as energias das frequncias das sub-bandas. Por fim, onda
de fala gerada com a utilizao do filtro MLSA (Mel Log Spectrum Approximation),
cujos coeficientes so derivados da sequncia de coeficientes mel-cepstrais gerados
c1 , . . . , cL .Maia et al. (2006)
30
Sintetizador de Fala para Portugus do
4
Brasil baseado em HMM
4.1 Informaes da Locuo
4.1.1 Pr-processamento Textual

Antes que os textos utilizados para treinamento e sntese sejam passados a qualquer outra
etapa, eles passam por um processamento inicial, que envolve a converso de todo e
qualquer smbolo que no seja textual, em texto puro.
Utilizando expresses regulares, nmeros de telefones so convertidos em texto por
extenso, assim como quaisquer outros nmeros. Quanto aos caracteres especiais, no
prottipo permitido o cadastro de uma lista de excees onde o usurio informa o texto
por extenso que deve substituir o caractere. O mesmo acontece para abreviaes. Com
relao acrnimos, definiu-se em um primeiro momento que toda palavra que estiver
escrita totalmente em maisculo deve ser lida letra a letra.
4.1.2 Converso Grafema-Fonema e Determinao da Vogal Tnica

em Palavras
Por definio, Grafemas so unidades formais mnimas de um sistema de escrita, e,
Fonemas so as menores unidades sonoras de um idioma. O processo de transcrio de
grafema para fonema pode definido como um conjunto de aes capaz de perceber um
grafema e retornar sua equivalente unidade sonora, o fonema. A aplicao desse processo
a um conjunto de palavras constitui um Dicionrio fontico.
Esta converso uma das etapas mais relevantes para sistemas de reconhecimento e
31
4.1. INFORMAES DA LOCUO
sntese de fala, pois necessitam destas informaes da forma mais precisa possvel.
Para o desenvolvimento de um sistema de converso de grafemas em fonemas, deve
ser levado em considerao aspectos particulares de ambos, assim como o conhecimento
dos Processos Fonolgicos, que o ramo da Lingustica que estuda os sistemas sonoros
das lnguas do ponto de vista da sua funo no sistema de comunicao lingustica, a
seguir descrito.
Segundo o The International Phonetic Association IPA (2005), os sons da fala
podem ser classificados da seguinte forma:
Vogais: sons produzidos pelas cordas vocais, que passam livremente pela boca e
pelas fossas nasais, sem aperto ou modificao do aparelho fonador. Podem ser
classificadas:
1. Quanto a zona de articulao:

Anteriores ou Palatais: quando lngua se eleva gradualmente para a
frente em direo ao palato duro e prximo aos dentes.
Mdia: quando o fonema voclico emitido com a lngua baixa, pratica-
mente em repouso.
Posteriores ou Velares: quando a lngua se eleva para trs em direo ao
palato mole.
2. Quanto a intensidade:
tonas: so aquelas que se pronunciam com menor intensidade.
Tnicas: so as que se pronunciam com maior intensidade, onde vai o
acento tnico.
3. Quanto ao timbre:
Abertas: maior abertura do tubo vocal.
Fechadas: menor abertura do tubo vocal.
Reduzidas: so as vogais reduzidas no timbre por serem vogais tonas.
4. Quanto ao papel das cavidades bucal e nasal:
Orais: so aquelas cuja ressonncia se d na boca.
Nasais: so aquelas cuja ressonncia se d no nariz.
Semivogais: so fonemas assilbicos que se aproximam de um som de vogal, mas

soam fracamente. Assemelham-se a consoantes porque se juntam a uma vogal para
formar uma slaba.
32
Consoantes: so classificadas de acordo com:
1. Quanto ao modo de articulao:

Oclusivas Plosivas: quando existe um bloqueio total do ar, ou seja,
quando dois rgos se unem e impedem a passagem do ar.
Constritivas: quando existe um bloqueio parcial do ar.
* Fricativas: quando o ar expelido mediante frico ao passar pelos
rgos que se lhe opem.
* Vibrantes: quando ocorre a vibrao da ponta da lngua.
* Laterais: quando a passagem da corrente expiatria se d pelos dois
lados da cavidade bucal, ou seja, entre a lngua e as bochechas.
2. Quanto ao ponto de articulao:
Bilabiais: lbios e dentes.
Labiodentais: lbios e dentes superiores.
Linguodentais: lngua e dentes superiores.
Alveolares: lngua e alvolos dos dentes.
Palatais: dorso da lngua e cu da boca.
Velares: parte superior da lngua e palato mole.
3. Quanto a vibrao das pregas vocais:
Sonoras: quando as pregas vocais vibram.
Surdas: quando as pregas vocais no vibram.
4. Quanto a funo das cavidades bucal e nasal:
Orais: quando o ar sai somente pela boca.
Nasais: quando o ar sai pela boca e pelas fossas nasais.
Normalmente, fonemas so representados com base no Alfabeto Fontico Interna-

cional Apndice ??. O desenvolvimento deste trabalho utilizou o conjunto de fonemas
contidos no Apndice ??, e exemplificados na tabela Tabela 4.1:
Fonema Classificao Exemplo Transcrio

Consoantes
p oral, oclusiva/plosiva, surda, bilabial pato p a t u
continua na prxima pgina.
33
continuao d pgina anterior.

b oral, oclusiva/plosiva, sonora, bilabial bola b O l a
t oral, oclusiva/plosiva, surda, linguodental tabela t a b E l a
d oral, oclusiva/plosiva, sonora, linguoden- dedo d e d u
tal
k oral, oclusiva/plosiva, surda, velar carro k a X u
f oral, constritiva/fricativa, surda, labioden- faca f a k a
tal
v oral, constritiva/fricativa/vibrante, sonora, velha v E L a
labiodental
s oral, constritiva/fricativa, surda, alveolar sapato s a p a t u
z oral, constritiva/fricativa/vibrante, sonora, zebra z e b r a
alveolar
S oral, constritiva/fricativa, surda, palatal caixa k a j S a
Z oral,constritiva/fricativa/vibrante, sonora, beijo b e j Z o
palatal
m nasal, sonoro, bilateral cama k a m a
n nasal, sonoro, linguodental nariz n a r i S
J nasal, sonoro, palatal banho b a J o
l oral, constritiva/vibrante/lateral, sonora, loja l O Z a
alveolar
L oral, constritiva/vibrante/lateral, sonora, trabalho t r a b a L u
palatal
r oral, constritiva/vibrante, sonora, alveolar roupa r o w p a
X oral, constritiva/vibrante, sonora, velar carlos k a X l u S
tS oral, africadas, surda, alveolopalatal time tS i m i
dZ oral, africadas, sonora, alveolopalatal dia dZ i a
Vogais Orais
a mdio, aberto, oral, sonoro aula a w l a
o posterior, fechado, oral, sonoro orelha o r e L a
O posterior, aberto, oral, sonoro culos O k u l u S
u posterior, fechado, oral, sonoro til u t i w
e anterior, fechado, oral, sonoro cabelo k a b e l u
34

E anterior, aberto, oral, sonoro tela t E l a
i anterior, fechado, oral, sonoro lista l i S t a
Vogais Nasais
a vogal nasal fama f a m a
e vogal nasal pente p e n tS i
i vogal nasal timbre tS i b r i
o vogal nasal conta k o t a
u vogal nasal nunca n u k a
Semivogais
w semi-vogal oral caldo k a w d u
j semi-vogal oral caixa k a j S a
w semi-vogal nasal limo L i m a w
j semi-vogal nasal treino t r e j n u
Tabela 4.1: Conjunto de fonemas utilizados, de acordo com o
SAMPA International Group of Phoneticians (2009)
Existem duas principais estratgias para determinao do conversor grafema-fonema

e determinao da vogal tnica: 1) baseada em dicionrio; 2) baseada em regras. A
primeira abordagem implica em um grande arquivo contendo uma lista de palavras e
suas vogais tnicas correspondentes. A primeira abordagem possui alguns problemas,
tais como a constante atualizao da quantidade palavras de um idioma, fazendo com
que o sistema que dependa deste dicionrio tenha sempre que ser atualizado. Alm do
mais, requer uma grande quantidade de memria, dependendo do idioma e da aplicao.
A segunda abordagem, baseada em regras, no enfrenta este tipo de problema, pode
facilmente lidar com novas palavras que surgirem, alm de no necessitar de uma grande
quantidade de memria. Silva et al. (2006)
Dentre as diversas abordagens existentes para converso de grafemas e fonemas,
David Frontini (2006) reporta o desenvolvimento utilizando Redes Neurais Artificiais;
enquanto Hosn et al. (2006) utiliza aprendizagem de mquina, em uma abordagem com
duas etapas, onde primeiro realiza um treinamento com informaes de alinhamento
grafema-fonema das palavras do conjunto de treinamento, e depois utiliza arvores de
deciso como classificadores; Siravenha (2009) enumera algumas outras abordagens que
35
realizam esta converso de forma eficaz.

Este trabalho optou pela abordagem baseada em regras, utilizando como base o os
trabalhos de Silva et al. (2006) e Braga et al. (2006), as quais so claramente detalhadas
nos Apndice C e Apndice D.
A escolha desta abordagem foi devido a sua simplicidade e eficincia, uma vez que o
idioma portugues brasileiro possui uma certa regularidade fonolgica Braga et al. (2006)
e Siravenha (2009), que permite o uso de tcnicas desta natureza, sem a necessidade do
alto custo associado a abordagens baseadas em grandes dicionrios fonticos.
Importante notar na Tabela 4.1 a presena dos fonemas tS e dZ, que tem seu uso
mais comum em determinadas regies do pas. Como as bases de dados utilizadas para
treinamento neste trabalho foram de pessoas de naturalidade paraense, esses fonemas
foram includos.
4.1.3 Diviso Silbica

A slaba uma unidade relevante na determinao de parmetros prosdicos, como as
duraes dos fonemas e pequenas variaes na frequncia fundamental na realizao
da sntese de fala a partir de textos. Gouveia et al. (2000) da S. Maia et al. (2004) e
Damper et al. (2005) mostram que a informao silbica relevante para a qualidade da
fala gerada por um sintetizador.
Gouveia et al. (2000) apresenta uma srie de regras e duas abordagens para efetuar
esta separao em slabas. A primeira utilizando a palavra escrita para separao. A
segunda faz a seperao silbica baseada nas informaes fonticas, utilizando a palavra
j convertida em fonemas. Oliveira et al. (2005) mostra um separador silbico para o
portugus falado em Portugal, desenvolvido utilizando casamento de padres. Faria
(2003), em uma abordagem mais simplificada, enumera poucas regras baseadas nos
processos fonolgicos do idioma, e cria uma rvore de deciso para fazer a separao.
Com o apoio de um especialista, desenvolveu-se um algoritmo que efetua a separao
silbica na palavra convertida em fonemas, como nas duas referncias anteriores. Essa
abordagem foi escolhida pela simplicidade na quantidade de regras a serem utilizadas,
uma vez que no se faz necessrio o tratamento de dgrafos e outras peculiaridades. O
algoritmo desenvolvido est anexo no Apndice E.
36
4.2. INFORMAO CONTEXTUAL
4.1.4 Classificao
Somada s outras informaes obtidas at agora, a classificao do grupo que a palavra
pertence tambm ser utilizada na criao do arquivo de informaes contextuais que
ser um dos recursos utilizados no treinamento, e que ser detalhado no prximo tpico.
Essa classificao feita basicamente verificando se cada palavra de uma locuo
faz parte de um grupo contedo ou funo, baseada em sua classificao gramatical.
Se a palavra em questo for uma preposio, conjuno, artigo, pronome, conectivo,
interjeio ou contrao preposies-artigos, ela classificada como funo. Caso faa
parte de outras classes gramaticais, tida como contedo.
da S. Maia et al. (2003) da S. Maia et al. (2004) Barbosa et al. (2004) mostraram que
utilizao da classificao gramatical ao invs de simples grupos no apresenta diferena
significativa na qualidade dos resultados do sintetizador. Com isso, o presente trabalho
utilizou a abordagens de grupos, como em da Silva Maia (2008)
4.2 Informao Contextual

Em snteses de fala baseadas em Modelos de Markov, cada informao sobre o contexto
da frase corresponde a um modelo especfico, e totalmente determinante para a quali-
dade do sinterizador. Nesta etapa, as caractersticas que sero levadas em considerao
so responsveis pela reproduo natural da prosdia da fala. A determinao destas car-
actersticas emprica e baseada em informaes prosdicas da linguagem. da Silva Maia
(2008)
As caractersticas utilizadas foram escolhidas conforme da Silva Maia (2008), que
por sua vez, foram derivadas de Tokuda et al. (2002), que relata o desenvolvimento de
um sintetizador utilizando HMM para o ingls, e so:
Identificador Caracterstica
Fonema
m1 Fonema antes do anterior
m2 Fonema anterior
m3 Fonema atual
m4 Fonema posterior
m5 Fonema depois do posterior
m6 ndice do fonema atual na slaba, do incio para o fim
37

m7 ndice do fonema atual na slaba, do fim para o incio
Slaba
s1 Tonicidade da slaba anterior. Se tnica, 1. Se tona, 0.
s2 Quantidade de fonemas da slaba anterior
s3 Tonicidade da slaba atual. Se tnica, 1. Se tona, 0.
s4 Quantidade de fonemas da slaba atual
s5 Tonicidade da slaba posterior. Se tnica, 1. Se tona, 0.
s6 Quantidade de fonemas da slaba posterior
s7 ndice da slaba atual na palavra, do incio para o fim
s8 ndice da slaba atual na palavra, do fim para o incio
s9 ndice da slaba atual na frase, do incio para o fim
s10 ndice da slaba atual na frase, do fim para o incio
s11 Quantidade de slabas tnicas antes da slaba atual, na frase atual
s12 Quantidade de slabas tnicas depois da slaba atual, na frase atual
s13 Quantidade de slabas, a contar da slaba tnica anterior at a slaba atual,
na locuo
s14 Quantidade de slabas, a contar da slaba atual at a slaba tnica poste-
rior, na locuo
s15 Vogal da slaba atual
Palavra
w1 Classificao da palavra anterior
w2 Quantidade de slabas da palavra anterior
w3 Classificao da palavra atual
w4 Quantidade de slabas da palavra atual
w5 Classificao da palavra posterior
w6 Quantidade de slabas da palavra posterior
w7 ndice da palavra atual na frase atual, do incio para o fim
w8 ndice da palavra atual na frase atual, do fim para o incio
w9 Quantidade de palavras do tipo contedo antes da palavra atual, na
frase atual
w10 Quantidade de palavras do tipo contedo depois da palavra atual, na
frase atual
38

w11 Quantidade de palavras, a contar da palavra anterior do tipo contedo
at a palavra atual, na locuo
w12 Quantidade de palavras, a contar da palavra atual at a posterior do tipo
contedo, na locuo
w13 Se a palavra atual a ltima de uma frase interrogativa. Se no, 0. Se
sim, 1.
Frase
p1 Quantidade de slabas da frase anterior
p2 Quantidade de palavras da frase anterior
p3 Quantidade de slabas da frase atual
p4 Quantidade de palavras da frase atual
p5 Quantidade de slabas da frase posterior
p6 Quantidade de palavras da frase posterior
p7 ndice da frase atual na locuo, do incio para o fim
p8 ndice da frase atual na locuo, do fim para o incio
Locuo
u1 Quantidade de slabas da locuo
u2 Quantidade de palavras da locuo
u3 Quantidade de frases da locuo
Tabela 4.2: Caractersticas utilizadas na composio das In-
formaes Contextuais Maia et al. (2006)
Cada fonema de uma locuo representado utilizando as informaes de contexto,

obtidas do texto da locuo conforme Figura 4.2, e com as caractersticas citadas na
Tabela 4.2, de acordo com:
m1m2-m3+m4=m5/M2:m6_m7
/S1:s1_@s2-s3_@s4+s5_@s6/S2:s7_s8/S3:s9_s10
/S4:s11_s12/S5:s13_s14/S6:s15
/W1:w1_#w2-w3_#w4+w5_#w6/W2:w7_w8/W3:w9_w10
/W4:w11_w12/W5:w13
/P1:p1_!p2-p3_!p4+p5_!p6/P2:p7_p8
/U:u1_$u2_&u3
39
4.3. AGRUPAMENTO DE CONTEXTO BASEADO EM RVORES DE DECISO
Figura 4.1 Ilustrao do texto de uma locuo a ser convertida em Informao Contextual.
da Silva Maia (2008)
4.3 Agrupamento de Contexto baseado em rvores de

Deciso
Mesmo utilizando informaes de contexto para representar os fonemas, muito difcil
se ter a quantidade de exemplos suficiente para representao de todas as combinaes e
contextos existentes, podendo existir modelos pouco treinados ou at mesmos modelos
que no encontraram dados para serem treinados. A soluo para este problema est
em fazer agrupamento dos dados, utilizar parmetros de modelos bem treinados para
os modelos que possuem dados dispersos. Existem diversas maneiras de fazer isso,
para os modelos pouco treinados, pode-se utilizar os parmetros do modelo que mais se
assemelha ao modelo em questo. O problema quando um modelo no tem exemplos
para serem comparados e pegar o semelhante.
Para solucionar esta situao, utiliza-se propriedades comuns dos fonemas, para que,
por exemplo, fonemas com o mesmo ponto de articulao podem ter realizaes acsticas
mais parecidas do que os que possuem pontos diferentes. A soluo mais comum para
fazer este tipo de agrupamento utilizando rvore de Deciso.
Este tipo de estrutura funciona em uma abordagem TOP-DOWN, lendo os ns da
rvore de cima para baixo, e processam informaes de forma binria, por exemplo, ques-
tionamentos sobre tipo de uma consoante, que podem assumir valores como oclusiva,
constritiva e etc. devem ser feitos da seguinte forma uma consoante oclusiva?,
uma consoante constritiva?.
Inicialmente, os ns de todos dos estados S1 , S2 , . . . SN de todos os modelos so
agrupados em N clusters. Por conseguinte, perguntas so feitas para cada cluster, e
40
4.4. TREINAMENTO
escolhido o com maior semelhana dados os estados, que se dividir em dois novos
clusters, e assim sucessivamente at que um critrio de parada seja alcanado, um limiar
definido empiricamente, que pode ser um nmero mnimo de modelos. A Figura 4.2
ilustra este processo de agrupamento.
Figura 4.2 Exemplo de rvore de deciso para agrupamento de contexto. Taylor (2009)
Uma vez que cada HMM formado por trs fluxos de dados, sendo os coeficientes
mel-cepstrais, o logaritmo da frequncia fundamental e os parmetros de aperiodici-
dade, o agrupamento baseado em contexto realizado separadamente para cada uma
destas caractersticas, assim como a durao dos estados para cada modelo, que depois
de ser modelada por uma distribuio Gaussiana, agrupada de forma independente.
da Silva Maia (2008)
Assim como as informaes contextuais, o processo de agrupamento de dados muito
importante e determinante para a qualidade final do sintetizador, por isso as perguntas
devem ser muito bem elaboradas, de acordo com as caractersticas do idioma, seus
processos fonolgicos e etc.
4.4 Treinamento
4.4.1 Base de Dados de Fala

A base de dados utilizada para treinamento do sintetizador era formada por dois locutores:
Sexo: feminino.
41
4.4. TREINAMENTO
Idade: 28 anos.
Locues: 241 frases.
Naturalidade: paraense.
Gravaes: 12 minutos e 40 segundos.
Sexo: masculino.
Idade: 30 anos.
Locues: 281 frases.
Naturalidade: paraense.
Gravaes: 13 minutos e 40 segundos.
Todas as gravaes foram realizadas em studio acusticamente isolado, com equipa-

mentos de gravao profissionais, com taxa de amostragem de 44.100 kHz, com 16 bits
por amostra, estreo, posteriormente reduzida para 16 kHz, com o objetivo de reduzir o
tempo de procesamento do treinamento.
Todas as frases foram selecionadas por um fonoaudilogo especialista, e eram fo-
neticamente balanceadas, e foram escolhidas de modo a conter a maior diversidade de
fonemas do idioma.
4.4.2 Preparao
De posse das gravaes e seus respectivos textos, foi realizado um alinhamento temporal,
para estimar o tempo de realizao de cada fonema no audio correspondente.
Para realizao desta tarefa, utilizou-se o framework HTK (2009), de Young et al.
(2006), que uma das ferramentas referncia para trabalhar com processamento de fala e
HMM.
O algoritmo utilizado para tal claramente descrito no captulo 3 de Young et al.
(2006).
Junto com as informaes dos intervalos de tempo de realizao dos fonemas, foram
obtidas as informaes contextuais, descritas no Seo 4.2 do Captulo 4.
42
4.5. AVALIAO DOS RESULTADOS
4.4.3 Parmetros de Treinamento

Os parmetros utilizados para treinamento foram baseados em da Silva Maia (2008), onde
as caractersticas de frequncia fundamental, coeficientes mel-cepstrais e parmetros
aperidicos, da fala so extrados de cada locuo da base de dados utilizando frames de
5 ms. Os coeficientes mel-ceptrais foram obtidos atravs de uma anlise de ordem 24,
M = 24, com utilizao de janelamento de Hamming de 25 ms.
O parmetros delta calculado de acordo com:
(xi+1 xi1 )
xi = 4.1

2

Adaptado de equao
3.38
, e o parmetro delta-delta calculado de acordo com:

2 xi = xi+1 + xi1 2xi 4.2

onde xi representa uma das caracterstas log(F0), coeficientes mel-cepstrais ou

parmetros de aperiodicidade para o i-simo frame.
Os parmetros foram modelados de acordo com a Figura 3.6, e uilizando HMMs
com 5 estados.
4.5 Avaliao dos Resultados

Devido a natureza subjetiva da qualidade de um sintetizador, a avaliao foi baseada na
comparao de frases sintetizadas por diversos sintetizadores disponveis na atualidade.
Para isso, foram sintetizadas as 27 frases disponveis pela verso de demonstrao em
portugus do Brasil do HTS (2009). Estas mesmas frases foram sintetizadas com um
sintetizador utilizando sntese baseada em concatenao de diphones do projeto MBR
(2010), o FUR (2010). Adicionalmente, as mesmas frases foram sintetizadas com a voz
masculina e uma voz feminina da verso de demonstrao em portugus do Brasil do
sintetizador comercial.
Todas estas frases foram submetidas anlise de 15 pessoas, que atribuam uma nota
de 1 a 5 qualidade da voz, onde: 1) muito ruim; 2) ruim; 3) regular; 4) boa; 5) excelente.
As frases utilizadas foram:
1. Apenas os nibus circularo pela pista bairrocentro, nos dois sentidos.
2. Seus computadores processam at dois milhes de informaes por segundo.
43
3. Os produtos vendidos nestes estantes foram doados por empresas particulares.
4. Crescem as baixas civis na repblica separatista, de populao majoritariamente

muulmana.
5. Arago acabou inocentado devido ao baixo nmero de senadores presentes.
6. Ela sofreu um infarto quando preenchia a cdula amarela das eleies majoritrias.
7. Dos duzentos imveis novos oferecidos no ms, apenas quinze foram comercializa-
dos.
8. O fluxograma representao grfica a forma mais completa de visualizar proces-

sos.
9. Oitenta por cento desses adolescentes norte-americanos tm um emprego de meio

perodo.
10. A Infraero ainda no sabe em qual dos dois aeroportos Alexandre embarcou.
11. Almeida informou que a empresa demitiu quarenta funcionrios nos ltimos vinte
dias.
12. O momento econmico e poltico deflagrado pelo real instigante desta reflexo.
13. Os funcionrios estimam uma defasagem salarial em torno de quatrocentos por

cento.
14. Anteontem, astronautas realizaram experincias cientficas a bordo do nibus

espacial Columbia.
15. O rastreamento deve comear pelas instituies cadastradas e que recebem sub-
venes pblicas.
16. Caractersticas rendimento dirio, mas nem todos bancos oferecem resgate au-
tomtico.
17. No h um departamento de mediadores independente das federaes e das agremi-

aes.
18. Problemas encontrados nos diversos subprocessos organizacionais possuem causas

prprias.
44
19. Feministas, negros e homossexuais fazem reivindicaes retrgradas e tendem a

exigir privilgios.
20. Algumas oficinas de Parceiros da Mata Atlntica esto sendo chamadas de estaes.
21. Isto representa um teste para o sintetizador para o portugus do Brasil.
22. Olhos quando abertos no mais fecham.
23. Prefiro ser essa metamorfose ambulante, do que ter aquela velha opinio formada
sobre tudo.
24. Viver o exerccio de morrer a cada momento.
25. Debaixo dos caracis dos seus cabelos, tanta histria pra contar, dum mundo to
distante, e o sorriso e a vontade de ficar mais um instante.
26. O orvalho da manh as vezes confundido com a chuva.
27. Eu queria biscoito de mel.
A qualidade do resultado do sintetizador desenvolvido se mostrou abaixo apenas do

modelo comercial, que possua naturalidade, inteligibilidade e ausncia total de qualquer
tipo de rudo.
Quando comparados com a verso de demonstrao em portugus do Brasil do HTS,
os resultados se mostraram bastante similares, tanto a voz masculina quanto a feminina, o
que j era esperado, uma vez que utilizam a mesma tcnica baseada em modelos ocultos
de Markov. Como comentado anteriormente, a diferena na qualidade da base de dados
utilizada no influenciou diretamente.
Quando comparado ao sintetizador baseado no MBROLA, o resultado deste trabalho
se mostrou bastante superior, o que tambm j era esperado devido a serem tcnicas
consideradas de geraes diferentes.
Os resultados podem ser visualizados nos grficos: Figura 4.3, Figura 4.4, Figura 4.5
e Figura 4.6.
45
Figura 4.3 Resultados da avaliao para frases de 1 a 9
46
Figura 4.6 Resultado geral para todas as frase
47
Concluses
5
Este trabalho apresentou aspectos do desenvolvimento de um sintetizador de fala para
o portugus brasileiro utilizando modelos ocultos de Markov, que atualmente umas
das tcnicas que mais tem se destacado em processamento de fala, em geral, tanto para
reconhecimento quanto para sntese.
Alm da teoria Markoviana, foram detalhadas as macro fases de um aplicao desta
natureza, que so as anlises Fontica, Textual e Prosdica, e tambm foram abordados
os processos intermedirios necessrios ao funcionamento um sintetizador, que so
totalmente relevantes para sua qualidade, que so a converso de grafemas em fonemas e
a separao silbica.
A realizao prtica do projeto foi bem sucedida, o desenvolvimento se deu de forma
modular, onde cada mdulo foi desenvolvido individualmente, e posteriormente foram
integrados em uma aplicao.
O prottipo foi desenvolvido utilizando a linguagem Java, com uma nica dependncia
referente ao uso do HTS (2009), que uma verso adaptada do HTK (2009) para se
trabalhar com modelos ocultos de Markov com sntese de fala.
O mecanismo integrado de determinao de slaba tnica de palavras, converso de
grafemas para fonemas e diviso silbica da palavra transcrita foneticamente, foi testado
em um texto composto por 2530 (duas mil quinhentas e trinta) palavras diferentes, e obteve
taxa de acerto de 99% quando no levado em considerao homnimos homgrafos,
como emprego, governo, jogo, almoo, que tem pronncias diferentes de acordo
com sua classificao gramatical na frase em questo. Isto acontece devido a opo
de ter utilizado um conversor de grafemas em fonemas baseado em regras, que leva
em considerao apenas a escrita da palavra, e no sua classificao gramatical, ou
seja, que unifica as duas primeiras etapas, Anlise Textual e Anlise Fontica, de um
modelo ideal de sntese. Palavras como impresso, tiveram problemas devido sua
48
5.1. PROPOSTAS FUTURAS
transcrio fontica, i p r E s o, ser igual a parte das transcries de outras palavras,

como impressora (i p r e s o r a), ou preo (p r e s o), pois dependendo do caso, o
som da letra e aberto ou fechado.
O fato da aquisio da base de dados ter sido realizada em studio profissional no
influenciou na qualidade da fala sintetizada, como se imaginou. Entretanto, a qualidade
da voz do locutor se mostrou um fator determinante, pois a fala sintetizada, caso no tenha
parmetros alterados durante treinamento ou sntese, fica muito similar voz original
utilizada para treinamento.
A presena dos caracteres tS e dZ se mostrou muito interessante, pois conseguiu
sintetizar exatamente o regionalismo presente na fala de pessoas da regio norte do pas,
especificamente do Par, estado natal dos locutores que gravaram a base de dados.
5.1 Propostas Futuras

A seguir esto relacionadas propostas de evolues para este trabalho, seguindo a mesma
linha da estudo:
Desenvolvimento de um mdulo de processamento textual mais robusto e detalhista,

que trate minuciosamente as excees existentes no idioma, como estrangeirismo,
siglas, smbologias referentes a moedas, dentre outros.
Desenvolvimento de um conversor de grafemas em fonemas que no seja unica-

mente baseado em regras baseadas nos fonemas adjacentes, e que tambm leve
em considerao a classificao gramatical das palavras adjacentes, o que para o
idioma portugus falado no Brasil totalmente relevante, pois o som aberto ou
fechado de alguns fonemas depende diretamente da classificao gramatical da
palavra.
Desenvolvimento de um mdulo que possibilite o treinamento de novas vozes

atravs da aplicao, com a total possibilidade de configurao de todos os parmet-
ros envolvidos no processo, que hoje realizado atravs de um processo manual.
Desenvolvimento de um mdulo de Sntese Audio-Visual, que utilize no treina-

mento informaes de visemas, que so as formas da face no momento da repro-
duo de determinado fonema, possibilitando o desenvolvimento de um prottipo
que junto fala, exiba uma face que mostre em uma sequncia de imagens exata-
mente o que est sendo falado.
49
Referncias Bibliogrficas
(2009). Hidden markov model toolkit.
(2009). Hmm-based speech synthesis system (hts).
(2010). Furbspeech.
(2010). Mbrola project.
A. Teixeira, C. O. and Moutinho, L. (2006). On the use of machine learning and syllable
information in european portuguese graphemephone conversion. 7th Workshop on
Computational Processing of Written and Spoken Portuguese.
Albano, E. C. and Moreira, A. A. (1996). Archisegmentbased lettertophone conversion

for concatenative speech synthesis in portuguese. The Fourth International Conference
on Spoken Language Processing ICSLP1996.
Allen, J., Hunnicutt, M. S., Klatt, D. H., Armstrong, R. C., and Pisoni, D. B. (1987).
From text to speech: the MITalk system. Cambridge University Press, New York, NY,
USA.
Barbosa, F., da S. Maia, R., and Resende Jr., F. G. V. (2004). Anlise comparativa do
impacto da classe gramatical em sistemas tts baseados em hmms. Anais do Simpsio
Brasileiro de Telecomunicaes SBrT 2004.
Barros, M. J., Braga, D., Coelho, L., Freitas, D., and Moura, A. (2003). Synthetic speech
evaluation: The sus approach and implementation for portuguese. IASTED Interna-
tional Conference on Signal Processing and Pattern Recognition and Applications.
Baum, L. E. and Petrie, T. (1966). Statistical inference for probabilistic functions of finite
state markov chains. Annals of Mathematical Statistics, 37(6), 15541563.
Baum, L. E. and Sell, G. R. (1968). Growth functions for transformations on manifolds.

Pac J. Math, 27(2), 211227.
Black, A. W. and Lenzo, K. A. (2007). Building synthetic voices. Acessado em

http://festvox.org/bsv/bsv.pdf, em 29 de novembro de 2009.
Black, A. W., Zen, H., and Tokuda, K. (2007). Statistical parametric speech synthesis.
32nd IEEE International Conference on Acoustics, Speech and Signal Processing
ICASSP.
50
REFERNCIAS BIBLIOGRFICAS
Bohlenius, J. (2005). A Speech Synthesis for Classical Latin. Masters thesis, Gteborg
University.
Boldea, M. and Munteanu, C. (1997). Labeling a romanian speech database. Proceedings

of the Second International Workshop Speech and Computer SPECOM97.
Braga, D. (2007). Mquinas falantes: Novos paradigmas da lngua e da lingustica. A

Poltica da Lngua Portuguesa.
Braga, D. and Marques, M. A. (2007). Desambiguao de homgrafos para sistemas de

converso textofala em portugus. Diacrtica 21.1 (Srie Cincias da Linguagem),
pages 2550.
Braga, D. and Mato, X. R. F. (2006). Algoritmos de converso grafemafonema em

galego para sistemas de converso textofala. VIII Congreso Internacional de Estudos
Galegos AIEG Galicia do Outro Lado do Atlntico.
Braga, D. and Resende Jr, F. G. V. (2007). Mdulos de processamento de texto baseados

em regras para sistemas de converso textofala em portugus europeu. XXI Encontro
da Associao Portuguesa de Lingustica.
Braga, D., Freitas, D., and Barros, M. J. (2002). A drt approach for subjective evaluation
of intelligibility in european portuguese synthetic speech. International Conference on
SYSTEMS SCIENCE ICOSYS 2002.
Braga, D., Freitas, D., and Ferreira, H. (2003). Processamento lingustico aplicado
sntese da fala. 3 Congresso LusoMoambicano de Engenharia.
Braga, D., Coelho, L., and Freitas, D. (2005). Transcribing prosody using syntax and
pragmatics. III Congreso de Fontica Experimental 2005.
Braga, D., Coelho, L., and Resende Jr., F. G. V. (2006). A rulebased graphemetophone
converter for tts systems in european portuguese. IEEE Workshop on Spoken Language
Technology SLT 2006.
Braga, D., Silva, P., Ribeiro, M., Henriques, M., and Dia, M. S. (2008). Hmmbased
brazilian portuguese tts. Propor 2008 Special Session: Applications of Portuguese
Speech and Language Technologies.
51
Candeias, S. and Perdigo, F. (2008). Perspectivas sobre a Linguateca / Actas do

encontro Linguateca: 10 anos. Linguateca, chapter 14 Conversor de Grafemas Para
Fones Baseado em Regras Para Portugus. Linguateca.
Chbane, D. T. (1994). Desenvolvimento de Sistema Para Converso de Textos em Fonemas

no Idioma Portugus. Masters thesis, Universidade de So Paulo.
Chen, G. and Han, K.-S. (2004). Letter-to-sound for small-footprint multilingual tts
engine. Interspeech 2004.
Chomphan, S. (2009). Towards the development of speakerdependent and speaker

independent hidden markov modelbased thai speech synthesis. Journal of Computer
Science, 5(12), 905914.
Clark, R. A. J., Richmond, K., and King, S. (2007). Multisyn: Opendomain unit
selection for the festival speech synthesis system. Speech Communication 49.
Coelho, L. and Braga, D. (2008). Adaptive filtering for high quality hmm based speech
synthesis. IEEE Workshop on Spoken Language Technology SLT 2008.
da S. Maia, R., Zen, H., Tokuda, K., Kitamura, T., and Resende Jr., F. G. V. (2003).
Towards the development of a brazilian portuguese texttospeech system based on
hmm. Eurospeech 2003.
da S. Maia, R., Zen, H., Tokuda, K., Kitamura, T., and Resende Jr., F. G. V. (2004).
Influence of part-of-speech tagging, syllabication, and stress on hmm-based brazilian
portuguese speech synthesis. Proc. of Spring Meeting of the Acoustical Society Japan.
da Silva, D. F. M. B. M. (2008). Algoritmos de Processamento da Linguagem Natural

para Sistemas de Converso TextoFala em Portugus. Ph.D. thesis, Facultade de
Filoloxa da Universidade da Corua.
da Silva, F. J. F. (1998). Converso FalaTexto em Portugus do Brasil Integrando

Segmentao SubSilbica e Vocabulrio Ilimitado. Ph.D. thesis, Instituto Tecnolgico
de Aeronautica.
da Silva Maia, R. (2008). Speech Synthesis and Phonetic Vocoding for Brazilian Por-
tuguese Based on Parameter Generation from Hidden Markov Models. Ph.D. thesis,
Nagoya Institute of Technology.
52
da Silva Morais, E. (2006). Algoritmos OPWI e LDMGA para Sistemas de Conver-

so TextoFala de Alta Qualidade Empregando a Tecnologia SCAUS. Ph.D. thesis,
Universidade Estadual de Campinas.
da Silveira Amorim, G. (2010). A monotongao no falar social de feira nova (pe).

Acessado em http://www.faintvisa.com.br/letras/a1.pdf, em 31 de maro de 2010.
Damper, R. I., Marchand, Y., Marsters, J., and Bazin, A. (2005). Can syllabification
improve pronunciation by analogy of english? Natural Language Engineering, pages
125.
David Frontini, M. M. (2006). Neural network-based speech synthesis. Universit degli

Studi di Milano.
de Albuquerque Veloso Azuirson, G. (2009). Investigao da modelagem lingustica e

prosdica e em sistemas de sntese de voz.
de Campos Teixeira Gomes, L. (1998). Sistema de converso textofala para a lngua

portuguesa utilizando a abordagem de sntese por regras. Masters thesis, Universidade
Estadual de Campinas.
de Lima, A. A. (2000). Anlises Comparativas em Sistemas de Reconhecimento de Voz.

Masters thesis, Universidade Federal do Rio de Janeiro.
de Queiroz, R. A. B., Marar, J. F., and Okida, C. M. (2006). Investigao dos coeficientes
cepstrais da frequncia mel para extrao de caractersticas de gneros musicais.
de S. Silva, S., Resende Jr., F. G. V., and Netto, S. L. (2001). A texttospeech system
for the brazilian portuguese based on syllabic units. Proceedings of the IEEE 2nd.
SouthAmerican Workshop on Circuits and Systems.
de vila Othero, G. (2006). Lingustica computacional: uma breve introduo. Letras de

Hoje, 41(2).
Deller, J. R., Proakis, J. G., and Hansen, J. H. L. (1987). Discretetime Processing of

Speech Signals. Prentice Hall.
Demuynck, K., Laureys, T., Wambacq, P., and van Compernolle, D. (2004). Automatic
phonemic labeling and segmentation of spoken dutch. 4th International Conference on
Language Resources and Evaluation.
53
Dutoit, T. (2001). An Introduction to Text-to-Speech Synthesis. Kluwer Academic

Publishers, Norwell, MA, USA.
Faria, A. (2003). Applied phonetics: Portuguese text-to-speech. Technical report,

University of California, Berkeley. Linguistics 110: Prof. Ian Maddieson.
Farrugia, P.-J. (2005). Text to Speech Technologies for Mobile Telephony Services.
Masters thesis, University of Malta.
Fellbaum, K. and Freitas, D. (2007). Towards an inclusive future: Impact and wider poten-
tial of information and communication technologies, chapter 2.2.2 Speech processing.
COST Brussels.
Fraga, F. J. (2001). Converso falatexto para o portugus com segmentao subsilbica

e vocabulrio ilimitado. Revista Cientfica Peridica Telecomunicaes, 4(2).
Freitas, D. and Braga, D. (2002). Towards an intonation module for a portuguese tts
system. ICSLP2002 7th International Conference on Spoken Language Processing.
Gonzalvo, X., Iriondo, I., Socor, J. C., Alas, F., and Monzo, C. (2007). Hmm-based
spanish speech synthesis using cbr as f0 estimator. In NOLISP.
Gouveia, P. D. F., Teixeira, J. P. R., and da Silva Freitas, D. R. (2000). Diviso silbica
automtica do texto escrito e falado. International Conference on Computational
Processing of Portuguese Language (PROPOR2000).
Hain, H.-U. (2000). A hybrid approach for grapheme-to-phoneme conversion based on

a combination of partial string matching and a neural network. Proceedings of the
International Conference on Speech and Language Processing.
Hosn, C., Baptista, L. A., Imbiriba, T., and Klautau, A. (2006). New resources for
brazilian portuguese: Results for graphemetophoneme and phone classification.
International Telecommunications Symposium 2006.
Huang, X., Acero, A., and Hon, H.-W. (2001). Spoken Language Processing: A Guide to
Theory, Algorithm and System Development. Prentice Hall PTR.
International Group of Phoneticians (2009). Speech Assessment Methods Phonetic

Alphabet SAMPA. Acessado em http://www.phon.ucl.ac.uk/home/sampa/index.html,
em 31 de novembro de 2009.
54
Jarifi, S., Pastor, D., and Rosec, O. (2008). A fusion approach for automatic speech
segmentation of large corpora with application to speech synthesis. Speech Communi-
cation 50.
Jelinek, F. (1998). Statistical Methods for Speech Recognition. The MIT Press.
Kacur, J. and Rozinaj, G. (2008). Speech Recognition, Technologies and Applications,

chapter 9 Practical Issues of Building Robust HMM Models Using HTK and SPHINX
Systems. InTeh.
Kim, S.-J., Kim, J.-J., and Hahn, M. (2006). Hmmbased korean speech synthesis system
for handheld devices. IEEE Transactions on Consumer Electronics.
Klatt, D. H. (1987). Review of text-to-speech conversion for english. Journal of the

Acoustical Society of America.
Latsch, V. L. (2002). Um sistema de converso textofala para windows.
Latsch, V. L. (2005). Construo de Banco de Unidades para Sntese de Fala por

Concatenao no Domnio Temporal. Masters thesis, Universidade Federal do Rio de
Janeiro.
Lemmetty, S. (1999). Review of Speech Synthesis Technology. Masters thesis, Helsinki

University of Technology.
Lin, C.-Y., Jang, J.-S. R., and Chen, K.-T. (2005). Automatic segmentation and labeling
for mandarin chinese speech corpora for concatenationbased tts. Computational
Linguistics and Chinese Language Processing.
Maia, R., Zen, H., Tokuda, K., Kitamura, T., and Resende Jr., F. (2006). An hmm
based brazilian portuguese speech synthesizer and its characteristics. Journal of
Communication and Information Systems.
Masuko, T. (2002). HMMBased Speech Synthesis and Its Applications. Ph.D. thesis,
Tokyo Institute of Technology.
Mello, C. A. (2010). Processamento digital de sinais. Techni-

cal report, Universidade Federal de Pernambuco. Acessado em
http://www.cin.ufpe.br/cabm/pds/PDS_completo.pdf, em 22 de Outubro de
2010.
55
Mendes, C. M. D. (2008). Sntese de fala a partir de texto com reduzidos requisitos

computacionais. Ph.D. thesis, Universidade Tcnica de Lisboa.
Miranda e Silva, C. L. (2008). Fala espontnea e leitura oral no portugus do Brasil:

comparao por meio de anlise acstica. Masters thesis, Universidade de So Paulo.
Morais, E. and Violaro, F. (2005). Datadriven texttospeech synthesis. XXII Simpsio

Brasileiro de Telecomunicaes SBrT2005.
Muller, S. M. T. (2006). Adaptao dos Modelos de Markov para um Sistema de Segmen-

tao e Classificao de Sinais de Eletrocardiograma. Masters thesis, Universidade
Federal do Esprito Santo.
Oliveira, C., Moutinho, L. C., and Teixeira, A. (2005). On european portuguese automatic
syllabification. INTERSPEECH 2005.
Pammi, S. C. and Keri, V. (2005). Htktrain: A package for automatic segmentation.

Acessado em http://web.iiit.ac.in/ sathishp/docs/HTKTrain.pdf, em 29 de novembro de
2009.
Petry, A., Zanuz, A., and Barone, D. A. C. (1999). Utilizao de tcnicas de processa-
mento digital de sinais para a identificao automtica de pessoas pela voz. Simpsio
sobre Segurana em Informtica.
Rabiner, L. and Juang, B.-H. (1993). Fundamentals of Speech Recognition. Prentice

Hall.
Rabiner, L. R. (1989). A tutorial on hidden markov models and selected applications in

speech recognition. Proceedings of the IEEE, 77(2), 257286.
Rabiner, L. R. and Juang, B. H. (1986). An introduction to hidden markov models. IEEE

ASSP Magazine, pages 415.
Rajman, M. (2007). Speech and Language Engineering. E P F L Press.
Selmini, A. M. (2008). Sistema Baseado em Regras para o Refinamento da Segmentao

Automtica de Fala. Ph.D. thesis, Universidade Estadual de Campinas.
Silva, D. C., de Lima, A. A., Maia, R., Braga, D., de Moraes, J. F., de Moraes, J. A.,
and Resende Jr., F. G. V. (2006). A rulebased graphemephone converter and stress
determination for brazilian portuguese natural language processing. VI International
Telecommunications Symposium ITS2006.
56
Simes, F. O. (1999). Implementao de um Sistema de Converso TextoFala para o

Portugus do Brasil. Masters thesis, Universidade Estadual de Campinas.
Siravenha, A. C. Q. (2009). Uso de regras fonolgicas com determinao de vogal tnica

para converso grafema fone em portugus brasileiro.
Styger, T. and Keller, E. (1994). Fundamentals of Speech Synthesis and Speech Recog-
nition: Basic Concepts, State of the Art, and Future Challenges, chapter 6 Formant
synthesis, pages 109128. John Wiley.
Tatham, M. and Morton, K. (2005). Developments in Speech Synthesis. John Wiley &
Sons Ltd.
Taucci, R. A. and Bianchini, E. M. G. (2007). Verificao da interferncia das disfunes

temporomandibulares na articulao da fala: queixas e caracterizao dos movimentos
mandibulares. Revista da Sociedade Brasileira de Fonoaudiologia.
Taylor, P. (2005). Hidden markov models for grapheme to phoneme conversion. In

Proceedings of Interspeech 2005.
Taylor, P. (2009). TexttoSpeech Synthesis. Cambridge University Press.
Teixeira, J. P., Freitas, D., Braga, D., Barros, M. J., and Latsch, V. (2001). Phonetic events
from the labeling the european portuguese database for speech synthesis. Eurospeech
2001 Scandinavia.
Teixeira, J. P. R. (1995). Modelizao Paramtrica de Sinais para Aplicao em Sistemas

de Converso TextoFala. Masters thesis, Universidade do Porto.
Tevah, R. T. (2000). Implementao de um Sistema de Reconhecimento de Fala Contnua

com Amplo Vocabulrio para o Portugus Brasileiro. Masters thesis, Universidade
Federal do Rio de Janeiro.
The International Phonetic Association IPA (2005). The International Phonetic Alphabet
IPA. Acessado em http://www.langsci.ucl.ac.uk/ipa/IPA_chart_(C)2005.pdf, em 31
de novembro de 2009.
Tokuda, K., Zen, H., and Black, A. W. (2002). An hmmbased speech synthesis system
applied to english. Proceedings of IEEE Speech Synthesis Workshop SSW 2002.
57
Torres, R. C. (2004). Implementao de um sistema compacto de converso textofala

para o portugus. Masters thesis, Universidade Federal do Rio de Janeiro.
Trancoso, I., Viana, M., and Silva, F. (1994a). On the pronunciation of common lexica
and proper names in european portuguese. 2nd Onomastica Res. Colloq.
Trancoso, I., Viana, M., Silva, F., Marques, G., and Oliveira, L. (1994b). Rule-based
vs. neural network based approaches to letter-to-phone conversion for portuguese
common and proper names. International Conference on Spoken Language Processing
ICSLP94.
Vepa, J. and King, S. (2004). Join Cost for Unit Selection Speech Synthesis. Ph.D.
thesis, The University of Edinburgh. College of Science and Engineering. School of
Informatics.
Vieira, R. and de Lima, V. L. S. (2001). Lingustica computacional: princpios e apli-

caes. IX Escola de Informtica da SBCSul. Luciana Nedel (Ed.) Passo Fundo,
Maring, So Jos.
Vilela, R. R. (????). Processos fonolgicos. Material de aula.
Ynoguti, C. A. (1999). Reconhecimento de Fala Contnua Usando Modelos Ocultos de

Markov. Ph.D. thesis, Universidade Estadual de Campinas.
Yoma, N. B. (1993). Reconhecimento Automtico de Palavras Isoladas: Estudo e

Aplicao dos Mtodos Determinstico e Estocstico. Masters thesis, Universidade
Estadual de Campinas.
Yoshimura, T. (2002). Simultaneous Modeling of Phonetic and Prosodic Parameters,

and Characteristic Conversion for HMMbased TextToSpeech Systems. Ph.D. thesis,
Nagoya Institute of Technology.
Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X. A., Moore, G., Odell,
J., Ollason, D., Povey, D., Valtchev, V., and Woodland, P. (19952006). The HTK book.
E P F L Press.
Zen, H. and Toda, T. (2005). An overview of nitech hmmbased speech synthesis system
for blizzard challenge 2005. Proceedings of Interspeech2005 (Eurospeech).
58
Zen, H., Tokuda, K., Masuko, T., Kobayashi, T., and Kitamura, T. (2007a). Hidden
semimarkov model based speech synthesis. IEICE Transactions on Information
and Systems.
Zen, H., Nose, T., Yamagishi, J., Sako, S., Masuko, T., Black, A. W., and Tokuda,
K. (2007b). The hmmbased speech synthesis system (hts) version 2.0. 6th ISCA
Workshop on Speech Synthesis.
Zen, H., Oura, K., Nose, T., Yamagishi, J., Sako, S., Toda, T., Masuko, T., Black,
A. W., and Tokuda, K. (2009). Recent development of the HMM-based speech
synthesis system (HTS). In Proc. 2009 Asia-Pacific Signal and Information Processing
Association (APSIPA), Sapporo, Japan.
Zucchini, W. and MacDonald, I. L. (2009). Hidden Markov Models for Time Series - An
Introduction Using R. CRC Press.
59
Appendices
60
A
Speech Assessment Methods Phonetic
Alphabet SAMPA
61
Figura A.1 Speech Assessment Methods Phonetic Alphabet SAMPA International Group of
Phoneticians (2009)
62
B
The International Phonetic Alphabet
IPA
63
Figura B.1 The International Phonetic Alphabet IPA The International Phonetic Association
IPA (2005)
64
Regras para determinao de vogal tnica
C
em palavras
Tabela de regras para determinao da vogal tnica em palavras. As que por ventura se
encaixarem em mais de uma regra, a primeira a que vai ser utilizada, pois a tabela est
em ordem de prioridade.
N Regra Exemplos de aplicao

1 Palavras terminadas em dgrafo lh ou nh, galinha, cozinha, zezinho.
seguido por vogal no acentuada, independente
de singular ou plural, a vogal tnica ser a que
anteceder o dgrafo, exceto as monosslabas,
como o lhe, onde a vogal tnica ser a nica
da palavra.
2 Palavras terminadas em dgrafo ln ou nh, senhor, colher, penhora.
seguido por vogal, seguidos por r, seguidos ou
no por a ou e, independente de singular ou
plural a vogal tnica ser a posterior ao dgrafo.
3 Palavras que possuam acentuao grfica, a vo- rfo, joo, garanho.
gal tnica ser esta mesma. Palavras com mais
um tipo de acentuao, prioriza-se o agudo,
seguido pelo circunflexo, e por ltimo o til.
4 Palavra porque, independente de singular ou porque
plural, a vogal tnica ser o e.
65
5 Palavras formadas por vogal, seguida por uma uma, urso, elo.
ou duas consoantes, seguidas por uma outra vo-
gal, independente de singular ou plugal, a vogal
tnica a primeira.
6 Palavras terminadas pela vogal a, seguida ou traiu, caiu, faliu.
no por uma consoante, seguidas por i e u,
a vogal tnica o i.
7 Palavras terminadas em uma consoante, seguida javali, caju, caqui.
pela vogal i ou u, independente de singu-
lar ou plugal, a vogal tnica a que suceder a
consoante.
8 Palavras terminadas em uma consoante, seguida tributo, pluto, bruto.
por vogal, seguidas por uma, duas ou trs outras
consoantes e mais uma vogal, independente de
singular ou plural, a vogal tnica ser a primeira
vogal da expresso.
9 Palavras terminadas por vogal i ou u, coisa, roupa, repouso.
seguida por uma ou duas consoantes, seguidos
por uma outra vogal qualquer, independente de
singular ou plural, a vogal tnica a anterior
expresso.
10 Palavras terminadas com uma ou duas con- nua, suas, tua.
soantes, seguidas de o ou u, seguido de uma
vogal, independente de singular ou plural, a vo-
gal tnica ser a primeira vogal o ou u.
11 Palavras terminadas na vogal u, sem q ou zagueiro, mangueiras,
c como antecedente, seguido de uma ou duas cegueira.
outras vogais, seguidos por uma ou duas outras
letras quaisquer, independente de singular ou
plural, a vogal tnica ser a posterior a primeira
letra u.
66
12 Palavras terminadas em eem ou em, e oo creem, vos, enjoo.
ou o independente de singular ou plural, a
vogal tnica a primeira letra desta expresso.
13 Palavras terminadas em vogal que no seja u, ensaio, saias, balaio.
seguida por uma ou duas outras vogais que tam-
bm no sejam u, seguidas ou no por s ou
m, a vogal tnica a primeira
14 Palavras terminadas em uma vogal que no seja canja, dentes, porta.
i ou u, seguida por uma ou duas consoantes,
seguida por uma outra vogal qualquer, indepen-
dente de singular ou plugal, a vogal tnica a
que anteceder a consoante.
15 Palavras terminadas em vogal que no seja u, freira, azeite, auge.
seguida por vogal i ou u, seguida por uma
ou duas consoantes que no sejam n, seguida
por uma outra vogal qualquer, independente de
singular ou plugal, a vogal tnica a primeira
da expresso.
16 Palavras terminadas em vogal que no seja u, ainda, caindo, fluindo.
seguida por vogal i ou u, seguida por uma
ou duas consoantes, seguida por uma outra vogal
qualquer, independente de singular ou plugal, a
vogal tnica a primeira da expresso.
17 Palavras terminadas por vogal i, o ou u, bombom, pudins, comum.
seguida pelas consoante m ou n, seguidos
ou no pela consoante s, a vogal tnica a
primeira da expresso.
18 Palavras terminadas em r, l, z ou x, a propor, rapaz, durex.
vogal tnica a que anteceder esta letra.
67
19 Palavras terminadas com uma consoante, pneu, grau, graus.
seguida por uma vogal que no seja u, seguida
por uma vogal que no seja e, independente de
singular ou plural, a vogal tnica a que seguir
a consoante.
20 Palavras terminadas com uma vogal, seguida henrique, destaque, choques.
pela expresso que, independente de singular
ou plural, a vogal tnica a inicial da expresso.
21 Palavras terminadas com uma consoante, tanque, palanques, bosque.
seguida pela expresso que, independente de
singular ou plural, a vogal tnica a que ante-
ceder a consoante inicial da expresso.
22 Palavras que no se encaixarem em nenhuma das regras anteriores, verificase
se a primeira vogal da esquerda possui uma outra vogal como vizinha direta.
Em caso positivo, se esta vizinha for a, e ou o, fica sendo esta a vogal
tnica. Caso contrrio, a primeira vogal fica sendo a tnica.
Tabela C.1: Tabela de regras para a determinao da vogal
tnica em palavras
68
Regras para Converso de Grafemas em
D
Fonemas
Smbolo Significado
[a] ou (a) Ocorrncia do caractere a.
C* Ocorrncia de uma consoante, que so: b, d(dZ),
g, v, z, s, x, z, j(Z), r(R) l, lh(L), m, n, nh(J) p,
t(tS), k, c, q, qu, f, s, , x, ch(S)
CSO* Ocorrncia de uma consoante sonora, que so:
b, d, g, v, z, s, x, j(Z), r(R), l, lh(L), m, n, nh(J)
CSU* Ocorrncia de uma consoante, que so: p, t(tS),
k, c, q, qu, f, s, , x, ch(S)
V* Ocorrncia de uma vogal, que so: a, , , ,
(a), e, , (E), i, , i, o, , (O), , o, u, , ,
u, y, w, w.
A* Ocorrncia de uma vogal ou uma consoante.
(a) Ocorrncia da vogal a.
(a) Ocorrncia da vogal a como vogal tnica.
(.)(a) Ocorrncia de qualquer letra antes da vogal a.
(abc) Ocorrncia dos caracteres abc nesta dis-
posio.
(ab)(cd) Ocorrncia dos caracteres ab seguidos por
cd.
69
Smbolo Significado
(ab)[cd] Ocorrncia dos caracteres ab seguidos por c
ou d.
[abc] ou (a|b|c) Ocorrncia de um dos caracteres a, b ou c.
(ALL-{a,b,c}) Ocorrncia de qualquer caractere que no seja
a, b ou c
[VOG&&[a]] Ocorrncia de uma vogal que no seja a.
[(VOG|CONS)]{1,2} Ocorrncia de no mnimo uma e no mximo
duas vogais ou consoantes.
(s)? Ocorrncia opcional da consoante s.
VOG Ocorrncia de uma vogal no incio da palavra.
CON$ Ocorrncia de uma consoante no final da
palavra.
Tabela D.1: Tabela de smbolos utilizados para explicar as
regras de converso de grafema para fonema
N Procurar Trocar Por Exemplo

1 (an)$ (an) a ivan.
2 (am)$ (am) a w andam.
3 (a|)(n)(h) (a) a banho.
4 (a|)(m|n)[(CONS)&&[nh]] (a|)(m|n) a ambiente.
5 (a|)(m|n)(VOG) (a|) a cama.
6 (|) (|) a avio.
7 (a||) (a||) a carro.
Tabela D.2 Regras de converso de grafema para fonema para letra A

1 (b)(s) (b) bj abstrato.
2 (b) (b) b baixo.
Tabela D.3 Regras de converso de grafema para fonema para letra B
70
1 (c)(|e||i) (c) s centro.
2 () () s cachaa.
3 (ch) (ch) S chuva.
4 (c) (c) k casa.
Tabela D.4 Regras de converso de grafema para fonema para letra C

1 (d)(i) (d) dZ dia.
2 (d)(e)$ (d) dZ tarde.
3 (d)(C*-{r,l,h}) (d) dZ advogado.
4 (d)$ (d) dZ raid.
5 (d) (d) d advogado.
Tabela D.5 Regras de converso de grafema para fonema para letra D
71
1 (CON-{m,f})?(e)(s|z)$ (e) E dez.
2 (i)(e)$ (i)(e) (e) superficie.
3 (e)(l)(CON-{h})(e|i)(s)? (e) E rebelde.
4 (e)(l)$ (e) E papel.
5 (|)(e)(s)?$ (e) j me.
6 (a)(e) (e) E aeroporto.
7 (d|t|p|l|s|rr|lm|qu)(e)(i)(a)(s)?$ (e) E plateia.
8 (e)(x)(o|u)(s)?$ (e) E complexo.
9 (e)(m|n)(CON-{h}) (e)(m|n) e embalo.
10 (e)(m|n)(VOG) (e) e tema.
11 (ALL-{qu})(e|)(s)? (e) i canivete.
12 (CON)(e)(CONS-{m,n})(e|i)(s)?$ (e) E mestre.
13 (r|R|s|S|v|m|p|t|d)(e)(CONS+{qu}- (e) E regra.
{m,s,f,d,k,z,j,q,f}){1,2} (VOG)
14 (m|n|l|p|t|b)(e)(k|l|t|v|f) (e) E neto.
15 (CON-{r})(e)(z)(i|a||e)(nh|o|t) (e) E cafezinho.
16 (e)(l)(a|o|u)(s)?$ (e) E martelo.
excees: pel(o|a)(s)?, cabelo(s)?,
modelo(s)?, pesadelo(s)?
17 (e) de pronomes masculinos (e) e aquele.
18 (e) de pronomes femininos (e) E aquela.
19 () () E picol.
20 (e|) (e) e caneta.
Tabela D.6 Regras de converso de grafema para fonema para letra E

1 (f) f f feliz.
Tabela D.7 Regras de converso de grafema para fonema para letra F

1 (g)(|||e|i) g Z geral.
2 (g) g g guerra.
Tabela D.8 Regras de converso de grafema para fonema para letra G

1 (h) h hoje.
Tabela D.9 Regras de converso de grafema para fonema para letra H
72
1 (u)(i)(t) (i) j muito.
2 (V*)(i) (i) j apoio.
3 (i)(V*-{i}) (i) j abstinncia.
4 (i)(m|n)(C*-{h}) (i)(m|n) i timbre.
5 (i)(m|n) (i)(m|n) i time.
6 (i|) (i|) i amigo.
Tabela D.10 Regras de converso de grafema para fonema para letra I

1 (j) (j) Z jiboia.
Tabela D.11 Regras de converso de grafema para fonema para letra J

1 (k) (k) k ktia.
Tabela D.12 Regras de converso de grafema para fonema para letra K

1 (l)(h) (l)(h) L galho.
2 (V*)(l)(C*-{h}) (l) w albino.
3 (l)$ (l) w papel.
4 (l)(i) (l) L livro.
5 (l) (l) l galo.
Tabela D.13 Regras de converso de grafema para fonema para letra L

1 (e|i)(m) (m) j alguem.
2 (m) (m) m maria.
Tabela D.14 Regras de converso de grafema para fonema para letra M

1 (n)(h) (n)(h) J banho.
2 (n) (n) n fernanda.
Tabela D.15 Regras de converso de grafema para fonema para letra N
73
1 (o|) (o|) o ovo.
2 () () O acessrio.
3 () () o organizaes.
4 ()(o) () w mo.
5 (V*-{o})(o)(s)? (o) w inicio.
6 ()(o) ()(o) ow vo.
7 (o)(o) (o)(o) o coordenao.
8 o o.
9 (o)(l)$ (o) O sol.
10 ((o)(sa)(s)?|(o)(sos)) (o) O gostosa.
11 (o)(m|n)(C*-{h}) (o)(m|n) o ombro.
12 (o)(m|n) (o) o omelete.
13 (o)(s)?$ (o) u tempo.
14 o.
15 (o)(r)(g|m|d||s)(V*) o O costa.
(o)(r)(t)(V*-{u})
(o)(r)(n)(V*-{e})
(o)(s)(t)(V*-{e,o,u})
(o)(l)(t)(V*)
(o)(b|g)(r)(V*-{i,o,u})
(o)(c)(r)(V*)
(o)(g)(r)(i)(n)(h)(a)
excees: fora(s)?, acordo(s)?
Tabela D.16 Regras de converso de grafema para fonema para letra O

1 (p)(h) (p)(h) f philipe.
2 (p) (p) p pato.
Tabela D.17 Regras de converso de grafema para fonema para letra P

1 (q)(u)(V*-{a}) (q)(u) k quem.
2 (q)(u|) (q)(u|) kw quando.
Tabela D.18 Regras de converso de grafema para fonema para letra Q
74
1 (n|r)(r) (r)(r) R carro.
2 (n)(r) (r) R honra.
3 (r) (r) R rato.
4 (r)$ (r) R calor.
5 (r)(V*) (r) r pratico.
6 (r)(C*) (r) R barba.
Tabela D.19 Regras de converso de grafema para fonema para letra R
75
1 (t)(r)(a|)(n)(s)(V*) s z trnsito.
2 (b)(s)(V*) (s) z obsquio.
3 (V*-{i})(s) (s) js gs.
4 (s)(h) (s) S show.
5 (V*)(s)(V*-{,}) (s) z casa.
6 (s)(c)(e|i) (s)(c) s crescer.
7 (V*)(s)(C*-{h,s,}) (s) S escola.
8 (s)(s|)? (s)(s|)? s sapo.
Tabela D.20 Regras de converso de grafema para fonema para letra S

1 (th)$ (th) tS Ruth.
2 (t)(C*) (t) tS algoritmo.
3 (t)(i) (t) tS tia.
4 (n)(t)(e)(s)?$ (t) tS show.
5 (t)$ (t) tS bit.
6 (t)(h) (t)(h) t thiago.
7 (t) (t) t trabalho.
Tabela D.21 Regras de converso de grafema para fonema para letra T
76
1 (g|q)(|u)(a) (|u) w guaran.
2 (V*-{u})(u) (u) w aula.
3 (g|q)(|u)(e|i|o) (|u) quem.
4 (u)(nh) (u) u unha.
5 (u)(m|n)(C*-{h}) (u)(m|n) u chumbo.
6 (u)(m|n) (u) u espuma.
7 (u|) (u|) u urbano.
Tabela D.22 Regras de converso de grafema para fonema para letra U

1 (v) (v) v vitria.
Tabela D.23 Regras de converso de grafema para fonema para letra V

1 (x)(c) (x)(c) s exceto.
2 (e)(x)(V*) (x) z xito.
3 (o||a||i|)(x)(o||a||i|) (x) ks oxignio.
4 (a|)(x)(e|i) (x) ks txi.
excees: mximo(s)?
5 (e|E|o|)(x)(a|o||u) (x) ks paradoxo.
6 (i|)(x)(|o) (x) kz ixofagia.
7 (p)(r)(o|)(x)(i) (x) s aproximao.
8 (o|)(x)(i) (x) S txico.
9 (x)$ (x) ks txico.
10 (x) (x) S peixe.
Tabela D.24 Regras de converso de grafema para fonema para letra X

1 (w) (w) w show.
Tabela D.25 Regras de converso de grafema para fonema para letra W

1 (y)(V*) (y) j yanomami.
2 (V*)(y)$ (y) j spray.
3 (y) (y) i tayssa.
Tabela D.26 Regras de converso de grafema para fonema para letra Y
77
1 (V*-{i})(z)$ (z) jS rapaz.
2 (z)$ (z) S giz.
3 (z) (z) z zeca.
Tabela D.27 Regras de converso de grafema para fonema para letra Z
78
Algoritmo de Separao Silbica
E
Algoritmo DivisoSilbica
Entrada f onemas[]: vetor de fonemas da palavra transcrita
Sada f onemasSeparados: palavra transcrita foneticamente dividida em slabas
VOGAIS a,a,e,e,E,i,i,o,o ,O,u,u
SEMIVOGAIS j,j,w,w
VOGAIS_E_SEMI a,a,e,e,E,i,i,o,o,O,u,u,j,j,w,w
VOGAIS_E_SEMI_COM_T IL a,e,i,o,u,j,w
VOGAIS_E_SEMI_SEM_T IL a,e,E,i,o,O,u,j,w
NAOSEPARAV EIS bk,bd,bZ,bs,bS,bt,km,kn,kt,ks,dm,dk,ds,fn,ft,gd,gm,gn,mn,ps,pn,pt,tm,tn
para i de 0 para Tamanho( f onemas[]) faa
se i == 0 ento
letraAnterior ;
letra f onemas[i];
letraSeguinte f onemas[i+1];
seno se i == Tamanho( f onemas)1 ento
letraAnterior f onemas[i-1];
letra f onemas[i];
letraSeguinte ;
seno
letraAnterior f onemas[i-1];
letra f onemas[i];
letraSeguinte f onemas[i+1];
se VOGAIS_E_SEMI_COM_TIL(letra) ento
se VOGAIS_E_SEMI_SEM_TIL(letraAnterior) ento
f onemasSeparados f onemasSeparados + + letra
79
seno
f onemasSeparados f onemasSeparados + letra
seno se VOGAIS(letra) ento
se VOGAIS(letraAnterior) ento
seno
seno se SEMIVOGAIS(letra) ento
se SEMIVOGAIS(letraAnterior) ento
seno
seno
se NAOSEPARAVEIS(letra+letraSeguinte) ento
f onemasSeparados f onemasSeparados + letra + letraSeguinte +

i++
seno
se VOGAIS_E_SEMI(letraAnterior) ento
se VOGAIS_E_SEMI(letraSeguinte) ento
seno
f onemasSeparados f onemasSeparados + letra +
seno
80

Síntese de Fala em Português Brasileiro Baseada em Modelos Ocultos de Markov

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Síntese de Fala em Português Brasileiro Baseada em Modelos Ocultos de Markov

Transféré par

Droits d'auteur :

Formats disponibles

Sntese de Fala em Portugus Brasileiro Baseada em

Modelos Ocultos de Markov

Carlos Francisco Soares de Souza

Universidade Federal de Pernambuco

Carlos Francisco Soares de Souza

Sntese de Fala em Portugus Brasileiro Baseada em

Trabalho apresentado ao Programa de Ps-graduao em

Orientador: Edson Costa de Barros Carvalho Filho

Souza, Carlos Francisco Soares de

Orientador: Edson Costa de Barros Carvalho Filho.

Inclui bibliografia e apndice.

1. Inteligncia artificial. 2. Inteligncia computacional. 3.

006.3 CDD (22. ed.) MEI2010 0189

Palavras-chave: processamento de fala, sntese de fala, modelos ocultos de markov

The technology improvement leads us to an ever closer relationship to computers and

Keywords: speech processing, speech synthesis, hidden markov models

Lista de Siglas xii

3 Modelos Ocultos de Markov no Processamento de Fala 11

A Speech Assessment Methods Phonetic Alphabet SAMPA 60

B The International Phonetic Alphabet IPA 62

C Regras para determinao de vogal tnica em palavras 64

D Regras para Converso de Grafemas em Fonemas 68

E Algoritmo de Separao Silbica 78

2.1 Sintetizador de Fala: viso geral . . . . . . . . . . . . . . . . . . . . . 6

3.1 Propriedade Markoviana . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.1 Ilustrao do texto de uma locuo a ser convertida em Informao

A.1 Speech Assessment Methods Phonetic Alphabet SAMPA . . . . . . . 61

B.1 The International Phonetic Alphabet IPA . . . . . . . . . . . . . . . . 63

4.1 Conjunto de fonemas utilizados, de acordo com o SAMPA International

C.1 Tabela de regras para a determinao da vogal tnica em palavras . . . . 67

D.1 Tabela de smbolos utilizados para explicar as regras de converso de

GPS Global Position System

HMM Hidden Markov Model

HMM Hidden Markov Model Toolkit

HTS Hidden Markov Model Based Speech Synthesis System

MFCC Mel-scale Frequency Cepstral Coefficient

MLSA Mel Log Spectrum Approximation

LPC Linear Predictive Coding

TTS Text To Speech

PDF Probability Density Function

categoria de 1936, quando a empresa U.K. Telephone Company lanou um relgio

A utilizao da fala como interface em sistemas computacionais segue uma tendncia

1. Determinao da slaba tnica em palavras.

2. Converso de grafemas em fonemas.

3. Separador silbico de palavras transcritas foneticamente.

Aprimoramentos sero buscados atravs da melhoria da qualidade da base de dados

Figura 2.1 Sintetizador de Fala: viso geral.

2.1 Analise Textual

O SEGREDO DO SUCESSO O ESFORO.

claramente identificado o limite de cada palavra a ser analisada, o espao em branco,

no possuem esta caracterstica. Entretanto, nem todas as frases so simples de serem

A PARTIR DE 1 DE FEVEREIRO DE 2010, O DR. FABRCIO APENAS ATEN-

Onde a presena do caractere especial aps a primeira ocorrncia do numeral 1

2.2 Analise Fontica

O dicionrio auxiliar citado na seo anterior, tambm chamado de Lxico, tem um

Formas flexionadas de termos;

Detalhes sobre acrnicos, incluindo todas as informaes dos itens anteriores;

Anlise morfolgica, assim como atributos sintticos e semnticos;

Qualquer outra informao que complemente as listadas acima podem integrar um

2.3 Anlise Prosdica

A transcrio fontica trata apenas da determinao da sequncia de fonemas que ir

Pausas: indicam frases e evitam ficar sem flego ao falar.

t (i)t (i) t (i)t (i)