Vous êtes sur la page 1sur 18

______________________ Captulo 2 ______________________ Produo de Fala

Os sinais de fala so compostos por uma sequncia de sons ou segmentos fonticos, regulados pelas regras da lngua e pelas caractersticas do orador. Para entender, sintetizar, reconhecer ou, de um modo geral, processar os sinais de fala, necessrio perceber o mecanismo da sua produo. Neste captulo, discutiremos brevemente a produo da fala e caracterizaremos os sons produzidos, restringindo a discusso aos sons do Portugus Europeu. Uma discusso aprofundada em termos fonticos e lingusticos est fora dos objectivos deste texto, mas o conhecimento acerca da estrutura do sinal, ou seja, da forma como a informao est inserida no sinal, importante antes que se proceda ao estudo sobre os modelos de anlise e sntese e das suas aplicaes em codificao, sntese e reconhecimento de fala.

12

2-Produo de Fala

2.1 O processo de produo de fala


O aparelho fonador humano, apresentado na figura 2.1, o primeiro bloco na cadeia da comunicao falada. Aps a inalao do ar nos pulmes, os sinais de fala so produzidos durante a fase de exalao (a produo de fala durante a fase de inalao extremamente rara). Este fluxo de ar, depois da eventual vibrao das cordas vocais situadas na laringe, excita o tracto vocal constitudo pela faringe, cavidade bucal, lngua, lbios e dentes. Para produo de sons nasalados o vu palatino abre, pelo que o ar depois de passar pelo tracto nasal radiado pelas narinas.

Figura 2.1 Aparelho fonador humano (Adaptado de [Deller (93)]).

O processo de produo de fala

13

2.1.1 Vozeamento
Os sinas de fala so gerados com ou sem vibrao das cordas vocais. Os sons produzidos sem vibrao das cordas vocais so designados de no vozeados, enquanto os sons produzidos com vibrao das cordas vocais, ou seja atravs da abertura e fecho da glote (espao entre as cordas vocais), so designados de vozeados. Nas zonas vozeadas, medida que as cordas vocais vibram, estas fazem variar o grau de abertura da glote e consequentemente o volume de ar proveniente dos pulmes que passa atravs dela. esta variao peridica na velocidade de volume na glote que vai excitar o tracto vocal, produzindo sons com harmnicas da frequncia de vibrao das cordas vocais, ou seja, da frequncia fundamental (F0), habitualmente designada por frequncia de pitch. Nas zonas no vozeadas a glote mantm-se aberta e o ar proveniente dos pulmes, ao passar com suficiente velocidade por uma constrio do tracto vocal, produz sons com turbulncia. A frequncia fundamental depende da dimenso e espessura da glote. Para oradores do gnero masculino, a gama de vibrao das cordas vocais situa-se nos 50-250 Hz, enquanto para oradores do gnero feminino essa gama situa-se nos 120-300 Hz, podendo chegar aos 500 Hz para as crianas. Um orador pode ser caracterizado atravs da sua frequncia fundamental mdia, com variaes naturais dependentes da entoao, stress e emoo. normal um orador apresentar uma variao que pode atingir em fala natural uma oitava (e.g., 80-160 Hz para um orador masculino), podendo atingir 2 oitavas no caso de fala forada ou cantada. Variaes mais acentuadas requerem um esforo fsico considervel. A figura 2.2 apresenta a forma de onda de um segmento vozeado /e/ e de um segmento no vozeado /s/, ditos por um orador do gnero masculino e por um orador do gnero feminino. So

14

2-Produo de Fala

ainda apresentados os respectivos espectrogramas, ou seja grficos tempo versus frequncia, em que a intensidade em cada ponto d informao da energia associada a cada frequncia num instante de tempo determinado. Pode-se verificar o maior valor da frequncia fundamental para o orador feminino em relao ao orador masculino e a correspondente melhor definio em frequncia, j que as harmnicas se encontram mais espaadas.
/e/ - orador masculino
4000 3000 4000 3000

/s/ orador masculino

Hz

2000 1000 0 0 0.2 0.1 0.005 0.01 0.015 0.02 0.025 0.03

Hz

2000 1000 0 0 0.01 0.005 0.005 0.01 0.015 0.02 0.025 0.03

Amp

0 -0.1 -0.2

Amp /e/ orador feminino

0 -0.005 -0.01

/s/ orador feminino


4000 3000

4000 3000

Hz

2000 1000 0 0 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 0.005 0.01 0.015 0.02 0.025 0.03

Hz

2000 1000 0 0 0.01 0.005 0.005 0.01 0.015 0.02 0.025 0.03

Amp

Amp ms

0 -0.005 -0.01

ms

Figura 2.2 Representao temporal e respectivo espectrograma de um segmento fontico vozeado /e/ e de um segmento no vozeado /s/, dito por um orador masculino e outro feminino.

Devido vibrao das cordas vocais que pode ser modelada por um plo duplo muito perto da frequncia zero, as zonas vozeadas tm uma caracterstica passa-baixo. As zonas no vozeadas apresentam em geral maior energia nas altas frequncias que as zonas vozeadas.

O processo de produo de fala

15

2.1.2 Formantes
A produo de fala pode ser vista como uma operao de filtragem, na qual uma fonte de som excita o tracto vocal e/ou o tracto nasal. Nas zonas vozeadas a excitao peridica, sendo do tipo ruidosa e aperidica nas zonas no vozeadas. Em qualquer dos casos o tracto vocal, actuando como um filtro, amplifica algumas zonas do espectro, atenuando outras. As zonas amplificadas correspondem s zonas de ressonncia, definidas por uma frequncia central, por uma largura de banda e por uma energia. A frequncia central da ressonncia denominada por frequncia do formante, ou simplesmente, formante. Os formantes so normalmente representadas por F1, F2, F3,...., comeando pela frequncia mais baixa. A posio do tracto vocal, especialmente para as vogais, determina os formantes e deste modo o som produzido.
70 65 60 55 Periodograma [dB] 50 45 40 35 30 25 20 0 0.5 1 1.5 2 2.5
f [KHz]

3.5

Figura 2.3 Periodograma e respectiva envolvente espectral de uma trama (20 ms) de um segmento fontico correspondente a um /i/, produzido por um orador masculino. (F1=266 Hz, F2=2044Hz, F3=2711Hz, F4=3422Hz).

16

2-Produo de Fala

A figura 2.3 ilustra um exemplo do periodograma e respectiva envolvente espectral de um segmento fontico correspondente vogal /i/, produzido por um orador masculino. Os mximos locais da envolvente espectral correspondem aos formantes, podendo verificar-se na gama de frequncias apresentada (0-4 kHz), a ocorrncia de 4 formantes. A presena de riscas espectrais (harmnicas da frequncia fundamental), embora esbatidas pelo efeito da utilizao da janela rectangular de 20 ms utilizada para definir a trama, deve-se produo deste segmento com vozeamento. ainda visvel o declive espectral que atenua as altas frequncias, tpico das zonas vozeadas.

2.2 Classificao fontica


Os segmentos fonticos, para alm de se distinguirem pela presena ou ausncia de vozeamento, so ainda diferenciados por classes (vogais, glides, oclusivas, fricativas, nasais e lquidas), dependendo do modo de articulao. Dentro de cada classe os segmentos fonticos distinguem-se ainda pelo ponto de articulao no tracto vocal. Para representar cada um dos segmentos fonticos utilizado um alfabeto fontico, sendo o mais conhecido o alfabtico fontico internacional (IPA - International Phonetic Alphabet). Este alfabeto utiliza no entanto caracteres normalmente no imprimveis, pelo que utilizaremos o alfabeto fontico SAMPA (SAM Phonetic Alphabet) adoptado pelo projecto SAM (Speech Assessment Methods) [SAM (92)] e utilizado nomeadamente para transcrever a verso para o Portugus Europeu do sub-corpus1 de fala EUROM.1 [Meneses (93)]. Na tabela 2.1 so apresentados os subconjuntos dos alfabetos IPA e SAMPA necessrios para representar o Portugus Europeu.

corpus: base de dados de sinais de fala, utilizado na investigao e desenvolvimento das aplicaes em processamento de fala.

Classificao fontica

17

Vogais e Glides
Classe Smbolo Smbolo IPA SAMPA a e i o u e i u w j w j 6 a e E @ i o O u 6 e i o u w j w j Palavra Transcrio Posio da Altura da SAMPA lngua na elevao da cavidade bocal lngua mdia mdia cama k6m6 baixa mdia cara kar6 mdia anterior pra per6 baixa anterior sete sEt@ alta mdia que k@ alta anterior fita fit6 mdia posterior dou do baixa posterior corda kOrd6 alta posterior mudo mudu mdia mdia manta m6t6 mdia anterior menta met6 alta anterior pinta pit6 mdia posterior ponta pota alta posterior mundo mudu alta posterior pau paw alta anterior pai paj alta posterior co k6w alta anterior me m6j

Vogais

Glides

Consoantes
Smbolo Smbolo IPA SAMPA Oclusivas p p0,p t t0,t k k0,k b b0,b d d0,d g g0,g Fricativas f f s s S v v z z Z 3 Nasais m m n n J N Lquidas l l l L R R R r Silncio sil Classe Presena de Vozeamento no no no sim sim sim no no no sim sim sim sim sim sim sim sim sim sim Ponto de articulao bilabial apicodental velar bilabial apicodental velar labiodental apicodental palatal labiodental apicodental palatal bilabial apicodental palatal apicodental velar palatal velar apicodental Palavra Transcrio SAMPA pai p0paj tia t0ti6 casa k0k6za bar b0bar data d0dat6 gato g0gatu frias fErj6S selo selu chave Sav@ vaca vak6 azul 6zul agir 6Zir meta mEt6 neta nEt6 senha s6J6 lado sal folha carro caro ladu sal foL6 kaRu karu

Tabela 2.1 Alfabetos IPA e SAMPA de descrio do Portugus Europeu e caracterizao dos respectivos segmentos fonticos pela presena de vozeamento, tipo e posio de articulao no tracto vocal.

18

2-Produo de Fala

Naturalmente estes segmentos fonticos no ocorrem com a mesma frequncia. Meneses estima a frequncia de ocorrncia de cada um dos segmentos fonticos a partir de um corpus de sinais de fala de 32 minutos, correspondente a 8 oradores. Os valores estimados das frequncias de ocorrncia so apresentados na tabela 2.2, sendo o segmento fontico com maior ocorrncia a vogal /6/ com 8%, seguido do segmento /r0/ com 5%. O segmento menos frequente o /L/ com apenas 0,2%. SF FrqOcurr SF 6 0,0847 e r0 0,0515 e t 0,0490 l t0 0,0487 Z a 0,0406 E i 0,0403 @ u 0,0380 O r 0,0379 o d0 0,0369 D d 0,0331 f s 0,0325 R S 0,0312 b0 m 0,0294 w k0 0,0294 l k 0,0292 i N 0,0262 g0 p0 0,0249 J p 0,0248 w n 0,0191 j j 0,0188 u v 0,0179 b 6 0,0170 g z 0,0163 L o 0,0155 FrqOcu 0,0151 0,0150 0,0147 0,0143 0,0129 0,0114 0,0112 0,0104 0,0101 0,0094 0,0094 0,0081 0,0078 0,0076 0,0068 0,0053 0,0053 0,0050 0,0047 0,0046 0,0043 0,0038 0,0023

Tabela 2.2 Estimativas [Meneses (2000-a)] das frequncias das ocorrncias (FrqOcu) dos segmentos fonticos (SF), obtidas em 32 minutos de fala, correspondentes a 8 oradores (4 masculinos e 4 femininos).

Classificao fontica

19

2.2.1 Vogais
Os sons correspondentes s vogais so normalmente vozeados e produzidos com o tracto vocal numa forma fixa. Existem em Portugus Europeu 9 vogais no nasais (/6/, /a/, /e/, /E/, /@/, /i/, /o/, /O/, /u/) e 5 vogais nasais (/6/, /e/, /i/, /o/, /u/). As vogais tm normalmente uma durao maior do que as glides e consoantes e uma melhor definio em frequncia. Em Portugus Europeu, contudo, assiste-se frequentemente ao fenomeno denominado de reduo voclica, caracterizado pela diminuio de energia e durao, ou mesmo supresso, de um segmento voclico. A figura 2.4 ilustra o grfico do valor mdio do primeiro formante (F1) funo do valor mdio do segundo formante (F2), para cada vogal no nasal em Portugus Europeu, obtidos de nove palavras lidas por nove oradores [Martins (88)]. O tringulo correspondente s vogais /a/, /i/, /u/, normalmente designado por triangulo das vogais.

Figura 2.4 O tringulo das vogais. Grfico de F1 em funo de F2, para as vogais em Portugus Europeu.

20

2-Produo de Fala

A tabela 2.3 lista os valores mdios dos formantes para as vogais, j ilustrados na figura 2.4, e respectivos desvios padro. Estes valores podem ser comprovados atravs dos espectrogramas apresentados na figura 2.5, nos quais so visveis formantes que correspondem s zonas mais escuras ao longo do tempo. Como se verifica, esta uma caracterizao importante das vogais.
/t-6+t/
4000 3000 4000 3000

/t-e+t/
4000 3000

/t-o+t/

Hz

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.2

-0.3 0 0.2

-0.3

-0.3 0 0.2

/t-a+t/
4000 3000 4000 3000

/t-E+t/
4000 3000

/t-O+t/

Hz

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.05 0.1 0.15 0.2

-0.3 0 0.05 0.1 0.15 0.2

-0.3

-0.3 0 0.05 0.1 0.15 0.2

ms

ms

ms

/t-i+t/
4000 3000 4000 3000

/t-@+sil/
4000 3000

/t-u+t/

Hz

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.05 0.1 0.15 0.2

-0.3 0 0.05 0.1 0.15 0.2

-0.3

-0.3 0 0.05 0.1 0.15 0.2

ms

ms

ms

Figura 2.5 Espectrogramas e ondas acsticas das vogais em P.E. no contexto /t-vogal-t/ (@ no contexto /t-@+sil/).

Classificao fontica

21

Formante F1 F2

Segmento 6 a e E i o fontico Valor Mdio 511 624 403 501 294 426 56 78 40 46 37 46 Varincia Valor Mdio 1602 1325 2084 1893 2344 864 Varincia 205 157 187 155 139 111

O 531 57 994 81

u 315 45 678 124

Tabela 2.3 Valor mdio e desvios padro das frequncias dos formantes para as vogais em Portugus Europeu. (Adaptado de [Martins (88)])

Nestes grficos, desde que o espectro localizado seja calculado com suficiente resoluo, possvel verificar quer a estrutura harmnica quer a posio (grosso modo) dos formantes.

/t-6~+t/
4000 3000 4000 3000

/t-e~+t/
4000 3000

/t-i~+t/

Hz

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.05 0.1 0.15 0.2

-0.3 0 0.2

-0.3

-0.3 0 0.2

/t-o~+t/
4000 3000 4000 3000

/t-u~+t/

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Amp

Amp
0 0.05 0.1 0.15 0.2

-0.3

-0.3 0 0.05 0.1 0.15 0.2

ms

ms

Figura 2.6 Espectrogramas e ondas acsticas das vogais nasais em P.E. no contexto /t-vogal-t/.

22

2-Produo de Fala

2.2.2 Glides
As glides ou semi-vogais, /w/ e /j/, e os respectivos sons nasalados /w/ e /j/, ocorrem em Portugus Europeu simultaneamente com uma vogal que lhe precede ou procede, formando ditongos, em que h transio dos formantes entre dois valores, correspondentes aos dois sons do ditongo. As glides podem ser vistas como vogais com maior constrio e menor durao que as vogais respectivas (/w/:/u/, /j/:/i/).

/a-j+6/
4000 3000 4000 3000

/a+w +6/

Hz

2000 1000 0 0 0.3 0.2 0.1 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.2 0.1 0.05 0.1 0.15 0.2

Amp

0 -0.1 -0.2 0 0.2

Amp

0 -0.1 -0.2 0 0.2

/6~-j~+sil/
4000 3000 4000 3000

/6~+w ~+sil/

Hz

2000 1000 0 0 0.3 0.2 0.1 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.2 0.1 0.05 0.1 0.15 0.2

Amp

0 -0.1 -0.2 0 0.05 0.1 0.15 0.2

Amp

0 -0.1 -0.2 0 0.05 0.1 0.15 0.2

ms

ms

Figura 2.7 Espectrogramas e ondas acsticas das glides em P.E. no contexto /a-glide-6/ ou /a-glide nasal-sil/.

Classificao fontica

23

2.2.3 Oclusivas
As oclusivas so sons produzidos pela constrio total do tracto vocal (zona de ocluso), seguida da libertao da presso acumulada (zona de exploso). As diferentes oclusivas so distinguidas atravs do ponto em que se d a ocluso e da presena (/b/, /d/, /g/) ou ausncia (/p/, /t/, /k/) de vozeamento. Estas ltimas apresentam uma zona de ocluso com um silncio quase total, enquanto os segmentos oclusivos vozeados mantm a periodicidade dos segmentos vizinhos. Uma vez que as zonas de ocluso e de exploso exibem caractersticas bastante distintas, o alfabeto SAMPA foi estendido de modo a distingui-las, sendo a zona de ocluso definida colocando um 0 aps o smbolo que representa a exploso (e.g., /p0/ para a zona de ocluso e /p/ para a zona de exploso).
/a-p+6/
4000 3000 4000 3000

/a-t+6/
4000 3000

/a-k+6/

Hz

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.2

-0.3 0 0.2

-0.3

-0.3 0 0.2

/a-b+6/
4000 3000 4000 3000

/a-d+6/
4000 3000

/a-g+6/

Hz

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.3 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.05 0.1 0.15 0.2

-0.3 0 0.05 0.1 0.15 0.2

-0.3

-0.3 0 0.05 0.1 0.15 0.2

ms

ms

ms

Figura 2.8 Espectrogramas e ondas acsticas das oclusivas em P.E. no contexto /a-oclusiva-6/

24

2-Produo de Fala

2.2.4 Fricativas
As fricativas so produzidas com uma constrio do tracto vocal, que d origem a turbulncia. As fricativas podem ser distinguidas atravs do ponto de constrio e da presena (/v/, /z/, /Z/) ou ausncia (/f/, /s/, /S/) de vozeamento. No entanto as fricativas vozeadas, devido presena de turbulncia, tm na realidade uma componente no peridica, sendo consideradas como tendo excitao mista. Uma das caractersticas das fricativas, contrariamente maioria das outras classes fonticas, a grande energia contida nas altas frequncias, pelo que podem perder a inteligibilidade quando filtradas passa-baixo (e.g., atravs de um canal telefnico). Tal como as oclusivas, as fricativas tm uma intensidade bastante mais baixa que as vogais.
/a-f+6/
4000 3000 4000 3000

/a-s+6/
4000 3000

/a-S+6/

Hz

Hz

2000 1000 0 0 0.15 0.05 0.1 0.15 0.2

2000 1000 0 0 0.15 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.15 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.2

-0.15 0 0.2

-0.15

-0.15 0 0.2

/a-v+6/
4000 3000 4000 3000

/a-z+6/
4000 3000

/a-Z+6/

Hz

Hz

2000 1000 0 0 0.15 0.05 0.1 0.15 0.2

2000 1000 0 0 0.15 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.15 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.05 0.1 0.15 0.2

-0.15 0 0.05 0.1 0.15 0.2

-0.15

-0.15 0 0.05 0.1 0.15 0.2

ms

ms

ms

Figura 2.9 Espectrogramas e ondas acsticas das fricativas em P.E. no contexto /a-fricativa-6/

Classificao fontica

25

2.2.5 Nasais
As nasais /m/, /n/, /J/ so produzidas com vibrao das cordas vocais e com o tracto vocal totalmente fechado num ponto ao longo da cavidade bucal. Adicionalmente o vu palatino baixa e, consequentemente, o ar proveniente dos pulmes radiado atravs das narinas. A cavidade bucal embora fechada mantm-se acoplada faringe e cavidade nasal, resultando uma anti-ressonncia, ou seja um zero em termos espectrais, muitas vezes dominante e cuja frequncia inversamente proporcional dimenso da constrio da cavidade bucal, ocorrendo a uma frequncia menor para o /m/ e maior para o /J/. Dada a ocluso do tracto vocal, estes segmentos so tambm designados de oclusivos nasais. Quando um segmento fontico nasalado, quer este seja uma consoante nasalada ou seja uma vogal ou glide nasalada, precede uma oclusiva a nasalidade pode-se prolongar para a zona de ocluso. Uma extenso do alfabeto SAMPA utiliza o smbolo /N/ para marcar esta variante da ocluso, com caractersticas diversas de uma zona de ocluso sem a nasalidade activa. tambm normal que durante uma vogal que preceda uma oclusiva nasal o vu palatino baixe, causando a nasalidade da vogal.
/a-m+6/
4000 3000 4000 3000

/a-n+6/
4000 3000

/a-J+6/

Hz

Hz

2000 1000 0 0 0.2 0.05 0.1 0.15 0.2

2000 1000 0 0 0.2 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.2 0.05 0.1 0.15 0.2

Amp

Amp

Amp
0 0.2

-0.2 0 0.2

-0.2

-0.2 0 0.2

Figura 2.10 Espectrogramas e ondas acsticas das nasais em P.E. no contexto /A-nasal-6/

26

2-Produo de Fala

2.2.6 Lquidas
As lquidas tm espectros que tal como as vogais tm uma estrutura marcada de formantes, embora com uma menor energia. Estas dividem-se em laterais (/l/, /l/ e /L/), e vibrantes (/r/ e /R/). As laterais so pronunciadas com obstruo do fluxo de ar no tracto vocal provocada pela lngua, com o ar a passar por ambos os seus lados. As lquidas /l/ e /l/ (l-velarizado) tm o mesmo ponto de articulao, mas o /l/ ocorre apenas em final de slaba. A vibrante /R/ (r mltiplo) produzida com a lngua a vibrar, atingindo repetidamente o velo. No caso do /r/ (r simples), este produzido com apenas um toque da lngua nos alvolos dentrios. Estes segmentos tm contudo uma grande variabilidade, podendo ou no ser vozeados e fricatizando em alguns casos.
/a-l+6/
4000 3000 4000 3000

/a-r+6/

Hz

2000 1000 0 0 0.25 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.25 0.05 0.1 0.15 0.2

Amp

Amp
0 0.2

-0.25

-0.25 0 0.2

/a-L+6/
4000 3000 4000 3000

/a-R+6/

Hz

2000 1000 0 0 0.25 0.05 0.1 0.15 0.2

Hz

2000 1000 0 0 0.25 0.05 0.1 0.15 0.2

Amp

Amp
0 0.05 0.1 0.15 0.2

-0.25

-0.25 0 0.05 0.1 0.15 0.2

ms

ms

Figura 2.11 Espectrogramas das lquidas em P.E. no contexto /A-lquida-6/.

Coarticulao

27

2.3 Coarticulao
Como se pode verificar nas zonas vozeadas ilustradas na figura 2.2, os perodos glotais no so exactamente iguais, sendo as variaes da forma de onda causadas quer pela evoluo lenta do tracto vocal, quer por diferenas de energia. A fala no na realidade uma sequncia de sons bem definidos, com uma mudana brusca entre estes, mas antes a transio entre um par de segmentos fonticos produz-se de forma gradual, exibindo o sinal pequenas variaes das caractersticas de um som para o do som procedente, efeito denominado de coarticulao. De notar, contudo, que a fala contm outra informao para alm da simples sequncia de sons e respectiva coarticulao, uma vez que os ouvintes podem inferir a identidade do orador, o seu gnero e idade, estado de alegria ou tristeza e as suas emoes.

2.4 Transcrio Fontica


Para o desenvolvimento de sistemas de processamento de fala frequentemente necessrio traduzir uma onda acstica nos sons produzidos, processo denominado de transcrio fontica. Este processo produz a sequncia de smbolos fonticos e respectivas marcas temporais, utilizando para tal um alfabeto fontico. Como exemplo, a figura 2.12 apresenta uma forma de onda da frase e a chuva no bate assim, a que corresponde a transcrio fontica utilizando o alfabeto SAMPA /sil j 6 S u v 6 n 6w N b0 b a t0 t 6 s i sil/. Transcrever foneticamente uma frase uma tarefa de realizao difcil, devendo ser efectuada manualmente por um especialista em fontica, recorrendo anlise da onda acstica, ao espectrograma e audio do trecho correspondente. A marcao das fronteiras pode no entanto ser auxiliada por um reconhecedor fontico que force o

28

2-Produo de Fala

alinhamento entre a onda acstica e a sequncia fontica [Meneses (96)]. Na maioria das vezes resta ao transcritor manual apenas introduzir pequenas correces nas fronteiras entre segmentos.
e a chuva no bate assim 4000

3500

3000

2500

Hz

2000

1500

1000

500

0 0 0.2 0.4 0.6 ms 0.8 1 1.2 1.4

Figura 2.12 Onda acstica e respectiva segmentao e transcrio fontica, correspondente frase e a chuva no bate assim, produzida por um orador masculino.

Um outro nvel de anotao mais simples a transcrio fontica larga, derivada apenas da transcrio ortogrfica de determinada frase, no tendo associada uma onda acstica. O termo larga provm do facto de a sequncia fontica produzida corresponder muito de perto ortografia, ocorrendo variaes para determinada realizao, nomeadamente devido coarticulao e reduo voclica.

Vous aimerez peut-être aussi