Académique Documents
Professionnel Documents
Culture Documents
Tese apresentada a Faculdade de Engenharia Eletrica e de Computac~o da Universidade Estadual de Campinas a - UNICAMP, como parte dos requisitos exigidos para a obtenc~o do t tulo de DOUTOR EM ENGENHARIA a ELETRICA.
DEZEMBRO - 1997
M366a
Martins, Jose Ant^nio o Avaliac~o de diferentes tecnicas para reconhecimento a de fala / Jose Ant^nio Martins.{Campinas, SP: s.n.], o 1997. Orientador: Fabio Violaro. Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computac~o. a 1. Reconhecimento automatico da voz. 2. Reconhecimento de padr~es. 3. Reconhecimento de o palavras. 4. Redes neurais (Computac~o). 5. Markov, a Processos de. I. Violaro, Fabio. II. Universidade Estadual de Campinas. Faculdade de Engenharia Eletrica e de Computac~o. III. T tulo. a
Resumo
Neste trabalho s~o avaliadas as seguintes tecnicas empregadas em reconhecimento a de fala: Modelos Ocultos de Markov (Discreto, Semicont nuo e Cont nuo), redes \ Multilayer Perceptron " e Sistemas H bridos. Para essa avaliac~o, foram implea mentados varios reconhecedores de palavras isoladas independentes do locutor, sendo usada a mesma base de dados para todos os reconhecedores. O objetivo dessa avaliac~o e identi car as vantagens e desvantagens de cada tecnica de modo a facilia tar a escolha da tecnica mais apropriada para cada aplicac~o de reconhecimento de a fala considerando diversos aspectos como taxa de acerto, tempo de reconhecimento, tempo de treinamento, quantidade de par^metros, tipo de algoritmo e outros. a Reconhecedores implementados empregando as tecnicas descritas tambem foram utilizados para avaliar algoritmos para detecc~o de in cio/ m de palavras, varios tipos a de medidas de distorc~o usados em quantizac~o vetorial e diferentes par^metros a a a utilizados para representar o sinal de fala. Entre esses par^metros mostrou-se que a existe uma superioridade dos par^metros calculados usando uma escala n~o linear de a a frequ^ncias, independentemente da tecnica empregada nos reconhecedores. Discutee se tambem o uso da subtrac~o da media espectral e diferenciac~o, as quais melhoram a a o desempenho dos reconhecedores. Combinando diferentes par^metros conseguiu-se a obter uma taxa de acertos de 99:47% para um reconhecedor de palavras isoladas independente do locutor e um vocabulario de 50 palavras.
Abstract
This work presents an evaluation of speaker independent isolated word recognizers using Hidden Markov Models (Discrete, Continuous and Semicontinuous), Arti cial Neural Networks (Multilayer Perceptron) and Hybrid Systems. All the recognizers were evaluated considering the same database. The goal of these comparisons is to identify the advantages and disadvantages of each technique used in speech recognition, considering the following features: training and recognition time, recognition accuracy, complexity of algorithms and others. It is also reported the result of a comparison among di erent algorithms used in word endpoints detection. Moreover, several distance measures employed in vector quantization were evaluated with regard to recognition performance. In addition, di erent kinds of parameters used to represent the speech signal such as LPC coe cients, Mel Frequency Cepstrum coefcients, PLP coe cients were considered in the evaluation of recognizers and it was discussed the efects of cepstral mean subtraction in order to improve the recognition accuracy. The best recognizer performance of 99.47% was obtained combining di erent features.
Agradecimentos
Ao meu orientador Professor Doutor Fabio Violaro, meu grande agradecimento pela orientac~o, dedicac~o, paci^ncia, encorajamento, compreens~o e discuss~es a a e a o tecnicas sem as quais n~o seria poss vel a realizac~o deste trabalho. a a Agradeco ao Dr. Jose Sindi Yamamoto que possibilitou o meu ingresso na area de reconhecimento de fala. Meus agradecimentos aos pesquisadores Fernando C. Tofoli Queiroz e Renato Marche pelo apoio e ajuda na aquisic~o da base de dados, aos pesquisadores Fera nando Oscar Runstein e Eliana De Martino pelo apoio e discuss~es tecnicas que em o muito contribu ram para o desenvolvimento deste trabalho e tambem as pesquisadoras Flavia Martinho Ferreira Rocha e Margarete Mitiko Iramina pelo incentivo e grande apoio nos momentos dif ceis. Eu sou muito grato ao Grupo de Suporte em Informatica do Departamento de Redes de Telecomunicac~es do CPqD/TELEBRAS, Eneas Jorge da Cruz, Gerson o Marconi e Jose Flavio dos Santos que sempre resolveram com muita e ci^ncia todos e os meus problemas computacionais. Gostaria de agradecer ao pesquisador Ralph Robert Heinrich, gerente do departamento de Redes de Telecomunicac~es do CPqD/TELEBRAS e ao pesquisador o Eduardo Moreno Marques, gerente da Sec~o de Acesso Radio do CPqD/TELEBRAS, a pelo apoio e incentivo para que esse trabalho fosse realizado. Aos companheiros de trabalho da Sec~o de Acesso Radio do CPqD/TELEa BRAS, agradeco pelo apoio, colaborac~o, toler^ncia e compreens~o diante do meu a a a enorme uso das estac~es de trabalho e espaco em disco. Eu sou muito grato ao o ^ Delson, Dinho, Cassio, Claudio, Enio, Feris, Fio, Flavio, Geraldo G., Geraldo L., Henrique, Idelma, Ivonete, Ivan, Jadir, Jaime, Julio, Omar, Paulo, Pedro, Petry, Renato, Shinoda, Wander e Zu o. Tambem gostaria de agradecer ao pesquisadores Argemiro O. Sousa Filho, Claudia Povoas Schmidt, Jo~o Luis Alves Mendes e Roberto Y. Nakamura pelo a apoio, incentivo, toler^ncia e compreens~o pelo monopolio da estac~o de trabalho. a a a Os meus agradecimentos aos amigos do Grupo de Processamento de Fala do Forschungs Institut (FI 13) da Deutsche Bundespost Telekom, pelo apoio e discuss~es durante o per odo em que trabalhamos juntos. Muito obrigado ao Dr. o Bernhard Kaspar, Dr. Bernd Lochschmidt, Dr. Georg Fries, Dr. Stefan Feldes, Dr. Antje Wirth, Dr. Ulrich Schulthei , Andreas Schimm, Christian Fleischmann,
Wolfgang Bleck, Wolfgang Schrecke, Gerhard Schroder, Karlheinz Schuhmacher, Kurt Wendel, Joachim Stegmann, Margot Engraf e Contanze Seidelmann. Finalmente, gostaria de expressar os meus sinceros agradecimentos a todos os meus amigos que sempre me incentivaram e a todos que colaboraram com suas vozes para a execuc~o das simulac~es realizadas neste trabalho. A todos o meu a o Muito Obrigado.
Indice
LISTA DE FIGURAS LISTA DE TABELAS ~ 1 INTRODUCAO 2 SISTEMAS DE RECONHECIMENTO DE FALA
2.1 Introduc~o . . . . . . . . . . . . . . . . . . . . . . . a 2.2 Tipos de Reconhecedores de Fala . . . . . . . . . . 2.3 Reconhecedor de Fala por Comparac~o de Padr~es a o 2.3.1 Processamento do Sinal de Fala . . . . . . . 2.3.2 Padr~es de Refer^ncia . . . . . . . . . . . . o e 2.3.3 Comparac~o de Padr~es . . . . . . . . . . . a o 2.3.4 Pos-Processador . . . . . . . . . . . . . . . . 2.4 Avaliac~o de Reconhecedores de Fala . . . . . . . . a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii xv 1
9 10 11 12 13 13 14 14
3.1 Introduc~o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.2 Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . 3.2.1 De nic~o . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.2.2 Tipos de HMM quanto a natureza da Func~o de Probabilidade a dos S mbolos de Sa da . . . . . . . . . . . . . . . . . . . . . 3.2.3 Topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Tr^s Problemas do HMM . . . . . . . . . . . . . . . . . . . . e 3.2.5 Soluc~es para os Tr^s Problemas Basicos . . . . . . . . . . . o e 3.2.6 Considerando Estado Final . . . . . . . . . . . . . . . . . . . 3.2.7 Normalizac~o . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.2.8 Sequ^ncia de Treinamento com Multiplas Observac~es . . . e o 3.2.9 Variac~o do HMM Semicont nuo . . . . . . . . . . . . . . . a i
. 17 . 17 . 17 . . . . . . . . 19 22 22 23 28 28 30 32
17
ii 3.2.10 Efeitos devido a Sequ^ncia de Treinamento Insu ciente e 3.2.11 Incorporac~o da Durac~o de Estado em um HMM . . . a a 3.2.12 Inicializac~o dos Par^metros de um HMM . . . . . . . a a 3.3 Comparac~o entre os Tipos de HMM . . . . . . . . . . . . . . a 3.4 HMM para Reconhecimento de Fala . . . . . . . . . . . . . . . 3.4.1 HMM para Reconhecimento de Palavras Isoladas . . . 3.4.2 HMM para Reconhecimento de Fala Cont nua . . . . . . . . . . . . . . . . . . . . . . .
INDICE
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 33 35 35 37 38 39
4 REDES NEURAIS
4.1 4.2 4.3 4.4 4.5 4.6 4.7 5.1 5.2 5.3 5.4
Introduc~o . . . . . . . . . . . . . . . . . . . . . . . . . a De nic~o . . . . . . . . . . . . . . . . . . . . . . . . . . a Topologia . . . . . . . . . . . . . . . . . . . . . . . . . \ Multilayer Perceptron " . . . . . . . . . . . . . . . . Algoritmo \ Back Propagation " . . . . . . . . . . . . \ Multilayer Perceptron " em Reconhecimento de Fala Vantagens do Uso de \ Multilayer Perceptron " . . . Introduc~o . . . . . . . . . . . . . . . . . . . . . . . . . a HMM usando MLP como Pos-Processador . . . . . . . HMM como Segmentador para MLP . . . . . . . . . . Estimac~o de Probabilidades a Posteriori usando MLP a
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
41
41 42 43 44 45 47 48 49 50 51 54
5 SISTEMAS HIBRIDOS
49
6.1 Introduc~o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 6.2 Convers~o A/D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 6.3 Detecc~o de In cio/Fim . . . . . . . . . . . . . . . . . . . . . . . . . . a 6.3.1 Detector \ Endpoints " . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Detector \ Bottom-Up " . . . . . . . . . . . . . . . . . . . . . 6.3.3 Detector \ Top-Down " . . . . . . . . . . . . . . . . . . . . . . 6.3.4 Comparac~o entre os Detectores de In cio/Fim Implementados a 6.4 Quantizac~o Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . a 6.4.1 Medidas de Distorc~o . . . . . . . . . . . . . . . . . . . . . . . a 6.4.2 Projeto do \ Codebook " . . . . . . . . . . . . . . . . . . . . . 6.4.3 Comparac~o entre as Medidas de Distorc~o . . . . . . . . . . . a a 6.5 Analise Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Comparac~o entre os Diferentes Par^metros . . . . . . . . . . a a
57
57 58 58 59 60 61 62 66 66 68 68 72 80
INDICE
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 87 . 88 . 88 . 88 . 89 . 90 . 91 . 91 . 95 . 99 . 102 . 103 . 104 . 105 . 106 . 107 . 108 . 109 . 110 . 111 . 113 . 113 . 114 . 116 . 117 . 119 . 120 . 123 . 125 . 125 . 126 . 126
87
. . . .
125
iv 8.2.3 Numero de Nos na Camada Escondida . . . . 8.2.4 Numero de Nos na Camada de Entrada . . . . 8.2.5 Combinando Diferentes Tipos de Coe cientes 8.3 Considerac~es Finais . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
INDICE
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 . 127 . 127 . 128 . 129 . 129 . 130 . 131 . 131 . 132 . 133 . 134 . 135 . 135 . 135 . 136 . 137 . 137 . 138 . 139 . 139 . 139 . 140 . 140
129
~ 10 CONCLUSOES
10.1 Considerac~es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 o 10.2 Contribuic~es deste Trabalho . . . . . . . . . . . . . . . . . . . . . . 145 o 10.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 A.1 Ambiente de Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 147 A.2 Sistema de Aquisic~o . . . . . . . . . . . . . . . . . . . . . . . . . . 147 a A.3 Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
143
147
^ REFERENCIAS BIBLIOGRAFICAS
149
INDICE
INDICE REMISSIVO
159
vi
INDICE
Lista de Figuras
2.1 Sistema basico de reconhecimento de fala baseado na comparac~o de a padr~es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 o 3.1 Modelo \ left-right " . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.1 Ilustrac~o de um neur^nio ou no. . . . . . . . . . . . . . . . . . . . . 42 a o 4.2 \ Multilayer Perceptron " com duas camadas escondidas. . . . . . . . 44 5.1 Sistema H brido usando Rede Neural como pos-processador para HMMs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Sistema H brido usando o HMM com maior probabilidade como segmentador para Rede Neural. . . . . . . . . . . . . . . . . . . . . . . . 5.3 Sistema H brido usando HMMs como segmentadores para rede MLP. 5.4 Sistema H brido usando HMMs e Redes Neurais como estimadores de probabilidades a posteriori. . . . . . . . . . . . . . . . . . . . . . . . . 6.1 6.2 6.3 6.4 6.5 Processamento do sinal de fala em um reconhecedor de fala. . . . . . Diagrama em blocos do detector de in cio/ m de Rabiner e outros. . Diagrama em blocos do detector de in cio/ m \Bottom-up ". . . . . . Limiares usados para a detecc~o de pulsos de energia. . . . . . . . . . a Procedimento para detecc~o de pulsos de energia no algoritmo \ topa down ". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Procedimento do algoritmo LBG . . . . . . . . . . . . . . . . . . . . 6.7 Procedimento para a obtenc~o de par^metros do sinal de fala. . . . . a a 6.8 Processo de superposic~o de janelas para o calculo de par^metros. . . a a 7.1 Modelo \ left-right " com 50 53 53 55 57 59 60 60 62 69 72 73
= 2. . . . . . . . . . . . . . . . . . . . . 88
vii
viii
LISTA DE FIGURAS
Lista de Tabelas
6.1 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto para os diferentes algoritmos de detecc~o de in cio/ m. . . . . . . . . . . . . . . . . . . . . . . . . . . . a 6.2 Desempenho de reconhecedores de palavras isoladas independente do locutor usando MLP para os diferentes algoritmos de detecc~o de a in cio/ m. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Desempenho dos reconhecedores de palavras isoladas independente do locutor usando HMM discreto e combinando dois algoritmos de in cio/ m. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Desempenho dos reconhecedores de palavras isoladas independente do locutor usando MLP combinando dois algoritmos de in cio/ m. . . 6.5 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e combinando dois algoritmos de in cio/ m e deslocamento de 5 quadros nos pontos inicial/ nal. . . . . 6.6 Desempenho dos reconhecedores de palavras isoladas independente do locutor usando MLP e combinando dois algoritmos de in cio/ m e deslocamento de 5 quadros nos pontos inicial/ nal. . . . . . . . . . 6.7 Desempenho de reconhecedores de fala independente do locutor para codebooks usando HMM discreto e diferentes tipos de medidas de distorc~o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 6.8 Banco de Filtros na Escala Mel. . . . . . . . . . . . . . . . . . . . . . 6.9 Banco de Filtros na Escala Bark. . . . . . . . . . . . . . . . . . . . . 6.10 Desempenho de reconhecedores de palavras isoladas independente do locutor utilizando diferentes tipos de par^metros, onde: HMM 1 = a HMM discreto sem detecc~o de in cio/ m, HMM 2 = HMM discreto a com detecc~o de in cio/ m e MLP = \ Multilayer Perceptron ". . . . a ix 64 64 65 65 65 66 70 76 77
81
LISTA DE TABELAS
6.11 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com coe cientes delta-Mel com remoc~o da media, calculados segundo a equac~o 6.36. . . . . . . . . . 84 a a 6.12 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com coe cientes delta, calculados segundo as equac~o 6.36 (1), 6.37 (2) e 6.38 (3). . . . . . . . . . . . . . 84 a 6.13 Desempenho de reconhecedores de palavras isoladas com coe cientes obtidos a partir dos coe cientes Mel. . . . . . . . . . . . . . . . . . . 85 7.1 Numero de estados usado para representar cada palavra nas simulac~os em que usaram-se numeros de estados diferentes por palavra. . e 7.2 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, sem detecc~o de in cio/ m, considea rando diferentes algoritmos para treinamento e reconhecimento. . . . 7.3 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, com detecc~o de in cio/ m, considea rando diferentes algoritmos para treinamento e reconhecimento. . . . 7.4 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com diferentes numeros de estados e considerando sequ^ncias de treinamento de varios tamanhos. e Utilizou-se \ codebook " com 128 vetores codigo. N~o foi utilizado a detector de in cio/ m. . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com \ codebooks " de varios tamanhos e considerando diferentes sequ^ncias de treinamento. Os reconhecee dores apresentavam 10 estados. N~o foi utilizado detector de in cio/ m. a 7.6 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com \ codebooks " de varios tamanhos. 7.7 Desempenho de reconhecedores de palavras isoladas independente do locutor usando usando HMM discreto, coe cientes Mel-SME com \ codebooks " de varios tamanhos e diferentes numeros de estados. . . 7.8 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, coe cientes Mel-SME e diferentes numeros de estado. N~o foi usado detector de in cio/ m. . . . . . . . a 7.9 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, coe cientes Mel-SME e diferentes numeros de estado. Foi usado detector de in cio/ m. . . . . . . . . . 89 90 90
92
92 93 93 94 95
LISTA DE TABELAS
xi
7.10 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados e considerando as diferentes func~es de probabilidade para modelar a durac~o de estado o a e varios valores de coe cientes de ponderac~o. . . . . . . . . . . . . . 96 a 7.11 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando as diferentes func~es de o probabilidade para modelar a durac~o de estado. . . . . . . . . . . . . 97 a 7.12 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando as diferentes func~es de o densidade de probabilidade para modelar a durac~o de estado. Foram a empregados coe cientes de ponderac~o calculados pela equac~o 3.83. . 97 a a 7.13 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando diferentes numeros de estados. A probabilidade de durac~o de estado foi modelada usando a fdp de Laplace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7.14 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, considerando diferentes numeros de estados e o ultimo estado com estado nal. A durac~o de estado foi a modelada pela func~o densidade de probabilidade de Laplace e os a coe cientes de durac~o de estado s~o emp ricos. . . . . . . . . . . . . 99 a a 7.15 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e combinando diferentes tipos de coecientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 7.16 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando coe cientes Mel-SME e suas derivadas. . . . . . . . . . . . . . . . . . . . . . . 100 7.17 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 15 estados, combinando coe cientes Mel-SME e suas derivadas. . . . . . . . . . . . . . . . . . . . . . . 101 7.18 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando coe cientes Mel-SME, suas derivadas e energia. Foram usados \ codebooks " com varios tamanhos para quantizar a energia. . . . . . . . . . . . . . 101 7.19 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando coe cientes Mel-SME, suas derivadas e energia. . . . . . . . . . . . . . . . . . 102
xii
LISTA DE TABELAS
7.20 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando modelos com coe cientes diferentes. . . . . . . . . . . . . . . . . . . . . . . . . 103 7.21 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, combinando varios tipos de coe cientes e incorporando durac~o de estado. . . . . . . . . . . . . . . . . . . 104 a 7.22 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, combinando varios tipos de coecientes e incorporando durac~o de estado (fdp Laplace) como posa processador para diferentes vocabularios. . . . . . . . . . . . . . . . . 105 7.23 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando unidades menores que palavras (fones). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 7.24 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e considerando diferentes algoritmos para treinamento e reconhecimento. . . . . . . . . . . . . . . . . 107 7.25 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e considerando diferentes numeros de estados e \ codebooks " com varios tamanhos. . . . . . . . . . . . 108 7.26 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e considerando diferentes numeros de estados e \ codebook " com 128 misturas. . . . . . . . . . . . . . . 109 7.27 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e incorporando durac~o de estado a como pos-processador. . . . . . . . . . . . . . . . . . . . . . . . . . . 110 7.28 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e combinando varios tipos de coecientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 7.29 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo, com diferentes numeros de estados, incorporando durac~o de estado como pos-processador e combia nando varios tipos de coe cientes. Utilizou-se a sequ^ncia de treinae mento 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
LISTA DE TABELAS
xiii
7.30 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo, com diferentes numeros de estados, incorporando durac~o de estado como pos-processador e combia nando varios tipos de coe cientes. Utilizou-se a sequ^ncia de treinae mento 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 7.31 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e considerando diferentes algoritmos. . 113 7.32 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e empregando diferentes numeros de estados e misturas. Foi utilizada a sequ^ncia de treinamento 1. . . . . 114 e 7.33 Desempenho de reconhecedores de palavras isoladas independente do locutor empregando HMM cont nuo e diferentes numeros de estados e misturas. Foi utilizada a sequ^ncia de treinamento 3. . . . . . . . . 115 e 7.34 Desempenho de reconhecedores de palavras isoladas independente do locutor empregando HMM \ tied " cont nuo com diferentes numeros de estados e misturas. Foi utilizada a sequ^ncia de treinamento 1. . . 116 e 7.35 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e incorporando durac~o de estado coa mo pos-processador. Foram usadas 3 misturas com matriz covari^ncia a diagonal e sequ^ncia de treinamento 1. . . . . . . . . . . . . . . . . . 117 e 7.36 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e incorporando durac~o de estado coa mo pos-processador. Foi usada 1 mistura com matriz covari^ncia a cheia e sequ^ncia de treinamento 3. . . . . . . . . . . . . . . . . . . . 117 e 7.37 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com 10 estados, 3 misturas com matriz covari^ncia diagonal e combinando varios tipos de coe cientes. . . . . 118 a 7.38 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com diferentes numeros de estados por palavra, 5 misturas com matriz covari^ncia diagonal e combinando a varios tipos de coe cientes. . . . . . . . . . . . . . . . . . . . . . . . . 118 7.39 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com 10 estados, 1 mistura com matriz covari^ncia cheia e combinando varios tipos de coe cientes. . . . . . . 118 a
xiv
LISTA DE TABELAS
7.40 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com diferentes numeros de estados por palavra, 1 mistura com matriz covari^ncia cheia e combinando varios a tipos de coe cientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.41 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com diferentes numeros de estados, incorporando durac~o de estado como pos-processador e combinando a varios tipos de coe cientes. Utilizou-se a matriz covari^ncia diagonal. 119 a 7.42 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com diferentes numeros de estados, incorporando durac~o de estado como pos-processador e combinando a varios tipos de coe cientes. Utilizou-se matriz covari^ncia cheia. . . . 120 a 7.43 Comparac~o entre o desempenho de reconhecedores de palavras isoa ladas independente do locutor usando os varios tipos de HMM e coecientes Mel-SME. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.44 Comparac~o entre o desempenho de reconhecedores de palavras isoa ladas independente do locutor usando os varios tipos de HMM e combinando diferentes tipos de par^metros. . . . . . . . . . . . . . . . . . 122 a 8.1 Desempenho de reconhecedores de palavras isoladas independente do locutor usando \ multilayer perceptron " para diferentes numeros de nos na camada escondida. Os reconhecedores apresentavam 1280 entradas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 8.2 Desempenho de reconhecedores de palavras isoladas independente do locutor usando \ multilayer perceptron " para diferentes numeros de nos na camada de entrada. A camada escondida era formada por 100 nos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 8.3 Desempenho de reconhecedores de palavras isoladas independente do locutor usando \ multilayer perceptron " e combinac~es de varios o tipos de coe cientes. A camada escondida era formada por 100 nos. E = energia e DMel = Delta-Mel. . . . . . . . . . . . . . . . . . . . . 127 9.1 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM e MLP para diferentes numeros de nos na camada escondida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
LISTA DE TABELAS
xv
9.2 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e sistemas h bridos (HMM e MLP) para diferentes tipos de coe cientes. . . . . . . . . . . . . . . . . . . . 132 9.3 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e sistemas h bridos (HMM e MLP) para diferentes tipos de coe cientes. Os reconhecedores foram treinados usando-se a sequ^ncia de treinamento 3. . . . . . . . . . . . . . . . . 133 e 9.4 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e sistemas h bridos (HMM e MLP). . 133 9.5 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e sistemas h bridos (HMM e MLP), considerando o modelamento da durac~o de estado. . . . . . . . . . . 134 a 9.6 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM como segmentador para MLP considerando diferentes propostas para a fase de reconhecimento. . . . . . . . . . . . 136 9.7 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM como segmentador para MLP para diferentes numeros de nos na camada escondida da rede. . . . . . . . . . . . . . 136 9.8 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM como segmentador para MLP considerando redes com diferentes numeros de nos na camada de entrada. . . . . . . 137 9.9 Desempenho de reconhecedores de palavras isoladas independente do locutor usando diferentes tipos de coe cientes. . . . . . . . . . . . . . 138 9.10 Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e sistemas h bridos (HMM como segmentador para MLP). . . . . . . . . . . . . . . . . . . . . . . . . . . 138 9.11 Desempenho de reconhecedores de palavras isoladas independente do locutor usando redes MLP para estimar a probabilidade de emiss~o a em HMM, para diferentes numeros de nos na camada de entrada. . . 140 9.12 Comparac~o entre o desempenho de reconhecedores de palavras isolaa das independente do locutor usando HMM e sistemas h bridos usando redes MLP para estimar a probabilidade de emiss~o em HMM. . . . . 140 a
xvi
LISTA DE TABELAS
~ CAPITULO 1. INTRODUCAO
O usuario pode utilizar o sistema enquanto esta se movendo ou fazendo uma outra atividade que requer o uso das m~os. a
A rede telef^nica pode ser usada para a passagem da informac~o, possibilitando o a dessa forma o acesso remoto ao sistema. Apesar dessas facilidades, a utilizac~o da fala tambem apresenta algumas desa vantagens como a suscetibilidade a interfer^ncia do ambiente, necessitando de um e cancelador de ru dos para ambientes muito ruidosos 5]. Alem disso, as caracter sticas do sinal de fala variam de pessoa para pessoa, de acordo com as diferencas na forma de falar, dimens~o dos org~os do trato vocal, velocidade da fala e condic~es a a o f sicas e emocionais dos locutores (doenca, stress, estado emocional) 5]. O primeiro trabalho na area de reconhecimento de fala foi publicado em 1952 por Davis, Biddulph e Balashek (Bell Labs) 6] e descrevia um sistema para reconhecer d gitos isolados falados por um unico locutor. Desde essa data, muitos pesquisadores, em diferentes pa ses, t^m trabalhado nessa area e conseguido exprese sivos resultados. Durante as decadas de 50 e 60, varios reconhecedores de d gitos e fonemas foram implementados e bons resultados foram alcancados 7]. No nal dos anos 60 e in cio dos anos 70 foram apresentadas as tecnicas de Predic~o Linear (\ Linear Predictive Coding " (LPC)) 8] e \ Dynamic Time Warpa ing " (DTW) 8], as quais proporcionaram um grande impulso nas pesquisas em reconhecimento de fala. Nessa mesma epoca foram apresentados algoritmos para reconhecimento de palavras conectadas e para a fala cont nua. A decada de 80 caracterizou-se pela difus~o de metodos baseados no modea lamento estat stico, por exemplo Modelos Ocultos de Markov (\ Hidden Markov Models " (HMM)) 8]. Nesse per odo tambem foi introduzido o uso de Redes Neurais para reconhecimento de fala e foi dado um grande impulso para a implementac~o a de sistemas robustos de reconhecimento de fala cont nua para grandes vocabularios. Foram obtidos sistemas com altas taxas de reconhecimento. Como exemplos desses sistemas, podem ser citados o sistema BYBLOS 9] com taxa de acerto de 93% e o sistema SPHINX 10] com taxa de acerto de 96.2%. Devido aos bons resultados conseguidos, aumentou bastante o interesse pelos sistemas de reconhecimento de fala e o uso dos mesmos em diferentes areas tornou-se mais difundido. As aplicac~es do reconhecimento de fala podem ser divididas em duas grano des areas 11, 12]: telecomunicac~es e negocios. Como exemplos dessas aplicac~es o o podemos citar:
3 Acesso a informac~o a O usuario deseja ter acesso a algum tipo de informac~o, a qual esta armazenada a em uma base de dados. Exemplos: not cias, previs~o do tempo, programac~o a a de cinemas e teatros, horoscopo, hora certa e outros. Neste tipo de aplicac~o, os sistemas apresentam um menu falado ao usuario e a este escolhe a informac~o desejada atraves de comandos verbais. a Operac~es bancarias o O usuario realiza operac~es bancarias como transfer^ncia de dinheiro, informao e c~es sobre o saldo de sua conta, atraves de comandos verbais pelo telefone. o Servicos de compra por telefone O usuario pode comprar produtos usando o telefone. Nesse tipo de servico, cada produto tem um codigo numerico e o usuario solicita via fala o produto desejado. Operac~o de servicos a Servicos telef^nicos, que usualmente necessitam de um operador humano, s~o o a automatizados. Exemplo: atendimento automatico, informac~es sobre lista o telef^nica, servico de despertar e outros. o Envio automatico de fax O usuario seleciona um documento de uma lista, falando sim ou n~o e fala o a numero do aparelho que recebera o fax. Correio de Voz O usuario pode solicitar a reproduc~o de mensagens de sua caixa postal ou o a envio de mensagens atraves de comandos verbais. Discagem por fala O usuario fala o numero do telefone desejado. Pode-se tambem, associar a cada numero de telefone o nome de uma pessoa, e neste caso o usuario fala o nome da pessoa. Preenchimento de formularios O usuario entra com os dados via fala.
~ CAPITULO 1. INTRODUCAO
Convers~o Fala-Texto a O usuario fala o texto ao inves de digita-lo. Considerando essas aplicac~es, varios sistemas com diferentes caracter sticas o foram implementados, sendo que muitos est~o operando comercialmente. Como a exemplos de sistemas de reconhecimento de fala temos: Dragon - 1975 - Carnegie-Mellon University 13]: reconhecimento de fala cont nua dependente do locutor com vocabulario de 194 palavras com taxa de acerto de 84%. Hearsay - 1975 - Carnegie-Mellon University 14]: reconhecimento de fala cont nua dependente do locutor com vocabulario de 1011 palavras com taxa de acerto de 87%. Harpy - 1976 - Carnegie-Mellon University 15]: reconhecimento de fala cont nua dependente do locutor com vocabulario de 1011 palavras com taxa de acerto de 97%. Bell Labs - 1982 16]: reconhecimento de palavras isoladas independente do locutor com vocabulario de 129 palavras com taxa de acerto de 91%. Prina - 1982 - Ericson Business Systems 17]: reconhecimento de palavras isoladas dependente do locutor para vocabulario pequeno (menos que 25 palavras). Feature - 1983 - Carnegie-Mellon University 18]: reconhecimento de palavras isoladas independente do locutor, com vocabulario constitu do pelas letras do alfabeto com taxa de acerto de 90%. Tangora - 1985 - IBM 19]: reconhecimento de palavras isoladas dependente do locutor com vocabulario de 5000 palavras com taxa de acerto de 97%. Bell Labs - 1988 20]: reconhecimento de d gitos conectados independente do locutor com taxa de acerto de 97.1%. Byblos - 1988 - BBN 9]: reconhecimento de fala cont nua dependente do locutor com vocabulario de 997 palavras com taxa de acerto de 93%. Sphinx - 1988 - Carnegie-Mellon University 10]: reconhecimento de fala cont nua independente do locutor com vocabulario de 997 palavras com taxa de acerto de 96.2%.
5 Teleton - 1988 - Deutsche Bundespost Telekom 21]: reconhecimento de palavras isoladas independente do locutor com vocabulario de 12 palavras. Babsy - 1990 - Deutsche Bundespost Telekom 22]: reconhecimento de palavras isoladas independente do locutor com vocabulario de 18 palavras com taxa de acerto de 95%. Citruf - Deutsche Bundespost Telekom 22]: reconhecimento de palavras isoladas independente do locutor para vocabulario pequeno (menos que 25 palavras). Teledialogue - 1992 - Jydsk Telefon 22]: reconhecimento de palavras isoladas independente do locutor para vocabulario pequeno (menos que 25 palavras). Audiotex - 1992 - Telefonica I. D. de Espanha 23, 24]: reconhecimento de palavras isoladas independente do locutor com vocabulario de 12 palavras com taxa de acerto de 96%. World Window - 1992 - Global Communications Ltd. 22]: reconhecimento de palavras conectadas dependente do locutor com vocabulario de 200 palavras. Mairievox - 1990 - France Telecom 25]: reconhecimento de palavras isoladas e conectadas independente do locutor com vocabulario de 21 palavras com taxa de acerto de 88%. Les Balandins - 1992 - France Telecom 22]: reconhecimento de palavras isoladas e conectadas independente do locutor com vocabulario de 26 palavras com taxa de acerto de 95%. Acueil 14 - 1992 - France Telecom 22]: reconhecimento de palavras isoladas e conectadas independente do locutor com vocabulario de 33 palavras. Philips Dictation Systems - 1996 26]: reconhecimento de palavras isoladas dependente do locutor com vocabulario de 64000 palavras. Levando-se em conta a grande import^ncia da area de reconhecimento de faa la e as diversas tecnicas existentes, torna-se necessario uma comparac~o entre elas a para a escolha da melhor tecnica de forma a obter o melhor reconhecedor para cada aplicac~o. Assim, neste trababalho ser~o apresentadas comparac~es entre as a a o tecnicas Modelos Ocultos de Markov (HMM - \ Hidden Markov Models ") e Redes Neurais (\ Multilayer Perceptron "), sob diversos aspectos como taxa de acerto,
~ CAPITULO 1. INTRODUCAO
tempo de reconhecimento, tempo de treinamento, quantidade de par^metros, topoa logia e outros. Para isso, foram implementados varios reconhecedores de palavras isoladas independentes do locutor usando um vocabulario de 50 palavras faladas em portugu^s do Brasil. e Primeiramente, analisou-se o desempenho dos reconhecedores usando diferentes tipos de par^metros do sinal de fala. Essa comparac~o foi feita usando-se as a a tecnicas HMM e \ Multilayer Perceptron ". Considerando-se apenas o metodo HMM, foram feitas comparac~es entre o HMMs discretos, cont nuos e semicont nuos levando-se em conta o desempenho, tempo de treinamento, tempo de reconhecimento e diferentes alternativas de implementac~o. a De modo a comparar as varias tecnicas para implementac~o de reconhecedores a de fala, foram implementados reconhecedores usando HMM e \ Multilayer Perceptron " e tambem foram consideradas e avaliadas algumas propostas de sistemas h bridos que utilizam essas duas tecnicas conjuntamente. No cap tulo 2 e descrito um sistema basico de reconhecimento de fala. Esse sistema extrai par^metros do sinal de fala, faz uma comparac~o com os padr~es a a o armazenados medindo a similaridade entre estes e o padr~o a ser reconhecido e usa a essa medida para escolher o padr~o que melhor representa o sinal de fala. Alem a disso, s~o explicadas algumas classi cac~es dos reconhecedores de fala considerando a o o tipo de locutor, tamanho do vocabulario e tipo de fala. No cap tulo 3 s~o apresentados aspectos da teoria e implementac~o da tecnica a a de Modelos Ocultos de Markov e os metodos usados para obter os par^metros que a caracterizam cada modelo. Esta incluida a descric~o dos algoritmos \ Forward ", a \ Forward-Backward " e Viterbi. No cap tulo 4 e discutida a aplicac~o de Redes Neurais (\ Multilayer Pera ceptron ") para reconhecimento de fala. E apresentado o algoritmo \ BackPropagation ", o qual e usado para treinar a rede. No cap tulo 5 s~o descritos sistemas h bridos, os quais combinam as tecnicas a HMM e Redes Neurais (\ Multilayer Perceptron ") . No cap tulo 6 e apresentada uma analise dos diversos tipos de par^metros a que podem ser usados para representar o sinal de fala. A comparac~o entre esses a par^metros e feita usando-se reconhecedores de palavras isoladas empregando as a tecnicas HMM e Redes Neurais. Alem disso, s~o descritos alguns algoritmos para a detectar o in cio e m de cada palavra e s~o discutidos alguns tipos de dist^ncia a a usados na quantizac~o vetorial. a
7 No cap tulo 7 s~o descritos os reconhecedores implementados usando HMM e a s~o mostradas as comparac~es entre eles. a o No cap tulo 8 s~o apresentados os resultados dos reconhecedores implementaa dos usando \ Multilayer Perceptron ". No cap tulo 9 s~o mostrados os sistemas h bridos implementados e os resultados a obtidos com os mesmos. No cap tulo 10 s~o discutidas as conclus~es deste trabalho. a o No ap^ndice A descrevem-se a base de dados, o vocabulario e o ambiente de e simulac~o utilizados para implementar os reconhecedores. a Como contribuic~o desta tese, deve-se enfatizar que foram implementadas e a comparadas diversas tecnicas para reconhecimento de fala usando a mesma base de dados e o mesmo ambiente para simulac~o. A tecnicas testadas foram: Modelos a Ocultos de Markov (discreto, cont nuo e semicont nuo), \ Multilayer Perceptron " e Sistemas H bridos. Alem disso, foram discutidos diferentes algoritmos propostos para a implementac~o de cada fase do reconhecedor de palavras isoladas, sendo a avaliados 22 tipos de par^metros para representar o sinal de fala usando HMM a e Redes Neurais. Tambem s~o propostas algumas modi cac~es nos algoritmos de a o detecc~o de in cio/ m de forma a melhorar o desempenho dos mesmos. Os resultados a dessas comparac~es tornam mais facil a escolha do melhor algoritmo para uma dada o aplicac~o. a Outro ponto a ser ressaltado e que fez parte do trabalho o desenvolvimento de todo o software utilizado, incluindo o desenvolvimento da base de dados. Este trabalho serviu de suporte a realizac~o de uma serie de outros trabalhos em reconhea cimento de fala junto ao Grupo de Processamento Digital de Fala do Departamento de Comunicac~es da Faculdade de Engenharia Eletrica e de Computac~o da UNIo a CAMP.
~ CAPITULO 1. INTRODUCAO
10
dades foneticas que comp~em a fala a ser reconhecida, e a partir da concatenac~o o a dessas unidades, reconhecer a fala. Neste tipo de analise e importante considerar propriedades acusticas dos sons que sejam invariantes. Entre essas caracter sticas do sinal de fala podem ser destacadas a classi cac~o sonoro/n~o sonoro, presenca a a de resson^ncia nasal, localizac~o dos formantes e outras. Basicamente, um reconhea a cedor de fala usando a analise acustico-fonetica apresenta as seguintes fases: analise espectral, detecc~o das caracter sticas que descrevem as unidades foneticas (formana tes, pitch, sonoro/n~o sonoro e outras), segmentac~o do sinal de fala e identi cac~o a a a das unidades foneticas e escolha da palavra que melhor corresponde a sequ^ncia e de unidades. A fase mais importante e a fase de segmentac~o e identi cac~o das a a unidades foneticas. Pode-se considerar uma terceira classe, onde est~o os sistemas que utilizam a intelig^ncia arti cial. Esses reconhecedores exploram conceitos presentes nas duas e classes apresentadas anteriormente 8]. De uma forma geral, Redes Neurais 28] podem ser enquadradas nesta classe. Considerando-se as redes \ Multilayer Perceptron " 28], tem-se uma matriz de ponderac~o que representa as conex~es entre a o os nos da rede, e cada sa da da rede esta associada a uma unidade (por exemplo, palavra) a ser reconhecida. Ate o momento, os sistemas usando a tecnica de comparac~o de padr~es aprea o sentaram os melhores resultados. Alem disso, esses sistemas apresentam outras vantagens como simplicidade de uso, facilidade de entendimento, boas justi cativas matematicas e robustez para as diferentes caracter sticas do sinal de fala, vocabularios e locutores 8].
11
s~o sentencas ou frases. Esses sistemas geralmente envolvem o reconhecimena to de unidades basicas como fones, difones e outros. Isso pode implicar na necessidade de segmentac~o do sinal de fala. a O reconhecimento de fala cont nua e uma tarefa muito mais dif cil que o reconhecimento de palavras isoladas ou conectadas pois o in cio e m de cada palavra n~o s~o claros devido aos efeitos da coarticulac~o. a a a De acordo com o grau de depend^ncia do locutor os sistemas podem ser clase si cados em 5]: Dependente do Locutor: o sistema reconhece apenas a fala dos locutores para os quais foi treinado. Independente do Locutor: o sistema reconhece a fala de qualquer locutor. Um outro aspecto que deve ser considerado na classi cac~o dos reconhecedores a de fala e o tamanho do vocabulario. Existem quatro tipos distintos de vocabularios que s~o 27]: a Vocabulario Pequeno: 1 a 20 palavras. Vocabulario Medio: 20 a 100 palavras. Vocabulario Grande: 100 a 1000 palavras. Vocabulario Muito Grande: mais de 1000 palavras.
12
fala
comparaes
de
padres
Neste ultimo caso, cada palavra pode ser representada pela concatenac~o dos fones a de acordo com a transcric~o ortogra co-fonetica dessas palavras. a O uso de modelos representando palavras e o mais indicado para vocabularios pequenos pois a quantidade de calculos necessarios aumenta a medida que o tamanho do vocabulario torna-se maior. Adicionalmente, quando palavras s~o usadas como a refer^ncia, os problemas de coarticulac~o s~o evitados, o que leva a altas taxas de e a a reconhecimento. Para grandes vocabularios e para reconhecimento de fala cont nua o uso de unidades menores que palavras e mais apropriado. Uma outra vantagem do uso de unidades sub-lexicais esta no fato de que o vocabulario pode ser aumentado ou alterado apenas pela de nic~o da representac~o fonetica das novas palavras. a a Analisando a gura 2.1 vemos que o sistema de reconhecimento de fala por comparac~o de padr~es e composto pelas seguintes blocos: processamento do sinal a o de fala, padr~es de refer^ncia, comparac~o de padr~es e pos-processador. o e a o
13
pontos limitantes de cada palavra. Para isso existem varios algoritmos de detecc~o a de in cio/ m, os quais utilizam par^metros como energia e taxa de cruzamento de a zero para separar o sinal de fala do ru do.
14
2.3.4 Pos-Processador
Nesta fase, as dist^ncias ou probabilidades obtidas na comparac~o com os a a padr~es de refer^ncia s~o usadas para escolher o padr~o que melhor corresponde ao o e a a padr~o desconhecido. Para auxiliar na escolha do melhor candidato pode-se usar a restric~es sintaticas e sem^nticas (por exemplo o uso de uma gramatica). Dessa o a forma, candidatos n~o razoaveis s~o eliminados. a a
15
Porcentagem de inserc~o: porcentagem de palavras extras inseridas na sena tenca reconhecida. Porcentagem de omiss~o: porcentagem de palavras corretas omitidas na sena tenca reconhecida. Porcentagem de substitiuic~o: porcentagem de palavras corretas substituidas a por palavras incorretas na sentenca reconhecida. Para avaliar os reconhecedores implementados neste trabalho, foram consideradas apenas as porcentagens de acerto, sendo que n~o foi considerada a possibilidade a de rejeic~o de palavras. a
16
18
in nito (HMM cont nuo). Neste trabalho, considerou-se apenas o caso em que a func~o de probabilidade dos s mbolos de sa da esta associada a cada estado. a Em cada instante de tempo t existe uma mudanca de estado (pode ser para o mesmo estado) e um s mbolo e emitido. A sequ^ncia de s mbolos emitidos, chamada e de sequ^ncia de observac~o, e a sa da do HMM. A sequ^ncia de estados n~o pode e a e a ser observada, e oculta. Portanto, um HMM e caracterizado por 32, 8]: Conjunto de estados S = fS1 : : : SN g, onde N e o numero de estados. Func~o de probabilidade do estado inicial = f ig a
i=P
q = Si]
1
1 i N
(3.1)
onde q1 e o estado inicial (t = 1) Func~o de probabilidade de transic~o A a a Func~o de probabilidade dos s mbolos de sa da B . a Considerando somente processos nos quais as probabilidades de transic~o s~o a a independentes do tempo e os HMMs s~o de primeira ordem, o conjunto de probabia lidades de transic~o A e de nido por: a
(3.2) (3.3)
onde aij e a probabilidade de ocorrer uma transic~o do estado Si para o estado Sj . a Os coe cientes aij devem obedecer as seguintes regras:
aij 0
N X j =1
1 ij
(3.4) (3.5)
aij = 1 1 i N
19
3.2.2 Tipos de HMM quanto a natureza da Func~o de Proa babilidade dos S mbolos de Sa da
Dependendo do tipo da func~o de probabilidade dos s mbolos de sa da o HMM a pode ser discreto ou cont nuo. No tipo discreto 8], o numero de poss veis s mbolos de sa da e nito (K ). A probabilidade de emitir o s mbolo Vk no estado Si e dada por bi(k) . A func~o de probabilidade B tem as seguintes propriedades: a 1 i N b i (k ) 0 (3.6) 1 k K
K X k=1
HMM Discreto:
bi(k) = 1 1 i N
(3.7)
No tipo cont nuo, a func~o densidade de probabilidade e cont nua . Usualmena te, uma func~o densidade elipticamente simetrica ou log-c^ncava e usada, como a o por exemplo, func~o densidade de probabilidade Gaussiana 8, 33, 34, 35]. a A func~o densidade de probabilidade usada neste trabalho e uma mistura nita a da forma 8]:
bj (Ot ) =
M X m=1
cjmG(Ot
jm
Ujm ) 1 j N
(3.8)
onde: Ot e o vetor de entrada M e o numero de misturas cjm e o coe ciente da m-esima mistura no estado Sj G e uma func~o densidade de probabilidade Gaussiana multidimensional com a vetor media jm e matriz covari^ncia Ujm a A func~o densidade de probabilidade Gaussiana multidimensional e dada por a 36]: ;1 G(Ot jm Ujm ) = (2 )dim=1jU j1=2 expf;(Ot; jm)Ujm (Ot; jm ) =2g (3.9) 2 jm onde: dim e a dimens~o do vetor Ot a
0
20
1
cjm 0
+
Z1
1 j N 1 m M
(3.11) (3.12)
;1
bj (x)dx = 1 1 j N
Quando as misturas (vetor media jm e matriz covari^ncia Ujm) s~o iguais a a para todos os estados o HMM cont nuo e denominado HMM \ tied " cont nuo 8].
bj (Ot) =
onde: Ot e o vetor de entrada (Ot) e o conjunto das func~es densidade de probabilidade que apresentam os o M maiores valores de f (Ot jVk ), 1 M K K e o numero de func~es densidade de probabilidade (s mbolos de sa da) o Vk e o k-esimo s mbolo de sa da cj (k) e a probabilidade de emiss~o do s mbolo Vk no estado Sj a f (Ot jVk ) e o valor da k-esima func~o densidade de probabilidade a No HMM semicont nuo, o conjunto de func~es densidade de probabilidade e o o mesmo para todos os estados e todos os modelos. O que muda s~o os coe ciena tes cj (k). Os par^metros das func~es densidade de probabilidade, coe cientes a o das mesmas e probabilidades de transic~o s~o calculados e otimizados conjuna a tamente.
Vk 2 (Ot)
cj (k)f (OtjVk ) 1 j N
(3.13)
21
Quando o valor de M e igual a 1, o HMM semicont nuo torna-se um HMM discreto com um \ codebook " formado por func~es densidade de probabilidao de. Neste caso, usa-se apenas a func~o f (OtjVk ) que apresentar maior valor a para calcular a probabilidade de emiss~o de s mbolos de sa da: a
(3.14)
onde Vk e o s mbolo de sa da que assegura o maior valor de f (Ot jVk ). Quando o valor de M e igual a K pode-se considerar o HMM semicont nuo como um HMM cont nuo em que todas as misturas (vetor media jm e matriz covari^ncia Ujm ) s~o iguais para todos os estados e todos os modelos. O que a a varia de um estado para outro s~o os valores dos coe cientes das misturas. a Portanto, a probabilidade dos s mbolos de sa da e dada por:
bj (Ot) =
K X
onde: Ot e o vetor de entrada K e o numero de misturas cj (k) e a probabilidade de ocorr^ncia da k-esima mistura no estado Sj e f (OtjVk ) e o valor da k-esima mistura Neste trabalho, foi considerado apenas o caso em que M e igual a K . Alem disso, representou-se a func~o f (OtjVk ) por uma func~o de densidade de a a probabilidade Gaussiana com vetor media k e matriz covari^ncia Uk . Dessa a forma, tem-se: 1 f (Ot jVk ) = (2 )dim= jU j = expf;(Ot ; k )Uk; (Ot ; k ) =2g k
1
0
k=1
(3.15)
1 2
(3.16)
onde: dim e a dimens~o do vetor Ot a jUk j e o determinante da matriz covari^ncia Uk a ;1 e a matriz covari^ncia inversa Uk a O HMM semicont nuo implementado neste trabalho e um variac~o do HMM a semicont nuo pois primeiramente calculou-se os par^metros das misturas (vea tor media jm e matriz covari^ncia Ujm ) e depois foram calculados os coe a cientes das misturas e as probabilidades de transic~o. Dessa forma, todos os a par^metros n~o foram otimizados conjuntamente. a a
22
3.2.3 Topologia
Com relac~o a topologia, existem diferentes tipos de HMM, tais como ergodico, a \ left-right " e outros. Para aplicac~es em reconhecimento de fala, o modelo \ lefto right " ou modelo de Bakis e o mais usado 8]. Esse modelo esta ilustrado na gura 3.1.
a11 S m
1
a22 a12
2 23
a33
3
a44 a34 S m %
4
S S -m a -m a -& -a
13 24
Nesse modelo, a medida que o tempo aumenta, os ndices dos estados aumentam ou permanecem os mesmos. Portanto, os coe cientes aij apresentam a seguinte propriedade: aij = 0 i > j (3.17) A func~o de probabilidade do estado inicial e dada por: a
i
= 1 i=1 0 i 6= 1
(3.18)
1.
Para evitar grandes mudancas nos ndices dos estados, s~o usadas algumas a restric~es como: o aij = 0 j > i + (3.19) No exemplo apresentado na gura 3.1, o valor de e igual a 2. Neste trabalho utilizou-se apenas o modelo \ left-right " e dessa forma n~o a ser~o apresentadas posteriormente as formulas para reestimac~o da probabilidade a a do estado inicial.
23
2. Dados uma sequ^ncia de observac~o e um modelo, qual e a sequ^ncia de estados e a e otima ? 3. Dada uma sequ^ncia de observac~o, como podem ser estimados os par^metros e a a do modelo que gerou essa sequ^ncia ? e Resolvendo-se o problema 1, e poss vel escolher entre varios modelos, o modelo que apresenta a maior probabilidade de ter gerado a sequ^ncia observada. e Com a soluc~o do problema 2, obtem-se a sequ^ncia de estados mais provavel. a e Solucionando-se o problema 3, podem ser estimados os par^metros do modelo a que melhor descreve a sequ^ncia de observac~o dada. A sequ^ncia de observac~o e a e a utilizada para estimar os par^metros do modelo e chamada de sequ^ncia de treinaa e mento.
(i) = ibi(O1)
t (i)aij
#
1 i N
(3.20)
induc~o: a
t+1 (j ) =
"N X
i=1
bj (Ot ) 1 t T ; 1 1 j N
+1
(3.21) (3.22)
termino:
P (Oj ) =
N X i=1
T (i)
24
O O : : :Ot qt = Sij ]
1 2
(3.23)
Algoritmo de Viterbi
A sequ^ncia de estados otima para uma dada sequ^ncia de observac~o pode ser e e a encontrada usando-se o algoritmo de Viterbi 8], que sera apresentado em seguida: inicializac~o: a (i) = ibi(O1) 1 i N 0 1 (i) =
1
recurs~o: a
t(j ) t(j )
= 1max i N
2 t T 1 j N 2 t T 1 j N
= arg 1max i N
termino:
P = max T (i) i N
1
qt =
t+1(qt+1 )
t = T ;1 T ; 2 ::: 1
25
4. Se n~o ocorrer converg^ncia, volte ao passo 2. a e Antes da apresentac~o das formulas de reestimac~o, e necessario a de nic~o a a a da variavel \ backward " t(i): (3.31) t (i) = P Ot+1 Ot+2 : : : OT jqt = Si ] inicializac~o: a induc~o: a
t(i) = T (i) = 1 N X j =1
1 i N
(3.32) (3.33)
aij bj (Ot )
+1
t+1 (j )
t = T ;1 T ;2 ::: 1 1 i N
As formulas para a reestimac~o das probabilidades de transic~o e da func~o a a a de probabilidade dos s mbolos de sa da s~o: a Probabilidade de Transic~o aij : a
T ;1 X t=1
aij =
(3.34)
bi(k) =
t=1 Ot =Vk
t (i) t(i)
T X t=1
t (i) t(i)
(3.35)
cjm =
T X
jm
26
t=1 T X t=1
t (j
m)Ot m)
jm )(Ot ; jm )
0
t (j
(3.37)
Ujm = t
=1
t (j
m)(Ot ;
T X t=1
t (j
(3.38)
#
Ujm )
(3.39)
t (j
t (j m) t=1 cjm = X X T M t (j m) t=1 m=1 T X t (m)Ot t=1 m= T X t (m) t=1 T X t (m)(Ot ; m )(Ot ; m ) t=1 Ujm = T X t (m) t=1 N X (m) = t t (j m) j =1 2 3 6 7" 6 t (j ) t(j ) 7 cjm G(Ot m 6 7 m) = 6 X 7 6 N 7 bj (Ot) 4 5 t(k ) t (k ) k=1
(3.41)
0
(3.42) (3.43)
Um )
(3.44)
27
aij : numero de transic~es do estado Si para o estado Sj dividido pelo numero o de transic~es do estado Si para todos os estados. o
Func~o de Probabilidade dos s mbolos de sa da: a HMM Discreto: HMM Cont nuo:
bj (k): numero de vetores com ndice k no estado Sj divido pelo numero de vetores no estado Sj .
Nesse caso, o procedimento K-means e usado para classi car os vetores de observac~o em cada estado em M clusters (M e o numero de misturas). A a dist^ncia Euclidiana pode ser usada como medida de distorc~o. a a cjm : numero de vetores no cluster m do estado Sj dividido pelo numero de vetores no estado Sj jm : vetor medio dos vetores classi cados no cluster m do estado Sj Ujm : matriz covari^ncia dos vetores classi cados no cluster m do estado Sj a
O procedimento \ K-means " e usado da mesma forma que o HMM cont nuo. cjm : numero de vetores no cluster m e no estado Sj dividido pelo numero de vetores no estado Sj m : vetor media dos vetores classi cados no cluster m Um: matriz covari^ncia dos vetores classi cados no cluster m a
28
i = SF
(3.45)
Algoritmo de Viterbi
P = qT =
T (i ) T (i)
i = SF i = SF
(3.46) (3.47)
1 i = SF 0 i 6= SF
(3.48)
3.2.7 Normalizac~o a
Devido ao fato de que os coe cientes aij e bi(k) s~o menores que 1, a medida a que o instante de tempo t torna-se grande, a variavel t(i) aproxima-se de zero. Para grandes valores de t, o valor de t(i) excedera a faixa de precis~o de qualquer a computador causando under ow. Para evitar isso, e necessario o uso de um fator de normalizac~o 8]. a O procedimento de normalizac~o consiste na multiplicac~o de t(i) e t(i) por a a um fator que e independente de i. O fator de normalizac~o ct e os par^metros a a normalizados s~o dados pelas seguintes formulas: a ~1(i) = 1(i) (3.49)
29
i=1
( i)
ct = X 1 ^ N ~ t(i)
i=1
ct =
t Y s=1
cs ^
Levando-se em conta o fator de normalizac~o, o procedimento para calcular a P (Oj ) e modi cado. Calcula-se log(P (Oj )) em vez de P (Oj ), o qual e dado pela seguinte formula: T X log(P (Oj )) = ; log ct ^ (3.59)
t=1
Quando o algoritmo de Viterbi e utilizado, o under ow e evitado trabalhandose com o logaritmo das probabilidades.
30
(3.60)
bi(k) =
^d (i) ^td(i)=cd ^t t
^ d(i) ^td(i)=cd ^t t
(3.61)
(3.62)
jm
D Td XX d ^ t (j ) ^td(j )Ntd(j m)Otd =cd ^t d=1 t=1 D Td XX d ^t (j ) ^td(j )Ntd (j m)=cd ^t d=1 t=1
(3.63)
31
(3.64)
D e o numero de observac~es na sequ^ncia de treinamento e o e cjm Nt(j m) = X G(Ot jm Ujm) M cjk G(Ot jk Ujk )
k=1
(3.65)
(3.66)
H Dh Tdh N X XXX d ^t (j ) ^td(j )Ntd(j m)Otd =cd ^t h=1 d=1 t=1 j =1 H Dh Tdh N X XXX d ^t (j ) ^td(j )Ntd (j m)=cd ^t h=1 d=1 t=1 j =1
0
(3.67)
Um =
onde:
H Dh Tdh N X XXX d ^t (j ) ^td(j )Ntd(j m)(Otd ; m)(Otd ; m ) =cd ^t h=1 d=1 t=1 j =1 H Dh Tdh N X XXX d ^t (j ) ^td(j )Ntd(j m)=cd ^t h=1 d=1 t=1 j =1
(3.68)
(3.69)
32
= t=1T X
t=1
(3.70)
T X
Um = t
=1
Ntd (m)(Otd ;
T X t=1
Ntd(m)
onde:
T e o numero de vetores considerando as sequ^ncias de treinamento de todos e os modelos. Em uma segunda fase, os par^metros m e Um foram mantidos xos e os a coe cientes cjm foram calculados segundo a equac~o 3.66 e as probabilidades de a transic~o foram obtidas de acordo com a equac~o 3.60. a a
1 i N 1 k K
(3.74)
33 1 j N 1 m M 1 j N 1 m M
Ujm(r r) = U (Ur r) se Ujm (r r) < caso contrario jm cjm = c c se cjm < c jm caso contrario
(
(3.75) (3.76)
Quando estas alterac~es s~o realizadas, os outros par^metros envolvidos devem o a a ser recalculados de forma a garantir as propriedades das func~es de probabilidade. o No caso do HMM discreto, deve-se recalcular os valores de bi(k) para satisfazer PK PM k=1 bi(k ) = 1. Para HMM cont nuo e semicont nuo dever-se garantir m=1 cjm = 1.
log(Pj (dj ))
(3.78)
34
(3.79)
Func~o Densidade de Probabilidade Gamma a 1 G(d) = ;( ) d( ;1) exp (;d= ) onde = 2=d, = (d)2= 2, Gamma.
2
(3.82)
onde = (2= )1=2d. N~o existe uma formula para calcular o fator de ponderac~o w otimo, e assim a a esse fator de ponderac~o e obtido por tentativa e erro. a Neste trabalho e proposto um metodo para a obtenc~o do fator de ponderac~o. a a Nesse metodo, cada modelo usa um fator diferente, o qual e obtido empregando-se a seguinte formula: D :25 X log Pi (q Oj ) wk = 0D (3.83) PN i=1 j =1 log(Pij (dij ))
35
onde D e o numero de observac~es na sequ^ncia de treinamento. o e Essa formula foi obtida a partir da analise dos valores das probabilidades dos HMMs e valores das probabilidades de durac~o de estado. Usou-se o fator 0:25 a de forma que na equac~o 3.78 o valor de log P (q Oj ) seja o valor dominante no a resultado, diminuindo a in u^ncia de w PN=1 log(Pj (dj )). e j O esforco computacional requerido para incorporar a durac~o de estado em a um HMM usando um pos processador pode ser considerado desprez vel.
36
{ N~o s~o feitas suposic~es sobre o tipo de distribuic~o dos s mbolos obsera a o a
vados. { Procedimentos simples para treinamento e reconhecimento. { Poucos par^metros para estimar, n~o sendo necessaria uma sequ^ncia de a a e treinamento muito longa. { N~o requer esforco computacional elevado. a
Desvantagens:
{ E necessario o uso de quantizac~o vetorial. a { N~o e poss vel recuperar os erros devido a quantizac~o. a a { Menor exibilidade. HMM Cont nuo:
HMM cont nuo e usado para aplicac~es onde os vetores da sequ^ncia de obo e servac~o s~o cont nuos. a a Vantagens:
{ Modelamento direto dos par^metros do sinal de fala. a { N~o usa quantizac~o vetorial. a a
Desvantagens:
mente soma de Gaussianas). { Procedimentos de treinamento e reconhecimento complexos. { Requer grande esforco computacional. { Muitos par^metros para estimar. Necessita de uma grande sequ^ncia de a e treinamento (muito maior que o discreto).
37
{ Maior numero de par^metros para estimar que o HMM discreto. a { Reconhecedor mais complexo que o HMM discreto.
38
O tipo de par^metro escolhido para representar o sinal de fala e habitualmente a um conjunto de coe cientes derivados dos coe cientes LPC, energia e outros que fornecam uma representac~o adequada do sinal de fala 8, 43]. a O modelo \ left-right " e o mais apropriado para representar o sinal de fala pois os estados do modelo podem ser colocados em correspond^ncia com a organizac~o e a temporal da fala. Alem disso, cada estado ou conjunto de estados pode corresponder a um evento fonetico. Para a escolha do numero de estados otimo, n~o ha regras. Uma alternativa a consiste em fazer o numero de estados igual ao numero de fonemas da palavra. Neste caso, modelos representando palavras diferentes apresentar~o numero de estados a diferentes. Usualmente, o mesmo numero de estados e empregado para representar todas as palavras e escolhe-se um valor maior que o numero de fonemas da maior palavra. Quanto a escolha do numero de s mbolos de sa da (HMM discreto) ou numero de misturas (HMM cont nuo), deve-se estabelecer um compromisso entre o tamanho da sequ^ncia de treinamento e o numero de par^metros a estimar, de modo a se e a conseguir boas estimativas dos mesmos.
39
cida. O algoritmo \ Forward " ou o algoritmo de Viterbi podem ser usados para calcular P (Oj ). Este tipo de procedimento e aplicado para vocabularios medios e pequenos pois o tempo necessario para reconhecer cada palavra e pequeno, permitindo este tipo de busca exaustiva.
40
42
4.2 De nic~o a
Uma rede neural e formada por um grande numero de elementos n~o lineares a interconectados. A gura 4.1 apresenta um exemplo desses elementos, o qual e denominado no ou neur^nio, devido a semelhanca com o neur^nio biologico. o o
x1 x2 x3 . . . wN xN -1 w2 w3 f ( wi x i - ) y w1
A sa da de um neur^nio e uma func~o n~o linear da soma das entradas o a a multiplicadas por coe cientes de ponderac~o. a
y=f
N X i=1
wixi ;
(4.1)
onde: y e a sa da do neur^nio o f (:) e uma func~o n~o-linear a a xi e a i-esima entrada do neur^nio o wi e o coe ciente de ponderac~o da i-esima entrada do neur^nio a o N e o numero de entradas do neur^nio o e o limiar de ativac~o do neur^nio a o A func~o f (:) pode ser do tipo 8]: a Func~o \ Hard Limiter " a 0 f (x) = ;1 x > 0 +1 x
(
(4.2)
4.3. TOPOLOGIA
Func~es Sigmoide o 1 f (x) = 1 + expf; xg ou
43
>0 >0
(4.3) (4.4)
f (x) = tanh( x)
As func~es Sigmoide s~o as mais usadas por serem cont nuas e diferenciaveis. o a Na func~o de nida pela equac~o 4.3 o valor de controla a inclinac~o da regi~o a a a a semi-linear. Para pequenos valores de , a func~o sigmoide aproxima-se de uma a func~o linear e para grandes valores de a func~o sigmoide torna-se uma func~o a a a degrau. Neste trabalho apenas a func~o sigmoide de nida pela equac~o 4.3 com = 1 a a foi usada como func~o n~o-linear. Assim, a equac~o 4.3 sera chamada de func~o a a a a sigmoide. A de nic~o de uma rede neural consiste na especi cac~o de: a a Um conjunto nito de neur^nios N o Um grafo de conectividade G Um conjunto de coe cientes de ponderac~o W = fwij g formado por numeros a reais Um conjunto de limiares = f ig formado por numeros reais
4.3 Topologia
A topologia de uma rede neural e a forma como s~o conectados os elementos a que comp~em a mesma. Varios modelos tem sido apresentados e os mais utilizados o para reconhecimento de fala s~o 55]: a Redes Recorrentes Kohonen ou Rede Auto-organizadas \ Multilayer Perceptron "
44
Redes Recorrentes s~o sistemas em que as entradas de cada elemento consistem a de uma combinac~o das entradas da rede com as sa das de outros elementos da rede. a Essas redes s~o apropriadas para sistemas com entradas que podem ser representadas a por valores binarios. Redes de Kohonen s~o redes que se auto-organizam a partir da apresentac~o a a sequencial dos vetores de entrada. Essa rede pode ser usada em reconhecimento de fala como um quantizador vetorial. O tipo de rede mais comumente usado em reconhecimento de fala e o \ Multilayer Perceptron ", o qual sera descrito na proxima sec~o 56, 57, 58, 59, 60, 61, 62]. a Esse foi o tipo de rede utilizado neste trabalho.
entradas x1 x2 x3 x4 x5 x6
Pode ser provado que redes \ Multilayer Perceptron " com uma camada escondida e numero su ciente de neur^nios nessa camada podem realizar qualquer tipo o de mapeamento entrada/sa da 63].
45
Para a escolha de par^metros da rede como numero de camadas, numero de a neur^nios por camada e numero de entradas, n~o existe uma regra de nida. Deveo a se manter um compromisso entre a precis~o desejada da rede e o tempo gasto para a treina-la. Ambos aumentam com o aumento do tamanho da rede. A escolha do tipo de entrada e muito importante pois o desempenho da rede depende fortemente desse par^metro. a O conjunto de coe cientes de ponderac~o e limiares s~o obtidos usando-se o a a algoritmo \ Back Propagation ". Esses par^metros s~o calculados de modo a associar a a um determinado vetor de sa da desejado a um determinado tipo de vetor de entrada.
hj = f
1
N X i=0
w ij xi
1
(4.5)
46
wkij h k;
(
1)
i
!
2 k
(4.6) (4.7)
wK
(
+1)
ij hKi
4. Adaptac~o a A adaptac~o dos coe cientes de ponderac~o inicia-se pela camada de sa da e a a segue ate a primeira camada escondida. Para nos na camada de sa da:
wK
(
+1)
(4.8) (4.9)
K +1)j
= yj (1 ; yj )(dj ; yj )
kj h(k;1)i (t)
( +1)
(4.10) (4.11)
= hkj (1 ; hkj )
onde a somatoria e realizada considerando todos os nos que est~o conectados a ao no j na camada k + 1. Para nos na primeira camada escondida:
lw(k+1)jl
w ij (t + 1) = w ij (t) +
1 1 1
j xi (t)
(4.12) (4.13)
= h1j (1 ; h1j )
onde a somatoria e realizada considerando todos os nos que est~o conectados a ao no j na segunda camada escondida (ou camada de sa da se existir apenas uma camada escondida). 5. Volte ao passo 2 e repita o procedimento ate que todos os vetores de entrada tenham sido apresentados. Feito isto, completa-se uma iterac~o. a 6. Repita o procedimento por um determinado numero de iterac~es ou ate que o algum criterio de converg^ncia tenha sido atingido. e
lw2jl
48
Na fase de treinamento, os vetores representando cada palavra no vocabulario e as correspondentes sa das desejadas s~o apresentados a rede de forma sequena cial. Com o uso do algoritmo \ Back Propagation " calculam-se os coe cientes de ponderac~o e os limiares de ativac~o. O conjunto de todos os vetores de entrada e a a denominado sequencia de treinamento e deve conter exemplares de todas as palavras do vocabulario. Os coe cientes de ponderac~o e limiares de ativac~o s~o atualizados a a a apos a apresentac~o de cada vetor da sequ^ncia de treinamento. Quando todos os a e vetores da sequ^ncia de treinamento foram apresentados, concluiu-se uma iterac~o. e a Na fase de reconhecimento, os par^metros representando a palavra desconhea cida s~o apresentados a rede e a sa da desta que apresentar o maior valor e escolhida a como sendo a palavra reconhecida.
50
como pos-processadores e outros como pre-processadores. Neste cap tulo ser~o desa critos alguns dos sistemas propostos.
P(O| 2 )
HMM 2
palavra reconhecida
HMM 3
. . .
HMM K
P(O| K )
Figura 5.1: Sistema H brido usando Rede Neural como pos-processador para HMMs.
Embora esses sistemas apresentem um melhor desempenho, eles requerem esforcos computacionais muito maiores para o treinamento dos mesmos. Em uma
51
primeira fase s~o treinados os HMMs e depois a Rede Neural. Portanto, o treinaa mento apresenta duas fases. Na fase de reconhecimento, o acrescimo computacional e minimo, chegando a ser desprez vel. Esse sistema tambem pode ser usado para combinar as probalidades dos HMMs e as probalidades de durac~o de estados. No cap tulo 3 foi apresentada uma forma a de combinac~o dessas probabilidades usando um coe ciente emp rico w. a log P (q Oj ) = log P (q Oj ) + w
N X j =1
log(Pj (dj ))
(5.1)
Nesta proposta, o calculo do coe ciente w sera feito pela rede neural. Neste tipo de sistema, a entrada da rede e um vetor formado pelas probabilidades de cada modelo e as probabilidades de durac~o de estado. a O tipo de Rede Neural que tem sido empregado nestes sistemas h bridos e o \ Multilayer Perceptron ".
52
algoritmo de Viterbi). Cada palavra do vocabulario e representada por um HMM, sendo que todos apresentam o mesmo numero de estados. Isso e necessario para que se possa conseguir um vetor normalizado para a entrada da rede neural. Apos a segmentac~o, calcula-se o vetor media dos vetores agrupados no mesa mo estado. Assume-se que esses vetores possuem caracter sticas comuns. Assim, cada estado sera representado por um vetor de par^metros. Concatenando-se esses a vetores, tem-se um vetor de dimens~o N:C , onde N e o numero de estados e C e a o numero de coe cientes do vetor de par^metros utilizado para representar o sinal a de fala. Observa-se que a dimens~o do vetor normalizado independe da durac~o do a a sinal de fala. O vetor normalizado e utilizado como entrada da rede MLP que indicara a palavra reconhecida. Como os outros sistemas apresentados ate agora, este tambem possui duas fases: treinamento e reconhecimento. Na fase de treinamento, criam-se os HMMs usando-se um dos algoritmos descritos no cap tulo 3. Depois, cada padr~o da sequ^ncia de treinamento e segmentado a e utilizando-se o HMM correspondente e o algoritmo de Viterbi. Feito isto, calcula-se o vetor media dos par^metros associados a cada estado e assim, obtem-se o vetor a normalizado para cada exemplar da sequ^ncia de treinamento. Esses vetores nore malizados s~o usados para treinar a rede neural. Pode-se utilizar sequ^ncias de a e treinamento diferentes para os HMMs e redes MLP. Para o caso de reconhecimento de K palavras isoladas, na fase de reconhecimento tem-se K modelos dispon veis para segmentar a palavra desconhecida. Para a escolha do modelo que sera usado para a segmentac~o existem varias possibilidades a como: Uso do modelo mais provavel ( gura 5.2) Uso de todos os modelos ( gura 5.3) Quando todos os modelos s~o usados, utiliza-se a rede MLP para os par^metros a a normalizados atraves de cada um dos K HMMs e em seguida as sa das da rede MLP nos K casos podem ser combinadas utilizando-se coe cientes de ponderac~o. Dessa a forma, pode-se escrever: K X Yj = 1=K wiyji (5.2) onde: yji e a j-esima sa da da rede usando o i-esimo HMM
i=1
53
wi e o i-esimo coe ciente de ponderac~o a K e o numero de palavras no vocabulario As probabilidades dos HMMs normalizadas podem ser usadas como os coe cientes de ponderac~o. a Apos a combinac~o a sa da com o maior valor e escolhida como sendo a palavra a reconhecida. Nas guras 5.2 e 5.3 s~o apresentados diagramas em blocos dessas duas possia bilidades de implementac~o deste sistema h brido, combinando HMMs e redes MLP. a
P(O| 1 )
HMM 1
P(O| 2 )
HMM 2 Escolha da normalizao temporal MLP
P(O| 3 )
HMM 3
maior P(O|)
palavra reconhecida
. . .
HMM K
P(O| K )
Figura 5.2: Sistema H brido usando o HMM com maior probabilidade como segmentador para Rede Neural.
w1
MLP
HMM
normalizao temporal
HMM 2
normalizao temporal
w2
MLP
e escolha
palavra reconhecida
HMM 3
normalizao temporal
MLP
w3
da maior sada
. . .
HMM K normalizao temporal
wK
MLP
Figura 5.3: Sistema H brido usando HMMs como segmentadores para rede MLP.
54
(5.3)
Para o treinamento dessa rede pode-se usar como sa da desejada os proprios valores da probabilidade a posteriori obtidos pelo uso de HMMs previamente treinados e utilizar o erro quadratico medio como a func~o a ser minimizada durante o a treinamento. As probabilidades de emiss~o de s mbolos em um HMM com K estados podem a ser estimadas a partir das sa das da rede MLP aplicando-se a regra de Bayes: p(xjqk ) = P (qk jx) (5.4) p(x) P (qk ) Levando-se em conta que o fator p(x) e constante para todas as classes, a densidade de probababilidade de emiss~o de s mbolos p(xjqk ) pode ser obtida dividindo-se a as sa das da rede pela probabilidade de ocorr^ncia da classe qk . Essa probabilidade e e dada por: X P (qk ) = P (qk jxj )p(xj ) (5.5) Considerando-se os s mbolos xj como equiprovaveis, tem-se:
xj 2X
P (qk ) 1=M
x j 2X
P (qk jxj )
(5.6)
onde M e o numero de s mbolos na sequ^ncia de treinamento. e Portanto, a densidade de probabilidade de emiss~o de s mbolos em um HMM a pode ser calculada por: P p(xjqk ) = 1=M P (qk jx)(q jx ) (5.7) xj 2X P k j
HMM
. . .
P(q | x) i
MLP
Figura 5.4: Sistema H brido usando HMMs e Redes Neurais como estimadores de probabilidades a posteriori.
Neste trabalho foi feita uma adaptac~o desse algoritmo para o calculo da dena sidade de probabilidade de emiss~o de s mbolos para um reconhecedor de palavras a isoladas. Neste caso, cada sa da da rede corresponde a um estado do HMM e criou-se uma rede para cada HMM representando uma palavra diferente. Para o treinamento da rede neural usou-se como sa da desejada os valores de t(i) obtidos durante o treinamento dos HMMs e o qual e dado por:
t (i) = N X i=1 t (i) t(i) t(i) t(i)
(5.8)
56
O valor de t(i) e a probabilidade a posteriori P (qt = ijO ), a qual e a probabalidade de estar no estado i no instante de tempo t, dada a sequ^ncia de e observac~o O e o modelo . a Deve-se observar que no calculo de t(i) e considerada toda a sequ^ncia de e observac~o O = fO1 : : : OT g em todos os instantes de tempo, pois no calculo de a e a t(i) considera-se parte da sequ^ncia de observac~o O (O1 : : : Ot ) e no calculo de e a t(i) leva-se em conta o restante da sequ^ncia de observac~o O (Ot+1 : : : OT ). Para o treinamento da rede, apenas parte da sequ^ncia de observac~o e usada em cada e a instante de tempo . Esta proposta apresenta um metodo para calculo da densidade de probabilidade de emiss~o de s mbolos que n~o requer suposic~es sobre o modelamento dos a a o par^metros, como por exemplo, considerar uma mistura de gaussianas. a
57
58
59
de cruzamentos de zero
O algoritmo implementado neste trabalho apresenta algumas modi cac~es em o relac~o ao algoritmo proposto por Rabiner. Nesta implementac~o, o sinal de fala a a foi segmentado em quadros de 10 ms (80 amostras) e para o calculo dos limiares do sil^ncio/ru do foram utilizados os primeiros e os ultimos 100 ms do intervalo de grae vac~o. O segmento que apresentar o menor valor de energia e escolhido como reprea sentando o sil^ncio/ru do e a partir dele s~o calculados os limiares do sil^ncio/ru do. e a e Para o limiar xo da taxa de cruzamento de zero usou-se o valor 20 e utilizou-se um limiar superior de energia igual a 4 vezes o limiar inferior de energia. Para analisar os valores da taxa de cruzamento de zero usou-se N = 15 quadros (150 ms) e o ponto inicial ou nal era alterado sempre que a taxa de cruzamento superasse o limiar por tr^s quadros consecutivos. e
60
O equalizador adaptativo faz uma normalizac~o da energia de cada quadro a a partir do valor m nimo de energia do sinal. Como resultado dessa normalizac~o os a per odos de sil^ncio apresentam energia normalizada em torno de 0 dB enquanto e que os per odos que cont^m sinal de fala apresentam energia superior. e A partir da energia normalizada s~o de nidos quatro limiares, mostrados na a gura 6.4, que s~o usados para determinar os pulsos de energia. a
energia normalizada
k 2 k3 k 1 tempo
Apos a detecc~o dos pulsos de energia, mede-se a durac~o dos mesmos e a a a dist^ncia entre eles. Se essa dist^ncia for menor que um limiar, assume-se que esses a a pulsos pertencem a mesma palavra. A durac~o total dos pulsos combinados deve a estar acima de um determinado limiar. Se isto acontecer, conseguiu-se detectar uma palavra e o ponto inicial do primeiro pulso juntamente com o ponto nal do ultimo pulso s~o de nidos como os pontos limitantes da palavra. a Esse algoritmo e denominado \ bottom-up " devido a comparac~o da energia a com os limiares se iniciar com o limiar de menor valor, detectando-se primeiramente
61
os quadros com menor energia. Na implementac~o deste algoritmo usou-se quadros de 10 ms (80 amostras) e a os seguintes valores de limiares de energia: K1 = 3 dB K2 = 10 dB K3 = 5 dB K4 = 15 dB Como limiares de durac~o foram usados os seguintes valores: a Durac~o m nima dos pulsos de energia: 70 ms a Separac~o maxima entre os pulsos: 150 ms a Intervalo para determinar a presenca ou aus^ncia de qualquer ru do nos pontos e inicial e nal: 70 ms
62
Sim
Figura 6.5: Procedimento para detecc~o de pulsos de energia no algoritmo \ top-down ". a
63
Para a comparac~o, variou-se o numero de estados dos HMMs e tambem o a tamanho do \ codebook ", os quais foram combinados e resultaram em diferentes reconhecedores. Os reconhecedores implementados usando MLP apresentavam 1280 entradas, uma camada escondida com 100 neur^nios e 50 sa das. Foram utilizados coe cieno tes \ Mel Frequency Cepstrum " (16 coe cientes por vetor) (sec~o 6.5). Para o a treinamento dos reconhecedores foi empregado o algoritmo \ Back Propagation ". Os algoritmos \ bottom-up " e \ top-down " foram implementados com e sem a utilizac~o de pre-^nfase. Quando esta foi utilizada, o valor do coe ciente de a e pre-^nfase empregado foi de 0.95. e As tabelas 6.1 e 6.2 apresentam os desempenhos dos reconhecedores em termos de porcentagem de acerto, para cada um dos algoritmos de detecc~o de in cio/ m a implementados. Analisando-se os resultados das tabelas 6.1 e 6.2 observa-se que: A ordem de desempenho dos algortimos foi a mesma para as duas tecnicas utilizadas pelos reconheceodres. Em todos os casos o algoritmo \ bottom-up " com pre-^nfase mostrou-se superior aos demais. e A utilizac~o da pre-^nfase melhorou consideralmente o desempenho dos algoa e ritmos \ bottom-up " e \ top-down ". O uso da pre-^nfase torna mais precisa a e detecc~o dos pontos inicial/ nal das palavras que apresentam fricativas nessas a regi~es. o O desempenho dos detectores \ bottom-up " e \ top-down " e bastante parecido. Mais uma vez isso e justi cado pelo baixo n vel do ru do de fundo. As diferencas ocorrem para palavras comecando ou terminando com fricativas. O bom desempenho do detector \ endpoints " e explicado pelo uso da taxa de cruzamento de zero e baixo n vel de ru do de fundo. Quando a relac~o sinal/ru do e baixa, a taxa de cruzamento de zero deixa de ser um bom a par^metro para detectar fricativas. a Variando-se os par^metros dos reconhecedores (numeros de estados e tamaa nho do \ codebook "), o desempenho dos mesmos variou da mesma forma para todos os detectores de in cio/ m. Isso mostra que essa mudanca de desempenho e devida as alterac~es na topologia dos reconhecedores. Pode-se concluir o que n~o e possivel recuperar os erros do detector de in cio/ m alterando-se a a topologia do reconhecedor.
64
Tabela 6.1: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto para os diferentes algoritmos de detecc~o de in cio/ m. a algoritmo de % de acerto detecc~o de in cio/ m a \ endpoints " 91.29 \ top-down " 85.59 \ top-down " com 91.65 pre-^nfase e \ bottom-up " 89.06 \ bottom-up " com 93.00 pre-^mfase e Tabela 6.2: Desempenho de reconhecedores de palavras isoladas independente do locutor usando MLP para os diferentes algoritmos de detecc~o de in cio/ m. a
65
A partir dos resultados das tabelas 6.1 e 6.2 e levando-se em conta que os erros na detecc~o de in cio/ m de cada algoritmo ocorriam em palavras diferentes, a resolveu -se combinar dois dos algoritmos para a obtenc~o de reconhecedores mais a robustos. Como os detectores \ bottom-up " e \ top-down " s~o similares e o a desempenho do primeiro foi levemente superior, combinou-se o algoritmo \ bottomup " com pre-^nfase com o algoritmo \ endpoints ". Esse resultado e apresentado e nas tabelas 6.3 e 6.4.
algoritmo de tamanho do codebook numero de estados % de acerto detecc~o de in cio/ m a \ bottom-up " 5 90.82 com 64 10 93.24 pre-^nfase e 15 93.41 e 5 90.94 \ endpoints " 128 10 92.88 15 93.53 Tabela 6.3: Desempenho dos reconhecedores de palavras isoladas independente do locutor usando HMM discreto e combinando dois algoritmos de in cio/ m. algoritmo de % de acerto detecc~o de in cio/ m a \ bottom-up " com pre-^nfase e 92.00 e \ endpoints " Tabela 6.4: Desempenho dos reconhecedores de palavras isoladas independente do locutor usando MLP combinando dois algoritmos de in cio/ m.
A partir dos resultados das tabelas 6.3 e 6.4 observa-se que houve um aumento na taxa de acerto apenas para os reconhecedores usando HMM, enquanto para os reconhecedores usando MLP ocorreu uma diminuic~o. a Em uma tentativa de melhorar o desempenho dos reconhecedores, adiantou-se o ponto inicial em 5 quadros e atrasou-se o ponto nal tambem em 5 quadros. As tabelas 6.5 e 6.6 apresentam os resultados obtidos.
algoritmo de tamanho do codebook numero de estados % de acerto detecc~o de in cio/ m a \ bottom-up " 5 92.65 com pre-^nfase e 64 10 93.76 e \ endpoints " 15 94.24 e deslocamento 5 92.59 de 5 128 10 94.12 quadros 15 94.82 Tabela 6.5: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e combinando dois algoritmos de in cio/ m e deslocamento de 5 quadros nos pontos inicial/ nal.
66
Tabela 6.6: Desempenho dos reconhecedores de palavras isoladas independente do locutor usando MLP e combinando dois algoritmos de in cio/ m e deslocamento de 5 quadros nos pontos inicial/ nal.
Analisando-se os resultados obtidos, pode-se perceber que pequenas alterac~es o nos pontos de in cio/ m in uenciam o desempenho dos reconhecedores. Isso mostra a grande import^ncia de uma detecc~o precisa dos pontos limitantes de uma palavra. a a O melhor desempenho dos detectores de in cio/ m ocorreu quando combinouse os detectores \ endpoints " e \ bottom-up " com pre-^nfase e deslocou-se os pontos e limitantes em 5 quadros. Assim, adotou-se esse detector em todos os reconhecedores que foram implementados neste trabalho.
67
Dist^ncia Euclidiana a
E a mais comum medida de distorc~o, principalmente devido a sua simplicia dade. Essa medida e de nida por 84]:
d (x xi) = ^
2
K X
j =1
(xj ; xij )2 ^
(6.1)
Dist^ncia de Mahalanobis a
Nessa medida, para cada coe ciente do vetor x podem ser atribu dos pesos diferentes e assim eles contribuem de forma diferenciada para a distorc~o. De ne-se a essa medida como 84]:
(6.2)
onde W e uma matriz de nida positiva, a qual pode ser diagonal ou cheia. E usual o uso da matriz Covari^ncia como matriz de ponderac~o. a a
Ui)
(6.3)
onde: Prx^i e a probabilidade de ocorrer o vetor codigo xi ^ G(x i Ui) e a func~o densidade de probabilidade Gaussiana a A func~o densidade de probabilidade Gaussiana multidimensional e dada por: a 1 (6.4) G(x i Ui) = (2 )dim=2jU j1=2 expf;(x ; i)Ui;1 (x ; i ) =2g i
0
onde: dim e a dimens~o do vetor x a jUij e o determinante da matriz covari^ncia Ui a ;1 e a matriz covari^ncia inversa Ui a
68
69
M=1
M = 2M
no
sim M<N
no Fim
Visando uma comparac~o mais ampla variou-se o numero de estados dos a HMMs e tambem o tamanho do \ codebook ", os quais foram combinados e resultaram em diferentes reconhecedores. Os resultados obtidos s~o mostrados na a tabela 6.7.
70
Tabela 6.7: Desempenho de reconhecedores de fala independente do locutor para codebooks usando HMM discreto e diferentes tipos de medidas de distorc~o. a
Analisando-se os resultados da tabela 6.7 observa-se: Para \ codebooks " com 64 vetores codigo, o melhor desempenho foi obtido pelos reconhecedores utilizando a func~o densidade de probabilidade gaussiaa na com matriz covari^ncia cheia, seguido pelos reconhecedores que usam a a func~o densidade de probabilidade gaussiana simpli cada. Isso evidencia a a superioridade dessas medidas em relac~o as outras. a Para \ codebooks " com 128 vetores codigo, a dist^ncia Euclidiana foi superior, a vindo a seguir a dist^ncia func~o densidade de probabilidade gaussiana com a a matriz diagonal. A degradac~o de desempenho dos reconhecedores que utilizam a func~o densia a
71
dade de probabilidade gaussiana com matriz covari^ncia cheia com o aumento a do tamanho do \ codebook " e explicada pelo fato de que aumentou-se o numero de par^metros a ser estimado e manteve-se a mesma sequ^ncia de a e treinamento. Isso acarreta erro principalmente na estimativa da matriz covari^ncia. Com o uso da matriz covari^ncia diagonal, nota-se uma alterac~o a a a menor no desempenho pois esta apresenta um numero menor de par^metros a para ser estimado. N~o foram obtidos bons resultados empregando-se a dist^ncia de Mahalanoa a bis. Neste caso, usou-se como matriz de ponderac~o a matriz covari^ncia de a a toda a sequ^ncia de treinamento. Isso n~o e apropriado pois dessa forma n~o e a a s~o enfatizadas as caracter sticas dos vetores de cada celula. A melhor soluc~o a a e utilizar uma matriz covari^ncia para cada celula como mostram os resula tados obtidos com a dist^ncia func~o densidade de probabilidade gaussiana a a simpli cada. Os esforcos computacionais associados ao uso da func~o densidade de proa babilidade gaussiana com matriz cheia s~o enormes pois envolvem a invers~o de a a matrizes e a calculo de muitos par^metros. Para efeito de comparac~o, o tempo de a a CPU (estac~es Sun SPARK 20) utilizado para gerar um \ codebook " com 64 veo tores codigo utilizando-se func~o densidade de probabilidade gaussiana com matriz a cheia e da ordem de 24 horas, enquanto para func~o densidade de probabilidade a gaussiana com matriz diagonal gasta-se aproximadamente 1 hora. Para criar esse mesmo \ codebook " utilizando-se a dist^ncia Euclidiana s~o necessarios 30 minutos. a a Na criac~o dos \ codebooks " incluiu-se nos algoritmos um procedimento para a a eliminac~o de celulas vazias ou que continham apenas 1 vetor. Isso e necessario a quando se usam dist^ncias que incluem a matriz covari^ncia pois neste caso poa a dem ocorrer erros durante a invers~o dessas matrizes. Para evitar esse problema a e necessario o aumento da sequ^ncia de treinamento a medida que aumenta-se o e tamanho do \ codebook ". Finalizando, reconhecedores que usaram \ codebooks " com dist^ncia Euclia diana apresentaram um bom desempenho e os esforcos computacionais requeridos foram muito menores. Dessa forma, resolveu-se adotar a dist^ncia Euclidiana como a medida de distorc~o na gerac~o de \ codebooks " para os HMMs discretos. Pode-se a a a rmar que as perdas devido a essa escolha foram m nimas.
72
A pre-^nfase tem por func~o compensar a atenuac~o nas altas frequ^ncias e a a e devido aos pulsos glotais e ao efeito da radiac~o dos labios. A pre-^nfase e realizada a e por um ltro FIR com a seguinte transformada Z 85]:
h (z ) = 1 ; z ;
(6.6)
onde assume valores proximos a 1. Neste trabalho usou-se = 0:95. Devido a n~o estacionariedade do sinal de fala, este e dividido em quadros a para o calculo dos par^metros. A durac~o dos quadros e escolhida de forma que a a os par^metros sejam validos durante o per odo de durac~o dos mesmos (consideraa a se o sinal de fala dentro do quadro como quase estacionario ) e representa um compromisso entre a taxa de mudanca do espectro e a complexidade do sistema. Para o calculo dos par^metros, e usual empregar-se intervalos de analise a maiores que os quadros, com superposic~o de intervalos de analise adjacentes a como uma forma de se evitar grandes utuac~es dos par^metros calculados. o a Nesse caso, uma parte das amostras nais do intervalo anterior e uma parte das amostras iniciais do intervalo posterior fazem parte do intervalo atual de analise. Os intervalos de analise s~o multiplicados por uma janela, usualmente a janela de a Hamming, que produzira uma suavizac~o dos par^metros. Essa janela da maior a a ^nfase as amostras localizadas no centro da janela e e representada pela equac~o 85]: e a
73 (6.7)
Em reconhecimento de fala usam-se quadros com durac~o entre 10 e 20 ms e a janelas com durac~o entre 20 e 30 ms. Neste trabalho adotou-se o valor de 10 ms a para os quadros e 20 ms para a janela de Hamming. A gura 6.8 ilustra o processo de superposic~o de janelas. a
janela 4 janela 3 quadro 1 janela 1 janela 2 quadro 2 quadro 3 quadro 4
Para representar o sinal de fala, foram calculados e analisados os seguintes par^metros: a Coe cientes LPC S~o os coe cientes ak do preditor na analise LPC. Para o calculo desses a coe cientes foi usado o metodo de autocorrelac~o e o algoritmo de Durbin a 86, 87, 88]. Coe cientes Parcor Os coe cientes parcor ki s~o obtidos como um subproduto do calculo dos a coe cientes LPC pelo metodo de autocorrelac~o. Esses coe cientes podem ser a obtidos diretamente dos coe cientes do preditor usando-se a seguinte forma recursiva 86]: ki = a(ii) (6.8)
i aji + aii ai;j 1 j i;1 1 ; ki onde i varia de P a 1 e inicialmente tem-se: ajP = aj 1 j P
aji;
(
1)
( )
( ) ( ) 2
(6.9) (6.10)
( )
74
Coe cientes LPC Cepstrais Os coe cientes cepstrais podem ser obtidos por um metodo iterativo diretamente dos coe cientes LPC, usando-se as equac~es 86]: o
gi = log 1 ; ki 1+k
(6.11)
c = a
1
(6.12)
n;1 X m=1
cn = an + cn =
n;1 X m=1
mc a n m n;m
2 n P
(6.13) (6.14)
mc a n m n;m
n>P
Coe cientes FFT Cepstrais Para o calculo desses coe cientes, calcula-se a Transformada Discreta de Fourier do sinal de fala, a seguir o logaritmo da magnitude da Transformada Discreta de Fourier e depois a Transformada Discreta de Fourier Inversa do logaritmo da magnitude 85]. X 1 M ;1 log jS (k)je(2 =M )kn 1 n N (6.15) c(n) = M c 10 k=0 onde: M e o numero de pontos da DFT Nc e o numero de coe cientes cepstrais Coe cientes \ Liftered Cepstral " S~o calculados multiplicando-se os coe cientes cepstrais por uma janela de a ponderac~o, a qual de-enfatiza os coe cientes nas extremidades devido a maior a sensibilidade destes ao ru do 8].
(6.16)
75 (6.17)
Coe cientes \ Bilinear Transformed Cepstral " Esses coe cientes s~o obtidos a partir dos coe cientes LPC cepstrais usana do uma transformac~o bilinear. Usualmente a transformac~o bilinear a a produz uma compress~o na escala de frequ^ncias 85]. Os coe cientes a e \ bilinear transformed " s~o dados pela recurs~o: a a
cbti (0) =
( )
(i;1) bt cbt (0) + c(Nc ; i) (i;1) (i;1) 2 bt cbt (1) + (1 ; bt )cbt (0) (i;1) (i) (i;1) bt (cbt (n) ; cbt (n ; 1)) + cbt (n ; 1)
cbti (1) =
( )
cbti (n) =
( )
Nc e o numero de coe cientes ceptrais Nbt e o numero de coe cientes Bilinear Transformed a bt e o coe ciente da transformac~o bilinear
Coe cientes \ Mel Frequency Cepstrum " O calculo desses coe cientes envolve o uso de um banco de ltros espacados na escala Mel e o calculo do logaritmo da energia na sa da de cada ltro seguido de uma Transformada Discreta do cosseno (DCT) 89]:
c(n) =
M X k=1
(6.22)
onde: X (k) e a energia na sa da do k-esimo ltro M e o numero de ltros N e o numero de coe cientes A escala Mel e apresentada na tabela 6.8 85]. O banco de ltros normalmente e implementado como um banco de ltros triangulares com largura de faixa BW e posicionados nas frequ^ncias centrais discriminadas. e
76
Coe cientes \ Mel Frequency Cepstrum " Normalizados S~o calculados pela seguinte equac~o 90]: a a
c(n) =
M X k=1
1 n N
(6.23)
onde: X (k) e a energia na sa da do k-esimo ltro Lk e a largura de faixa do k-esimo ltro em Hz M e o numero de ltros. N e o numero de coe cientes Coe cientes \ Bark Frequency Cepstrum " Esses coe cientes s~o obtidos da mesma forma que os coe cientes Mel mas a utilizando um banco de ltros espacados segundo a escala Bark. A escala Bark e apresentada na tabela 6.9 85]. Coe cientes \ Linear Frequency Cepstrum " Repete-se o mesmo procedimento descrito para os coe cientes Mel e Bark, mas usando-se um banco de ltros linearmente espacados. O espacamento entre as
77
frequ^ncias centrais dos ltros e de 100 Hz e a faixa dos mesmos tambem e de e 100 Hz. Coe cientes \ Line Spectrum Frequencies " Esses coe cientes s~o as frequ^ncias dos zeros no c rculo unitario dos seguintes a e polin^mios 5]: o P (z) = A(z) + z;(P +1)A(z;1) (6.24)
Q(z) = A(z) ; z; P A(z; ) onde: A(z) e o ltro inverso do preditor dado por:
( +1) 1
(6.25) (6.26)
A(z) = 1 ;
P X
k=1
ak z ;k
Uma forma de se obter esses coe cientes e calcular a DFT dos coe cientes dos polin^mios P (z) e Q(z). Os zeros podem ser estimados por interpolac~o. Os o a zeros wi de P (z) e Q(z) ocorrem alternadamente e tem-se: 0 < w1 < w2 < : : : < wP < . Coe cientes \ Mel Frequency " S~o iguais ao logaritmo da energia na sa da de cada ltro do Banco de Filtros a na escala Mel.
78
(6.27)
3. Calculo das sa das de um banco de ltros na escala Bark usando o espectro de pot^ncias como entrada. e 4. Pre-^nfase utilizando curva de equalizac~o de sonoridade e a ( (!)) = E (!) ( (!)) onde:
2 6 4 2 6 2 2 9
(6.28)
( + ! (6.29) E (!) = (! + 6!3 10 56:(8!10 )0:38 10 ) : ) + ( (!)) e a sa da do k-esimo ltro w e a frequ^ncia em rad/s e (!) e a frequ^ncia na escala BARK correspondente a frequ^ncia w e e 5. Compress~o Intensidade - Sonoridade a ( ) = ( )1=3 (6.30) 6. Calculo da Transformada Discreta de Fourier Inversa 7. Os primeiros M + 1 valores da transformada inversa s~o usados como a valores de autocorrelac~o no metodo de predic~o linear. A resoluc~o a a a dessas equac~es fornece os coe cientes PLP. o Coe cientes PLP Parcor S~o os coe cientes Parcor obtidos pelo metodo de predic~o linear na analise a a PLP.
79
Coe cientes PLP Cepstrais Esses coe cientes s~o obtidos a partir dos coe cientes PLP usando-se as a equac~es 6.12 a 6.14. o Coe cientes RASTA-PLP O calculo desses coe cientes envolve o uso da tecnica RASTA (\ Relative Spectral ") incorporada a analise PLP. Os passos desse procedimento ser~o a descritos a seguir 92]: 1. Calculo da Transformada Discreta de Fourier do sinal de fala 2. Calculo do espectro de pot^ncia. e 3. Calculo das sa das de um banco de ltros na escala Bark usando o espectro de pot^ncias como entrada. e 4. Transformac~o da amplitude spectral (sa das dos ltros) por uma coma press~o n~o linear (logaritmo) a a 5. Filtragem da componente espectral transformada. Pode-se usar o seguinte ltro: ;1 ;3 ; ;4 H (z) = 0:1z4 2 + z1 ;; :z z;1 2z (6.31) 0 98 6. Transformac~o da sa da do ltro por uma expans~o n~o linear (func~o a a a a exponencial) 7. Pre-^nfase utilizando curva de igual sonoridade e 8. Compress~o Intensidade - Sonoridade a 9. Calculo da Transformada de Fourier Inversa 10. Os primeiros M + 1 valores da transformada inversa s~o usados como a valores de autocorrelac~o no metodo de predic~o linear. A resoluc~o a a a dessas equac~es fornece os coe cientes RASTA-PLP. o Coe cientes RASTA-MEL Para a obtenc~o dos coe cientes RASTA-MEL usa-se o mesmo procedimento a descrito para os coe cientes RASTA-PLP, substituindo-se o banco de ltros na escala BARK por um banco de ltros na escala MEL. Energia
80
E=
s (i)
2
(6.32)
onde N e o numero de amostras da janela de analise. Neste trabalho usou-se a energia normalizada , dada por:
EN = log(E ) ; log(Emax)
(6.33)
onde Emax corresponde a janela de maxima energia para uma dada palavra.
81
Ordem LPC: 12 Numero de pontos para calculo da FFT: 512 Numero de ltros Mel: 19 Numero de tros BARK: 17 Numero de ltros Lineares: 39 Coe ciente da Transformac~o Bilinear: 0.6 a No calculo dos coe cientes PLP e RASTA-PLP foi usado um banco de ltros triangulares com 17 ltros na escala BARK No calculo dos coe cientes RASTA-MEL foi usado um banco de ltros triangulares com 17 ltros na escala MEL Como o numero de entradas da rede neural e xo, usou-se janelas de 20 ms com superposic~o variavel para calculo dos par^metros, mantendo-se xo o numero a a de quadros. Os resultados obtidos est~o apresentados na tabela 6.10. a
Tipo Numero % de Acerto de Coe ciente de coe cientes HMM 1 HMM 2 LPC 12 80.00 82.41 PARCOR 12 85.76 86.12 Raz~o Log Area a 12 82.76 87.41 Cepstral 12 87.12 87.88 Bilinear transformed Cep. 13 89.94 90.94 liftered Cep. 12 88.24 88.88 Mel frequency Cep. 12 92.06 91.94 Mel frequency Cep. 16 92.82 92.24 Mel frequency Cep. 18 92.65 92.29 Bark frequency Cep. 12 92.12 92.82 FFT Cep. 12 88.71 89.47 Line Spectrum frequencies 12 71.35 82.41 Linear frequency Cepstrum 12 89.65 90.76 Mel frequency Cep. normalizado 12 92.06 92.65 Mel frequency 12 85.35 87.35 Bark frequency 12 85.12 86.71 PLP 5 87.53 89.65 PLP parcor 5 88.06 90.41 PLP cepstral 5 89.06 89.29 RASTA-PLP 5 87.00 86.06 PLP 12 86.71 88.65 PLP parcor 12 89.53 93.35 PLP cepstral 12 90.12 91.35 RASTA-PLP 12 85.88 88.06 RASTA-MEL 12 87.53 85.94 MLP 86.24 86.18 86.18 91.00 91.06 91.06 92.29 93.41 92.76 92.41 91.41 73.82 91.88 92.18 92.29 90.71 90.06 88.65 89.59 89.06 92.47 92.12 92.53 89.35 81.35
Tabela 6.10: Desempenho de reconhecedores de palavras isoladas independente do locutor utilizando diferentes tipos de par^metros, onde: HMM 1 = HMM discreto sem detecc~o de in cio/ m, a a HMM 2 = HMM discreto com detecc~o de in cio/ m e MLP = \ Multilayer Perceptron ". a
82
83
A partir dessas considerac~es, pode-se concluir que para sistemas com baixo o n vel de ru do, o coe ciente \ Mel Frequency Cepstrum " e um bom par^metro para a representar o sinal de fala para ns de reconhecimento. Assim, decidiu-se usar esse tipo de par^metro (16 coe cientes por vetor) nas demais simulac~es para avaliac~o a o a dos reconhecedores.
Variac~o Temporal a Como uma forma de melhor caracterizar as variac~es do sinal de fala ao longo o do tempo est~o sendo usadas as derivadas temporais dos par^metros propostos a a . Para calculo das derivadas, basicamente tr^s metodos t^m sido usados 85, 8]: e e
delta(n) =
K X k=;K
ksi;k (n)=(2K + 1)
84
Novamente, para a comparac~o desses par^metros foram implementados recoa a nhecedores de palavras isoladas empregando as tecnicas HMM e Redes Neurais com as mesmas caracter sticas descritas no item anterior. Inicialmente, variou-se o valor de K na equac~o 6.36 e e avaliou-se o desema penho de reconhecedores usando HMM discreto, sem detecc~o de in cio/ m e coea cientes \ Mel frequency Cepstrum " com subtrac~o da media. Os resultados da a comparac~o s~o mostrados na tabela 6.11. a a Valor de K % Acerto 2 89.41 3 93.18 5 96.00 7 95.82 9 94.71
Tabela 6.11: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com coe cientes delta-Mel com remoc~o da media, calculados segundo a equac~o a a 6.36.
Observa-se que o melhor desempenho ocorreu para K = 5. Isso mostra que 110 ms (11 quadros de 10 ms) e um bom intervalo para capturar as variac~es temporais. o Assim, adotou-se nas demais simulac~es esse valor para o calculo de coe cientes o delta usando a equac~o 6.36. a Na tabela 6.12 s~o mostrados os desempenhos de reconhecedores de palavras a isoladas com HMM discreto usando coe cientes delta calculados segundo as equac~es o 6.36 (1), 6.37 (2) e 6.38(3) a partir de coe cientes Mel e coe cientes Mel com remoc~o a da media. Na equac~o 6.36 usou-se K = 5 e na equac~o 6.38 usou-se K = 2. a a Coe cientes % de Acerto Delta-Mel 1 95.47 Delta-Mel 2 31.94 Delta-Mel 3 89.18 Delta-Mel-SME 1 96.00 Delta-Mel-SME 2 31.12 Delta-Mel-SME 3 88.76
Tabela 6.12: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com coe cientes delta, calculados segundo as equac~o 6.36 (1), 6.37 (2) e 6.38 (3). a
Analisando-se a tabela 6.12 nota-se que os reconhecedores com melhores desempenhos usaram coe cientes delta calculados pela equac~o 6.36. Dessa forma, a adotou-se esse metodo para calculo de coe cientes delta neste trabalho.
85
Escolhido o metodo para calcular os coe cientes delta, foram implementados reconhecedores de palavras isoladas usando HMM discreto sem detecc~o de a in cio/ m (HMM D 1), HMM discreto com detecc~o de in cio/ m (HMM D 2), a HMM semicont nuo (HMM SC), HMM cont nuo (HMM C) e \ Multilayer Perceptron " (MLP) usando coe cientes obtidos a partir dos coe cientes Mel. Os reconhecedores usando HMM discreto e MLP s~o os mesmos descritos anteriormente e os a outros apresentam as seguintes caracter sticas: HMM Semicont nuo: 10 estados \ Codebook " com 128 vetores codigo com matriz covari^ncia diagonal a Treinamento: algoritmo \ Forward-Backward " Reconhecimento: algoritmo \ Forward " Usou-se detecc~o de in cio/ m a HMM Cont nuo: 10 estados 3 misturas com matriz covari^ncia diagonal a Treinamento: algoritmo \ Forward-Backward " Reconhecimento: algoritmo \ Forward " Usou-se detecc~o de in cio/ m a Os resultados s~o apresentados na tabela 6.13. a Tipo % de Acerto de Coe ciente HMM D 1 HMM D 2 HMM SC HMM C MLP Mel freq. Cep. 92.82 92.24 93.47 90.29 93.41 Mel freq. Cep.- SME 95.35 94.12 95.41 95.71 89.59 Mel freq. Cep. suavizado 89.88 89.82 89.71 86.18 92.94 Delta-Mel-SME 96.00 94.47 96.94 94.00 86.65 Delta-Mel 95.47 93.24 96.88 93.47 89.35
Tabela 6.13: Desempenho de reconhecedores de palavras isoladas com coe cientes obtidos a partir dos coe cientes Mel.
A partir dos resultados das tabela 6.13 observou-se que a remoc~o da media a melhorou muito o desempenho dos reconhecedores utilizando a tecnica HMM enquanto o desempenho dos reconhecedores utilizando MLP piorou. Alem disso, deve ser ressaltado o bom desempenho dos coe cientes Delta para os HMMs. O uso de suavizac~o apresentou bom resultado apenas para os reconhecedores usando MLP. a Dessa forma, resolveu-se usar coe cientes Mel com remoc~o da media para os recoa nhecedores implementados usando HMM e coe cientes Mel sem remoc~o da media a para os reconhecedores implementados usando \ Multilayer Perceptron ".
86
88
Sequ^ncia 3: formada por tr^s elocuc~es de cada palavra por locutor. e e o Todas a simulac~es foram realizadas em estac~es Sun SPARC 20. o o A descric~o completa da Base de Dados e Ambiente de Simulac~o esta aprea a sentada no Anexo A.
a12
S S -m a -m a -& -a
2 23 13 24
a34 -
S m %
4
Foram realizadas implementac~es permitindo que qualquer estado fosse o eso tado nal e tambem restringindo o estado nal ao ultimo estado. Em muitas simulac~es realizadas usou-se o mesmo numero de estados para o todas as palavras, mas em outras foram usados numeros de estados diferentes para cada palavra. Neste caso, o numero de estados e aproximadamente o numero de fonemas das palavras mais dois. Na tabela 7.1 est~o mostradas as palavras do a vocabulario e o correspondente numero de estados utilizado nas simulac~es em que o se usaram numeros de estados diferentes por palavra.
7.2.1 Treinamento
O treinamento dos modelos foi feito usando-se o algoritmo \ Forward-Backward " ou alternadamente o procedimento \ K-means " com o algoritmo de Viterbi. Os modelos representando cada palavra foram treinados separadamente e o treinamento era nalizado quando a diferenca entre as probabilidades medias P (Oj ) de duas iterac~es consecutivas fosse menor que 0.1%. o
7.2.2 Reconhecimento
No reconhecimento foram utilizados os algoritmos \ Forward " ou Viterbi. Escolheu-se como palavra reconhecida, a palavra representada pelo modelo que apre-
89
Tabela 7.1: Numero de estados usado para representar cada palavra nas simulac~os em que usarame se numeros de estados diferentes por palavra.
sentava a maior probabilidade P (Oj ). Para avaliar os reconhecedores, foram utilizadas palavras faladas por 34 locutores (21 homens e 13 mulheres) diferentes dos locutores usados no treinamento. Utilizou-se apenas uma elocuc~o de cada palavra por locutor. a
90
para a criac~o do \ codebook " n~o esta inclu do nos tempos de treinamento que a a ser~o apresentados no decorrer do trabalho. a
91
Analisando-se os resultados observa-se que o algoritmo \ Forward-Backward " requer um esforco computacional muito maior que o algoritmo de Viterbi para o treinamento, enquanto no reconhecimento o algoritmo de Viterbi gasta quase o dobro do tempo do algoritmo \ Forward ". Os desempenhos dos reconhecedores s~o basa tante proximos, com uma leve superioridade da combinac~o \ Forward-Backward " a para treinamento e \ Forward " para reconhecimento. Deve-se ressaltar tambem, que com a utilizac~o do detector de in cio/ m diminui-se consideravelmente o tempo a de processamento. Considerando a detecc~o de in cio/ m, o uso do ultimo estado a como estado nal apresentou uma ligeira melhora sobre o uso de qualquer estado como estado nal.
92
Tabela 7.4: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com diferentes numeros de estados e considerando sequ^ncias de treinamento de e varios tamanhos. Utilizou-se \ codebook " com 128 vetores codigo. N~o foi utilizado detector de a in cio/ m. Criac~o do a \ codebook " sequ^ncia de e treinamento 1 sequ^ncia de e treinamento 1 sequ^ncia de e treinamento 1 sequ^ncia de e treinamento 2 sequ^ncia de e treinamento 3 Treinamento Tamanho % de dos HMMs do \ codebook " Acerto sequ^ncia de e 64 95.53 treinamento 128 95.35 1 256 94.41 sequ^ncia de e 64 94.88 treinamento 128 96.06 2 256 96.29 sequ^ncia de e 64 96.00 treinamento 128 96.47 3 256 96.59 sequ^ncia de e 64 95.82 treinamento 128 95.94 2 256 95.76 sequ^ncia de e 64 96.59 treinamento 128 96.41 3 256 97.18
Tabela 7.5: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com \ codebooks " de varios tamanhos e considerando diferentes sequ^ncias de e treinamento. Os reconhecedores apresentavam 10 estados. N~o foi utilizado detector de in cio/ m. a
permitindo que qualquer estado fosse o estado nal. No treinamento e reconhecimento foram usados os seguintes algoritmos:
93
Treinamento: algoritmo \ Forward-Backward " Reconhecimento: algoritmo \ Forward " Na tabela 7.6 s~o apresentados os desempenhos de reconhecedores usando coea cientes Mel e Mel-SME e varios tamanhos de \ codebook ". N~o foi usado o detector a de in cio/ m e para o treinamento foi empregada a sequ^ncia 1. e
Numero Tipo de Tamanho do % de de estados Coe ciente \ codebook " Acerto 64 93.24 10 Mel 128 92.82 256 92.53 64 95.53 10 Mel-SME 128 95.35 256 94.41 Tabela 7.6: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com \ codebooks " de varios tamanhos.
Analisando-se os resultados da tabela 7.6 observa-se que o desempenho do reconhecedor piora com o aumento do tamanho do \ codebook ", independentemente do tipo de coe ciente utilizado. Isso ocorre devido ao aumento do numero de par^metros a estimar. Para melhorar o desempenho seria necessaria uma sequ^ncia a e de treinamento maior. A tabela 7.7 mostra os desempenhos de reconhecedores usando coe cientes Mel-SME, diferentes numeros de estados e varios tamanhos de \ codebook ". Tambem n~o foi usado o detector de in cio/ m e para o treinamento foi empregada a a sequ^ncia 1. e
Numero Tamanho do % de Tempo medio de de estados \ codebook " Acerto reconhecimento (1 palavra) (s) 64 93.71 0.14 5 128 93.94 0.15 256 93.65 0.15 64 95.53 0.43 10 128 95.35 0.44 256 94.41 0.44 64 95.18 0.89 15 128 95.71 0.91 256 95.00 0.91 Tabela 7.7: Desempenho de reconhecedores de palavras isoladas independente do locutor usando usando HMM discreto, coe cientes Mel-SME com \ codebooks " de varios tamanhos e diferentes numeros de estados.
Considerando-se os desempenhos dos reconhecedores da tabela 7.7 nota-se que o aumento do numero de estados melhora a taxa de acerto do reconhecedor para
94
todos os \ codebooks " implementados. Isso mostra a import^ncia do numero de a estados em HMM. Alem disso, nota-se tambem que com o aumento do numero de par^metros, o tempo de processamento aumenta consideravelmente. a Para avaliar melhor a in u^ncia do numero de estados no desempenho do ree conhecedor, foram implementados varios reconhecedores com diferentes numeros de estados, utilizando coe cientes Mel-SME. A tabela 7.8 mostra os resultados obtidos sem o uso de detecc~o de in cio/ m, enquanto a tabela 7.9 apresenta o desempenho a de reconhecedores empregando um detector de in cio/ m e utilizando a sequ^ncia e de treinamento 1.
Seq. de Tamanho do Numero de % de Tempo medio de Tempo medio de treinamento \ codebook " estados Acerto trein. (1 modelo)(s) rec. (1 pal.)(s) 5 93.94 6 0.15 10 95.35 20 0.44 15 95.71 45 0.91 20 95.59 1:19 1.52 30 96.00 2:54 3.21 1 128 40 96.24 5:13 5.67 50 96.18 8:28 8.80 60 96.47 12:36 12.96 70 95.41 20:05 18.78 80 94.18 27:29 22.69 90 93.53 35:17 29.87 100 91.53 44:03 44.28 5 95.18 26 0.15 10 97.18 1:33 0.44 15 96.94 3:06 0.91 20 97.12 5:04 1.52 30 97.06 11:12 3.23 3 256 40 97.47 18:39 5.82 50 98.12 27:01 8.80 60 98.35 49:54 12.96 70 98.18 1:02:28 18.36 80 97.76 1:21:15 22.67 90 98.00 1:46:56 29.11 100 97.76 2:24:34 44.70 Tabela 7.8: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, coe cientes Mel-SME e diferentes numeros de estado. N~o foi usado detector de a in cio/ m.
Comparando-se os resultados das tabelas observa-se que existe um limite para o aumento do numero de estados e consequente aumento do numero de par^metros a do HMM e que esse limite e dependente do tamanho da sequ^ncia de treinamento. e Tambem ca claro que ocorre uma diminuic~o do tempo de processamento com o a uso do detector de in cio/ m, devido a uma diminuic~o do tamanho dos arquivos a
95
Tabela 7.9: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, coe cientes Mel-SME e diferentes numeros de estado. Foi usado detector de in cio/ m.
da sequ^ncia de treinamento. Outro ponto a ser ressaltado e que aumentandoe se o tamanho da sequ^ncia de treinamento, pode-se conseguir melhores resultados e aumentando o tamanho do \ codebook ". Esse aumento do tamanho do \ codebook " eleva consideravelmente o tempo de treinamento mas n~o causa impacto no tempo a de reconhecimento.
96
Tabela 7.10: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados e considerando as diferentes func~es de probabilidade para modelar o a durac~o de estado e varios valores de coe cientes de ponderac~o. a a
melhor desempenho foi conseguido utilizando-se a func~o densidade de probabilidade a de Laplace para modelar a durac~o de estado. Em todos os casos ocorre um aumento a da taxa de acerto ao incorporar-se a durac~o de estado. a Na tabela 7.11 s~o apresentados resultados de reconhecedores com 10 e 15 estaa dos considerando-se as diferentes func~es densidade de probabilidade para modelar o a durac~o de estado. Os coe cientes de ponderac~o s~o emp ricos. a a a Analisando os resultados da 7.11 observa-se que o custo computacional para a incorporac~o da durac~o de estado e desprez vel e que a func~o densidade de proa a a babilidade de Laplace apresenta o melhor resultado independentemente do numero
97
15
Prob. de dur. Coef. de dur. % de Tempo medio de Tempo medio de de estado de estado Acerto trein. (1 mod.)(s) rec. (1 pal.)(s) 93.82 11.0 0.49 N~o Parametrica a 1.0 94.82 12.3 0.51 Gaussiana 2.0 95.71 11.5 0.50 Gamma 0.005 94.06 11.5 0.50 Rayleigh 0.005 94.00 11.5 0.50 Laplace 6.5 95.94 11.5 0.50 94.29 27.0 0.93 N~o Parametrica a 0.3 95.06 27.0 0.93 Gaussiana 3.0 95.65 26.9 0.97 Gamma 0.001 94.53 26.9 0.93 Rayleigh 0.001 94.53 26.9 0.92 Laplace 7.0 96.06 26.9 0.93
Tabela 7.11: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando as diferentes func~es de probabilidade para modelar a durac~o de o a estado.
de estados. Nos resultados apresentados ate aqui, os coe cientes de ponderac~o foram oba tidos por tentativa e erro. No cap tulo 3 foi proposta uma formula para calcular esses coe cientes de ponderac~o, sendo que cada modelo teria um coe ciente diferente. a A tabela 7.12 mostra os resultados dos reconhecedores implementados usando 10 estados e fator de ponderac~o dado pela equac~o 3.83. a a
Prob. de durac~o % de Acerto Tempo medio de a de estado rec. (1 palavra) (s) 93.82 0.49 N~o Parametrica a 80.35 0.49 Gaussiana 95.35 0.43 Gamma 48.35 0.44 Rayleigh 48.82 0.44 Laplace 95.88 0.43 Tabela 7.12: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando as diferentes func~es de densidade de probabilidade para modelar a o durac~o de estado. Foram empregados coe cientes de ponderac~o calculados pela equac~o 3.83. a a a
Comparando-se as tabelas 7.11 e 7.12 nota-se que para as func~es densidade o de probabilidade Gaussiana e de Laplace os resultados foram praticamente iguais, considerando a taxa de acerto e o tempo de processamento. Portanto, pode-se considerar bom o metodo proposto para calculo dos coe cientes de ponderac~o. Ja a para as demais densidades o uso de fatores de ponderac~o obtidos segundo esse a metodo e extremamente prejudicial ao desempenho dos reconhecedores. Na tabela 7.13 s~o apresentados resultados de reconhecedores com diferentes a
98
numeros de estados, modelando-se a durac~o de estado com a func~o densidade de a a probabilidade de Laplace e usando-se coe cientes de ponderac~o emp ricos. Para o a reconhecimento foi utilizado o algoritmo de Viterbi e o algoritmo \ Forward ". Neste ultimo caso, utilizou-se tambem o algoritmo de Viterbi para segmentar as palavras e calcular a durac~o de estado. a
Algoritmo Numero de Coef. de dur. % de Tempo medio de reconhecimento estados de estado Acerto rec. (1 palavra) (s) 5 92.59 0.18 10 93.82 0.49 15 94.29 0.93 20 94.76 1.47 30 95.53 2.99 40 94.59 5.12 Viterbi 5 3.5 94.29 0.18 10 6.5 95.94 0.50 15 7.0 96.06 0.93 20 3.5 96.41 1.52 30 2.0 96.29 2.99 40 1.5 95.53 5.03 5 92.59 0.09 10 94.12 0.27 15 94.82 0.56 20 94.88 0.95 30 96.06 1.99 40 94.94 3.55 Forward 5 3.5 94.18 0.28 10 6.5 96.06 0.78 15 7.0 96.12 1.56 20 3.5 96.41 2.59 30 2.0 96.41 5.03 40 1.5 95.71 8.65 Tabela 7.13: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando diferentes numeros de estados. A probabilidade de durac~o de estado a foi modelada usando fdp de Laplace.
A partir dos resultados, veri ca-se que em todos os casos o desempenho do reconhecedor melhorou ao incorporar a durac~o de estado. As taxas de acerto obtidas a empregando-se o algoritmo \ Forward " s~o melhores, mas o custo computacional a e maior, devido ao fato de ser necessario o uso do algoritmo de Viterbi para a segmentac~o. Tambem observa-se que quanto maior a taxa de acerto do reconhecedor a sem incorporac~o da durac~o de estado, menor e o ganho obtido com a incorpoa a rac~o da mesma, mostrando que existe um limite para a melhora do desempenho do a reconhecedor. Outro ponto a ser considerado e que o ganho devido a incorporac~o a da durac~o de estado tambem diminui com o aumento do numero de estados, pois a
99
quando este aumenta, automaticamente incorpora melhor a durac~o de estado. a Tambem avaliou-se a in u^ncia da durac~o de estados em reconhecedores cone a siderando como estado nal o ultimo estado. Os desempenhos desses reconhecedores modelando a durac~o de estado com a func~o densidade de probabilidade de Laplace a a e usando coe cientes de ponderac~o emp ricos est~o na tabela 7.14. a a
Numero de Coef. de dur. % de Tempo medio de estados de estado Acerto rec. (1 palavra) (s) 10 7.5 96.12 0.50 15 7.0 95.82 0.97 20 5.0 96.41 1.50 30 2.0 96.12 3.02 Tabela 7.14: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, considerando diferentes numeros de estados e o ultimo estado com estado nal. A durac~o de estado foi modelada pela func~o densidade de probabilidade de Laplace e os coe cientes a a de durac~o de estado s~o emp ricos. a a
Comparando-se as tabelas 7.13 e 7.14 observa-se que em alguns casos conseguiu-se melhorar o desempenho do reconhecedor considerando apenas o ultimo estado como estado nal. Em outros casos, ocorreu uma diminuic~o da taxa de a acerto.
100
Tabela 7.15: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e combinando diferentes tipos de coe cientes.
Analisando os resultados da tabela 7.15 observa-se que os melhores desempenhos foram obtidos pela combinac~o de coe cientes Mel-SME e suas derivadas. a Assim, decidiu-se estudar melhor essas combinac~es. o Foram implementados reconhecedores com 10 e 15 estados combinando os coecientes Mel-SME e suas derivadas de varias formas. Os resultados s~o mostrados a nas tabelas 7.16 e 7.17 respectivamente.
Tamanho do \ codebook " 64 Tipo de % de Tempo medio de Tempo medio de Coe ciente Acerto trein. (1 mod.) (s) rec. (1 pal.) (s) Mel-SME 93.76 9 0.27 D(Mel-SME) 94.29 9 0.27 Mel-SME+D 96.94 13.6 0.31 Mel-SME+D+DD 97.29 16.8 0.32 Mel-SME+D+DD+DDD 97.76 21.5 0.34 Mel-SME 94.12 11 0.27 D(Mel-SME) 94.47 12 0.27 Mel-SME+D 97.12 18.4 0.32 Mel-SME+D+DD 98.00 27.3 0.33 Mel-SME+D+DD+DDD 97.82 32.3 0.35
128
Tabela 7.16: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando coe cientes Mel-SME e suas derivadas.
Analisando-se os resultados das tabelas 7.16 e 7.17 veri ca-se que em todos os casos, o desempenho do reconhecedor foi aumentando a medida que acrescentava-se mais um coe ciente Delta. Ao acrescentar-se cada coe ciente Delta, fornece-se ao reconhecedor mais informac~es sobre a palavra a ser reconhecida e assim consegueo se melhorar o desempenho dos reconhecedores. Entretando, ocorre um aumento de processamento, elevando dessa forma o tempo de treinamento e o tempo necessario para o reconhecimento de uma palavra. Um outro par^metro que tambem pode ser combinado com os coe cientes a Mel-SME e a energia. A tabela 7.18 apresenta os desempenhos de reconhecedores usando 10 estados, coe cientes Mel-SME, Delta(Mel-SME), Delta-Delta(Mel-SME), quantizado com \ codebooks " independentes com 128 vetores codigo e energia. Os
101
128
Tipo de % de Tempo medio de Tempo medio de Coe ciente Acerto trein. (1 mod.) (s) rec. (1 pal.) (s) Mel-SME 94.24 21.8 0.55 D(Mel-SME) 94.35 19.6 0.55 Mel-SME+D 97.29 26.8 0.60 Mel-SME+D+DD 97.65 36.0 0.63 Mel-SME+D+DD+DDD 97.82 43.6 0.67 Mel-SME 94.82 27.2 0.56 D(Mel-SME) 94.76 25.1 0.55 Mel-SME+D 97.35 38.3 0.59 Mel-SME+D+DD 98.00 59.3 0.63 Mel-SME+D+DD+DDD 97.88 74.2 0.73
Tabela 7.17: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 15 estados, combinando coe cientes Mel-SME e suas derivadas.
diferentes \ codebooks " apresentados nesta tabela foram usados para quantizar a energia.
Tamanho do % de Tempo medio de \ codebook " Acerto rec. (1 palavra) (s) 16 97.41 0.32 32 97.47 0.33 64 97.41 0.32 128 97.00 0.33 Tabela 7.18: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando coe cientes Mel-SME, suas derivadas e energia. Foram usados \ codebooks " com varios tamanhos para quantizar a energia.
Os resultados da tabela 7.18 indicam que o melhor \ codebook " para a quantizac~o da energia apresentou 32 vetores codigo. Assim, este \ codebook " foi utilizado a para quantizar a energia em todos os outros reconhecedores implementados. Na tabela 7.19 s~o mostrados os desempenhos de reconhecedores combinana do os coe cientes Mel-SME e suas derivadas (quantizados com \ codebooks " independentes com 128 vetores codigo) com energia e derivadas (quantizados com \ codebooks " independentes com 32 vetores codigo). Os reconhecedores foram implementados com 10 estados e foram usadas as sequ^ncias 1 e 3 para treinamento e dos mesmos. A partir dos resultados da tabela 7.19 observa-se que o uso da energia e suas derivadas aumenta a taxa de acerto dos reconhecedores e pode-se concluir que a energia e derivadas contem informac~es que n~o est~o presentes nos coe cientes o a a Mel-SME e derivadas. Alem disso, o custo computacional devido ao acrescimo da
102
Tabela 7.19: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando coe cientes Mel-SME, suas derivadas e energia.
energia e derivadas e m nimo. Novamente, aumentando-se o tamanho da sequ^ncia e de treinamento, melhores resultados foram conseguidos. A combinac~o de coe cientes constitui-se numa forma simples e e ciente de a aumentar a taxa de acerto dos reconhecedores, sem a necessidade de aumentar a sequ^ncia de treinamento. O aumento da sequ^ncia de treinamento n~o e uma e e a tarefa facil e esta associada a altos custos computacionais.
103
Tabela 7.20: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto com 10 estados, combinando modelos com coe cientes diferentes.
Os resultados da tabela 7.20 mostram que a combinac~o de modelos resulta a em um aumento na taxa de acerto dos reconhecedores. Entretando o desempenho e inferior ao obtido quando combinam-se diferentes coe cientes em um mesmo modelo (tabela 7.19). Alem disso, o tempo de processamento deste ultimo tambem e menor. De qualquer forma, esses resultados s~o uma indicac~o de que reconhecedores a a com melhores desempenhos podem ser obtidos com o uso de mais de um tipo de coe ciente para representar o sinal de fala.
104
seq. de treinamento 1
ultimo estado
seq. de treinamento 3
qualquer estado
ultimo estado
Tabela 7.21: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, combinando varios tipos de coe cientes e incorporando durac~o de estado. a
Analisando-se os resultados obtidos, veri ca-se que foram conseguidas altas taxas de acerto, todas por volta de 99%. Os erros ocorreram para as palavras cinco (confundida com sim), nove (confundida com norte) e certo (confundida com sete). Nota-se que os erros aconteceram para palavras muito similares, mostrando que com a uni~o do modelamento da durac~o de estado e combinac~o de par^metros a a a a pode-se conseguir reconhecedores bastante robustos. Observa-se tambem que o fato de se considerar como estado nal apenas o ultimo estado ou qualquer estado n~o a in uenciou no desempenho do reconhecedor (diferencas entre resultados e muito pequena). Novamente, conseguiu-se melhores desempenhos ao aumentar-se o tamanho da sequ^ncia de treinamento. e
105
usaram 10 estados, coe cientes Mel-SME, Delta(Mel-SME), Delta-Delta(Mel-SME), quantizados com \ codebooks " independentes com 128 vetores codigo e Energia, Delta-Energia e Delta-Delta-Energia, quantizados com \ codebooks " independentes com 32 vetores codgio. Para modelar a durac~o de estado foi usada a func~o densia a dade de probabilidade de Laplace e coe cientes de durac~o de estado emp ricos. O a conjunto de poss veis estados nais era formado por todos os estados. Alem disso, empregou-se detecc~o de in cio/ m e usou-se a sequ^ncia de treinamento 1. Foram a e utilizados os seguintes algoritmos: Treinamento: \ Forward-Backward " Reconhecimento: \ Viterbi " Os resultados s~o mostrados na tabela 7.22. a
Vocabulario Numero de coef. de dur. % de Tempo medio de palavras de estado Acerto rec. (1 palavra) (s) todas as pal. 50 6.5 98.94 0.90 d gitos 11 6.5 100.0 0.23 comandos 10 6.5 100.0 0.26 opc~es o 5 10 100.0 0.13 regi~es o 5 6.5 100.0 0.15 signos 12 6.5 100.0 0.32 Tabela 7.22: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto, combinando varios tipos de coe cientes e incorporando durac~o de estado (fdp a Laplace) como pos-processador para diferentes vocabularios.
Os resultados obtidos mostram que o desempenho dos reconhecedores depende do tipo e tamanho do vocabulario. Para vocabularios pequenos e sem palavras similares pode-se conseguir altas taxas de acerto sem a necessidade de so sticac~o a dos reconhecedores. Ressalta-se tambem que a medida que se aumenta o tamanho do vocabulario aumenta-se o tempo de processamento do reconhecedor.
106
cada palavra, os modelos dos fones que formam a palavra foram concatenados e acrescentaram-se um estado inicial e um estado nal para representar o sil^ncio. e Para o treinamento dos modelos dos fones, foi considerada uma sequ^ncia de treinae mento formada por exemplos de todas as palavras e para representar cada palavra utilizaram-se os modelos obtidos pela concatenac~o dos fones. a Todos os reconhecedores implementados apresentaram as seguintes caracter sticas: Treinamento: \ Forward-Backward " Reconhecimento: \ Forward " \ Codebook " com 128 vetores codigo Coe cientes Mel-SME Sequ^ncia de treinamento 1 e Os reconhecedores implementados considerando a palavra como unidade a ser representada apresentavam diferentes numeros de estados por palavra, os quais eram aproximadamente o numero de fonemas das palavras mais dois. A tabela 7.23 apresenta o desempenho dos reconhecedores.
Unidade Numero de % de Acerto estados palavra diferente por 93.76 palavra fone 3 por fone 85.00 4 por fone 84.76
Tabela 7.23: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e considerando unidades menores que palavras (fones).
Como pode ser observado na tabela 7.23, os melhores resultados s~o consea guidos considerando-se a palavra como a unidade a ser representada pelos HMMs. Deve-se ressaltar que o fone n~o e a melhor unidade para ser usada em reconhecia mento, pois n~o leva em conta os efeitos da coarticulac~o. Outras unidades como a a trifones e trifones generalizados t^m sido empregadas com melhores resultados. e
107
Os tempos correspondentes ao treinamento dos modelos, que ser~o apresentaa dos a seguir, incluem apenas o tempo para calcular as probabilidades de transic~o a e os coe cientes das misturas, n~o considerando o tempo utilizado para calcular o a vetor media e a matriz covari^ncia de cada mistura. a
Analisando-se os resultados nota-se que o algoritmo \ Forward-Backward " exige um maior esforco computacional para o treinamento, enquanto no reconhecimento o tempo de processamento e praticamente o mesmo para os dois algoritmos. Os desempenhos dos reconhecedores s~o bastante proximos, sendo que o uso do ala goritmo de Viterbi na fase de reconhecimento resultou nas menores taxas de acerto. Comparando-se o desempenho dos reconhecedores quanto ao tipo de matriz covari^ncia utilizado, observa-se que os reconhecedores que empregaram a matriz cheia a obtiveram maiores taxas de acerto, mas necessitaram de maiores esforcos computacionais.
108
Considerando-se os desempenhos dos reconhecedores da tabela 7.25 veri ca-se que o aumento do numero de estados melhora a taxa de acerto do reconhecedor. O mesmo ocorre ao aumentar-se o tamanho dos \ codebooks ". Isso e valido para os dois tipos de matriz covari^ncia: diagonal e cheia. Alem disso, nota-se tambem a que com o aumento do numero de par^metros, o tempo de processamento aumenta a consideravelmente. A tabela 7.26 mostra os resultados obtidos para reconhecedores com diferentes numeros de estados e utilizando \ codebook " com 128 misturas. Como ja observado na 7.25, aumentando-se o numero de estados aumenta-se
109
Tabela 7.26: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e considerando diferentes numeros de estados e \ codebook " com 128 misturas.
a taxa de acerto do reconhecedor. Novamente o desempenho dos reconhecedores usando matriz covari^ncia cheia e superior ao desempenho dos reconhecedores que a utilizam matriz covari^ncia diagonal. a
110
Matriz Prob. de dur. Coef. de dur. % de Tempo medio de Tempo medio de Covari^ncia de estado a de estado Acerto trein. (1 mod.)(s) rec. (1 pal.)(s) 95.06 1:52 3:40 diagonal Gaussiana 3.0 96.94 1:45 3.39 Laplace 3.0 97.59 1:45 3.39 96.35 4:50 4.21 cheia Gaussiana 3.0 97.29 5:38 4.30 Laplace 3.0 97.82 5:38 4.21 Tabela 7.27: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e incorporando durac~o de estado como pos-processador. a
111
Tipo de % de Tempo medio de Tempo medio de Coe ciente Acerto trein. (1 mod.)(s) rec. (1 pal.)(s) Mel-SME 95.41 1:52 3.46 D(Mel-SME) 96.94 1:14 3.39 Mel-SME+D 98.18 2:41 6.52 diagonal Mel-SME+D+DD 98.53 3:13 9.63 Mel-SME+D+DD+E 98.76 3:42 11.12 Mel-SME+D+DD+E+DE 99.06 4:04 12.28 Mel-SME+D+DD+E+DE+DDE 99.12 4:33 13.45 Mel-SME 96.59 4:50 4.32 D(Mel-SME) 97.76 3:43 4.36 Mel-SME+D 98.35 8:27 8.36 cheia Mel-SME+D+DD 98.82 9.34 12.56 Mel-SME+D+DD+E 98.94 10:23 13.38 Mel-SME+D+DD+E+DE 99.06 9:59 13.95 Mel-SME+D+DD+E+DE+DDE 99.12 10:26 14.88
Tabela 7.28: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo e combinando varios tipos de coe cientes.
112
Tabela 7.29: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo, com diferentes numeros de estados, incorporando durac~o de estado como a pos-processador e combinando varios tipos de coe cientes. Utilizou-se a sequ^ncia de treinamento e 1. Matriz Covari^ncia a diagonal Numero estados 10 15 diferente para cada palavra 10 cheia 15 diferente para cada palavra Coef. de dur. % de Tempo medio de de estado Acerto rec. (1 palavra) (s) 99.29 11.4 9.0 99.35 11.4 99.24 16.75 3.0 99.35 16.75 98.76 9.37 9.0 99.18 9.39 99.24 14.2 9.0 99.41 14.35 99.35 19.7 3.0 99.35 20.0 98.82 12.17 9.0 99.12 12.18
Tabela 7.30: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM semicont nuo, com diferentes numeros de estados, incorporando durac~o de estado como a pos-processador e combinando varios tipos de coe cientes. Utilizou-se a sequ^ncia de treinamento e 3.
113
Analisando-se os resultados observa-se mais uma vez que o algoritmo \ Forward-Backward " requer um esforco computacional maior para o treinamento, enquanto no reconhecimento as diferencas entre os tempos de processamento s~o a pequenas, com uma leve vantagem para o algoritmo \ Forward " . Os desempenhos dos reconhecedores s~o bastante proximos, com superioridade da combinac~o a a \ Forward-Backward " para treinamento e \ Forward " para reconhecimento. O uso de matriz covari^ncia cheia necessita de maiores esforcos computacionais. a
114
115
Matriz Numero Numero de % de Tempo medio de Tempo medio de Covari^ncia de estados de misturas Acerto trein. (1 modelo)(s) rec. (1 palavra) (s) a 3 96.06 55.42 2.37 5 5 95.94 1:31 3.73 7 95.88 2:15 5.20 9 95.94 3:18 6.40 12 95.59 4:08 8.70 3 96.76 2:09 4.55 diagonal 10 5 96.59 3:47 7.37 7 96.88 5:37 10.32 9 96.18 7:51 13.26 12 96.12 10:10 17.66 3 97.12 3:51 7.01 15 5 97.47 6:32 11.37 7 96.35 9:24 15.69 9 96.47 12:13 19.88 12 95.59 18:40 26.72 1 94.18 1:01 2.54 3 94.12 4:20 7.75 5 5 93.88 7:33 12.69 7 92.59 12:36 18.08 cheia 1 95.53 2:47 5.38 3 94.35 10:37 15.51 10 5 91.65 18:49 25.91 7 89.59 28:19 30.63 15 1 95:53 5:18 8.15 3 93.24 18:13 23.28 Tabela 7.33: Desempenho de reconhecedores de palavras isoladas independente do locutor empregando HMM cont nuo e diferentes numeros de estados e misturas. Foi utilizada a sequ^ncia de e treinamento 3.
Comparando-se os resultados das tabelas observa-se que existe um limite para o aumento do numero de par^metros do HMM e que esse e dependente do tamanho a da sequ^ncia de treinamento. Como o numero de par^metros de reconhecedores e a utilizando matriz covari^ncia cheia e muito maior, eles necessitam de uma sequ^ncia a e de treinamento maior. De qualquer forma, pode-se melhorar a taxa de acerto dos reconhecedores aumentando o numero de estados e o numero de misturas ate que seja atingido o limite da sequ^ncia de treinamento. Outro ponto a ser ressaltado e e que o uso de matriz covari^ncia cheia requer esforcos computacionais muito maiores. a Na tabela 7.34 s~o apresentados os resultados obtidos considerando HMM a \ tied " cont nuo com matriz covari^ncia diagonal e cheia. Foi utilizada a sequ^ncia a e de treinamento 1. Comparando-se os resultados das tabelas 7.34 e 7.32 veri ca-se que o desempenho dos reconhecedores usando HMM \ tied " cont nuo e inferior ao desempenho dos reconhecedores que utilizam HMM cont nuo, embora o HMM \ tied " cont nuo
116
Matriz Numero Numero de % de Tempo medio de Tempo medio de Covari^ncia de estados de misturas Acerto trein. (1 modelo)(s) rec. (1 palavra) (s) a 10 93.53 15.3 1.62 5 30 94.06 47.8 4.68 50 93.00 1:29 7.46 10 94.29 23.5 1.92 diagonal 10 30 95.00 1:01 5.10 50 93.71 1:53 8.22 10 90.71 31 2.25 15 30 95.88 1:17 5.61 50 94.24 2:17 9.12 10 90.06 50.5 5.1 5 30 78.35 3:12 15.23 50 64.82 5:54 25.27 10 90.24 58.53 5.41 cheia 10 30 80.94 3:21 15.81 50 66.88 6:10 25.96 10 90.71 1:10 5.73 15 30 80.94 3:41 16.49 50 68.00 6:01 26.69 Tabela 7.34: Desempenho de reconhecedores de palavras isoladas independente do locutor empregando HMM \ tied " cont nuo com diferentes numeros de estados e misturas. Foi utilizada a sequ^ncia de treinamento 1. e
117
Tabela 7.35: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e incorporando durac~o de estado como pos-processador. Foram usadas 3 misturas a com matriz covari^ncia diagonal e sequ^ncia de treinamento 1. a e Prob. de dur. Coef. de dur. % de Tempo medio de Tempo medio de de estado de estado Acerto trein. (1 modelo)(s) rec. (1 palavra) (s) 95.53 2:47 5.55 Gaussiana 3.0 97.12 2:57 5.57 Laplace 3.0 97.12 2:57 5.55 Tabela 7.36: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e incorporando durac~o de estado como pos-processador. Foi usada 1 mistura com a matriz covari^ncia cheia e sequ^ncia de treinamento 3. a e
tipos de matriz convari^ncia utilizados. O custo computacional para a incorporac~o a a da durac~o de estado pode ser considerado desprez vel. a
118
Tabela 7.37: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com 10 estados, 3 misturas com matriz covari^ncia diagonal e combinando varios a tipos de coe cientes. Tipo de % de Tempo medio de Coe ciente Acerto rec. (1 palavra) (s) Mel-SME 95.59 5.96 D(Mel-SME) 94.29 5.80 Mel-SME+D 97.24 11.4 Mel-SME+D+DD 96.29 17.28 Mel-SME+D+DD+E 97.47 21.5 Mel-SME+D+DD+E+DE 97.88 26.86 Mel-SME+D+DD+E+DE+DDE 97.82 30.75 Tabela 7.38: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com diferentes numeros de estados por palavra, 5 misturas com matriz covari^ncia a diagonal e combinando varios tipos de coe cientes. Tipo de % de Tempo medio de Tempo medio de Coe ciente Acerto trein. (1 modelo)(s) rec. (1 palavra) (s) Mel-SME 95.53 2:47 5.38 D(Mel-SME) 93.18 1:57 5.43 Mel-SME+D 96.06 3:90 10.45 Mel-SME+D+DD 95.12 5:33 15.67 Mel-SME+D+DD+E 95.76 5:21 16.64 Mel-SME+D+DD+E+DE 96.26 5:20 18.04 Mel-SME+D+DD+E+DE+DDE 96.76 5:23 19.21 Tabela 7.39: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com 10 estados, 1 mistura com matriz covari^ncia cheia e combinando varios tipos a de coe cientes.
Considerando os resultados obtidos, observa-se que novamente, o uso de mais de um tipo de par^metro aumenta a taxa de acerto do reconhecedor e tambem o a custo computacional. O ganho obtido pela combinac~o de coe cientes foi maior para a a matriz covari^ncia diagonal. Isso pode ser justi cado pelo fato de ter sido usada a apenas uma mistura nos reconhecedores com matriz covari^ncia cheia. Esse numero a n~o e su ciente para um bom modelamento dos coe cientes utilizados. a
119
Tabela 7.40: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com diferentes numeros de estados por palavra, 1 mistura com matriz covari^ncia a cheia e combinando varios tipos de coe cientes.
120
qualquer estado diferente para cada palavra ultimo estado diferente para cada palavra
Tabela 7.42: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo com diferentes numeros de estados, incorporando durac~o de estado como posa processador e combinando varios tipos de coe cientes. Utilizou-se matriz covari^ncia cheia. a
Analisando-se as tabelas 7.41 e 7.42 observa-se que os desempenhos dos reconhecedores melhoraram bastante ao combinar-se diferentes coe cientes e ao incorporar a durac~o de estado. Neste caso, o modelamento da durac~o de estado conseguiu a a suprir as de ci^ncias do uso de poucas misturas para modelar os coe cientes. Notae se tambem que o fato de considerar-se como estado nal apenas o ultimo estado, acarretou um aumento muito pequeno no desempenho do reconhecedor.
121
Func~o densidade de probabilidade de Laplace para modelar a durac~o de a a estado com coe ciente de ponderac~o emp rico a Detecc~o de in cio/ m a Estado nal: qualquer estado Na tabela 7.43 s~o apresentados os desempenhos dos reconhecedores usando a coe cientes Mel-SME e sequ^ncia de treinamento 1. Para os reconhecedores utilie zando HMM cont nuo com matriz cheia foi empregada a sequ^ncia de treinamento e 3.
Tipo de Tipo de Coef. de dur. % de Tempo medio de Tempo medio de HMM matriz cov. de estado Acerto trein. (1 modelo)(s) rec. (1 palavra)(s) Discreto 93.82 11 0.49 6.5 95.94 11.5 0.50 Diagonal 95.06 1:52 3.40 Semi3.0 97.59 1:45 3.28 cont nuo Cheia 96.35 4:50 4.21 3.0 97.82 5:38 4.30 Diagonal 95.65 46.5 4.82 Cont nuo 3.0 96.71 49.1 4.84 Cheia 95.53 2:47 5.55 3.0 97.12 2:47 5.55
Tabela 7.43: Comparac~o entre o desempenho de reconhecedores de palavras isoladas independente a do locutor usando os varios tipos de HMM e coe cientes Mel-SME.
Comparando-se os resultados da tabela 7.43 observa-se que os melhores resultados foram conseguidos usando HMM semicont nuo com matriz cheia e HMM cont nuo com matriz diagonal. Deve ser ressaltado que o numero de misturas utilizado pelo HMM semicont nuo e muito maior que o empregado pelo HMM cont nuo. Isso tambem justi ca o fato do tempo de treinamento do HMM semicont nuo ter sido maior que o tempo de treinamento do HMM cont nuo. O desempenho do HMM cont nuo com matriz cheia foi bom, mesmo utilizando apenas uma mistura, mas foi necessario utilizar uma sequ^ncia de treinamento maior. Outro ponto a ser dese tacado e que o HMM discreto requer o menor esforco computacional, mas o seu desempenho e inferior aos outros. Com o uso da incorporac~o da durac~o de estado a a como pos-processador, houve uma melhora no desempenho de todos reconhecedores, sendo que esta foi maior para os reconhecedores que apresentavam pior desempenho. Embora tendo o maior custo computacional, o HMM cont nuo apresenta-se como a melhor opc~o quando se disp~e de grandes sequ^ncias de treinamento e assim a o e pode-se empregar um maior numero de misturas. Na tabela 7.44 s~o apresentados os desempenhos dos reconhecedores usando a coe cientes Mel-SME, Delta(Mel-SME), Delta-Delta(Mel-SME), Energia, Delta-E-
122
nergia e Delta-Delta-Energia e sequ^ncia de treinamento 1. Para os reconhecedores e utilizando HMM cont nuo com matriz cheia foi empregada a sequ^ncia de treinae mento 3.
Tipo de Tipo de Coef. de dur. % de Tempo medio de HMM matriz cov. de estado Acerto rec. (1 palavra) (s) Discreto 98.59 0.77 6.5 98.94 0.90 Diagonal 99.12 11.4 Semi9.0 99.47 11.4 cont nuo Cheia 99.12 14.3 9.0 99.29 14.3 Diagonal 97.82 24.4 Cont nuo 9.0 98.65 24.7 Cheia 96.82 19.74 9.0 98.35 19.76 Tabela 7.44: Comparac~o entre o desempenho de reconhecedores de palavras isoladas independente a do locutor usando os varios tipos de HMM e combinando diferentes tipos de par^metros. a
A partir dos resultados da tabela 7.44 nota-se que a medida que os reconhecedores v~o sendo so sticados pelo uso de mais de um tipo de par^metro e a a pela incorporac~o da durac~o de estado, a diferenca entre os desempenhos de a a reconhecedores usando os diferentes tipos de HMMs torna-se menor. Entretanto, o HMM discreto continua apresentando um custo computacional muito menor. Comparando-se os tr^s tipos de HMM implementados pode-se concluir que: e HMM Discreto: e o mais simples e utiliza um tempo de processamento menor. Entretanto o seu desempenho e inferior ao outros. Alem disso, e necessario o uso de quantizac~o vetorial. a HMM Semicont nuo: e mais complexo que o discreto mas pode-se conseguir melhores taxas de acerto as custas de um aumento no tempo de processamento HMM Cont nuo: e o mais complexo dos tr^s e, devido ao grande numero de e par^metros, requer uma sequ^ncia de treinamento maior. N~o necessita do a e a uso de quantizac~o vetorial e proporciona as melhores taxas de acerto mas a apresenta um alto custo computacional. Dependendo do tipo de aplicac~o, e mais vantajoso usar o HMM Discreto a combinando varios par^metros e incorporando durac~o de estado. a a
123
124
126
8.2.1 Treinamento
Para o treinamento das redes utilizou-se o algoritmo \ Back Propagation ", sendo que o treinamento era encerrado quando o numero de erros fosse inferior a 0.3% ou o mesmo n~o diminuisse por 200 iterac~es consecutivas. Considerou-se a o como erro o fato da maior sa da da rede n~o corresponder a palavra correta ou ser a menor que 0.8. Assim, um acerto era obtido quando a maior sa da da rede fosse maior que 0.8 e correspondesse a palavra correta. Os coe cientes de ponderac~o da rede eram atualizados apos a apresentac~o a a de cada exemplo da sequ^ncia de treinamento. Usou-se apenas a sequ^ncia de treie e namento 1 (descrita no cap tulo 7) e vocabulario de 50 palavras.
8.2.2 Reconhecimento
No reconhecimento, a palavra correspondente a sa da de maior valor da rede era escolhida como palavra reconhecida. Para avaliar os reconhecedores usou-se o mesmo conjunto de palavras descrito no cap tulo 7.
Observa-se que o melhor desempenho foi obtido pela rede com 100 nos na camada escondida. Ao aumentar-se esse numero, o desempenho piorou pois aumentou-se muito o numero de par^metros a ser estimado mantendo-se a mesma sequ^ncia de a e treinamento.
127
Analisando-se os resultados nota-se que a maior taxa de acerto foi obtida usando-se 1280 nos na camada de entrada. Aumentando-se esse numero houve um decrescimo na taxa de acerto do reconhecedor. Mais uma vez isso e explicado pelo fato de que aumento do numero de par^metros da rede requer uma sequ^ncia de a e treinamento maior para a obtenc~o de uma boa estimativa dos mesmos. a
128
A partir dos resultados da tabela 8.3 percebe-se que apenas a combinac~o Mel a e energia aumentou a taxa de acerto do reconhecedor. O uso de coe cientes Mel juntamento com coe cientes Delta-Mel n~o melhorou o desempenho do reconhecedor a pois em redes MLP, a informac~o dos coe cientes Delta e obtida automaticamente a pela combinac~o linear das entradas. Outro fator que deve ser ressaltado e que ao a combinar-se tipos diferentes de coe cientes, aumenta-se o numero de par^metros da a rede e assim torna-se necessaria uma maior sequ^ncia de treinamento. e
130
Em todas as propostas usou-se a probabilidade de maior valor para normalizar o vetor de entrada da rede MLP. Foi usada detecc~o de in cio/ m em todos os reconhecedores implementados e a os coe cientes utilizados foram calculados como descrito no cap tulo 6. Todos os reconhecedores implementados usando HMM apresentavam as seguintes caracter sticas: HMM Discreto: 10 estados \ codebook " com 128 vetores codigo para os coe cientes Mel-SME, Delta(Mel-SME) (D) e Delta-Delta(Mel-SME) (DD) \ codebook " com 32 vetores codigo para energia (E), Delta-energia (DE) e Delta-Delta-energia (DDE) estado nal: qualquer estado HMM Cont nuo: 10 estados 3 misturas com matriz covari^ncia diagonal a estado nal: qualquer estado
9.2.1 Treinamento
Inicialmente os HMMs foram treinados usando-se o mesmo procedimento descrito no cap tulo 7, sendo utilizado o algoritmo \ Forward-Backward ". Para o calculo da durac~o de estados usou-se o algoritmo de Viterbi. Apos o treinamento a de todos os modelos, os mesmos foram usados para o calculo das probabilidades de cada modelo ter gerado cada exemplo da sequ^ncia de treinamento. As probae bilidades correspondentes a cada exemplo foram combinadas em um unico vetor e normalizadas pela probabilidade de maior valor. Esses vetores formaram a sequ^ncia e de treinamento da rede \ multilayer perceptron ".
131
Para o treinamento das redes utilizou-se o algoritmo \ Back Propagation ", sendo que o treinamento era encerrado quando o numero de erros fosse inferior a 0.3% ou o mesmo n~o diminuisse por 200 iterac~es consecutivas. Considerou-se como a o erro o fato da maior sa da da rede n~o corresponder a palavra correta ou ser menor a que 0.8. Os coe cientes de ponderac~o da rede eram atualizados apos a apresentac~o a a de cada exemplo da sequ^ncia de treinamento. e Foram usadas as sequ^ncias de treinamento descritas no cap tulo 7 e vocae bulario de 50 palavras.
9.2.2 Reconhecimento
No reconhecimento, primeiramente calculava-se as probabilidades dos HMMs usando o algoritmo \ Forward ", e depois estas eram normalizadas e apresentadas a rede. A palavra correspondente a sa da de maior valor da rede era escolhida como palavra reconhecida. Para os reconhecedores que usaram a probabilidade de durac~o a de estado, empregou-se o algoritmo de Viterbi para o reconhecimento. Para avaliar os reconhecedores usou-se o mesmo conjunto de palavras descrito no cap tulo 7.
132
sem o uso de camada escondida. Dessa forma, os proximos reconhecedores a serem descritos n~o apresentam camada escondida na rede MLP. a
Tabela 9.2: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e sistemas h bridos (HMM e MLP) para diferentes tipos de coe cientes.
A partir dos resultados da tabela 9.2 nota-se que os desempenhos dos reconhecedores h bridos foram superiores para todos os tipos de coe cientes. Isso e devido ao fato da rede considerar as probabilidades conjuntamente e n~o separadamente a como fazem os HMMs. Alem disso, observa-se que praticamente n~o houve aumento a do tempo necessario para o reconhecimento de uma palavra. Portanto, esses sistemas h bridos s~o uma boa opc~o para a obtenc~o de reconhecedores com melhores a a a taxas de acerto. Considerando-se a sequ^ncia de treinamento 3 foram implementados reconhee cedores com HMM discreto e um sistema h brido combinando varios tipos de coecientes. Novamente, a rede MLP apresentava 50 nos na camada de entrada e 50 nos na camada de sa da. A tabela 9.3 mostra o resultado da comparac~o entre os a reconhecedores implementados. Novamente, o desempenho do reconhecedor h brido foi superior ao reconhecedor HMM. Entretanto, a medida que melhora o desempenho do reconhecedor HMM diminui a diferenca entre as taxas de acerto dos dois sistemas. Na tabela 9.4 s~o mostrados os desempenhos de reconhecedores usando HMM a com densidade de probabilidade cont nua. Os reconhecedores empregaram 3 mis-
133
Tabela 9.3: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e sistemas h bridos (HMM e MLP) para diferentes tipos de coe cientes. Os reconhecedores foram treinados usando-se a sequ^ncia de treinamento 3. e
turas com matriz covari^ncia diagonal. A rede MLP implementada apresentava 50 a nos na camada de entrada e 50 nos na camada de sa da. O treinamento foi feito usando-se a sequ^ncia 1. e
Tipo de % de Tempo medio de Coe ciente Acerto rec. (1 palavra) (s) HMM cont nuo Mel-SME 95.71 4.57 HMM cont.+MLP Mel-SME 95.94 4.65 Tabela 9.4: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e sistemas h bridos (HMM e MLP). Reconhecedor
Analisando-se a tabela 9.4 nota-se que tambem para densidade cont nua, o sistema h brido apresenta uma maior taxa de acerto.
134
Reconhecedor HMM discreto HMM disc. + dur. de est. HMM disc.+dur. de est.+MLP 2 HMM disc.+dur. de est+MLP 3
Tabela 9.5: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM discreto e sistemas h bridos (HMM e MLP), considerando o modelamento da durac~o de a estado.
135
9.3.1 Treinamento
Inicialmente, os HMMs, considerando um ultimo estado como estado nal, foram treinados usando o mesmo procedimento descrito no cap tulo 7, sendo utilizado o algoritmo \ Forward-Backward ". Apos o treinamento de todos os modelos, cada exemplo da sequ^ncia de treinamento foi segmentado usando o modelo correse pondente e o algoritmo de Viterbi. A seguir calculou-se o vetor media dos vetores agrupados em um mesmo estado e depois esses vetores media foram concatenados em um unico vetor. O conjunto de vetores normalizados formou a sequ^ncia de e treinamento da rede \ multilayer perceptron ". Para o treinamento das redes utilizou-se o algoritmo \ Back Propagation ", sendo que o treinamento era encerrado quando o numero de erros fosse inferior a 0.3% ou o mesmo n~o diminuisse por 200 iterac~es consecutivas. Considerou-se a o como erro o fato da maior sa da da rede n~o corresponder a palavra correta ou ser a menor que 0.8. Os coe cientes de ponderac~o da rede foram atualizados apos a a apresentac~o de cada exemplo da sequ^ncia de treinamento. a e Usou-se apenas a sequ^ncia de treinamento 1 (descrita no cap tulo 7) e vocae bulario de 50 palavras.
9.3.2 Reconhecimento
No reconhecimento, os HMMs e o algoritmo de Viterbi foram usados para segmentar o sinal de fala. A palavra correspondente a sa da de maior valor da rede era escolhida como palavra reconhecida. Para avaliar os reconhecedores usou-se o mesmo conjunto de palavras descrito no cap tulo 7.
136
Tabela 9.6: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM como segmentador para MLP considerando diferentes propostas para a fase de reconhecimento.
vra pertencente a sequ^ncia de treinamento. O procedimento correto para a fase e de treinamento da rede nas propostas 2 e 3 n~o foi testado neste trabalho devido a ao grande esforco computacional requerido pois para a proposta 3, a sequ^ncia de e treinamento seria multiplicada pelo numero de modelos utilizados, o que neste caso corresponde a 50. Entretando, observa-se que houve uma melhora no desempenho dos reconhecedores com o uso das probabilidades dos HMMs normalizadas como coe cientes de ponderac~o. Isso indica que com uma mudanca no treinamento da a rede, pode-se conseguir melhores resultados. Devido a esses motivos, resolveu-se empregar apenas a proposta 1 nos proximos reconhecedores a serem descritos.
137
Analisando-se os resultados da tabela 9.7 observa-se que a maior taxa de acerto foi obtida para reconhecedores com 100 nos na camada escondida. Dessa forma, os proximos reconhecedores a serem descritos utilizaram 100 nos na camada escondida na rede MLP.
Analisando-se os resultados da tabela 9.8 v^-se que com o aumento do numero e de estados dos HMMs, e consequente aumento do numero de entradas da rede, consegue-se uma melhora na taxa de acerto dos reconhecedores h bridos, desde que o aumento do numero de estados n~o seja excessivo, o que compromete o treinamento a do HMM e da rede MLP. Alem disso, observa-se tambem que estes apresentaram um melhor desempenho que os HMMs, mostrando a capacidade de discriminac~o a das redes MLP. Deve ser lembrado que existe um limite para o aumento do numero de estados dos HMMs.
138
Tabela 9.9: Desempenho de reconhecedores de palavras isoladas independente do locutor usando diferentes tipos de coe cientes.
A partir dos resultados da tabela 9.9 nota-se que para um unico tipo de par^metro os sistemas h bridos obt^m os melhores resultados mas, quando varios a e tipos de coe cientes s~o combinados, o desempenho dos sistemas h brido e inferior a ao reconhecedores que usam apenas HMM. Na tabela 9.10 s~o mostrados os desempenhos de reconhecedores usando HMM a com densidade de probabilidade cont nua. Os reconhecedores empregaram 3 misturas com matriz covari^ncia diagonal e coe cientes \ Mel Frequency Cepstrum " com a subtrac~o da media. a
Numero de Numero de nos na % de Tempo medio de estados camada de entrada Acerto rec. (1 palavra) (s) HMM cont nuo 10 95.71 4.57 15 97.12 7.01 HMM cont.+MLP 10 160 95.59 4.97 15 240 95.65 7.46 Tabela 9.10: Desempenho de reconhecedores de palavras isoladas independente do locutor usando HMM cont nuo e sistemas h bridos (HMM como segmentador para MLP). Reconhecedor
Com o uso de HMMs com densidade de probabilidade cont nua, os sistemas h bridos n~o conseguiram superar os reconhecedores usando HMM cont nuo. Isso a pode ser explicado pelo fato dos HMM cont nuos n~o usarem quantizac~o vetorial. a a
9.4.1 Treinamento
Inicialmente os HMMs foram treinados usando o mesmo procedimento descrito no cap tulo 7, sendo utilizado o algoritmo \ Forward-Backward ". Apos o treinamento de todos os modelos, foram obtidos os valores de t(i) que foram usados para o treinamento da rede \ multilayer perceptron ". Para o treinamento das redes utilizou-se o algoritmo \ Back Propagation ". O treinamento era encerrado quando o erro quadratico medio fosse inferior a 0:0001 ou n~o diminuisse por 200 iterac~es consecutivas. a o
9.4.2 Reconhecimento
No reconhecimento, primeiramente calculava-se as probabilidades de emiss~o a de s mbolos usando a rede MLP e depois usava-se os valores dessas probabilidades nos HMMs para calcular a probabilidade do modelo ter gerado a palavra desconhecida usando o algoritmo \ Forward ".
140
Tabela 9.11: Desempenho de reconhecedores de palavras isoladas independente do locutor usando redes MLP para estimar a probabilidade de emiss~o em HMM, para diferentes numeros de nos na a camada de entrada.
A partir dos resultados da tabela 9.12 nota-se que o desempenho dos reconhecedores usando apenas HMM e superior ao desempenho dos sistemas h bridos.
141
reconhecer uma palavra. Deve-se ressaltar que podem-se estudar outras formas de combinar os HMMs na fase de reconhecimento, o que pode resultar em um melhor desempenho dos reconhecedores. Quanto ao uso de redes MLP para estimar a probabilidade de emiss~o em a HMMs, os resultados obtidos n~o foram bons. Isso talvez seja uma indicac~o de a a que a metodologia usada no treinamento n~o tenha sido a mais correta. Para o a calculo das probabilidades a posteriori, a tecnica HMM considera toda a sequ^ncia e de observac~o, enquanto no procedimento adotado para treinar a rede, apenas parte a da sequ^ncia foi considerada. Pode-se dizer que este e um topico que precisa ser e melhor discutido e estudado.
142
144
taxa de acerto. A partir da analise dos varios tipos de coe cientes propostos para representar os sinal de fala, conclui-se que os melhores s~o os obtidos aplicando-se a Transfora mada Cosseno Discreta nas sa das de um banco de ltro usando a escala Mel ou Bark, as quais s~o escalas n~o lineares de frequ^ncias. Variac~es desses coe cientes a a e o tambem produzem bons resultados, independentemente da tecnica utilizada pelo reconhecedor. Para a avaliac~o da tecnica HMM, foram implementados reconhecedores usana do HMM discreto, cont nuo e semicont nuo. Os resultados mostraram que HMM e uma poderosa ferramenta para reconhecimento de fala. Esse metodo permite a so sticac~o dos reconhecedores para melhorar o desempenho dos mesmos. Entrea tanto, isso esta associado a um custo que e o aumento do tempo de processamento. Assim, o desempenho do reconhecedor pode ser melhorado atraves do modelamento da durac~o de estado como um pos-processador (neste caso o aumento do tempo a de processamento e desprez vel), combinando diferentes tipos de par^metros e suas a derivadas ou ate combinando varios modelos. Outro ponto a ser ressaltado e a facilidade que os HMMs t^m para trabalhar com a variac~o temporal do sinal de fala. e a Bons resultados podem ser obtidos usando-se HMM discretos, apesar do uso da quantizac~o vetorial. Entre os tipos de HMM, este e o mais simples e o que requer o a menor esforco computacional. HMMs semicont nuos s~o uma boa opc~o quando se a a disp~e de um tempo de processamento maior e necessita-se de um reconhecedor com o melhor desempenho. Quando apenas a taxa de acerto do reconhecedor e importante, recomenda-se o uso de HMM cont nuo, pois ele permite alcancar as mais altas taxas de acerto, mas exige grandes esforcos computacionais e uma sequ^ncia de treinae mento maior. A escolha do melhor tipo de HMM deve ser baseada no compromisso entre o tempo de processamento dispon vel e a taxa de acerto desejada. A avaliac~o das redes \ Multilayer Perceptron " mostrou que essa tecnica a apresenta o menor tempo de processamento na fase de reconhecimento, sendo esta uma grande vantagem. Alem disso, as redes s~o simples e os algoritmos utilizados a s~o de facil implementac~o. Entretanto, o desempenho dos reconhecedores deixou a a um pouco a desejar devido a impossibilidade de ser melhorado sem que para isso seja necessario um aumento da sequ^ncia de treinamento. Outro ponto fraco e o tempo e de treinamento, que dependendo dos limiares utilizados e muito grande, superando em muito o tempo necessario para treinar os HMMs e obter reconhecedores com a mesma taxa de acerto. O uso de redes MLP e recomendado para sistemas que necessitem de baixo tempo de reconhecimento e que possam operar com maiores
145
taxas de erro. Por m, foram avaliados os sistemas h bridos, os quais combinam HMM e redes MLP. Alguns desses sistemas mostrararam desempenho superior aos HMMs e redes MLP pois apresentam as boas caracter sticas das duas tecnicas. Dessa forma est~o a unidas a capacidade discriminativa das redes MLP e a capacidade de modelamento dos HMMs. Mas, estes sistemas tambem apresentam desvantagens como um aumento do custo computacional. Com a evoluc~o dos processadores de sinais, os sistemas a h bridos tendem a se tornar a melhor opc~o para implementac~o de reconhecedores a a de fala. Finalizando, pode-se concluir que e poss vel a obtenc~o de reconhecedores de a palavras isoladas com altas taxas de acerto. Em alguns casos pode ser necessario um grande esforco computacional. Considerando-se todas as avaliac~es e comparac~es o o realizadas, mostrou-se que a escolha dos melhores algoritmos dependem da aplicac~o a em que se pretende usar o reconhecedor e que n~o existe uma soluca~ que seja otima a o para todos os casos.
146
148
150
^ REFERENCIAS BIBLIOGRAFICAS
11] L. R. Rabiner. Applications of Voice Processing to Telecommunications. Proceedings of the IEEE, 82(2):199{228, Fevereiro 1994. 12] B. Wheatley and J. Picone. Voice across America: Toward Robust SpeakerIndependent Speech Recognition for Telecommunications Applications. Digital Signal Processing, pages 45{63, 1991. 13] J. K. Baker. The Dragon System - an Overview. IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-23:24{29, Fevereiro 1975. 14] V. R. Lesser, R. D. Tennell, L. D. Erman, and R. D. Reddy. The Hearsay II Speech Understanding System. IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-23:11{24, Fevereiro 1975. 15] B. T. Lowerre. Dynamic Speaker Adaptation in the Harpy Speech Recognition System. IEEE International Conference on Acoustics, Speech and Signal Processing, Abril 1977. 16] J. G. Wilpon, L. R. Rabiner, and A. Bergh. Speaker Independent Isolated Word Recognition Using a 129-word Airline Vocabulary. The Journal of the Acoustical Society of America, Agosto 1982. 17] M. Blomberg, K. Elenius, and F. Lundin. Voice Controlled Dialling in an Intercom system. Proceedings 10th International Conference of Human Factors in Telecommunications, pages 233{238, 1983. 18] R. A. Cole, R. M. Stern, M. S. Phillips, S. M. Brill, P. Specker, and A. P. Pilant. Feature Based speaker Independent Recognition of English Letter. IEEE International Conference on Acoustics, Speech and Signal Processing, Outubro 1983. 19] IBM Speech Recognition Group. A Real-time Isolated-Word Speech Recognition System for Dictation Transcription. IEEE International Conference on Acoustics, Speech and Signal Processing, Marco 1985. 20] L. R. Rabiner, J. G. Wilpon, and F. K. Soong. High Performance Connected Digit Recognition using Hidden Markov Models. IEEE International Conference on Acoustics, Speech and Signal Processing, Abril 1988. 21] K. Schuhmacher, B. Lochschmidt, and B. Kaspar. Erfahrungen mit Einem auf Einzelworterkennug Basierenden Sprachdialogsystem. Internationaler Workshop im Rahmen der BIGTECH'88, pages 242{249, 1988.
^ REFERENCIAS BIBLIOGRAFICAS
151
22] Relatorios do COST-232 - Speech Recognition over the Telephone Line, 1992. European Co-operative for Scienti c and Technical Research. 23] M. J. Poza, C. de la Torre, D. Tapias, and L. Villarubia. An Approach to Automatic Recognition of keywords in Unconstraint Speech using pPrametric Models. Eurospeech 91, 1991. 24] M. J. Poza, J. F. Mateos, and J. A. Siles. Audiotex with Speech Recognition and Text to speech Conversion for the Spanish Telephone Network. Voice systems Wordwide 91, 1991. 25] C. Gagnoulet, D. Jouvet, and J. Damay. Mairievox: A Voice-activated Information System. Speech Communication, (10):23{31, 1988. 26] Speech Recognition Update. (35):7, 1991 27] A. Nejat Ince, editor. Digital Speech Processing, Speech Coding, Synthesis and Recognition. Kluwer Academic Publishers, 1992. 28] D. P. Morgan and C. L. Sco eld. Neural Networks and Speech Processing. Kluwer Academic Publishers, 1991. 29] L. R. Rabiner, S. E. Levinson, and M. M. Sondhi. An Introduction to the Applications of the Theory of Probabilistic Functions of a Markov Process to Automatic Speech Recogniton. The Bell System Technical Journal, 62(4):1035{ 1105, Abril 1983. 30] L. R. Rabiner and B. H. Juang. An Introduction to Hidden Markov Models. IEEE ASSP Magazine, pages 4{16, Janeiro 1986. 31] A. B. Poritz. Hidden Markov Models: a Guided Tour. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pages 7{13, 1988. 32] L. R. Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77(2):501{521, Fevereiro 1989. 33] L. A. Liporace. Maximum Likelihood Estimation for Multivariate Observations of Markov Sources. IEEE Transactions on Information Theory, IT28(5):729{754, Setembro 1982.
152
^ REFERENCIAS BIBLIOGRAFICAS
34] B. H. Juang, S. E. Levinson, and M. M. Sondhi. Maximum Likelihood Estimation for Multivariate Observations of Markov Chain. Transactions on Information Theory, IT-32(2):307{309, Marco 1986. 35] B. H. Juang. Maximum Likelihood Estimation for Mixtures Multivariate Stochastic Observations of Markov Chains. AT&T Technical Journal, 64(6):1263{1249, Julho/Agosto 1985. 36] I. Miller and J. E. Freund. Probability and Statistics for Engineers. Englewood Cli s, 1985. 37] X. D. Huang, Y. Ariki, and M. A. Jack. Hidden Markov Models for Speech Recognition. Edinburgh University Press, 1991. 38] X. D. Huang and M. A. Jack. Hidden Markov Modelling of Speech based on a Semicontinuous Model. Eletronics Letters, 24(1):6{7, Janeiro 1988. 39] X. D. Huang and M. A. Jack. Performance Comparison between Semicontinuous and discrete Hidden Markov Models of Speech. Eletronics Letters, 24(3):149{151, Fevereiro 1988. 40] D. Burshtein. Robust Parametric Modelling of Durations in Hidden Markov Models. IEEE Transactions on Speech and Audio Processing, 4(3):240{242, Maio 1996. 41] L. R. Rabiner, B. H. Juang, S. E. Levinson, and M. M. Sondhi. Some Properties of Continuous Hidden Markov Model Representation. AT&T Technical Journal, 64(6):1251{1269, Agosto 1985. 42] L. R. Rabiner and B.-H. Juang. Hidden Markov Models for Speech Recognition. Technometrics, 33(3):251{272, Agosto 1991. 43] J. G. Wilpon, Lee C.-H., and L. R. Rabiner. Improvements in Connected Digit Recognition Using Higher Order Spectral and Energy Features. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pages 349{352, 1991. 44] L. R. Rabiner and S. E. Levinson. Isolated and Connected Word Recognition - Theory and Selected Applications. IEEE Transactions on Communications, COM-29(5):621{659, Maio 1981.
^ REFERENCIAS BIBLIOGRAFICAS
153
45] T. Matsuoka and Y. Minami. Acoustic and Language Processing Technology for speech Recognition. NTT Review, 7(2):30{39, Marco 1995. 46] J. Picone. Continuous Speech Recognition using Hidden Markov Models. IEEE ASSP Magazine, pages 26{41, Julho 1990. 47] K. F. Lee, H. W. Hon, M. Y. Hwang, and X. Huang. Speech Recognition using Hidden Markov Models: a CMU Perspective. Speech Communication, pages 497{508, 1990. 48] W. S. McCulloch and W. Pitts. A Logical Calculus of the Ideas Immanent in Neural Nets. Bulletin of Math. Biophys., EC-12:115{127, Maio 1943. 49] F. Rosenblatt. Two theorems of Statistical Separability in the Perceptron Mechanization of Thought Processes. Proceedings of a Symposium held at the National Physical Laboratory, 1:1421{1426, Novembro 1958. 50] F. Rosenblatt. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, 1962. 51] B. Widrow. Generalization and Information Storage in Networks of Adaline Neurons. Self-Organizing Systems 1962, pages 435{461, 1962. 52] K. Steinbuch and V. A. W. Piske. Learning Matrices and their Applications. IEEE Transactions Electron. Comput., pages 846{862, 1963. 53] B. Widrow and M. Lehr. 30 years of Adaptive Neural Networks: Perceptron, Madaline and Back-Propagation. Proceedings of the IEEE, 78(9):1415{1442, Setembro 1990. 54] R. P. Lippmann. Review of Neural Networks for Speech Recognition. Neural Computation, pages 1{38, 1989. 55] J. C. Junqua and J. P. Haton. Robustness in Automatic Speech Recogniton. Kluwer Academic Publishers, 1996. 56] B. R. Kammerer and Kupper W. A. Experiments for Isolated-Word recognition with single and two Layer Perceptrons. Neural Networks, 3:693{706, 1990. 57] G. Tatman and R. Jannarone. Alternative Neural Networks for Speech Applications. The Twenty-Third Southeastern Symposium on System Theory, pages 591{596, 1991.
154
^ REFERENCIAS BIBLIOGRAFICAS
58] S. M. Peeling and R. K. Moore. Isolated Digit Recognition Experiments using the Multilayer Perceptron. Speech Communications, 7(4):403{409, Dezembro 1988. 59] M. Zhu and K. Fellbaum. A Connectionist Model for Speader Independent Isolated Word Recognition. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pages 529{532, 1990. 60] P. C. Woodland. Isolated Word Speech Recognition based on Connectionist Techniques. British Telecom Technology Journal, 8(2):61{66, 1990. 61] N. Botros, Z. Deiri, and I. Wattar. Neural Networks: Algorithm and Instrumentation for Isolated Word Recognition. Proceedings of the International Conference on Mathematical and Computer Modelling, pages 279{283, 1990. 62] C. J. Wellekens. Speech Recognition using Connectionist Methods. Connectionism in Perspective, pages 102{111, 1989. 63] R. P. Lippmann. An Introduction to Computing with Neural Nets. IEEE ASSP Magazine, 4(2):4{22, Abril 1987. 64] K. Knight. Connectionist Ideas and Algorithms. Communications of the ACM, 33(11):59{74, Novembro 1990. 65] J. Tebelskis. Speech Recognition using Neural Networks. PhD thesis, School of Computer Science, Carnegie Mellon University, 1995. 66] L. T. Niles and H. F. Silverman. Combining Hidden Markov Model and Neural Network Classi ers. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pages 417{420, 1990. 67] H. Morgan, N.and Bourlard. Continuous Speech Recognition using Multilayer Perceptrons with Hidden Markov Models. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pages 413{416, 1990. 68] H. Bourlard. How Connectionist Models could Improve Markov Models for Speech Recognition. Advanced Neural Computers, pages 247{254, 1990. 69] Y. Bengio, R. Cardin, R. De Mori, and Y. Normandin. A Hybrid Coder for Hidden Markov Models using a Recurrent Neural Network. Proceedings of the International Conference on Acoustics, Speech and Signal Processing,, pages 537{540, 1990.
^ REFERENCIAS BIBLIOGRAFICAS
155
70] Y.Q. Gao, T. Y. Huang, and D. W. Chen. Hmm based Warping in Neural Networks. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pages 501{504, 1990. 71] S. Katagiri and Lee C.-H. A new Hybrid Algorithm for Speech Recognition based on HMM Segmentation and Learning Vector Quantization. IEEE Transactions on Speech and Audio Processing, 1(4):421{430, Outubro 1993. 72] H. Bourlard and J. Wellekens. Links between Markov Models and Multilayer Perceptrons. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(12):1167{1178, Dezembro 1990. 73] N. Morgan and H. Bourlard. Continuous speech Recognition. IEEE Signal Processing Magazine, pages 25{42, Maio 1990. 74] N. Morgan and H. Bourlard. Neural Networks for Statistical Recognition of Continuous Speech. Proceedings of the IEEE, 83(5):25{42, Maio 1995. 75] L. R. Rabiner and M. R. Sambur. An Algorithm for Determining the Endpoints of Isolated Utterances. The Bell System Technical Journal, pages 297{ 315, Fevereiro 1975. 76] L. F. Lamel, L. Rabiner, and J. G. Rosemberg, A. E.and Wilpon. An Improved Endpoint Detector for Isolated Word Recognition. IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-29(4):777{785, Agosto 1981. 77] J. G. Wilpon, L. R. Rabiner, and T. Martin. An Improved Word Detection Algorithm for Telephone Quality Speech incorporating both Syntactic and Semantic Constraints. AT&T Technical Journal, 63(3):479{497, Marco 1984. 78] J. Linde, A. Buzo, and R. M. Gray. An Algorithm for Vector Quantizer. IEEE Transactions on Communications, Com. 28(1):84{94, Janeiro 1980. 79] R. Viswanathan and J. Makhoul. Quantization Properties of Transmission Parameters in Linear Predictive Systems. IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-23(3):309{321, Junho 1975. 80] J. Makhoul, S. Roucos, and H. Gish. Vector Quantization in Speech Coding. Proceedings of the IEEE, 73(11):1551{1588, Novembro 1985. 81] R. M. Gray. Vector Quantization. IEEE ASSP Magazine, pages 4{29, Abril 1984.
156
^ REFERENCIAS BIBLIOGRAFICAS
82] A. Buzo, A. H. Gray Jr., R. M. Gray, and J. D. Markel. Speech Coding upon Vector Quantization. IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-28(5):562{574, Outubro 1980. 83] J. A. Martins. Vocoder LPC com Quantizac~o Vetorial. Master's thesis, FEEC a - Universidade de Campinas, 1991. 84] D. O' Shaughnessy. Speech Communication: Human and Machine. AddisonWesley Publishing Company, 1987. 85] J. W. Picone. Signal Modeling Techniques in Speech Recognition. Proceedings of the IEEE, 81(9):1215{1247, Setembro 1993. 86] L. R. Rabiner and R. W. Schafer. Digital Processing of Speech Signals. Prentice-Hall, 1978. 87] J. D. Markel and A. H. Gray Jr. Linear Prediction of Speech. Springer-Verlag, 1982. 88] J. Makhoul. Linear Prediction: A Tutorial Rewiew. Proceedings of IEEE, 63(4):561{580, Abril 1975. 89] S. B. Davis and P. Mermelstein. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-28(4):357{ 366, Agosto 1980. 90] B. A. Carlson and M. A. Clements. A Weighted Projection Measure for Robust Speech Recognition. IEEE Proceedings Southeastcom, pages 94{98, 1990. 91] H. Hermansky. Perceptual Linear Predictive (PLP) Analysis of Speech. Journal Acoustical Society of America, 87(4):1738{1752, Abril 1990. 92] H. Hermansky and N. Morgan. RASTA Processing of Speech. IEEE Transactions on Speech and Audio Processing, 2(4):578{589,, Outubro 1994. 93] F. Mihelic, L. Gyergyek, and N. Pavesic. Comparison of Features and Classication Rules for Acoustic-phonetic Transcription of Slovene Speech. Digital Signal Processing, pages 1453{1457, 1991. 94] H. Hermansky. Exploring Temporal Domain for Robustness in Speech Recognition.
^ REFERENCIAS BIBLIOGRAFICAS
157
95] H. Hermansky. Speech beyond 100 milliseconds (Temporal Filtering in Feature Domain). 96] L. R. Bahl, P. F. Brown, P. V. Souza and R. L. Mercer. Speech Recognition with Continuous Parameter Hidden Markov Models. Computer Science, 1987. 97] R. Pieraccini. Speaker Independent Recognition of Italian Telephone Speech with Mixture Density Hidden Markov Models. Speech Communication, pages: 105{115, 1991. 98] A.Waibel, T. Hanazawa, G. Hinton, K. Shikano and K. Lang. Phoneme Recognition Using Time-Delay Neural Networks. IEEE Transactions on Acoustics, Speech and Signal Processing, 37(3): 328-338, Marco 1989. 99] K. M. Ponting and S. M. Peeling. The Use of Variable Frame Rate Analysis in Speech Recognition. Computer Speech and Language, pages: 169{179, 1991. 100] S. Nakagawa and Y. Hirata. Comparison Among Time-Delay Neural Networks, LQVQ2, Discrete Parameter HMM and Continuous Parameter HMM. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pages: 509{512, 1990.
158
^ REFERENCIAS BIBLIOGRAFICAS
Indice Remissivo
Analise espectral, 72 obtenc~o de par^metros, 72 a a Analise acustico-fonetica, 9 Autocorrelac~o metodo, 73 a Back Propagation algoritmo, 45 Bark coe cientes, 76 escala, 76 Base de dados, 148 Baum-Welch algoritmo, 24 Bilinear transformac~o, 75 a Bilinear transformed cesptral coef., 75 Cepstrais coe cientes FFT, 74 coe cientes LPC, 74 liftered coe cientes, 74 Codebook, 68 Comparac~o de padr~es, 9, 11, 13 a o Convers~o A/D, 58 a Delta coe cientes, 83 Dependente do Locutor, 11 Derivada temporal, 83 Detecc~o de in cio/ m, 58 a bottom-up, 60 endpoints, 59 top-down, 61 Durbin algoritmo, 73 Dynamic Time Warping, 13 159 Energia, 79 Energia normalizada, 80 Estimac~o de prob. a posteriori, 54 a Fala cont nua, 10, 14, 39 reconhecimento, 40 treinamento, 39 Forward algoritmo, 23 variavel, 24 Forward-Backward algoritmo, 24 Gaussiana multidimensional fdp, 19 Hamming janela, 72 Hard Limiter func~o, 42 a Hidden Markov Models (HMM), 17 comparac~o, 35, 120 a considerando estado nal, 28 cont nuo, 19 resultados, 113 de nic~o, 17 a discreto, 19 resultados, 89 durac~o de estado, 33 a pdf Gamma, 34 pdf Gaussiana, 34 pdf Laplace, 34 pdf Rayleigh, 34 pos-processador, 33 inicializac~o, 35 a
160 multiplas observac~es, 30 o normalizac~o, 28 a segmentador para MLP, 51 semicont nuo, 20 resultados, 106 variac~o, 32 a tied cont nuo, 20 resultados, 115 treinamento insu ciente, 32 HMM, 17 Independente do Locutor, 11 Intelig^ncia arti cial, 10 e Janela de Hamming, 72 Janelamento do sinal de fala, 72 K-means procedimento, 27 LBG algoritmo, 68 Left-right modelo, 22 Liftered cepstral coe cientes, 74 Line Spectrum Frequencies coef., 77 Linear cepstrum coe cientes, 76 LPC analise, 73 coe cientes, 73 coe cientes normalizados, 76 coe cientes suavizados, 83 escala, 75 Frequency Cepstrum coef., 75 Metodo de autocorrelac~o, 73 a Misturas de nic~o, 19 a MLP, 44 MLP como pos-processador, 50 Modelos Ocultos de Markov, 17 Multilayer Perceptron (MLP), 44 Mel
INDICE REMISSIVO
reconhecimento, 48 treinamento, 48 vantagens, 48 Normalizac~o temporal, 51 a Padr~es de refer^ncia, 13 o e Palavras Conectadas, 10 Palavras Isoladas, 10, 14, 38 reconhecimento, 38 treinamento, 38 PARCOR coe cientes, 73 PLP analise, 78 coe cientes, 78 Pos-processador, 14, 33 Pre-^nfase, 72 e Probabilidade de emiss~o a HMM cont nuo, 19 reestimac~o, 25, 30 a HMM discreto, 19 reestimac~o, 25, 30 a HMM semicont nuo, 20 reestimac~o, 26, 31 a Probabilidade de transic~o a de nic~o, 18 a reestimac~o, 25, 30 a Processamento do sinal de fala, 12, 57 Quantizac~o vetorial, 66 a algoritmo LBG, 68 codebook, 68 dist^ncia de Mahalanobis, 67 a dist^ncia Euclidiana, 67 a fdp Gaussiana, 67 fdp Gaussiana simpli cada, 68 RASTA
INDICE REMISSIVO
coe cientes, 79 tecnica, 79 Raz~o Log-Area coe cientes, 74 a Reconhecedor de fala aplicac~es, 2 o avaliac~o, 14 a classes, 9 desvantagens, 2 exemplos, 4 medidas de desempenho, 14 usando HMM, 87 usando MLP, 125 vantagens, 1 Reconhecedores h bridos, 49, 129 HMM como segmentor, 134 MLP como pos-processador, 129 prob. a posteriori usando MLP, 139 Rede neural, 41 de nic~o, 42 a Kohonen, 44 multilayer perceptron, 44 recorrentes, 44 Segmentac~o usando HMM, 51 a Sigmoide func~o, 43 a Sistema de aquisic~o, 147 a Subtrac~o da Media Espectral, 83 a Transformac~o bilinear, 75 a Unidades menores que palavras, 37 Viterbi algoritmo, 24 Vocabulario, 11, 148
161