Mel-Frequency Cepstrum Coefficients (MFCC) Melalui Jaringan Syaraf

Makalah Seminar Tugas Akhir
APLIKASI PENGENALAN UCAPAN DENGAN EKSTRAKSI

MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC) MELALUI JARINGAN SYARAF
TIRUAN (JST) LEARNING VECTOR QUANTIZATION (LVQ)
UNTUK MENGOPERASIKAN KURSOR KOMPUTER
Angga Setiawan*, Achmad Hidayatno**, R. Rizal Isnanto**
Jurusan Teknik Elektro, Fakultas Teknik, Universitas Diponegoro,
Jln. Prof. Sudharto, Tembalang, Semarang, Indonesia
ABSTRACT
During this time, computer cursor operation was done by pressing and moving the mouse. So, this is less
flexible for computer user that require movement in operating a computer, since to use mouse comfortably someone has
to sit. Moreover, physical completeness is required for mouse operating, so that for someone who has physical
disabilities feels difficult to operate it. Therefore, it is required to develop a system that provides a better comfort and
flexibility not only for the healthy user computer but also for the user computer who has physical disabilities.
In this final project, computer cursor operation program via voice is created. With this program, someone will
have more flexibility when operating the computer cursor and also people with physical disabilities is enabled to
communicate with computer. Voice recognition is a technology that is apllied in this program, with the feature
extraction process used MFCC (Mel-Frequency Cepstrum Coefficients) method. As for the recognitions process used
artificial neural network type LVQ (Learning Vector Quantization). Voice is passed through a microphone and then it is
analyzed by MFCC to produce MFCC coefficients. These coefficients are used as input vector for LVQ neural network
and used as data to train the network until it has the classification capability. Programming language that is used in
creating this software is Delphi programming language.
Based on the result of the testing program, it is found that the success percentage rate of voice recognition with
training data, that is data which is derived from databases that have been recorded and trained into the program which
amounts to 240 data, is 88,89 %. While in the testing with test data, that is data which is derived from the real time
sayings of respondents which is amounts to 240 data, it is found that the success percentage rate of voice recognition is
83,99 %.
Keywords : voice recognition, computer cursor, MFCC, LVQ
I. Pendahuluan Metode yang dibuat ini merupakan salah satu

1.1 Latar Belakang aplikasi dari pengenalan ucapan (voice recognition),
Seiring dengan berkembangnya teknologi, yakni sebuah pengembangan sistem yang
komunikasi yang dilakukan oleh manusia tidak memungkinkan komputer untuk dapat menerima
hanya terbatas pada komunikasi antara manusia masukan berupa kata yang diucapkan. Teknologi ini
dengan manusia tetapi juga sudah berkembang memungkinkan suatu perangkat untuk mengenali
komunikasi antara manusia dengan mesin ucapan dengan cara digitalisasi kata dan
(komputer). Komunikasi yang dilakukan antara mencocokkan sinyal digital tersebut dengan pola
manusia dengan komputer dilakukan dengan tertentu yang tersimpan dalam perangkat.
bantuan alat seperti mouse, keyboard, mikrofon, dan Metode ekstraksi ciri yang digunakan
sebagainya. dalam penelitian ini adalah MFCC (Mel-Frequency
Akan tetapi komunikasi antara manusia dengan Cepstrum Coefficients) sedangkan untuk proses
komputer tidak bisa dinikmati oleh semua orang pembelajaran sistem digunakan Jaringan Syaraf
karena untuk melakukannya diperlukan Tiruan tipe LVQ (Learning Vector Quantization).
kelengkapan dan kesehatan fisik manusia. Hal ini Bahasa pemrograman yang digunakan dalam Tugas
menyebabkan para penyandang cacat fisik sulit Akhir ini adalah bahasa pemrograman Delphi.
untuk melakukan komunikasi dengan komputer.
Oleh karenanya, diperlukan adanya inovasi 1.2 Tujuan
teknologi yang memungkinkan para penyandang Tujuan dari Tugas Akhir ini adalah
cacat fisik untuk melakukan komunikasi dengan membuat suatu program aplikasi dari pengenalan
komputer. Dalam Tugas Akhir ini, dibuat sebuah ucapan dengan ekstraksi Mel-Frequency Cepstrum
metode komunikasi dengan komputer melalui suara. Coefficients (MFCC) melalui Jaringan Syaraf
Secara spesifik, metode ini memungkinkan manusia Tiruan (JST) Learning Vector Quantization (LVQ)
untuk mengoperasikan kursor komputer melalui untuk mengoperasikan kursor komputer.
suaranya.
1
* Mahasiswa Teknik Elektro Universitas Diponegoro
** Dosen Teknik Elektro Universitas Diponegoro
2
1.3 Batasan Masalah digunakan untuk membuat pola

Untuk menyederhanakan pembahasan pada representatif dari ciri-ciri kelas tersebut.
Tugas Akhir ini, masalah dibatasi sebagai berikut : Hasilnya yang biasa disebut dengan pola
1. Data masukan (pada basis data) berupa sinyal referensi, dapat menjadi sebuah model yang
suara yang diambil dari 6 orang responden (3 mempunyai karakteristik bentuk statistik
pria dan 3 wanita). dari ciri-ciri pola referensi.
2. Pengoperasian kursor komputer terbatas hanya 3. Perbandingan dengan Pola Model
pada gerakan ke kanan, kiri, bawah, atas , klik Pola uji yang dikenali, dibandingkan
kiri, double click, dan klik kanan. dengan setiap kelas pola referensi.
3. Derau yang turut terekam pada proses Kesamaan besaran antara pola uji dengan
perekaman diabaikan. setiap pola referensi akan dihitung.
4. Aplikasi yang dibuat hanya dijalankan pada 4. Pengambilan Keputusan
sistem operasi Microsoft Windows dan tidak Bagian ini merupakan proses menentukan
membahas seluk beluk sistem operasinya. kelas pola referensi mana yang paling
5. Jenis bahasa pemrograman yang digunakan cocok untuk pola uji berdasarkan klasifikasi
adalah bahasa pemrograman Delphi versi 7. pola.
II. Landasan Teori 2.2 Mel-Frequency Cepstrum Coefficients

2.1 Pengenalan Suara (MFCC)
Pengenalan suara merupakan salah satu MFCC didasarkan atas variasi bandwidth
upaya untuk dapat mengenali atau mengidentifikasi kritis terhadap frekuensi pada telinga menusia yang
suara sehingga dapat dimanfaatkan untuk berbagai merupakan filter yang bekerja secara linier pada
aplikasi. Secara umum tahap pengenalan suara frekuensi rendah dan bekerja secara logaritmik pada
dibagi menjadi dua bagian, yakni tahap frekuensi tinggi. Filter ini digunakan untuk
pembelajaran pola dan tahap pengenalan suara menangkap karakteristik fonetis penting dari sinyal
melalui perbandingan pola. Blok diagram ucapan. Untuk meniru kondisi telinga, karakteristik
pembelajaran pola dan pengenalan suara ditunjukan ini digambarkan dalam skala mel-frekuensi, yang
pada Gambar 1. merupakan frekuensi linier di bawah 1000 Hz dan
frekuensi logaritmik di atas 1000 Hz.
Suara
Pembelajaran Pembelajaran Model Biasanya frekuensi pencuplikan yang
Pengekstraksi Ciri digunakan diatas 10000 Hz agar dapat
Pola
meminimalkan efek aliasing pada konversi analog-
(a) Blok diagram pembelajaran pola. digital. Diagram blok dari pemroses MFCC dapat
dilihat pada Gambar 2.
Suara
Suara Uji Perbandingan Pengambilan Terkenali
Pengekstraksi Ciri
dengan Pola Model Keputusan
(b) Blok diagram pengenalan suara.

Gambar 1 Blok diagram pembelajaran pola dan pengenalan
suara
Berikut ini merupakan penjelasan dari Gambar 2 Diagram blok pemroses MFCC
masing-masing blok :
1. Pengekstraksi Ciri Untuk lebih jelasnya, masing-masing proses
Bagian ini merupakan proses mendapatkan pada diagram pemroses MFCC akan diuraikan
sederetan besaran pada bagian sinyal berikut ini
masukan untuk menetapkan pola
pembelajaran atau pola uji. Untuk sinyal 2.2.1 Frame Blocking
suara, ciri-ciri besaran biasanya merupakan Pada langkah ini, sinyal ucapan yang terdiri
keluaran dari beberapa bentuk teknik dari S sampel (X(S)) dibagi menjadi beberapa frame
analisis spektrum seperti LPC (Linear yang berisi N sampel, masing-masing frame
Predictive Coding) atau MFCC (Mel- dipisahkan oleh M (M<N). Frame pertama berisi
Frequency Cepstrum Coefficients). sampel N pertama. Frame kedua dimulai M sampel
2. Pembelajaran Pola setelah permulaaan frame pertama, sehingga frame
Satu atau lebih pola uji yang berhubungan kedua ini overlap terhadap frame pertama sebanyak
dengan bunyi suara dari kelas yang sama, N-M sampel. Seterusnya, frame ketiga dimulai M
3
sampel setelah frame kedua (juga overlap sebanyak dalam Hz, sebuah pola diukur dalam sebuah skala
N-M sampel terhadap frame kedua). Proses ini yang disebut „mel‟. Skala „mel frekuensi‟ adalah
berlanjut sampai seluruh suara tercakup dalam skala frekuensi linier di bawah 1000 Hz dan skala
frame. Hasil dari proses ini adalah matriks dengan logaritmik di atas 1000 Hz.
N baris dan beberapa kolom sinyal X[N]. Skala ini didefinisikan oleh Stanley Smith,
Proses ini tampak pada Gambar 3, Sn John Volkman dan Edwin Newman sebagai :
adalah nilai sampel yang dihasilkan, dan n f
mel ( f )  2595 * log 10 (1  )
menunjukkan urutan sampel yang akan diproses. 700
Sebuah pendekatan untuk simulasi spektrum dalam
skala mel adalah dengan menggunakan filter bank
yang diletakkan secara seragam dalam skala mel
yang ditunjukkan pada Gambar 4.
Gambar 3 Proses frame blocking
2.2.2 Windowing
Langkah selanjutnya adalah windowing setiap
frame untuk meminimalisir diskontinuitas sinyal
pada permulaan dan akhir setiap frame. Konsepnya
adalah meruncingkan sinyal ke angka nol pada Gambar 4 Contoh mel-spaced filter bank
permulaan dan akhir setiap frame. Bila window
didefinisikan sebagai w(n), 0 ≤ n ≤ N-1, dengan N Bila spektrum F[N] adalah masukan proses
adalah jumlah sampel dalam tiap frame, maka hasil ini, maka keluarannya adalah spektrum M[N] yang
dari proses ini adalah sinyal : merupakan spektrum F[N] termodifikasi yang berisi
y(n)  x(n)w(n),0  n  N  1 power output dari filter-filter ini. Koefisien
spektrum mel dinyatakan dengan K, dan secara
dengan = sinyal hasil windowing sampel
khusus ditentukan berharga 20.
ke-n
Dalam mel-frequency wrapping, sinyal hasil
= nilai sampel ke-n
FFT dikelompokkan ke dalam berkas filter
= nilai window ke-n
triangular ini. Maksud pengelompokan di sini
= jumlah sampel dalam frame
adalah setiap nilai FFT dikalikan terhadap gain
Secara khusus (dalam masalah ini), secara
filter yang bersesuaian dan hasilnya dijumlahkan.
empiris, digunakan hamming window, yang
Maka setiap kelompok mengandung sejumlah bobot
mempunyai bentuk,
energi sinyal sebagaimana dinyatakan sebagai
 2n 
w(n)  0,54  0,46 cos ,0  n  N  1 m1….mp seperti tampak pada Gambar 4.
 N 1
2.2.5 Cepstrum
2.2.3 Fast Fourier Transform (FFT) Cepstrum adalah sebutan kebalikan untuk
Proses selanjutnya adalah Alihragam Fourier spectrum. Cepstrum biasa digunakan untuk
Cepat (Fast Fourier Transform), yang mendapatkan informasi dari suatu sinyal suara yang
mengkonversi setiap frame yang berisi N sampel diucapkan oleh manusia.Pada langkah terakhir ini,
dari ranah waktu ke ranah frekuensi. spektrum log mel dikonversi menjadi cepstrum
FFT adalah sebuah algoritma cepat untuk menggunakan Discrete Cosine Transform (DCT).
implementasi Discrete Fourier Transform (DFT) Hasil dari proses ini dinamakan Mel-Frequency
yang dioperasikan pada sebuah sinyal waktu-diskret Cepstrum Coefficients (MFCC).
yang terdiri dari N sampel sebagai berikut : MFCC ini adalah hasil alihragam cosinus dari
f (n)   KN 10 y k e 2jkn / N , n  0,1,2,..., N  1 logaritma short-term power spectrum yang
dinyatakan dalam skala mel-frekuensi. Bila mel
power spectrum coefficients dinotasikan sebagai Sk,
2.2.4 Mel-Frequency Wrapping
Studi psikofisik telah menunjukkan bahwa k = 1,2…..K , Minh N.Do mendefinisikan koefisien
persepsi manusia tentang frekuensi suara untuk dari MFCC (ĉn) sebagai :
1 
sinyal ucapan tidak mengikuti skala linier. Jadi, cn   K
k 1 (log Sk ) cos[n(k  ) ], n 1,2,..., K
2 K
untuk setiap nada dengan frekuensi sesungguhnya f,
4
2.3. Jaringan Syaraf Tiruan Learning Vector Jika T = Cj maka

Quantization (LVQ)
Learning Vector Quantization (LVQ) yaitu mendekatkan vektor bobot w
adalah suatu metode untuk melakukan pembelajaran ke vektor masukan x
atau pelatihan pada lapisan kompetitif yang Jika T ≠ Cj maka
terawasi. LVQ belajar mengklasifikasikan vektor
masukan ke kelas target yang ditentukan oleh yaitu menjauhkan vektor bobot w
pengguna. Arsitektur jaringan LVQ ditunjukkan ke vektor masukan x
pada gambar berikut ini. Langkah 5 : Mengurangi nilai laju pembelajaran
α
Langkah 6 : Mengecek kondisi untuk berhenti :
Jumlah iterasi atau laju
pembelajaran mencapai nilai yang
sangat kecil.
III. Perancangan Program

3.1 Gambaran Umum
Secara umum pembuatan program aplikasi
dapat dilihat pada Gambar 6.
Mulai
Gambar 5 Arsitektur jaringan LVQ
Jaringan LVQ terdiri dari dua lapisan

tersembunyi yaitu lapisan kompetitif dan lapisan Merekam dan memicu ucapan yang terdiri dari satu /
dua suku kata
linear. Lapisan kompetitif disebut juga Self

Organizing Map (SOM). Disebut lapisan kompetitif
karena neuron-neuron berkompetisi dengan Mengekstraksi ucapan tersebut menggunakan MFCC
algoritma kompetisi yang akan menghasilkan

neuron pemenang (winning neuron).
Pada jaringan LVQ, bias pada lapisan Membentuk jaringan LVQ
kompetitif dihilangkan. Lapis linear

mengalihragamkan kelas-kelas pada lapisan
kompetitif ke klasifikasi target yang ditentukan oleh Melatih jaringan LVQ
pengguna.
2.3.1. Algoritma Pembelajaran LVQ
Algoritma ini akan mengubah bobot satu Menguji sistem pengenalan dengan data latih dan
data uji
neuron yang paling dekat dengan vektor masukan.

Misal vektor masukan x = (x1, x2,….., xn), keluaran
vektor bobot neuron ke-j adalah wj = (w1j, w2j,…., Mengoperasikan
kursor komputer
wnj), Cj = kelas yang diwakili neuron ke-j, T =
kelas yang benar untuk masukan x, dan jarak
euclidean antara vektor masukan dan vektor bobot Selesai
dinyatakan : Gambar 6 Alur pembuatan program aplikasi pengenalan suara

untuk mengoperasikan kursor komputer
d ( j)   n
i 1 ( xi  wij ) 2
dengan x – wj = ((xi – wij), (x2 – w2ij).., (xn – wnj)), 3.2. Perekaman dan Pemicuan Ucapan
maka perubahan bobot neuron dilakukan dengan Ucapan yang akan dijadikan objek dalam
langkah-langkah berikut : pembuatan program direkam sekaligus dipicu
Langkah 0 : Inisialisasi vektor bobot dan laju sebagai data masukan bagi proses pengenalan dan
pembelajaran α pembentukan jaringan LVQ. Data masukan ucapan
Langkah 1 : Jika kondisi untuk berhenti salah, diperoleh melalui mikrofon. Sinyal tersebut dengan
laksanakan langkah 2 sampai 6 frekuensi pencuplikan (frequency sampling) sebesar
Langkah 2 : Untuk tiap vektor masukan x, 11025 Hz, resolusi delapan bit dan waktu pemicuan
laksanakan langkah 3 dan 4 sebanyak satu detik (11025 sampel).
Langkah 3 : Hitung nilai j sehingga d(j) Ucapan-ucapan yang akan dikenali ada 8 kata
minimum yaitu, “kanan”, “kiri”, “bawah”, “atas”, “satu”,
Langkah 4 : Mengubah bobot neuron ke-j “tiga”, “lima”, dan “klik”. Untuk setiap ucapan
sebagai berikut : diambil sampel ucapan sebanyak enam orang dan
5
setiap orang mengucapkan sebanyak 5 kali dalam

setiap kata tersebut. IV. Pengujian dan Analisis
Ketika program eksekusi mulai dijalankan Pengujian program terbagi menjadi dua
maka proses perekaman terhadap sinyal masukan bagian yakni, pengujian dengan data latih dan
berupa suara dilakukan secara terus menerus pengujian dengan data uji.
sekaligus ditampilkan bentuk sinyalnya secara 4.1 Pengujian Dengan Data Latih
waktu-nyata (real-time). Jika ada sinyal masukan Pengujian dengan data latih dilakukan dengan
dengan nilai amplitudo sebesar 0,7 dalam satuan menggunakan dua komputer yang dirangkai seperti
ternormalisasi maka proses pemicuan dimulai. pada Gambar 8
3.3. Proses Menjalankan Aplikasi

Proses menjalankan aplikasi dapat dilihat
pada Gambar 7
Mulai
Analog input
Gambar 8 Rangkaian alat saat pengujian dengan data latih
Proses pengenalan Komputer pertama digunakan untuk

memainkan data latih sedangkan komputer kedua
Kata 1 “kanan” dan Kata 2 “satu”
Kursor bergerak ke
kanan sejauh 20 piksel
digunakan untuk mengenali data latih yang
dimainkan oleh komputer pertama. Data latih
Kata 1 “kanan” dan Kata 2 “tiga”
Kursor bergerak ke
berasal dari basisdata suara yang telah direkam dan
dilatihkan ke program. Sedangkan basisdata suara
Kata 1 “kanan” dan Kata 2 “lima”
Kursor bergerak ke itu sendiri berasal dari ucapan responden yang
direkam sebanyak 5 kali untuk setiap target kata,
Kata 1 “kiri” dan Kata 2 “satu”
Kursor bergerak ke kiri sehingga jumlah dari data latih sebanyak = 5 x 6
sejauh 20 piksel
(responden) x 8 (target kata) = 240 data.
Kata 1 “kiri” dan Kata 2 “tiga”
Kursor bergerak ke kiri Pengujian dilakukan dengan menggunakan 15
sejauh 60 piksel
instruksi, yang mana masing-masing instruksi
Kata 1 “kiri” dan Kata 2 “lima”
Kursor bergerak ke kiri tersebut merupakan gabungan dari 2 kata yang
sejauh 100 piksel
dikenali oleh program. Pengujian dikatakan berhasil
Kata 1 “bawah” dan Kata 2 “satu”
Kursor bergerak ke apabila instruksi tersebut muncul di layar monitor
bawah sejauh 20 piksel
dan komputer mengoperasikan perintah yang ada
Kursor bergerak ke pada instruksi tersebut. Pengujian dilakukan
Kata 1 “bawah” dan Kata 2 “tiga”
bawah sejauh 60 piksel
sebanyak 5 kali untuk masing-masing instruksi.
Kursor bergerak ke
Kata 1 “bawah” dan Kata 2 “lima”
bawah sejauh 100 piksel 4.2 Pengujian Dengan Data Uji
Kata 1 “atas” dan Kata 2 “satu”
Kursor bergerak ke atas Berbeda dengan pengujian data latih,
sejauh 20 piksel
pengujian dengan data uji dilakukan hanya dengan
Kata 1 “atas” dan Kata 2 “tiga”
Kursor bergerak ke atas menggunakan satu komputer dan data yang diujikan
sejauh 60 piksel
berasal dari responden yang mengucapkan kata
Kata 1 “atas” dan Kata 2 “lima”
Kursor bergerak ke atas secara waktu-nyata (real-time). Setiap responden
sejauh 100 piksel
mengucapkan 15 instruksi, yang merupakan
Kata 1 “klik” dan Kata 2 “kiri” Melakukan klik kiri
gabungan dari dua kata yang dikenali oleh program,
yang mana masing-masing instruksi tersebut
diucapkan sebanyak 5 kali.
Kata 1 “klik” dan Kata 2 “kanan” Melakukan klik kanan
Pengujian dikatakan berhasil apabila instruksi
yang diucapkan muncul di layar monitor dan
Kata 1 “klik” dan Kata 2 “klik” Melakukan double klik
komputer mengoperasikan perintah yang ada pada
instruksi tersebut.
Pada Tabel 1 ditunjukkan persentase
Selesai keberhasilan pengujian program dengan data latih
Gambar 7 Alur program utama aplikasi pengenalan suara dan data uji.
untuk mengoperasikan kursor komputer
6
Tabel 1 Persentase keberhasilan pengenalan ucapan dengan 5.2 Saran

data uji dan data latih Adapun saran yang dapat diberikan
Instruksi %Keberhasilan %Keberhasilan sehubungan dengan pelaksanaan penelitian ini
No yang dengan data dengan data adalah sebagai berikut.
diucapkan latih uji 1. Perlu dilakukan penambahan variasi ucapan,
1 "kanan-satu" 100 % 90 % agar instruksi untuk mengoperasikan kursor
2 "kiri-satu" 83,33 % 76,66 % komputer bisa lebih banyak seperti melakukan
3 "bawah-satu" 83,33 % 76,66 %
penambahan kata ”serong” untuk
menggerakkan kursor komputer secara
4 "atas-satu" 83,33 % 83,33 % diagonal.
5 "kanan-tiga" 100 % 90 % 2. Perlu dilakukan penelitian lanjutan dengan
6 "kiri-tiga" 83,33 % 76,66 % menggunakan algoritma lain dalam proses
7 "bawah-tiga" 83,33 % 80 % ekstraksi ciri, misalnya dengan menggunakan
algoritma LPC (Linear Predictive Coding).
8 "atas-tiga" 83,33 % 83,33 %
3. Pada proses pembelajaran jaringan perlu
9 "kanan-lima" 100 % 90 % dilakukan penelitian lanjutan dengan
10 "kiri-lima" 83,33 % 76,66 % menggunakan Jaringan Syaraf Tiruan tipe
11 "bawah-lima" 83,33 % 80 % lainnya, misalnya Jaringan Syaraf Tiruan
12 "atas-lima" 83,33 % 83,33 % Perambatan Balik.
13 "klik-kanan" 100 % 93,33 % Daftar Pustaka
14 "klik-kiri" 83,33 % 80 % [1] Bahri, K. S. dan W. Sjachriyanto, Teknik
15 "klik-klik" 100 % 100 % Pemrograman Delphi, Edisi Revisi,
% Rata-rata Informatika Bandung, Bandung, 2008.
keberhasilan total 88, 89 % 83, 99 % [2] Chaedar, Z. A., Aplikasi Pengenalan Ucapan
dengan Ekstraksi Mel-Frequency
4.3 Faktor yang Berpotensi Mempengaruhi Cepstrum Coefficients (MFCC)
Tingkat Pengenalan Pengujian Data Melalui Jaringan Syaraf Tiruan (JST)
Faktor-faktor yang mempengaruhi tingkat Learning Vector Quantization (LVQ)
pengenalan ucapan pada program adalah sebagai Untuk Menjalankan Program
berikut. Komputer, Tugas Akhir S-1,
1. Kondisi Lingkungan Universitas Diponegoro, Semarang,
2. Kondisi dan intonasi suara responden 2005.
3. Letak Mikrofon [3] Developments,U.,BASS,http://
4. Cara perekaman sinyal suara www.un4seen.com/, Agustus 2011.
5. Kondisi Peralatan [4] Gajic, Z., Advanced Mouse Processing,
http://delphi.about.com/ od/ vclusing/
V. Penutup a/mouseadvanced.htm, Juli 2011.
5.1 Kesimpulan [5] Ganchev, T., N. Fakotakis dan G.
Dari pembahasan hasil aplikasi pengenalan Kokkinakis, Comparative Evaluation
suara yang telah dilakukan dapat diambil beberapa of Various MFCC Implementations on
kesimpulan sebagai berikut. the Speaker Verification Task,
1. Keluaran dari MFCC adalah koefisien ciri SPECOM Journal, Vol. 1, pp. 191-194,
yang berisi nilai-nilai yang mewakili sinyal October 2005.
ucapan. [6] Haykin, S., Neural Networks, Macmilian
2. Algoritma LVQ pada program ini digunakan College Publishing Company.Inc, New
untuk mengklasifikasikan masukan ke kelas York, 1994.
target yang ditentukan. [7] Siang, J. J., Jaringan Syaraf Tiruan dan
3. Rata-rata persentase keberhasilan pengenalan Pemrogramannya Menggunakan
suara program dengan menggunakan data Matlab, Penerbit Andi, Yogyakarta,
latih adalah sebesar 88,89 %. 2005.
4. Rata-rata persentase keberhasilan pengenalan [8] ---, AHoFFT, http:// read.pudn.com/
suara program dengan menggunakan data uji downloads65/ ebook/ 232427/
adalah sebesar 83,99 %. reconstruction/AHoFFT.pas__.htm,
Agustus 2011.
7
Biodata Penulis
Angga Setiawan, lahir di
kota Salatiga pada
tanggal 25 Januari 1990.
Menempuh pendidikan di
SDN Sidomulyo 4
Ungaran, SMPN 3
Ungaran, SMAN 1
Ungaran dan saat ini
masih menyelesaikan
studi Strata-1 di Jurusan
Teknik Elektro
Universitas Diponegoro
Semarang dengan
mengambil konsentrasi Elektronika
Telekomunikasi.
Menyetujui,
Dosen Pembimbing I,
Achmad Hidayatno, S.T., M.T.

NIP. 196912211995121001
Dosen Pembimbing II,
R. Rizal Isnanto, S.T.,M.M, M.T.

NIP. 197007272000121001

Mel-Frequency Cepstrum Coefficients (MFCC) Melalui Jaringan Syaraf

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Mel-Frequency Cepstrum Coefficients (MFCC) Melalui Jaringan Syaraf

Transféré par

Droits d'auteur :

Formats disponibles

Makalah Seminar Tugas Akhir

APLIKASI PENGENALAN UCAPAN DENGAN EKSTRAKSI

Keywords : voice recognition, computer cursor, MFCC, LVQ

I. Pendahuluan Metode yang dibuat ini merupakan salah satu

1.3 Batasan Masalah digunakan untuk membuat pola

II. Landasan Teori 2.2 Mel-Frequency Cepstrum Coefficients

(b) Blok diagram pengenalan suara.

Gambar 3 Proses frame blocking

2.3. Jaringan Syaraf Tiruan Learning Vector Jika T = Cj maka

III. Perancangan Program

Jaringan LVQ terdiri dari dua lapisan

linear. Lapisan kompetitif disebut juga Self

algoritma kompetisi yang akan menghasilkan

kompetitif dihilangkan. Lapis linear

neuron yang paling dekat dengan vektor masukan.

dinyatakan : Gambar 6 Alur pembuatan program aplikasi pengenalan suara

setiap orang mengucapkan sebanyak 5 kali dalam

3.3. Proses Menjalankan Aplikasi

Proses pengenalan Komputer pertama digunakan untuk

Tabel 1 Persentase keberhasilan pengenalan ucapan dengan 5.2 Saran

Achmad Hidayatno, S.T., M.T.

Dosen Pembimbing II,

R. Rizal Isnanto, S.T.,M.M, M.T.

Vous aimerez peut-être aussi