Académique Documents
Professionnel Documents
Culture Documents
i
DAFTAR ISI
A. Kesimpulan ............................................................................................. 19
ii
DAFTAR GAMBAR
iii
DAFTAR TABEL
iv
BAB I
PENDAHULUAN
A. Latar Belakang
B. Identifikasi Masalah
Penjelasan Algoritma Nearest Neighbour
Jenis Algoritma Nearest Neighbour
Kelebihan dan Kelemahan Algoritma Nearest Neighbour
Penggunaan Algoritma Nearest Neighbour
C. Rumusan Masalah
Jelaskan pengertian Algoritma Nearest Neighbour
Jelaskan Jenis Algoritma Nearest Neighbour
Apa Kelebihan dan Kelemahan Algoritma Nearest Neighbour
Berikan contoh penggunaan Algoritma Nearest Neighbour
D. Tujuan Penulisan
Tujuan lainnya:
5
Untuk memahami penggunaan algoritma Nearest Neighbors
Untuk memahami kelebihan dan kelemahan menggunakan algoritma
Nearest Neighbors
E. Manfaat Penulisan
6
BAB II
ISI PEMBAHASAN
7
Gambar 2.1. ilustrasi kasus 1-NN
Pada ilustrasi diatas, data baru (node warna biru) akan diklasifikaikan ke
dalam kelompok hipertensi dan tidak hipertensi. Dari kelima data yang
tersebar dalam kelompok hipertensi dan tidak hipertensi, data input (node
biru) lebih dekat dengan salah satu pada kelompok hipertensi. Dengan
demikian, dapat disimpulkan bahwa data baru tersebut termasuk ke dalam
kelompok hipertensi.
(2.1)
8
C. Algoritma k - Nearest Neighbor (k-NN)
k-Nearest Neighborhood (k-NN) adalah suatu metode yang menggunakan
algoritma supervised dimana hasil dari query instance yang baru
diklasifikasikan berdasarkan mayoritas dari label class pada k-NN. Tujuan
dari algoritma k-NN adalah mengklasifikasikan objek baru berdasarkan
atribut dan training data.
(2.2)
Dimana,
Xik = nilai X pada training data
Jika hasil nilai dari rumus di atas besar maka akan semakin jauh tingkat
keserupaan antara kedua objek dan sebaliknya jika hasil nilainya semakin
kecil maka akan semakin dekat tingkat keserupaan antar objek tersebut.
Objek yang dimaksud adalah training data dan testing data.
9
Dalam algoritma ini, nilai k yang terbaik itu tergantung pada jumlah data.
Ukuran nilai k yang besar belum tentu menjadi nilai k yang terbaik begitupun
juga sebaliknya.
1. Menentukan nilai k.
2. Menghitung kuadrat jarak euclid (query instance) masing-masing objek
terhadap training data yang diberikan.
3. Kemudian mengurutkan objek-objek tersebut ke dalam kelompok yang
mempunyai jarak euclid terkecil.
4. Mengumpulkan label class Y (klasifikasi Nearest Neighborhood).
Nilai k yang terbaik untuk algoritma ini tergantung pada data; secara
umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi,
tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai k
yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan
menggunakan cross-validation. Kasus khusus di mana klasifikasi
diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan kata
lain, k = 1) disebut algoritma nearest neighbor.
Ketepatan algoritma k-NN ini sangat dipengaruhi oleh ada atau tidaknya
fitur-fitur yang tidak relevan, atau jika bobot fitur tersebut tidak setara dengan
10
relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar
membahas bagaimana memilih dan memberi bobot terhadap fitur, agar
performa klasifikasi menjadi lebih baik.
Linear scan
Pohon kd
Pohon Balltree
Pohon metrik
Locally-sensitive hashing (LSH)
Kelebihan k-NN
Algoritma k-NN ini memiliki konsistensi yang kuat. Ketika jumlah
data mendekati tak hingga, algoritma ini menjamin error rate yang
tidak lebih dari dua kali Bayes error rate (error rate minimum untuk
distribusi data tertentu).
k-NN tangguh terhadap training data yang noisy dan efektir apabila
data latihnya beesar
Kelemahan k-NN
k-NN perlu menentukan nilai dari parameter k (jumlah dari
tetangga terdekat)
Pembelajaran berdasarkan jarak tidak jelas mengenai jenis jarak
apa yang harus digunakan dan atribut mana yangg harus digunakan
untuk mendapatkan hasil yang terbaik
Biaya komputasi cukup tinggi karena diperlukan perhitungan jarak
dari tiap sample uji pada keseluruhan sample latih.
D. Contoh Penyelesaian Kasus Menggunakan Nearest Neighbor
Contoh kasus ini akan memberikan sebuah contoh untuk penyelesaian
kasus menggunakan Nearest Neighbor.
Kasus :
11
Kemungkinan seorang nasabah bank akan bermasalah dalam
pembayarannya atau tidak.
Tabel 2.1. Tabel Kasus
No Jenis Kelamin Pendidikan Status Bermasalah
1 Laki-Laki S1 Bekerja Ya
2 Perempuan SMA Tidak Bekerja Tidak
3 Laki-Laki SMA Bekerja Tidak
4 Perempuan S2 Bekerja Ya
Bobot antara satu atribut dengan atribut yang lain pada atribut bukan
tujuan dapat didefinisikan dengan nilai berbeda.
12
Tabel 2.4. Kedekatan Nilai Atribut Pendidikan
Pendidikan SMA S1 S2
SMA 1 0.5 0
S1 0.5 1 0.5
S2 0 0.5 1
13
Tidak Bekerja Tidak Bekerja 1
Bekerja Tidak Bekerja 0
Tidak Bekerja Bekerja 0
Pendidikan : SMA
Untuk memprediksi apakah nasabah tersebut akan bermasalah atau tidak dapat
dilakukan langkah-langkah sebagai berikut:
14
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
bdf
(1 * 0.5) (0.5*1) (0* 0.75)
Jarak
0.5 1 0.75
1
Jarak
2.25
Jarak 0.44
15
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
bdf
(0 * 0.5) (1*1) (1* 0.75)
Jarak
0.5 1 0.75
1.75
Jarak
2.25
Jarak 0.778
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
16
bdf
(1 * 0.5) (1*1) (1* 0.75)
Jarak
0.5 1 0.75
1.5
Jarak
2.25
Jarak 0.667
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
17
bdf
(0 * 0.5) (0 * 1) (0 * 0.75)
Jarak
0.5 1 0.75
0
Jarak
2.25
Jarak 0
18
BAB III
PENUTUP
A. Kesimpulan
Menggunakan metode nearest neighbor semua kasus akan terklasifikasi
walaupum nilai kedekatannya belum tentu 100%. Hasil klasifikasi tidak dapat
dijamin kebenarannya karena banyak kasus yang memiliki kedekatan yang
sama dengan beberapa klasifikasi yang berbeda
19
20
D. Algoritma k - Nearest Neighbor (k-NN)
Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik
pohon keputusan. Algoritma C4.5 memiliki kelebihan antara lain dapat
mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai
atribut yang hilang, menghasilkan aturan-aturan yang mudah
diintrepetasikan dan tercepat diantara algoritma-algoritma yang lain.
ini adalah lebih sederhana dan dapat menangani data yang besar.
Sedangkan algoritma lainnya memiliki kelemahan dalam penggunaan
memori saat jumlah data besar, tentunya berpengaruh terhadap banyaknya
item yang diproses serta mudah di pahami struktur kerja dan
implementasinya
21
DAFTAR PUSTAKA
Prasetyo, Eko. 2012. Fuzzy K-Nearest Neighbor In Every Class Untuk Klasifikasi
Data. Seminar nasional Teknik Informatika (SANTIKA 2012). Universitas
Pembangunan Nasional Veteran Jawa Timur
22
Shouman, Mai; Turner, Tim; Stocker, Rob. 2012. Applying K-Nearest Neighbor
in Diagnosing Heart Disease Patients. International Journal of Information
Technology. Vol 2 No 3, June 2012.
23