Abs Trak

ABSTRAK
Algoritma Nearest Neighbor (NN) merupakan algoritma pendekatan

dalam pencarian kasus dengan menghitung kedekatan antara kasus baru dengan
kasus lama yaitu dengan berdasarkan pencocokan bobot dari sejumlah atribut
yang ada. Ada 2 Jenis Algoritma Nearest Neighbor yaitu 1-NN dan K-NN.
Algoritma 1-Nearest Neighborhood (1-NN) adalah suatu metode yang
menggunakan sebuah labeled data terdekat. k-Nearest Neighborhood (k-NN)
adalah suatu metode yang menggunakan algoritma supervised dimana hasil dari
query instance yang baru diklasifikasikan berdasarkan mayoritas dari label class
pada k-NN. Tujuan dari algoritma k-NN adalah mengklasifikasikan objek baru
berdasarkan atribut dan training data. Adapun Kasus yang dapat diselesaikan
dengan metode ini contohnya Kemungkinan seorang nasabah bank akan
bermasalah dalam pembayarannya atau tidak.
i
DAFTAR ISI
KATA PENGANTAR ........................................... Error! Bookmark not defined.
DAFTAR ISI ........................................................................................................... ii
DAFTAR GAMBAR ............................................................................................. iii
DAFTAR TABEL .................................................................................................. iv
BAB I PENDAHULUAN ....................................................................................... 5
A. Latar Belakang ......................................................................................... 5
B. Identifikasi Masalah ................................................................................. 5
C. Rumusan Masalah .................................................................................... 5
D. Tujuan Penelitian ...................................................................................... 6
E. Manfaat Penelitian .................................................................................... 6
BAB II PEMBAHASAN ........................................................................................ 7
A. Pengertian Nearest Neighbor ................................................................... 7
B. Algoritma 1 - Nearest Neighbor (1-NN) .................................................. 7
C. Algoritma k - Nearest Neighbor (k-NN) .................................................. 9
D. Contoh Kasus Penyelesaian Menggunakan Nearest Neighbor .............. 11
BAB III PENUTUP .............................................................................................. 19
A. Kesimpulan ............................................................................................. 19
DAFTAR PUSTAKA ........................................................................................... 22
ii
DAFTAR GAMBAR
Gambar 2.1. ilustrasi kasus 1-NN ........................................................................... 8
iii
DAFTAR TABEL
Tabel 2.1. Tabel Kasus .......................................................................................... 12
Tabel 2.2. Definisi Bobot Atribut ......................................................................... 12
Tabel 2.3. Kedekatan Nilai Atribut Jenis Kelamin ............................................... 12
Tabel 2.4. Kedekatan Nilai Atribut Pendidikan .................................................... 13
Tabel 2.5. Kedekatan Nilai Atribut Status ............................................................ 13
iv
BAB I
PENDAHULUAN
A. Latar Belakang
Klasifikasi adalah proses untuk menemukan model atau fungsi yang

menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk
dapat memperkirakan kelas dari suatu objek yang labelnya belum diketahui.
Model itu sendiri dapat berupa aturan jika-maka, berupa decision tree,
formula matematis atau neural network. Salah satu metode klasifikasi yaitu
Nearest Neighbor. Ada 2 jenis metode ini yaitu 1-NN dan K-NN. Metode
selain kelebihan yang dimiliki tetapi juga memiliki kelemahan . masa
sekarang ini metode ini baik jika digunakan untuk kebutuhan bisnis.
B. Identifikasi Masalah
Penjelasan Algoritma Nearest Neighbour
Jenis Algoritma Nearest Neighbour
Kelebihan dan Kelemahan Algoritma Nearest Neighbour
Penggunaan Algoritma Nearest Neighbour
C. Rumusan Masalah
Jelaskan pengertian Algoritma Nearest Neighbour
Jelaskan Jenis Algoritma Nearest Neighbour
Apa Kelebihan dan Kelemahan Algoritma Nearest Neighbour
Berikan contoh penggunaan Algoritma Nearest Neighbour
D. Tujuan Penulisan
Ujian Tengah Semester Data Mining.
Tujuan lainnya:
Untuk memahami algoritma Nearest Neighbor
5
Untuk memahami penggunaan algoritma Nearest Neighbors
Untuk memahami kelebihan dan kelemahan menggunakan algoritma
Nearest Neighbors
E. Manfaat Penulisan
Semoga tulisan ini bermanfaat untuk pembaca dalam memahami

Algoritme Nearest Nearest Neighbor
6
BAB II
ISI PEMBAHASAN
A. Pengertian Nearest Neighbor

Algoritma Nearest Neighbor (NN) merupakan algoritma pendekatan
dalam pencarian kasus dengan menghitung kedekatan antara kasus baru
dengan kasus lama yaitu dengan berdasarkan pencocokan bobot dari sejumlah
atribut yang ada (Kusrini & Emha, 2009). Nearest Neighbor akan
mengklasifikasikan hanya jika atribut dari kasus baru sesuai dengan salah
satu atribut pada kasus lama (Ricci, F et al., 2010). Perhitungan jarak
kedekatan antara kasus baru dengan kasus lama biasanya memakai metrik
jarak. Satuan jarak yang umumnya digunakan adalah euclidian.
Jenis algoritma Nearest Neighbor ada 2, yaitu:
1. 1-NN, yaitu pengklasifikasikan dilakukan terhadap 1 labeled data

terdekat.
2. K-NN, yaitu pengklasifikasikan dilakukan terhadap k labeled data
terdekat dengan k>1.
B. Algoritma 1 - Nearest Neighbor (1-NN)

1-Nearest Neighborhood (1-NN) adalah suatu metode yang menggunakan
sebuah labeled data terdekat. Langkah-langkah untuk menghitung algoritma
1-NN:
1. Menghitung jarak antara data baru ke setiap labeled data

2. Menentukan 1 labeled data yang mempunyai jarak yang paling
minimal
3. Mengklasifikasikan data baru ke dalam labeled data tersebut.
Berikut ini adalah ilustrasi algoritma 1-NN:
7
Gambar 2.1. ilustrasi kasus 1-NN
Pada ilustrasi diatas, data baru (node warna biru) akan diklasifikaikan ke
dalam kelompok hipertensi dan tidak hipertensi. Dari kelima data yang
tersebar dalam kelompok hipertensi dan tidak hipertensi, data input (node
biru) lebih dekat dengan salah satu pada kelompok hipertensi. Dengan
demikian, dapat disimpulkan bahwa data baru tersebut termasuk ke dalam
kelompok hipertensi.
Rumus euclide distance yang digunakan dalam metode 1-NN untuk

mengambil keputusan dengan menghitung jarak terpendek antara input
dengan masing-masing data yang penentuan bobot atau label dilakukan
secaraacak atau random yaitu:
(2.1)
8
C. Algoritma k - Nearest Neighbor (k-NN)
k-Nearest Neighborhood (k-NN) adalah suatu metode yang menggunakan
algoritma supervised dimana hasil dari query instance yang baru
diklasifikasikan berdasarkan mayoritas dari label class pada k-NN. Tujuan
dari algoritma k-NN adalah mengklasifikasikan objek baru berdasarkan
atribut dan training data.
Algoritma k-NN bekerja berdasarkan jarak terpendek dari query instance

ke training data untuk menentukan k-NN-nya. Salah satu cara untuk
menghitung jarak dekat atau jauhnya tetangga menggunakan metode
euclidian distance.
Ecludian Distance sering digunakan untuk menghitung jarak. Euclidian

Distance berfungsi menguji ukuran yang bisa digunakan sebagai interpretasi
kedekatan jarak antara dua obyek, di bawah ini merupakan rumus Ecludian
Distance:
(2.2)
Dimana,
Xik = nilai X pada training data
Xjk = nilai X pada testing data

m = batas jumlah banyaknya data
Jika hasil nilai dari rumus di atas besar maka akan semakin jauh tingkat
keserupaan antara kedua objek dan sebaliknya jika hasil nilainya semakin
kecil maka akan semakin dekat tingkat keserupaan antar objek tersebut.
Objek yang dimaksud adalah training data dan testing data.
9
Dalam algoritma ini, nilai k yang terbaik itu tergantung pada jumlah data.
Ukuran nilai k yang besar belum tentu menjadi nilai k yang terbaik begitupun
juga sebaliknya.
Langkah-langkah untuk menghitung algoritma k-NN:
1. Menentukan nilai k.
2. Menghitung kuadrat jarak euclid (query instance) masing-masing objek
terhadap training data yang diberikan.
3. Kemudian mengurutkan objek-objek tersebut ke dalam kelompok yang
mempunyai jarak euclid terkecil.
4. Mengumpulkan label class Y (klasifikasi Nearest Neighborhood).
Pada fase pembelajaran, algoritma ini hanya melakukan penyimpanan

vektor-vektor fitur dan klasifikasi dari data pembelajaran. Pada fase
klasifikasi, fitur-fitur yang sama dihitung untuk data test (yang klasifikasinya
tidak diketahui). Jarak dari vektor yang baru ini terhadap seluruh vektor data
pembelajaran dihitung, dan sejumlah k buah yang paling dekat diambil. Titik
yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak
dari titik-titik tersebut.
Nilai k yang terbaik untuk algoritma ini tergantung pada data; secara
umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi,
tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai k
yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan
menggunakan cross-validation. Kasus khusus di mana klasifikasi
diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan kata
lain, k = 1) disebut algoritma nearest neighbor.
Ketepatan algoritma k-NN ini sangat dipengaruhi oleh ada atau tidaknya
fitur-fitur yang tidak relevan, atau jika bobot fitur tersebut tidak setara dengan
10
relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar
membahas bagaimana memilih dan memberi bobot terhadap fitur, agar
performa klasifikasi menjadi lebih baik.
Terdapat beberapa jenis algoritma pencarian tetangga terdekat, diantaranya:
Linear scan
Pohon kd
Pohon Balltree
Pohon metrik
Locally-sensitive hashing (LSH)
Kelebihan k-NN
Algoritma k-NN ini memiliki konsistensi yang kuat. Ketika jumlah
data mendekati tak hingga, algoritma ini menjamin error rate yang
tidak lebih dari dua kali Bayes error rate (error rate minimum untuk
distribusi data tertentu).
k-NN tangguh terhadap training data yang noisy dan efektir apabila
data latihnya beesar
Kelemahan k-NN
k-NN perlu menentukan nilai dari parameter k (jumlah dari
tetangga terdekat)
Pembelajaran berdasarkan jarak tidak jelas mengenai jenis jarak
apa yang harus digunakan dan atribut mana yangg harus digunakan
untuk mendapatkan hasil yang terbaik
Biaya komputasi cukup tinggi karena diperlukan perhitungan jarak
dari tiap sample uji pada keseluruhan sample latih.
D. Contoh Penyelesaian Kasus Menggunakan Nearest Neighbor
Contoh kasus ini akan memberikan sebuah contoh untuk penyelesaian
kasus menggunakan Nearest Neighbor.
Kasus :
11
Kemungkinan seorang nasabah bank akan bermasalah dalam
pembayarannya atau tidak.
Tabel 2.1. Tabel Kasus
No Jenis Kelamin Pendidikan Status Bermasalah
1 Laki-Laki S1 Bekerja Ya
2 Perempuan SMA Tidak Bekerja Tidak
3 Laki-Laki SMA Bekerja Tidak
4 Perempuan S2 Bekerja Ya
Atribut Bermasalah merupakan atribut tujuan.
Bobot antara satu atribut dengan atribut yang lain pada atribut bukan
tujuan dapat didefinisikan dengan nilai berbeda.
Tabel 2.2. Definisi Bobot Atribut

Atribut Bobot
Jenis Kelamin 0.5
Pendidikan 1
Status 0.75
Kedekatan antara nilai-nilai dalam atribut juga perlu didefinisikan.
Tabel 2.3. Kedekatan Nilai Atribut Jenis Kelamin

Jenis Kelamin L P
Laki-Laki 1 0
Perempuan 0 1
Nilai1 Nilai2 Kedekatan

Laki-Laki Laki-Laki 1
Perempuan Perempuan 1
Laki-Laki Perempuan 0
Perempuan Laki-Laki 0
12
Tabel 2.4. Kedekatan Nilai Atribut Pendidikan
Pendidikan SMA S1 S2
SMA 1 0.5 0
S1 0.5 1 0.5
S2 0 0.5 1

S2 S2 1
S2 S1 0.5
S2 SMA 0
S1 S1 1
S1 S2 0.5
S1 SMA 0.5
SMA SMA 1
SMA S1 0.5
SMA S2 0
Tabel 2.5. Kedekatan Nilai Atribut Status

Status Bekerja Tidak Bekerja
Bekerja 1 0
Tidak Bekerja 0 1

Bekerja Bekerja 1
13
Tidak Bekerja Tidak Bekerja 1
Bekerja Tidak Bekerja 0
Tidak Bekerja Bekerja 0
Misalkan ada kasus nasabah baru dengan nilai atribut:
Jenis Kelamin : Laki-Laki
Pendidikan : SMA
Status : Tidak Bekerja
Untuk memprediksi apakah nasabah tersebut akan bermasalah atau tidak dapat
dilakukan langkah-langkah sebagai berikut:
1. Menghitung kedekatan kasus baru dengan kasus no1.

Diketahui:
a : Kedekatan nilai atribut Jenis Kelamin (Laki-laki dengan

Laki-laki)
: 1
b : Bobot Atribut Jenis Kelamin
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan S1)
: 0.5
d : Bobot Atribut Pendidikan
: 1
e : Kedekatan nilai atribut Status (Tidak Bekerja dengan
Bekerja)
: 0
f : Bobot Atribut Status
: 0.75
14
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
bdf
(1 * 0.5) (0.5*1) (0* 0.75)
Jarak
0.5 1 0.75
1
Jarak
2.25
Jarak 0.44
2. Menghitung kedekatan kasus baru dengan kasus no 2.

Diketahui:
Perempuan)
: 0
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan SMA)
: 1
: 1
Bekerja)
: 1
: 0.75
15
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
bdf
(0 * 0.5) (1*1) (1* 0.75)
Jarak
0.5 1 0.75
1.75
Jarak
2.25
Jarak 0.778

Diketahui:
Laki-laki)
: 1
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan SMA)
: 1
: 1
Bekerja)
: 0
: 0.75
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
16
bdf
(1 * 0.5) (1*1) (1* 0.75)
Jarak
0.5 1 0.75
1.5
Jarak
2.25
Jarak 0.667

Diketahui:
a : Kedekatan nilai atribut Jenis Kelamin (Perempuan dengan
Laki-laki)
: 0
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan S2)
: 0
: 1
Bekerja)
: 0
: 0.75
Dihitung:
(a * b) (c * d ) (e * f )
Jarak
17
bdf
(0 * 0.5) (0 * 1) (0 * 0.75)
Jarak
0.5 1 0.75
0
Jarak
2.25
Jarak 0
5. Memilih kasus dengan kedekatan terdekat.

Dari langkah 1, 2 dan 3 dapat diketahui bahwa nilai tertinggi
adalah kasus 2. Berarti kasus yang terdekat dengan kasus baru
adalah kasus 2.
6. Menggunakan klasifikasi dari kasus dengan kedekatan terdekat.
Berdasarkan hasil pada langkah 4, maka klasifikasi dari kasus 2
yang akan digunakan untuk memprediksi kasus baru. Yaitu
kemungkinan nasabah baru akan Tidak Bermasalah
18
BAB III
PENUTUP
A. Kesimpulan
Menggunakan metode nearest neighbor semua kasus akan terklasifikasi
walaupum nilai kedekatannya belum tentu 100%. Hasil klasifikasi tidak dapat
dijamin kebenarannya karena banyak kasus yang memiliki kedekatan yang
sama dengan beberapa klasifikasi yang berbeda
Keakuratan pencarian kasus lama sangat dipengaruhi oleh penentuan

bobot perbandingan. Dengan menggunakan metode nearest neighbor, proses
testing memerlukan waktu yang lama karena setiap kasus baru akan
dicocokkan dengan semua kasus lama.
Pra proses pada metode nearest neighbor lebih banyak dikarenakan

perlunya penambahan proses penentuan bobot variabel dan penentuan bobot
perbandingan antara nilai_variabel.
19
20
D. Algoritma k - Nearest Neighbor (k-NN)
Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik
pohon keputusan. Algoritma C4.5 memiliki kelebihan antara lain dapat
mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai
atribut yang hilang, menghasilkan aturan-aturan yang mudah
diintrepetasikan dan tercepat diantara algoritma-algoritma yang lain.
Algoritma Nearest Neighbors kelebihannya memiliki konsistensi

yang kuat. Ketika jumlah data mendekati tak hingga, algoritma ini
menjamin error rate yang tidak lebih dari dua kali Bayes error rate (error
rate minimum untuk distribusi data tertentu).
ini adalah lebih sederhana dan dapat menangani data yang besar.
Sedangkan algoritma lainnya memiliki kelemahan dalam penggunaan
memori saat jumlah data besar, tentunya berpengaruh terhadap banyaknya
item yang diproses serta mudah di pahami struktur kerja dan
implementasinya
Bayesian classification adalah pengklasifikasi statistik yang dapat

digunakan untuk memprediksi probabilitas keanggotaan suatu class.
Bayesian classification didasarkan pada teorema bayes yang memiliki
kemampuan klasifikasi serupa dengan decision tree dan neural network.
Bayesian classification terbukti memiliki akurasi dan kecepatan yang
tinggi saat diaplikasikan ke dalam database dengan data yang besar.
21
DAFTAR PUSTAKA
Prasetyo, Eko. 2012. Fuzzy K-Nearest Neighbor In Every Class Untuk Klasifikasi
Data. Seminar nasional Teknik Informatika (SANTIKA 2012). Universitas
Pembangunan Nasional Veteran Jawa Timur
Kusrini, Hartati, S.,. 2007. Penggunaan Penalaran Berbasis Kasus untuk

Membangun Basis Pengetahuan dalam Sistem Diagnosis Penyakit. Proceeding
Seminar Riset Teknologi Informasi (SRITI) 2007. Yogyakarta
22
Shouman, Mai; Turner, Tim; Stocker, Rob. 2012. Applying K-Nearest Neighbor
in Diagnosing Heart Disease Patients. International Journal of Information
Technology. Vol 2 No 3, June 2012.
Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,

2011.
Jiawei Han and Micheline Kamber, Data Mining:Concepts and
TechniquesSecond Edition, Elsevier, 2006
23

Abs Trak

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Abs Trak

Transféré par

Droits d'auteur :

Formats disponibles

ABSTRAK

Algoritma Nearest Neighbor (NN) merupakan algoritma pendekatan

KATA PENGANTAR ........................................... Error! Bookmark not defined.

DAFTAR ISI ........................................................................................................... ii

DAFTAR GAMBAR ............................................................................................. iii

DAFTAR TABEL .................................................................................................. iv

BAB I PENDAHULUAN ....................................................................................... 5

A. Latar Belakang ......................................................................................... 5

B. Identifikasi Masalah ................................................................................. 5

C. Rumusan Masalah .................................................................................... 5

D. Tujuan Penelitian ...................................................................................... 6

E. Manfaat Penelitian .................................................................................... 6

BAB II PEMBAHASAN ........................................................................................ 7

A. Pengertian Nearest Neighbor ................................................................... 7

B. Algoritma 1 - Nearest Neighbor (1-NN) .................................................. 7

C. Algoritma k - Nearest Neighbor (k-NN) .................................................. 9

D. Contoh Kasus Penyelesaian Menggunakan Nearest Neighbor .............. 11

BAB III PENUTUP .............................................................................................. 19

DAFTAR PUSTAKA ........................................................................................... 22

Gambar 2.1. ilustrasi kasus 1-NN ........................................................................... 8

Tabel 2.1. Tabel Kasus .......................................................................................... 12

Tabel 2.2. Definisi Bobot Atribut ......................................................................... 12

Tabel 2.3. Kedekatan Nilai Atribut Jenis Kelamin ............................................... 12

Tabel 2.4. Kedekatan Nilai Atribut Pendidikan .................................................... 13

Tabel 2.5. Kedekatan Nilai Atribut Status ............................................................ 13

Klasifikasi adalah proses untuk menemukan model atau fungsi yang

Ujian Tengah Semester Data Mining.

Untuk memahami algoritma Nearest Neighbor

Semoga tulisan ini bermanfaat untuk pembaca dalam memahami

A. Pengertian Nearest Neighbor

Jenis algoritma Nearest Neighbor ada 2, yaitu:

1. 1-NN, yaitu pengklasifikasikan dilakukan terhadap 1 labeled data

B. Algoritma 1 - Nearest Neighbor (1-NN)

1. Menghitung jarak antara data baru ke setiap labeled data

Berikut ini adalah ilustrasi algoritma 1-NN:

Rumus euclide distance yang digunakan dalam metode 1-NN untuk

Algoritma k-NN bekerja berdasarkan jarak terpendek dari query instance

Ecludian Distance sering digunakan untuk menghitung jarak. Euclidian

Xjk = nilai X pada testing data

Langkah-langkah untuk menghitung algoritma k-NN:

Pada fase pembelajaran, algoritma ini hanya melakukan penyimpanan

Terdapat beberapa jenis algoritma pencarian tetangga terdekat, diantaranya:

Atribut Bermasalah merupakan atribut tujuan.

Tabel 2.2. Definisi Bobot Atribut

Kedekatan antara nilai-nilai dalam atribut juga perlu didefinisikan.

Tabel 2.3. Kedekatan Nilai Atribut Jenis Kelamin

Nilai1 Nilai2 Kedekatan

Nilai1 Nilai2 Kedekatan

Tabel 2.5. Kedekatan Nilai Atribut Status

Nilai1 Nilai2 Kedekatan

Misalkan ada kasus nasabah baru dengan nilai atribut:

Jenis Kelamin : Laki-Laki

Status : Tidak Bekerja

1. Menghitung kedekatan kasus baru dengan kasus no1.

a : Kedekatan nilai atribut Jenis Kelamin (Laki-laki dengan

2. Menghitung kedekatan kasus baru dengan kasus no 2.

3. Menghitung kedekatan kasus baru dengan kasus no 3.

4. Menghitung kedekatan kasus baru dengan kasus no 4.

5. Memilih kasus dengan kedekatan terdekat.

Keakuratan pencarian kasus lama sangat dipengaruhi oleh penentuan

Pra proses pada metode nearest neighbor lebih banyak dikarenakan

Algoritma Nearest Neighbors kelebihannya memiliki konsistensi

Bayesian classification adalah pengklasifikasi statistik yang dapat

Kusrini, Hartati, S.,. 2007. Penggunaan Penalaran Berbasis Kasus untuk