Vous êtes sur la page 1sur 23

ABSTRAK

Algoritma Nearest Neighbor (NN) merupakan algoritma pendekatan


dalam pencarian kasus dengan menghitung kedekatan antara kasus baru dengan
kasus lama yaitu dengan berdasarkan pencocokan bobot dari sejumlah atribut
yang ada. Ada 2 Jenis Algoritma Nearest Neighbor yaitu 1-NN dan K-NN.
Algoritma 1-Nearest Neighborhood (1-NN) adalah suatu metode yang
menggunakan sebuah labeled data terdekat. k-Nearest Neighborhood (k-NN)
adalah suatu metode yang menggunakan algoritma supervised dimana hasil dari
query instance yang baru diklasifikasikan berdasarkan mayoritas dari label class
pada k-NN. Tujuan dari algoritma k-NN adalah mengklasifikasikan objek baru
berdasarkan atribut dan training data. Adapun Kasus yang dapat diselesaikan
dengan metode ini contohnya Kemungkinan seorang nasabah bank akan
bermasalah dalam pembayarannya atau tidak.

i
DAFTAR ISI

KATA PENGANTAR ........................................... Error! Bookmark not defined.

DAFTAR ISI ........................................................................................................... ii

DAFTAR GAMBAR ............................................................................................. iii

DAFTAR TABEL .................................................................................................. iv

BAB I PENDAHULUAN ....................................................................................... 5

A. Latar Belakang ......................................................................................... 5

B. Identifikasi Masalah ................................................................................. 5

C. Rumusan Masalah .................................................................................... 5

D. Tujuan Penelitian ...................................................................................... 6

E. Manfaat Penelitian .................................................................................... 6

BAB II PEMBAHASAN ........................................................................................ 7

A. Pengertian Nearest Neighbor ................................................................... 7

B. Algoritma 1 - Nearest Neighbor (1-NN) .................................................. 7

C. Algoritma k - Nearest Neighbor (k-NN) .................................................. 9

D. Contoh Kasus Penyelesaian Menggunakan Nearest Neighbor .............. 11

BAB III PENUTUP .............................................................................................. 19

A. Kesimpulan ............................................................................................. 19

DAFTAR PUSTAKA ........................................................................................... 22

ii
DAFTAR GAMBAR

Gambar 2.1. ilustrasi kasus 1-NN ........................................................................... 8

iii
DAFTAR TABEL

Tabel 2.1. Tabel Kasus .......................................................................................... 12

Tabel 2.2. Definisi Bobot Atribut ......................................................................... 12

Tabel 2.3. Kedekatan Nilai Atribut Jenis Kelamin ............................................... 12

Tabel 2.4. Kedekatan Nilai Atribut Pendidikan .................................................... 13

Tabel 2.5. Kedekatan Nilai Atribut Status ............................................................ 13

iv
BAB I

PENDAHULUAN

A. Latar Belakang

Klasifikasi adalah proses untuk menemukan model atau fungsi yang


menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk
dapat memperkirakan kelas dari suatu objek yang labelnya belum diketahui.
Model itu sendiri dapat berupa aturan jika-maka, berupa decision tree,
formula matematis atau neural network. Salah satu metode klasifikasi yaitu
Nearest Neighbor. Ada 2 jenis metode ini yaitu 1-NN dan K-NN. Metode
selain kelebihan yang dimiliki tetapi juga memiliki kelemahan . masa
sekarang ini metode ini baik jika digunakan untuk kebutuhan bisnis.

B. Identifikasi Masalah
Penjelasan Algoritma Nearest Neighbour
Jenis Algoritma Nearest Neighbour
Kelebihan dan Kelemahan Algoritma Nearest Neighbour
Penggunaan Algoritma Nearest Neighbour
C. Rumusan Masalah
Jelaskan pengertian Algoritma Nearest Neighbour
Jelaskan Jenis Algoritma Nearest Neighbour
Apa Kelebihan dan Kelemahan Algoritma Nearest Neighbour
Berikan contoh penggunaan Algoritma Nearest Neighbour

D. Tujuan Penulisan

Ujian Tengah Semester Data Mining.

Tujuan lainnya:

Untuk memahami algoritma Nearest Neighbor

5
Untuk memahami penggunaan algoritma Nearest Neighbors
Untuk memahami kelebihan dan kelemahan menggunakan algoritma
Nearest Neighbors

E. Manfaat Penulisan

Semoga tulisan ini bermanfaat untuk pembaca dalam memahami


Algoritme Nearest Nearest Neighbor

6
BAB II

ISI PEMBAHASAN

A. Pengertian Nearest Neighbor


Algoritma Nearest Neighbor (NN) merupakan algoritma pendekatan
dalam pencarian kasus dengan menghitung kedekatan antara kasus baru
dengan kasus lama yaitu dengan berdasarkan pencocokan bobot dari sejumlah
atribut yang ada (Kusrini & Emha, 2009). Nearest Neighbor akan
mengklasifikasikan hanya jika atribut dari kasus baru sesuai dengan salah
satu atribut pada kasus lama (Ricci, F et al., 2010). Perhitungan jarak
kedekatan antara kasus baru dengan kasus lama biasanya memakai metrik
jarak. Satuan jarak yang umumnya digunakan adalah euclidian.

Jenis algoritma Nearest Neighbor ada 2, yaitu:

1. 1-NN, yaitu pengklasifikasikan dilakukan terhadap 1 labeled data


terdekat.
2. K-NN, yaitu pengklasifikasikan dilakukan terhadap k labeled data
terdekat dengan k>1.

B. Algoritma 1 - Nearest Neighbor (1-NN)


1-Nearest Neighborhood (1-NN) adalah suatu metode yang menggunakan
sebuah labeled data terdekat. Langkah-langkah untuk menghitung algoritma
1-NN:

1. Menghitung jarak antara data baru ke setiap labeled data


2. Menentukan 1 labeled data yang mempunyai jarak yang paling
minimal
3. Mengklasifikasikan data baru ke dalam labeled data tersebut.

Berikut ini adalah ilustrasi algoritma 1-NN:

7
Gambar 2.1. ilustrasi kasus 1-NN
Pada ilustrasi diatas, data baru (node warna biru) akan diklasifikaikan ke
dalam kelompok hipertensi dan tidak hipertensi. Dari kelima data yang
tersebar dalam kelompok hipertensi dan tidak hipertensi, data input (node
biru) lebih dekat dengan salah satu pada kelompok hipertensi. Dengan
demikian, dapat disimpulkan bahwa data baru tersebut termasuk ke dalam
kelompok hipertensi.

Rumus euclide distance yang digunakan dalam metode 1-NN untuk


mengambil keputusan dengan menghitung jarak terpendek antara input
dengan masing-masing data yang penentuan bobot atau label dilakukan
secaraacak atau random yaitu:

(2.1)

8
C. Algoritma k - Nearest Neighbor (k-NN)
k-Nearest Neighborhood (k-NN) adalah suatu metode yang menggunakan
algoritma supervised dimana hasil dari query instance yang baru
diklasifikasikan berdasarkan mayoritas dari label class pada k-NN. Tujuan
dari algoritma k-NN adalah mengklasifikasikan objek baru berdasarkan
atribut dan training data.

Algoritma k-NN bekerja berdasarkan jarak terpendek dari query instance


ke training data untuk menentukan k-NN-nya. Salah satu cara untuk
menghitung jarak dekat atau jauhnya tetangga menggunakan metode
euclidian distance.

Ecludian Distance sering digunakan untuk menghitung jarak. Euclidian


Distance berfungsi menguji ukuran yang bisa digunakan sebagai interpretasi
kedekatan jarak antara dua obyek, di bawah ini merupakan rumus Ecludian
Distance:

(2.2)

Dimana,
Xik = nilai X pada training data

Xjk = nilai X pada testing data


m = batas jumlah banyaknya data

Jika hasil nilai dari rumus di atas besar maka akan semakin jauh tingkat
keserupaan antara kedua objek dan sebaliknya jika hasil nilainya semakin
kecil maka akan semakin dekat tingkat keserupaan antar objek tersebut.
Objek yang dimaksud adalah training data dan testing data.

9
Dalam algoritma ini, nilai k yang terbaik itu tergantung pada jumlah data.
Ukuran nilai k yang besar belum tentu menjadi nilai k yang terbaik begitupun
juga sebaliknya.

Langkah-langkah untuk menghitung algoritma k-NN:

1. Menentukan nilai k.
2. Menghitung kuadrat jarak euclid (query instance) masing-masing objek
terhadap training data yang diberikan.
3. Kemudian mengurutkan objek-objek tersebut ke dalam kelompok yang
mempunyai jarak euclid terkecil.
4. Mengumpulkan label class Y (klasifikasi Nearest Neighborhood).

Pada fase pembelajaran, algoritma ini hanya melakukan penyimpanan


vektor-vektor fitur dan klasifikasi dari data pembelajaran. Pada fase
klasifikasi, fitur-fitur yang sama dihitung untuk data test (yang klasifikasinya
tidak diketahui). Jarak dari vektor yang baru ini terhadap seluruh vektor data
pembelajaran dihitung, dan sejumlah k buah yang paling dekat diambil. Titik
yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak
dari titik-titik tersebut.

Nilai k yang terbaik untuk algoritma ini tergantung pada data; secara
umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi,
tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai k
yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan
menggunakan cross-validation. Kasus khusus di mana klasifikasi
diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan kata
lain, k = 1) disebut algoritma nearest neighbor.

Ketepatan algoritma k-NN ini sangat dipengaruhi oleh ada atau tidaknya
fitur-fitur yang tidak relevan, atau jika bobot fitur tersebut tidak setara dengan

10
relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar
membahas bagaimana memilih dan memberi bobot terhadap fitur, agar
performa klasifikasi menjadi lebih baik.

Terdapat beberapa jenis algoritma pencarian tetangga terdekat, diantaranya:

Linear scan
Pohon kd
Pohon Balltree
Pohon metrik
Locally-sensitive hashing (LSH)

Kelebihan k-NN
Algoritma k-NN ini memiliki konsistensi yang kuat. Ketika jumlah
data mendekati tak hingga, algoritma ini menjamin error rate yang
tidak lebih dari dua kali Bayes error rate (error rate minimum untuk
distribusi data tertentu).
k-NN tangguh terhadap training data yang noisy dan efektir apabila
data latihnya beesar
Kelemahan k-NN
k-NN perlu menentukan nilai dari parameter k (jumlah dari
tetangga terdekat)
Pembelajaran berdasarkan jarak tidak jelas mengenai jenis jarak
apa yang harus digunakan dan atribut mana yangg harus digunakan
untuk mendapatkan hasil yang terbaik
Biaya komputasi cukup tinggi karena diperlukan perhitungan jarak
dari tiap sample uji pada keseluruhan sample latih.
D. Contoh Penyelesaian Kasus Menggunakan Nearest Neighbor
Contoh kasus ini akan memberikan sebuah contoh untuk penyelesaian
kasus menggunakan Nearest Neighbor.

Kasus :

11
Kemungkinan seorang nasabah bank akan bermasalah dalam
pembayarannya atau tidak.
Tabel 2.1. Tabel Kasus
No Jenis Kelamin Pendidikan Status Bermasalah
1 Laki-Laki S1 Bekerja Ya
2 Perempuan SMA Tidak Bekerja Tidak
3 Laki-Laki SMA Bekerja Tidak
4 Perempuan S2 Bekerja Ya

Atribut Bermasalah merupakan atribut tujuan.

Bobot antara satu atribut dengan atribut yang lain pada atribut bukan
tujuan dapat didefinisikan dengan nilai berbeda.

Tabel 2.2. Definisi Bobot Atribut


Atribut Bobot
Jenis Kelamin 0.5
Pendidikan 1
Status 0.75

Kedekatan antara nilai-nilai dalam atribut juga perlu didefinisikan.

Tabel 2.3. Kedekatan Nilai Atribut Jenis Kelamin


Jenis Kelamin L P
Laki-Laki 1 0
Perempuan 0 1

Nilai1 Nilai2 Kedekatan


Laki-Laki Laki-Laki 1
Perempuan Perempuan 1
Laki-Laki Perempuan 0
Perempuan Laki-Laki 0

12
Tabel 2.4. Kedekatan Nilai Atribut Pendidikan
Pendidikan SMA S1 S2
SMA 1 0.5 0
S1 0.5 1 0.5
S2 0 0.5 1

Nilai1 Nilai2 Kedekatan


S2 S2 1
S2 S1 0.5
S2 SMA 0
S1 S1 1
S1 S2 0.5
S1 SMA 0.5
SMA SMA 1
SMA S1 0.5
SMA S2 0

Tabel 2.5. Kedekatan Nilai Atribut Status


Status Bekerja Tidak Bekerja
Bekerja 1 0
Tidak Bekerja 0 1

Nilai1 Nilai2 Kedekatan


Bekerja Bekerja 1

13
Tidak Bekerja Tidak Bekerja 1
Bekerja Tidak Bekerja 0
Tidak Bekerja Bekerja 0

Misalkan ada kasus nasabah baru dengan nilai atribut:

Jenis Kelamin : Laki-Laki

Pendidikan : SMA

Status : Tidak Bekerja

Untuk memprediksi apakah nasabah tersebut akan bermasalah atau tidak dapat
dilakukan langkah-langkah sebagai berikut:

1. Menghitung kedekatan kasus baru dengan kasus no1.


Diketahui:

a : Kedekatan nilai atribut Jenis Kelamin (Laki-laki dengan


Laki-laki)
: 1
b : Bobot Atribut Jenis Kelamin
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan S1)
: 0.5
d : Bobot Atribut Pendidikan
: 1
e : Kedekatan nilai atribut Status (Tidak Bekerja dengan
Bekerja)
: 0
f : Bobot Atribut Status
: 0.75

14
Dihitung:
(a * b) (c * d ) (e * f )
Jarak

bdf
(1 * 0.5) (0.5*1) (0* 0.75)
Jarak

0.5 1 0.75
1
Jarak
2.25

Jarak 0.44

2. Menghitung kedekatan kasus baru dengan kasus no 2.


Diketahui:
a : Kedekatan nilai atribut Jenis Kelamin (Laki-laki dengan
Perempuan)
: 0
b : Bobot Atribut Jenis Kelamin
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan SMA)
: 1
d : Bobot Atribut Pendidikan
: 1
e : Kedekatan nilai atribut Status (Tidak Bekerja dengan
Bekerja)
: 1
f : Bobot Atribut Status
: 0.75

15
Dihitung:
(a * b) (c * d ) (e * f )
Jarak

bdf
(0 * 0.5) (1*1) (1* 0.75)
Jarak

0.5 1 0.75
1.75
Jarak
2.25
Jarak 0.778

3. Menghitung kedekatan kasus baru dengan kasus no 3.


Diketahui:
a : Kedekatan nilai atribut Jenis Kelamin (Laki-laki dengan
Laki-laki)
: 1
b : Bobot Atribut Jenis Kelamin
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan SMA)
: 1
d : Bobot Atribut Pendidikan
: 1
e : Kedekatan nilai atribut Status (Tidak Bekerja dengan
Bekerja)
: 0
f : Bobot Atribut Status
: 0.75

Dihitung:
(a * b) (c * d ) (e * f )
Jarak

16
bdf
(1 * 0.5) (1*1) (1* 0.75)
Jarak

0.5 1 0.75
1.5
Jarak
2.25
Jarak 0.667

4. Menghitung kedekatan kasus baru dengan kasus no 4.


Diketahui:
a : Kedekatan nilai atribut Jenis Kelamin (Perempuan dengan
Laki-laki)
: 0
b : Bobot Atribut Jenis Kelamin
: 0.5
c : Kedekatan nilai atribut Pendidikan (SMA dengan S2)
: 0
d : Bobot Atribut Pendidikan
: 1
e : Kedekatan nilai atribut Status (Tidak Bekerja dengan
Bekerja)
: 0
f : Bobot Atribut Status
: 0.75

Dihitung:
(a * b) (c * d ) (e * f )
Jarak

17
bdf
(0 * 0.5) (0 * 1) (0 * 0.75)
Jarak

0.5 1 0.75
0
Jarak
2.25
Jarak 0

5. Memilih kasus dengan kedekatan terdekat.


Dari langkah 1, 2 dan 3 dapat diketahui bahwa nilai tertinggi
adalah kasus 2. Berarti kasus yang terdekat dengan kasus baru
adalah kasus 2.
6. Menggunakan klasifikasi dari kasus dengan kedekatan terdekat.
Berdasarkan hasil pada langkah 4, maka klasifikasi dari kasus 2
yang akan digunakan untuk memprediksi kasus baru. Yaitu
kemungkinan nasabah baru akan Tidak Bermasalah

18
BAB III
PENUTUP

A. Kesimpulan
Menggunakan metode nearest neighbor semua kasus akan terklasifikasi
walaupum nilai kedekatannya belum tentu 100%. Hasil klasifikasi tidak dapat
dijamin kebenarannya karena banyak kasus yang memiliki kedekatan yang
sama dengan beberapa klasifikasi yang berbeda

Keakuratan pencarian kasus lama sangat dipengaruhi oleh penentuan


bobot perbandingan. Dengan menggunakan metode nearest neighbor, proses
testing memerlukan waktu yang lama karena setiap kasus baru akan
dicocokkan dengan semua kasus lama.

Pra proses pada metode nearest neighbor lebih banyak dikarenakan


perlunya penambahan proses penentuan bobot variabel dan penentuan bobot
perbandingan antara nilai_variabel.

19
20
D. Algoritma k - Nearest Neighbor (k-NN)
Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik
pohon keputusan. Algoritma C4.5 memiliki kelebihan antara lain dapat
mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai
atribut yang hilang, menghasilkan aturan-aturan yang mudah
diintrepetasikan dan tercepat diantara algoritma-algoritma yang lain.

Algoritma Nearest Neighbors kelebihannya memiliki konsistensi


yang kuat. Ketika jumlah data mendekati tak hingga, algoritma ini
menjamin error rate yang tidak lebih dari dua kali Bayes error rate (error
rate minimum untuk distribusi data tertentu).

ini adalah lebih sederhana dan dapat menangani data yang besar.
Sedangkan algoritma lainnya memiliki kelemahan dalam penggunaan
memori saat jumlah data besar, tentunya berpengaruh terhadap banyaknya
item yang diproses serta mudah di pahami struktur kerja dan
implementasinya

Bayesian classification adalah pengklasifikasi statistik yang dapat


digunakan untuk memprediksi probabilitas keanggotaan suatu class.
Bayesian classification didasarkan pada teorema bayes yang memiliki
kemampuan klasifikasi serupa dengan decision tree dan neural network.
Bayesian classification terbukti memiliki akurasi dan kecepatan yang
tinggi saat diaplikasikan ke dalam database dengan data yang besar.

21
DAFTAR PUSTAKA

Prasetyo, Eko. 2012. Fuzzy K-Nearest Neighbor In Every Class Untuk Klasifikasi
Data. Seminar nasional Teknik Informatika (SANTIKA 2012). Universitas
Pembangunan Nasional Veteran Jawa Timur

Kusrini, Hartati, S.,. 2007. Penggunaan Penalaran Berbasis Kasus untuk


Membangun Basis Pengetahuan dalam Sistem Diagnosis Penyakit. Proceeding
Seminar Riset Teknologi Informasi (SRITI) 2007. Yogyakarta

22
Shouman, Mai; Turner, Tim; Stocker, Rob. 2012. Applying K-Nearest Neighbor
in Diagnosing Heart Disease Patients. International Journal of Information
Technology. Vol 2 No 3, June 2012.

Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,


2011.
Jiawei Han and Micheline Kamber, Data Mining:Concepts and
TechniquesSecond Edition, Elsevier, 2006

23

Vous aimerez peut-être aussi