Vous êtes sur la page 1sur 35

A.

Klasifikasi K-Nearest Neighbor


B.1. Pengertian
Algoritma k-nearest neighbor (KNN) adalah sebuah metode untuk melakukan
klasifikasi terhadap objek yang berdasarkan dari data pembelajaran yang jaraknya paling
dekat dengan objek tersebut. KNN meupakan algoritma supervised learning dimana hasil
dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada
algoritma KNN. Dimana kelas yang paling banyak muncul yang nantinya akan menjadi
kelas hasil dari klasifikasi.
B.2. Tujuan
Tujuan algoritma ini adalah mengklasifikasikan obyek baru berdasarkan atribut dan
training sample. Didalam classifier tidak menggunakan model apapun untuk dicocokkan dan
hanya berdasarkan pada suatu memori. Titik query, akan ditemukan sejumlah K obyek atau
(titik training) yang paling dekat dengan titik query. Algoritma k-nearest neighbor (KNN)
menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru.
Algoritma metode k-nearest neighbor (KNN) sangatlah sederhana, bekerja berdasarkan
jarak terpendek dari query instance ke training sample untuk menentukan KNN-nya.
Training sample diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi
merepresentasikan fitur dari data. Ruangini dibagi menjadi bagian-bagian berdasarkan
klasifikasi training sample. Sebuah titik pada ruang ini ditandai oleh kelas jika kelas (c)
merupakan klasifikasi yang paling banyak ditemui pada K (tetangga terdekat dari titik
tersebut). Dekat atau jauhnya tetangga biasanya dihitung berdasarkan Euclidean Distance.
Jarak Euclidean paling sering digunakan menghitung suatu jarak. Dimana jarak euclidean
memiliki fungsi untuk menguji ukuran yang bisa digunakan sebagai interpretasikedekatan
jarak antara dua obyek.
B.3. Algoritma
Langkah yang digunakan dalam metode K-Nearest Neighbor :
1. Tentukan parameter K (jumlah tetangga paling dekat).
2. Hitung kuadrat jarak euclid masing masing objek terhadap data sample yang
3.
4.
5.

diberikan.
Urutkan objek objek kedalam kelompok yang memiliki jarak terkecil.
Kumpulkan kategori Y (Klasifikasi nearest neighbor).
Dengan kategori nearest neighbor yang paling banyak, maka dapat diprediksikan nilai
query instance yang telah dihitung.

B.4. Keuntungan dan Kelemahan

Kelebihan dari metode KNN :


1. Lebih efektif di data yang besar.
2. Dapat menghasilkan data yang lebih akurat.
Kekurangan dari metode KKN :
1.

Perlu untuk menentukan nilai k yang optimal sehingga untuk menyatakan jumlah

2.

tatangga terdekatnya lebih mudah.


Biaya komputasi yang cukup tinggi karena perhitungan jarak harus dilakukan pada
setiap querry instance.

B.5. Studi Kasus


A.5.1. Contoh Kasus
Contoh 1 :

Contoh 2 :
Mengklasifikasikan suatu nilai dalam suatu mata kuliah di dalam 1 semester.
1. Terdapat data sebagai berikut :

Page 2 of 35

2.

Akan dicari untuk suatu nilai dimana terdapat suatu contoh soal seperti dibawah
ini, dimana k=5 (k merupakan jarak tetangga yang paling dekat), kita dapat
mencari nilai dengan langkah seperti berikut :
a) Menentukan parameter K (misalkan saja kita menggunakan K=5).
b) Menghitung kuadrat dari jarak Euclid (Queri-Instace) dimana masing
masing data yang telah ditentukan, dengan data seperti berikut.

3.

Penyelesaiannya dari suatu kasus diatas, Langkah pertama menentukan jarak


antara nilai yang terdapat di dalam tabel data dengan rumus sebagai berikut :

A.5.2. Penyelesaian Contoh Kasus

Langkah ke 2 menghitung kuadrat dari jarak Euclid (Queri-Instace) dimana masingmasing data yang telah ditentukan, dengan data tersebut. Menentukan peringkat
dengan menggunakan K=5 dan menentukan nilai final/nilai akhir. Nilai final atau
akhir didapat dari nilai yang paling banyak keluar selama K=5. Kemudian
mengurutkan objek-objek termasuk ke dalam kelompok yangmempunyai jarak euclid
terkecil.
Page 3 of 35

Mengumulkan kategori yang mayoritas (paling banyak keluar) selama kita


menggunakan K=5. Dimana peringkat 1-5 ini merupakan peringkat yang bagus
dan 6-10 ini merupakan peringkat yang paling jelek (jarak yang paling jauh).

Langkah ke 2 menghitung kuadrat dari jarak Euclid (Queri-Instace) dimana masingmasing data yang telah ditentukan, dengan data seperti berikut. Menentukan
peringkat dengan menggunakan K=5 dan menentukan nilai final atau nilai akhir.
Nilai final/akhir didapat dari nilai yang paling banyak keluar selama K=5. Kemudian
mengurutkan objek-objek termasuk ke dalam kelompok yangmempunyai jarak euclid
terkecil.
Mengumulkan kategori yang mayoritas (paling banyak keluar) selama kita
menggunakan K=5. Dimana peringkat 15 ini merupakan peringkat yang bagus
dan 6-10 ini merupakan peringkat yang paling jelek (jarak yang paling jauh).

Page 4 of 35

Langkah ke 2 menghitung kuadrat dari jarak Euclid (Queri-Instace) dimana masingmasing data yang telah ditentukan, dengan data seperti berikut. Menentukan
peringkat dengan menggunakan K=5 dan menentukan nilai final atau nilai akhir.
Nilai final atau akhir didapat dari nilai yang paling banyak keluar selama K=5.
Kemudian mengurutkan objek-objek termasuk ke dalam kelompok yangmempunyai
jarak euclid terkecil.
Mengumulkan kategori yang mayoritas (paling banyak keluar) selama kita
menggunakan K=5. Dimana peringkat 1-5 ini merupakan peringkat yang bagus
dan 6-10 ini merupakan peringkat yang paling jelek (jarak yang paling jauh).

Page 5 of 35

Didalam hasil nilai final atau akhir ini jika terdapat (kita menemukan) di suatu data
K=5 terdapat 2 data yang sama (nilai B dan A) dan memiliki jumlah mayoritas maka
dapat dipilih salah satu dari data tersebut (biasa A atau B).

Langkah ke 2 menghitung kuadrat dari jarak Euclid (Queri-Instace) dimana masingmasing data yang telah ditentukan, dengan data seperti berikut. Menentukan
peringkat dengan menggunakan K=5 dan menentukan nilai final/nilai akhir. Nilai
final atau akhir didapat dari nilai yang paling banyak keluar selama K=5. Kemudian
mengurutkan objek-objek termasuk ke dalam kelompok yangmempunyai jarak euclid
terkecil.
Mengumulkan kategori yang mayoritas (paling banyak keluar) selama kita
menggunakan K=5. Dimana peringkat 1-5 ini merupakan peringkat yang bagus
dan 6-10 ini merupakan peringkat yang paling jelek (jarak yang paling jauh).

B.6. Kesimpulan
Hasil dari langkah 1 dan 2 ini dikerjakan dari soal nomor 1 hingga soal nomor 4, dengan
menggunakan K=5 (k merupakan tetangga terdekat dari suatu data) maka akan didapat nilai
final sebagai berikut :
Page 6 of 35

B.7. Daftar Pustaka


. Metode Algoritma KNN, <http://id.scribd.com/doc/57208138/Metode-AlgoritmaKNN> diakses 9 Maret 2014.
B. Klasifikasi Nave Bayes
B.1. Pengertian
Klasifikasi Nave Bayes merupakan salah satu metode pengklasifikasi berpeluang
sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar variable
penjelas saling bebas atau tidak ada kaitan antar atribut (bersifat independen). Asumsi
keindependenan atribut ini pada data sebenarnya jarang terjadi, namun walaupun asumsi
keidependenan atirbut tersebut dilanggar performa pengklasifikasian Nave Bayes cukup
tinggi, hal ini dibuktikan pada berbagai penelitian empiris. Algoritma ini memanfaatkan
metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes,
yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman dimasa sebelumnya.
Sementara Teorema Bayes adalah teorema yang digunakan dalam statistika untuk
menghitung peluang untuk suatu hipotesis, sedeangkan Klasifikasi Bayes Optimal
menghitung peluang dari suatu kelas dari masing-masing kelompok atribut yang ada, dan
menentukan kelas mana yang paling optimal.
Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Microsoft Research
memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter. Tetapi yang
membuat algoritma Bayesian filtering ini popular adalah pendekatan yang dilakukan oleh
Paul Graham. Dasar dari teorema nave digunakan dalam pemrograman adalah rumus Bayes
berikut ini :
P(A|B) =
Artinya peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan
peluang B.
B.2. Algoritma
Teorema Bayes memiliki bentuk umum sebagai berikut :

P(C|X) =

Keterangan :
Page 7 of 35

1.
2.
3.
4.
5.
6.
7.

P(X) : probabilitas kejadian X


P(C) : probabilitas hipotesis C (prior probability)
P(C|X) : probabilitas hipotesis C berdasarkan kejadian X (posteriori probability)
P(X|C) : probabilitas X berdasarkan kejadian pada hipotesis C
X
: data dengan kelas yang belum diketahui
C
: hipotesa bahwa data X merupakan suatu kelas spesifik
Jika atribut ke-i bersifat Diskret, maka P(xi|C) diestimasi sebagai frekuensi relatif dari
sampel yang memiliki nilai xi sebagai atribut ke i dalam kelas C (sesuai dengan
Keterangan nomor 4). Namun jika atribut ke-i bersifat Kontinu, maka P(xi|C)
diestimasi dengan Fungsi Densitas Gauss :

B.3. Keuntungan dan Kelemahan


Keuntungan dari Klasifikasi Nave Bayes :
1. Relatif mudah untuk diimplemetasikan karena tidak menggunakan optimasi numerik,
2.
3.

perhitungan matriks dan lainnya.


Efisien dalam pelatihan dan penggunaannya.
Karena diasumsikan independen maka memungkinkan metode ini diimplementasikan

4.

dengan berbagai macam data set.


Memberikan hasil yang baik untuk banyak kasus, karena akurasi yang dihasilkan relatif

tinggi.
Kelemahan dari Klasifikasi Nave Bayes :
1. Akibat karena diasumsikan bahwa Nave Bayes itu bersifat independen maka memiliki
konsekuensi, antara lain Perkiraan kemungkinan kelas yang tidak akurat, Batasan atau
threshold harus ditentukan secara manual dan bukan secara analitis. Dalam realita,
keterkaitan itu ada.
2. Keterkaitan tersebut tidak dapat dimodelkan oleh Naive Bayesian Classifier.
B.4. Studi Kasus
B.4.1. Contoh Kasus 1 : Untuk Jenis Data Diskret
Diketahui : terdapat data-data pelanggan pembelian Motor Honda, sebagai berikut :
Id-Pelanggan

Pendapatan

Peringkat Kredit

Status Membeli
Motor

Honda-001
Honda-002
Honda-003
Honda-004
Honda-005
Honda-006
Honda-007
Honda-008
Honda-009

Tinggi
Rendah
Rendah
Sedang
Tinggi
Tinggi
Sedang
Sedang
Tinggi

Bagus
Cukup
Bagus
Cukup
Bagus
Cukup
Bagus
Bagus
Cukup

Ya
Tidak
Ya
Ya
Tidak
Tidak
Tidak
Ya
Ya

Page 8 of 35

Pertanyaan-Pertanyaan :
1. Carilah peluang seorang pelanggan membeli Motor Honda dengan syarat Pendapatan
pelanggan tersebut Tinggi dan Peringkat Kredit tersebut Cukup ?
2. Carilah peluang seorang pelanggan membeli Motor Honda dengan syarat Pendapatan
pelanggan tersebut Sedang dan Peringkat Kredit tersebut Bagus ?
B.4.2. Penyelesaian Contoh Kasus 1 : Untuk Jenis Data Diskret
Pertanyaan No. 1 :
Terdapat dua kelas dari klasifikasi yang dibentuk, yaitu :
C1 = Membeli Motor = Ya
C2 = Membeli Motor = Tidak
Misal terdapat data X (belum diketahui kelasnya)
X = (Pendapatan = Tinggi, Peringkat Kredit = Cukup)
Langkah-langkah Perhitungan, sebagai berikut :
1. Mencari P(Ci)
P(Ci) merupakan prior probability untuk setiap kelas berdasar data, yaitu :
P(Ci) =
P(C1) = 5/9 = 0.556
P(C2) = 4/9 = 0.444
2. Menghitung P(Xj|Ci) untuk i=1,2 dan j=1,2
P(Xj|Ci) =
a. Untuk X1 = Pendapatan = Tinggi
P(X1|C1) = = = 0.400
P(X1|C2) = = = 0.500
b. Untuk X2 = Peringkat Kredit = Cukup
P(X2|C1) = = = 0.400
P(X2|C2) = = = 0.500
3. Menghitung P(X|Ci)
P(X| Membeli Motor = Ya) = 0.400 x 0.400 = 0.160
P(X| Membeli Motor = Tidak) = 0.500 x 0.500 = 0.250
4. Menghitung P(X|Ci) x P(Ci)
P(X|Membeli Motor = Ya) x P(Membeli Motor = Ya)
= 0.160 x 0.556 = 0.089
P(X|Membeli Motor = Tidak) x P(Membeli Motor = Tidak)
= 0.250 x 0.444 = 0.111
Pertanyaan No. 2 :
Terdapat dua kelas dari klasifikasi yang dibentuk, yaitu :
C1 = Membeli Motor = Ya
C2 = Membeli Motor = Tidak
Misal terdapat data X (belum diketahui kelasnya)
X = (Pendapatan = Sedang, Peringkat Kredit = Bagus)
Langkah-langkah Perhitungan, sebagai berikut :
1. Mencari P(Ci)
P(Ci) merupakan prior probability untuk setiap kelas berdasar data, yaitu :
P(Ci) =
Page 9 of 35

3.
4.

P(C1) = 5/9 = 0.556


P(C2) = 4/9 = 0.444
2. Menghitung P(Xj|Ci) untuk i=1,2 dan j=1,2
P(Xj|Ci) =
a. Untuk X1 = Pendapatan = Sedang
P(X1|C1) = = = 0.400
P(X1|C2) = = = 0.250
b. Untuk X2 = Peringkat Kredit = Bagus
P(X2|C1) = = = 0.600
P(X2|C2) = = = 0.500
Menghitung P(X|Ci)
P(X| Membeli Motor = Ya) = 0.400 x 0.600 = 0.240
P(X| Membeli Motor = Tidak) = 0.250 x 0.500 = 0.125
Menghitung P(X|Ci) x P(Ci)
P(X|Membeli Motor = Ya) x P(Membeli Motor = Ya)
= 0.240 x 0.556 = 0.133
P(X|Membeli Motor = Tidak) x P(Membeli Motor = Tidak)
= 0.125 x 0.444 = 0.056

B.4.3. Contoh Kasus 2 : Untuk Jenis Data Kontinu


Diketahui : terdapat data-data pelanggan pembelian Motor Honda, sebagai berikut :
Id-Pelanggan

Pendapatan

Peringkat Kredit

Status Membeli
Motor

Honda-001
Honda-002
Honda-003
Honda-004
Honda-005
Honda-006
Honda-007
Honda-008
Honda-009

1200
400
290
740
1009
1650
590
980
1420

Bagus
Cukup
Bagus
Cukup
Bagus
Cukup
Bagus
Bagus
Cukup

Ya
Tidak
Ya
Ya
Tidak
Tidak
Tidak
Ya
Ya

Pertanyaan-Pertanyaan :
1. Carilah peluang seorang pelanggan membeli Motor Honda dengan syarat Pendapatan
pelanggan = 1500 dan Peringkat Kredit tersebut Cukup ?
2. Carilah peluang seorang pelanggan membeli Motor Honda dengan syarat Pendapatan
pelanggan = 850 dan Peringkat Kredit tersebut Bagus ?
B.4.4. Penyelesaian Contoh Kasus 2 : Untuk Jenis Data Kontinu
Pertanyaan No. 1 :
Terdapat dua kelas dari klasifikasi yang dibentuk, yaitu :
C1 = Membeli Motor = Ya
C2 = Membeli Motor = Tidak
Misal terdapat data X (belum diketahui kelasnya)
X = (Pendapatan = 1500, Peringkat Kredit = Cukup)

Page 10 of 35

Langkah-langkah Perhitungan, sebagai berikut :


1. Mencari P(Ci)
P(Ci) merupakan prior probability untuk setiap kelas berdasar data, yaitu :
P(Ci) =
P(C1) = 5/9 = 0.556
P(C2) = 4/9 = 0.444
2.

Menghitung P(Xj|Ci) untuk i=1,2 dan j=1,2


P(Xj|Ci) =
a. Untuk X1 = Pendapatan = 1500
P(X1|C1) =
= = 0.000384881
P(X1|C1) =
= = 0.000410476
b.

3.
4.

Untuk X2 = Peringkat Kredit = Cukup


P(X2|C1) = = = 0.400
P(X2|C2) = = = 0.500
Menghitung P(X|Ci)
P(X| Membeli Motor = Ya) = 0.000384881 x 0.400 = 0.000153952
P(X| Membeli Motor = Tidak) = 0.000410476 x 0.500 = 0.000205238
Menghitung P(X|Ci) x P(Ci)
P(X|Membeli Motor = Ya) x P(Membeli Motor = Ya)
= 0.000153952 x 0.556 = 8.5529E-05
P(X|Membeli Motor = Tidak) x P(Membeli Motor = Tidak)
= 0.000205238 x 0.444 = 9.12169E-05

Pertanyaan No. 2 :
Terdapat dua kelas dari klasifikasi yang dibentuk, yaitu :
C1 = Membeli Motor = Ya
C2 = Membeli Motor = Tidak
Misal terdapat data X (belum diketahui kelasnya)
X = (Pendapatan = 850, Peringkat Kredit = Bagus)
Langkah-langkah Perhitungan, sebagai berikut :
1. Mencari P(Ci)
P(Ci) merupakan prior probability untuk setiap kelas berdasar data, yaitu :
P(Ci) =
P(C1) = 5/9 = 0.556
P(C2) = 4/9 = 0.444
2. Menghitung P(Xj|Ci) untuk i=1,2 dan j=1,2
P(Xj|Ci) =
a. Untuk X1 = Pendapatan = 850
P(X1|C1) =
= = 0.000908987
P(X1|C1) =
Page 11 of 35

= = 0.000715985
b.

Untuk X2 = Peringkat Kredit = Cukup


P(X2|C1) = = = 0.400
P(X2|C2) = = = 0.500
3. Menghitung P(X|Ci)
P(X| Membeli Motor = Ya) = 0.000908987 x 0.400 = 0.000545392
P(X| Membeli Motor = Tidak) = 0.000715985 x 0.500 = 0.000357992
4. Menghitung P(X|Ci) x P(Ci)
P(X|Membeli Motor = Ya) x P(Membeli Motor = Ya)
= 0.000545392 x 0.556 = 0.000302996
P(X|Membeli Motor = Tidak) x P(Membeli Motor = Tidak)
= 0.000357992 x 0.444 = 0.000159108
B.5. Kesimpulan
Kasus 1 : Data-Data Bersifat Diskret
Pertanyaan No. 1 :
Dari hasil P(X|Ci) x P(Ci) diatas dapat disimpulkan bahwa data X termasuk ke dalam
kelas Membeli Motor = Tidak, karena data yang digunakan adalah data yang memiliki nilai
peluang terbesar atau maksimal yaitu = 0.111.
Pertanyaan No. 2 :
Dari hasil P(X|Ci) x P(Ci) diatas dapat disimpulkan bahwa data X termasuk ke dalam
kelas Membeli Motor = Ya, karena data yang digunakan adalah data yang memiliki nilai
peluang terbesar atau maksimal yaitu = 0.133.
Kasus 2 : Data-Data Bersifat Kontinu
Pertanyaan No. 1 :
Dari hasil P(X|Ci) x P(Ci) diatas dapat disimpulkan bahwa data X termasuk ke dalam
kelas Membeli Motor = Tidak, karena data yang digunakan adalah data yang memiliki nilai
peluang terbesar atau maksimal yaitu = 9.12169E-05.
Pertanyaan No. 2 :
Dari hasil P(X|Ci) x P(Ci) diatas dapat disimpulkan bahwa data X termasuk ke dalam
kelas Membeli Motor = Ya, karena data yang digunakan adalah data yang memiliki nilai
peluang terbesar atau maksimal yaitu = 0.000302996.

B.6. Daftar Pustaka

Page 12 of 35

Dr. Taufik Fuadi Abidin, S.Si., M.Tech (2010). Nave Bayesiian Cllassiiffiier. Banda Aceh :
Program Studi Teknik Informatika, FMIPA Universitas Syiah Kuala.

Han, J., and Kamber M. (2000). Data Mining, Concept and Techniques. New York,
NY : Morgan Kaufmann.

Prof. DR. Sudjana., M.A., M.Sc (1996). Metoda Statistika, Edisi ke-6. Bandung : Tarsito.
C. Klasifikasi Iterative Dichotomizer 3 (ID3)
C.1. Pengertian
Algoritma ID3 (Iterative Dichotomizer 3) merupakan salah satu algoritma untuk pohon
keputusan yang dapat digunakan untuk proses klasifikasi suatu data. Algoritma ini
merupakan algoritma pohon keputusan yang paling dasar (atau dapat dibilang tertua).
Algoritma ID3 diperkenalkan atau dikembangkan pertama kali oleh J. Ross Quinlan pada
tahun 1979. Aturan-aturan yang dihasilkan oleh ID3 mempunyai relasi yang hirarkis seperti
halnya sebuah pohon, mempunyai akar, cabang, dan daun. Beberapa peneliti menyebut
struktur model yang dihasilkan ID3 sebagai pohon keputusan (decision tree), sementara
peneliti yang lain menyebutnya pohon aturan (rule tree).
Algoritma pada metode ini berbasis pada Occams Razor : lebih memilih pohon
keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi metode ini
tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu Occams
Razor bersifat heuristik. Occams Razor diformalisasi menggunakan konsep dari entropi
informasi.
C.2. Algoritma
Cara Kerja Algoritma ID3 :
1. Pemilihan atribut dengan menggunakan Information Gain.
2. Pilih atribut yang nilai gainnya paling besar.
3. Buat simpul yang berisi atribut tersebut.
4. Proses perhitungan Information Gain akan terus dilaksanakan sampai semua data masuk
ke dalam kelas yang sama, sedangkan atribut yang telah dipilih tidak diikutkan lagi
dalam perhitungan nilai information gain. Gain mengukur seberapa baik suatu atribut
memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi
akan dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama gunakan ide dari
teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi.
Entropy Information Gain :
Sebuah obyek yang diklasifikasikan dalam pohon harus diuji nilai entropinya. Entropi
sendiri adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impuryt

Page 13 of 35

dan homogenity dari kumpulan data. Dari nilai entropi tersebut lalu dihitung nilai
information gain (IG) masing-masing atribut.
Rumus entropi informasi :
Entropy(S) = ( -p+ log2p+ ) + ( -p- log2p- )
Keterangan :
S = himpunan kasus atau ruang (data) sampel yang digunakan untuk training.
p+ = jumlah yang bersolusi positif (mendukung) pada data sampel untuk kriteria tertentu.
p- = jumlah yang bersolusi negatif (tidak mendukung) pada data sampel untuk kriteria
tertentu.
Dari rumus entropi di atas dapat disimpulkan bahwa definisi dari Entropy(S) adalah
jumlah bit yang diperkirakan dibutuhkan untuk mengekstrak suatu kelas ( + atau - ) dari
sejumlah data acak pada suatu ruang sampel S. Entropi dapat dikatakan sebagai kebutuhan
bit untuk menyatakan suatu kelas. Semakin kecil nilai dari suatu entropi, maka semakin baik
digunakan dalam mengekstraksi suatu kelas.
Panjang kode untuk menyatakan informasi secara optimal adalah log2p bits untuk
message yang mempunyai probabilitas p, sehingga jumlah bit yang diperkirakan untuk
mengekstraksi S ke dalam kelas adalah ( -p+ log2p+ ) + ( -p- log2p- ).
Information Gain :
Selanjutnya adalah mengukur efektivitas suatu atribut dalam mengklasifikasikan data.
Ukuran efektivitas ini yang disebut sebagai information gain.
Rumus Informasi Gain :
Gain(S,A) = Entropy(S) -
Keterangan :
A = atribut
V = suatu nilai yang mungkin untuk atribut A
|Sv| = jumlah sampel untuk nilai v
|S| = jumlah seluruh sampel data
Entropy(Sv) = entropi untuk sampel-sampel yang memiliki nilai v
Entropy(S) = 0 jika semua contoh pada S berada dalam kelas yang sama
Entropy(S) = 1 jika semua jumlah contoh positif dan jumlah negative dalam S adalah sama
Entropy(S) = <1 jika jumlah contoh positif dan negative dalam S tidak sama.
Algoritma ID3 :
Input = sampel training, label training, atribut
1.
2.

Membuat simpul akar untuk pohon yang dibuat.


Jika semua sampel bernilai positif, berhenti dengan suatu pohon dengan satu simpul
akar, lalu beri label positif (+).

Page 14 of 35

3.

Jika semua sampel bernilai negatif, berhenti dengan suatu pohon dengan satu simpul

4.

akar, lalu beri label negatif (-).


Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul akar, dengan label

5.

sesuai nilai yang terbanyak yang ada pada label training.


Untuk yang lain :
a. Mulai.
b. A atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan
c.
d.

gain ratio).
Atribut keputusan untuk simpul akar A.
Untuk setiap nilai vi, yang mungkin untuk A :
Tambahkan cabang di bawah akar yang berhubungan dengan A = vi.
Tentukan sampel Svi, sebagai subset dari sampel yang mempunyai nilai v i,
untuk atribut A.
Jika sampel Svi kosong :
Di bawah cabang tambahkan simpul daun dengan label = nilai terbanyak
yang ada pada label training.
Yang lain, tambah cabang baru di bawah cabang yang sekarang C4.5

e.

(sampel training, label training, atribut-[A]).


Berhenti.

Syarat sampel data yang digunakan oleh ID3 :


1.

Deskripsi atribut nilai, atribut yang sama harus mendeskripsikan tiap contoh dan

2.

memiliki jumlah nilai yang sudah ditentukan.


Kelas yang sudah didefinisikan sebelumnya, suatu atribut contoh harus sudah

3.

didefinisikan, karena tidak dipelajari oleh ID3.


Kelas-kelas yang diskrit, kelas harus digambarkan dengan jelas. Kelas yang kontinu

4.

dipecah-pecah menjadi kategori-kategori yang relatif.


Jumlah contoh yang cukup, karena pembangkitan induktif digunakan, maka dibutuhkan

5.

test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian.
Pemilihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan
information gain. Gain mengukur seberapa baik suatu atribut memisahkan training
example ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan
tujuan untuk mendefinisikan gain, pertama-tama digunakanlah ide dari teori informasi
yang disebut entropi. Entropi mengukur jumlah dari informasi yang ada pada atribut.

C.3. Keuntungan dan Kelemahan


Keuntungan :
1. Dapat membuat aturan prediksi yang mudah untuk dimengerti.
2. Membangun pohon keputusan yang pendek dengan cepat.
Page 15 of 35

3.

Hanya membutuhkan beberapa tes atribut sampai semua data diklasifikasikan.

Kelemahan :
1.
2.
3.

Jika contoh yang diteliti terlalu kecil / sederhana, dapat membuat data over-classified.
Hanya satu atribut yang dapat dites dalam satu waktu untuk membuat keputusan.
Mengelompokkan data yang berkelanjutan mungkin terhitung mahal, sebanyak pohon
yang harus dibuat untuk melihat dimana menghentikan proses kelanjutannya.

C.4. Studi Kasus


C.4.1. Contoh Kasus
Pelam
ar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11

IPK

Psikolo

Wawanca

Diterim

gi

ra

Bagus
Tinggi
Baik
Bagus
Sedang
Baik
Bagus
Sedang
Buruk
Bagus
Rendah
Buruk
Cukup
Tinggi
Baik
Cukup
Sedang
Baik
Cukup
Sedang
Buruk
Cukup Rendah
Buruk
Kurang
Tinggi
Baik
Kurang Sedang
Buruk
Kurang Rendah
Baik
Dari table data di atas, dapat dipecah menjadi :

Ya
Ya
Ya
Tidak
Ya
Ya
Ya
Tidak
Ya
Tidak
Ya

a) IPK memiliki 3 kategori : bagus, cukup, kurang


b) Psikologi memiliki 3 kategori : tinggi, sedang, buruk
c) Wawancara memiliki 2 kategori : baik, buruk
Seharusnya dari data tersebut memiliki 3 x 3 x 2 = 18 kombinasi data. Namun dalam
table hanya terdapat 11 kombinasi saja, ada 7 kombinasi yang hilang.
C.4.2. Penyelesaian Contoh Kasus
Untuk memecahkan 7 kombinasi yang hilang pada contoh kasus di atas, digunakan
algoritma ID3 dengan langkah-langkahnya sebagai berikut :
Langkah-1.
Atribut nilai : IPK, Psikologi, Wawancara.
Terdapat 11 pelamar : 8 diterima, 3 tidak diterima.
sampel kelas 1 (Ya) = 8 p1 = 8
sampel kelas 2 (Tidak) = 3 p2 = 3
Pelamar
P1
P2
P3

IPK
Bagus
Bagus
Bagus

Psikologi Wawancara Diterima


Tinggi
Baik
Ya
Sedang
Baik
Ya
Sedang
Buruk
Ya
Page 16 of 35

P4
P5
P6
P7
P8
P9
P10
P11
Langkah-2.

Bagus
Cukup
Cukup
Cukup
Cukup
Kurang
Kurang
Kurang

Rendah
Tinggi
Sedang
Sedang
Rendah
Tinggi
Sedang
Rendah

Buruk
Baik
Baik
Buruk
Buruk
Baik
Buruk
Baik

Tidak
Ya
Ya
Ya
Tidak
Ya
Tidak
Ya

Menghitung keseluruhan nilai entropy :


Entropy(S) = ( -p+ log2p+ ) + ( -p- log2p- )
Entropy(S) = ( - jumlah pelamar diterima / jumlah total pelamar *
log2 * (jumlah pelamar diterima / jumlah total pelamar) ) + ( - jumlah
pelamar ditolak / jumlah total pelamar * log2 * (jumlah pelamar
ditolak / jumlah total pelamar) )
Entropy(S)
=
= ( -0,45943 * -0,72727 ) + ( -0,27273 *
-1,87447 )
= 0,334132 + 0,511219 = 0,845351

Langkah-3.

Menghitung information gain di setiap kelas di atribut IPK hasil


information gain tertinggi (IPK / Psikologi / Wawancara) akan
menjadi root dari pohon keputusan (decision tree).
IPK memiliki 3 kelas : Bagus, Cukup, Kurang
Pelamar
IPK
Psikologi Wawancara Diterima
P1
Bagus
Tinggi
Baik
Ya
P2
Bagus
Sedang
Baik
Ya
P3
Bagus
Sedang
Buruk
Ya
P4
Bagus
Rendah
Buruk
Tidak
P5
Cukup
Tinggi
Baik
Ya
P6
Cukup
Sedang
Baik
Ya
P7
Cukup
Sedang
Buruk
Ya
P8
Cukup Rendah
Buruk
Tidak
P9
Kurang
Tinggi
Baik
Ya
P10
Kurang Sedang
Buruk
Tidak
P11
Kurang Rendah
Baik
Ya
Terdapat 11 pelamar :
IPK = Bagus Diterima = 3 orang Ditolak = 1 orang
IPK = Cukup Diterima = 3 orang Ditolak = 1 orang
IPK = Kurang Diterima = 2 orang Ditolak = 1 orang
Page 17 of 35

Diasumsikan :
Atribut Diterima (Ya) disimbolkan dengan posistif (+)
Atribut Ditolak (Tidak) disimbolkan dengan negatif (-)
Values (IPK) = Bagus, Cukup, Kurang
S = Sampel
|S| = [8+, 3-] = 11
|Sbagus| = [3+, 1-] = 4
|Scukup| = [3+, 1-] = 4
|Skurang| = [2+, 1-] = 3
Menghitung nilai entropy :
Entropy(S) = ( -p+ log2p+ ) + ( -p- log2p- )
Entropy(S) = ( -jumlah pelamar diterima / jumlah pelamar (IPK) *
log2 jumlah pelamar diterima / jumlah pelamar (IPK) ) + ( -jumlah
pelamar ditolak / jumlah pelamar (IPK) * log 2 - jumlah pelamar
ditolak / jumlah pelamar (IPK) )
Entropy(Sbagus)

=
= (-0,75 * -0,41504) + (-0,25 * -2)
= 0,311278 + 0,5 = 0,811278

Entropy(Scukup)

=
= (-0,75 * -0,41504) + (-0,25 * -2)
= 0,311278 + 0,5 = 0,811278

Entropy(Skurang)

= (-0,66667 * -0,58496) + (-0,33333 * -1,58496)


= 0,389975 + 0,528321 = 0,918296
Langkah-4.

Menghitung information gain dari atribut IPK.


Entropy Tabel = 0,845351
Entropy Sbagus = 0,811278 = 4 pelamar
Entropy Scukup = 0,811278 = 4 pelamar
Entropy Skurang = 0,918296 = 3 pelamar
Total pelamar = 11 orang
Perhitungan Information Gain :
Gain(S,A) = Entropy(S) -

Page 18 of 35

Gain(S,IPK)

= Entropy(S) ( ( (Entropy(Sbagus) / Entropy(S))

* Entropy(Sbagus) ) ( (Entropy(Scukup) / Entropy(S)) *


Entropy(Scukup) ) ( (Entropy(Skurang) / Entropy(S)) *
Entropy(Skurang) )
= 0,845351 (4/11 * 0,811278) (4/11 * 0,811278) (3/11 *
0,918296)
= 0,845351 0,29501 0,29501 0,25044 = 0,004886
Langkah-5.

Menghitung information gain di setiap kelas di atribut psikologi


hasil information gain tertinggi (IPK / Psikologi / Wawancara) akan
menjadi root dari pohon keputusan (decision tree).
Psikologi memiliki 3 kelas : Bagus, Cukup, Kurang
Pelamar
IPK
Psikologi Wawancara Diterima
P1
Bagus
Tinggi
Baik
Ya
P2
Bagus
Sedang
Baik
Ya
P3
Bagus
Sedang
Buruk
Ya
P4
Bagus
Rendah
Buruk
Tidak
P5
Cukup
Tinggi
Baik
Ya
P6
Cukup
Sedang
Baik
Ya
P7
Cukup
Sedang
Buruk
Ya
P8
Cukup Rendah
Buruk
Tidak
P9
Kurang
Tinggi
Baik
Ya
P10
Kurang Sedang
Buruk
Tidak
P11
Kurang Rendah
Baik
Ya
Terdapat 11 pelamar :
Psikologi = Tinggi Diterima = 3 orang Ditolak = 0 orang
Psikologi = Sedang Diterima = 4 orang Ditolak = 1 orang
Psikologi = Rendah Diterima = 1 orang Ditolak = 2 orang

Diasumsikan :
Atribut Diterima (Ya) disimbolkan dengan posistif (+)
Atribut Ditolak (Tidak) disimbolkan dengan negatif (-)
Values (Psikologi) = Tinggi, Sedang, Rendah
S = Sampel
|S| = [8+, 3-] = 11
|Stinggi| = [3+, 0-] = 3
|Ssedang| = [4+, 1-] = 5
Page 19 of 35

|Srendah| = [1+, 2-] = 3


Menghitung nilai entropy :
Entropy(S) = ( -p+ log2p+ ) + ( -p- log2p- )
Entropy(S) = ( -jumlah pelamar diterima / jumlah pelamar (Psi) *
log2 jumlah pelamar diterima / jumlah pelamar (Psi) ) + ( -jumlah
pelamar ditolak / jumlah pelamar (Psi) * log 2 - jumlah pelamar
ditolak / jumlah pelamar (Psi) )
Entropy(Stinggi)

=
= (-1 * 0) + (0 * ~)
=0+~=~

Entropy(Ssedang)

=
= (-0,8 * -0,32193) + (-0,2 * -2,32193)
= 0,257542 + 0,464386 = 0,721928

Entropy(Srendah)

= (-0,33333 * -1,58496) + (-0,66667 * -0,58496)


= 0,528321 + 0,389975 = 0,918296
Langkah-6.

Menghitung information gain dari atribut Psikologi.


Entropy Tabel = 0,845351
Entropy Stinggi = ~ = 3 pelamar
Entropy Ssedang = 0,721928 = 5 pelamar
Entropy Srendah = 0,918296 = 3 pelamar
Total pelamar = 11 orang
Perhitungan Information Gain :
Gain(S,A) = Entropy(S) -
Gain(S,Psi)
= Entropy(S) ( ( (Entropy(Stinggi) / Entropy(S))
* Entropy(Stinggi) ) ( (Entropy(Ssedang) / Entropy(S)) *
Entropy(Ssedang) ) ( (Entropy(Srendah) / Entropy(S)) *
Entropy(Srendah) )
= 0,845351 (3/11 * ~) (5/11 * 0,721928) (3/11 * 0,918296)
= 0,845351 0 0,32815 0,25044 = 0,266758

Page 20 of 35

Langkah-7.

Menghitung information gain di setiap kelas di atribut wawancara


hasil information gain tertinggi (IPK / Psikologi / Wawancara) akan
menjadi root dari pohon keputusan (decision tree).
Wawancara memiliki 3 kelas : Baik, Buruk
Pelamar
IPK
Psikologi Wawancara Diterima
P1
Bagus
Tinggi
Baik
Ya
P2
Bagus
Sedang
Baik
Ya
P3
Bagus
Sedang
Buruk
Ya
P4
Bagus
Rendah
Buruk
Tidak
P5
Cukup
Tinggi
Baik
Ya
P6
Cukup
Sedang
Baik
Ya
P7
Cukup
Sedang
Buruk
Ya
P8
Cukup Rendah
Buruk
Tidak
P9
Kurang
Tinggi
Baik
Ya
P10
Kurang Sedang
Buruk
Tidak
P11
Kurang Rendah
Baik
Ya
Terdapat 11 pelamar :
Wawancara = Baik Diterima = 6 orang Ditolak = 0 orang
Wawancara = Buruk Diterima = 2 orang Ditolak = 3 orang
Diasumsikan :
Atribut Diterima (Ya) disimbolkan dengan posistif (+)
Atribut Ditolak (Tidak) disimbolkan dengan negatif (-)
Values (Wawancara) = Baik, Buruk
S = Sampel
|S| = [8+, 3-] = 11
|Sbaik| = [6+, 0-] = 6
|Sburuk| = [2+, 3-] = 5
Menghitung nilai entropy :
Entropy(S) = ( -p+ log2p+ ) + ( -p- log2p- )
Entropy(S) = ( -jumlah pelamar diterima / jumlah pelamar
(Wawancara) * log2 jumlah pelamar diterima / jumlah pelamar
(Wawancara) ) + ( -jumlah pelamar ditolak / jumlah pelamar
(Wawancara) * log2 - jumlah pelamar ditolak / jumlah pelamar
(Wawancara) )

Page 21 of 35

Entropy(Sbaik) =
= (-1 * 0) + (0 * ~)
=0+~=~
Entropy(Sburuk) =
= (-0,4 * -1,32193) + (-0,6 * -0,73697)
= 0,528771 + 0,442179 = 0,970951
Langkah-8.

Menghitung information gain dari atribut Wawancara.


Entropy Tabel = 0,845351
Entropy Sbaik= ~ = 6 pelamar
Entropy Sburuk = 0,970951 = 5 pelamar
Total pelamar = 11 orang
Perhitungan information gain :
Gain(S,A) = Entropy(S) -
Gain(S,W) = Entropy(S) ( ( (Entropy(Sbaik) / Entropy(S)) *
Entropy(Sbaik)

(Entropy(Sburuk)

Entropy(S))

Entropy(Sburuk))
= 0,845351 (6/11 * ~) (5/11 * 0,970951)
= 0,845351 0 0,44134 = 0,40401
Langkah-9.

Rekursi Level 0, Iterasi 1 :


Gain(S, IPK) = 0,004886
Gain(S, Psikologi) = 0,266758
Gain(S, Wawancara) = 0,40401 gain maksimum (the best
classifier) menjadi root

Pohon Keputusan Rekursi Level 0 Iterasi 1


Dari pohon keputusan rekursi level 0 iterasi 1, terlihat yang
menjadi root adalah Wawancara, karena nilai gain wawancara adalah
yang terbesar. Lalu dari root Wawancara terdapat leaf node yang
merupakan simpul daun yang dijadikan cabang dari root pohon
Page 22 of 35

keputusan tersebut. Jadi misalnya atribut Wawancara akan memiliki


leaf node Baik dan Buruk sesuai dengan kelas yang dimiliki atribut
tersebut. Seperti halnya atribut Wawancara, atribut lainnya (IPK dan
Psikologi) juga memiliki leaf node yang terdapat dalam masingmasing kelasnya. Atribut IPK memiliki kelas Bagus, Cukup, Kurang.
Sedangkan atribut Psikologi memiliki kelas Tinggi, Sedang, Rendah.
Nantinya leaf node akan dihitung gain informationnya kembali
untuk menentukan mana yang akan menjadi turunan dari root.
Namun jika semua sampel leaf node itu memiliki 1 kelas yang sama,
misalnya sampel Sbagus memiliki kelas Ya semua, maka fungsi
ID3 akan berhenti, dan mengikuti kelas yang sama, yaitu Ya.
Dari pohon keputusan rekursi level 0 iterasi 1, terlihat setelah
root Wawancara, diikuti dengan leaf node Baik. Namun dari leaf
node tersebut perlu dicek, apakah pelamar dengan hasil wawancara
baik tersebut diterima atau ditolak.
Rekursi Level 1, Iterasi 1 :
Selanjutnya dari pohon keputusan rekursi level 0 iterasi 1
tersebut akan dicari pelamar dengan hasil wawancara baik diterima
atau ditolak. Dari kelas Baik di atribut Wawancara, terlihat
menghasilkan 6 pelamar, yang ternyata dari semua pelamar tersebut
diterima (memiliki kelas Ya). Sehingga fungsi ID3 akan berhenti
dan membentuk kesimpulan bahwa semua pelamar dengan nilai
Wawancara Baik akan diterima.
Sbaik = [6+, 0-]
atribut_target = diterima / Ya
kumpulan_atribut = {Psikologi, IPK}

Pohon Rekursi Level 0 Iterasi 1


Page 23 of 35

Dari pohon keputusan rekursif level 1 iterasi 1, sudah ditemukan


fungsi ID3 berhenti karena semua sampel mengarak ke kelas Ya.
Selanjutnya, di tabel atribut Wawancara terdapat 2 kombinasi lagi
untuk diterima di kelas Ya (diterima), yaitu atribut Psikologi dan
atribut IPK. Maka dari itu, saya jabarkan pohon keputusan level 1
iterasi 1 menjadi :

Catatan :
Gambar di atas hanya gambaran awal saja (hanya permisalan
saja). Dari pohon keputusan level 1 iterasi 1 yang dijabarkan di
Page 24 of 35

atas, urutan antara atribut Psikologi dan IPK dapat ditukar. Yang
terpenting adalah atribut Psikologi dan IPK merupakan turunan
dari root Wawancara.
Selanjutnya setelah mengetahui bahwa sampel Baik di atribut
Wawancara semua memiliki kelas Ya (diterima), maka dapat
disimpulkan seluruh pelamar dengan hasil wawancara baik, entah
hasil psikologinya tinggi, sedang, atau kurang ataupun nilai IPK
bagus, cukup, atau kurang akan diterima menjadi pegawai. Hal ini
dituliskan sebagai berikut :
Pelamar IPK
Psikologi
P1
Bagus Tinggi
P2
Cukup Tinggi
P3
Kurang Tinggi
P4
Bagus Sedang
P5
Cukup Sedang
P6
Kurang Sedang
P7
Bagus Rendah
P8
Cukup Rendah
P9
Kurang Rendah
Dari table di atas, terlihat

Wawancara Diterima
Baik
Ya
Baik
Ya
Baik
Ya
Baik
Ya
Baik
Ya
Baik
Ya
Baik
Ya
Baik
Ya
Baik
Ya
munculnya 3 kombinasi baru (yang

belum ada dalam table pertama). Sehingga hanya kurang 4


kombinasi yang belum ditemukan. Selanjutnya adalah mencari root
selanjutnya, gain Psikologi atau gain IPK.
Langkah-10.

Rekursi Level 0 Iterasi 2


Sburuk = [2+, 3-]
atribut_target = diterima / Ya
kumpulan_atribut = {Psikologi, IPK}
Pohon Keputusan Rekursi Level 0 Iterasi 2

Langkah-11.

Mencari gain tertinggi antara atribut IPK dan atribut Psikologi :


Rekursi Level 1 Iterasi 2
Sburuk = [2+, 3-]
atribut_target = diterima / Ya
kumpulan_atribut = {Psikologi, IPK}
Values(IPK) = Bagus, Cukup, Kurang
Pelamar

IPK

Psikologi Wawancara Diterima


Page 25 of 35

P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11

Bagus
Bagus
Bagus
Bagus
Cukup
Cukup
Cukup
Cukup
Kurang
Kurang
Kurang

Tinggi
Sedang
Sedang
Rendah
Tinggi
Sedang
Sedang
Rendah
Tinggi
Sedang
Rendah

Baik
Baik
Buruk
Buruk
Baik
Baik
Buruk
Buruk
Baik
Buruk
Baik

Ya
Ya
Ya
Tidak
Ya
Ya
Ya
Tidak
Ya
Tidak
Ya

S = Sburuk = [2+, 3-] |S| = 5


Sbagus = [1+, 1-] = |Sbagus| = 2
Scukup = [1+, 1-] = |Scukup| = 2
Skurang = [0+, 1-] = |Skurang| = 1
Entropy(S)

=
= 0,528771 + 0,442179 = 0,970951
Entropy(Sbagus) =
= 0,5 + 0,5 = 1
Entropy(Scukup) =
= 0,5 + 0,5 = 1
Entropy(Skurang) =
=~+0=~
Gain(S, IPK)

= Entropy(S) ( 2/5 * Entropy(Sbagus) ) ( 2/5 *

Entropy(Scukup) ) ( 1/5 * Entropy(Skurang) )


= 0,970951 (2/5 * 1) (2/5 * 1) (1/5 * 0)
= 0,170951
Values(Psikologi) = Tinggi, Sedang, Rendah
Pelamar
IPK
Psikologi Wawancara Diterima
P1
Bagus
Tinggi
Baik
Ya
P2
Bagus
Sedang
Baik
Ya
P3
Bagus
Sedang
Buruk
Ya
P4
Bagus
Rendah
Buruk
Tidak
P5
Cukup
Tinggi
Baik
Ya
P6
Cukup
Sedang
Baik
Ya
P7
Cukup
Sedang
Buruk
Ya
P8
Cukup Rendah
Buruk
Tidak
P9
Kurang
Tinggi
Baik
Ya
P10
Kurang Sedang
Buruk
Tidak
P11
Kurang Rendah
Baik
Ya
S = Sburuk = [2+, 3-] |S| = 5
Page 26 of 35

Stinggi = [0+, 0-] = |Stinggi| = 0


Ssedang = [2+, 1-] = |Ssedang| = 3
Srendah = [0+, 2-] = |Srendah| = 2
Entropy(S)

=
= 0,528771 + 0,442179 = 0,970951
Entropy(Stinggi) =
=~+~=~
Entropy(Ssedang) =
= 0,389975 + 0,528321 = 0,918296
Entropy(Srendah) =
=~+0=~
Gain(S, Psi)

= Entropy(S) ( 2/5 * Entropy(Sbagus) ) ( 2/5 *

Entropy(Scukup) ) ( 1/5 * Entropy(Skurang) )


= 0,970951 (0/5 * 0) (3/5 * 0,918296) (2/5 *
0)
= 0,419973
Hasil Gain(S, IPK) = 0,170951 sedangkan hasil Gain(S, Psi) =
0,419973, sehingga dapat disimpulkan bahwa gain Psikologi lebih
besar daripada gain IPK. Maka dari itu, psikologi menjadi root
selanjutnya, yang digambarkan seperti :

Pohon Keputusan Rekursi Level 1 Iterasi 2


Langkah-12.

Selanjutnya adalah mengecek keseluruhan atribut dari Psikologi,


yaitu Tinggi, Sedang, Rendah. Lalu akan dicari atribut yang akan
menjadi simpul tunggal atau yang menjadi simpul root selanjutnya.
Atribut Tinggi :
Atribut Wawancara dengan nilai Buruk memiliki 2 pelamar yang
diterima dan 3 pelamar yang ditolak sehingga diklasifikasikan
menjadi Sburuk = [2+, 3-].
Pelamar IPK
P1
Bagus
P2
Cukup

Psikologi Wawancara Diterima


Tinggi
Baik
Ya
Tinggi
Baik
Ya
Page 27 of 35

P3
Kurang Tinggi
Baik
Ya
P4
Bagus Sedang
Baik
Ya
P5
Cukup Sedang
Baik
Ya
P6
Kurang Sedang
Baik
Ya
P7
Bagus Rendah
Baik
Ya
P8
Cukup Rendah
Baik
Ya
P9
Kurang Rendah
Baik
Ya
P10
Bagus Sedang
Buruk
Ya
P11
Cukup Sedang
Buruk
Ya
P12
Kurang Sedang
Buruk
Tidak
P13
Bagus Rendah
Buruk
Tidak
P14
Cukup Rendah
Buruk
Tidak
Dari table di atas, atribut Tinggi di Psikologi tidak ditemukan,
sehingga nilai Tinggi pada Sburuk = [2+, 3-] = 0, yang berarti nilai
Tinggi tidak memiliki kombinasi dengan wawancara buruk.
Menurut algoritma ID3, karena nilai tinggi = 0, maka perlu dibuat 1
leaf node (simpul yang tidak memiliki anak di bawahnya) dengan
label yang paling sering muncul pada Sburuk, yaitu Tidak
sehingga terbentuk pohon baru :

Pohon Keputusan Level 0 Iterasi 1


Dari pohon tersebut, dapat dijabarkan dan menghasilkan :
Pelamar
P1
P2
P3
P4

IPK
Bagus
Cukup
Kurang
Bagus

Psikologi
Tinggi
Tinggi
Tinggi
Sedang

Wawancara
Baik
Baik
Baik
Baik

Diterima
Ya
Ya
Ya
Ya
Page 28 of 35

P5
Cukup Sedang
Baik
Ya
P6
Kurang Sedang
Baik
Ya
P7
Bagus Rendah
Baik
Ya
P8
Cukup Rendah
Baik
Ya
P9
Kurang Rendah
Baik
Ya
P10
Bagus Sedang
Buruk
Ya
P11
Cukup Sedang
Buruk
Ya
P12
Bagus Tinggi
Buruk
Tidak
P13
Cukup Tinggi
Buruk
Tidak
P14
Kurang Tinggi
Buruk
Tidak
P15
Kurang Sedang
Buruk
Tidak
P16
Bagus Rendah
Buruk
Tidak
P17
Cukup Rendah
Buruk
Tidak
Dari table di atas, terlihat munculnya 3 kombinasi baru (yang
belum ada dalam table pertama). Sehingga hanya kurang 1
kombinasi yang belum ditemukan.
Atribut Sedang :
Selanjutnya adalah mengecek kembali jumlah pelamar yang
memiliki nilai psikologi sedang dengan kombinasi wawancara buruk
terdapat 2 pelamar diterima dan 1 pelamar ditolak.
Pelamar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P13
P14
P15
P16
P17

IPK
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Bagus
Cukup
Kurang
Kurang
Bagus
Cukup

Psikologi
Tinggi
Tinggi
Tinggi
Sedang
Sedang
Sedang
Rendah
Rendah
Rendah
Sedang
Sedang
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Rendah

Wawancara
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk

Diterima
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak

Page 29 of 35

Ssedang = [2+, 1-]


atribut_target = Diterima = Ya
kumpulan_atribut = {IPK}

Pohon Keputusan Rekursi Level 0 Iterasi 2


Atribut Rendah :
Selanjutnya adalah mengecek kembali jumlah pelamar yang
memiliki nilai psikologi rendah dengan kombinasi wawancara buruk
terdapat 0 pelamar diterima dan 2 pelamar ditolak, atau dapat
disebutkan bahwa pelamar dengan nilai psikologi rendah dan hasil
wawancara buruk semuanya ditolak.
Pelamar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P13
P14
P15
P16
P17

IPK
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Bagus
Cukup
Kurang
Kurang
Bagus
Cukup

Psikologi
Tinggi
Tinggi
Tinggi
Sedang
Sedang
Sedang
Rendah
Rendah
Rendah
Sedang
Sedang
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Rendah

Wawancara
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk

Diterima
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak

Page 30 of 35

Srendah = [0+, 2-]


atribut_target = Diterima = Ya
kumpulan_atribut = {IPK}

Pohon Keputusan Level 0 Iterasi 3


Langkah-13.

Selanjutnya hanya tersisa atribut IPK, dan leaf node yang kosong
hanya atribut sedang, maka atribut IPK akan menjadi root terakhir di
bawah leaf node sedang.

Pohon Keputusan Level 1 Iterasi 4


Selanjutnya adalah mengecek kembali kelas yang terdapat dalam
atribut IPK, yaitu Bagus, Cukup, dan Kurang. Lalu cek kembali
apakah diterima atau ditolak.
Atribut Bagus :
Untuk mengeceknya, dilihat dari root paling atas. Dari table
terdapat 1 pelamar dengan wawancara buruk, psikologi sedang, IPK

Page 31 of 35

bagus, dan hasil diterima. Sehingga fungsi ID3 berhenti dan


membentuk keputusan Ya.
Pelamar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P13
P14
P15
P16
P17

IPK
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Bagus
Cukup
Kurang
Kurang
Bagus
Cukup

Psikologi
Tinggi
Tinggi
Tinggi
Sedang
Sedang
Sedang
Rendah
Rendah
Rendah
Sedang
Sedang
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Rendah

Wawancara
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk

Diterima
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak

Sbagus = [1+, 0-]


atribut_target = Diterima = Ya
Pohon Keputusan Level 0 Iterasi 5
Atr

Atribut Cukup :

Page 32 of 35

Dari table terdapat 1 pelamar dengan wawancara buruk,


psikologi sedang, IPK cukup yang diterima.
Pelamar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P13
P14
P15
P16
P17

IPK
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Bagus
Cukup
Kurang
Kurang
Bagus
Cukup

Psikologi
Tinggi
Tinggi
Tinggi
Sedang
Sedang
Sedang
Rendah
Rendah
Rendah
Sedang
Sedang
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Rendah

Wawancara
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk

Diterima
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak

Scukup = [1+, 0-]


atribut_target = Diterima = Ya

Pohon Keputusan Level 0 Iterasi 6

Page 33 of 35

Atribut Kurang :
Dari table terdapat 1 pelamar dengan nilai wawancara buruk,
psikologi sedang, IPK rendah yang ditolak.
Pelamar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P13
P14
P15
P16
P17

IPK
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Bagus
Cukup
Kurang
Kurang
Bagus
Cukup

Psikologi
Tinggi
Tinggi
Tinggi
Sedang
Sedang
Sedang
Rendah
Rendah
Rendah
Sedang
Sedang
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Rendah

Wawancara
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk

Diterima
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak

Skurang = [1+, 0-]


atribut_target = Diterima = Ya

Page 34 of 35

Pohon Keputusan Level 0 Iterasi 7


Maka setelah dijabarkan akan menghasilkan hasil akhir :
Pelamar
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P13
P14
P15
P16
P17
P18

IPK
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Kurang
Bagus
Cukup
Bagus
Cukup
Kurang
Kurang
Bagus
Cukup
Kurang

Psikologi
Tinggi
Tinggi
Tinggi
Sedang
Sedang
Sedang
Rendah
Rendah
Rendah
Sedang
Sedang
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Rendah
Rendah

Wawancara
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Baik
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk
Buruk

Diterima
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak

C.5. Kesimpulan
1. Wawancara = Baik ^ (Psikologi = Tinggi v Psikologi = Sedang v Psikologi
2.

= Rendah) ^ (IPK = Bagus v IPK = Cukup v IPK = Kurang) Diterima


Wawancara = Buruk ^ (Psikologi = Tinggi v Psikologi = Rendah) ^ (IPK =

3.

Bagus v IPK = Cukup v IPK = Kurang) Ditolak


Wawancara = Buruk ^ (Psikologi = Sedang) ^ (IPK = Bagus v IPK =

4.

Cukup) Diterima
Wawancara
=
Buruk

(Psikologi = Sedang) ^ (IPK = Kurang)

Ditolak

Page 35 of 35

Vous aimerez peut-être aussi