Vous êtes sur la page 1sur 6

Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol.

4 Nomor 2 Tahun 2018

IMPLEMENTASI TEKNIK SELEKSI FITUR FORWARD SELECTION PADA


ALGORITMA KLASIFIKASI DATA MINING UNTUK PREDIKSI MASA STUDI
MAHASISWA POLITEKNIK INDONUSA SURAKARTA

Wiwit Supriyanti1), Norma Puspitasari2)

Politeknik Indonusa Surakarta


Jl. KH. Samanhudi No. 31 Mangkuyudan Surakarta
Email : 1wiwitsupriyanti@poltekindonusa.ac.id , 2normasari@poltekindonusa.ac.id

Abstrak

Berlimpahnya data mahasiswa dan data jumlah kelulusan mahasiswa, informasi yang
tersembunyi dapat diketahui dengan cara melakukan pengolahan terhadap data mahasiswa sehingga
berguna bagi pihak perguruan tinggi. Pengolahan data mahasiswa perlu dilakukan untuk
mengetahui informasi penting berupa pengetahuan baru (knowledge discovery), misalnya informasi
mengenai pengklasifikasian data mahasiswa berdasarkan profil dan data akademik. Pengetahuan
baru tersebut dapat membantu pihak perguruan tinggi untuk melakukan klasifikasi mengenai
tingkat kelulusan mahasiswa guna menentukan strategi untuk meningkatkan kelulusan pada tahun-
tahun berikutnya.
Diketahui bahwa Politeknik Indonusa Surakarta belum memanfaatkan database tersebut dan
dalam menentukan prediksi kelulusan masih menggunakan metode manual dengan tingkat
subyektifitas yang tinggi. Algoritma klasifikasi data mining dapat diusulkan sebagai salah satu
pendekatan yang dapat dilakukan untuk memprediksi masa studi mahasiswa berdasarkan data
akademik mahasiswa yang tersedia. Implementasi seleksi fitur forward selection pada algoritma
klasifikasi bertujuan untuk mencari atribut-atribut yang signifikan dalam prediksi masa studi serta
menghilangkan atribut-atribut yang tidak signifikan, sehingga dapat meningkatkan akurasi hasil
penghitungan.
Hasil penelitian didapat bahwa algoritma k-nearest neighbor menunjukkan nilai akurasi
tertinggi dibandingkan algoritma klasifikasi data mining yang lain, yaitu sebesar 59,52% (tanpa
tambahan seleksi fitur forward selection) dan 58,19% (menggunakan tambahan seleksi fitur
forward selection).

Kata Kunci : data mining, algoritma klasifikasi, seleksi fitur, masa studi

1. PENDAHULUAN tinggi dan penelitian, yang memberikan gelar


Perguruan tinggi saat ini dituntut untuk akademik dalam berbagai bidang. Politeknik
memiliki keunggulan bersaing dengan didirikan untuk mengarahkan lulusannya
memanfaatkan semua sumber daya yang menjadi tenaga profesional siap kerja. Pada
tersedia. Bukan hanya sumber daya sarana, umumnya program yang ditawarkan di salah
prasarana dan manusia, sistem informasi satu Politeknik adalah program ahli madya
merupakan salah satu sumber daya yang dapat dan sarjana terapan.
digunakan untuk memperoleh, mengolah dan Berlimpahnya data mahasiswa dan data
menyebarkan informasi agar dapat menunjang jumlah kelulusan mahasiswa, informasi yang
operasional sehari-hari sekaligus menunjang tersembunyi dapat diketahui dengan cara
kegiatan pengambilan keputusan strategis. melakukan pengolahan terhadap data
Politeknik dalam pendidikan di mahasiswa sehingga berguna bagi pihak
Indonesia merupakan salah satu bentuk perguruan tinggi. Pengolahan data mahasiswa
perguruan tinggi selain akademi, institut, perlu dilakukan untuk mengetahui informasi
universitas, dan sekolah tinggi. Politeknik penting berupa pengetahuan baru (knowledge
terdiri atas sejumlah program studi yang discovery), misalnya informasi mengenai
menyelenggarakan pendidikan vokasi pada pengklasifikasian data mahasiswa berdasarkan
sejumlah ilmu pengetahuan, teknologi, seni. profil dan data akademik. Pengetahuan baru
Politeknik adalah suatu institusi pendidikan tersebut dapat membantu pihak perguruan

49
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018

tinggi untuk melakukan klasifikasi mengenai memiliki nilai AUC rata-rata antara 0,9-1,0
tingkat kelulusan mahasiswa guna dan ini termasuk klasifikasi sangat baik.
menentukan strategi untuk meningkatkan Rizal Amegia Saputra (2014) dalam
kelulusan pada tahun-tahun berikutnya. penelitian “Komparasi Algoritma Klasifikasi
Betha Nurina Sari (2016) dalam Data Mining untuk Memprediksi Penyakit
penelitiannya yang berjudul “Implementasi Tuberculosis (TB): Studi Kasus Puskesmas
Teknik Seleksi Fitur Information Gain Pada Karawang Sukabumi” membandingkan
Algoritma Klasifikasi Machine Learning beberapa metode klasifikasi data mining,
untuk Prediksi Performa Akademik Siswa” diantaranya yaitu Algoritma C4.5, Naïve
berpendapat bahwa masalah utama dalam Bayes, Neural Network, dan Logistic
dalam proses discovering knowledge dari data Regression, keempat metode tersebut
di bidang pendidikan adalah mengidentifikasi digunakan dalam memprediksi diagnosis
data yang representatif. Penelitian ini penyakit TB dengan tujuan agar algoritma
diterapkan pada beberapa algoritma klasifikasi terpilih merupakan algoritma yang paling
machine learning, yaitu Decision Tree, akurat sehingga dapat melakukan diagnosa
Random Forest, ANN, SVM, dan Naïve Bayes penyakit TB secara dini, ke empat metode
agar bisa dilakukan komparasi performa dari tersebut merupakan sepuluh klasifikasi data
hasil klasifikasi sebelum dan sesudah mining paling popular. Hasil evaluasi dan
dilakukan seleksi fitur pada data akademik validasi, diketahui bahwa Naïve Bayes
siswa. Adapun kesimpulan yang didapatkan memiliki nilai accuracy dan AUC paling
dari penelitian adalah bahwa dengan tinggi diantara metode yang dikomprasikan,
implementasi teknik pemilihan fitur diikuti oleh algoritma C4.5, neural network,
information gain dapat mempengaruhi tingkat dan logistic regression memiliki akurasi yang
akurasi algoritma klasifikasi machine learning paling rendah.
(J48, Random Forest, MLP, SVM (SMO), dan Pada penelitian ini penulis bermaksud
Naïve Bayes) untuk memprediksi performa melakukan implementasi teknik seleksi fitur
akademik siswa pada mata pelajaran forward selection pada algoritma klasifikasi
matematika. data mining untuk mendapatkan hasil
Sukardi, Abd Syukur, dan Catur pengujian algoritma terbaik dalam mengolah
Supriyanto (2014) dalam penelitian mereka informasi data akademik mahasiswa serta
yang berjudul “Klasifikasi Spam Email mengidentifikasi atribut-atribut dominan yang
Menggunakan Algoritma C4.5 dengan Seleksi mempengaruhi masa studi mahasiswa
Fitur” mengungkapkan spam messages khususnya di Politeknik Indonusa Surakarta.
membanjiri internet dengan mengirimkan
salinan pesan-pesan yang sama untuk
memaksa agar pesan-pesan tersebut sampai 2. TINJAUAN PUSTAKA
kepada pemakai yang tidak memilih untuk a. Data Mining
menerimanya. Akibatnya banyak pemakai Data mining adalah ekstraksi informasi
yang merasa terganggu oleh banyaknya waktu atau pola yang penting atau menarik dari data
yang dihabiskan untuk menghapus pesan yang ada di database yang besar (Sudiyatno
spam, besarnya biaya yang harus dikeluarkan, dan Susanto, 2014). Data mining adalah
dan besarnya bandwidth jaringan. Hasil serangkaian proses untuk menggali nilai
eksperimen ditarik kesimpulan bahwa tambah berupa informasi yang selama ini
algoritma algoritma C4.5 dengan tidak diketahui secara manual dari suatu basis
menggunakan tiga model kriteria yakni gain data dengan melakukan penggalian pola-pola
ratio, information gain dan gini index, hasil dari data dengan tujuan untuk memanipulasi
akurasi yang paling tinggi terdapat pada data menjadi informasi yang lebih berharga
model kriteria gini index yakni 92,18%. yang diperoleh dengan cara mengekstraksi
Selanjutnya model kriteria gini index dan mengenali pola yang penting atau
dilakukan seleksi fitur chi square, information menarik dari data yang terdapat dalam basis
gain, information gain ratio dan untuk data.
meningkatkan hasil akurasi. Hasil yang paling Alasan utama mengapa data mining
tinggi dari ketiga seleksi fitur yakni sangat menarik perhatian industri informasi
information gain ratio dengan nilai p=0,6 dan dalam beberapa tahun belakangan ini adalah
hasil akurasinya menjadi 92,46. Serta karena tersedianya data dalam jumlah yang

50
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018

besar dan semakin besarnya kebutuhan untuk suatu instans baru ke dalam kelas (atau
mengubah data tersebut menjadi informasi kategori) yang paling mungkin.
dan pengetahuan yang berguna karena sesuai f. Genetic Algorithms (Algoritma Genetik)
fokus bidang ilmu ini yaitu melakukan Penggunaan analogi terhadap evolusi alami
kegiatan mengekstraksi atau menambang untuk membuat mekanisme berbasis
pengetahuan dari data yang berukuran / pencarian yang terarah untuk
berjumlah besar, informasi inilah yang mengklasifikasikan sampel-sampel data.
nantinya sangat berguna untuk
pengembangan. c. Seleksi Fitur Forward Selection
Seleksi fitur adalah proses memilih fitur
b. Algoritma Klasifikasi yang tepat untuk digunakan dalam proses
Sejumlah teknik atau algoritma yang klasifikasi atau clustering. Tujuan dari seleksi
digunakan untuk pemodelan pada klasifikasi fitur ini adalah untuk mengurangi tingkat
antara lain adalah seperti berikut : kompleksitas dari sebuah algoritma
a. Decision Tree Analysis (Analisa Pohon klasifikasi, meningkatkan akurasi dari
Keputusan) algoritma klasifikasi tersebut, dan mampu
Decision tree analysis (atau analisa pohon mengetahui fitur-fitur yang paling
keputusan adalah suatu teknik yang berpengaruh terhadap tingkat akurasi.
termasuk keluarga machine-learning) bisa Dalam metode forward selection,
dibilang teknik klasifikasi yang paling pemodelan dimulai dari nol peubah (empty
popular pada area data mining. model), kemudian satu persatu peubah
b. Statistical Analysis (Analisa Statistik) dimasukan sampai kriteria tertentu dipenuhi.
Teknik-teknik statistik pada awalnya Langkah-langkah metode forward selection
adalah algoritma klasifikasi yang populer adalah sebagai berikut (Suyono, 2015):
selama bertahun-tahun sampai dengan Metode forward selection adalah
kemunculan teknik-teknik ‘machine- pemodelan dimulai dari nol peubah (empty
learning’. Teknik-teknik klasifikasi model), kemudian satu persatu peubah
statistik antara lain ‘logistic regression’ dimasukan sampai kriteria tertentu dipenuhi.
(regresi logistik) dan discriminant analysis Langkah-langkah metode forward selection
(analisa diskriminan), keduanya berasumsi adalah sebagai berikut (Draper dan Smith,
bahwa hubungan antara variabel input dan 1992) :
output pada dasarnya adalah linear, data a. Gunakan regresi linier sederhana
terdistribusi normal, dan variabel-variabel Y = β0 + β1 X + ε
tidak saling terkait dan tidak tergantung …………………..…..(2.1)
satu sama lain. Sifat-sifat dasar asumsi terhadap semua variabel independen (X1,
yang diragukan ini akhirnya membawa X2,…, Xi) untuk mengetahui seberapa besar
pergeseran ke arah teknik-teknik ‘machine- pengaruh dari setiap variabel independen.
learning’. Uji hipotesis H0 : β1 = 0 lawan H0 : β1 ≠ 0
c. Neural Networks (Jaringan Syaraf Tiruan) dengan menggunakan uji t. Variabel
Ini adalah salah satu diantara teknik-teknik independen yang memberi nilai t paling
dalam ‘machine-learning’ yang paling besar diambil sebagai X1 asalkan H0
popular yang bisa digunakan untuk ditolak. Jika H0 diterima proses selesai.
problem-problem klasifikasi. b. Gunakan regresi linier dengan dua variabel
d. Case-Based Reasoning (Penalaran independen
Berbasis Kasus) Y = β0 + β1 X1+ β2 X2 +
Pendekatan ini menggunakan kasus ε……………....(2.2)
historis untuk mengenali berbagai dimana untuk variabel independen yang
kesamaan untuk menentukan suatu kasus kedua diambil dari variabel independen
baru ke dalam kategori yang paling yang tersisa. Uji hipotesis H0 : β2 = 0 lawan
mungkin. H0 : β2 ≠ 0 dengan menggunakan uji t.
e. Bayesian Classifiers (Klasifikasi Bayesian) Variabel yang memberi nilai t terbesar
Pendekatan ini menggunakan teori diambil sebagai X2 asalkan H0 ditolak. Jika
probabilitas untuk membuat model-model H0 diterima proses selesai.
klasifikasi berdasarkan kejadian-kejadian c. Gunakan regresi linier dengan tiga variabel
di masa lalu yang bisa untuk menempatkan independen

51
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018

Y = β0 + β1 X1+ β2 X2 + β3 X3 + tidak terlalu besar. Dalam penelitian ini


ε……....(2.3) peneliti melakukan observasi pada data
dimana untuk variabel independen yang akademik mahasiswa di Politeknik Indonusa
ketiga diambil dari variabel independen Surakarta.
yang tersisa. Uji hipotesis H0 : β3 = 0 lawan
H0 : β3 ≠ 0 dengan menggunakan uji t. 2) Metode Wawancara
Variabel yang memberi nilai t terbesar Wawancara merupakan teknik
diambil sebagai X3. Proses ini dilanjutkan pengumpulan data yang dilakukan melalui
sampai tidak ada lagi variabel independen tatap muka dan tanya jawab langsung antara
yang hasil uji parameternya secara pengumpul data maupun peneliti terhadap
individual tidak signifikan. nara sumber atau sumber data. Dalam
penelitian ini peneliti melakukan wawancara
d. RapidMiner dengan pengelola Unit Teknologi Informasi
RapidMiner merupakan perangkat (UTI) Politeknik Indonusa Surakarta.
lunak yang bersifat terbuka (open source).
RapidMiner adalah sebuah solusi untuk 3) Metode Studi Pustaka
melakukan analisis terhadap data mining, text Studi kepustakaan adalah teknik
mining dan analisis prediksi. RapidMiner pengumpulan data dengan mengadakan studi
menggunakan berbagai teknik deskriptif dan penelaahan terhadap buku-buku, literatur-
prediksi dalam memberikan wawasan kepada literatur, catatan-catatan, dan laporan-laporan
pengguna sehingga dapat membuat keputusan yang ada hubungannya dengan masalah yang
yang paling baik. RapidMiner memiliki dipecahkan. Dalam penelitian ini peneliti
kurang lebih 500 operator data mining, melakukan studi pustaka dengan mengambil
termasuk operator untuk input, output, data referensi buku-buku yang berkaitan dengan
preprocessing dan visualisasi. RapidMiner topik penelitian.
merupakan software yang berdiri sendiri
untuk analisis data dan sebagai mesin data b. Metode Analisis Data
mining yang dapat diintegrasikan pada Penelitian ini didesain dengan
produknya sendiri. RapidMiner ditulis dengan menggunakan model CRISP-DM (Cross
menggunakan bahasa pemrograman java Industy Standard Process for Data Mining),
sehingga dapat bekerja di semua sistem dalam metode ini terdapat enam tahapan
operasi. (Larose, 2005). Gambar 1 menjelaskan
tentang siklus hidup pengembangan data
mining yang telah ditetapkan dalam CRISP-
3. METODE PENELITIAN DM.
Penelitian yang dilaksanakan adalah
jenis penelitian eksperimen, yaitu melakukan
pengujian tingkat akurasi terbaik diantara
empat algoritma klasifikasi yang populer yaitu
decision tree, naive bayes, k-nearest neighbor
dan support vector machine dalam masa studi
mahasiswa. Data eksperimen diambil dari data
alumni Politeknik Indonusa Surakarta.

a. Metode Pengumpulan Data


1) Metode Observasi
Observasi merupakan salah satu teknik
pengumpulan data yang tidak hanya
mengukur sikap dari responden (wawancara Gambar 1. Enam Tahap Proses CRISP-DM
dan angket) namun juga dapat digunakan dalam Data Mining
untuk merekam berbagai fenomena yang
terjadi (situasi, kondisi). Teknik ini digunakan c. Alur Penelitian
bila penelitian ditujukan untuk mempelajari Secara umum alur penelitian yang
perilaku manusia, proses kerja, gejala-gejala dilakukan mengacu pada kerangka penelitian
alam dan dilakukan pada responden yang seperti pada Gambar 2.

52
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018

Pada tahap pertama yaitu pre- jenis kelamin laki-laki, sedangkan ‘P’
processing dengan tahapan data cleaning dan untuk alumni dengan jenis kelamin
data preparing pada dataset sampel sehingga perempuan.
diperoleh dataset baru. Tahapan selanjutnya b. Kelas
pengujian dataset dengan teknik 10 fold cross Kelas yang dimaksud dalam kategori ini
validation pada algoritma klasifikasi data adalah pada saat mendaftar sebagai
mining serta implementasi teknik seleksi fitur mahasiswa baru kemudian mengikuti
forward selection pada masing-masing kegiatan perkuliahan sampai dengan lulus,
algoritma klasifikasi. Tahap terakhir adalah alumni yang bersangkutan mengambil
pengukuran tingkat akurasi masing-masing kelas reguler ataukah kelas karyawan.
algoritma klasifikasi dengan membandingkan c. Indeks Prestasi Kumulatif
hasil evaluasi dari performa menggunakan Kategori IPK pada penelitian ini adalah
confusion matrix. nilai akhir yang didapatkan oleh alumni
Dataset
dari semester pertama sampai dengan lulus
dengan skala antara 0 (nol) sampai dengan
4 (empat).
d. Lama Studi
Pre-processing

Data Cleaning
Data Preparing
New
Dataset
Pada kategori lama studi terbagi menjadi
dua kategori, yaitu ‘Tepat Waktu’ bagi
alumni yang mampu menyelesaikan
studinya maksimal 3 (tiga) tahun, serta
10 Fold Cross Validation
‘Terlambat’ apabila alumni tersebut
Model menyelesaikan studinya lebih dari 3 (tiga)
K-NN
SVM
tahun.
Decision Tree
Naive Bayes Training Testing
Data Data
K-NN
SVM
Decision Tree
Naive Bayes

Forward Selection
Evaluation

Confusion Matrix Accuracy Comparison

Gambar 2. Alur Penelitian

4. HASIL DAN PEMBAHASAN


a. Tahapan Pre-Processing Data
Pada tahapan ini, penulis melakukan
penyaringan data induk yang berasal dari data
Gambar 3. Potongan Data Alumni
akademik Politeknik Indonusa Surakarta agar
data tersebut layak untuk digunakan dalam
b. Pengujian Menggunakan RapidMiner
proses penggalian informasi khususnya pada
Tahapan berikutnya yaitu pengujian
data alumni, hasil penyaringan data yang
data alumni yang telah melalui tahapan pre-
layak diperoleh 1045 data alumni yang berasal
processing menggunakan beberapa algoritma
dari tahun 2006 sampai dengan tahun 2017,
klasifikasi data mining yang populer sehingga
adapun atribut-atribut yang akhirnya dipilih 4
didapatkan nilai akurasi tertinggi dari salah
(empat) atribut dengan 3 (tiga) variabel terikat
satu algoritma yang dipilih.
sebagai masukan (jenis kelamin, kelas, indeks
Hasil pengujian data menggunakan
prestasi kumulatif) dan satu variabel bebas
software rapidminer didapatkan seperti pada
sebagai keluaran (lama studi), adapun
Tabel 1 berikut:
perinciannya sebagai berikut :
a. Jenis Kelamin
Pada kategori jenis kelamin hanya ada dua
tipe data yaitu ‘L’ untuk alumni dengan

53
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018

Tabel 1. Hasil Pengujian Algoritma 6. REFERENSI


Menggunakan RapidMiner Carlo Vercellis, 2011, Business Intelligence:
Hasil Data Mining and Optimization for
No Model Algoritma
Akurasi Decision Making, John Wiley & Sons,
1 Decision Tree 50,24% Inc Publication
2 Decision Tree + Betha Nurina Sari, 2016, Implementasi Teknik
50,24% Seleksi Fitur Information Gain Pada
Forward Selection
3 Naïve Bayes 57,42% Algoritma Klasifikasi Machine Learning
4 Naïve Bayes + untuk Prediksi Performa Akademik
57,98% Siswa, Seminar Nasional Teknologi
Forward Selection
5 k-Nearest Neighbor (k- Informasi dan Multimedia 2016, ISSN :
59,52% 2302-3805
NN)
6 k-NN + Forward Larose T. Daniel, 2005, Discovering
58,19% Knowledge in Data: An Introduction to
Selection
7 Support Vector Data Mining, John Wiley & Sons, Inc
56,65% Publication
Machine (SVM)
8 SVM + Forward RapidMiner, 2016, RapidMiner
56,65% Documentation,
Selection
http://docs.rapidminer.com/
Rizal Amegia Saputra, 2014, Komparasi
5. KESIMPULAN DAN SARAN Algoritma Klasifikasi Data Mining untuk
a. Kesimpulan Memprediksi Penyakit Tuberculosis
Berdasarkan hasil implementasi dapat (TB): Studi Kasus Puskesmas Karawang
ditarik beberapa kesimpulan sebagai berikut : Sukabumi, Seminar Nasional Inovasi dan
1) Pengujian terhadap algoritma klasifikasi Tren (SNIT) 2014
data mining yang memiliki kinerja terbaik Sukardi, Abd Syukur, dan Catur Supriyanto,
untuk menyelesaikan masalah prediksi 2014, Klasifikasi Spam Email
masa studi mahasiswa di Politeknik Menggunakan Algoritma C4.5 dengan
Indonusa Surakarta adalah algoritma k- Seleksi Fitur, Jurnal Teknologi
Nearest Neighbor. Informasi, Volume 10 Nomor 1, April
2) Dengan penambahan teknik seleksi fitur 2014, ISSN 1414-9999
forward selection, algoritma klasifikasi Susanto, H., Sudiyatno, 2014, Data Mining
data mining yang memiliki tingkat akurasi untuk Memprediksi Prestasi Siswa
terbaik untuk menyelesaikan masalah Berdasarkan Sosial Ekonomi, Motivasi,
prediksi masa studi mahasiswa di Kedisiplinan dan Prestasi Masa Lalu,
Politeknik Indonusa Surakarta masih Jurnal Pendidikan Vokasi, Vol. 4 No. 2
dipegang oleh algoritma k-Nearest Juni 2014
Neighbor meskipun nilai akurasi yang Suyono, 2015, Analisis Regresi untuk
dihasilkan mengalami penurunan. Penelitian, Penerbit Deepublish,
Yogyakarta
b. Saran
Walaupun penelitian ini telah
menghasilkan temuan awal, penulis masih
harus mengembangkan analisis dan hasil lebih
lanjut, khususnya memperdalam analisis agar
hasil akurasi yang dihasilkan dapat meningkat
sehingga informasi yang dihasilkan dari
proses penggalian data alumni dapat
dimanfaaatkan oleh instansi yang
bersangkutan.

54

Vous aimerez peut-être aussi