Académique Documents
Professionnel Documents
Culture Documents
Abstrak
Berlimpahnya data mahasiswa dan data jumlah kelulusan mahasiswa, informasi yang
tersembunyi dapat diketahui dengan cara melakukan pengolahan terhadap data mahasiswa sehingga
berguna bagi pihak perguruan tinggi. Pengolahan data mahasiswa perlu dilakukan untuk
mengetahui informasi penting berupa pengetahuan baru (knowledge discovery), misalnya informasi
mengenai pengklasifikasian data mahasiswa berdasarkan profil dan data akademik. Pengetahuan
baru tersebut dapat membantu pihak perguruan tinggi untuk melakukan klasifikasi mengenai
tingkat kelulusan mahasiswa guna menentukan strategi untuk meningkatkan kelulusan pada tahun-
tahun berikutnya.
Diketahui bahwa Politeknik Indonusa Surakarta belum memanfaatkan database tersebut dan
dalam menentukan prediksi kelulusan masih menggunakan metode manual dengan tingkat
subyektifitas yang tinggi. Algoritma klasifikasi data mining dapat diusulkan sebagai salah satu
pendekatan yang dapat dilakukan untuk memprediksi masa studi mahasiswa berdasarkan data
akademik mahasiswa yang tersedia. Implementasi seleksi fitur forward selection pada algoritma
klasifikasi bertujuan untuk mencari atribut-atribut yang signifikan dalam prediksi masa studi serta
menghilangkan atribut-atribut yang tidak signifikan, sehingga dapat meningkatkan akurasi hasil
penghitungan.
Hasil penelitian didapat bahwa algoritma k-nearest neighbor menunjukkan nilai akurasi
tertinggi dibandingkan algoritma klasifikasi data mining yang lain, yaitu sebesar 59,52% (tanpa
tambahan seleksi fitur forward selection) dan 58,19% (menggunakan tambahan seleksi fitur
forward selection).
Kata Kunci : data mining, algoritma klasifikasi, seleksi fitur, masa studi
49
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018
tinggi untuk melakukan klasifikasi mengenai memiliki nilai AUC rata-rata antara 0,9-1,0
tingkat kelulusan mahasiswa guna dan ini termasuk klasifikasi sangat baik.
menentukan strategi untuk meningkatkan Rizal Amegia Saputra (2014) dalam
kelulusan pada tahun-tahun berikutnya. penelitian “Komparasi Algoritma Klasifikasi
Betha Nurina Sari (2016) dalam Data Mining untuk Memprediksi Penyakit
penelitiannya yang berjudul “Implementasi Tuberculosis (TB): Studi Kasus Puskesmas
Teknik Seleksi Fitur Information Gain Pada Karawang Sukabumi” membandingkan
Algoritma Klasifikasi Machine Learning beberapa metode klasifikasi data mining,
untuk Prediksi Performa Akademik Siswa” diantaranya yaitu Algoritma C4.5, Naïve
berpendapat bahwa masalah utama dalam Bayes, Neural Network, dan Logistic
dalam proses discovering knowledge dari data Regression, keempat metode tersebut
di bidang pendidikan adalah mengidentifikasi digunakan dalam memprediksi diagnosis
data yang representatif. Penelitian ini penyakit TB dengan tujuan agar algoritma
diterapkan pada beberapa algoritma klasifikasi terpilih merupakan algoritma yang paling
machine learning, yaitu Decision Tree, akurat sehingga dapat melakukan diagnosa
Random Forest, ANN, SVM, dan Naïve Bayes penyakit TB secara dini, ke empat metode
agar bisa dilakukan komparasi performa dari tersebut merupakan sepuluh klasifikasi data
hasil klasifikasi sebelum dan sesudah mining paling popular. Hasil evaluasi dan
dilakukan seleksi fitur pada data akademik validasi, diketahui bahwa Naïve Bayes
siswa. Adapun kesimpulan yang didapatkan memiliki nilai accuracy dan AUC paling
dari penelitian adalah bahwa dengan tinggi diantara metode yang dikomprasikan,
implementasi teknik pemilihan fitur diikuti oleh algoritma C4.5, neural network,
information gain dapat mempengaruhi tingkat dan logistic regression memiliki akurasi yang
akurasi algoritma klasifikasi machine learning paling rendah.
(J48, Random Forest, MLP, SVM (SMO), dan Pada penelitian ini penulis bermaksud
Naïve Bayes) untuk memprediksi performa melakukan implementasi teknik seleksi fitur
akademik siswa pada mata pelajaran forward selection pada algoritma klasifikasi
matematika. data mining untuk mendapatkan hasil
Sukardi, Abd Syukur, dan Catur pengujian algoritma terbaik dalam mengolah
Supriyanto (2014) dalam penelitian mereka informasi data akademik mahasiswa serta
yang berjudul “Klasifikasi Spam Email mengidentifikasi atribut-atribut dominan yang
Menggunakan Algoritma C4.5 dengan Seleksi mempengaruhi masa studi mahasiswa
Fitur” mengungkapkan spam messages khususnya di Politeknik Indonusa Surakarta.
membanjiri internet dengan mengirimkan
salinan pesan-pesan yang sama untuk
memaksa agar pesan-pesan tersebut sampai 2. TINJAUAN PUSTAKA
kepada pemakai yang tidak memilih untuk a. Data Mining
menerimanya. Akibatnya banyak pemakai Data mining adalah ekstraksi informasi
yang merasa terganggu oleh banyaknya waktu atau pola yang penting atau menarik dari data
yang dihabiskan untuk menghapus pesan yang ada di database yang besar (Sudiyatno
spam, besarnya biaya yang harus dikeluarkan, dan Susanto, 2014). Data mining adalah
dan besarnya bandwidth jaringan. Hasil serangkaian proses untuk menggali nilai
eksperimen ditarik kesimpulan bahwa tambah berupa informasi yang selama ini
algoritma algoritma C4.5 dengan tidak diketahui secara manual dari suatu basis
menggunakan tiga model kriteria yakni gain data dengan melakukan penggalian pola-pola
ratio, information gain dan gini index, hasil dari data dengan tujuan untuk memanipulasi
akurasi yang paling tinggi terdapat pada data menjadi informasi yang lebih berharga
model kriteria gini index yakni 92,18%. yang diperoleh dengan cara mengekstraksi
Selanjutnya model kriteria gini index dan mengenali pola yang penting atau
dilakukan seleksi fitur chi square, information menarik dari data yang terdapat dalam basis
gain, information gain ratio dan untuk data.
meningkatkan hasil akurasi. Hasil yang paling Alasan utama mengapa data mining
tinggi dari ketiga seleksi fitur yakni sangat menarik perhatian industri informasi
information gain ratio dengan nilai p=0,6 dan dalam beberapa tahun belakangan ini adalah
hasil akurasinya menjadi 92,46. Serta karena tersedianya data dalam jumlah yang
50
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018
besar dan semakin besarnya kebutuhan untuk suatu instans baru ke dalam kelas (atau
mengubah data tersebut menjadi informasi kategori) yang paling mungkin.
dan pengetahuan yang berguna karena sesuai f. Genetic Algorithms (Algoritma Genetik)
fokus bidang ilmu ini yaitu melakukan Penggunaan analogi terhadap evolusi alami
kegiatan mengekstraksi atau menambang untuk membuat mekanisme berbasis
pengetahuan dari data yang berukuran / pencarian yang terarah untuk
berjumlah besar, informasi inilah yang mengklasifikasikan sampel-sampel data.
nantinya sangat berguna untuk
pengembangan. c. Seleksi Fitur Forward Selection
Seleksi fitur adalah proses memilih fitur
b. Algoritma Klasifikasi yang tepat untuk digunakan dalam proses
Sejumlah teknik atau algoritma yang klasifikasi atau clustering. Tujuan dari seleksi
digunakan untuk pemodelan pada klasifikasi fitur ini adalah untuk mengurangi tingkat
antara lain adalah seperti berikut : kompleksitas dari sebuah algoritma
a. Decision Tree Analysis (Analisa Pohon klasifikasi, meningkatkan akurasi dari
Keputusan) algoritma klasifikasi tersebut, dan mampu
Decision tree analysis (atau analisa pohon mengetahui fitur-fitur yang paling
keputusan adalah suatu teknik yang berpengaruh terhadap tingkat akurasi.
termasuk keluarga machine-learning) bisa Dalam metode forward selection,
dibilang teknik klasifikasi yang paling pemodelan dimulai dari nol peubah (empty
popular pada area data mining. model), kemudian satu persatu peubah
b. Statistical Analysis (Analisa Statistik) dimasukan sampai kriteria tertentu dipenuhi.
Teknik-teknik statistik pada awalnya Langkah-langkah metode forward selection
adalah algoritma klasifikasi yang populer adalah sebagai berikut (Suyono, 2015):
selama bertahun-tahun sampai dengan Metode forward selection adalah
kemunculan teknik-teknik ‘machine- pemodelan dimulai dari nol peubah (empty
learning’. Teknik-teknik klasifikasi model), kemudian satu persatu peubah
statistik antara lain ‘logistic regression’ dimasukan sampai kriteria tertentu dipenuhi.
(regresi logistik) dan discriminant analysis Langkah-langkah metode forward selection
(analisa diskriminan), keduanya berasumsi adalah sebagai berikut (Draper dan Smith,
bahwa hubungan antara variabel input dan 1992) :
output pada dasarnya adalah linear, data a. Gunakan regresi linier sederhana
terdistribusi normal, dan variabel-variabel Y = β0 + β1 X + ε
tidak saling terkait dan tidak tergantung …………………..…..(2.1)
satu sama lain. Sifat-sifat dasar asumsi terhadap semua variabel independen (X1,
yang diragukan ini akhirnya membawa X2,…, Xi) untuk mengetahui seberapa besar
pergeseran ke arah teknik-teknik ‘machine- pengaruh dari setiap variabel independen.
learning’. Uji hipotesis H0 : β1 = 0 lawan H0 : β1 ≠ 0
c. Neural Networks (Jaringan Syaraf Tiruan) dengan menggunakan uji t. Variabel
Ini adalah salah satu diantara teknik-teknik independen yang memberi nilai t paling
dalam ‘machine-learning’ yang paling besar diambil sebagai X1 asalkan H0
popular yang bisa digunakan untuk ditolak. Jika H0 diterima proses selesai.
problem-problem klasifikasi. b. Gunakan regresi linier dengan dua variabel
d. Case-Based Reasoning (Penalaran independen
Berbasis Kasus) Y = β0 + β1 X1+ β2 X2 +
Pendekatan ini menggunakan kasus ε……………....(2.2)
historis untuk mengenali berbagai dimana untuk variabel independen yang
kesamaan untuk menentukan suatu kasus kedua diambil dari variabel independen
baru ke dalam kategori yang paling yang tersisa. Uji hipotesis H0 : β2 = 0 lawan
mungkin. H0 : β2 ≠ 0 dengan menggunakan uji t.
e. Bayesian Classifiers (Klasifikasi Bayesian) Variabel yang memberi nilai t terbesar
Pendekatan ini menggunakan teori diambil sebagai X2 asalkan H0 ditolak. Jika
probabilitas untuk membuat model-model H0 diterima proses selesai.
klasifikasi berdasarkan kejadian-kejadian c. Gunakan regresi linier dengan tiga variabel
di masa lalu yang bisa untuk menempatkan independen
51
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018
52
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018
Pada tahap pertama yaitu pre- jenis kelamin laki-laki, sedangkan ‘P’
processing dengan tahapan data cleaning dan untuk alumni dengan jenis kelamin
data preparing pada dataset sampel sehingga perempuan.
diperoleh dataset baru. Tahapan selanjutnya b. Kelas
pengujian dataset dengan teknik 10 fold cross Kelas yang dimaksud dalam kategori ini
validation pada algoritma klasifikasi data adalah pada saat mendaftar sebagai
mining serta implementasi teknik seleksi fitur mahasiswa baru kemudian mengikuti
forward selection pada masing-masing kegiatan perkuliahan sampai dengan lulus,
algoritma klasifikasi. Tahap terakhir adalah alumni yang bersangkutan mengambil
pengukuran tingkat akurasi masing-masing kelas reguler ataukah kelas karyawan.
algoritma klasifikasi dengan membandingkan c. Indeks Prestasi Kumulatif
hasil evaluasi dari performa menggunakan Kategori IPK pada penelitian ini adalah
confusion matrix. nilai akhir yang didapatkan oleh alumni
Dataset
dari semester pertama sampai dengan lulus
dengan skala antara 0 (nol) sampai dengan
4 (empat).
d. Lama Studi
Pre-processing
Data Cleaning
Data Preparing
New
Dataset
Pada kategori lama studi terbagi menjadi
dua kategori, yaitu ‘Tepat Waktu’ bagi
alumni yang mampu menyelesaikan
studinya maksimal 3 (tiga) tahun, serta
10 Fold Cross Validation
‘Terlambat’ apabila alumni tersebut
Model menyelesaikan studinya lebih dari 3 (tiga)
K-NN
SVM
tahun.
Decision Tree
Naive Bayes Training Testing
Data Data
K-NN
SVM
Decision Tree
Naive Bayes
Forward Selection
Evaluation
53
Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 4 Nomor 2 Tahun 2018
54