Académique Documents
Professionnel Documents
Culture Documents
ABSTRACT
Good classification method should give the least misclassification rates. The Logistic
Regression and Multivariate Adaptive Regression Spline (MARS) model was some of
classification method which often used when there were any categorical variable of
response, wanted to be predicted with categorical or continous type of predictor
variable. This research aim to get the best model among the two on classification, taking
the case of study of household preference on clothing shopping place in Kediri, and its
influencing variables, based on 2012s Cost of Living Surveys (SBH). Method
performance is measured by its accuracy rate, Noise Signal Ratio (NSR) and G-Mean
from classification table. The classification using logistic regression shows that
response variable were only influenced by household income, numbers of household
member, the education level of household leader, car ownership, the source of
household income, and nod food expenditure percentage. Meanwhile, the result given
by MARS added two more influenced variables named the age of household leader and
housing ownership statuses. The accuracy rate, NSR, and G-mean performance gained
by MARS method reached consecutively 71.2, 26.2, and 60.6 percent, Meanwhile the
same results by Logistic Regression consecutively shows only 70.6, 30.3, and 36.3
percent. It was lead to the conclusion that in this case of study, classification using
MARS performs better than Logistic Regression.
PENDAHULUAN
Pasar sebagai salah satu fasilitas perbelanjaan selama ini sudah menyatu dan
memiliki tempat penting dalam kehidupan masyarakat. Pasar atau tempat berbelanja
barang dapat dibedakan menjadi dua, yaitu pasar modern dan bukan pasar modern.
Pasar modern yang dimaksud disini adalah yang terdiri dari Supermarket, Hypermarket,
Minimarket, Swalayan dan Depertement Store, sedangkan yang dikategorikan bukan
pasar modern yaitu pasar tradisional, toko/warung, pedagang keliling dan lainnya.
38
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
39
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
Regresi Logistik
Analisis regresi logistik adalah analisis yang digunakan untuk melihat hubungan
antara variabel respon kategorik dengan variabel-variabel prediktor kategorik maupun
kontinyu (Agresti, 2002). Regresi logistik dapat digunakan untuk pengklasifikasian
sejumlah objek ke dalam dua kelompok, karena variabel respon (Y) hanya terdiri dari
dua kategori (misal: 1 dan 0).
Bentuk umum fungsi regresi logistik dengan k variabel prediktor diformulasikan
exp( 0 1 x1 2 x2 ... k xk )
sebagai berikut: ( x) , i = Nilai
1 exp( 0 1 x1 2 x2 ... k xk )
( x)
dan Lameshow, 2000): g ( x) ln 0 1 x1 2 x2 ... k xk
1 ( x )
Pendugaan Parameter
Model regresi logistik dengan variabel respon bernilai 0 atau 1 dimana antar
pengamatan diasumsikan saling bebas maka penduga parameter diperoleh dengan
metode Maximum Likelihood Estimation (MLE). Pada dasarnya prinsip dari pendugaan
maksimum likelihood adalah dengan mencari nilai dari dengan memaksimumkan
nilai dari fungsi likelihood L( 0 , 1 ,..., k ) . Karena setiap pengamatan diasumsikan
saling bebas, maka fungsi likelihood merupakan fungsi kepadatan gabungan yaitu:
ditulis menjadi:
n
ln[ L( )] yi ( 0 1 xi1 ... k xik ) ln(1 exp( 0 1 xi1 ... k xik )) 1 .
i 1
40
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
n
diperoleh sama dengan nol, dengan demikian diperoleh: [ y
i 1
i (xi )] 0dan
y x
i 1
i ij xij ( xi ) 0 dengan j = 1,2,..., k. Hasil dari turunan pertama biasanya
dimasukkan dalam sebuah vektor, yang disebut vector gradient (g ) . Sedangkan turunan
kedua hasilnya dimasukkan dalam matriks yang disebut matriks Hessian (H ) , dengan
2 L( 0 , 1 ,..., k )
i 1 xij xiw ( xi )(1 ( xi )) ,
n
bentuk umum turunannya adalah:
j w
a. Uji Serentak
Adapun hipotesis yang digunakan dalam pengujian ini adalah:
H 0 : 1 2 ... k 0 H1 : Paling sedikit ada satu j 0 , dengan j = 1,2,..., k.
L
Statistik Uji-G dirumuskan sebagai: G 2 ln 0
L1
dimana L0 Penduga likelihood tanpa variabel prediktor
b. Uji Parsial
j
Statistik uji Wald dirumuskan sebagai berikut: W ; j 0,1, 2,..., k
SE ( j )
dugaan galat baku untuk parameter j . Jika nilai Pvalue atau W j2 (2 ,1) dimana
adalah taraf signifikansi atau tingkat kesalahan yang ditentukan, maka variabel
prediktor mempengaruhi variabel respon.
41
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
Interpretasi model regresi logistik dilakukan dengan melihat nilai odds ratio
(OR) pada masing-masing variabel dengan menganggap variabel lain konstan, OR
didefinisikan sebagai pembanding antara dua nilai logit pada X = 1 dan X = 0, maka:
exp( 0 j ) 1
(1) / [1 (1)] 1 exp( 0 j ) 1 exp( 0 ) exp( 0 j )
OR exp( j )
(0) / [1 (0)] exp( 0 ) 1 exp( 0 )
1 exp( ) 1 exp( )
0 0 j
Pada dasarnya MARS merupakan kombinasi yang kompleks dari Spline dan
Recursive Partitioning Regression (RPR). Menurut Dillon (1978) dan Sharma (1996)
metode MARS merupakan salah satu metode untuk klasifikasi statistik modern yang
sudah memanfaatkan fleksibilitas model dan menduga suatu distribusi di dalam masing-
masing kelas yang pada akhirnya menyediakan suatu aturan pengelompokan. Untuk
stepwise. Pemilihan model yang paling optimum (terbaik) dalam model MARS yaitu
jika nilai GCV dari model tersebut mempunyai nilai GCV yang paling rendah
M Km
model MARS adalah sebagai berikut: f ( x) a0 am [ skm .( xv ( k ,m ) tkm )] i
m 1 k 1
M Km
yi a0 am Bm ( x) i dimana, Bm ( x) [ skm ( xv ( k ,m ) tkm )]
m 1 m 1
42
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
METODE
Data yang akan digunakan dalam penelitian ini adalah data skunder dari Badan
Pusat Statistik (BPS) mengenai data rumah tangga hasil Survei Biaya Hidup tahun 2012
(SBH 2012) di Kota Kediri, dengan jumlah sampel rumah tangga SBH 2012 sebanyak
1.600 rumah tangga. Unit observasi/analisis dari penelitian ini adalah rumah tangga.
Dari data ini kemudian diolah menggunakan program SPSS 20 dan paket MARS 2.0.
Dalam penelitian ini variabel-variabel yang diduga berhubungan atau
berpengaruh terhadap tempat berbelanja barang kebutuhan sandang rumah tangga (Y) di
Kota Kediri tahun 2012 adalah variabel pendapatan rumah tangga (X1), umur kepala
rumah tangga (X2), banyaknya anggota rumah tangga (X3), jenis kelamin kepala rumah
tangga (X4), pendidikan terakhir kepala rumah tangga (X5), status penguasaan bangunan
tempat tinggal (X6), kepemilikan mobil (X7), sumber pendapatan utama rumah tangga
(X8) dan persentase pengeluaran untuk kelompok non makanan (X9).
Untuk mencapai tujuan dari penelitian ini maka dilakukan langkah-langkah
sebagai berikut:
1. Pemisahan data penelitian menjadi 2 bagian, yaitu data training (sebanyak 1.440
rumah tangga) dan testing (sebanyak 160 rumah tangga) untuk validasi.
2. Untuk mendapatkan model dengan regresi logistik tahapannya sebagai berikut:
a. Mendefinisikan variabel respon dan prediktor dalam pembentukan model.
b. Menduga parameter model dengan menggunakan MLE.
c. Melakukan uji simultan dengan menggunakan statistik uji-G.
d. Melakukan uji parsial dengan menggunakan statistik uji wald.
e. Dari langkah (a) sampai dengan (d) dapat diketahui variabel-variabel prediktor
(X) apa saja yang mempengaruhi variabel respon (Y).
f. Menginterpretasikan model.
3. Untuk mendapatkan model dengan MARS, dilakukan tahapan sebagai berikut:
a. Mendefinisikan variabel respon (Y) dan variabel prediktor (X).
b. Menentukan model terbaik, diperoleh dengan cara trial and error sampai
didapatkan model dengan nilai GCV minimum. Tahapannya sebagai berikut:
Menentukan maksimum fungsi basis (BF) yaitu 2 sampai 4 kali banyaknya
variabel prediktor.
Menentukan jumlah maksimum interaksi (MI) yaitu 1, 2, dan 3.
43
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
44
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
Dari output SPSS diperoleh nilai Exp(B) atau nilai Odds Ratio (OR) untuk (X1),
(X3), (X5(1)), (X5(2)), (X8) dan (X9) masing-masing sebesar: 1,000, 0,914, 0,466, 0,621,
0,445, 0763 dan 1,000 dapat diambil kesimpulan sebagai berikut:
o Variabel X1, dengan nilai OR=1,000: Jika pendapatan rumah tangga bertambah 1
rupiah, maka kecenderungan rumah tangga tersebut berbelanja di pasar modern
berlipat sebanyak 1,000 kali dengan asumsi variabel lainnya konstan.
o Variabel X3, dengan nilai OR=0,914: Jika banyaknya anggota rumah tangga
bertambah 1 orang, maka kecenderungan rumah tangga tersebut berbelanja di
pasar modern berlipat sebanyak 0,914 kali atau menurun sebesar (1/0,914) 1,09
kali dengan asumsi variabel lainnya konstan.
o Variabel X9, dengan nilai OR=1,000: Jika rumah tangga persentase pengeluaran
untuk kelompok non makanan bertambah 1 persen, maka kecenderungan rumah
tangga tersebut berbelanja di pasar modern berlipat sebanyak 1,000 kali dengan
asumsi variabel lainnya konstan.
Pembentukan model MARS dilakukan dengan cara trial and error terhadap
maksimum Basis Fungsi (BF), Maksimum Interaksi (MI), dan minimum jumlah
pengamatan diantara knot atau Minimum Observasi (MO) sampai diperoleh model
optimal dengan nilai GCV dan MSE minimum. Dari cara trial and error terhadap
kombinasi antara BF, MI dan MO, Maka diperoleh model yang terbaik adalah model
35. Model MARS yang terbentuk memiliki nilai GCV dan MSE terkecil sebesar 0,202
dan 0,194 dengan 8 variabel prediktor yang berpengaruh terhadap tempat berbelanja
barang kebutuhan sandang rumah tangga di Kota Kediri, tingkat ketepatan klasifikasi
data training sebesar 70,56 persen, dan setelah divalidasi dengan data testing naik
menjadi 71,2 persen, nilai NSR dan G-Mean sebesar 26,2 persen dan 60,6 persen.
Model 35 ini merupakan kombinasi antara BF=36, MI=3, dan MO=2. Sehingga
persamaan model MARS adalah sebagai berikut:
Y = 0,764 0,868E-07*BF2 + 0,427E-08* BF6 + 0,424E-07*BF7 0,162E-07*BF9
0,241E-07*BF13 + 0,017*BF22 0,448E-07*BF26 + 0,217E-07*BF29
0,116E-07*BF30 0,008*BF36
dimana,
45
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
46
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
berbelanja barang kebutuhan sandang di pasar modern sebesar 0,008 dengan rata-
rata umur kepala rumah tangga (X2) lebih dari dari 52 tahun.
KESIMPULAN
1. Dari hasil klasifikasi dengan model regresi logistik didapatkan hanya 6 variabel
yang mempengaruhi tempat berbelanja barang kebutuhan sandang rumah tangga di
Kota Kediri yaitu: (X1), (X3), (X5), (X7), (X8) dan (X9). Model regresi logistik yang
diperoleh adalah sebagai berikut:
g ( x) 0,989 0, 000 X 1 0, 089 X 3 0, 764 X 5 (1) 0, 476 X 5 (2) 0,811X 7 (1) 0, 270 X 8 (1) 0, 000 X 9
Sedangkan dari hasil klasifikasi dengan model MARS variabel prediktor yang
berpengaruh bertambah menjadi 8 variabel yaitu: (X1),(X2),(X3),(X5),(X6),(X7),(X8)
dan (X9). Model MARS yang diperoleh sebagai berikut:
Y = 0,764 0,868E-07*BF2 + 0,427E-08* BF6 + 0,424E-07*BF7 0,162E-
07*BF9
0,241E-07*BF13 + 0,017*BF22 0,448E-07*BF26 + 0,217E-07*BF29
0,116E-07*BF30 0,008*BF36
Dengan:
BF2 = max(0, 6788333.000 - PENDAPAT) BF3 = ( MOBIL = 0)*BF2
47
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
DAFTAR PUSTAKA
Agresti, A, (2002), Categorical Data Analysis, John Wiley & Sons, Hoboken, New
Jersey.
BPS, (2012), Pedoman Survei Biaya Hidup 2012, Badan Pusat Statistik, Jakarta.
48
Seminar Nasional Sains & Teknologi V
Lembaga Penelitian Universitas Lampung
19-20 November 2013
Hosmer, D.W., dan Lemeshow, S., (2000), Applied Logistic Regression, Second
Edition, John Wiley and Sons.
Kubat, M., dan Matwin, S., (1997), Addressing the Curse of Imbalanced Training Sets:
One-Sidded Selection, in Proc.of the 14th Intl. Conf.on Machine Learning, Hlm.
179-186.
Sharma, S, (1996), Applied Multivariate Techniques, Jhon Wiley and Sons, inc, New
York.
49