Académique Documents
Professionnel Documents
Culture Documents
ANALISIS DISKRIMINAN
DISUSUN OLEH:
ANNISA SHABRINA
041614153006
041614153013
041614153018
UNIVERSITAS AIRLANGGA
MAGISTER SAINS MANAJEMEN
2017
A. Pengertian
Analisis Diskriminan adalah salah satu teknik analisis statistika dependensi yang
memiliki kegunaan untuk mengklasifikasikan objek beberapa grup. Pengelompokan dengan
analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang
merupakan variabel independen. Kombinasi linier dari variabel-variabel ini akan membentuk
suatu fungsi diskriminan. Analisis diskriminan bergantung dari data variabel independen.
Perbedaannya analisis diskriminan dan regresi linier berganda adalah analisis diskriminan
digunakan apabila variabel dependennya kategoris (menggunakan skala ordinal maupun
nominal) dan variabel independennya menggunakan skala metrik (interval dan rasio),
sedangkan regresi berganda pada variabel dependennya harus metrik dan variabel
independennya, dapat metrik maupun nonmetrik.
Dalam banyak kasus, variabel dependen terdiri dari dua grup atau klasifikasi,
misalnya, laki-laki dibandingkan perempuan atau tinggi dibandingkan rendah. Dalam kasus
lain, lebih dari dua grup terlibat seperti rendah, sedang dan klasifikasi tinggi. Analisis
diskriminan mampu menangani baik dua grup atau beberapa grup. Ketika melibatkan dua
klasifikasi maka teknik ini disebut sebagai analisis diskriminan dua grup. Ketika melibatkan
tiga atau lebih klasifikasi diidentifikasi, teknik ini disebut multiple diskriminan analisis
(MDA).
Model Analisis Diskriminan
Model analisis diskriminan adalah sebuah persamaan yang menunjukkan suatu
kombinasi linier dari berbagai variabel independen yaitu :
dimana :
Zjk
= intersep
Wi
Xik
Yang diestimasi adalah koefisien W, sehingga nilai Z setiap grup sedapat mungkin
berbeda. Ini terjadi pada saat rasio jumlah kuadrat antargrup (between group sum of squares)
terhadap jumlah kuadrat dalam grup (within-group sum of square) untuk skor diskriminan
mencapai maksimum. Berdasarkan nilai Z itulah keanggotaan dapat diprediksi.
2
Analisis diskriminan merupakan teknik statistik yang sesuai untuk menguji hipotesis
dimana rata rata grup dari dua atau lebih grup variabel independen adalah sama. Dengan
mencari rata rata skor diskriminan untuk semua individu dalam grup tertentu, akan
diperoleh rata rata grup yang disebut dengan centroid. Centroid ini menunjukkan lokasi
sejenis dari anggota di dalam suatu grup dan merupakan perbandingan centroid grup yang
menunjukkan seberapa jauh terpisah dari grup terkait dengan fungsi diskriminannya.
Tes signifikansi statistik dari fungsi diskriminan adalah ukuran umum dari jarak antar
grup centroid. Hal ini dihitung dengan membandingkan distribusi skor diskriminan untuk
grup. Jika tingkat tumpang tindih dalam distribusinya kecil maka fungsi diskriminan akan
memisahkan grup dengan baik, jika tingkat tumpang tindihnya besar maka fungsi
diskriminatornya kurang baik antara grup - grup. Dua distribusi skor diskriminan yang
ditunjukkan pada Gambar 1 menggambarkan konsep ini. Diagram atas mewakili distribusi
skor diskriminan untuk fungsi yang memisahkan menunjukkan tumpang tindih yang minimal
(daerah yang diarsir) antara grup. Diagram bawahnya menunjukkan distribusi skor
diskriminan pada fungsi diskriminan yang merupakan discriminator yang relatif tidak baik
antara grup A dan B. Daerah yang diarsir tumpang tindih mewakili contoh di mana
mengklasifikasikan objek dari grup A ke grup B, dan sebaliknya.
Jika variabel dependen terdiri dari lebih dari dua grup, analisis akan menghitung lebih
dari satu fungsi diskriminan. Berdasar fakta hal itu akan menghitung fungsi NG - 1, di mana
NG adalah jumlah grup. Tiap fungsi diskriminan akan menghitung diskriminan skor Z secara
terpisah. Dalam kasus variabel dependen tiga grup, setiap objek (perusahaan, responden, dll)
akan memiliki nilai yang terpisah untuk fungsi diskriminan satu dan dua, yang
memungkinkan objek yang akan diplot kedalam dua dimensi, dengan masing-masing dimensi
mewakili fungsi diskriminan. Dengan demikian, anaIisis diskriminan tidak terbatas pada
variat tunggal, seperti regresi berganda, tapi menciptakan beberapa variat mewakili dimensi
diskriminasi antara grup-grup.
Aplikasi dan interpretasi dari analisis diskriminan sama seperti dalam analisis regresi.
Artinya, fungsi diskriminan adalah kombinasi linear (variat) dari pengukuran metrik untuk
dua atau lebih variabel independen dan digunakan untuk menggambarkan atau memprediksi
variabel dependen tunggal. Perbedaan utamanya adalah bahwa analisis diskriminan cocok
untuk masalah penelitian dimana variabel dependen berjenis kategorikal (nominal atau
nonmetric), sedangkan regresi digunakan ketika variabel dependen adalah metrik. Seperti
yang dibahas sebelumnya, regresi logistik adalah varian dari regresi dengan banyak kesamaan
kecuali untuk jenis variabel dependen. Analisis diskriminan juga dapat dibandingkan dengan
membalik nilai multivariat analysis of varians (MANOVA). Dalam analisis diskriminan, yang
variable dependen tunggalnya berjenis kategori, dan variable independennya metrik.
Sebaliknya, MANOVA melibatkan variabel dependen berbentuk metrik dan independen
variables berbentuk kategori.
B. Contoh Hipotesis dari Analisis Diskriminan
Analisis diskriminan berlaku untuk setiap pertanyaan penelitian dengan tujuan
memahami anggota grup yaitu apakah grup terdiri dari individu (misalnya, pelanggan vs yang
bukan pelanggan), perusahaan misalnya, menguntungkan vs tidak menguntungkan), produk
(misalnya, berhasil vs tidak berhasil), atau benda lainnya yang dapat dievaluasi pada
4
pembelian. Kita harus menguji distribusi skor untuk masing-masing grup. Standar
penyimpangan besar dengan tidak ada atau kedua grup mungkin memberi perbedaan antara
rata - rata tidak signifikan dan tidak penting dalam membedakan antar grup.
Karena kita hanya memiliki 10 responden di dua grup dan tiga variabel independen,
kami juga dapat melihat data secara grafis untuk menentukan analisis diskriminan apa yang
ingin dicapai.Gambar 2 menunjukkan 10 responden pada masing-masing tiga variabel. Grup
akan membeli" diwakili oleh lingkaran dan grup "tidak akan membeli" oleh kotak. nomor
identifikasi responden berada di dalam bentuk.
Gambar 2. Hasil dari Perwakilan 10 Responden
a)
b) X2 (Kinerja) memberikan perbedaan antara dua grup yang kurang jelas. Namun, variabel
ini memberikan diskriminasi tinggi untuk responden 5, yang membuat kita salah
mengklasifikasi jika kita hanya menggunakan X1. Selain itu, responden yang akan
membuat kesalahan klasifikasi menggunakan X2akan terpisahkan dengan jelas dari X1.
Dengan demikian, menggunakan X1 dan X2 mungkin cukup efektif dalam kombinasi
c)
10
11
perangkat variable untuk dua atau lebih grup a priori signifikan secara statistik.
Menentukan manakah variabel independen yang paling memberi perbedaan dalam profil
3.
4.
12
Analisis diskriminan berguna saat peneliti tertarik dalam memahami perbedaan grup
atau mengklasifikasikan objek dengan benar pada grup atau kelasnya. Diskriminan analisis
dapat dianggap sebagai tipe analisis profil atau teknik prediksi analitik. Teknik ini yang
paling cocok pada kondisi dengan variabel independen tunggal dan beberapa variabel
independen skala metrik.
Sebagai analisis profil, analisis diskriminan bertujuan menilai perbedaan antar grup pada
set variabel independen. Pada diskriminan analisis untuk memahami perbedaan grup,
variabel individu berperan dalam mendefinisikan kombinasi pada variabel ini yang
merepresentasikan dimensi dari diskriminan antar grup. Dimensi ini adalah sebuah efek
kolektif dari beberapa variabel yang bekerja sama untuk membedakan antar grup.
Penggunaan metode estimasi sekuensial digunakan untuk mengidentifikasi sub-set
variabel dengan kemampuan discriminator yang paling baik.
Sebagai tujuan klasifikasi, analisis diskriminan menyediakan dasar klasifikasi dimana
sampel tidak hanya digunakan untuk mengestimasi fungsi diskriminan tetapi juga untuk
mengestimasi beberapa observasi lainnya yang bernilai untuk semua variabel
13
independen. Hal ini berarti bahwa analisis diskriminan dapat digunakan untuk
mengklasifikasi observasi lain ke grup yang terdefinisi.
Tahap 2 : Desain Penelitian untuk Analisis Diskriminan
Memilih Variabel Dependen dan Independen
Untuk melakukan analisis diskriminan pada awalnya peneliti harus menentukan mana
variabel yang menjadi independen dan mana yang menjadi dependen. Ingat bahwa bahwa
variabel dependen harus berbentuk nonmetrik dan variabel independen variabel
berbentuk metrik.
Variabel Dependen
Peneliti pertama kali harus fokus pada variabel dependen. Jumlah grup variabel dependen
(kategori) dapat dua atau lebih dan dua grup ini harus mutually exclusive dan exhaustive.
Artinya, masing-masing observasi ditempatkan hanya pada satu grup. Dalam beberapa kasus,
variabel independen dapat terdiri dari dua grup (dikotomik) atau beberapa grup
(multikotomik).
Memilih variabel dependen yang :
a. Paling baik dalam mewakili perbedaan grup
b. Mendefinisikan grup yang berbeda secara substansial
c. Meminimalkan jumlah kategori
Berapa banyak kategori pada variabel dependen?
Secara teori, analisis diskriminan dapat menangani jumlah kategori yang tak terbatas dari
variabel dependen. Namun secara praktek, peneliti tetap harus memilih variabel dependen
dan jumlah kategori berdasar pertimbangan berikut :
(1) Kategori variabel dependen harus berbeda dan unik pada variabel independen yang telah
dipilih. Analisis diskriminan mengasumsikan tiap grup seharusnya memiliki profil unik
pada variabel independen yang dipakai dan juga mengembangkan fungsi diskriminan
untuk memisahkan grup berdasar variabel ini secara maksimal.
(2) Peneliti juga seharusnya mengusahakan semua hal harus sama dengan jumlah kategori
pada variabel dependen yang lebih kecil dibanding yang lebih besar. Terlihat lebih logis
untuk memperluas jumlah kategori untuk mencari lebih banyak dalam mengelompokkan
yang unik, namun memperluas jumlah kategori membuat kegiatan profiling dan tugas
mengelompokkan analisis diskriminan menjadi lebih kompleks.
14
Hal ini berarti bahwa, peneliti harus menyeimbangkan keinginan untuk memperluas
kategori dengan meningkatkan keunikan dibanding meningkatkan keefektifan pada jumlah
kategori yang lebih kecil. Pemilihan variabel dependen seharusnya dilakukan dengan kategori
yang memiliki perbedaan maksimum di antara semua grup sambil mempertahankan
dukungan konsep dan relevansi manajerial.
Konversi Variabel Metrik
Kita mungkin memiliki variabel dependen yang merupakan pengukuran ordinal
atau interval yang ingin kita gunakan sebagai variabel dependen kategoris. Dalam kasus
tersebut, kita harus membuat variabel kategoris, dan dua pendekatan yang paling umum
digunakan. Pendekatan yang paling umum adalah untuk membangun kategori dengan
menggunakan skala metrik.
Seringnya, pendekatan akan menciptakan dua, tiga, atau empat kategori. Ketika tiga
atau lebih kategori diciptakan, kemungkinan timbul pemeriksaan hanya pada kelompok
ekstrim dalam analisis diskriminan dua kelompok. Dalam mengkonversi variabel metrik
menjadi nonmetric yaitu dengan mempertimbangkan penggunaan kelompok ekstrim untuk
memaksimalkan perbedaan kelompok. Pendekatan polar extremes membandingkan hanya
dua kelompok ekstrim dan termasuk kelompok menengah dari analisis diskriminan.
Pendekatan ini dapat digunakan setiap saat peneliti yang ingin meneliti hanya
kelompok ekstrim. Namun, peneliti juga mungkin ingin mencoba pendekatan ini ketika hasil
dari analisis regresi tidak sebaik yang diharapkan. Pendekatan polar extremes dengan analisis
diskriminan dapat mengungkapkan perbedaan yang tidak begitu menonjol pada analisis
regresi di keseluruhan data. Oleh karena itu, memanipulasi data secara alami akan
memerlukan peringatan dalam menginterpretasi suatu temuan.
Variabel Independen
Variabel independen biasanya dipilih dalam dua cara. Pendekatan pertama dengan
mengidentifikasi variabel baik dari penelitian sebelumnya atau dari model teoritis yang
merupakan dasar yang mendasari pertanyaan penelitian. Pendekatan kedua adalah intuisimemanfaatkan pengetahuan peneliti dan secara intuitif memilih variabel yang tidak ada
penelitian sebelumnya atau teori ada tapi itu secara logis mungkin terkait dengan
memprediksi kelompok untuk variabel dependen. Variabel independen yang paling cocok
adalah yang berbeda di seluruh paling sedikit 2 grup dari variabel dependen sehingga dapat
menunjukkan keunikan dibandingkan lainnya.
15
Sampel
Sampel terlalu kecil akan memiliki terlalu banyak samplingerror, sedangkan jika
sampel terlalu besar maka akan membuat perbedaan yang signifikan secara statistik yang tak
jarang tidak relevan dengan kondisi manajerial.
Ukuran sampel harus cukup besar untuk:
Memiliki setidaknya 100 total sampel untuk membaginya menjadi dua grup
Memiliki sampel yang cukup besar untuk embaginya menjadi estimasi dan holdout
sampel, setiap pertemuan persyaratan di atas
Variasi yang lebar pada ukuran grup akan mempengaruhi estimasi dari fungsi
b. Sampel Holdout
16
Jika ukuran sampel kecil dan matriks kovarians tidak sama, maka signifikansi statistik
dari proses estimasi terpengaruh. Semakin besar kemungkinan kasusal adalah dari
kovarianyang tidak setara antara kelompok dari ukuran sampel yang memadai,
dimana pengamatan overclassified ke dalam kelompok dengan matriks kovarians
yang lebih besar. Efek ini dapat diminimalkan dengan meningkatkan ukuran
sampel dan juga dengan menggunakan kelompok matriks kovarians khusus
untuk tujuan klasifikasi. Namun, hal ini dapat mengakibatkan cross-validation dari
hasil diskriminan.
satu variabel dapat sangat menjelaskan dan memprediksi variabel lainnya, sehingga
hal itu dapat menambah sedikit kekuatan penjelas di seluruh set. Multikolinearitas
antara variabel independen nyata dapat mengurangi perkiraan dampak variabel
independen dalam fungsi diskriminan yang berasal, terutama jika proses estimasi
bertahap digunakan. Asumsi implisit dari teknik multivariat bahwa semua hubungan
adalah linear. Hubungan nonlinear tidak dapat direfleksikan dalam fungsi
diskriminan, jika tidak maka transformasi variabel spesifik dibuat untuk
merepresentasikan efek nonlinear.
Gambar 6. Tahap 4-6 Keputusan Analisis Diskriminan
18
Simultaneous estimation
Ketika estimasi simultan digunakan, langkah-langkah dari Wilks lambda, jejak Hotelling, dan
kriteria Pillai semua mengevaluasi signifikansi statistik dari kekuatan diskriminatif dari
fungsi diskriminan.
2.
Stepwise Estimation
Jika metode stepwise digunakan untuk memperkirakan fungsi diskriminan, yang Mahalanobis
D2 dan langkah-langkah Rao s V adalah yang paling tepat. Kedua adalah ukuran jarak umum.
Signifikansi dari fungsi diskriminan individu
Peneliti tidak hanya menentukan apakah diskriminasi antar grup signifikan secara
statistik tetapi juga tiap fungsi diskriminan yang diestimasi juga signifikan secara statistik.
Dengan lebih dari dua kelompok, tidak membatasi analisis untuk fungsi diskriminan hanya
signifikan secara statistik, tapi mempertimbangkan jika fungsi tidak signifikan (dengan
tingkat signifikansi hingga 0.3) menambah kekuatan penjelas.
19
Zjk
= intersep
Wi
Xik
signifikansi
statistik.
Dengan
analisis
diskriminan
berganda,
persentase
diklasifikasikan dengan benar, juga disebut rasio hit, mengungkapkan seberapa baik fungsi
diskriminan diklasifikasikan objek. Dengan ukuran sampel yang cukup besar dalam analisis
20
diskriminan, kita bisa memiliki perbedaan signifikan secara statistik antara dua (atau lebih)
kelompok dan belum benar mengklasifikasikan hanya 53 persen.
Mengklasifikasikan Pengamatan Individu
Perhitungan Skor pemotongan
Menggunakan fungsi diskriminan dianggap signifikan, kita dapat mengembangkan
matriks klasifikasi dengan menghitung skor pemotongan untuk setiap fungsi diskriminan.
Skor pemotongan adalah kriteria terhadap skor diskriminan setiap objek dibandingkan untuk
menentukan ke dalam kelompok yang objek harus diklasifikasikan.
Mengembangkan Fungsi Klasifikasi
Seperti disebutkan sebelumnya, menggunakan fungsi diskriminan adalah hanya salah
satu dari dua pendekatan yang mungkin untuk klasifikasi. Pendekatan kedua menggunakan
fungsi klasifikasi. Dalam metode ini klasifikasi, nilai-nilai pengamatan untuk variabel
independen yang dimasukkan dalam fungsi klasifikasi dan skor klasifikasi untuk masingmasing kelompok dihitung untuk observasi itu.
Menghitung skor pemotongan optimal
Pentingnya probabilitas sebelum dapat diilustrasikan dalam perhitungan skor
pemotongan yang optimal, yang memperhitungkan probabilitas sebelum melalui penggunaan
ukuran kelompok. Rumus dasar untuk menghitung skor pemotongan yang optimal antara dua
kelompok adalah:
Dengan ukuran kelompok yang tidak sama, skor pemotongan optimal untuk fungsi
diskriminan sekarang rata-rata tertimbang dari kelompokcentroid. Skor pemotongan
tertimbang terhadap kelompok yang lebih kecil, diharapkan membuat klasifikasi yang lebih
baik dari kelompok yang lebih besar.
21
Jika kelompok ditentukan untuk menjadi ukuran yang sama, maka skor pemotongan
optimum akan setengah jalan antara centroid dua kelompok dan menjadi hanya rata-rata dari
dua centroid:
Kedua rumus untuk menghitung skor pemotongan optimal menganggap bahwa distribusi
adalah normal dan struktur dispersi kelompok yang dikenal.
Konsep skor pemotongan optimal untuk kelompok yang sama dan tidak sama masingmasing diilustrasikan pada Gambar 7 dan 8. Hal ini jelas bahwa jika kelompok A jauh lebih
kecil dari kelompok B, skor pemotongan yang optimal akan lebih dekat dengan pusat massa
dari kelompok A daripada ke pusat massa dari kelompok B. Jika skor pemotongan
unweighted digunakan, tidak ada benda-benda di grup A akan kesalahan klasifikasi, tetapi
sebagian besar dari mereka dalam kelompok B akan kesalahan klasifikasi.
Gambar 7. Optimal Cutting Scores with Equal Sample Sizes
Costs of Misclassification
22
Hasil dari prosedur klasifikasi disajikan dalam bentuk matriks, seperti yang
ditunjukkan pada Tabel 4. Entri pada diagonal matriks tersebut merupakan jumlah individu
23
yang diklasifikasikan dengan benar. Nomor dari diagonal mewakili klasifikasi yang salah.
Entri di bawah kolom berlabel "Actual Group Size" merupakan jumlah individu sebenarnya
di masing-masing pada dua kelompok. Entri di bagian bawah kolom merupakan jumlah
individu yang ditugaskan untuk kelompok dengan fungsi diskriminasi. Persentase
diklasifikasikan dengan benar untuk setiap kelompok ditampilkan di sisi kanan matrix, dan
persentase keseluruhan diklasifikasikan dengan benar, juga dikenal sebagai rasio hit,
ditampilkan di bagian bawah.
Tabel 4. Klasifikasi Matriks Analisis Diskrimina Dua Grup
Dalam contoh ini, jumlah orang yang ditugaskan untuk kelompok 1 adalah 22,
sedangkan 3 anggota kelompok 1 yang tidak benar ditugaskan untuk kelompok 2. Demikian
pula, jumlah klasifikasi yang benar untuk kelompok 2 adalah 20, dan jumlah tugas yang salah
ke grup 1 adalah 5. Jadi, persentase akurasi klasifikasi fungsi diskriminan untuk kelompok
yang sebenarnya 1 dan 2 adalah masing-masing 88 dan 80 persen. Akurasi klasifikasi
keseluruhan (rasio hit) adalah 84 persen.
Salah satu topik akhir mengenai prosedur klasifikasi adalah uji t yang tersedia untuk
menentukan tingkat signifikansi untuk akurasi klasifikasi. Rumus untuk analisis dua
kelompok (ukuran sampel yang sama) adalah
Dimana :
24
Formula ini dapat diadaptasi untuk digunakan dengan lebih kelompok dan ukuran sampel
yang tidak sama.
Menetapkan Standar Perbandingan untuk Ratio Hit
Seperti disebutkan sebelumnya, akurasi prediksi dari fungsi diskriminan diukur
dengan rasio hit yang diperoleh dari matriks klasifikasi. Peneliti mungkin bertanya, Apa yang
dianggap tingkat yang dapat diterima dari akurasi prediktif untuk fungsi diskriminan?
Misalnya, 60 persen tingkat yang dapat diterima, atau harus berharap untuk mendapatkan 80
sampai 90 persen akurasi prediksi? untuk menjawab pertanyaan ini, peneliti harus terlebih
dahulu menentukan persentase yang bisa diklasifikasikan dengan benar secara kebetulan
(tanpa bantuan fungsi diskriminan).
Standar Perbandingan Ratio Hit untuk Ukuran Equal Group. Ketika ukuran sampel dari
kelompok sama, penentuan klasifikasi kesempatan agak sederhana; diperoleh dengan
membagi 1 dengan jumlah kelompok. Rumusnya adalah:
Misalnya, untuk dua kelompok fungsi probabilitas kesempatan akan .50 ; untuk fungsi tiga
kelompok probabilitas kesempatan akan .33 ; dan seterusnya.
Standar Perbandingan Ratio Hit untuk Ukuran Grup yang Tidak Merata.
Penentuanklasifikasi kesempatan untuk situasi di mana ukuran kelompok tidak sama agak
lebih terlibat. Mari kita asumsikan bahwa kita memiliki sampel total 200 observasi dibagi
menjadi ketidaksepakatan dan analisis sampel dari 100 observasi. Dalam sampel
ketidaksepakatan, 75 mata pelajaran milik satu kelompok dan 25 yang lainnya. Kami akan
memeriksa cara yang mungkin di mana kita dapat membangun standar untuk perbandingan
dan apa yang mewakili masing-masing.
* Yang dimaksud dengan kriteria kesempatan maksimal, kita sewenang-wenang dapat
menetapkan semua mata pelajaran untuk kelompok terbesar. Kriteria kesempatan yang
maksimal sebaiknya digunakan ketika satu-satunya tujuan dari analisis diskriminan adalah
untuk memaksimalkan persentase diklasifikasikan dengan benar. Itu juga merupakan standar
yang paling konservatif karena akan menghasilkan standar tertinggi dari perbandingan.
25
Namun, kita hanya fokus pada memaksimalkan persentase yang diklasifikasikan. Biasanya
peneliti menggunakan analisis diskriminan untuk
kelompok. Dalam kasus dimana ukuran sampel yang tidak sama dan peneliti ingin
mengklasifikasikan anggota dari semua kelompok, fungsi diskriminan menentang peluang
dengan mengelompokkan subjek dalam kelompok yang lebih kecil.Kriteria kesempatan
maksimum tidak mengambil fakta ini.
Dalam contoh sederhana, dari sampel dengan dua kelompok (75 dan 25 orang), metode ini
akan digunakan untuk menetapkan 75 persen akurasi dari tiap klasifikasi, yang akan dicapai
dengan mengklasifikasikan orang ke dalam kelompok terbesar tanpa bantuan fungsi
diskriminan. Dapat disimpulkan bahwa memang fungsi diskriminan mencapai akurasi
klasifikasi yang lebih tinggi dari 75 persen, itu harus diabaikan karena belum membantu
untuk meningkatkan akurasi prediksi, kita bisa mencapai tanpa menggunakan analisis
diskriminan sama sekali.
Ketika ukuran kelompok tidak sama dan peneliti ingin mengidentifikasi anggota semua
kelompok, bukan hanya kelompok terbesar, kriteria kesempatan proporsional dianggap
pilihan yang paling tepat. Rumus untuk kriteria ini adalah :
Dimana :
Menggunakan ukuran kelompok dari contoh kita sebelumnya (75 dan 25), kita melihat bahwa
kriteria kesempatan proporsional akan 62,5 persen [0,75 2 + (1.0 -0.75)2 = 0,625]
dibandingkan dengan 75 persen. Oleh karena itu, dalam hal ini, akurasi prediksi yang
sebenarnya dari 75 persen mungkin dapat diterima karena berada di atas kriteria kesempatan
proporsional 62,5 persen.
26
tidak ada interpretasi; yaitu, perbedaan profil skor tidak akan memberikan informasi yang
berarti untuk mengidentifikasi anggota kelompok.
Ketepatan klasifikasi harus setidaknya seperempat lebih besar dari yang dicapai
secara kebetulan.Misalnya, jika akurasi kesempatan adalah 50 persen, akurasi klasifikasi
harus 62,5 persen (62,5% = 1,25 x 50%). Jika akurasi kesempatan adalah 30 persen, akurasi
klasifikasi harus 37,5 persen (37,5% = 1,25 x 30%).
Kriteria ini hanya menyediakan perkiraan kasar dari tingkat akurasi prediksi. Kriteria
ini mudah digunakan untuk menerapkan dengan kelompok-kelompok dengan ukuran yang
sama. Dengan kelompok ukuran yang tidak sama, batas atas tercapai ketika model
kesempatan maksimum digunakan untuk menentukan akurasi kesempatan.Peneliti harus
mengevaluasi rasio hit masing-masing kelompok dan menilai apakah analisis diskriminan
memberikan tingkat yang memadai akurasi prediksi baik di tingkat keseluruhan sebagai
untuk setiap kelompok.
Statistik Berdasarkan Ukuran Klasifikasi Akurasi Relatif Sampai Kesempatan.
Presss Q Statisticadalah sebuah uji statistik untuk kekuatan diskriminatif dari
matriks klasifikasi bila dibandingkan dengan model peluang. Ukuran sederhana ini
membandingkan jumlah klasifikasi yang benar dengan total ukuran sampel dan jumlah
kelompok. Nilai dihitung kemudian dibandingkan dengan nilai kritis (nilai chi-square 1 untuk
derajat kebebasan pada tingkat kepercayaan yang diinginkan). Jika melebihi nilai kritis ini,
maka matriks klasifikasi dapat dianggap lebih baik dari statistik kesempatan. Q statistik
dihitung dengan rumus berikut :
Dimana :
Tes sederhana ini sensitif terhadap ukuran sampel; sampel besar lebih mungkin untuk
menunjukkan signifikansi dari ukuran sampel kecil dari tingkat klasifikasi yang sama.
27
Sebagai contoh, jika ukuran sampel meningkat menjadi 100 pada contoh dan tingkat
klasifikasi tetap pada 84 persen, Q statistik meningkat menjadi 46,24. Jika ukuran sampel
meningkat menjadi 200, namun tetap memiliki tingkat klasifikasi 84 persen, Q statistik
meningkatkan lagi menjadi 92,48. Tetapi jika ukuran sampel hanya 20 dan tingkat kesalahan
klasifikasi masih 84 persen (17 prediksi yang benar), Q statistik hanya akan 9,8. Dengan
demikian, memeriksa Q statistik dalam peningkatanukuran sampel akan meningkatkan Q
statistik bahkan untuk tingkat klasifikasi yang sama secara keseluruhan.
Diagnostik Casewise
Sasaranakhir menilai model fit adalah untuk menguji hasil prediksi atas dasar kasus
per kasus. Serupa dengan analisis residual regresi ganda, tujuannya adalah untuk memahami
(1) kesalahan klasifikasi dan (2) tidak mewakili anggota kelompok yang tersisa. Meskipun
matriks klasifikasi memberikan akurasi klasifikasi secara keseluruhan, itu tidak detail hasil
kasus individu. Bahkan jika kita dapat menunjukkan kasus-kasus yang benar dari salah
diklasifikasikan, kita masih membutuhkan ukuran kesamaan pengamatan terhadap sisa
kelompok.
Kesalahan klasifikasi KASUS INDIVIDU.
Dalam analisis diskriminan, masalah ini sederhana karena observasi merangkum baik benar
atau salah diklasifikasikan. Semua program komputer memberikan informasi yang
mengidentifikasi kasus yang mengalami kesalahan klasifikasi dan kelompok yang mereka
masukkan dalam kesalahan klasifikasi. peneliti dapat mengidentifikasi tidak hanya kasuskasus dengan kesalahan klasifikasi, tetapi representasi langsung dari jenis kesalahan
kesalahan klasifikasi.
Profil dari Variabel Independen.
Memeriksa kasus ini pada variabel independen dapat mengidentifikasi tren nonlinear
atau hubungan lain yang patut atau atribut yang menyebabkan kesalahan klasifikasi tersebut.
Beberapa teknik yang tepat khususnya dalam analisis diskriminan:
Sebuah representasi grafis dari pengamatan pada pendekatan yang paling sederhana dan
efektif untuk memeriksa karakteristik pengamatan, terutama pengamatan kesalahan
klasifikasi. Pendekatan yang paling umum adalah untuk plot pengamatan berdasarkan
skor Z diskriminan mereka dan menggambarkan tumpang tindih antara kelompokkelompok dan kasus kesalahan klasifikasi. Jika dua atau lebih fungsi yang
mempertahankan poin pemotongan yang optimal dapat digambarkan untuk memberikan
apa yang dikenal sebagai peta territori 1 menggambarkan daerah sesuai dengan masingmasing kelompok.
28
dengan fungsi itu. Variabel bebas dengan bobot yang relatif lebih besar lebih berkontribusi
untuk kekuatan diskriminatif dari fungsi daripada variabel dengan bobot yang lebih kecil.
Tanda hanya menunjukkan kontibusi variabel baik positif atau kontribusi negatif.
Penafsiran bobot diskriminan analog dengan penafsiran bobot beta dalam analisis
regresi dan karena itu tunduk pada kritik yang sama. Misalnya, berat badan kecil mungkin
menunjukkan dengan baik bahwa variabel yang sesuai adalah tidak relevan dalam
menentukan hubungan atau yang telah parsial dari hubungan karena tingginya tingkat
multikolinearitas. Masalah lain dengan penggunaan bobot diskriminan adalah bahwa mereka
tunduk pada ketidakstabilan yang cukup.
Beban diskriminan
Beban diskriminan disebut sebagai korelasi struktur, sering digunakan sebagai dasar
untuk interpretasi karena kekurangan dalam memanfaatkan bobot. Mengukur korelasi linear
sederhana antara masing-masing variabel independen dan fungsi diskriminan, loadings
diskriminan mencerminkan varians bahwa variabel independen berbagi dengan fungsi
diskriminan. Dalam hal itu mereka dapat ditafsirkan seperti beban faktor dalam menilai
kontribusi relatif dari masing-masing variabel independen untuk fungsi diskriminan.
Salah satu karakteristik unik dari beban adalah bahwa beban dapat dihitung untuk
semua variabel, apakah mereka digunakan dalam estimasi fungsi diskriminan atau tidak.
Aspek ini sangat berguna ketika prosedur estimasi bertahap digunakan dengan beberapa
variabel yang tidak termasuk dalam fungsi diskriminan. Beban diskriminan (seperti bobot)
mungkin akan dikenakan ketidakstabilan. Beban dianggap relatif lebih valid dari bobot
sebagai sarana intepreting kekuatan diskriminatif variabel independen karena sifat
korelasional mereka.
Nilai F parsial
Seperti yang dibahas sebelumnya, dua komputasi pendekatan-simultan dan bertahapdapat dimanfaatkan untuk menurunkan fungsi diskriminan. Ketika metode stepwise dipilih,
sarana tambahan menafsirkan kekuatan diskriminatif relatif dari variabel independen tersedia
melalui penggunaan nilai F parsial, itu dilakukan dengan memeriksa ukuran absolut dari
signifikansi nilai F dan peringkat mereka. Nilai F besar menunjukkan kekuatan diskriminatif
yang lebih besar. Dalam prakteknya, peringkat menggunakan pendekatan nilai F adalah sama
dengan peringkat yang diperoleh dari menggunakan bobot diskriminan, tetapi nilai-nilai F
menunjukkan tingkat terkait signifikansi untuk masing-masing variabel.
Interpretasi Dua atau Lebih Fungsi
30
Langkah 2: Hitung indeks potensi komposit di semua fungsi yang signifikan. Setelah nilai
potensi telah dihitung untuk setiap fungsi, indeks potensi komposit untuk masing-masing
variabel dihitung sebagai:
31
Indeks potensi sekarang merupakan efek diskriminatif total variabel di semua fungsi
diskriminan signifikan. Hanya ukuran relatif, bagaimanapun, dan nilai mutlak memiliki
makna substantif. Contoh menghitung indeks potensi disediakan dalam contoh kelompok tiga
untuk analisis diskriminan.
Tampilan grafis dari Diskriminan Skor dan Beban
Untuk menggambarkan perbedaan kelompok pada variabel prediktor, peneliti dapat
menggunakan dua pendekatan yang berbeda untuk tampilan grafis, yaitu:
1. Teritorial Peta. Metode grafis yang paling umum adalah peta wilayah, di mana masingmasing pengamatan diplot dalam tampilan grafis berdasarkan skor fungsi Z diskriminan
dari pengamatan. Sebagai contoh, asumsikan bahwa analisis diskriminan tiga kelompok
memiliki dua signifikan fungsi diskriminan. Sebuah peta wilayah dibuat dengan memplot
nilai Z diskriminan setiap pengamatan untuk fungsi diskriminan pertama pada sumbu X
dan skor untuk fungsi diskriminan kedua pada sumbu Y.
Dengan demikian, territorial peta menyediakan beberapa perspektif tentang analisis:
Merencanakan anggota masing-masing kelompok dengan simbol yang berbeda
memungkinkan untuk penggambaran mudah dari kekhasan kelompok serta tumpang tindih
dengan kelompok lainnya.
Merencanakan centroid setiap kelompok dengan menyediakan sarana untuk menilai
setiap anggota kelompok relatif massa kelompoknya. Prosedur ini sangat berguna ketika
menilai apakah tindakan Mahalanobis D2 yang besar bisa menyebabkan kesalahan
klasifikasi.
Garis mewakili nilai pemotongan juga bisa diplot, yang menunjukkan batas-batas
epicting rentang skor diskriminan yang diprediksi dalam setiap kelompok. Anggota setiap
kelompok yang sakit ada di luar batas-batas kesalahan klasifikasi.
2. Vektor Plot diskriminan muat. Pendekatan grafis sederhana untuk menggambarkan beban
diskriminan adalah untuk merencanakan beban diputar atau unrotated sebenarnya pada
grafik. Pendekatan yang disukai akan merencanakan beban diputar. Mirip dengan
penggambaran grafis dari faktor loadings, metode ini menggambarkan sejauh mana masingmasing variabel berhubungan dengan masing-masing fungsi diskriminan.Bahkan lebih akurat
pendekatan, bagaimanapun, perencanaan beban serta vektor menggambarkan setiap bongkar
untuk kelompok massa. Sebuah vektor hanyalah garis lurus yang ditarik dari asalnya
(tengah) dari grafik untuk koordinat beban diskriminan variabel tertentu atau centroid
kelompok. Dengan representasi vektor membentang, panjang setiap vektor menjadi indikasi
32
Dimana :
Sebagai contoh, asumsikan bahwa sampel 50 pengamatan dibagi menjadi tiga kelompok.
Multiplier setiap eigen akan (50-3): (3 - 1) = 23,5
Ketika selesai, peneliti memiliki gambaran dari pengelompokan variabel pada setiap
fungsi diskriminan, besarnya pentingnya setiap variabel (diwakili oleh panjang setiap vektor),
dan profil masing-masing centroid kelompok (ditunjukkan oleh kedekatan vektor). Meskipun
prosedur ini harus dilakukan secara manual dalam kebanyakan kasus, ia menyediakan
gambaran lengkap dari kedua beban diskriminan dan centroid kelompok. Untuk rincian lebih
lanjut tentang prosedur ini, lihat Dillon dan Goldstein.
Tahap 6: Validasi Hasil
Tahap akhir dari analisis diskriminan melibatkan validasi hasil diskriminan untuk
memberikan jaminan bahwa hasil memiliki validitas eksternal maupun internal. Dengan
kecenderungan analisis diskriminan untuk mengembang rasio hit jika dievaluasi hanya pada
sampel analisis,. Selain memvalidasi rasio hit, peneliti harus menggunakan identifikasi
terhadap grup untuk memastikan bahwa cara kelompok merupakan indikator yang valid dari
model konseptual yang digunakan dalam memilih variabel independen.
33
Prosedur validasi
Validasi merupakan langkah penting dalam analisis diskriminan karena berkali-kali, terutama
dengan sampel yang lebih kecil, hasilnya bisa kurang tergeneralisasi (validitas eksternal).
Pendekatan yang paling umum untuk membangun validitas eksternal adalah penilaian rasio
hit. Validasi dapat terjadi baik dengan sampel terpisah (ketidaksepakatan sampel) atau
memanfaatkan prosedur yang berulang dalam memproses sampel estimasi.
Memanfaatkan Sampel
Validasi rasio hit sering dilakukan dengan menciptakan sampel ketidaksepakatan, juga
disebut sebagai sampel validasi. Tujuan dari menggunakan sampel ketidaksepakatan untuk
tujuan validasi adalah melihat seberapa baik fungsi diskriminan bekerja pada sampel
pengamatan yang tidak digunakan untuk menurunkan fungsi diskriminan. Proses ini
melibatkan pengembangan fungsi diskriminan dengan sampel analisis dan kemudian
menerapkannya pada ketidaksepakatan sampel.
Lintas Validasi
Pendekatan cross-validasi untuk menilai validitas eksternal dilakukan dengan beberapa subset
dari total sampel. Cross-validasi didasarkan pada prinsip "meninggalkan-satu-out".
Penggunaan yang paling umum dari metode ini adalah untuk memperkirakan k - 1.
Subsamples, menghilangkan satu pengamatan pada suatu waktu dari sampel kasus k. Fungsi
diskriminan dihitung untuk setiap sub-sampel dan kemudian kelompok aanggota prediksi
pengamatan dihilangkan dibuat dengan fungsi diskriminan diperkirakan pada kasus yang
tersisa. Setelah semua prediksi keanggotaan kelompok telah dibuat, satu per satu, matriks
klasifikasi dibangun dan rasio hit dihitung. Cross-validasi cukup sensitif terhadap ukuran
sampel yang kecil. Pedoman menyarankan bahwa itu digunakan hanya ketika ukuran
kelompok terkecil setidaknya tiga kali jumlah variabel prediksi, dan kebanyakan peneliti
menyarankan rasio 5: 1. Namun, cross-validasi mungkin merupakan satu-satunya pendekatan
validasi dalam kasus di mana sampel asli terlalu kecil untuk membagi ke dalam analisis dan
ketidaksepakatan sampel tapi masih melebihi batasan yang sudah dibahas.
Perbedaan Profil Grup
Teknik validasi lain adalah untuk profil kelompok pada variabel independen dalam
memastikan korespondensi mereka dengan basis konseptual yang digunakan pada formulasi
model. Setelah peneliti mengidentifikasi variabel independen yang membuat kontribusi
terbesar dalam membedakan antara kelompok, langkah berikutnya adalah membuat
karakteristik kelompok berdasarkan kelompok berarti. Profil ini memungkinkan peneliti
untuk memahami karakter masing-masing kelompok sesuai dengan variabel prediktor.
34
35