Académique Documents
Professionnel Documents
Culture Documents
Reliabilitas
Mehrens & Lehman (1973: 102) menyatakan bahawa reliabilitas merupakan derajat
keajegan (consistency) diantara dua buah hasil pengukuran pada objek yang sama. Definisi
ini dapat diilustrasikan dengan seseorang yang diukur tinggi badannya akan diperoleh hasil
yang tidak berubah walaupun menggunakan alat pengukur yang berbeda dan skala yang
berbeda. Dalam kaitannya dengan dunia pendidikan, prestasi atau kemampuan sesorang siswa
dikatakan reliabel jika dilakukan pengukuran, hasil pengukuran akan sama informasinya,
walaupun penguji berbeda, korektornya berbeda atau butir soal yang berbeda tetapi memiliki
karakteristik yang sama.
Allen & Yen (1979:62) menyatakan bahwa tes dikatakan reliabel jika skor amatan
mempunyai korelasi yang tinggi dengan skor sebenarnya. Selanjutnya dinyatakan bahwa
reliabilitas merupakan koefisien korelasi antara dua skor amatan yang diperoleh dari hasil
pengukuran menggunakan tes yang paralel. Dengan demikian, pengertian yang dapat
diperoleh dari pernyataan tersebut adalah suatu tes itu reliabel jika hasil pengukuran medekati
keadaan peserta tes yang sebenarnya.
Dalam pendidikan, pengukuran tidak dapat langsung dilakukan pada ciri atau karakter
yang akan diukur. Ciri atau karakter ini bersifat abstrak. Hal ini menyebabkan sulitnya
memperoleh alat ukur yang stabil untuk mengukur karakteristik seseorang (Mehrens &
Lehman, 1973: 103).
Berdasarkan uraian di atas, maka dalam pembuatan alat ukur dalam dunia pendidikan
harus dilakukan secermat mungkin dan disesuaikan dengan kaidah-kaidah yang telah
ditentukan oleh ahli-ahli pengukuran di bidang pendidikan. Untuk melihat reliabilitas suatu
alat ukur yang berupa suatu indeks reliabilitas, dapat dilakukan penelaahan secara statistik.
Nilai ini biasa dinamakan dengan koefisien reliabilitas (reliability coefficient).
Pengujian reliabilitas instrumen dapat dilakukan secara eksternal maupun internal.
Secara eksternal pengujian dapat dilakukan dengan test-retest (stability), equivalent, dan
gabungan keduanya.Secara internal reliabilitas instrumen dapat diuji dengan menganalisis
kosinstensi butir-butir yang ada pada instrumen dengan teknik tertentu.
a.
Test-retest
Instrumen penelitian yang reliabilitas diuji dengan test retest dilakukan dengan cara
mencobakan instrumen beberapa kalli pada responden. Jadi dalam hal ini instrumennya sama,
respondennya sama dan waktunya yang berbeda. Reliabilitas diukur dari koefisien korelasi
antara percobaan pertama dengan yang berikutnya. Bila koefisien korelasi positif dan
signifikan maka instrumen tersebut sudah dinyatakan reliabel. Pengujian cara ini sering juga
disebut stability.
b.
Equivalent
Instrumen yang ekuivalen adalah pertanyaan yang secara bahasa berbeda, tetapi
maksudnya sama. Pengujian reliabilitas instrumen dengan cara ini cukup dilakukan sekali,
tetapi instrumennya dua, pada responden yang sama, waktu sama, instrumen berbeda.
Reliabilitas instrumen dihitung dengan cara mengkorelasikan antara data instrumen yang satu
dengan data instrumen yang dijadikan equivalent. Bila korelasi positif signifikan, maka
instrumen dapat dinyatakan reliabel.
c.
Gabungan
Pengujian reliabilitas ini dilakukan dengan cara mencobakan dua instrumen yang
equivalent itu beberapa kali, ke responden yang sama. Jadi, cara ini merupakan gabungan
pertama dan kedua. Reliabilitas instrumen dilakukan dengan mengkorelasikan dua instumen,
setelah itu dikorelasikan pada pengujian kedua, dan selanjutnya dikorelasikan secara silang.
Pengujian
Skor data instrumen pertama
ke 1
Pengujian
Skor data instrumen pertama
ke 2
Jika dengan dua kali pengujian dalam waktu yang berbeda, akan dapat dianalisis
enam koefisien reliabilitas. Bila keenam koefisien korelasi itu semuanya positif dan
signifikan, maka dapat dinyatakan bahwa instrumen tersebut reliabel.
d.
Internal Consistency
Pengujian reliabilits dengan internal consistency, dilakukan dengan cara
mencobakkan instrumen sekali saja, kemudian yang data diperoleh dianalisis dengan teknik
tertentu. Hasil analisis dapat digunakan untuk memprediksi reliabelitas instrumen. Pada
penelitian pengujian dapat digunakan untuk mengevaluasi sumber variasi alat tes yang
tunggal, di antara teknik yang dapat digunakan :
1) Alpha Cronbach
Metode Alpha Cronbach yang digunakan untuk menghitung reliabilitas suatu tes yang
tidak mempunyai pilihan benar atau salah maupun ya atau tidak, melainkan digunakan
untuk menghitung reliabilitas suatu tes yang mengukur sikap atau perilaku. Alpha Cronbach
sangat umum digunakan, sehingga merupakan koefisien yang umum untuk mengevaluasi
Internal Consistency.
2) Split Half Method
Metode perhitungan reabilitas yang dilakukan dengan cara memberikan suatu tes pada
sejumlah subjek yang kemudian tes tersebut dibagi menjadi dua bagian yang sama besar.
Kedua hasil akan dibandingkan, dan apabila mendapat korelasi positif dan hasil korelasinya
cukup tinggi, maka dapat dikatakan bahwa tes tersebut reliabel.
penelitian reabel atau tidak, bila jawaban yang diberikan responden berbentuk skala seperti 13 dan 1-5, serta 1-7 atau jawaban responden yang menginterpretasikan penilaian sikap.
Misalnya responden memberikan jawaban sebagai berikut :
1.
Sangat Memuaskan (SM)
=5
2.
Memuaskan (M)
=4
3.
Netral (N)
=3
4.
Tidak Memuaskan (TM)
=2
5.
Sangat Tidak Memuaskan (STS)
=1
Kriteria suatuinstrumen penelitian dikatakan reliabel dengan menggunakan teknik ini,
bila koefisien reliabilitas (r11) > 0,6.
Tahapan perhitungan uji reliabilitas dengan menggunakan teknik Alpha Cronbach,
yaitu :
a.
Menentukan nilai varians setiap butir pertanyaan.
X i 2
X 2i
2i =
b. Menentukan nilai varians total
X i 2
X 2
2
t =
c. Menentukan reliabilitas instrumen
k
2
r 11 =
1 2 b
k1
1
[ ][
Dimana :
n
: Jumlah sampel
Xi
X
2t
2b
K
r 11
Pengujian reliabilitas instrumen dapat dilakukan dengan teknik belah dua dari
Spearman Brown (Split Half), KR. 20, KR 21 dan Anova Hoyt. Berikut ini diberikan rumusrumusnya :
b.
Teknik Test-Retest
Alat ukur penelitian yang reliabilitasnya diuji dengan test retest dilakukan denngan
cara membaca alat ukur sebanyak dua kali kepada responden yang sama dengan waktu yang
berbeda. Selang waktu yang efektif antara pengukuran pertama dan kedua adalah berkisar 1530 hari, hal ini dimaksud untuk menghindari responden masih ingat dengan jawaban
pengukuran pertama. Reliabilitas diukur dari koefisien korelasi antara percobaan pertama
dengan yang berikutnya.
Pada umumnya terknik korelasi yang digunakan untuk menguji reliabilitas instrumen
penelitian dengan test-retest menggunakan Product Moment, akan tetapi dapat menggunakan
teknik korelasi lain. Pilihan teknik korelasi disesuaikan dengan jenis data yang dikumpulkan.
Bila koefisien korelasi (rhitung) lebih besar (rtabel), maka pengukuran pertama dan kedua
konsisten, sehingga instrumen tersebut sudah dinyatakan reliable, akan tetapi bila (rhitung) lebih
kecil (rtabel), maka hasil pengukuran pertama dan kedua tidak konsisten, sehingga dapat
disimpulkan instrumen yang digunakan tidak reliabel.
Tahapan perhitungan uji reliabelitas dengan menggunakan teknik test-retest, yaitu :
Membuat hipotesis dalam bentuk kalimat
Ho : Pengukuran pertama dan pengukuran kedua tidak konsisten (tidak reliabel)
Ha : Pengukuran pertama dan pengukuran kedua konsisten (reliabel)
Menentukan risiko kesalahan (a)
Risiko kesalahan adalah seberapa besar menerima hipotesis yang salah
Kaidah pengujian
Jika, rhitung rtabel maka Ho diterima
Jika, rhitung rtabel maka Ho ditolak
Menghitung rhitung dan rtabel
1) Menghitung thitung
Rumus
X 2
Y 2
n ( Y 2 )
n ( X 2 )
n ( XY )( X )( Y )
r=
Dimana :
X : skor pengamatan pertama
Y : skor pengamatan kedua
n : jumlah responden
d.
Instrumen penelitian yang reliabilitasnya diuji dengan teknik Kuder dan Richardson
(K-R 20) adalah instrumen penelitian yang mempunyai beberapa kriteria, yaitu :
1) Pilihan jawaban untuk setiap pertanyaan hanya ada dua jawaban. Misalnya
jawaban Ya diisi dengan nilai 1dan jawban Tidak diisi dengan nilai 0.
2) Jumlah instrumen penelitian (kuesioner) harus ganjil, sehingga tida dapat dibelah.
3) Kriteria pengujian, jika nilai reliabilitas instrumen (r11) > 0,7 maka instrumen
penelitian dinyatakan reliabel (sahih).
Rumus :
k
( k 1
)( V V pq )
r 11 =
Dimana :
r 11 : reliabilitas instrumen
k
: varians total
Varians total
Rumus
( X X )
V t = i
n1
Dimana :
X i : Total skor
X
n : Jumlah responden
e.
(K-R 21) prinsipnya sama dengan Kuder dan Richardson (K-R 20) bedanya hanya terletak
pada saat mengaplikasikan rumus reliabilitas bila pada rumus (K-R 20) menggunakan
variabel p dan q, sedangkan pada rumus (K-R 21) variabel p dan q diganti dengan variabel
X
( )(
r 11 =
Dimana :
r 11 : reliabilitas instrumen
: varians total
Reliabilitas tes berhubungan dengan ketepatan hasil tes. Suatu tes dikatakan memiliki
taraf reliabilitas yang tinggi jika tes tersebut dapat memberikan hasil yang tepat. Untuk
menghitung reliabilitas tes bentuk uraian rumus yang digunakan adalah rumus Alpha
(Arikunto 2015), yaitu :
2
r 11 =
(1 2 i )
n1
i
Keterangan :
r11
2i
2i
Kategori
Sangat tinggi
Tinggi
Cukup
Rendah
Sangat rendah
( X )2
N
N
X 2
atau t = X t (
N
Xt)
Mahrens & Lehmann (1973: 104) menyatakan bahwa meskipun tidak ada perjanjian
secara umum, tetapi secara luas dapat diterima bahwa untuk tes yang digunakan untuk
membuat keputusan pada siswa secara perorangan harus memiliki koefisien reliabelitas
minimal sebesar 0,85.
2)
Validitas
1.6.1. Pengujian Validitas Tes Secara Rasional
1) Validitas Isi
Validitas ini suatu instrumen menunjukkan isi dalam mengungkapkan hal yang akan
diukur. Validitas isi dimaksud adalah isi atau bahan yang diuji atau di tes relevan dengan
kemampuan, pengetahuan, pengalaman, atau latar belakang subjek yang akan diuji. Selain itu
validasi isi juga dimaksudkan agar konten dari tes yang diujikan sesuai dengan isi kurikulum
yang sedang berlaku. Validasi isi ini ditentukan melalui pertimbangan ahli, untuk
memberikan gambaran bagaimana validitas tes tersebut sebelum ditindak lanjuti.
1.6.2. Pengujian Validitas Tes Secara Empirik
2) Validitas Butir Soal
Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium, dalam
arti memiliki kesejajaran antara hasil tes tersebut dengan kriterium. Untuk mengetahui
kesejajaran digunakan teknik korelasi product moment yang dikemukakan oleh Pearson
(Arikunto, 2015), yaitu :
X
( Y )
N XY
r xy =
Keterangan :
rxy = koefisien korelasi variabel X dan variabel Y
N = banyaknya subjek
X = skor tiap butir soal
Y = skor total
Interpretasi mengenai besarnya koefisien korelasi adalah sebagai berikut :
Tabel. 3.6. Interpretasi Nilai Koefisien Korelasi (r)
Besar Nilai r
Antara 0,800 sampai dengan 1,00
Antara 0,600 sampai dengan 0,800
Antara 0,400 sampai dengan 0,600
Antara 0,200 sampai dengan 0,400
Antara 0,00 sampai dengan 0,200
Interpretasi
Sangat tinggi
Tinggi
Cukup
Rendah
Sangat rendah
(Arikunto, 2015)
Pengujian menggunakan uji dua sisi dengan taraf signifikan 0,05. Kriteria pengujian
adalah sebagai berikut :
Jika r hitung r tabel (uji 2 sisi dengan sig. 0,05) maka instrumen atau item-item pertanyaan
kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks (Sukiman, 2012).
Tingkat kesukaran suatu butir soal yang disimbolkan dengan p1, merupakan salah satu
parameter butir soal yang sangat berguna dalam penganalisian suatu tes. Hal ini disebabkan
karena dengan melihat parameter butir ini, akan diketahui seberapa baiknya kualitas suatu
butir soal. Jika p1 mendekati 0, maka soal tersebut terlalu sukar, sedangkan jika p1 mendekati
1, maka soal tersebut terlalu mudah, sehingga perlu dibuang. Hal ini disebabkan karena butir
tersebut tidak dapat membedakan kemampuan seorang siswa dengan siswa lainnya.
Allen dan Yen (1979: 122) menyatakan bahwa secara umum indeks kesukaran suatu
butir sebaiknya terletak pada interval 0,3 0,7. Pada interval ini, informasi tenang
kemampuan siswa akan diperoleh secara maksimal. Dalam merancang indeks kesukaran
suatu perangkat tes, perlu dipertimbangkan tujuan penyusunan perangkat tersebut. Untuk
menentukan indeks kesukaran dari suatu butir pada perangkat tes, perlu dipertimbangkan
tujuan penyusunan perangkat tes tersebut. Untuk menentukan indeks kesukaran dari suatu
butir pada perangkat tes pilihan ganda, digunakan persamaan sebagai berikut :
B ...........................................................................................................(3)
pi=
N
Dengan :
Pi
B
N
4) Daya Pembeda
Untuk menentukan daya pembeda, dapat digunakan indeks diskriminasi, indeks
korelasi biserial, indeks korelasi point biserial, dan indeks keselarasan. Daya pembeda soal
adalah kemampuan suatu soal untuk membedakan antara siswa yang mampu (menguasai
materi yang ditanyakan) dan siswa yang kurang mampu (belum menguasai materi yang
ditanyakan (Sukiman, 2012). Penentuan daya pembeda soal butir dimaksudkan untuk
menyisihkan butir-butir soal yang memiliki daya pembeda yang rendah.
Adapun rumus untuk menentukan daya pembeda adalah :
D=
Keterangan :
B A BB
JA JB
= PA PB
(Arikunto, 2015)
D = daya pembeda
JA = banyaknya peserta kelompok atas
JB = banyaknya peserta kelompok bawah
BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
BB = banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar
PA = proporsi peserta kelompok atas yang menjawab benar
PB = proporsi peserta kelompok bawah yang menjawab benar
Kualifikasi daya pembeda :
D : 0,00 0,20 = jelek (poor)
D : 0,21 0,40 = cukup (satistifactory)
D : 0,41 0,60 = baik (good)
D : 0,61 1,00 = baik sekali (excellent)
D : negatif , semuanya tidak baik, jadi semua butir soal yang mempunyai nilai D
negatif sebaiknya dibuang saja.
(Arikunto, 2015)
Pada suatu butir soal, indeks daya beda dikatakan baik jika lebih besar atau sama
dengan 0,3. Indeks daya pembeda suatu butir yang kecil nilainya akan menyebabkan butir
tersebut tidak dapat membedakan siswa yang kemampuannya tinggi dan siswa yang
kemampuannya rendah . Pada analisis tes dengan Content Refrenced Measures, indeks daya
pembeda butir tifak terlalu perlu menjadi perhatian, asalkan tidak negatif (Ebel & Frisbie,
1986; Frisbie, 2005). Jika nilainya kecil, menunjukkan bahwa kemencengan distribusi skor
dari populasi yang juga mengakibatkan validitas tes menjadi rendah.
5) Kesalahan Pengukuran
Kesalahan Baku Pengukuran (Standart Error of Measurement, SEM) dapat digunakan
untuk memahami kesalahan yang bersifat acak/random yang mempengaruhi skor peserta tes
dalam pelaksanaan tes. Kesalahan pengukuran, yang disimbolkan dengan E , dapat
dihitung dengan rumus pada persamaan 5 yang diturunkan dari rumus reliabilitas (Allen &
Yen, 1979 : 73).
E= xx ...........................................................................................................(5)
dengan
xx merupakan
koefisien reliabilitas.
Teori tes klasik memiliki beberapa kelemahan mendasar. Kebanyakan statistik yang
digunakan dalam model tes klasik seperti tingkat kesukaran dan daya pembeda soal sangat
tergantung pada sampel yang dipergunakan dalam analisis. Rerata tingkat kemampuan,
rentang dan sebaran kemampuan siswa yang dijadikan sampel dalam analisis sangat
mempengaruhi nilai statistik yang diperoleh. Sebagai contoh, tingkat kesukaran soal akan
tinggi dari rerata kemampuan siswa dalam populasinya. Daya pembeda soal akan tinggi
apabila tingkat kemampuan sampel bervariasi atau mempunyai rentang kemampuan yang
besar. Demikian pula dengan reliabelitas tes.
Kelemahan kedua yakni skor siswa yang diperoleh dari suatu tes sangat terbatas pada
tes yang digunakan. Kesimpulan hasil tes tidak dapat digeneralisasikan di luar tes yang
digunakan. Skor perolehan seseorang sangat tergantung pada pemilihan tes yang digunakan
bukan pada kemampuan peserta tes tersebut. Karena keterbatasan penggunaan skor tes, teori
tes klasikal tidak mempunyai dasar untuk mempelajari perkembangan kemampuan siswa dari
waktu ke waktu, kecuali jika siswa tersebut menempuh tes yang sama dari waktu ke waktu.
Ketiga, konsep keajegan/reliabelitas tes dalam konteks teori tes klasik didasarkan
pada kesejajaran perangkat tes sangat sukar untuk dipenuhi pada praktiknya, sulit sekali
memperoleh dua perangkat tes yang benar-benar sejajar. Jika prosedur tes retes digunakan,
sampel yang diambil sangat tidak mungkin berperilaku sama pada saat tes dikerjakan untuk
yang kedua kalinya.
Keempat, teori tes klasik tidak memberikan landasan untuk menentukan bagaimana
respons seseorang peserta tes apabila diberikan butir tertentu. Tidak adanya informasi ini
tidak memungkinkan melakukan desain tes yang bervariasi sesuai dengan kemampuan
peserta tes (adaptive or toilored testing).
Kelima, indeks kesalahan baku pengukuran diperasumsikan sama untuk setiap peserta
tes. Padahal seseorang peserta tes mungkin berperilaku lebih konsisten dalam menjawab soal
dibandingkan peserta tes lainnya. Demikian pula sebaliknya, banyak sekali kesalahan
individual. Kesalahan pengukuran sebenarnya merupakan perilaku peserta tes yang bersifat
perorangan dan bukan perilaku tes.
Terakhir, prosedur-prosedur yang berkaitan dengan teori tes klasik seperti pengujian
bias butir soal dan penyetaraan tes tidak bersifat praktis dan sukar untuk dilakukan.