Vous êtes sur la page 1sur 13

Analisis Butir Soal dengan Pendekatan Teori Klasik dan Teori Respon Butir

Untuk mendapatkan instrumen berkualitas tinggi, selain dilakukan analisis secara


teori (telaah butir berdasarkan aspek isi, konstruksi dan bahasa) perlu juga dilakukan analisis
butir secara empirik. Secara garis besar, analisis butir secara empirik ini dapat dibedakan
menjadi dua, yaitu dengan pendekatan teori tes klasik dan teori respon butir (Item Response
Theory, IRT).
A. Pendahuluan Teori Klasik (Classical Test Theory)
Teori tes klasik atau disebut teori skor murni klasik (Allen & Yen, 1979:57) didasarkan
pada suatu model aditif, yakni skor amatan merupakan penjumlahan dari skor sebenarnya dan
skor kesalahan pengukuran. Jika dituliskan dengan pernyataan matematis, maka kalimat
tersebut menjadi
X = T + E ....................................................................................................(1)
dengan :
X : skor amatan,
T : skor sebenarnya,
E : skor kesalah pengukuran (error score).
Kesalahan pengukuran yang dimaksudkan dalam teori ini merupakan kesalahan yang
tidak sistematis atau acak. Kesalahan ini merupakan penyimpangan secara teoritis dan skor
amatan yang diperoleh dengan skor amatan yang diharapkan. Kesalahan pengukuran yang
sistematis dianggap bukan merupakan kesalahan pengukuran.
Ada beberapa asumsi dalam teori tes klasik. Skor kesalahan pengukuran tidak
berinteraksi dengan skor sebenarnya, merupakan asumsi yang pertama. Asumsi yang kedua
adalah skor kesalahan tidak berkorelasi dengan skor sebenarnya dan skor kesalahan tidak
berkorelasi dengan skor sebenarnya dan skor-skor kesalahan pada tes-tes yang lain untuk
peserta tes (testee) yang sama. Ketiga, rata-rata dari skor kesalahan ini sama dengan nol.
Asumsi-asumsi pada teori tes klasik ini dijadikan dasar untuk mengembangkan formulaformula dalam menentukan validitas dan realibilitas tes.
Validitas dan reliabilitas pada perangkat tes digunakan untuk menentukan kualitas tes.
Kriteria lain yang dapat digunakan untuk menentukan kualitas tes adalah indeks kesukaran
dan daya pembeda.
1)

Reliabilitas
Mehrens & Lehman (1973: 102) menyatakan bahawa reliabilitas merupakan derajat

keajegan (consistency) diantara dua buah hasil pengukuran pada objek yang sama. Definisi
ini dapat diilustrasikan dengan seseorang yang diukur tinggi badannya akan diperoleh hasil

yang tidak berubah walaupun menggunakan alat pengukur yang berbeda dan skala yang
berbeda. Dalam kaitannya dengan dunia pendidikan, prestasi atau kemampuan sesorang siswa
dikatakan reliabel jika dilakukan pengukuran, hasil pengukuran akan sama informasinya,
walaupun penguji berbeda, korektornya berbeda atau butir soal yang berbeda tetapi memiliki
karakteristik yang sama.
Allen & Yen (1979:62) menyatakan bahwa tes dikatakan reliabel jika skor amatan
mempunyai korelasi yang tinggi dengan skor sebenarnya. Selanjutnya dinyatakan bahwa
reliabilitas merupakan koefisien korelasi antara dua skor amatan yang diperoleh dari hasil
pengukuran menggunakan tes yang paralel. Dengan demikian, pengertian yang dapat
diperoleh dari pernyataan tersebut adalah suatu tes itu reliabel jika hasil pengukuran medekati
keadaan peserta tes yang sebenarnya.
Dalam pendidikan, pengukuran tidak dapat langsung dilakukan pada ciri atau karakter
yang akan diukur. Ciri atau karakter ini bersifat abstrak. Hal ini menyebabkan sulitnya
memperoleh alat ukur yang stabil untuk mengukur karakteristik seseorang (Mehrens &
Lehman, 1973: 103).
Berdasarkan uraian di atas, maka dalam pembuatan alat ukur dalam dunia pendidikan
harus dilakukan secermat mungkin dan disesuaikan dengan kaidah-kaidah yang telah
ditentukan oleh ahli-ahli pengukuran di bidang pendidikan. Untuk melihat reliabilitas suatu
alat ukur yang berupa suatu indeks reliabilitas, dapat dilakukan penelaahan secara statistik.
Nilai ini biasa dinamakan dengan koefisien reliabilitas (reliability coefficient).
Pengujian reliabilitas instrumen dapat dilakukan secara eksternal maupun internal.
Secara eksternal pengujian dapat dilakukan dengan test-retest (stability), equivalent, dan
gabungan keduanya.Secara internal reliabilitas instrumen dapat diuji dengan menganalisis
kosinstensi butir-butir yang ada pada instrumen dengan teknik tertentu.
a.
Test-retest
Instrumen penelitian yang reliabilitas diuji dengan test retest dilakukan dengan cara
mencobakan instrumen beberapa kalli pada responden. Jadi dalam hal ini instrumennya sama,
respondennya sama dan waktunya yang berbeda. Reliabilitas diukur dari koefisien korelasi
antara percobaan pertama dengan yang berikutnya. Bila koefisien korelasi positif dan
signifikan maka instrumen tersebut sudah dinyatakan reliabel. Pengujian cara ini sering juga
disebut stability.
b.
Equivalent
Instrumen yang ekuivalen adalah pertanyaan yang secara bahasa berbeda, tetapi
maksudnya sama. Pengujian reliabilitas instrumen dengan cara ini cukup dilakukan sekali,
tetapi instrumennya dua, pada responden yang sama, waktu sama, instrumen berbeda.
Reliabilitas instrumen dihitung dengan cara mengkorelasikan antara data instrumen yang satu

dengan data instrumen yang dijadikan equivalent. Bila korelasi positif signifikan, maka
instrumen dapat dinyatakan reliabel.
c.
Gabungan
Pengujian reliabilitas ini dilakukan dengan cara mencobakan dua instrumen yang
equivalent itu beberapa kali, ke responden yang sama. Jadi, cara ini merupakan gabungan
pertama dan kedua. Reliabilitas instrumen dilakukan dengan mengkorelasikan dua instumen,
setelah itu dikorelasikan pada pengujian kedua, dan selanjutnya dikorelasikan secara silang.
Pengujian
Skor data instrumen pertama
ke 1

Pengujian
Skor data instrumen pertama
ke 2

Skor data instrumen pertama

Jika dengan dua kali pengujian dalam waktu yang berbeda, akan dapat dianalisis
enam koefisien reliabilitas. Bila keenam koefisien korelasi itu semuanya positif dan
signifikan, maka dapat dinyatakan bahwa instrumen tersebut reliabel.
d.

Internal Consistency
Pengujian reliabilits dengan internal consistency, dilakukan dengan cara

mencobakkan instrumen sekali saja, kemudian yang data diperoleh dianalisis dengan teknik
tertentu. Hasil analisis dapat digunakan untuk memprediksi reliabelitas instrumen. Pada
penelitian pengujian dapat digunakan untuk mengevaluasi sumber variasi alat tes yang
tunggal, di antara teknik yang dapat digunakan :
1) Alpha Cronbach
Metode Alpha Cronbach yang digunakan untuk menghitung reliabilitas suatu tes yang
tidak mempunyai pilihan benar atau salah maupun ya atau tidak, melainkan digunakan
untuk menghitung reliabilitas suatu tes yang mengukur sikap atau perilaku. Alpha Cronbach
sangat umum digunakan, sehingga merupakan koefisien yang umum untuk mengevaluasi
Internal Consistency.
2) Split Half Method
Metode perhitungan reabilitas yang dilakukan dengan cara memberikan suatu tes pada
sejumlah subjek yang kemudian tes tersebut dibagi menjadi dua bagian yang sama besar.

Kedua hasil akan dibandingkan, dan apabila mendapat korelasi positif dan hasil korelasinya
cukup tinggi, maka dapat dikatakan bahwa tes tersebut reliabel.

Teknik Pengukuran Realibilitas


Ada beberapa teknik yang dapat digunakan untuk mengukur realibilitas suatu
instrument penelitian, tergantung dari skala yang digunakan. Teknik-teknik pengukuran
realibilitas, antara lain :
a.

Teknik Alpha Cronbach


Teknik atau rumus ini dapat digunakan untuk menentukan apakah suatu instrumen

penelitian reabel atau tidak, bila jawaban yang diberikan responden berbentuk skala seperti 13 dan 1-5, serta 1-7 atau jawaban responden yang menginterpretasikan penilaian sikap.
Misalnya responden memberikan jawaban sebagai berikut :
1.
Sangat Memuaskan (SM)
=5
2.
Memuaskan (M)
=4
3.
Netral (N)
=3
4.
Tidak Memuaskan (TM)
=2
5.
Sangat Tidak Memuaskan (STS)
=1
Kriteria suatuinstrumen penelitian dikatakan reliabel dengan menggunakan teknik ini,
bila koefisien reliabilitas (r11) > 0,6.
Tahapan perhitungan uji reliabilitas dengan menggunakan teknik Alpha Cronbach,
yaitu :
a.
Menentukan nilai varians setiap butir pertanyaan.
X i 2

X 2i
2i =
b. Menentukan nilai varians total
X i 2

X 2
2
t =
c. Menentukan reliabilitas instrumen
k
2
r 11 =
1 2 b
k1
1

[ ][

Dimana :
n

: Jumlah sampel

Xi

X
2t

2b
K
r 11

: Jawaban responden untuk setiap butir pertanyaan


: Total jawaban responden untuk setiap butir pertanyaan
: Varians total
: Jumlah varians butir
: Jumlah butir pertanyaan
: Koefisien reliabilitas instrumen

Pengujian reliabilitas instrumen dapat dilakukan dengan teknik belah dua dari
Spearman Brown (Split Half), KR. 20, KR 21 dan Anova Hoyt. Berikut ini diberikan rumusrumusnya :
b.
Teknik Test-Retest
Alat ukur penelitian yang reliabilitasnya diuji dengan test retest dilakukan denngan
cara membaca alat ukur sebanyak dua kali kepada responden yang sama dengan waktu yang
berbeda. Selang waktu yang efektif antara pengukuran pertama dan kedua adalah berkisar 1530 hari, hal ini dimaksud untuk menghindari responden masih ingat dengan jawaban
pengukuran pertama. Reliabilitas diukur dari koefisien korelasi antara percobaan pertama
dengan yang berikutnya.
Pada umumnya terknik korelasi yang digunakan untuk menguji reliabilitas instrumen
penelitian dengan test-retest menggunakan Product Moment, akan tetapi dapat menggunakan
teknik korelasi lain. Pilihan teknik korelasi disesuaikan dengan jenis data yang dikumpulkan.
Bila koefisien korelasi (rhitung) lebih besar (rtabel), maka pengukuran pertama dan kedua
konsisten, sehingga instrumen tersebut sudah dinyatakan reliable, akan tetapi bila (rhitung) lebih
kecil (rtabel), maka hasil pengukuran pertama dan kedua tidak konsisten, sehingga dapat
disimpulkan instrumen yang digunakan tidak reliabel.
Tahapan perhitungan uji reliabelitas dengan menggunakan teknik test-retest, yaitu :
Membuat hipotesis dalam bentuk kalimat
Ho : Pengukuran pertama dan pengukuran kedua tidak konsisten (tidak reliabel)
Ha : Pengukuran pertama dan pengukuran kedua konsisten (reliabel)
Menentukan risiko kesalahan (a)
Risiko kesalahan adalah seberapa besar menerima hipotesis yang salah
Kaidah pengujian
Jika, rhitung rtabel maka Ho diterima
Jika, rhitung rtabel maka Ho ditolak
Menghitung rhitung dan rtabel
1) Menghitung thitung
Rumus

X 2
Y 2
n ( Y 2 )

n ( X 2 )

n ( XY )( X )( Y )
r=

Dimana :
X : skor pengamatan pertama
Y : skor pengamatan kedua
n : jumlah responden

2) Menentukan nilai koefisien korelasi (rtabel)


Nilai rtabel dapat dilihat di tabel Product Moment dengan ketentuan r(a,n-2)
Membandingkan rtabel dan rhitung
Tujuan membandingkan rtabel dan rhitung adalah untuk mengetahui hipotesis mana yang

akan diterima berdasarkan kaidah pengujian.


Membuat keputusan
Menerima atau menolak Ho
c. Teknik Spearman Brown
Instrumen penelitian yang reliabilitasnya diuji dengan teknik Spearman Brown adalah
instrumen penelitian yang mempunyai beberapa kriteria, antara lain :
1. Pilihan jawaban untuk setiap pertanyaan hanya ada dua jawaban. Misalnya jawaban Ya
diisi dengan nilai 1 dan jawaban Tidak diisi dengan nilai 0.
2. Jumlah instrumen penelitian harus genap dapat dibelah. Antara belahan pertama dan
kedua harus seimbang.
Uji reliabilitas dengan teknik Spearman Brown ada dua cara, yaitu: belahan ganjil-genap
dan awal-akhir.

Teknik Belahan Ganjil-Genap


Teknik belahan ganjil-genap ini prinsipnya membagi atau mengelompokkan
instrumen penelitian ke dalam dua kelompok. Kelompok pertama (belahan ganjil) dari
setiap butir pertanyaan yang bernomor ganji, sedangkan kelompok kedua (belahan

genap) dari setiap butir pertanyaan yang bernomor genap.


Teknik Belahan Awal-Akhir
Teknik belahan awal-akhir ini prinsipnya membagi atau mengelompokkan instrumen
penelitian ke dalam dua kelompok. Kelompok pertama (belahan awal) adalah dua
butir pertanyaan nomor 1 sampai ke n, sedangkan kelompok kedua (belahan akhir)

d.

butir pertanyaan setengah nomor terakhir.


Teknik Kuder dan Richardson (K-R 20)

Instrumen penelitian yang reliabilitasnya diuji dengan teknik Kuder dan Richardson
(K-R 20) adalah instrumen penelitian yang mempunyai beberapa kriteria, yaitu :
1) Pilihan jawaban untuk setiap pertanyaan hanya ada dua jawaban. Misalnya
jawaban Ya diisi dengan nilai 1dan jawban Tidak diisi dengan nilai 0.
2) Jumlah instrumen penelitian (kuesioner) harus ganjil, sehingga tida dapat dibelah.
3) Kriteria pengujian, jika nilai reliabilitas instrumen (r11) > 0,7 maka instrumen
penelitian dinyatakan reliabel (sahih).
Rumus :
k
( k 1
)( V V pq )

r 11 =

Dimana :
r 11 : reliabilitas instrumen
k

: jumlah butir pertanyaam


Vt

: varians total

p : proporsi responden yang menjawab Ya pada setiap butir pertanyaan


Untuk menghitung reliabilitas instrumen (r11), terlebih dahulu dicari nilai varians total
dan proporsi responden yang menjawab ya.

Varians total
Rumus
( X X )
V t = i
n1

Dimana :
X i : Total skor
X

: Rata-rata total skor

n : Jumlah responden
e.

Teknik Kuder dan Richardson (K-R 21)


Instrumen penelitian yang reliabilitasnya diuji dengan teknik Kuder dan Richardson

(K-R 21) prinsipnya sama dengan Kuder dan Richardson (K-R 20) bedanya hanya terletak
pada saat mengaplikasikan rumus reliabilitas bila pada rumus (K-R 20) menggunakan
variabel p dan q, sedangkan pada rumus (K-R 21) variabel p dan q diganti dengan variabel
X

(rata-rata skor total).


Rumus :
X ( k X )
k
1
k 1
k .V t

( )(

r 11 =

Dimana :
r 11 : reliabilitas instrumen

k : jumlah butir pertanyaan


Vt

: varians total

: Rata-rata total skor

Reliabilitas tes berhubungan dengan ketepatan hasil tes. Suatu tes dikatakan memiliki
taraf reliabilitas yang tinggi jika tes tersebut dapat memberikan hasil yang tepat. Untuk
menghitung reliabilitas tes bentuk uraian rumus yang digunakan adalah rumus Alpha
(Arikunto 2015), yaitu :
2

r 11 =
(1 2 i )
n1
i
Keterangan :
r11

= Reliabilitas yang dicari

2i
2i

= jumlah varians skor tiap tiap item


= Varians total

n= banyaknya butir soal


Interpretasi derajat reliabilitas suatu tes menurut Guilford (Irham, 2015) ditunjukkan
dalam tabel 3.8 berikut ini:
Tabel. 3.8. Interpretasi derajat reliabilitas
Batasan
0,80 < r11 1,00
0,60 < r11 0,80

Kategori
Sangat tinggi
Tinggi

0,40 < r11 0,60


0,20 < r11 0,40
r11 0,20

Cukup
Rendah
Sangat rendah

Untuk nilai Variansnya dapat dicari dengan rumus sebagai berikut :

( X )2
N
N

X 2

atau t = X t (
N

Xt)

Mahrens & Lehmann (1973: 104) menyatakan bahwa meskipun tidak ada perjanjian
secara umum, tetapi secara luas dapat diterima bahwa untuk tes yang digunakan untuk
membuat keputusan pada siswa secara perorangan harus memiliki koefisien reliabelitas
minimal sebesar 0,85.
2)
Validitas
1.6.1. Pengujian Validitas Tes Secara Rasional
1) Validitas Isi
Validitas ini suatu instrumen menunjukkan isi dalam mengungkapkan hal yang akan
diukur. Validitas isi dimaksud adalah isi atau bahan yang diuji atau di tes relevan dengan
kemampuan, pengetahuan, pengalaman, atau latar belakang subjek yang akan diuji. Selain itu
validasi isi juga dimaksudkan agar konten dari tes yang diujikan sesuai dengan isi kurikulum
yang sedang berlaku. Validasi isi ini ditentukan melalui pertimbangan ahli, untuk
memberikan gambaran bagaimana validitas tes tersebut sebelum ditindak lanjuti.
1.6.2. Pengujian Validitas Tes Secara Empirik
2) Validitas Butir Soal
Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium, dalam
arti memiliki kesejajaran antara hasil tes tersebut dengan kriterium. Untuk mengetahui
kesejajaran digunakan teknik korelasi product moment yang dikemukakan oleh Pearson
(Arikunto, 2015), yaitu :

X
( Y )

N XY
r xy =
Keterangan :
rxy = koefisien korelasi variabel X dan variabel Y
N = banyaknya subjek
X = skor tiap butir soal
Y = skor total
Interpretasi mengenai besarnya koefisien korelasi adalah sebagai berikut :
Tabel. 3.6. Interpretasi Nilai Koefisien Korelasi (r)
Besar Nilai r
Antara 0,800 sampai dengan 1,00
Antara 0,600 sampai dengan 0,800
Antara 0,400 sampai dengan 0,600
Antara 0,200 sampai dengan 0,400
Antara 0,00 sampai dengan 0,200

Interpretasi
Sangat tinggi
Tinggi
Cukup
Rendah
Sangat rendah
(Arikunto, 2015)

Pengujian menggunakan uji dua sisi dengan taraf signifikan 0,05. Kriteria pengujian
adalah sebagai berikut :

Jika r hitung r tabel (uji 2 sisi dengan sig. 0,05) maka instrumen atau item-item pertanyaan

berkorelasi signifikan terhadap skor total (dinyatakan valid).


Jika r hitung r tabel ( uji 2 sisi dengan sig. 0,05 ) maka instrumen atau item-item
pertanyaan tidak berkorelasi signifikan terhadap skor total (dinyatakan tidak valid).
3) Tingkat Kesukaran
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat

kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks (Sukiman, 2012).
Tingkat kesukaran suatu butir soal yang disimbolkan dengan p1, merupakan salah satu
parameter butir soal yang sangat berguna dalam penganalisian suatu tes. Hal ini disebabkan
karena dengan melihat parameter butir ini, akan diketahui seberapa baiknya kualitas suatu

butir soal. Jika p1 mendekati 0, maka soal tersebut terlalu sukar, sedangkan jika p1 mendekati
1, maka soal tersebut terlalu mudah, sehingga perlu dibuang. Hal ini disebabkan karena butir
tersebut tidak dapat membedakan kemampuan seorang siswa dengan siswa lainnya.
Allen dan Yen (1979: 122) menyatakan bahwa secara umum indeks kesukaran suatu
butir sebaiknya terletak pada interval 0,3 0,7. Pada interval ini, informasi tenang
kemampuan siswa akan diperoleh secara maksimal. Dalam merancang indeks kesukaran
suatu perangkat tes, perlu dipertimbangkan tujuan penyusunan perangkat tersebut. Untuk
menentukan indeks kesukaran dari suatu butir pada perangkat tes, perlu dipertimbangkan
tujuan penyusunan perangkat tes tersebut. Untuk menentukan indeks kesukaran dari suatu
butir pada perangkat tes pilihan ganda, digunakan persamaan sebagai berikut :
B ...........................................................................................................(3)
pi=
N
Dengan :
Pi

: proporsi menjawab benar pada butir soal tertentu

B
N

: banyaknya peserta tes yang menjawab benar


: jumlah peserta tes yang menjawab

4) Daya Pembeda
Untuk menentukan daya pembeda, dapat digunakan indeks diskriminasi, indeks
korelasi biserial, indeks korelasi point biserial, dan indeks keselarasan. Daya pembeda soal
adalah kemampuan suatu soal untuk membedakan antara siswa yang mampu (menguasai
materi yang ditanyakan) dan siswa yang kurang mampu (belum menguasai materi yang
ditanyakan (Sukiman, 2012). Penentuan daya pembeda soal butir dimaksudkan untuk
menyisihkan butir-butir soal yang memiliki daya pembeda yang rendah.
Adapun rumus untuk menentukan daya pembeda adalah :
D=
Keterangan :

B A BB

JA JB

= PA PB

(Arikunto, 2015)

D = daya pembeda
JA = banyaknya peserta kelompok atas
JB = banyaknya peserta kelompok bawah
BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
BB = banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar
PA = proporsi peserta kelompok atas yang menjawab benar
PB = proporsi peserta kelompok bawah yang menjawab benar
Kualifikasi daya pembeda :
D : 0,00 0,20 = jelek (poor)
D : 0,21 0,40 = cukup (satistifactory)
D : 0,41 0,60 = baik (good)
D : 0,61 1,00 = baik sekali (excellent)
D : negatif , semuanya tidak baik, jadi semua butir soal yang mempunyai nilai D
negatif sebaiknya dibuang saja.

(Arikunto, 2015)

Pada suatu butir soal, indeks daya beda dikatakan baik jika lebih besar atau sama
dengan 0,3. Indeks daya pembeda suatu butir yang kecil nilainya akan menyebabkan butir
tersebut tidak dapat membedakan siswa yang kemampuannya tinggi dan siswa yang
kemampuannya rendah . Pada analisis tes dengan Content Refrenced Measures, indeks daya
pembeda butir tifak terlalu perlu menjadi perhatian, asalkan tidak negatif (Ebel & Frisbie,
1986; Frisbie, 2005). Jika nilainya kecil, menunjukkan bahwa kemencengan distribusi skor
dari populasi yang juga mengakibatkan validitas tes menjadi rendah.
5) Kesalahan Pengukuran
Kesalahan Baku Pengukuran (Standart Error of Measurement, SEM) dapat digunakan
untuk memahami kesalahan yang bersifat acak/random yang mempengaruhi skor peserta tes
dalam pelaksanaan tes. Kesalahan pengukuran, yang disimbolkan dengan E , dapat
dihitung dengan rumus pada persamaan 5 yang diturunkan dari rumus reliabilitas (Allen &
Yen, 1979 : 73).
E= xx ...........................................................................................................(5)

dengan

merupakan simpangan baku dari skor total dan

xx merupakan

koefisien reliabilitas.
Teori tes klasik memiliki beberapa kelemahan mendasar. Kebanyakan statistik yang
digunakan dalam model tes klasik seperti tingkat kesukaran dan daya pembeda soal sangat
tergantung pada sampel yang dipergunakan dalam analisis. Rerata tingkat kemampuan,
rentang dan sebaran kemampuan siswa yang dijadikan sampel dalam analisis sangat
mempengaruhi nilai statistik yang diperoleh. Sebagai contoh, tingkat kesukaran soal akan
tinggi dari rerata kemampuan siswa dalam populasinya. Daya pembeda soal akan tinggi
apabila tingkat kemampuan sampel bervariasi atau mempunyai rentang kemampuan yang
besar. Demikian pula dengan reliabelitas tes.
Kelemahan kedua yakni skor siswa yang diperoleh dari suatu tes sangat terbatas pada
tes yang digunakan. Kesimpulan hasil tes tidak dapat digeneralisasikan di luar tes yang
digunakan. Skor perolehan seseorang sangat tergantung pada pemilihan tes yang digunakan
bukan pada kemampuan peserta tes tersebut. Karena keterbatasan penggunaan skor tes, teori
tes klasikal tidak mempunyai dasar untuk mempelajari perkembangan kemampuan siswa dari
waktu ke waktu, kecuali jika siswa tersebut menempuh tes yang sama dari waktu ke waktu.
Ketiga, konsep keajegan/reliabelitas tes dalam konteks teori tes klasik didasarkan
pada kesejajaran perangkat tes sangat sukar untuk dipenuhi pada praktiknya, sulit sekali
memperoleh dua perangkat tes yang benar-benar sejajar. Jika prosedur tes retes digunakan,
sampel yang diambil sangat tidak mungkin berperilaku sama pada saat tes dikerjakan untuk
yang kedua kalinya.
Keempat, teori tes klasik tidak memberikan landasan untuk menentukan bagaimana
respons seseorang peserta tes apabila diberikan butir tertentu. Tidak adanya informasi ini
tidak memungkinkan melakukan desain tes yang bervariasi sesuai dengan kemampuan
peserta tes (adaptive or toilored testing).
Kelima, indeks kesalahan baku pengukuran diperasumsikan sama untuk setiap peserta
tes. Padahal seseorang peserta tes mungkin berperilaku lebih konsisten dalam menjawab soal
dibandingkan peserta tes lainnya. Demikian pula sebaliknya, banyak sekali kesalahan
individual. Kesalahan pengukuran sebenarnya merupakan perilaku peserta tes yang bersifat
perorangan dan bukan perilaku tes.
Terakhir, prosedur-prosedur yang berkaitan dengan teori tes klasik seperti pengujian
bias butir soal dan penyetaraan tes tidak bersifat praktis dan sukar untuk dilakukan.

Vous aimerez peut-être aussi