Vous êtes sur la page 1sur 89

1

Analisis Kualitas Tes dan Butir Soal


PENDAHULUAN
Salah satu upaya dalam meningkatkan kualitas proses dan hasil belajar sebagai bagian dari peningkatan
kualitas pendidikan dapat dilakukan melalui sistem penilaian. Dalam penilaian proses dan hasil belajar siswa
di sekolah, guru memberikan suatu evaluasi untuk mengetahui sejauh mana penguasaan materi yang telah
dikuasai oleh siswa selama proses belajar mengajar mengenai materi yang disampaikan.
Dalam melaksanakan kegiatan evaluasi, berhasil atau tidaknya sangat ditentukan oleh tepat atau tidaknya
pelaksanaan ujian. Untuk melaksanakan ujian ini memerlukan alat-alat. Bagi ujian tertulis maka alatnya
adalah butir-butir soal tertulis. Bagi ujian lisan maka alatnya adalah butir soal tertulis yang disediakan bagi
setiap testi, atau sekurang-kurangnya pokok pertanyaan yang sudah tertulis dan dipersiapkan sebelumnya.
Bagi ujian praktek, maka alatnya adalah lembar pengamatan yang berisi segi-segi yang diamati beserta
rentang skor masing-masing.
Idealnya sebelum suatu tes dipergunakan maka tes tersebut harus memenuhi syarat-syarat sebagi tes yang
baik, maka tes yang bersangkutan perlu diuji cobakan. Namun sebelum diuji cobakan tes tersebut harus
memperlihatkan indokator-indikator sebagai tes yang baik. Dalam hal ini dilakukan suatu analisis butir soal.
Analisis butir soal adalah pengkajian pertanyaan tes agar diperoleh perangkat pertanyaan yang memiliki
kualitas memadai. Analisis yang dilakukan atas dasar uji coba dinamakan analisis empiris. Sedangkan
analisis berdasarkan karakteristik yang tampak pada tes tersebut tanpa uji coba dinamakan analisis rasional,
karena semata-mata dilakukan atas dasar pertimbangan rasio.
Ada beberapa analisis butir soal, yakni analisis tingkat kesukaran soal dan analisis daya pembeda disamping
validitas dan reabilitas. Menganalisis tingkat kesukaran soal artinya mengakaji soal dari segi kesulitannya
sehingga dapat diperoleh soal mana yang termasuk mudah, sedang dan sukar. Sedang menganalisis daya
pembeda artinya mengkaji soal tes dari segi kesanggupan tes tersebut dalam membedakan siswa yang
termasuk kategori kuat/tinggi prestasinya. Sedangkan validitas dan reabilitas mengkaji kesulitan dan
keajegan pertanyaan tes.
ANALISIS BUTIR SOAL
Analisis butir soal yang dalam bahasa inggris disebut item analiysis dilakukan terhadap empirik.Maksudnya,
analisis itu baru dapat dilakukan apabila suatu tes telah dilaksanakan dan hasil jawaban terhadap butir-butir
soal telah kita peroleh.
Pengertian,Tujuan,dan Manfaat Analisis butir soal.
Analisis butir soal adalah suatu kegiatan analisis untuk menentukan tingkat kebaikan butir-butir soal yang
terdapat dalam suatu tes sehingga informasi yang dihasilkan dapat kita pergunakan untuk memperbaiki butir
soal dan tes tersebut.
Tujuan analisis butir soal yaitu untuk mengadakan identifikasi soal-soal yang baik,kurang baik dan soal yang
buruk. Sehingga dapat petunjuk untuk mendapatkan perbaikan.
Manfaat yang dapat diberikan apabila dilakukan analisis terhadap butir soal,sebagai berikut :
Untuk mengetahui soal yang dianalisis telah berfungsi sebagaimana yang diharapkan.
Untuk mengetahui tingkat kesukaran soal.
Untuk mengetahui apakah tanggapan-tanggapan soal yang dianalisis sudah baik susunannya.
Untuk mengetahui apakah soal yang dianalisis sudah betul/baik konstruksinya.
Untuk bahan masukan menyusun program remedial teaching.
Untuk meningkatakan keterampilan guru dalam merencanakan dan mengolah hasil tes.
Jenis-jenis analisis
Ada dua jenis analisis butir soal yang dapat pendidik laksanakan, yaitu :
prosedur peningkatan secara judgement, terkait dengan isi dan bentuk soal.Analisis secara kualitatif
Teknik analisis kualitatif
Teknik moderator merupakan teknik berdiskusi yang di dalamnya terdapat satu orang sebagai penengah.
Berdasarkan teknik ini, setiap butir soal didiskusikan secara bersama-sama dengan beberapa ahli dan
dimoderatori oleh satu orang.

2
Kelebihan : Setiap butir soal dapat dituntaskan secara bersama-sama, perbaikannya seperti apa.
Kelemahan : Teknik ini adalah memerlukan waktu lama untuk rnendiskusikan setiap satu butir soal.
Teknik panel merupakan suatu teknik menelaah butir soal yang setiap butir soalnya ditelaah berdasarkan
kaidah penulisan butir soal. Para penelaah dipersilakan memperbaiki langsung pada teks soal dan
memberikan komentarnya serta memberikan nilai pada setiap butir soalnya yang kriterianya adalah: baik,
diperbaiki, atau diganti.
prosedur peningkatan secara empirik,Analisis secara kuantitatif terkait dengan ciri-ciri statistiknya.
Penelaahan butir soal didasarkan pada data empirik dari butir soal terkait yang telah diujikan.
Pendekatan Analisis Kuantitatif
- Klasik
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta
didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik.
Kelebihan : mudah , murah, sederhana, familier digunakan guru-guru, dapat menggunakan data sampel kecil.
Kelemahan :
(1) Tingkat kemampuan dalam teori klasik adalah true score. Jika tes sulit artinya tingkat kemampuan
peserta didik mudah. Jika tes mudah artinya tingkat kemampuan peserta didik tinggi.
(2) Tingkat kesukaran soal didefinisikan sebagai proporsi peserta didik dalam grup yang menjawab benar
soal. Mudah/sulitnya butir soal tergantung pada kemampuan peserta didik yang dites dan kemampuan tes
yang diberikan.
(3) Daya pembeda, reliabilitas, dan validitas soal/tes didefinisikan berdasarkan grup peserta didik.
-Modern
Penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori
ini merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara peluang
menjawab benar suatu soal dengan kemampuan siswa. IRT merupakan hubungan antara probabilitas jawaban
suatu butir soal yang benar dan kemampuan siswa atau tingkatan/level prestasi siswa.
Kelebihan :
(1) asumsi banyak soal yang diukur pada trait yang sama, perkiraan tingkat kemampuan peserta didik adalah
independen;
(2) asumsi pada populasi tingkat kesukaran, daya pembeda merupakan independen sampel yang
menggambarkan untuk tujuan kalibrasi soal;
(3) statistik yang digunakan untuk menghitung tingkat kemampuan siswa diperkirakan dapat terlaksana
Kelemahan : prosesnya cukup rumit dan sulit
Penghitungan dalam penelaahan butir soal secara kuantitatif dapat menggunakan bantuan kalkulator
scientific atau program komputer.Program yang sudah dikenal secara umum adalah EXCEL, SPSS
(Statitistical Program for Social Science), atau program khusus seperti ITEMAN (analisis secara klasik),
RASCAL, ASCAL, BILOG (analisis secara item respon teori atau IRT), FACETS (analisis model Rasch
untuk data kualitatif).
Dalam analisis butir soal secara kuantitatif ada empat yang perlu dianalisis pada setiap soal yang telah
dikerjakan siswa yaitu:
Analisis Tingkat Kesukaran Soal
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu mudah tidak
merangsang siswa untuk mempertinggi usaha memecahkan. Sebaliknya soal yang terlalu sukar akan
menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi karena di luar
jangkauannya.
Dalam menentukan kriteria soal, apakah soal tersebut termasuk mudah, sedang, atau sukar adalah
berdasarkan pertimbangan pertimbangan tertentu. Pertimbangan tersebut antara lain adalah:
Aspek yang di ukur dalam pernyataan tersebut.
Sifat materi yang di ujikan atau ditanyakan.
Isi bahan yang di tanyakan sesuai dengan bidang keilmuannya, baik luasnya maupun kedalamannya.

3
Cara melakukan analisis untuk menentukan tingkat kesukaran soal adalah sebagai berikut :
1). Menentukan indeks kesukaran (difficulty index), yaitu bilangan yang menunjukan sukar dan mudahnya
sesuatu soal. Dalam dunia evaluasi belajar umumnya dilambangkan dengan huruf P (proporstion).
0,0 1,0
Sukar Mudah
Rumus mencari indeks kesukaran soal :
P= B/Js x 100 %
Dengan:
P=Indeks kesukaran
B= banyaknya siswa yang menjawab soal itu dengan betul
Js= jumlah seluruh siswa peserta tes
2). Menentukan tingkat kesukaran, adalah ukuran yang menunjukan derajat kesulitan soal untuk diselesaikan
oleh siswa dan mengetahui soal-soal yang termasuk mudah, sedang dan sukar.
Rumus mencari tingkat kesukaran soal
i).Tk=JB/JJ x 100 %
Taraf Kesukaran Tes dan Daya Pembeda Sebuah Tes
Menganalisis tingkat kesukaran soal artinya mengkaji soal- soal tes dari segi kesulitanya
sehingga dapat di peroleh soal-soal mana yang termasuk mudah ,sedang dan sukar.
Sedangkan menganalisis daya pembeda artinya mengkaji soal-soal tes dari segi
kesanggupan tes tersebut dalam kategori lemah atau rendah dan kategori kuat atau
tinngi prestasinya (Wayan Nurkancana, 1983; 134).
A. Taraf kesukaran tes
Asumsi yang digunakan untuk memperoleh kwalitas yang baik, disamping memenuhi validitas dan
reliabilitas adalah daya keseimbangan dari tingkat kesulitan soal tersebut. Keseimbangan yang dimaksutkan
adalah adanya soal-soal yang termasuk mudah sedang dan sukar secara porposional. Tingkat kesukaran soal
dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya, bukan dilihat dari segi guru dalam
melakukan analisis pembuat soal.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori mudah sedang dan
sukar.Pertimbangan pertama adalah adanya keseimbangan, yakni jumlah soal sama untuk ke tiga kategori
tersebut. dan ke dua proposi jumlah soal untuk ke tiga kategori tersebut artinya sebagian besar soal berada
dalam kategori sedang sebagian lagi termasuk kategori mudah dan sukar dengan proporsi yang seimbang.
Perbandingan antara soal mudah sedang sukar bisa di buat 3-4-3. Artinya, 30% soal kategori mudah 40%
soal kategori sedang dan 30% lagi soal kategori sukar.
Di samping itu oleh karena suatu tes dimaksutkan untuk memisahkan antara murid-murid yang betul-betul
mempelajari suatu pelajaran dengan murid-murid yang tidak mempelajari pelajaran itu, maka tes atau item
yang baik adalah tes atau item yang betul-betul dapat memisahkan ke dua golongan murid tadi. Jadi setiap
item disamping harus mempunyai derajat kesukaran tertentu, juga harus mampu membedakan antara murid
yang pandai dengan murid yang kurang pandai.
Setelah judgment dilakukan oleh guru kemudian soal tersebut di uji cobakan dan dianalisis apakah judgment
tersebut sesuai atau tidak. Cara melakukan analisis untuk menentukan tingkat kesukaran soal adalah dengan
menggunakan rumus sebagai berikut.
I=
Keterangan:

B
N

4
I =Indeks kesulitan untuk setiap butir soal
B =Banyaknya siswa yang menjawab benar setiap butir soal
N =Banyaknya yang memberikan jawaban pada soal yang di maksudkan.
Kriteria yang digunakan makin kecil indeks yang di peroleh makin sulit soal tersebut. Sebaliknya makin
besar indeks yang diperoleh makin mudah soal tersebut.
Menurut keiteria yang sering di ikuti indeks kesukaran sering di klasifikasikan sebagai berikut :
Soal dengan P 0 0,30 adalah soal kategori sukar.
Soal dengan P 0,31 0,70 adalah soal kategori sedang.
Soal dengan P 0,71 1,00 adakah soal kategori mudah.
Contoh:
Guru SKI memberikan 10 pertanyaan piihan berganda denga komposisi 3 soal mudah , 4 soal sedang , dan 3
soal sukar. Jika di lukiskan susunan soalnya adalah sebagai berikut :
No
soal
1
2
3
4
5
6
7
8
9
10

Abilitas yang Diukur

Tingkat kesukaran soal

Pengetahuan
Aplikasi
Pemahaman
Analisis
Evaluasi
Sitesis
Pemahaman
Aplikasi
Analisis
Sitesis

Mudah
Sedang
Mudah
Sedang
Sukar
Sukar
Mudah
Sedang
Sedang
Sukar

Kemudian soal tersebut di berikan kepada 10 orang siswa dan tidak seorang pun yang
tidak mengisi seluruh pertanyaan tersebut. Setelah di periksa hasilnya adalah sebagai
berikut.
No
soal

Banyakya siswa yang


menjawab (N)

Banyaknya siswa yang


menjawab (B)

1
2
3
4
5
6
7
8
9
10

20
20
20
20
20
20
20
20
20
20

18
12
10
20
6
4
16
11
17
5

Indeks
B
N
0,9
0,6
0,5
1,0
0,3
0,2
0,8
0,55
0,85
0,25

Kategori soal

Mudah
Sedang
Mudah
Seang
Sukar
Sukar
Mudah
Sedang
Sedang
Sukar

Dari sebaran di atas ternyata ada tiga soal yang meleset, yakni soal nomor 3 yang semula di proyeksikan
kedalam kategori mudah, setelah di coba ternyata termasuk kedalam kadegori sedang.demikian,juga soal
nomor 4 yang semula di proyeksikan sededang ternyata termasuk kedalam kategori mudah . nomor 9 semula
di kategorikan sedang ternyata termasuk kedalam kategori mudah. Sedangkan tujuh soal yang lainya sesuai
dengan proyeksi semula atas dasar tersebut ketiga soal diatas harus diperbaiki kembali.
Soal no : 3 dinaikan dalam kategori sedang.
Soal no : 4 diturunkan dalam kategori mudah.

5
Soal no : 9 di turunkan kedalam kategori mudah.
B. Analisis Daya Pembeda
Salah satu tujuan analisis kuantitatif soal adalah untuk menentukan dapat tidaknya suatu soal membedakan
kelompok dalam aspek yang di ukur sesuai dengan perbedaan yang ada dlam kelompok itu.
Indeks yang di gunakan dalam membedakan peserta tes yang berkemampuan tinggi dengan peserta tes yang
berkemampuan rendah adalah indeks daya pembeda.
Indeks ini menunjukkan kesesuaian antara fungsi
soal dengan fungsi tes secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda
soal yaitu daya yang membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang
berkemampuan rendah.
1. Hubungan antara tingkat kesukaran dan daya pembeda.
Tingkat kesukaran berpengaruh langsung pada daya pembeda soal. Jila setiap orang memilih benar jawaban (
P = 1 ), atau jika setiap orang memiliki benar jawaban (P = 0) maka soal tidak dapat digunakan untuk
membedakan kemampuan peserta tes. oleh kaena itu soal yang baik adalah soal yang memiliki daya
pembeda antara peserta tes kelompok atas dan kelompok rendah. Kelompok rendah memiliki tingkat
kemampuam 0.50 dan akan diperoleh daya pembeda kelompok atas maksimal 1.00.
Daya pembeda soal pilihan ganda
Bagaimana menentukan daya pembeda soal pilihan ganda?Yang menunjukkan tingkat kesukaran soal
pilihan ganda. Daya pembeda di tentukan dengan melihat kelompok atas dan kelompok bawah berdasarkam
sekor total. perhatikan tabel berikut.
2.

No
1
2
3
4
5
6
7
8
9
10

Peserta
1
1
1
1
1
1
1
1
1
1
1

Aan
Adi
Ana
Andi
Candra
dian
Risma
sasa
titik
uun

Skor
Total

Nomor soal
2
1
0
1
1
0
1
0
1
0
0

3
1
0
1
1
1
1
0
1
0
0

4
1
0
1
1
0
1
0
1
1
0

5
1
1
0
1
1
1
1
0
1
0

6
1
0
1
1
0
1
0
1
0
0

7
1
0
1
1
0
1
0
1
0
1

8
1
0
1
1
0
1
0
0
0
1

9
0
1
0
0
1
0
1
0
1
1

10
0
0
0
0
0
0
0
0
0
0

8
3
7
8
4
8
3
6
4
4

Untuk memudahkan perhitungan sekor yang terdapat pada tabel di urutkan dari peserta tes yang memperoleh
skor yang tinggi menuju peserta yang memperoleh sekor yang rendah. Perhatikan tabel berikut:
No
1
2
3
4
5
6
7
8

Pesert
a
Aan
Dian
Andi
Ana
Sasa
Candra
Titik
Uun

1
1
1
1
1
1
1
1
1

2
1
1
1
1
1
0
0
0

3
1
1
1
1
1
1
0
0

4
1
1
1
1
1
0
1
0

Nomor soal
5
6
1
1
1
1
1
1
0
1
0
1
1
0
1
0
1
0

Skor
7
1
1
1
1
1
0
0
0

8
1
1
1
1
0
0
0
1

9
0
0
0
0
0
1
1
1

10
0
0
0
0
0
0
0
0

8
8
8
7
6
4
4
4

9 Adi
Jumlah
jawaban
benar
Jumlah
peserta
Kesukaran

1
1

0
0

0
0

0
0

1
1

0
0

0
0

0
0

1
1

0
0

10

10

10

10

10

10

10

10

10

10

10

0.00 0.50 0.6


0

0.60 0.80 0.50 0.50 0.50 0.5

1.00

Keterangan :
Skor Siswa kelompok atas 6 10
Skor Siswakelompok bawah 5 - 1
Berikut ini cara menghitung daya beda:
Nilai DB akan merentang antara nilai -1,00 hingga +1.00. dengan mengambil soal comtoh di atas
beberapa kondisi soal dapat di jelaskan sebagai berikut:
contoh : soal nomor 2 semua siswa kelompok atas dapat menjawab benar dan semua siswa
kelompok bawah menjawab salah, maka DB akan + 1,00. DB dapat di tentukan besarnya
dengan rumus sebagi berikut : PT PR

TB
T
PT
PR
TB
T
RB
R

RB
T

Proporsi siswa yang menjawab benar pada kelompok siswa yang mwmpunyai kemampuan tinggi
=Proporsi siswa yang menjawab benar pada kelompok siswa yang mwmpunyai kemampuan rendah
=Jumlah siswa yang menjawab benar pada kelompok siswa yang mempunyai kemampuan tinggi
=Jumlah kelompok siswa yang mempunyai kemampuan tinggi.
=Jumlah siswa yang menjawab benar pada kelompok siswa yang mempunyai kemampuan rendah
=Jumlah kelompok siswa yang mempunyai kemampuan rendah.
=

Berikut adalah tabel kategori tingkat kesukaran dalam daya beda.


No soal
1
2
3
4
5
6
7
8
9
10

Kelompok atas
1.00
1.00
1.00
1.00
0.30
1.00
1.00
0.80
0.00
0.00

Kelompok bawah
1.00
0.00
0.10
0.10
0.60
0.00
0.10
0.10
1.00
0.00

Daya Beda
0.00
1.00
0.90
0.90
-0.30
1.00
0.90
0.70
-1.00
0.00

Kembali pada tingkat kesukaran yang di tunjukkan pada tabel dapat kita lihat soal no 9
merupakan soal yang sukar bagi kelompok atas tetapi sangat mudah bagi kelompok bawah soal
no 10 merupakan soal yang sangat sukar baik bagi kelompok atas maupun kelompok bawah.
soal nomor 2 dan nomor 6 merupakan soal yang sangat sukar dagi kelompok bawah tetapi relatif
mudah untuk kelompok atas. Perhitungan daya beda sangatlah sederhana dan menyajikan
informasi yang dapat membedakan masing masing kelompok berdasarkan kemampuan mereka.
(engelhart, 1965) . soal nomor 1 dan nomor 10 tidak menujukkan perbedaan antar kelompok.

7
Tidak adanya perbedaan tingkat kesukaran pada soal nomor 1 dan nomor 10 yang juga
menujukkan bahwa soal tidak dapat menujukkan perbedaan antar kelompok. Soal no 5 dan no 9
mempunyai indeks dayabeda yang baik, tetapi terbalik. Tanda negatif no 5 dan no 9 menujukkan
bahwa peserta tes yang kemampuanya tinggi tidak dapat menjawab soal dengan benar , tetapi
peserta tes yang kemampuanya rendah menjawab dengan benar , data setatistik diatas
menunjukkan bahwa soal nomor 5 dan 9 merupakan soal yang tidak baik, data setatistik
menujukkan bahwa soal nomer 2,3,4,6,7 dan 8 merupakan soal yang baik ditinjau dari daya
pembeda.

3. Daya pembeda soal uraian


Bagaimana cara menentukan daya pembeda soal uraian? Lankah yang di lakukan untuk menghitung daya
pembeda sama seperti yang dilakukan pada soal pilihan ganda. Urutkan seluruh peserta tes berdasarkan
perolehan sekor total dari yang tinggi keperolehan sekor yang rendah.
Dari contoh diatasdapat disimpulkan bahwa cara menghitung daya pembeda adalah dengan menempuh
langkah sebagai berikut :
1. Memeriksa jawaban soal semua siswa peserta tes.
2. Membuat daftar peringkat atau urutan hasil tes berdasarkan sekor yang di capainya.
3. Menentukan jumlah siswa kelompok atas dan kelompok bawah.
4. Menghitung selisi tingkat kesukaran menjawab soal antara kelompok atas dan
kelompok bawah.
5. Membandingkan nilai selisih yang di peroleh.
6. Menentukan ada tidaknya daya pembeda pada setiap nomor soal dengan kriteria
memiliki daya pembeda.
TINGKAT KESUKARAN DAN DAYA PEMBEDA)
ANALSIS BUTIR (TINGKAT KESUKARAN DAN DAYA PEMBEDA)
Written By Ahmad Multazam on Wednesday, January 23, 2013 | 3:55 AM

I.
PENDAHULUAN
Salah satu tugas penting yang seringkali dilupakan oleh staf pengajar adalah tugas
melakukan evaluasi terhadap alat pengukur yang telah digunakan untuk mengukur
keberhasilan belajar dari para peserta didiknya. Alat pengukur dimaksud adalah tes
hasil belajar, yang batang tubuhnya terdiri dari kumpulan butir-butir soal. 1[1]
Alat pengukur itu bisa dilakukan dengan jalan melakukan penganalisisan terhadap tes
hasil belajar yang telah dijadikan alat pengukur dalam rangka mengukur keberhasilan
belajar dari para peeserta tes tersebut. Disini tester perlu melakukan penelusuran dan
pelacakan dengan secara cermat, terhadap butir-butir soal yang meruakan bagian tak
terpisahkan dari tes hasil belajar sebagai suatu totalitas. penelusuran dan pelacakan
dilaksanakan oleh tester dengan tujuan untuk mengetahui, apakah butir-butir item
yang membangun tes hasil belajar itu sudah dapat menjalankan fungsinya sebagai
alat pengukur hasil belajar yang memadai atau belum. Identifikasi terhadap setiap
butir soal tes hasil belajar itu dilakukan dengan harapan akan menghasilkan berbagai
informasi berharga, yang pada dasarnya akan merupakan umpan balik guna
melakukan perbaikan, pembenahan, dan penyempurnaan kembali terhadap butir-butir
item yang telah dikeluarkan dalam tes hasil belajar, sehingga pada masa-masa yang
akan datang tes hasil belajar yang disusun atau dirancang oleh tester itu betul-betul
dapat menjalankan fungsinya sebagai alat pengukur hasil belajar yang memilki
kualitas yang tinggi.2[2]
1[1] Prof. Drs. Anas Sudijono, Pengantar Evaluasi Pendidikan, (Jakarta: PT. Raja Grafindo
Persada, 1996), hlm. 367-368

2[2] Ibid, hlm. 369-370

8
II.
A.
B.
C.
D.

Rummusan masalah
Bagaimana Teknik Analisis Soal Tes ( Item Analisis ) ?
Bagaimana Teknik Analisis Tingkat Kesukaran ?
Bagaimana Teknik Analisis Daya Pembeda Item ?
Bagaimana Teknik Analisis Fungsi Distraktor ?

III.
PEMBAHASAN
A. Teknik Analisis Soal Tes ( Item Analisis )
Pada analisis butir, butir akan dilihat karakteristiknya dan dipilih butir-butir
yang baik. butir yang baik adalah butir-butir yang karakteristiknya memenuhi syarat
sebagaimana kriteria karakteristik butir yang baik. 3[3]
Adapun cara untuk memperbaiki proses belajar- mengajar yang paling efektif ialah
dengan jalan mengevaluasi tes hasil belajar yang diperoleh dari proses belajarmengajar itu sendiri. Dengan kata lain, hasil tes itu di olah sedemikian rupa sehingga
dari hasil pengolahan itu dapat diketahui komponen komponen manakah dari proses
mengajar itu yang masih lemah.
Pengolahan tes hasil belajar dalam rangka memperoleh proses belajar mengajar dapat
dilakukan dengan berbagai cara, antara lain:
1. Dengan membuat analisis soal ( item analysis )
2. Dengan menghitung validitas dan keandalan tes
Dalam pasal ini khusus akan dibicarakan cara yang pertama yaitu teknik analisis soal
atau item analisis.
Menurut Thorndike dan Hagen (1977), analisis terhadap soal-soal tes yang telah
dijawab oleh murid- murid mempunyai dua tujuan penting.
Pertama, jawaban- jawaban soal itu merupakan informasi diagnostik untuk meneliti
pelajaran dari kelas itu dan kegagalan- kegagalan belajar, serta selanjutnya untuk
membimbing ke arah cara yang lebih baik.
Kedua, jawaban- jawaban terhadap soal yang terpisah dan perbaikan ( review ) soalsoal yang didasarkan atas jawaban jawaban itu merupakan basis bagi persiapan testes yang lebih baik untuk tahun berikutnya.
Jadi tujuan khusus dari items analisis ialah mencari soal tes mana yang baik dan mana
yang tidak baik, dengan membuat analisis soal, sedikitnya dapat mengetahui dari tiga
segi yang dapat diperoleh dari tiap soal, yaitu:
a. Dari segi derajat kesukaran itemnya
b. Dari segi daya pembeda itemnya
c. Dari segi fungsi distraktornya.4[4]
B. Teknik Analisis Tingkat Kesukaran
Suatu tes tidakk boleh terlalu mudah, dan juga tidak boleh terlalu sukar. Sebuah item
yang terlalu mudah sehingga dapat dijawab dengan benar oleh semua siswa
bukanlah merupakan item yang baik . begitu pula item yang terlalu sukar sehingga
tidak dapat dijawab oleh semua siswa juga bukan merupakan item yang baik. Jadi item
yang baik adalah item yang mempunyai derajat kesukaran tertentu. 5[5]
Menurut Witherington dalam bukunya berjudul psychological Education, mengatakan
bahwa sudah atau belum memadainya derajat kesukaran item tes hasil belajar dapat
diketahui dari besar kecilnya angka yang melambangkan tingkat kesulitan dari item

3[3] Purwanto, evaluasi hasil belajar, yogyakarta:pustaka pelajar, 2009, hlm.97.


4[4] M. Ngalim Purwanto, Prinsip- Prinsip dan Teknik Evaluasi Pengajaran, ( Bandung : Remaja Rosdakarya, 2002), hlm. 118
5[5][5] Wayan nurkancana, evaluasi hasil belajar, Surabaya: usana offset printing, 1990, hlm.155-156

9
tersebut. Angka yang dapat memberikan petunjuk mengenai tingkat kesukaran item
itu dikenal dengan istilah difficulty index ( angka index kesukaran item), yang dalam
dunia evaluasi hasil belajar umumnya dilambangkan dengan huruf P, yaitu singkatan
dari kata proportion( proporsi =proposa). Dan angka indek kesukaran item itu
besarnya berkisar antara 0,00 sampai dengan 1,00. Artinya, angka indek kesukaran itu
paling rendah adalah 0,00 dan paling tinggi adalah 1,00. Angka indek kesukaran
sebesar 0,00 ( P= 0,00) merupakan petunjuk bagi tester bahwa butir item tersebut
termasuk dalam katagori item yang terlalu sukar, sebab di sini seluruh testee tidak
dapat menjawab item dengan betul ( yang dapat menjawab dengan betul =0).
Sebaliknya, apabila angka indek kesukaran item itu adalah 1,00 ( P= 1,00) hal ini
mengandung makna bahwa butir item yang bersangkutan adalah termasuk dalam
katagori item yang terlalu mudah, sebab di sini seluruh testee dapat menjawab
dengan betul butir item yang bersangkutan ( yang dapat menjawab dengan butir =
100%= 100= 1,00

0,0

0,1

0,2

0,3

P:
0,4

0,5

0,6

0,7

0,8

0,9

1,00

Terlalu sukar
Terlalu mudah 6[6]
Angka indek kesukaran item itu dapat diperoleh dengan menggunakan rumus :
Rumus 1
P =
B
JS
Keterangan :
P= angka indek kesukaran item.
B= Banyaknya siswa yang dapat menjawab soal itu denga betul
JS= jumlah seluruh siswa peserta tes7[7]
Rumus 2
TK= U+L
T
Keterangan :
TK= taraf kesukaran yang di cari
U= Jumlah siswa yang termasuk kelompok pandai yang menjawab benar
untuk tiap
soal
L= Jumlah siswa yang termasuk kelompok kurang yang menjawab benar soal
T= Jumlah siswa dari kelompok pandai dan kelompok kurang 8[8]
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan
sebagai berikut:

Soal dengan P 0,00 sampai 0,30 adalah soal sukar

Soal dengan P 0,30 sampai 0,70 adalah soal sedang

Soal dengan P 0,70 sampai 1,00 adalah soal mudah

6[6] Prof. Drs. Anas Sudijono, Op. Cit, hlm. 370- 371
7[7] Dr. Suharsimi Arikunto, Dasar-Dasar Evaluasi Pendidikan, (Jakarta: PT. Bumi Aksara, 2010), hlm.208
8[8] M. Ngalim Purwanto, Op.Cit, hlm. 119

10
C. Teknik Analisis Daya Pembeda Item
Daya pembeda (item discriminination) adalah untuk menentukan dapat
tidaknya suatu soal membedakan kelompok dalam aspek yang diukur sesuai dengan
perbedaan yang ada dalam kelomppok itu. Indeks yang digunakan dalam
membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang
berkemampuan rendah. Indeks ini menunjukkan kesesuaian antara fungsi soal
dengan fungsi tes secara keseluruhan. 9[9]
Mengetahui daya pembeda item itu penting sekali, sebab salah satu dasar yang
dipegang untuk menyusun butir-butir item tes hasil belajar adalah adanya anggapan,
bahwa kemampuan antara siswa yang satu dengan siswa yang lain itu berbeda-beda,
dan bahwa butir-butir tes hasil belajar itu haruslah mampu memberikan hasil tes yang
mencerminkan adanya perbedaan-perbedaan kemampuan yang terdapat di kalangan
siswa tersebut.10[10]
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi,
disingkat D. Seperti halnya indeks kesukaran, indeks diskriminasi (daya pembeda) ini
berkisar antara 0,00 sampai 1,00. Hanya bedanya, indeks kesukaran tidak mengenal
tanda negatif (-), tetapi pada indeks diskriminasi ada tanda negatif. 11[1 1]
Daya pembeda item itu dapat diketahui melalui atau dengan melihat besar kecilnya
angka indeks diskriminasi item. Angka indeks diskriminasi item adalah sebuah angka
yang menunjukkan besar kecilnya daya pembeda yang dimiliki oleh sebutir item. Daya
pembeda pada dasarnya dihitung atas dasar pembagian siswa ke dalam dua
kelompok, yaitu kelompok atas yakni kelompok yang tergolong pandai, dan kelompok
bawah, yaitu kelompok siswa yang tergolong bodoh. Dalam hubungan ini, jika sebutir
item memiliki angka indeks diskriminasi item dengan tanda positif, hal ini
merupakanmpetunjuk bahwa butir item tersebut telah memiliki daya pembeda, dalam
arti bahwa siswa yang termasuk kategori pandai lebih banyak yang dapat menjawab
dengan betul terhadap butir item yang bersangkutan, sedangkan siswa yang termasuk
kategori bodoh lebih banyak yang menjawab salah.
Jika sebutir item angka indeks diskriminasinya = 0,00 (nihil), maka hal ini
menunjukkan bahwa butir item yang bersangkutan tidak memiliki daya pembeda
sama sekali, dalam arti bahwa jumlah siswa kelompok atas yang jawabannya betul
(atau salah) sama dengan jumlah siswa kelompok bawah yang jawabannya betul. Jadi
diantara kedua kelompok siswa tersebut tidak ada perbedaannya sama sekali, atau
perbedaannya sama dengan nol.
Adapun apabila angka indeks diskriminasi item dari sebutir item bertanda negatif,
maka pengertian yang terkandung didalamnya adalah, bahwa butir item yang
bersangkutan lebih banyak dijawab betul oleh siswa kelompok bawah ketimbang siswa
kelompok atas.12[12] Dengan demikian ada tiga titik pada daya pembeda yaitu:
-1,000.00
+1,00
Daya pembeda

tidak memiliki
Negatif

tinggi13[1 3]
Adapun cara menentukan daya pembeda (nilai D) adalah:

daya pembeda
daya pembeda

9[9] Sumarna suprapranata, Analisi,validitas, rehabilitas dan interprestasi hasil tes, bandung: pt remaja
rosda karya, 2006, hlm.23

10[10] Prof. Drs. Anas Sudijono, Op.Cit, hlm. 385-386


11[11] Prof. Dr. Suharsimi Arikunto, Op.Cit, hlm.211
12[12] Prof. Drs. Anas Sudijono, Op, Cit, hlm, 387-388
13[13] Drs. H. Daryanto, Evaluasi Pendidikan, (Jakarta: Rineka Cipta, 2008), hlm. 184

11
D = WL WHatau

D = BA - BB = PA - PB

N JA
JB
Keterangan :
D = besarnya daya pembeda yang dicari
WL = jumlah siswa yang menjawab salah dari kelompok rendah
WH = jumlah siswa yang menjawab salah dari kelompok atas 14[14]
JA = jumlah peserta kelompok atas
JB = jumlah peserta kelompok bawah
BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
BB = banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar
PA = proporsi peserta kelompok atas yang menjawab benar (P sebagai indeks
kesukaran)
PB = proporsi peserta kelompok bawah yang menjawab benar 15[1 5]
Adapun klasifikasi daya pembeda adalah:
Besarnya angka indeks
Klasifikasi
diskriminasi item (D)
Kurang dari 0,20

Poor (jelek)

0,20 0.40

Satisfactory
(cukup)

0,40 0,70

Good (baik)

0,70 1,00

Excellent
(sangat baik)

Bertanda negatif

interpretasi
Butir item yang bersangkutan daya
pembedanya
lemah
sekali,
dianggap tidak memiliki daya
pembeda yang baik
Butir item yang bersangkutan telah
memiliki daya pembeda yang cukup
(sedang)
Butir item yang bersangkutan telah
memiliki daya pembeda yang baik
Butir item yang bersangkutan telah
memiliki daya pembeda yang baik
sekali
Butir item yang bersangkutan daya
pembedanya negatif (jelek sekali)16
[1 6]

D. Teknik Analisis Fungsi Distraktor


Pada saat membicarakan tentang objektif bentuk multiple choice item telah
dikemukakan bahwa pada tes objektif bentuk multiple choice item tesebut untuk
setiap butir item yang dikeluarkan dalam tes hasil belajar telah dilengkapi dengan
beberapa kemungkinan jawab, atau yang sering dikenal dengan istilah option atau
alternatif.
Option atau alternatif itu jumlahnya berkisar antara tiga sampai dengan lima
buah, dan dari kemungkinan-kemungkinan jawab yang terpasang pada setiap butir
item itu, salah satu diantaranya adalah merupakan jawaban betul, sedangkan sisanya
adalah merupakan jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal
dengan istilah distraktor (pengecoh).
Tujuan utama dari pemasangan distraktor pada setiap butir item itu adalah,
agar dari sekian banyak testee yang mengikuti tes hasil belajar ada yang tertarik
untuk memilihnya, sebab mereka menyangka bahwa distraktor yang mereka pilih itu
14[14] Drs. M. Chabib Thoha, Teknik Evaluasi Pendidikan, (Jakarta: PT. Raja Grafindo Persada, 2001), hlm.
147

15[15] Prof. Dr. Suharsimi Arikunto, Op. Cit, hlm. 213-214


16[16] Prof. Drs. Anas Sudijono, Op, Cit, hlm, 389

12
merupakan jawaban betul. Jadi mereka terkecoh, menganggap bahwa distraktor yang
terpasang pada item itu sebagai kunci jawaban item, padahal bukan. Semakin banyak
testee yang terkecoh, maka dapat dinyatakan bahwa distraktor yang dipasang itu
makin dapat menjalankan fungsinya dengan sebaik-baiknya. Sebaliknya, apabila
distraktor yang dipasang pada setiap butir item itu tidak laku(maksudnya: tidak ada
seoangpun dari sekian banyak testee yang merasa tertarik untuk memilih distraktor
tersebut sebagai jawaban betul), maka hal ini mengandung makna bahwa distraktor
tersebut tidak menjalankan fungsinya dengan baik. Dengan kata lain, distraktor baru
dapat dikatakan telah dapat menjalankan fungsinya dengan baik, apabila distraktor
tersebut telah memiliki daya tarik demikian rupa, sehingga para testee (khususnya
yang termasuk kategori kemampuan rendah) merasa bimbang, dan ragu-ragu
sehingga pada akhirnya mereka menjadi terkecoh untuk memilih distraktor sebagai
jawaban betul, sebab mereka mengira bahwa yang mereka pilih itu kunci jawaban
item, padahal bukan.
Menganalisis fungsi distraktor sering dikenal dengan istilah lain, yaitu:
menganalisis pola penyebaran jawaban item. Adapun yang dimaksud pola penyebaran
item ialah suatu pola yang dapat menggambarkan bagaimana testee menentukan
pilihan jawabnya terhadap kemungkinan-kemungkinan jawab yang telah dipasangkan
pada setiap butir item.
Suatu kemungkinan dapat terjadi, yaitu bahwa dari keseluruhan alternatif yang
dipasang pada butir item tertentu, samasekali tidak dipilih oleh testee. Dengan kata
lain, testee menyatakan blangko. Pernyataan blangko ini sering dikenal dengan
istilah Oniet dfan biasa diberi lambang dengan huruf O. 17[1 7]
Sesuatu distraktor dapat diperlakukan dengan tiga cara:
a.
Diterima, karena sudah baik
b.
Ditolak, karena tidak baik
c.
Ditulis kembali, karena kurang baik
Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga
hanya perlu ditulis kembali, dengan perubahan seperlunya. Menulis soal adalah suatu
pekerjaan sulit, sehingga apabila masih dapat diperbaiki saja, tidak dibuang. Suatu
distraktor dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% pengikut
tes.18[18]
ANALISIS BUTIR SOAL
A. PENDAHULUAN
Evaluasi pembelajaran merupakan salah satu unsure yang penting dalam proses pembelajaran. Melihat realita
yang ada saat ini system evaluasi pendidikan di Indonesia masih mengedapankan aspek kognitif siswa saja,
contohnya adalah dengan diselenggarakan system UAN dan ujian akhir sekolah. Akibatnya, dalam
menyusun soal-soal tersebut seorang guru pada umumnya sulit menentukan unsure-unsur soal yang
memenuhi standar kompetensi soal yang baik. Hal tersebut salah satunya disebabkan oleh ketidakpahaman
dan ketidakmampuan seorang guru dalam membuat soal sesuai dengan kompetensi soal yang baik.
Kasus-kasus dilapangan menunjukkan kebanyakan seorang guru dalam membuat soal kadang terlalu sulit
dan terkadang terlalu mudah. Kedua hal tersebut berdampak kurang baik bagi siswa. Jika seorang guru dalam
menyusun soal terlalu mudah, akan mengakibatkan siswa kurang serius dalam belajar dan dapat
dikategorikan menyepelekan. Sebaliknya jika seorang guru membuat soal yang terlalu sulit dampak
negatifnya adalah siswa menjadi putus asa dan tidak semangat dalam ujian dan berujung meningkatnya hasil
ujian yang tidak jujur dikarenakan mencontek. Oleh karena itu seorang guru wajib mengetahui unsure-unsur
yang baik dalam membuat soal.
Analisis soal antara lain bertujuan untuk mengadakan identifikasi soal-soal yang baik, kurang baik dan soal
yang jelek. Dengan analisis soal dapat diperoleh informasi tentang kejelekan sebuah soal dan petunjuk untuk
17[17] Ibid, hlm. 409-411
18[18] Prof. Dr. Suharsimi Arikunto, Op. Cit, hlm. 220

13
mengadakan perbaikan. Dan kapan sebuah soal dikatakan baik? Untuk memberikan jawaban terhadap
pertanyaan ini, perlu diterangkan tiga masalah yang berhubungan dengan analisis soal, yaitu : taraf
kesukaran, daya pembeda dan pola jawaban soal.
B. RUMUSAN MASALAH
Untuk mengetahui apakah masing-masing item soal baik, perlu dilakukan analisis terhadap 3 hal, yaitu :
1. Seberapa besar tingkat kesukaran pada butir item itu?
2. Apakah butir item itu mampu membedakan kemampuan antara siswa yang pandai dengan siswa yang
kurang pandai?
3. Apakah butir item tersebut menggunakan distraktor yang baik atau belum?
C.

PEMBAHASAN

1.
Menentukan Tingkat Kesukaran Item
Soal yang baik adalah soal yang tidak terlalu mudah dan tidak terlalu sukar. Soal yang terlalu mudah tidak
merangsang siswa untuk mempertinggi usaha memecahkannya. Sebaliknya soal yang terlalu sukar akan
menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi karena di luar
jangkauannya. Melihat realita yang ada, seorang siswa akan menjadi hafal akan kebiasaan guru-gurunya
dalam hal pembuatan soal ini. Misalnya, guru A dalam memberikan ulangan soalnya mudah-mudah,
sedangkan guru B kalau memberikan ulangan soalnya sukar-sukar. Dengan pengetahuannya tentang
kebiasaan ini siswa akan belajar giat jika menghadapi ulangan dari guru B dan sebaliknya jika akan
menghadapi ulangan dari guru A, tidak mau belajar giat bahkan mungkin tidak mau belajar sama sekali.
Bilangan yang menunjukkan sukar dan mudahnya suatu soal disebut indeks kesukaran (difficulty index).
Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran ini menunjukkan taraf
kesukaran soal. Soal dengan indeks kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya
indeks 1,0 menunjukkan bahwa soal itu terlalu mudah.
0,0 1,0
Sukar
Mudah
Di dalam istilah evaluasi, indeks kesukaran ini diberi simbul P (p besar), singkatan dari kata Proporsi.
Dengan demikian maka soal dengan P = 0,70 lebih mudah jika dibandingkan dengan P = 0,20. Sebaliknya
soal dengan P = 0,30 lebih sukar daripada soal dengan P = 0,80.
Melihat besarnya bilangan indeks ini maka lebih cocok jika bukan disebut sebagai indeks kesukaran tetapi
indeks kemudahan atau indeks fasilitas, karena semakin mudah soal itu, semakin besar pula bilangan
indeksnya. Akan tetapi telah disepakati bahwa semakin tinggi indeksnya menunjukkan soal yang semakin
mudah, tetapi tetap disebut indeks kesukaran.
Rumus mencari P adalah :
P=
B
JS
Keterangan :
P = Indeks Kesukaran
B = Banyaknya siswa yang menjawab soal itu dengan betul
JS = Jumlah seluruh siswa peserta Tes.
2.
Menentukan Kemampuan Daya Pembeda
Daya pembeda soal adalah kemampuan sesuatu soal untuk membedakan antara siswa yang pandai
(berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan rendah). Angka yang menunjukkan
besarnya daya pembeda disebut indeks kesukaran, indeks diskriminasi (daya pembeda) ini berkisar antara
0,00 sampai 1,00. Hanya bedanya, indeks kesukaran tidak mengenal negative (-), tetapi pada indeks
diskriminasi ada tanda negative. Tanda negative pada indeks diskriminasi digunakan jika sesuatu soal
terbalik menunjukkan kualitas testee. Yaitu anak pandai disebut bodoh dan anak bodoh disebut pandai.
Dengan ada tiga titik pada daya pembeda yaitu:
-100
0,00
+1,00
Daya pembeda
daya pembeda
daya pembeda tinggi
Negative
rendah
(positif)

14
Bagi sesuatu soal yang dapat dijawab benar oleh siswa pandai Maupun siswa bodoh, maka soal itu tidak baik
karena tidak mempunyai daya pembeda. Demikian pula jika semua kelompok bawah menjawab betul, maka
nilai kelompok bawah sama-sama menjawab benar atau sama-sama menjawab salah, maka soal tersebut
mempunyai nilai D 0,00. Karena tidak mempunyai daya pembeda sama sekali.
3. Pola Jawaban Soal
Yang dimaksud pola jawaban disini adalah distribusi testee dalam hal menentukan pilihan jawaban pada soal
bentuk pilihan ganda. Pada jawaban soal diperoleh dengan menghitung bayaknya testee yang memilih
pilihan jawaban a, b, c, atau d yang tidak memilih pilihan manapun (blangko). Dalam istilah evaluasi disebut
omit, disingkat O.
Dari pola jawaban soal dapat ditentukan apakah pengecoh(distractor) berfungsi sebagai pengecoh dengan
baik atau tidak tidak. Pengecoh yang tidak dipilih sama sekali oleh testee berarti bahwa pengecoh itu jelek,
terlalu menyolok menyesatkan. Sebaiknya sebuah dictator (pengecoh) dapat dikatakan berfungsi dengan
baik apabila distaktor tersebut mempunya daya tarik yang besar bagi pengikut-pengikut tes yang kurang
memahami konsep atau kurang menguasi bahan.
Dengan melihat pola jawaban soal, maka dapat diketahui:
1) Taraf kesukaran soal
2) Taraf pembeda soal
3)
Baik dan tidaknya distaktor
Sesuatu distaktor dapat diperlakukan dengan tiga cara yaitu:
a) Diterima, karena sudah baik
b) Ditolak, karena tidak baik
c) Ditulis kembali, karena kurang baik
Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga hanya perlu ditulis kembali,
dengan perubahan seperlunya.
Menulis soal adalah suatu kesukaran yang sulit sehingga, apabila masih dapat distaktor dapat dikatakan
berfungsi baik jika paling sedikit dipilih oleh 5% pengikut tes.
D. KESIMPULAN
Tidak ada usaha guru yang lebih baik selain usaha untuk selalu meningkatkan mutu tes yang disusunnya.
Namun hal ini dilaksanakan karena kecenderungan seseorang untuk beranggapan bahwa yang menjadi hasil
karyanya adalah yang terbaik, atau setidak-tidaknya sudah cukup baik.
Guru yang sudah banyak berpengalaman, mengajar dan menyusun soal-soal tes, juga masih sukar menyadari
bahwa tesnya belum sempurna. Oleh karena itu cara yang paling baik adalah secara jujur melihat hasil yang
diperoleh oleh siswa. Ada 3 point yang perlu digaris bawahi antara lain :
1. Soal yang baik adalah soal yang tidak terlalu mudah dan tidak pula terlalu sulit. karena kalau soal yang
kita buat terlalu mudah tidak akan merengsang siwa untuk mempertinggi usaha memecahkannya. Dan
apabila soalnya terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat
untuk mencoba lagi karena susah untuk dicapainya.
2. Kemampuan sesuatu soal untuk membedakan antara siswa yang pandai (berkemampuan tinggi) dengan
siswa yang bodoh (berkemampuan rendah) dapat kita ketahui dengan mengetahui daya pembeda.
3. Dari pola jawaban soal dapat ditentukan apakah penngecoh (distactor) berfungsi sebagi pengecoh dengan
baik atau tidak.sebuah distactor dikatakan baik apabila distaktor tersebut mempunyai daya tarik yang
besar bagi pengikut-pengikut tes yang kurang menguasai konsep atau kurang menguasai bahan.
E.

DAFTAR PUSTAKA

Arikunto, Suharsimi Drs. 1995. Dasar-Dasar Evaluasi Pendidikan. Jakarta : Bumi Aksara.
Daryanto, Drs. 2001. Evaluasi Pendidikan. Jakarta : Rineka Cipta.
Slameto, Drs. 2001. Evaluasi Pendidikan. Jakarta : Bumi Aksara.
Thoha, M. Chabib M.A, Drs. 1994. Teknik Evaluasi Pendidikan. Jakarta : Raja Grafindo Persada.

TINGKAT KESUKARAN

15
Tingkat kesukaran suatu butir soal adalah proporsi/persentase subjek yang menjawab butir tes tertentu
dengan benar. Sedangkan angka yang menunjukan sukar atau mudahnya butir soal dinamakan indeks
kesukaran yang dilambangkan dengan huruf p, nilai p ini terletak antara 0 dan 1.
Persoalan yang penting dalam melakukan analisis tingkat kesukaran soal adalah penentuan proporsi dan
kriteria soal yang termasuk mudah, sedang dan sukar. Tingkat kesukaran soal harus dipandang dari
kesanggupan atau kemampuan siswa dalam menjawabnya, bukan dilihat dari sudut guru.
Ada beberapa alasan untuk menyatakan tingkat kesukaran soal. Bisa saja tingkat kesukaran soal ditentukan
oleh kedalaman soal, kompleksitas, atau hal-hal lain yang berkaitan dengan kemampuan yang diukur oleh
soal. Namun demikian, ketika kita mengkaji lebih mendalam terhadap tingkat kesukaran soal, akan sulit
menentukan mengapa sebuah soal lebih sukar dibandingkan dengan soal yang lain.
Intinya, bermutu atau tidaknya butir-butir item tes hasil belajar pertama-tama dapat diketahui dari derajat
kesukaran atau taraf kesukaran yang dimiliki oleh masing-masing butir item tersebut. Butir-butir item tes
hasil belajar dapat dinyatakan sebagai butir-butir item yang baik, apabila butir-butir item tersebut tidak
terlalu sukar dan tidak pula terlalu mudah dengan kata lain derajat kesukaran item itu adalah sedang atau
cukup. Angka yang dapat memberikan petunjuk mengenai tingkat kesulitan item itu dikenal dengan istilah
difficulty index (angka indeks kesukaran item), yang dalam dunia evaluasi hasil belajar umumnya
dilambangkan dengan huruf P, yaitu singkatan dari kata proportion (proporsi = proporsa).
Beberapa pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang, dan sukar,
diantaranya:
Adanya keseimbangan jumlah soal untuk ketiga kategori tersebut.
Misalnya tes objektif pilihan ganda dalam pelajaran matematika disusun sebanyak 42 butir, dari ke-42
pertanyaan tersebut soal kategori mudah sebanyak 14, kategori sedang sebanyak 14, dan kategori sukar
sebanyak 14.
Proporsi jumlah soal untuk ketiga kategori tersebut didasarkan atas kurva normal. Maksudnya, sebagian
besar soal berada pada kategori sedang, kemudian butir soal kategori mudah dan sukar proporsinya
seimbang.
Dalam konsep teori tes klasik, tingkat kesukaran soal dapat diketahui melalui beberapa cara yaitu:
a. proporsi menjawab benar
b. skala kesukaran linear
c. indeks Davis
d. skala bivariat.
Namun pada kesempatan ini hanya akan dibahas dengan cara 1 yaitu proporsi menjawab benar. Formula
yang digunakan untuk mengidentifikasi tingkat kesukaran soal (dengan simbol p)
Meliputi
pi
= Tingkat kesukaran butir i atau proporsi menjawab benar butir i
xi
= banyaknya testee yang menjawab benar butir i, (untuk tes uraian, jumlah skor butir i yang
dijawab oleh testee)
Smi
= skor maksimum
N
= jumlah testee

TK : Tingkat Kesukaran
B : Banyaknya siswa yang jawab benar
N : Banyak peserta tes

Kriteria yang digunakan untuk menentukan jenis tingkat kesukaran butir soal adalah sebagai berikut:
p < 0.30
butir soal sukar
0.3 < p < 0.70
butir soal sedang
p> 0.70
butir soal mudah
Tindak Lanjut Hasil Analisis
Interpretasi Item

Tindak Lanjut

16

Sukar

Sedang

Mudah

1. butir item dibuang atau didrop dan tidak dikeluarkan lagi dalam tes-tes hasil belajar
yang akan datang
2. diteliti ulang, dilacak, dan ditelusuri sehingga dapat diketahui faktor yang
menyebabkan butir item yang bersangkutan sulit dijawab oleh testee, apakah kalimat
soalnya kurang jelas, apakah petunjuk cara mengerjakan soalnya sulit dipahami,
ataukah dalam soal tersebut terdapat istilah-istilah yang tidak jelas, dsb. Setelah
dilakukan perbaikan, butir-butir item tersebut dikeluarkan lagi dalam tes hasil belajar
yang akan datang.
3. butir-butir yang terlalu sulit dapat digunakan kembali dalam tes (terutama tes
seleksi) yang sifatnya sangat ketat.
Butir item ini dapat dikeluarkan lagi dalam tes-tes hasil belajar pada waktu-waktu
yang akan datang
1. butir item dibuang atau didrop dan tidak dikeluarkan lagi dalam tes-tes hasil belajar
yang akan datang
2. diteliti ulang, dilacak, dan ditelusuri sehingga dapat diketahui faktor yang
menyebabkan butir item yang bersangkutan sulit dijawab oleh testee, apakah kalimat
soalnya kurang jelas, apakah petunjuk cara mengerjakan solnya sulit dipahami,
ataukah dalam soal tersebut terdapat istilah-istilah yang tidak jelas, dsb. Setelah
dilakukan perbaikan, butir-butir item tersebut dikeluarkan lagi dalam tes hasil belajar
yang akan datang.
3. butir-butir yang terlalu sulit dapat digunakan kembali dalam tes (terutama tes
seleksi) yang sifatnya longgar.

TEKNIK ANALISIS BUTIR TES


PENDAHULUAN
Pada saat ini terdapat dua pengukuran yang berkembang dan banyak digunakan
dalam merancang dan menganalisis alat ukur atau tes. Pertama adalah Teori Tes Klasik
yang dikembangkan sejak tahun 1940 dan telah digunakan secara luas, sedang teori
yang kedua adalah Teori Respons Butir, yang berkembang setelah teknologi komputer
berkembang. Teori yang ke dua ini menggunakan lebih banyak asumsi dibandingkan
dengan teori yang bertama, namun dapat menyajikan informasi lebih banyak.
A. TEORI KLASIK ANALISIS BUTIR SOAL
Pengertian klasik pada Teori Klasik ini menunjukkan pada ukuran waktu. Teori
Klasik analisis butir merupakan teori analisis butir yang pertama kali dipergunakan.
Meskipun terdapat beberapa kelemahan dalam teori ini, namun dalam praktik
pendidikan, teori ini masih banyak dipergunakan, hal ini disebabkan teori klasik
memiliki keunggulan pada kemudahan dalam pemahaman konsep dan
penggunaannya.
Menurut Teori Tes Klasik, skor tampak (X) terdiri dari skor sebenarnya / true score (T)
dan skor kesalahan / error (E), atau formulasi sederhananya adalah
X=T+E
Terdapat dua asumsi dasar yang digunakan pada teori Tes Klasik, yaitu tidak ada
korelasi antara skor yang sebenarnya dengan skor kesalahan, dan rerata kesalahan
acak pengukuran sama dengan 0 (nol). Berdasarkan asumsi tersebut kemudian
dikembangkan sejumlah formula untuk menghitung besarnya indeks kehandalan suatu
butir tes. (Mardapi, 1998: 27)
Menurut teori Klasik, ada tiga parameter butir yang diestimasi yaitu tingkat kesukaran,
daya beda dan dugaan (guessing). Dengan ketiga parameter tersebut, maka menurut
Teori Klasik analisis butir soal dapat dilakukan dengan menghitung tingkat kesukaran,
daya beda. Untuk soal yang berbentuk pilihan ganda (multiple choice) dapat
diteruskan dengan menghitung proporsi respon testee terhadap option (pilihan) yang
disediakan atau dengan istilah lain dengan melakukan analisis terhadap berfungsi
tidaknya distraktor / pengecoh.

17
1. Tingkat Kesukaran
Tingkat kesukaran suatu item (butir soal) dinyatakan dalam bentuk indeks kesukaran
(diffculty index) yang disimbulkan dengan huruf P (Aswar, 1996: 134) (Suryabrata,
1997: 12-15) (Arikunto, 1995: 211-215) (Fernandes, 1984: 25-27) (Thoha, 1994: 145146).
Indeks kesukaran merupakan rasio antara penjawab item dengan benar dan
banyaknya penjawab item (testee yang menjawab). Secara teoritik dikatakan bahwa P
sebenarnya merupakan probabilitas empirik untuk lulus item tertentu bagi sekelompok
siswa tertentu. Indeks kesukaran item tersebut dapat diformulasikan sebagai berikut:
Keterangan:
P = indeks kesukaran item
JSB = jumlah testee yang menjawab item dengan benar
JS = jumlah testee yang menjawab item.
Sebagai contoh, dari 100 siswa yang dikenai suatu tes, ternyata item nomor 1 dapat
dijawab benar oleh 65 orang di antara mereka, sedangkan selainnya 35 menjawab
salah. Maka item nomor 1 tersebut indeks kesukarannya (p) adalah 65 dibagi 100 =
0,65.
Indeks kesukaran item soal berkisar antara 0,00 hingga 1,00. Semakin mendekati
angka 1,00 menunjukkan item soal tersebut semakin mudah. Dengan demikian nilai
indeks kesukaran item berlawanan arah dengan tingkat kesukaran, sehingga indeks
tersebut lebih tepat dikatakan sebagai indeks kemudahan dari pada indeks kesukaran.
Namun sudah menjadi kesepakatan (salah kaprah), meskipun nilai indeks berlawanan
arah dengan tingkat kesukaran tetap dikenal dengan istilah indeks kesukaran.
0,00 1,00
sukar / sulit mudah
Untuk menentukan taraf kesukaran yang ideal tergantung pada beberapa faktor,
antara lain: sifat hal yang diukur, interkorelasi antara item, tujuan khusus si perancang
tes dan sesebagainya. Apabila tujuab pengukuran itu adalah untuk pengukuran
penguasaan (mastery testing), maka indeks yang diinginkan adalah 1,00. Namun jika
tujuan tes hendak menyeleksi secara ketat terhadap sejumlah testee, maka diperlukan
indeks kesukaran yang rendah (mendekati nol).
Namun demikian, mengingat pada umumnya tes juga bertujuan untuk mengetahui
tingkat perbedaan kemampuan (competence testing) testee, kebanyakan ahli
berpendapat bahwa tes yang terbaik adalah tes yang terdiri atas item-item soal yang
mempunyai taraf kesukaran sedang (cukup) dan rentang distribusi kesukarannya kecil,
yakni item tes dengan indeks kesukaran antara 0,30 sampai 0,70 (Mehren, 1973: 329)
(Fernandes, 1984: 29) (Sudijono, 1996: 372).
Item soal yang terlalu sulit dengan indeks kesukaran terlalu rendah (mendekati 0,00)
dan item soal yang terlalu mudah dengan indeks kesukaran tinggi (mendekati 1,00)
secara umum tidak banyak memberikan kontribusi keefektifan suatu tes. Hal ini
disebabkan butir soal tersebut tidak memiliki kemampuan untuk membedakan testee
yang berkemampuan tinggi dengan testee yang berkemampuan rendah. Item soal
yang terlalu mudah akan mampu dijawab benar oleh siswa yang memiliki kemampuan
tinggi dan rendah. Sebaliknya item soal yang terlalu sulit, kedua kelompok testee
menjawab salah. Dengan demikian daya diskrimansi item tersebut rendah atau tidak
baik.
Perlu diingat bahwa besarnya harga P yang dihitung merupakan indeks kesukaran
item soal bagi seluruh kelompok testee, buka indeks kesukaran bagi masing-masing
testee secara individual. Taraf kesukaran bagi masing-masing testee adalah berbedabeda dan kita tidak tahu seberapa sulit atau seberapa mudah suatu item soal bagi
siswa. Harga P yang dihitung dalam kelompok hanya merupakan rata-rata indeks
kesukaran bagi seluruh siswa dalam kelompok itu. Apa yang kita ketahui adalah
apabila testee mampu menjawab benar suatu item soal berarti taraf kesukaran item
tersebut lebih rendah dari pada taraf kemampuannya dalam menjawab. Sebaliknya,
apabila testee salah menjawab suatu item soal berarti bahwa tingkat kemampuannya

18
lebih rendah dari pada taraf kesukaran item yang bersangkutan.
2. Daya Beda Item
Terdapat dua konsep daya beda, yang pertama adalah kemampuan suatu item soal
dalam membedakan antara siswa yang memiliki kemampuan tinggi / baik / good
student dengan siswa yang memiliki kemampuan rendah / poor student (Fernandes,
1984: 27). Sementara konsep yang kedua, daya beda item adalah tingkat kesesuaian
antara item soal dengan keseluruhan soal dalam membedakan antara mereka yang
tinggi kemampuannya dan mereka yang rendah kemampuannya dalam hal yang
diukur oleh tes yang bersangkutan. (Suryabrata, 1997: 100).
Kedua konsep tersebut didasarkan atas asumsi bahwa dalam suatu kelompok testee
terdapat Kelompok Tinggi dan Kelompok Rendah. Suatu item soal yang baik adalah
item soal yang hanya mampu dijawab benar oleh testee yang memang memiliki
kemampuan (Kelompok Tinggi). Kalau proporsi penjawab benar dari dua kelompok
tersebut sama, berarti item soal tersebut tidak mampu membedakan antara mereka
yang berkemampuan tinggi dan mereka yang kemampuan rendah. Apalagi bila suatu
item soal ternyata justru dapat dijawab benar oleh sebagian besar subyek Kelompok
Rendah, sedangkan sebagian besar subyek Kelompok Tinggi tidak banyak yang
mampu menjawab dengan benar, maka hal itu menunjukkan bahwa item soal tersebut
menyesatkan karena daya diskriminasinya terbalik (minus).
Untuk menghitung Daya Beda antara testee Kelompok Tinggi dengan testee Kelompok
Rendah, pada konsep daya beda yang pertama menggunakan formula sebagai
berikut:
Keterangan:
D = indeks diskriminasi item
BT = jumlah kelompok tinggi yang menjawab benar
JT = jumlah kelompok tinggi
BR = jumlah kelompok renah yang menjawab benar
JR = jumlah kelompok rendah.
Untuk penghitungan indeks daya beda terlebih dahulu testee dipisahkan ke dalam
Kelompok Tinggi dan Kelompok Rendah. Pembagian kelompok ini didasarkan atas hasil
jawaban benar oleh testee terhadap keseluruhan tes. Testee diurutkan dari yang
jumlah jawaban benar tertinggi hingga jumlah jawaban benar terendah. Apabila
jumlah seluruh testee kurang dari 100, pengelompokan dapat dilakukan dengan
membagi seluruh testee menjadi dua (masing-masing kelompok 50 % = 50 testee).
Sedangkan jika testee berjumlah lebih dari 100, untuk memilih Kelompok Atas dapat
diambil 27 % testee teratas (rankingnya), dan untuk Kelompok Bawah diambil 27 %
testee terbawah (ranking dari bawah), masing-masing kelompok tersebut mewakili
Kelompok Atas dan Bawah.
Besarnya indeks diskriminasi item soal merentang antara -1,00 hingga 1,00. Klasifikasi
tingkat diskriminasi soal serta interpretasinya, menurut Suharsimi Arikunto (1995:
223) dengan sedikit modofikasi dari penulis, adalah sebagai berikut:
Tabel.1 Indeks Daya Beda dan Interpretasinya
Indeks Daya Beda
Interpretasi
Negatif
Sangat jelek
0,00 - 0,20
Jelek (poor)
0,21 - 0.40
Cukup (satisfactory)
0,41 - 0,70
Baik (good)

19
0,71 - 1,00
Baik sekali (excellent)
Sementara itu, untuk menghitung daya beda butir soal pada konsep yang kedua, yakni
kesesuaian item dengan keseluruhan tes dalam membedakan antara mereka yang
tinggi kemampuannya dan mereka yang rendah kemampuannya, teknik yang
dipergunakan adalah dengan menggunakan teknik Korelasi Biserial dan teknik Korelasi
Point Biserial. Rumus Korelasi Biserial yang dipergunakan adalah sebagai berikut:
Keterangan:
Xb : rata-rata skor kriteria subyek yang menjawab benar
Xs : rata-rata skor kriteria subyek yang menjawab salah
St : simpangan baku skor kriteria semua subyek
P : proporsi subyek yang menjawab benar terhadap semua subyek
Y : Ordinat dalam kurve normal yang membagi menjadi P dan 1-P
Bagian esensial dalam rumus di atas adalah perbedaan antara kedua rata-rata dalam
perbandingan dengan simpangan baku. Makin besar perbedaan kedua rata-rata (Xb
Xs) itu akan semakin tinggi korelasi biserial, dan berarti makin tinggi daya beda soal.
Teknik lain yang biasa digunakan untuk menghitung indeks diskriminasi adalah teknik
Korelasi Point-Biserial (biserial titik), yang formulasinya sebagai berikut:
Keterangan:
Xb = rata-rata skor kriteria yang menjawab benar
Xs = rata-rata skor kriteria yang menjawab salah
St = simpangan baku skor kriteria total
p = proporsi jawaban benar terhadap semua jawaban
q=1p
Mana di antara kedua teknik tersebut yang hendak dipergunakan, tergantung kepada
pertimbangan yang mendasari pemilihan tersebut. Sementara ahli lebih menyukai r
pbis karena koefisen ini memberikan informasi yang lebih dari pada yang diberikan r
bis. Nilai r pbis terpengaruh oleh p yang harga maksimumnya akan diperoleh kalau p
= 0,50. Ini berarti bahwa koefisien ini cenderung mengutamakan soal-soal yang
mempunyai taraf kesukaran rata-rata. Dengan istilah lain korelasi Point-Biserial
merupakan kombinasi antara hubungan soal dengan kriteria serta taraf kesukaran.
Sementara kelompok ahli lain lebih menyukai menggunakan korelasi Biserial karena
ingin memperlakukan korelasi antara soal dengan kriteria bebas dari taraf kesukaran.
Hubungan antara Tingkat Kesukaran dan Daya Beda
Tingkat Daya Beda yang tinggi pada umumnya berada pada Tingkat Kesukaran
sedang ke atas. Sementara itu Tingkat Kesukaran yang tinggi tidak selalu
menunjukkan Daya Beda yang tinggi. Dapat terjadi Tingkat Kesukaran menunjukkan
baik atau cukup sementara Daya bedanya 0 (nol), jika proporsi jawaban benar
Kelompok Atas (tinggi) sama dengan proporsi jawaban benar Kelompok Rendah
(bawah). Bahkan dapat terjadi Tingkat Kesukaran baik , sementara Daya Bedanya
negatif (minus), jika ternyata proporsi jawaban benar Kelompok Rendah lebih besar
dari pada proporsi jawaban benar Kelompok Tinggi.
3. Berfungsi Tidaknya Distraktor / Pengecoh
Analisis butir ini, sebagaimana telah dikemukakan penulis di awal bagian ini, hanya
berlaku untuk soal berbentuk pilihan ganda (multiplr choice). Dalam soal bentuk ini
alternatif jawaban (option) yang disediakan (kadang 3, 4 atau 5 pilihan) satu di
antaranya merupakan kunci jawaban sedangkan yang lainnya merupakan distraktor.
Konsep dasar dalam analisis ini adalah bahwa distraktor yang baik adalah distraktor
yang mampu mengecoh testee untuk memilihnya, sehingga manakala tidak ada satu
pun di antara testee yang memilihnya, maka dapat dikatakan distraktor atau
pengecoh tersebut tidak berfungsi.
Berapa ukuran suatu distraktor telah berfungsi. Menurut Suharsimi Arikunto (1995:
226) secara umum suatu distraktor dikatakan telah berfungsi dengan baik manakala
distraktor tersebut dipilih minimal 5 % dari seluruh testee. Sementara Fernandes

20
(1984: 29) mensyaratkan lebih kecil lagi, yakni minimum 2 %.
Keterbatasan Teori Klasik Analisis Butir
Meskipun teori Klasik analisis butir soal telah banyak dipergunakan, namun ternyata
memiliki kelemahan. Kelemahan utama adalah bahwa hasil analisis tergantung pada
kelompok peserta tes (testee) dan kelompok soal yang diteskan (Hambleton, 1991: 23).
Suatu butir soal dapat memiliki indeks kesukaran tinggi (soal mudah) jika diujikan
pada sekelompok testee yang memiliki kemampuan tinggi. Sebaliknya butir soal
tersebut akan memiliki indeks kesukaran rendah (soal sulit) manakala diujikan pada
sekelompok siswa / testee yang memiliki kemampuan rendah.
Begitu juga dengan skor yang diperoleh testee akan tergantung pada tingkat
kesukaran suatu soal. Seorang siswa akan memiliki tingkat skor tinggi manakala
kepadanya diberikan soal yang mudah (indeks kesukaran tinggi). Sebaliknya siswa
yang sama akan memiliki skor rendah manakala kepadanya diberikan soal yang sulit
(indeks kesukaran rendah).
B. TEORI RESPON BUTIR
Teori Respon Butir merupakan teori analisis butir soal yang berkembang setelah
berkembangnya teknologi komputer. Hal ini disebabkan dalam Teori Respon Butir
memerlukan perhitungan yang lebih rumit, sehingga akan menjadi kurang efisien dan
praktis untuk dilakukan penghitungan secara manual.
Teori Respon Butir memiliki tiga model, yaitu model satu parameter, dua parameter
dan tiga parameter (Hambleton & Swaminathan, 1991).
Model satu parameter dikenal dengan Model Rasch. Dalam model ini terdapat dua
asumsi, yaitu:
1. Semua butir memiliki daya pembeda yang sama
2. Peluang menjawab butir benar bagi mereka yang memiliki kemampuan rendah
sama dengan 0 (nol).
Dengan kata lain semua kurve karakteristik butir-butir model ini adalah sejajar atau
mendekati sejajar. Oleh karena itu parameter butir pada model Rasch adalah hanya
tingkat kesulitan butir, sedangkan parameter daya pembeda dianggap sama, dan
dugaan pseudo dianggap sama dengan nol.
Persamaan model satu parameter yang dikenal dengan model Rash dapat ditulis
sebagai berikut:
Pi (q) adalah peluang menjawab benar butir I, D = 1,7 dan q adalah kemampuan, serta
b adalah tingkat kesukaran butir. Model dua parameter menggunakan asumsi bahwa
peluang menjawab benar bagi mereka yang memiliki kemampuan rendah adalah 0
(nol), sehingga hanya ada dua parameter yang ditaksir, yaitu tingkat kesukaran dan
daya pembeda. Pada tiga parameter tidak menggunakan asumsi tentang parameter
butir, sehingga tiga parameter butir, yaitu tingkat kesukaran, daya pembeda dan
faktor dugaan, ketiganya ditaksir besarnya.
Dilihat dari kesederhanaannya, model satu parameter tampak paling sederhana,
namun menggunakan asumsi yang lebih banyak. Sifat ini yang menjadi pertimbangan
bagi Balitbang depdikbud untuk menggunakan model satu parameter, yang dikenal
dengan Model Rasch, dalam mengembangkan jaringan pengujian di Indonesia.
Untuk model 2 parameter, parameter yang digunakan adalah taraf kesukaran butir bj
dan daya pembedaan butir aj. Model logistik Teori respon Butir dengan 2 parameter
adalah sebagai berikut:
Dalam model logistik untuk Teori Respon Butir dengan 3 parameter, dengan
menambahkan parameter cj yakni parameter kebetulan menjawab dengan benar ke
dalam model logistik 2 parameter, sehingga diperoleh model logistik 3 parameter
sebagai berikut:
Dengan model tiga parameter, maka tingkat kemungkinan tebakan tergantung pada
jumlah option yang disediakan. Jika option yang disediakan berjumlah 5 (lima), maka
tingkat kemungkinan menebak benar ( c ) secara teori untuk masing-masing butir
adalah 0,20, dalam prakteknya tidak mesti masing-masing option memiliki peluang

21
yang sama. Dalam teori Respon Butir parameter peluang tebakan butir soal yang baik
berkisar antara 0 sampai dengan +0,35. Harga parameter lebih dari 0,35 berarti soal
tersebut harus diganti.
Sementara untuk analisis daya beda soal (a), Hambleton et al (1991) menjelaskan
apabila suatu butir soal memiliki daya pembeda bernilai negatif, berarti butir soal
tersebut harus diganti atau dibuang, sedangkan daya pembeda > +2 jarang terjadi.
Sehingga daya beda yang berkisar antara 0 sampai dengan +2 menunjukkan bahwa
butir soal tersebut dapat membedakan antara peserta yang tinggi kemampuannya
dengan yang rendah kemampuannya.
Kriteria untuk tingkat kesukaran (b), butir-butir soal yang memiliki nilai lebi dari +2
atau b > +2 adalah butir-butit soal yang dianggap terlalu sukar. (Hambleton, te al,
1991). Butir yang terlalu sukar tidak dapat melakukan fungsi ukurnya dengan baik,
karena peserta tes akan cenderung menjawab dengan menggunakan tebakan. Harga
parameter tingkat kesukaran yang baik berkisar antara 0 sampai dengan +2. Butir
soal yang memiliki harga parameter lebih kecil dari -2 adalah butir soal yang terlalu
mudah harus diganti. Butir soal yang memiliki harga parameter antara 2 sampai
dengan 0 adalah butir soal yang harus direvisi.
Dibandingkan dengan teori Tes Klasik, teori Respon Butir memiliki kelemahan yakni
pada penghitungan yang kompleks serta membutuhkan ukuran cuplikan yang besar.
Namun karena penghitungan Teori respon Butir menggunakan paket program
komputer, maka kelemahan tersebut dapat diatasi.
Analisis Butir Soal
Ada 4 hal dalam analisis butir soal, yaitu:
1. Taraf kesukaran butir soal
2. Daya pembeda butir soal
3. Pola jawaban soal
4. Validitas butir soal
Berikut ini sedikit penjelasannya..
1. Taraf kesukaran butir soal
Mudah atau sukarnya butir soal ditunjukkan oleh bilangan yang disebut indeks kesukaran (difficulty index).
Besarnya indeks kesukaran antara 0.00 sampai dengan 1.00. Indeks kesukaran 0.00 menunjukkan bahwa
butir soal itu terlalu sukar, sebaliknya indeks 1.00 menunjukkan bahwa butir soal terlalu mudah. Di dalam
istilah evaluasi indeks kesukaran butir soal diberi simbol P(proporsi).
Rumus mencari indeks kesukaran:
B
P= -------- , di mana
JS
P= indeks kesukaran
B= banyaknya peserta tes yang menjawab soal dengan betul.
JS= jumlah seluruh peserta tes.
Contoh Penggunaan Rumus
Misalnya jumlah peserta tes dalam suatu kelas ada 30 orang. Dari jumlah peserta tes tersebut ada 10
peserta tes yang dapat menjawab butir soal nomor 3 dengan betul. Maka indeks kesukarannya adalah:
B
10
P= ------ = -------- = 0.33 (sedang)
JS
30
Klasifikasi Indeks Kesukaran
Soal dengan P 0.00 sampai 0.30= soal sukar
Soal dengan P>0.30 sampai 0.70= soal sedang
Soal dengan P>0.70 sampai 1.00= soal mudah.
Daya Pembeda

22
1. Daya pembeda butir soal, adalah kemampuan suatu butir soal untuk membedakan antara peserta tes
yang pandai/berkemampuan tinggi dengan peserta tes yang bodoh/berkemampuan rendah.
2. Angka/bilangan yang menunjukkan besarny daya pembeda disebut indeks diskriminasi, disingkat D.
3. Indeks diskriminasi berkisar antara 0.00 sampai 1.00 (negatif maupun positif), sehingga ada tiga titik
pada daya pembeda: daya pembeda negatif (-1), daya pembeda rendah (0.00), dan daya pembeda
tinggi/positif (+1).
Cara Menentukan Daya Pembeda
1. Kelompok Kecil: seluruh kelompok peserta tes dibagi dua sama besar, 50% kelompok atas dan 50%
kelompok bawah.
2. Kelompok Besar: biasanya hanya diambil ke dua kutubnya saja, 27% skor teratas sebagai kelompok
atas (JA) dan 27% skor terbawah sebagai kelompok bawah (JB).
3. JA= jumlah Kelompok Atas; JB= jumlah Kelompok Bawah.
Rumus Daya Pembeda (D)
Rumus Indeks Daya Pembeda (D)
BA
BB
D= ------ - ------ = PA PB
JA
JB
di mana;
JA= banyaknya peserta kel. Atas
JB= banyaknya peserta kel. Bawah
BA= banyaknya peserta kel. Atas yang menjawab soal itu dengan benar.
BB= banyaknya peserta kel. Bawah yang menjawab soal itu dengan benar.
PA= proporsi kel, Atas yang menjawab benar
PB= proporsi kel. Bawah yang menjawab benar.
KATA PENGANTAR
Segala puji hanya milik Allah Swt. yang telah memberikan begitu banyak limpahan nikmat sehingga
di antara nikmat-Nya tersebut penulis dapat menyelesaikan salah satu tugas mata kuliah dalam rangka
menuntut ilmu.
Shalawat beriringkan salam semoga tetap terlimpah curahkan kepada baginda kita yang telah
menuntun umatnya dari zaman jahiliah menuju zaman ilmiah ani Nabi besar Muhammad Saw. juga kepada
keluarganya, para sahabatnya, tabiin dan tabiatnya, serta sampai kepada kita selaku umatnya hingga hari
kiamat, Amiin.
Selanjutnya makalah yang berada di hadapan pembaca merupakan uraian materi yang ditulis
mengacu kepada potensi kependidikan, khususnya kegiatan seorang pendidik dengan Dosen pengampu,
M.Pd. yaitu. yang Alhamdulillah telah selesai ditulis. Tidak akan ada kata selesai disusun makalah ini
melainkan dukungan dari semua pihak baik segi moril maupun materil. Untuk itu penulis sampaikan banyak
terima kasih.
Sudah barang tentu dalam makalah ini tidak luput dari kekeliruan ataupun kekurangan baik dalam
materi maupun dalam hal ikhwal penyusunan. Untuk itu penulis bermohon maaf dan tak lupa untuk sedia
menerima berbagai masukan yang bersifat membangun untuk penyempurnaannya.Semoga makalah ini dapat
bermanfaat untuk penulis khususnya dan untuk para pembaca pada umumnya.
BAB1
PENDAHULUAN
A. Latar belakang
Tes merupakan suatu bentuk alat evaluasi untuk mengukur seberapa jauh tujuan pengajaran telah tercapai.
Salah satu cara untuk memperbaiki proses belajar-mengajar yang paling efektif ialah dengan jalan
mengevaluasi tes hasil belajar yang diperoleh dari proses belajar-mengajar itu sendiri. Dengan kata lain, hasil
tes itu kita olah sedemikian rupa sehingga dari hasil pengolahan itu dapat diketahui komponen-komponen
manakah dari proses belajar-mengajar itu yang masih lemah.

23
Pengolahan tes hasil belajar dalam rangka memperbaiki proses belajar-mengajar dapat dilakukan dengan
berbagai cara, antara lain :
a. Dengan membuat analisis soal (item analisis)
b. Dengan menghitung validitas dan keandalan
Dalam makalah ini akan dibahas lebih lanjut mengenai analisis soal (item analisis). Analisis butir soal atau
item analisis adalah pengkajian pertanyaan-pertanyaan tes agar diperoleh perangkat pertanyaan yang
memiliki kualitas yang memadai. Ada dua jenis analisis butir soal, yakni analisis tingkat kesukaran soal dan
analisis daya pembeda.
Menurut Thorndike dan hagen (1977), analisis terhadap soal-soal tes yang telah dijawab oleh murid-murid
mempunya dua tujuan penting, yaitu:
Pertama, jawaban-jawaban soal itu merupakan informasi diagnostic untuk meneliti pelajaran dari kelas itu
dan kegagaln-kegagalan belajarnya, serta selanjutnya untuk membimbing kea rah cara belajar yang lebih
baik.
Jawaban-jawaban terhadap soal-soal yang terpisah dan perbaikan (review) soal-soal yang didasarkan atas
jawaban-jawaban itu merupakan basis bagi penyiapan tes-tes yang lebih baikuntuk tahun berikutnya.
Jadi, tujuan khusus dari analisis soal adalah mencari soal tes mana yang baik dan mana yang tidak baik, dan
mengapa item soal itu dikatakan baik atau tidak baik.
B. Rumusan Masalah
1. Sampai dimana tingkat atau taraf kesukaran soal itu?
2. Apakah soal itu mempunyai daya pembeda sehingga dapat membedakan kelompok siswa yang pandai
dengan kelompok siswa yang tidak pandai?.
C. Tujuan Masalah
1. Untuk mengetahui dimana tingkat atau taraf kesulitan soal itu.
2. Untuk mengetahui apakah soal itu mempunyai daya pembeda atau tidak.
BAB II
PEMBAHASAN
A. Analisis Tingkat Kesukaran Test
Analisis tingkat kesukaran soal yaitu mengkaji soal-soal tes dari segi kesulitannya sehingga dapat diperoleh
soal-soal mana yang termasuk mudah, sedang, dan sukar. Tingkat kesukaran soal dipandang dari
kesanggupan atau kemampuan siswa dalam menjawab, bukan dilihat dari sudut guru sebagai pembuat soal.
Persoalan yang penting dalam melakukan analisis tingkat kesukaran soal adalah penentuan proporsi dan
criteria soal yang termasuk mudah, sedang dan sukar.
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu
yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran pada umumnya dinyatakan dalam
bentuk proporsi yang besarnya bekisar 0,00 1,00. Semakin besar indeks tingkat kesukaran yang diperoleh
dari hasil perhitungan, berarti semakin mudah soal itu.
Di dalam istilah evaluasi, indeks kesukaran diberi simbol P (p besar), singkatan dari kata proporsi. Adapun
persamaan atau rumus yang digunakan untuk mencari P adalah:
P =
x__
SmN
P
: proporsi menjawab benar atau tingkat kesukaran
x
: banyaknya peserta didik tes yang menjawab benar
Sm
: skor maksimum
N
: jumlah
Hasil perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran soal itu. Sebagai
pedoman umum, tingkat kesukaran soal dapat dikategorikan sebagai berikut.
Nilai (p)

Kategori

24
p < 0,3
0,3 p 0,7
p > 0,7

Sukar
Sedang
Mudah

RESPOND
EN
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
X
N = 20
P

TOT
AL
SKO
R

SKOR BUTIR SOAL SETIAP NOMOR SOAL


2
3
4
5
6
7
8
9

10

1
0
1
1
0
1
1
0
1
0
1
0
1
0
0
1
0
0
1
0
10
20
0.5

0
1
1
1
0
1
0
1
1
0
1
1
1
1
0
1
1
1
0
1
14
20
0.7

1
0
1
0
1
0
0
1
1
1
1
0
0
1
0
1
0
1
1
1
12
20
0.6

1
1
1
0
1
1
1
1
1
1
1
0
0
1
1
0
1
0
0
0
13
20
0.65

0
0
1
1
0
1
0
1
1
0
1
1
1
1
0
1
1
1
1
1
14
20
0.7

P(1) = __x___
SmN
_10___
1x20
0.5 sedang

P(2) = __x___
SmN
_14__
1x20
0.7 mudah

P(4) = __x___
SmN
_14___
1x20
0.5 sedang

P(5) = ___x__
SmN
_13__
1x20
0.65 sedang

P(6) = __x___
SmN
_14__
1x20
0.7 mudah
P(9) = __x___
SmN
_10___
1x20
0.5 sedang

P(7) = __x___
SmN
_3___
1x20
0.15 sukar
P(10) = ___x__
SmN
_12___
1x20
0.6 sedang

1
1
1
0
1
1
0
1
0
0
1
0
1
1
1
0
1
1
0
1
13
20
0.65

1
1
0
1
0
0
0
0
1
1
1
1
1
1
0
1
1
1
1
1
14
20
0.7

0
0
1
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
3
20
0.15

P(3) = __x__
SmN
_13__
1x20
0.65 sedang

P(8) = __x___
SmN
_14_
1x20
0.7 mudah

1
1
1
0
1
1
1
0
1
1
0
1
1
1
0
0
1
0
1
1
14
20
0.7

0
0
1
0
1
0
0
1
1
0
1
1
1
0
1
0
1
1
0
0
10
20
0.5

6
5
9
5
5
6
3
6
9
4
8
5
7
7
3
5
7
6
5
6
117

25
Dari hasil perhitungan nampak bahwa tingkat kesukaran soal nomor 2, 6 dan 8 adalah 0.7 atau tujuh puluh
persen peserta didik tes menjawab benar. Soal no 2, 6 dan 8 adalah soal yang paling mudah. Sebaliknya,
tingkat kesukaran soal nomor 7 adalah 0.15 lima belas persen peserta didik tes yang menjawab benar soal
tersebut. Soal nomor 7 adalah soal yang paling sukar di antara semua soal. Sedangkan soal nomor 1, 3, 4, 5,
8, 9 dan 10 termasuk pada kategori soal yang sedang.
Setelah indeks tingkat kesukaran diperoleh, maka harga indeks kesukaran tersebut diinterpretasikan
pada kriteria sesuai tabel berikut:
Interpretasi Tingkat Kesukaran
Indeks Tingkat Kesukaran
Kriteria
0 15 %
16 % 30 %
31 % 70 %
71% - 85%
86%-100

Sangat sukar, sebaiknya dibuang


Sukar
Sedang
Mudah
Sangat mudah, sebaiknya dibuang

Soal dikatakan baikapabila soal tersebut tidak terlalu sukar atau terlalu mudah. Soal yang
terlalumudah, yakni semua anak dapat mengerjakan dengan benar, adalah tidak baik. Demikian juga soal
yang terlalu sukar, yaitu semua anak tidak dapatmengerjakan soal dengan benar, juga merupakan soal yang
tidak baik. Hal itu disebabkan karena soal yang terlalu mudah tidak merangsang peserta didikuntuk
mempertinggi usaha memecahkannya. Dan soal yang terlalu sukar menyebabkan peserta didik putus asa
serta menjadi tidak mempunyai semangat untuk mencoba lagi karena diluar jangkauannya.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang,
dan sukar. Pertimbangan pertama adalah adanya keseimbangan, yakni jumlah soal sama untuk ketiga
kategori tersebut. Artinya, soal mudah, sedang, dan sukar jumlahnya seimbang. Persoalan lain adalah
menentukan criteria soal, yaitu ukuran untuk menentukan apakah soal tersebut termasuk mudah, sedang atau
sukar. Dalam menentukan criteria ini digunakan judgement dari guru berdasarkan pertimbanganpertimbangan tertentu. Pertimbangan tersebut antara lain adalah :
a. Abilitas yang diukur dalam pertanyaan tersebut
b. Sifat materi yang diujikan atau ditanyakan
c. Isi bahan yang ditanyakan sesuai dengan bidang keilmuannya, baik luasnya maupun kedalamannya
d. Bentuk soal
B. Daya Pembeda Test
Yang dimaksid dengan daya pembeda suatu soal tes adalah bagaimana kemampuan soal itu untuk
membedakan siswa-siswa yang termasuk kelompok pandai, dengan siswa-siswa yang termasuk kelompok
kurang. Artinya, bila soal tersebut diberikan kepada anak yang mampu hasilnya menunjukkan prestasi yang
tinggi, dan bila diberikan kepada siswa yang lemah, hasilnya rendah. Tes dikatakan tidak memiliki daya
pembeda apabila tes tersebut, jika diujikan kepada anak berprestasi tinggi, hasilnya rendah tetapi bila
diberikan kepada anak yang lemah hasilnya lebih tinggi. Atau bila diberikan kepada kedua kategori siswa
tersebut hasilnya sama saja.
Dengan demikian, tes yang tidak memiliki daya pembeda, tidak akan menghasilkan gambaran hasil
yang sesuai dengan kemampuan siswa yang sebenarnya. Akan terlihat aneh apabila anak pandai tidak lulus
tetapi anak bodoh lulus dengan baik tanpa dilakukan manipulasi oleh si penilai atau di luar factor kebetulan.
Angka yang menunjukkan besarnya daya pembeda disebut indeks daya pembeda (item
discrimination) disingkat D (d besar). Indeks daya pembeda didefinisikan sebagai selisih antara proporsi
jawaban benar pada kelompok atas (peserta didik tes yang mampu/pandai) dengan proporsi jawaban benar
pada kelompok bawah (peserta didik tes yang kurang mampu/pandai). Umumnya, para ahli tes membagi
kelompok ini menjadi 27% atau 33% kelompok atas dan 27% atau 33% kelompok bawah (Cureton, 1957).
Pembagian Kelompok 27%
Responden

1
2
3
4
5

SKOR BUTIR SOAL SETIAP NOMOR SOAL

1
1
1
1
1
0

2
1
1
1
1
1

3
1
1
1
0
1

4
1
1
1
1
1

5
0
1
1
1
1

6
1
0
1
1
1

7
1
1
0
0
0

8
1
1
0
1
1

9
1
1
1
1
0

Total Skor

10
1
1
1
0
1

9
9
8
7
7

26
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

0
1
1
0
0
0
0
1
0
0
1
1
0
1
0

1
0
1
1
1
1
1
1
0
1
1
0
0
0
0

1
1
1
1
0
0
1
0
1
0
0
0
1
1
1

1
0
1
1
1
1
0
1
0
1
1
1
0
0
0

1
1
1
1
1
1
1
0
1
0
0
0
0
0
1

1
1
0
0
1
1
1
1
0
1
1
1
1
0
0

0
0
0
0
0
0
0
1
0
0
0
0
0
0
0

1
1
1
0
0
1
1
0
1
1
0
1
1
1
0

1
0
0
1
1
0
0
0
1
1
0
0
0
0
1

0
1
0
1
1
1
0
0
1
0
1
1
1
0
0

7
6
6
6
6
6
5
5
5
5
5
5
4
3
3

Indeks daya pembeda berkisar antara -1,00 sampai 1,00. Tanda negatif menunjukkan bahwa peserta
didik tes yang kemampuannya rendah dapat menjawab benar sedangkan peserta didik tes yang
kemampuannya tinggi menjawab salah. Dengan demikian, soal yang indeks daya pembedanya negatif
menunjukkan terbaliknya kualitas peserta didik tes. Indeks daya pembeda dapat dicari dengan menggunakan
rumus sebagai berikut ini.
D = _A__ - B___
nA
nB
D = indeks daya pembeda
A = jumlah peserta didik tes yang menjawab benar pada kelompok atas
B = jumlah peserta didik tes yang menjawab benar pada kelompok bawah
nA = jumlah peserta didik tes kelompok atas
nB = jumlah peserta didik tes kelompok bawah
Pada kebanyakan kasus, jumlah peserta didik tes kelompok atas sama dengan jumlah peserta didik
tes kelompok bawah, nA = nB = n. Dengan demikian maka rumus daya pembeda menjadi:
D = _A - B___
n
Kriteria indeks daya pembeda berdasarkan Crocker dan Algina (1986) adalah sebagai berikut :
Daya Pembeda
Kualifikasi
0,00 0,19
soal tidak dipakai/dibuang
0,20 0,29
soal diperbaiki
0,30 0,39
soal diterima tapi perlu
diperbaiki
0,40 1,00
soal diterima/baik

Contoh:
Tingkat Kesukaran 27% kelompok atas (5 orang dari 20 peserta didik tes)
Responden
SKOR BUTIR SOAL SETIAP NOMOR SOAL
1
1
2
3
4
5
Xatas
Skor maks
Kel. Atas

2
1
1
1
1
0
4
1
5

3
1
1
1
1
1
5
1
5

4
1
1
1
0
1
4
1
5

5
1
1
1
1
1
5
1
5

6
0
1
1
1
1
4
1
5

7
1
0
1
1
1
4
1
5

8
1
1
0
0
0
2
1
5

9
1
1
0
1
1
4
1
5

Total
Skor
10

1
1
1
1
0
4
1
5

1
1
1
0
1
4
1
5

9
9
8
7
7

27
(P) kel. Atas

0.8
0

1.0
0

0.8
0

1.0
0

0.8
0

0.8
0

0.4
0

0.8
0

0.8
0

0.8
0

Tingkat Kesukaran 27% kelompok bawah (5 orang dari 20 peserta didik tes)
Responden
SKOR BUTIR SOAL SETIAP NOMOR SOAL
16
17
18
19
20
Xatas
Skor maks
Kel. Bawah
(P) kel. bawah

1
1
0
1
0
3
1
5
0.6
0

1
0
0
0
0
1
1
5
0.2
0

0
0
1
1
1
3
1
5
0.6
0

1
1
0
0
0
2
1
5
0.4
0

0
0
0
0
1
1
1
5
0.2
0

1
1
1
0
0
3
1
5
0.6
0

7
0
0
0
0
0
0
1
5
0

Total
Skor

10

0
1
1
1
0
3
1
5
0.6
0

0
0
0
0
1
1
1
5
0.2
0

1
1
1
0
0
3
1
5
0.6
0

5
5
4
3
3

Daya pembeda soal nomor 1 dapat dihitung seperti berikut:


D = PA PB
D = 0.8 0.6
D = 0.2
Tabel berikut menunjukkan daya pembeda soal nomor 1 sampai dengan nomor 10 berdasarkan
perbedaan 27% kelompok atas dan 27% kelompok bawah.
Daya Pembeda Soal
Soal
Tingkat kesukaran
Tingkat kesukaran
Daya pembeda Soal (D)
kelompok atas
kelompok bawah
1
2
3
4
5
6
7
8
9
10

0.80
1.00
0.80
1.00
0.80
0.80
0.40
0.80
0.80
0.80

0.60
0.20
0.60
0.40
0.20
0.60
0
0.60
0.20
0.60

0.20
0.80
0.20
0.60
0.60
0.20
0.40
0.20
0.60
0.20

Soal nomor 1, 3, 6, 8, dan 10 berdaya pembeda 0.20. Hal ini berarti kelompok lima soal tersebut
mempunyai kualifikasi soal yang harus diperbaiki. Hal ini sesuai dengan pengklasifikasian daya pembeda
oleh Crocker dan Algina yang telah dijelaskan diatas.

Responden
1
2
3
4
5
6
7
8
9
10
11
12
13

PERHITUNGAN TINGKAT KESUKARAN SOAL URAIAN


Nomor Soal
1
2
3
4
5
5
5
5
4
4
4
4
4
4
3
3
3
3

4
4
4
4
4
4
3
3
3
3
3
3
3

3
3
3
3
3
3
3
3
3
3
3
3
2

4
4
4
4
4
4
4
4
4
4
3
3
3

5
5
5
5
5
5
4
4
4
4
4
4
4

28
14
15
16
17
18
19
20
X
Skor Maksimum
Jumlah Peserta didik
tes
Tingkat Kesukaran
X
51
P(3)=
=
= 0,85
SmN 3 x20
X
65
P(4)=
=
= 0,81
SmN 4 x20
X
79
P(5)=
=
= 0,79
SmN 5 x20
X
57
P(2)=
=
= 0,71
SmN 4 x20
X
66
P(1)=
=
= 0,66
SmN 5 x20

3
3
2
2
2
2
1
66
5
20

3
3
2
2
2
0
0
57
4
20

2
2
2
2
2
2
1
51
3
20

3
3
2
2
2
2
2
65
4
20

4
3
3
3
3
3
2
79
5
20

0,66

0,71

0,85

0,81

0,79

Soal nomor 3 adalah soal paling mudah dengan tingkat kesukaran 0,85 sedangkan soal nomor 2 adalah
soal yang paling sukar (0,535) di antara lima soal yang diujikan. Walaupun demikian, soal nomor 2 masih
dikatagorikan soal yang sedang.
Tingkat kesukaran akan berpengaruh pada variabelitas skor dan ketepatan membedakan antara
kelompok peserta didik tes. Ketika seluruh soal sangat sukar, maka skor total tentunya rendah. Sebaliknya,
ketika seluruh soal sangat mudah, tentunya skor total akan tinggi. Variabelitas akan maksimum ketika
P=0,5. Skor akan lebih bervariasi ketika semua P terletak sekitar 0,5. Tingkat kesukaran sekitar 0,5
merupakan yang optimum. Untuk penggunaan di kelas, biasanya sebagian pendidik menggunakan tes yang
sedang, yaitu P antara 0,3 sampai dengan 0,7.
Daya Pembeda Soal Uraian
Responden
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

5
5
5
4
4
4
4
4
4
3
3
3
3
3
3
2
2
2

4
4
4
4
4
4
3
3
3
3
3
3
3
3
3
2
2
2

Nomor Soal
3
3
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2

4
4
4
4
4
4
4
4
4
4
3
3
3
3
3
2
2
2

5
5
5
5
5
5
4
4
4
4
4
4
4
4
3
3
3
3

29
19
20

2
1

0
0

2
1

2
2

3
2

Tabel berikut menunjukkan hasil perhitungan tingkat kesukaran masing-masing kelompok .


Tabel Kelompok Atas
1
2
3
4
5
XAtas
Skor Maksimum
Kelompok Atas
(P) Kelompok Atas

5
5
5
4
4
23
5
5
0.92

4
4
4
4
4
20
4
5
1,00

3
3
3
3
3
15
3
5
1,00

4
4
4
4
4
20
4
5
1,00

5
5
5
5
5
25
5
5
1,00

2
2
2
0
0
6
4
5
0,30

2
2
2
2
1
9
3
5
0,60

2
2
2
2
2
10
4
5
0,50

3
3
3
3
2
14
5
5
0,56

Tabel Kelompok Bawah


16
17
18
19
20
XBawah
Skor Maksimum
Kelompok Bawah
(P) Kelompok Bawah

2
2
2
2
1
9
5
5
0,36

Untuk mengetahui daya pemebeda pada soal urain, langkahnya sama dengan ketika mencari daya
pembeda pada soal pilihan ganda yaitu:
D=PA-PB
Daya Pembeda Soal
Soal
1
2
3
4
5

Tingkat Keukaran
Kelompok Atas
0,92
1,00
1,00
1,00
1,00

Tingkat Keukaran
Kelompok Atas
0,36
0,30
0,60
0,50
0,56

Daya Pembeda Soal


(D)
0,56
0,70
0,40
0,50
0,54

Hasil perhitungan daya pembeda, seperti terlihat pada tabel, menunjukkan bahwa hampir seluruh
soal berfungsi sebagaimana mestinya,
BAB III
PENUTUP
A. Kesimpulan
Analisis butir soal bertujuan untuk memperoleh kualitas soal yang baik sehingga dapat memperoleh
gambaran tentang prestasi siswa yang sebenarnya. Ada beberapa cara melakukan analisis butir soal, yakni
analisis tingkat kesukaran dan analisis daya pembeda. Analisis tingkat kesukaran soal bertujuan untuk dapat
membedakan soal-soal katehori mudah, sedang, dan sukar. Sedangkan analisis daya pembeda mengkaji
apakah soal tersebut punya kemampuan dalam membedakan siswa yang termasuk ke dalam kategori yang
memiliki kemampuan tinggi dan kemampuan rendah.
Dengan demikian, soal yang memiliki daya pembeda, jika diberikan kepada siswa berkemampuan tinggi,
hasilnya menunjukkan lebih tinggi daripada jika diberikan kepada siswa yang berkemampuan rendah.
DAFTAR PUSTAKA

30
DEPDIKNAS, Dirjen Peningkatan Mutu Pendidikan dan Tenaga Kependidikan, Pusat Pengembangan dan
Pemberdayaan Pendidik dan Tenaga Kependidikan Bahasa. 2009
Purwanto, Ngalim. 2010. Prinsip-prinsip dan Teknil Evaluasi Pembelajaran. Bandung: PT Remaja Rosda Karya.

Analisis Butir Item


BAB I
PENDAHULUAN
Salah satu tugas penting yang acap kali dan bahkan pada umumnya dilupakan oleh
staf pengajar (guru, dosen dan lain-lain) adalah tugas melakukan evluasi terhadap alat
pengkur yang telah digunakan untuk mengukur keberhasilan belajar dari para peserta
didiknya (muridnya, siswa, mahasiswa dan lain-lain). Alat pengukur dimaksud adalah
tes hasil belajar, yang sebagai mana telah kita maklumi, batang tubuhnya terdiri dari
kumpulan butir-butir soal (=item).
Kenyataan sering kali menunjukkan bahwa apabila dalam tes hasil belajar di mana
hasil belajar di mana hamper seluruh peserta tes jatuh (dalam arti: nilai-nilai hasil
belajarnya sangat rendah, sehingga distribusi frekwensi nilai-nilai hasil belajar itu
membentuk kurva a-simetrik miring ke kiri) maka tester (guru, dosen dan lain-lain)
segera manimpakan kesalahan itu kepada testee (murid, sisiwa, mahasiswa, dan
lain-lain) dengan menyatakan bahwa testee memang terdiri dari anak-anak yang
bodoh.
Pernyataan yang dikemukakan oleh tester seperti telah dikemukakan di atas mungkin
benar tetapi mungkin juga belum tentu tepat.
Sebaliknya tidak jarang terjadi dalam tes hasil belajar dimana testee hamper
seluruhnya berhasil meraih nilai-nilai hasil tes yang sangat tinggi, sehingga distribusi
hasil tes tersebut membentuk kurva a-simetrik miring ke kanan, maka tester segera
merasa puas dan bangga karena ternyata tingkat penguasaannya terhadap materi tes
tersebut sangat tinggi dan dengan segera tester menyatakan bahwa testee terdiri dari
anak-anak yang hebat.
BAB II
PEMBAHASAN
A. Pengertian Analisis Item Soal
Pembicaraan tentang uji validitas dan reliabilitas tes seperti telah dikemukakan
terdahulu merupakan suatu analisis tes yan bersifat makro. Sedangkan analisis
terhadap item tes bersifat mikro. Analisis item soal merupkan suatu prosedur yang
sistematis, yang akan memberikan informasi-informasi yang sangat khusus terhadap
butir tes yang akan kita susun. Analisis item soal pada dasarnya bertujuan untuk
mengetahui apakah setiap item soal benar-benar baik, sehingga diperlukan analisis
terhadapnya.
Adapun secara rinci tujuan mengadakan nalisis item soal yaitu:
Membantu kita dalam mengidentifikasikan butir-butir soal yang jelek.
Memperoleh informasi yang akan dapat digunakan untuk menyempurnakan soal-soal
untuk kepentingan lebih lanjut.
Memperoleh gambaran secara selintas tentang keadaan yang kita susun.
Analisis item soal teruatama dapat dilakukan untuk tes objektif. Dimana tes objektif
merupakan alat evaluasi (hasil belajar mengajar) yang mengukur kepada objekobjeknya. Hal ini tidak berarti bahwa tes uaraian tidak dapat di analisis, akan tetapi
memang dalam menganalisis butir tes uraian belum ada pedoman secara standar.
Tentang kegunaan analisis terhadap item soal pada umumnya dilakukan terhadap

31
beberapa hal yaitu:.
Seberapa besar tingkat kesukaran pada butir/item soal
Apakah butir item itu mampu membedakan kemampuan antara siswa pandai dan
kurang pandai.
Apakah butir item tersebut menggunakan distraktor yang baik atau belum?
Maka dari itu dengan analisis item soal dapat diperoleh informasi tentang kejelekan
sebuah soal dan petunjuk untuk mengadakan perbaikan.
B. Teknik Menganalisis Item Soal
Penganalisisan terhadap butir-butir soal dapat dilakukan dari tiga segi yaitu
1. Teknik analisis kesukaran item soal
2. Teknik anallisis daya pembeda
3. Teknik analisis fungsi distraktor
1) Teknik analisis Kesukaran Item Soal
Bermutu atau tidanya butir-butir soal, pertama-tama dapat diketahui dari derajat
kesukaran atau taraf kesulitan yang dimiliki oleh masing-masing butir item tersebut.
Butir-butir tersebut dapat dinyatakan sebagai butir-butir item yang baik, apabila butirbutir item tersebut tidak terlalu sukar dan tidak pula terlalu mudah dengan kata lain
derajat kesukaran item itu adalah sedang atau cukup.
Bilangan yang menunjukan sukar dan mudahnya sesuatu soal disebut indeks
kesukaran (difficuly index). Besarnya indeks kesukaran antara 0,00 sampai dengan
1,0. Indeks kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks
kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0
menunjukkan bahwa soalnya terlalu mudah.
Angka indeks kesukaran item ini dapat diperoleh dengan menggunakan rumus yang
dikemukakan oleh Dubois yaitu:
P=
Keterangan:
P : Angka indeks kesukaran item soal
Np : Banyaknya testee yang dapat menjawab dengan betul terhadap butir item yang
bersangkutan
N : Jumlah testee yang mengikuti tes
Rumus lainnya adalah
P=
Keterangan:
P : Angka index kesukaran item
B : Banyaknya testee yang dapat menjawab dengan betul terhadap butir item yang
bersangkutan
JS : Jumlah testee yang mengikuti tes
Menurut ketentuan yang sering diikuti, indeks kesukaran sering di klasifikasikan
sebagai berikut:
Soal dengan P 0,00 sampai 0,30 adalah soal sukar
Soal dengan P 0,30 sampai 0,70 adalah soal sedang
Soal dengan P 0,70 sampai 1,00 adalah mudah
Contoh soal:
Ada 10 orang dengan nama kode A-J yang mengajarkan tes yang terdiri dari 10 soal.
Jawaban tesnya di analisis dan tertera sebagai berikut ini:
1 = jawaban benar
0 = jawaban salah
Siswa Nomor soal Skor siswa
1 2 3 4 5 6 7 8 9 10

32
A01101011106
B10111100016
C10000011104
D00111010116
E10101010106
F00110111116
G10100000013
H00110010115
I10001000114
J11111010118
10= N/JS 6= Np/B 2= Np/B 8= Np/B 5= Np/B 6= Np/B 2= Np/B 7= Np/B 3= Np/B 8=
Np/B 7= Np/B
Guna meringkas pembicaraan, perhatikanlah tabel yang menyajikan hasil-hasil
perhitungan angka indeks kesukaran item nomor 1 sampai 10 yaitu:
Butir item nomor Angka indeks kesukaran interprestasi
1 Cukup (sedang)
2 Terlalu sukar
3 Terlalu mudah
4 Cukup (sedang)
5 Cukup (sedang)
6 Terlalu sukar
7 Cukup (sedang)
8 Terlalu sukar
9 Terlalu mudah
10 Cukup (sedang)
Dari hasil analisis yang dilakukan terhadap 10 butir item tersebut pada akhirnya dapat
di katahui bahwa sebanyak 5 butir item termasuk dalam kategori item yang
kwalitasnya baik, dalam arti: derajat kesuakaran itemnya cukup atau sedang yaitu
butir item no: 1, 4, 5, 7, dan 10. butir-butir item yang termasuk kategori terlalu sukar
adalah butir no: 2, 6, dan 8. Adapun butir item yang termasuk kategori mudah yakni
butir no: 3 dan 9. Bararti 50% dari keseluruhan butir item yang diajukan dalam tes
tersebut termasuk baik, sedangkan 50% setelahnya adalah termasuk item yang jelek,
baik karena terlalu mudah maupun terlalu sulit.
2) Teknink Analisis Daya Pembeda
Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antara siswa
yang pandai (berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan
rendah).
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi,
disingkat D (d besar). Seperti halnya indeks kesukaran, indeks diskriminasi (daya
pembeda) ini berkisar antara 0,00 sampai 1,00. hanya bedanya, indeks kesukaran
tidak mengenal tanda negatif (-), tetapi pada indeks diskriminasi ada tanda negatif.
Tanda negatif pada indeks diskriminasi digunakan jika sesuatu soal terbaik
menunjukkan kualitas testee. Yaitu anak pandai disebut bodoh dan anak bodoh
disebut pandai.
Dengan demikian ada tiga titik pada daya pembeda yaitu:
1,00
Bagi suatu soal yang dapat dijawab benar oleh siswa pandai maupun siswa bodoh,
maka soal itu tidak baik karena tidak mempunyai daya pembeda. Demikian pula jika
semua siswa baik pandai maupun bodoh tidak dapat menjawab dengan benar. Soal
yang baik adalah soal yang dapat dijawab benar oleh siswa-siswa yang pandai saja.
Seluruh pengikut tes dikelompokkan menjadi 2 kelompok, yaitu kelompok pandai atau
kelompok atas (upper group) dan kelompok bodoh atau kelompok bawah (lower

33
group).
Cara Menentukan Daya Pembeda (nilai D)
Untuk ini perlu dibedakan antara kelompok kecil (kurang dari 100) dan kelompok besar
(100 orang keatas).
a) Untuk kelompok kecil
Seluruh kelompok testee dibagi dua sama besar , 50% kelompok atas dan 50%
kelompok bawah.
Contoh:
Siswa A B C D E
Skor 9 8 7 7 6 F G H I J 5 5 4 4 3
Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai terbawah, lalu dibagi
dua.
b) Untuk Kelompok Besar
Mengingat biaya dan waktu untuk menganalisis, maka untuk kelompok besar biasanya
hanya di ambil kedua kutubnya saja, yaitu 27% skor teratas sebagai kelompok atas ( )
dan 27% skor terbawah sebagai kelompok bawah ( ).
jumlah kelompok atas
jumlah kelompok bawah
Rumus untuk mencari D
Rumus untuk menentukan indeks diskriminasi adalah:
Di mana:
= jumlah peserta tes
banyaknya peserta kelompok atas
banyaknya peserta kelompok bawah
banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar
proporsi peserta kelompok atas yang menjawab benar (ingat, P sebagai indeks
kesukaran)
proporsi peserta kelompok bawah yang menjawab benar
Contoh perhitungan:
Dari hasil analisis tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20 orang
siswa, terdapat dalam tabel sebagai berikut:
TABEL ANALISIS 10 BUTIR SOAL, 20 SISWA
siswa kelompok Nilai soal Skor siswa
1 2 3 4 5 6 7 8 9 10
AB10100011105
BA01111100117
CA10101111118
DB00100111105
E A 1 1 1 1 1 1 1 1 1 1 10
FB11000111106
GB01000111116
HB01100101116
IA11100111118
JA11110010117
KA11100111107
LB01011001105
MB01000001103
NA00101111117
OA11011111119
PB01000100103
QA11011111118
RA11110111108

34
SB10100111106
TB01010111106
JUMLAH 11 15 12 8 6 16 15 17 20 10
Berdasarkan nama-nama siswa dapat kita peroleh skor-skor sebagai berikut:
A=5F=6K=7P=3
B=7G=6L=5Q=8
C=8H=6M=3R=8
D=5I=8N=7S=6
E = 10 J = 7 0 = 9 T = 6
Dari angka-angka yang belum teratur kemudian dibuat array (urutan penyebaran),
dari skor yang paling tinggi ke skor yang paling rendah.
Kelompok atas Kelompok bawah
10 6
96
86
86
86
86
75
75
75
73
10 orang 10 orang
Array ini sekaligus menunjukkan adanya kelompok atas ( ) dan kelompok bawah ( )
dengan pemiliknya sebagai berikut:
Kelompok atas Kelompok bawah B = 7 A = 5
C=8D=5
E = 10 F = 6
I=8G=6
J=7H=6
K=7L=5
N=7M=3
O=9P=3
Q=8S=6
R=8T=6
10 orang 10 orang
Perhatikan pada tabel analisis 10 butir soal 20 siswa.
Di belakang nama siswa di tuliskan huruf A atau B sebagai tanda kelompok. Hal ini
untuk mempermudah menentukan dan .
= Banyaknya siswa yang menjawab benar pada kelompok atas (A),
= Banyaknya siswa yang menjawab benar pada kelompok bawah (B)
Sudah disebutkan diatas bahwa soal yang baik adalah soal yang dapat membedakan
antara anak pandai dan anak bodoh, dilihat dari dapat dan tidaknya megerjakan soal.
Marilah kita lihat kita perhatikan analisis lagi, khusus untuk butir soal.
o dari kelompok atas yang dapat menjawab betul 8 orang.
o Dari kelompok bawah yang menjawab betul 3 orang.
Kita teapkan dalam rumus diskriminasi:
=8
Maka D =
= 0,8 0,3
= 0,5
Dengan demikian maka ideks diskriminasi untuk soal ni 1 adalah 0,5

35
Sekarang kita perhatikan butir soal nomor 8:
maka D =
= 0,8 0,9
= -0,1
Butir soal ini jelek karena lebih banyak di jawab benar oleh kelompok bawah
dibandingkan dengan jawaban benar dari kelompok atas. Ini berarti bahwa unutk
menjawab soal dengan benar, dapat dialakukan dengan menebak.
butir soal yang baik adalah butir-butir soal yang mempunyai indeks diskriminasi 0,4
sampai 0,7
Klasifikasi daya pembeda:
D = 0,00 0,20 = jelek (poor)
D = 0,20 0,40 = cukup (satisfactory)
D = 0,40 0,70 = baik (good)
D = 0,70 1,00 = baik sekali (excellent)
D = negative, semuanya tidak baik, jadi semua butir soal yang mempunyai nilai D
negative sebaiknya di buang saja.
3) Teknik Analisis Fungsi Distraktor
Pada saat membicarakan tentang tes obyektif bentuk multiple choice item telah
dikemukakan bahwa pada tes obyektif multiple choice item tersebut untuk setiap butir
item yang dikeluarkan dalam tes telah dilengkapi dengan beberapa kemungkian
jawab, atau yang sering dikenal dengan istilah option atau alternatif.
Option atau alternatif itu jumlahnya berkisar antara tiga smpai dengan lima buah, dan
dari kemungkinan kemungkinan jawab yang terpasang pada setiap pada setiap butir
item itu salah satunya adalah merupakan jawaban betul atu disebut dengan kunci
jawaban; sedangakan sisanya adalah merupakan jawaban salah. Jawaban jawaban
salah itulah yang bisa dikenal denag istilah distraktor (distraktor merupakan jawaban
pengecoh).
Tujuan utama dari pemasangan distraktor pada setiap butir item itu adalah agar dari
sekian banyak testee yang mengikuti tes ada yang tertarik atau terangsang uuntuk
memilihnya, sebab mereka menyangka bahwa distraktor yang mereka pilih itu
merupakan jawaban betul. Jadi mereka terkecoh, menganggap bahwa distraktor yang
terpasang pada item itu sebagai kunci jawaban item, pada hal bukan. Tentu
saja,makin banyak testee yang terkecoh, maka kita dapat menyatakan bahwa
distraktor itu semakin dapat menjalankan fungsinyadengan sebaik baiknya.
Sebaliknya, apabila distraktor yang dipasang pada setiap butir item itu tidak laku
maksudnya tak ada seorang pun dari sekian banyak testee yang merasa tertarik atau
terangsang untuk memilih distraktor tersebut sebagai jawaban betul, maka hal ini
mengandung makna bahwa distraktor tersebut tidak menjalankan fungsinya dengan
baik
Berikut ini dikemukakan sebuah contoh bagaimana cara menganalisis fungsi
distraktor. Misalnya tes dibidang studi pendidikan moral pancasila diikuti oleh 50 siswa
madrasah tsanawiyah. Bentuk soalnya adalah multiple choice dengan item sebanyak
40 butir, dimana setiap butir item dilengkapi dengan lima alternatif yaitu A,B,C,D dan
E. dari 40 butir item tersebut diatas, khusus untuk butir item no 1, 2, dan 3 diperoleh
pola penyebaran jawaban item sebagai berikut :
Nomor butir item Alternative atau option keterangan
ABCDE
123 4 6 5 30 5 ( ): kunci jawaban
1 44 2 1 2
1 1 10 1 37

36
Dengan pola penyebaran jawaban item sebagaimana tergambar pada analisis di atas
maka dengan mudah dapat diketahui, berapa persen testee yang telah terkecoh untuk
memilih distraktor yang dipasangkan pada item 1, 2 dan 3 yaitu:
1. Untuk kunci jawaban adalah D, sedangkan pengecoh/distraktornya adalah A, B, C,
dan E.
Pengecoh A dipilih oleh 4 orang, berarti 4/50 * 100% = 8%. Jadi pengecoh A sudah
dapat menjalankan fungsinya dengan baik, sebab angka persentasenya sudah lebih
dari 5%
Pengecoh B dipilih oleh 6 orang , berarti 6/50 * 100% = 12% maka distraktornya
berfungsi dengan baik.
Pengecoh C dipilih oleh 5 orang , berarti 5/50 * 100% = 10% maka distraktornya
berfungsi dengan baik.
Pengecoh E dipilih oleh 5 orang , berarti 5/50 * 100% = 10% maka distraktornya
berfungsi dengan baik.
Jadi keempat pengecoh yang dipasangkan pada item nomor 1 itu sudah dapat
menjalankan fungsinya dengan sebaik baiknya.
2. Untuk item no 2, kunci jawaban adalah B, sedangkan pengecohnya adalah A, C, D
dan E
Pengecoh A dipilih oleh 1orang, berarti 1/50 * 100% = 2%. Jadi pengecoh A belum
dapat menjalankan fungsinya dengan baik, sebab angka persentasenya kurang dari
5%
Pengecoh C dipilih oleh 2 orang , berarti 2/50 * 100% = 4% maka distraktornya tidak
berfungsi dengan baik.
Pengecoh D dipilih oleh 1 orang , berarti 1/50 * 100% = 2% maka distraktornya tidak
berfungsi dengan baik.
Pengecoh E dipilih oleh 2 orang , berarti 2/50 * 100% = 4% maka distraktornya tidak
berfungsi dengan baik
Jadi keempat pengecoh yang dipasangkan pada item nomor 2 itu belum dapat
dijalankan fungsinya seperti yang diharapkan.
3. Untuk item nomor 3, kunci jawaban adalah C, sedangkan pengecohnya adalah A, B,
D, dan E
Pengecoh A,B dan D masing masing dipilih oleh 1 orang testee = 2% berarti tiga
buah pengecoh itu belum berfungsi.
Adapun pengecoh E dipilih oleh 37 orang, berarti 37 /50* 100% = 74% maka
distraktornya berfungsi dengan baik.
Perlu ditambahkan, bahwa dengan menggunakan tabel analisis tersebut, disamping
dapat diketahui berfungsi tidaknya distraktor, dapat diketahui derajat kesukaran item
dan daya pembedanya.
Perhatikanlah kembali tabel analisis di atas. Untuk butir item nomor 1 testee yang
mrnjawab benar sebanyak 30 orang, berarti indeks kes
ukaran itemnya (P)= 30/50= 0,60(drajat kesukaran itemnya baik, yaitu terletak antara
0,30 sampai 0,70). Untuk butir item nomor 2, jumlah testee yang jawabannya betul
adalah 44 orang, berarti angka indeks kesukaran itemnya = 44/50= 0,88 (butir item
nomor 2 ini termasuk kategori terlalu mudah). Sedangkan butir item nomor 3 dijawab
betul oleh 10 orang testee: berarti angka indeks kesukarannya itemnya= 10/50 = 0,20
(butir item nomor 3 termasuk kategori terlalu sukar).
BAB III
PENUTUP
A. KESIMPULAN
Analisis Item Soal adalah merupkan suatu prosedur yang sistematis, yang akan
memberikan informasi-informasi yang sangat khusus terhadap butir tes yang akan kita

37
susun.
Penganalisisan terhadap butir-butir soal dapat dilakukan dari tiga segi yaitu
1. Teknik analisis kesukaran item soal
Angka indeks kesukaran item ini dapat diperoleh dengan menggunakan rumus yang
dikemukakan oleh Dubois yaitu:
P=
Rumus lainnya adalah
P=
2. Teknik analisis daya pembeda
Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antara siswa
yang pandai (berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan
rendah).
Rumus untuk menentukan indeks diskriminasi adalah:
3. Teknik analisis fungsi distraktor
Jawaban jawaban salah itulah yang bisa dikenal denag istilah distraktor (distraktor
merupakan jawaban pengecoh).
DAFTAR PUSTAKA
Arikunto, Suharsimi. Dasar-dasar Evaluasi Pendidikan (Jakarta: PT Bumi Aksara. 2007).
RafiI,Suryatna. Teknik Evaluasi (Bandung: Penerbit Angkasa. 1990).
Rosnita. Evaluasi Pendidikan (Bandung: Cita Pustaka Setia. 2007).
Sudijono, anas. Pengantar evaluasi pendidikan (Jakarta: Rajawali Pers. 2009)
Toha, M. Chabib. Teknik Evaluasi Pendidikan (Jakarta: PT Raja Grafindo Persada. 1996).

TINGKAT KESUKARAN

Tingkat kesukaran suatu butir soal adalah proporsi/persentase subjek yang menjawab butir tes tertentu
dengan benar. Sedangkan angka yang menunjukan sukar atau mudahnya butir soal dinamakan indeks
kesukaran yang dilambangkan dengan huruf p, nilai p ini terletak antara 0 dan 1.
Persoalan yang penting dalam melakukan analisis tingkat kesukaran soal adalah penentuan proporsi dan
kriteria soal yang termasuk mudah, sedang dan sukar. Tingkat kesukaran soal harus dipandang dari
kesanggupan atau kemampuan siswa dalam menjawabnya, bukan dilihat dari sudut guru.
Ada beberapa alasan untuk menyatakan tingkat kesukaran soal. Bisa saja tingkat kesukaran soal ditentukan
oleh kedalaman soal, kompleksitas, atau hal-hal lain yang berkaitan dengan kemampuan yang diukur oleh
soal. Namun demikian, ketika kita mengkaji lebih mendalam terhadap tingkat kesukaran soal, akan sulit
menentukan mengapa sebuah soal lebih sukar dibandingkan dengan soal yang lain.

Intinya, bermutu atau tidaknya butir-butir item tes hasil belajar pertama-tama dapat diketahui dari derajat
kesukaran atau taraf kesukaran yang dimiliki oleh masing-masing butir item tersebut. Butir-butir item tes
hasil belajar dapat dinyatakan sebagai butir-butir item yang baik, apabila butir-butir item tersebut tidak
terlalu sukar dan tidak pula terlalu mudah dengan kata lain derajat kesukaran item itu adalah sedang atau

38
cukup. Angka yang dapat memberikan petunjuk mengenai tingkat kesulitan item itu dikenal dengan istilah
difficulty index (angka indeks kesukaran item), yang dalam dunia evaluasi hasil belajar umumnya
dilambangkan dengan huruf P, yaitu singkatan dari kata proportion (proporsi = proporsa).
Beberapa pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang, dan sukar,
diantaranya:

Adanya keseimbangan jumlah soal untuk ketiga kategori tersebut.


Misalnya tes objektif pilihan ganda dalam pelajaran matematika disusun sebanyak 42 butir, dari ke-42
pertanyaan tersebut soal kategori mudah sebanyak 14, kategori sedang sebanyak 14, dan kategori sukar
sebanyak 14.
Proporsi jumlah soal untuk ketiga kategori tersebut didasarkan atas kurva normal. Maksudnya, sebagian
besar soal berada pada kategori sedang, kemudian butir soal kategori mudah dan sukar proporsinya
seimbang.

Dalam konsep teori tes klasik, tingkat kesukaran soal dapat diketahui melalui beberapa cara yaitu:
proporsi menjawab benar

a.

b. skala kesukaran linear


c. indeks Davis
d. skala bivariat.
Namun pada kesempatan ini hanya akan dibahas dengan cara 1 yaitu proporsi menjawab benar. Formula
yang digunakan untuk mengidentifikasi tingkat kesukaran soal (dengan simbol p)
Meliputi
pi

Tingkat kesukaran butir i atau proporsi menjawab benar butir i

xi
= banyaknya testee yang menjawab benar butir i, (untuk tes uraian, jumlah skor butir i yang
dijawab oleh testee)
Smi
N

skor maksimum

jumlah testee

TK : Tingkat Kesukaran
B

: Banyaknya siswa yang jawab benar

39

N : Banyak peserta tes

Kriteria yang digunakan untuk menentukan jenis tingkat kesukaran butir soal adalah sebagai berikut:
p < 0.30

butir soal sukar

0.3 < p < 0.70

butir soal sedang

p> 0.70

butir soal mudah

Tindak Lanjut Hasil Analisis

Interpretasi
Item

Tindak Lanjut

1. butir item dibuang atau didrop dan tidak dikeluarkan lagi dalam testes hasil belajar yang akan datang

Sukar

2. diteliti ulang, dilacak, dan ditelusuri sehingga dapat diketahui faktor yang menyebabkan
butir item yang bersangkutan sulit dijawab oleh testee, apakah kalimat soalnya kurang
jelas, apakah petunjuk cara mengerjakan soalnya sulit dipahami, ataukah dalam soal
tersebut terdapat istilah-istilah yang tidak jelas, dsb. Setelah dilakukan perbaikan, butirbutir item tersebut dikeluarkan lagi dalam tes hasil belajar yang akan datang.
3. butir-butir yang terlalu sulit dapat digunakan kembali dalam tes (terutama tes seleksi)
yang sifatnya sangat ketat.

Sedang

Butir item ini dapat dikeluarkan lagi dalam tes-tes hasil belajar pada
waktu-waktu yang akan datang
1. butir item dibuang atau didrop dan tidak dikeluarkan lagi dalam testes hasil belajar yang akan datang

Mudah

2. diteliti ulang, dilacak, dan ditelusuri sehingga dapat diketahui faktor yang menyebabkan
butir item yang bersangkutan sulit dijawab oleh testee, apakah kalimat soalnya kurang
jelas, apakah petunjuk cara mengerjakan solnya sulit dipahami, ataukah dalam soal tersebut
terdapat istilah-istilah yang tidak jelas, dsb. Setelah dilakukan perbaikan, butir-butir item
tersebut dikeluarkan lagi dalam tes hasil belajar yang akan datang.
3. butir-butir yang terlalu sulit dapat digunakan kembali dalam tes (terutama tes seleksi)
yang sifatnya longgar.

ANALISIS BUTIR SOAL KUALITATIF

40

Ada dua jenis analisis butir soal yang dapat pendidik laksanakan, yaitu :
1. Analisis secara kualitatif, prosedur peningkatan secara judgement, terkait dengan isi
dan bentuk soal
2. Analisis secara kuantitatif, prosedur peningkatan secara empirik, terkait dengan ciriciri statistiknya

Analisis Secara Kualitatif


Penelaahan yang dimaksudkan dalam analisis kualitatif ini adalah untuk menganalisis soal ditinjau dari segi
teknis, isi, dan editorial. Analisis secara teknis dimaksudkan sebagai penelaahan soal berdasarkan prinsipprinsip pengukuran dan format penulisan soal. Analisis secara isi dimaksudkan sebagai penelaahan khusus
yang berkaitan dengan kelayakan pengetahuan yang ditanyakan. Analisis secara editorial dimaksudkan
sebagai penelaahan yang khususnya berkaitan dengan keseluruhan format dan keajegan editorial dari soal
yang satu ke soal yang lainnya.
Analisis kualitatif lainnya dapat juga dikategorikan dari segi materi, konstruksi, dan bahasa. Analisis materi
dimaksudkan sebagai penelaahan yang berkaitan dengan substansi keilmuan yang ditanyakan dalam soal
serta tingkat kemampuan yang sesuai dengan soal. Analisis konstruksi dimaksudkan sebagai penelaahan
yang umumnya berkaitan dengan teknik penulisan soal. Analisis bahasa dimaksudkan sebagai penelaahan
soal yang berkaitan dengan penggunaan bahasa Indonesia yang baik dan benar menurut EYD

Pengertian

Penelaahan ini biasanya dilakukan sebelum soal digunakan/diujikan (tes tertulis,


perbuatan, dan sikap)
Aspek yang ditelaah : segi materi, konstruksi, bahasa/budaya, dan kunci
jawaban/pedoman penskorannya
Bahan penunjang : bahan-bahan penunjang seperti: (1) kisi-kisi tes, (2) kurikulum
yang digunakan, (3)
buku sumber, dan (4) kamus bahasa Indonesia.

Teknik analisis

1. Teknik moderator merupakan teknik berdiskusi yang di dalamnya terdapat satu orang sebagai penengah.
Berdasarkan teknik ini, setiap butir soal didiskusikan secara bersama-sama dengan beberapa ahli dan
dimoderatori oleh satu orang.
Kelebihan

: Setiap butir soal dapat dituntaskan secara bersama-sama, perbaikannya seperti apa

41
Kelemahan : Teknik ini adalah memerlukan waktu lama untuk rnendiskusikan setiap satu butir soal.

2. Teknik panel merupakan suatu teknik menelaah butir soal yang setiap butir soalnya ditelaah berdasarkan
kaidah penulisan butir soal. Para penelaah dipersilakan memperbaiki langsung pada teks soal dan
memberikan komentarnya serta memberikan nilai pada setiap butir soalnya yang kriterianya adalah: baik,
diperbaiki, atau diganti.
Berikut contoh check list analisis kualitatif:
a. Materi
1. Tes sesuai indikator
2. Pilihan jawab homogen dan logis
3. Hanya ada satu kunci jawaban yang tepat

b. Konstruksi
Pokok tes dirumuskun secara singkat dan jelas
Rumusan pokok tes dan pilihan jawaban
Pokok tes tidak memberi petunjuk ke kunci jawaban
Pokok tes bebas dari pernyataan yang bersifat negatif ganda
Gambar/grafik/table diagram dan sejenisnya jelas berfungsi \
Panjang rumusan jawaban relatif
Pilihan jawaban tidak menggunakan pernyataan semua jawaban di atas salah atau semua jawaban di atas
benar.
Pilihan jawaban yang berbentuk angka atau waktu disusun berdasarkan urutan besar kecilnya angka atau
kronologis
Butir tes tidak tergantung pada jawaban sebelumnya

c. Bahasa
Tes menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia
Tes menggunakan bahasa yang komunikatif
Tes tidak menggunakan bahasa yang berlaku setempat

42
Pilihan jawaban tidak mengulang kata/kelompok kata yang sama yang bukan merupakan satu kesatuan

Prosedur analisis
Untuk mempermudah prosedur pelaksanaan dapat menggunakan format penelahaan soal yang digunakan
sebagai dasar untuk menganalisis setiap butir soal.

cara menganalisis butir soal


ANALISIS BUTIR SOAL
Abstrak
Untuk mendapatkan kualitas soal yang baik maka perlu dilakukan analisis butir soal.
Secara garis besar ada dua cara menganalisis soal, yaitu analisis soal secara kualitatif
dan analisis soal secara kuantitatif.
Analisis soal secara kualitatif dilakukan sebelum diadakan ujicoba, yakni dengan cara
mencermati butir-butir soal yang telah disusun dilihat dari kesesuaian dengan
kemampuan dasar dan indikator yang diukur serta pemenuhan persyaratan baik dari
aspek materi, kontruksi, dan bahasa. Sedangkan analisis soal secara kuantitatif
menekankan pada karakteristik internal tes melalui data yang diperoleh secara
empiris. Karakteristik internal secara kuantitatif dimaksudkan meliputi parameter
tingkat kesukaran, daya pembeda, fungsi distraktor, dan reliabilitas.
Indeks Kesukaran soal yang ideal berkisar antara 0.30 0.70, indeks daya pembeda
yang ideal adalah mendekati angka 1; distraktor berfungsi dengan baik apabila dipilih
lebih banyak oleh kelompok rendah, dan reliabilitas tes yang baik apabila memiliki
indeks reliabilitas minimum 0.70.
Kata kunci : Indeks kesukaran, daya pembeda, fungsi distraktor dan reliabilitas
A. Pendahuluan
Sebagai alat ukur, suatu tes baru dapat dikatakan berhasil menjalankan fungsi
ukurnya apabila mampu memberikan hasil ukur yang cermat dan akurat. Tes yang
hasil ukurnya tidak cermat atau tidak dapat menunjukkan perbedaan-perbedaan kecil
yang ada pada objek ukurnya tidaklah banyak memberikan informasi yang berguna.
Apalah arti sebuah tes prestasi apabila ia tidak mampu menunjukkan perbedaan
antara siswa yang mempunyai sedikit kemampuan dan yang mempunyai lebih banyak
kecakapan. Apalah guna sebuah tes prestasi yang sedemikian mudahnya sehingga
semua siswa dapat menjawab semua soal dengan benar dan penguji kemudian tidak
dapat membedakan antara mereka yang benar-benar menguasai pelajaran dan
mereka yang menjawab benar semata-mata karena soal itu terlalu mudah. Manfaat
apakah yang dapat diambil dari sebuah tes prestasi yang demikian sukarnya sehingga
tidak seorangpun yang mampu menjawab satu soal pun dengan benar?.
Sebuah tes yang berisi soal-soal berkualitas tinggi walaupun dalam jumlah yang
sedikit akan jauh lebih berguna daripada sebuah tes yang berisi puluhan soal
berkualitas rendah. Soal-soal yang berkualitas rendah tidak saja akan menurunkan
fungsi tes akan tetapi akan memberikan hasil pengukuran yang menyesatkan.
Oleh karena itu setiap tes yang telah selesai ditulis, masih harus diuji kualitasnya
secara empirik. Soal-soalnya masih harus diuji dengan menggunakan data yang
diperoleh melalui suatu prosedur try-out atau dari hasil pengenaan tes di kelas yang
sesungguhnya (field tested). Dari data hasil pengenaan tes ini akan diperoleh bukti
mengenai kualitas soal-soal tes yang bersangkutan. Kemudian dari hasil analisis
terhadap data empirik ini pula diperoleh dasar untuk melakukan perbaikan-perbaikan
yang diperlukan. Prosedur kerja dalam melakukan pengujian seluruh soal tes yang
didasarkan pada data empirik tersebut dinamai prosedur analisis butir soal.

43
Dalam tulisan ini penulis akan memaparkan sebuah prosedur analisis butir soal
dengan memusatkan pada teori tes klasik, dengan tujuan dapat memberikan sebuah
wawasan bagi para penyusun tes prestasi, khususnya tes bentuk objektif, sehingga
tes yang disusun akan menghasilkan butir-butir soal yang memiliki kualitas baik dilihat
dari segi indeks kesukaran soal dan daya diskriminasi.
B. Analisis Butir Soal
Analisis butir soal dilakukan untuk mengetahui berfungsi tidaknya sebuah soal.
Analisis pada umumnya dilakukan melalui dua cara, yaitu analisis soal secara teoritik
atau kualitatif dan analisis soal secara empiris atau analisis soal secara kuantitatif.
Analisis soal secara teoritik atau analisis kualitatif dilakukan sebelum diadakan
ujicoba, yakni dengan cara mencermati butir-butir soal yang telah disusun dilihat dari
kesesuaian dengan kemampuan dasar dan indikator yang diukur serta pemenuhan
persyaratan baik dari aspek materi, kontruksi, dan bahasa (Mardapi, 2004: 130).
Sedangkan analisis soal secara kuantitatif menekankan pada karakteristik internal tes
melalui data yang diperoleh secara empiris. Karakteristik internal secara kuantitatif
dimaksudkan meliputi parameter soal tingkat kesukaran, daya pembeda, distribusi
jawaban, dan reliabilitas (Surapranata, 2005:10)
Pada pembahasan berikut penulis tidak akan membicarakan analisis soal secara
kualitatif, akan tetapi difokuskan pada analisis soal secara kuantitatif yang meliputi
parameter tingkat kesukaran soal, daya pembeda, fungsi distraktor, dan reliabilitas.
1. Indeks Kesukaran Soal
Sangatlah penting untuk melihat tingkat kesukaran soal dalam rangka menyediakan
berbagai macam alat diagnostik kesulitan belajar peserta didik ataupun dalam rangka
meningkatkan penilaian berbasis kelas. Baik buruknya butir tes juga ditentukan oleh
tingkat kesukaran butir tersebut, yang diperoleh dari analisis soal. Secara umum,
menurut teori klasik, tingkat kesukaran dapat dinyatakan melalui beberapa cara
diantaranya (1) proporsi menjawab benar, (2) skala kesukaran linear, (3) indeks Davis,
dan (4) skala bivariat. Proporsi jawaban benar (p), yaitu jumlah peserta tes yang
menjawab benar pada butir soal yang dianalisis dibandingkan dengan jumlah peserta
tes seluruhnya merupakan tingkat kesukaran yang paling umum digunakan
(Surapranata, 2005:12). Indeks kesukaran suatu soal dinyatakan oleh suatu indeks
yang dinamakan indeks kesukaran soal dan disimbolkan oleh huru p. Indeks kesukaran
soal merupakan rasio antara penjawab soal dengan benar dan banyaknya penjawab
soal. Secara teoretik dikatakan bahwa p sebenarnya merupakan probabilitas empirik
untuk lulus soal tertentu bagi kelompok siswa tertentu. Formulasi indeks kesukaran
soal adalah:
p = ni / N
Keterangan
p = proporsi menjawab benar atau tingkat kesukaran
ni = banyaknya siswa yang menjawab soal dengan benar
N = jumlah peserta tes
Besarnya indeks kesukaran berkisar antara 0,00 sampai dengan 1,00. Suatu soal yang
mempunyai p = 0, artinya soal itu terlalu sukar karena tidak ada peserta tes yang
menjawab benar, sedangkan butir yang mempunyai harga p = 1, artinya soal itu
terlalu mudah karena setiap peserta tes dapat menjawab dengan benar. Dari
penjelasan diatas dapat disimpulkan bahwa semakin tinggi harga p, butir soal tersebut
semakin mudah. Hal demikian secara logis sebetulnya dikatakan tingkat kemudahan
butir soal (Allen & Yen, 1979:120).
Tingkat kesukaran biasanya dibedakan menjadi tiga kategori seperti nampak pada
tabel 1 :
Tabel 1 : Kategori Tingkat Kesukaran
Nilai p Kategori
p < 0,3 Sukar

44
0,3 p 0,7 Sedang
p > 0,7 Mudah
Sebagai contoh, dari 80 orang siswa yang mengikuti tes ternyata soal nomor 1 dapat
dijawab dengan benar oleh 60 orang siswa, sedangkan soal nomor 2 dijawab dengan
benar oleh 25 orang siswa. Maka untuk soal nomor 1 ni = 60, dan p = 60/80 = 0,75,
sedangkan untuk soal nomor 2, ni = 25 dan p = 25/80 = 0,31.
Dalam contoh di atas soal nomor 1 adalah lebih mudah daripada soal nomor 2
dikarenakan soal nomor 1 dapat dijawab oleh lebih banyak siswa (60 orang),
sedangkan soal nomor 2 hanya dapat dijawab oleh 25 orang. Akan tetapi, p untuk soal
nomor 1 angkanya lebih besar daripada p untuk soal nomor 2. Hal itu menunjukkan
bahwa semakin besar angka p berarti soal yang bersangkutan semakin mudah dan
sebaliknya semakin kecil p berarti soal yang bersangkutan semakin sukar.
Berapakah besar p yang ideal? Walaupun tidak selalu benar, namun umumnya p yang
berada disekitar 0,50 dianggap yang terbaik. Kadang-kadang dikehendaki harga p
yang lebih kecil daripada 0,50 (yaitu soalnya lebih sulit) (Azwar, 2005:137). Menurut
Allen & Yen (1979:122) indek kesukaran sekitar 0,30 0,70 merupakan indeks
kesukaran yang baik.
2. Indeks Daya Pembeda (Diskriminasi) Soal
Daya beda soal adalah kemampuan suatu soal untuk membedakan antara siswa yang
pandai (siswa yang mempunyai kemampuan tinggi) dengan siswa yang kurang pandai
(siswa yang mempunyai kemampuan rendah). Fungsi dari daya beda itu adalah
mendeteksi perbedaan individual yang sekecil-kecilnya di antara para subyek tes,
sejalan dengan fungsi dan tujuan tes itu sendiri. Butir yang demikian dikatakan valid
atau cermat (Azwar, 2005:137).
Indeks daya pembeda dihitung atas dasar pembagian kelompok menjadi dua bagian,
yaitu kelompok atas yang merupakan kelompok peserta tes yang berkemampuan
tinggi dengan kelompok bawah yang merupakan kelompok peserta tes yang
berkemampuan rendah. Kemampuan tinggi ditunjukkan dengan perolehan skor yang
tinggi dan kemampuan rendah ditunjukkan dengan dengan perolehan skor yang
rendah. Indeks daya pembeda didefinisikan sebagai selisih antara proporsi jawaban
benar pada kelompok atas dengan proporsi jawaban benar pada kelompok bawah
(Crocker & Algina, (1986). Pembagian kelompok menurut Kelley (1939), Crocker &
Algina (1986) dalam Surapranata (2005:24), yang paling stabil dan sensitif serta
paling banyak digunakan adalah dengan menentukan 27% kelompok atas dan 27%
kelompok bawah. Menurut Ebel (1979) kriteria indeks daya beda adalah sebagai
berikut :
Tabel 2: Indeks Daya Pembeda Soal
Nilai D Kategori Keterangan
D 0,40 Sangat baik Diterima
0,30 D 0,39 Baik Perlu peningkatan
0,20 D 0,29 Cukup Perlu perbaikan
D 0,19 Tidak baik Dibuang
Sebagai contoh misalkan sebuah tes berjumlah 40 soal yang diikuti oleh 36 peserta
tes, selanjutnya perolehan skor diurutkan dari skor tertinggi sampai skor terendah.
Teknik pembagian kelompok atas dan kelompok bawah dapat dilihat pada tabel 2
berikut:
Tabel 3 : Pembagian kelompok 27 % - 27 %.
No Peserta Tes Butir Soal/item Skor Total
1 2 3 4 5 6 7 8 9 10
1. Ahmad 1 1 1 1 1 1 1 0 1 1 9
2. Azizah 1 1 1 1 1 1 1 0 1 1 9

45
3. Andi 1 1 1 1 1 1 1 0 1 1 9
4. Asmawati 1 1 1 1 0 1 1 0 1 1 8
5. Asyifa 0 1 1 1 1 1 1 0 1 1 8
6. Aminah 1 1 0 1 1 1 1 0 1 0 7
7. Aini 1 0 1 1 1 1 1 0 1 0 7
8. Bahriah 1 1 0 1 1 0 1 0 1 1 7
9. Bambang 0 1 1 0 1 1 1 0 1 1 7
10. Budi 1 0 0 1 1 1 1 0 1 1 7
11. Cinta 1 0 0 1 1 1 1 1 0 0 6
12. Choiriyah 1 0 0 1 1 1 1 1 0 0 6
13. Endang 1 0 0 1 1 1 1 1 0 0 6
14. Erna 1 0 0 0 0 1 0 1 1 1 6
15. Eniwati 1 1 0 1 1 0 1 1 0 0 6
16. Farida 1 1 1 0 0 0 1 1 1 0 6
17. Fitria 1 0 0 1 1 1 0 0 0 1 5
18. Farhan 1 0 0 1 1 1 0 0 0 1 5
19. Fiqrah 1 0 0 1 1 1 0 0 0 1 5
20. Hani 1 0 0 1 1 1 0 0 0 1 5
21 Kemuning 1 0 0 1 1 1 0 0 0 1 5
22 Mardiana 1 0 0 1 1 1 0 0 0 1 5
23 Hesty 0 0 0 1 1 0 0 0 0 1 4
24 Hamidah 0 1 1 0 1 0 1 0 0 0 4
25 Jamilah 0 0 1 0 1 0 1 1 0 0 4
26 Kenanga 0 1 0 0 1 0 0 1 1 0 4
27 Mawar 1 0 1 0 0 0 0 1 0 1 4
28 Melati 0 1 0 1 0 0 1 1 0 0 4
29 Mukminah 0 1 1 0 0 1 0 0 0 0 3
30 Maskanah 0 0 0 0 1 1 0 1 1 0 3
31 Murdiano 1 0 0 0 1 0 0 1 0 0 3
32 Joko 0 0 1 0 0 0 0 1 0 1 3
33 Apriani 0 1 0 1 0 0 0 1 0 0 3
34 Basuki 0 1 0 1 0 0 0 1 0 0 3
35 Imas 1 1 0 0 0 1 0 0 0 0 3
36 Rahmati 0 1 0 0 0 0 1 1 0 0 3
X 23
Jumlah Peserta Tes 36 36 36 36 36 36 36 36 36 36
Tingkat kesukaran (p) 0.64 0.50 0.36 0.64 0.69 0.61 0.53 0.44 0.39 0.50
Formulasi yang digunakan untuk mencari indeks daya pembeda adalah: d = niT / NT
niR / NR
Keterangan:
niT = Banyaknya penjawab soal dengan benar dari kelompok atas
NT = Banyaknya penjawab dari kelompok tinggi
niR = Banyaknya penjawab soal dengan benar dari kelompok rendah
NR = Banyaknya penjawab dari kelompok rendah
Dari tabel 2 di atas dapat dibagi dua kelompok, yaitu 10 peserta tes dari kelompok
atas (27%) nomor peserta 1 sampai dengan 10, dan 27% kelompok bawah berjumlah
10 orang yaitu nomor 27 sampai dengan 36. dengan berdasarkan rumus indeks daya
pembeda soal di atas, maka diperoleh indeks daya pembeda soal nomor 1 sampai 10
sebagai berikut:
Tabel 4: Kategori Tingkat Kesukaran dan Daya Pembeda
Soal Kelompok atas Kelompok bawah Daya Pembeda
1 0.80 0.30 0.50
2 0.80 0.60 0.20
3 0.70 0.70 0.00

46
4 0.90 0.70 0.20
5 0.90 0.20 0.70
6 0.90 0.30 0.60
7 1.00 0.20 0.80
8 0.00 0.80 -0.80
9 1.00 0.10 0.90
10 0.80 0.20 0.60
Kembali ke tingkat kesukaran seperti ditunjukkan pada tabel 4, dapat dilihat bahwa
soal nomor 3 merupakan soal yang mudah bagi kelompok bawah maupun bagi
kelompok atas. Perhitungan indeks daya pembeda pada soal nomor 3 diperoleh
sebesar 0.00, hal ini dapat memberikan informasi bahwa soal nomor 3 tidak dapat
membedakan antara kelompok atas dan kelompok bawah. Sedangkan soal nomor 8
merupakan soal yang sangat mudah bagi kelompok bawah, tetapi sangat sukar bagi
kelompok atas. Jika dilihat indeks daya pembeda sebesar -0.80 maka soal nomor 8
memiliki indeks daya beda yang sangat baik, tetapi terbalik.
Tanda negatif pada soal nomor 8 menunjukkan bahwa peserta tes yang
kemampuannya tinggi (kelompok atas) tidak dapat menjawab soal dengan benar,
tetapi peserta tes kelompok bawah dapat menjawab dengan benar. Dengan demikian
data tersebut menunjukkan bahwa soal 3 dan nomor 8 merupakan soal yang tidak
baik. Data statistik menunjukkan bahwa soal nomor 1, 5, 6, 7, 9 dan nomor 10
merupakan soal yang memiliki indeks daya beda yang sangat baik, ditinjau dari segi
daya pembeda soal, sedangkan soal nomor 2 dan nomor 4 merupakan soal yang
cukup, akan tetapi perlu perbaikan.
Daya pembeda soal maksimal tercapai apabila seluruh peserta tes kelompok tinggi
dapat menjawab dengan benar (niT = NT), sedangkan seluruh subjek kelompok
rendah tidak seorang pun dapat menjawab dengan benar (niR = 0).
Dalam hal ini harga d = 1 0 = 1. Indeks daya pembeda soal sebesar 0 akan terjadi
apabila proporsi penjawab benar dari kelompok tinggi dan dari kelompok rendah sama
besarnya, yaitu ketika indeks kesukaran bagi kelompok tinggi sama besar dengan
indeks kesukaran bagi kelompok rendah.
Secara matematis, indeks daya pembeda soal (d) besarnya akan berkisar mulai dari -1
sampai dengan +1,namun hanya harga d yang positif sajalah yang memiliki arti dalam
analisis butir soal. Harga d yang berada di sekitar 0 menunjukkan bahwa soal yang
bersangkutan mempunyai daya pembeda yang rendah sedangkan harga d yang
negatif menunjukkan bahwa soal yang bersangkutan tidak ada gunanya, bahwa
memberikan informasi yang menyesatkan.
Indeks daya pembeda yang ideal adalah yang sebesar mungkin mendekati angka 1,
semakin besar indeks daya pembeda berarti soal tersebut semakin mampu
membedakan antara mereka yang menguasai bahan yang diujikan dan mereka yang
tidak menguasai bahan. Semakin kecil indeks daya pembeda (mendekati 0) berarti
semakin tidak jelaslah fungsi soal yang bersangkutan dalam membedakan mana
subjek yang menguasai bahan pelajaran dan mana subjek yang tidak tahu apa-apa.
3. Fungsi Distraktor
Apabila dilihat strukturnya tes bentuk pilihan ganda terdiri atas dua bagian yaitu
pokok soal atau stem yang berisi permasalahan yang akan ditanyakan dan sejumlah
kemungkinan jawaban atau option. Kemungkinan jawaban itu dibagi dua yaitu kunci
jawaban dan pengecoh. Dari sekian banyak alternatif jawaban hanya terdapat satu
yang paling benar yang dinamakan kunci jawaban, sedangkan kemungkinan jawaban
yang tidak benar dinamakan pengecoh atau distraktor (Surapranata, 2005:43)
Pengecoh berfungsi sebagai pengidentifikasi peserta tes yang berkemampuan tinggi.
Pengecoh dikatakan berfungsi efektif apabila banyak dipilih oleh peserta tes yang
berasal dari kelompok rendah, sebaliknya apabila pengecoh banyak dipilih oleh

47
peserta tes yang berasal dari kelompok atas, maka pengecoh itu tidak berfungsi
sebagaimana mestinya.
Menurut Azwar (2005: 141) efektivitas distraktor dapat dilihat dari dua kriteria, yaitu ;
(a) distraktor dipilih oleh peserta tes dari kelompok rendah, dan (b) pemilih distraktor
tersebar relatif proporsional pada masing-masing distraktor yang ada. Lebih lanjut
Surapranata (2005: 43) dan Sudijono (2005: 411 ) suatu pengecoh dapat dikatakan
berfungsi baik jika paling sedikit dipilih oleh 5 % dari peserta tes. Apabila pengecoh
dipilih secara merata, maka termasuk pengecoh yang sangat baik. Dan apabila
pengecoh lebih banyak dipilih oleh peserta tes dari kelompok atas dibandingkan
dengan kelompok bawah, maka termasuk pengecoh yang menyesatkan.
Berikut ini dikemukakan sebuah contoh bagaimana cara menganalisis fungsi
distraktor. Misalnya sebuah tes diikuti oleh 50 orang peserta tes, bentuk soal pilihan
ganda sebanyak 40 item, dimana setiap item dilengkapi dengan lima alternatif
jawaban, yaitu A, B, C, D dan E. Dari 40 butir item tersebut khusus untuk butir item
nomor 1, 2, dan 3 diperoleh pola penyebaran jawaban item sebagai berikut:
No. Soal Altenatif jawaban Keterangan
ABCDE
1 4 6 5 30* 5 * Kunci jawaban
2 1 44* 2 1 2
3 1 1 10* 1 37
Dengan pola penyebaran jawaban item sebagaimana tergambar pada tabel di atas,
maka dengan mudah dapat diketahui berapa persen peserta tes yang telah terkecoh
untuk memilih distraktor yang dipasangkan pada item 1, 2, dan 3, yaitu :
a. untuk item nomor 1, kunci jawabannya D, sedangkan pengecohnya adalah A, B, C
dan E. Pengecoh A dipilih oleh 4 orang, berarti 4/50x100% = 8%. Jadi pengecoh A
sudah dapat berfungsi dengan baik, sebab angka persentasenya lebih dari 5%.
Pengecoh B dipilih oleh 6 orang, berarti 6/50x100% = 12% (telah berfungsi dengan
baik). Pengecoh C dipilih oleh 5 orang, berarti 5/50x100% = 10 % (telah berfungsi
dengan baik). Pengecoh E dipilih oleh 5 orang = 10% (telah berfungsi dengan baik).
Jadi keempat pengecoh yang dipasangkan pada item nomor 1 sudah dapat
menjalankan fungsinya dengan baik.
b. Untuk item nomor 2 kunci jawabannya adalah B, sebagai pengecohnya adalah : A,
C, D, dan E. Pengecoh A dipilih 1 orang, berarti 1/50x100% = 2% (belum berfungsi),
pengecoh C dipilih 2 orang berarti 2/50x100% = 4% (belum berfungsi), pengecoh D
dipilih 1 orang = 2% (belum berfungsi), dan pengecoh E dipilih 2 orang yang berarti
juga 4% (belum berfungsi). Jadi keempat pengecoh yang dipasangkan di item nomor 2
belum dapat menjalankan fungsinya seperti yang diharapkan.
c. Untuk item nomor 3, kuncinya adalah C, sebagai pengecoh adalah ; A, B, D dan E.
Pengecoh A, B, dan D masing-masing dipilih oleh 1 orang (=2%) berarti ketiga
pengecoh itu belum berfungsi. Adapun pengecoh E dipilih oleh 37 orang, berarti
37/50x100% = 74% (telah berfungsi dengan baik). Jadi soal nomor tiga hanya 1 buah
pengecoh saja yang sudah dapat menjalankan fungsinya dengan baik.
4. Reliabilitas
Penekanan utama dalam mengumpulkan data untuk menentukan reliabilitas tes
adalah pada konsistensi dihubungkan dengan reliabilitas skor atau reliabilitas penilai.
Reliabilitas skor berarti bahwa jika suatu tes telah diadministrasikan pada penempuh
ujian untuk kedua kalinya, maka penempuh ujian akan tetap memperoleh skor yang
sama dengan pengadministrasian yang pertama. Salah satu cara para spesialis
pengukuran dalam menentukan reliabilitas skor tes adalah melalui tes standar. Jika

48
penempuh ujian diuji kembali, mereka harus melengkapi tugas yang sama persis
dalam kondisi yang juga persis sama. Hal ini akan membantu dalam pencapaian hasil
tes yang konsisten.
Indeks reliabilitas soal dikatakan baik adalah minimum 0.70 (Mardapi, 2004: 119).
Reliabilitas memiliki dua keajegan, pertama adalah keajegan internal yakni tingkat
sejauhmana tingkat butir soal itu homogen baik dari segi tingkat kesukaran maupun
bentuk soalnya. Keajegan kedua adalah keajegan eksternal yakni tingkat sejauhmana
skor dihasilkan tetap sama sepanjang kemampuan orang yang diukur belum berubah.
Untuk dapat mengestimasi reliabilitas terdapat beberapa metode reliabilitas yaitu (1),
test-retest atau stabilitas (2) pararel atau ekuivalen, (3) split-half atau belah dua, (4)
interval consintency (Surapranata, 2005: 90). Pada saat sekarang sejalan dengan
kecanggihan teknologi dengan bantuan komputer program Iteman dari MicroCAT, akan
dengan mudah dan cepat untuk menghitung indeks reliabilitas tes hasil belajar.
Berikut adalah hasil dari penghitungan sebuah tes (data tidak disampaikan disini)
ujicoba tes hasil belajar mata pelajaran fiqih kelas VII MTs di Yogyakarta guna mencari
reliabilitas tes.
Tabel 5: Mencari Reliabilitas dengan Komputer
Dari hasil analisis program Iteman dapat dilihat bahwa koefisien alpha sebesar 0.668.
hal ini menunjukkan bahwa tes tersebut secara keseluruhan belum reliabel, sebab
koefisien alpha kurang dari 0.70.
Secara manual berikut ini penulis sajikan salah satu teknik menghitung reliabilitas tes
dengan menggunakan persamaan test-retest.
Tabel 6: Perhitungan reliabilitas dengan test-retest methods
No Peserta Tes Pertama Tes Kedua X12 X22 X1X2
X1 X2
1. Ahmad 31 36 961 1296 1116
2. Azizah 30 35 900 1225 1050
3. Andi 30 34 900 1156 1020
4. Asmawati 30 35 900 1225 1050
5. Asyifa 31 33 961 1089 1023
6. Aminah 29 35 841 1225 1015
7. Aini 30 36 900 1296 1080
8. Bahriah 16 40 256 1600 640
9. Bambang 14 32 196 1024 448
10. Budi 16 33 256 1089 528
11. Cinta 18 31 324 961 558
12. Choiriyah 12 36 144 1296 432
13. Endang 13 21 169 441 273
14. Erna 15 26 225 676 390
15. Eniwati 11 25 121 625 275
16. Farida 13 27 169 729 351
17. Fitria 12 15 144 225 180
18. Farhan 9 14 81 196 126
19. Fiqrah 11 16 121 256 176
20. Hani 13 18 169 324 234
21. Kemuning 12 15 144 225 180
22. Mardiana 21 18 441 324 378
23. Hesty 15 9 225 81 135
24. Hamidah 15 7 225 49 105
25. Jamilah 9 12 81 144 108
26. Kenangan 10 8 100 64 80
27. Mawar 10 8 100 64 80
28. Melati 16 11 256 121 176
29. Mukminah 13 11 169 121 143
30. Maskanah 11 11 121 121 121

49
31. Murdiano 13 16 169 256 208
32. Joko 15 18 225 324 270
33. Apriani 9 8 81 64 72
34. Basuki 6 8 36 64 48
35. Badrun 3 4 9 16 12
36. Rahmati 4 5 16 25 20
566 747 11136 20017 14101
Dari tabel di atas diperoleh jumlah skor masing-masing tes : X1= 566; X2 = 747;
X12 = 11136; X22 = 20017 dan X1X2 = 14101, selanjutnya menentukan korelasi
antara tes I dan tes II sebagai berikut:
=
=
= 0.7413
Reliabilitas hasil perhitungan adalah = 0.7413. Angka ini menunjukkan bahwa tes
pertama dengan tes kedua telah menunjukkan reliabilitas yang cukup baik, karena
lebih dari 0.70.
C. Kesimpulan
Dari uraian tentang analisis butir soal di atas, dapat penulis simpulkan bahwa:
1. Indeks kesukaran butir soal yang ideal berkisar antara 0.30 0.70;
2. Indeks daya pembeda soal yang ideal adalah yang sebesar mungkin mendekati
angka 1, semakin besar
indeks daya pembeda berarti soal tersebut semakin mampu membedakan antara
mereka yang
menguasai bahan yang diujikan dan mereka yang tidak menguasai bahan;
3. Suatu pengecoh dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5 %
dari peserta tes.
Apabila pengecoh dipilih secara merata, maka termasuk pengecoh yang sangat
baik. Dan apabila
pengecoh lebih banyak dipilih oleh peserta tes dari kelompok atas dibandingkan
dengan kelompok
bawah, maka termasuk pengecoh yang menyesatkan.
4. Reliabilitas memiliki dua keajegan, pertama adalah keajegan internal yakni tingkat
sejauhmana tingkat
butir soal itu homogen baik dari segi tingkat kesukaran maupun bentuk soalnya.
Keajegan kedua adalah
keajegan eksternal yakni tingkat sejauhmana skor dihasilkan tetap sama sepanjang
kemampuan orang
yang diukur belum berubah. Reliabilitas soal dikatakan baik apabila memiliki indeks
minimum 0.70.
DAFTAR PUSTAKA
Allen, M.J. and Yen, W. (1979). Introduction to Measurement Theory. Monterey: Brooks/Cole Publishing Company.
Azwar, S. (2005). Tes prestasi : Fungsi dan Pengembangan Pengukuran Prestasi Belajar. Yogyakarta: Pustaka Pelajar Offset.
Ebel, R. L. (1979). Essentials of Educational Measurement. (2nd ed.). Englewood Cliff, New Jersey: Prentice-Hall, Inc.
Mardapi, D., (2004). Penyusunan tes hasil belajar. Yogyakarta: Program Pascasarjana UNY
Sudijono, A., (2005). Pengantar Evaluasi Pendidikan, Jakarta: Raja Grafinfo Persada.
Surapranata, S., (2005). Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes. Implementasi kurikulum 2004. Bandung:
Remaja Rosdakarya Offset.

Analisis Ulangan Dengan Microsoft Excell


Temen-temen pernah ada yang ngeluh. Katanya bikin analisis hasil ulangan ribet banget, padahal wajib
dibikin. Saya pernah nyaranin pake SPSS atau Anates. Bagi beberapa temen, ngedapatin aplikasi SPSS susah
bgt katanya. Dikasih, eh masih ngeluh, susah pakenya. Rupanya, kalo pake software yg gak familiar, mereka
males. Malah pilih yang corat-coret pake pensil. Banyak salahnya lagi.. ape deh.

50
Belakangan aku coba saranin juga software kecil bagus , Anates. Aku peragain cara pakenya juga. Ternyata
mereka tertarik. Terus beberapa kali mereka pake . Akhirnya masih ngeluh juga. Print out nya jelek, katanya.
Wkwkwkwkwk. Apa sih maunya ni orang.maunya aja gede tapi usahanya minim.
Sambil ngeledekin tuh temen, iseng aku coba-coba bikin analisis hasil ulangan, kebetulan juga dimarahin
mulu sama bos di sekolah; gak pernah bikin analisis soalnya (hehehe). Eh ternyata bener apa kata temen.
Ribet banget bikin analisis ternyata. Coba pake SPSS, eh lupa softwarenya gak punya. Coba lagi pake
Anates. Bener juga temenku. Print outnya jelek. Kepikiran juga akhirnya. Gimana caranya bikin analisis
yang gampang, print outnya juga cakep.
Kali ini malah temenku yang ngasih saran, pake Excell jang, katanya. Kan di Exxcell banyak fungsi-fungsi
yang bisa dipake, katanya lagi. Baru kali ini aku muji temenku. Keren lue bisa bikin analisis pake excell.
Mana minta filenya euy hehe pucuk di cinta ulam pun tiba. Eeeh si dodol yang dia kasih cuma file biasa.
Dia ngitung2 dulu pake kalkulator trus diketik.
formula. Ternyata memang bisa. Bukan hanya kalkulasinya saja yang bisa dikerjain pake excell tapi juga
sampai tahap print out juga bisa diotomatiskan. Selain kalkulasi, biasanya ngatur layout bwt print out juga
agak lama. Tapi dengan beberapa formula dan macro, ternyata semua bisa dilakukan otomatis.
Ceritanya aku mau berbagi dengan temen-temen guru. File excell ini aku kasih sukarela. Cuma,
pengerjaannya baru 70%. Tapi sudah bisa dipake. Aku pengen nguji, sejauh mana akurasi dari hasil kalkulasi
formula yang aku pasang. Kalo memang akurat aku mau terusin sampe 100% beres. Ini penjelasan
singkatnya.
1. Aspek Analisis
Daya pengecoh (distraktor)
Tingkat kesukaran butir soal
Daya Pembeda
Homogenitas butir soal/validitas
Reliabilitas Soal
2. Antar Muka (interface)
Navigasi sederhana dengan tombol-tombol link.
3. Pengaturan layout untuk print out bisa otomatis dan bisa manual kalo pengen lebih keren
4. Jenis soal
Pilihan ganda
Essay/Uraian
5. Jenis analisis
Analsis instrumen (butir soal)
Analisis Hasil Ulangan
6. Lampiran
Penjelasan singkat tentang aspek analisis dan prosedur penghitungan.

51

Buat temen-temen guru, aku mohon masukannya. Silahkan unduh file ini dan sekali lagi tolong cek
akurasinya. Kalo bener aku terusin bikin, tar aku hadiahkan buat rekan-rekan guru yang mau.
Taraf Kesukaran Soal
Bermutu atau tidaknya butir-butir item tes hasil belajar pertama-tama dapat diketahui dari derajat
kesukaran atau taraf kesulitan masing-masing butir item tersebut. Butir-butir item tes hasil belajar dapat
dinyatakan sebagai butir-butir item yang baik, apabila butir-butir item tersebut tidak terlalu sukar dan tidak
pula terlalu mudah dengan kata lain derajat kesukaran item itu adalah sedang atau cukup. 19[1]
Analisis tingkat kesukaran dimaksudkan untuk mengetahui apakah soal tersebut tergolong mudah
atau sukar. Tingkat kesukaran adalah bilangan yang menunjukan sukar atau mudahnya sesuatu soal.
(Arikunto, 1999: 207).
Asumsi yang digunakan untuk memperoleh kualitas soal yang baik,disamping memenuhi validitas
dan reliabilitas, adalah adanya keseimbangan dari tingkat kesulitan soal tersebut.Keseimbangan yang

19[1] Anas Sudijono, pengantar evaluasi pendidikan, (Jakarta: PT. Raja Grafindo Persada, 2005)
h.370

52
dimaksudkan adalah adanya soal-soal yang mudah ,sedang, dan sukar secara proporsional.Tingkat
kesukaran soal dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya,bukan dilihat dari
sudut guru sebagai pembuat soal.Persoalan yang penting dalam melakukan analisis tingkat kesukaran soal
adalah penentuan proporsi dan kriteria soal yang termasuk mudah,sedang,dan sukar.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori
mudah,sedang,dan sukar,yaitu
1. Adanya keseimbangan, yakni jumlah soal sama untuk ketiga kategori tersebut.Artinya ,soal mudah,soal
sedang ,dan sukar jumlahnya seimbang.Misalnya tes objektif pilihan ganda dalam pelajaran matemati
disusun sebanyak 60 pertanyaan.Dari ke-60 pertanyaan tersebut,soal kategori mudah sebanyak 20, kategori
sedang 20, dan kategori sukar 20.
2. Proporsi jumlah soal untuk ketiga kategori tersebut didasarkan atas kurva normal.Artinya,sebagian besar
soal berada dalam kategori sedang, sebagian lagi termasuk ke dalam kategori mudah dan sukar dengan
proporsi yang seimbang.
Perbandingan antara soal mudah - sedang- sukar bisa dibuat 3-4-3.Artinya, 30% soal kategori mudah, 40%
soal kategori sedang, dan 30% lagi soal kategori sukar.
Persoalan lain adalah menentukan kriteria soal, yaitu ukuran untuk menentukan apakah soal tersebut
termasuk mudah, sedang, atau sukar. Dalam menentukan kriteria ini digunakan judgment dari guru
berdasarkan pertimbangan- pertimbangan tertentu.Pertimbangan tersebut antara lain adalah :
a) Abilitas yang diukur dalam pertanyaan tersebut.Misalnya untuk bidang kognitif, aspek pengetahuan atau
ingatan dan pemahaman termasuk kategori mudah, aspek penerapan dan analitis termasuk kategori sedang,
dan aspek sintesis dan evaluasi termasuk kategori sukar. b) Sifat materi yang diujikan atau ditanyakan
.Misalnya ada fakta,konsep,prinsip dan hukum, serta generalisasi.Fakta termasuk ke dalam kategori mudah,
konsep dan prinsip termasuk ke dalam kategori sedang , dan generalisasi ( menarik kesimpulan) termasuk ke
dalam kategori sukar. c) Isi bahan yang ditanyakan sesuai dengan bidang keilmuannya, baik luasnya maupun
kedalamannya. Tentang persoalan isi bahan yang akan diujikan, guru sendiri harus sudah bisa menentukan
mana yang termasuk mudah-sedang-sukar.Dengan kata lain,untuk menentukan kesulitan isi bahan ,
kewenangan ada pada guru itu sendiri. d) Bentuk soal.Misalnya dalam tes objek , tipe soal pilihan benarsalah lebih mudah daripada pilihan berganda dengan option tiga atau empat.Menjodohkan relatif lebih sulit
daripada pilihan berganda jika terdapat lima atau lebih yang harus dipasangkan. 20[2]
Hal yang sama berlaku dalam menyusun tes uraian (esai). Artinya,soal-soal jenis esai hendaknya
memperhatikan pula tingkat kesukaran soal. Mengingat sifatnya, menentukan tingkat kesukaran soal tes
uraian jauh lebih mudah daripada tes objektif. Melalui analisis abilitas yang diukur serta isi dan bahan yang
ditanyakan, dalam tes uraian dapat dengan mudah menentukan tingkat kesukaran.
Adapun perhitungan tingkat kesukaran soal adalah pengukuran seberapa besar derajat kesukaran suatu soal.
Jika suatu soal memiliki tingkat kesukaran seimbang (proporsional), maka dapat dikatakan bahwa soal
tersebut baik.suatu soal tes hendaknya tidak terlalu sukar dan tidak pula terlalu mudah. 21[3]
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi guru dan kegunaan bagi pengujian
dan pengajaran . Kegunaannya bagi guru adalah:
1. sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi masukan kepada siswa tentang
hasil belajar mereka
2. memperoleh informasi tentang penekanan kurikulum atau mencurigai terhadap butir soal yang bias.
Adapun kegunaannya bagi pengujian dan pengajaran adalah:
a. pengenalan konsep yang diperlukan untuk diajarkan ulang
b. tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah
c. memberi masukan kepada siswa
d. tanda-tanda kemungkinan adanya butir soal yang bias
e. merakit tes yang memiliki ketepatan data soal.
Suatu butir soal termasuk kategori mudah, maka prediksi terhadap informasi ini adalah seperti berikut.
1. Pengecoh butir soal itu tidak berfungsi.
20[2] Nana Sudjana, penilaian hasil-hasil belajar mengajar, (Bandung: PT. Remaja Rosdakarya,
1989), h.135-136

21[3] Zainal Arifin, Evaluasi Pembelajaran, (Bandung: PT. Remaja Rosdakarya, 2011) , h.266.

53
2. Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa sebagian besar siswa telah memahami
materi yang ditanyakan.
Suatu butir soal termasuk kategori sukar, maka prediksi terhadap informasi ini adalah seperti berikut.
1. Butir soal itu "mungkin" salah kunci jawaban.
2. Butir soal itu mempunyai 2 atau lebih jawaban yang benar.
3. Materi yang ditanyakan belum diajarkan atau belum tuntas pembelajarannya, sehingga kompetensi
minimum yang harus dikuasai siswa belum tercapai.
4. Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal yang diberikan (misalnya
meringkas cerita atau mengarang ditanyakan dalam bentuk pilihan ganda).
Kriteria yang digunakan adalah makin kecil indeks yang diperoleh ,makin sulit pula soal tersebut.Sebaliknya,
makin besar indeks yang diperoleh, makin mudah soal tersebut.Kriteria indeks kesulitan soal itu adalah
sebagai berikut :
1. Menghitung tingkat kesukaran soal bentuk Objektif
Witherington dalam bukunya yang berjudul Psychological Education mengatakan bahwa sudah atau belum
memadainya derajat kesukaran item tes hasil belajar dapat diketahui dari besar kecilnya angka yang
melambangkan tingkat kesulitan dari item tersebut.
Angka yang dapat memberikan petunjuk mengenai tingkat kesulitan item itu dikenal dengan istilah difficult
Index (angka indeks kesukaran item) yang dalam evaluasi umumnya dilambangkan dengan huruf P, yaitu
singkatan dari kata Proportion (Proporsi =Proporsa)
P:

0,00,10,20,30,4 0,5
0,6
0,7
0,8
0,9
1,0
Terlalu Sukar
Terlalu Mudah
Untuk menghitung tingkat kesukaran soal bentuk objektif dapat digunakan dengan dua cara, yaitu :
Cara Pertama, menggunakan rumus Proportion correct (p)
atau
.22[4]
Robert L. Thorndike dan Elizabeth Hagen dalam bukunya berjudul Measurement and Evaluation in
Psychology and Education memberikan penafsiran (interpretasi) terhadap indeks kesukaran sebagai berikut
Besarnya P
Interpretasi
Kurang dari 0,03
Terlalu sukar
0,30 0,70
Cukup (sedang)
Lebih dari 0,70
Terlalu mudah
Sedangkan menurut Witherington dalam bukunya yang berjudul Psychological Education adalah sebagai
berikut :
Besarnya P
Interpretasi
Kurang dari 0,25
Terlalu sukar
0,25 0,75
Cukup (sedang)
Lebih dari 0,75
Terlalu mudah
Contoh :
Misalkan sebanyak 10 orang testee mengikuti tes hasil belajar tahap akhir dalam mata pelajaran Aqidah
Akhlaq yang dituangkan dalam bentuk tes obyektif dengan menyajikan 10 butir item dimana untuk setiap
butir item dapat dijawab dengan betul diberikan bobot 1 dan untuk setiap jawaban salah diberikan bobot 0.
Setelah tes hasil belajar tersebut berakhir, dilakukan koreksi dan diberikan skor, pada akhir tes hasil belajar
tersebut menghasilkan pola penyebaran jawaban item sebagai berikut 23[5]
Tabel 1.Penyebaran skor jawaban 10 orang testee terhadap 10 butir item yang diajukan dalam tes hasil
belajar tahap akhir bidang studi Aqidah Akhlak
22[4] Nana Sudjana, penilaian hasil-hasil belajar mengajar, op. cit., h.372.
23[5] Anas Sudijono, Pengantar Evaluasi pendidikan, op.cit, h. 370-375

54
Testee
A
B
C
D
E
F
G
H
I
J
10 =
N=JS

Skor yang dicapai oleh testee untuk butir item nomor :


3
4
5
6
7
8
9

0
1
1
0
1
0
1
0
1
1
6
=Np=
B

1
0
0
0
0
0
0
0
0
1
2
=Np=
B

1
1
0
1
1
1
1
1
0
1
8
=Np=
B

0
1
0
1
0
1
0
1
0
1
5
=Np=
B

1
1
0
1
1
0
0
0
1
1
6
=Np=
B

0
1
0
0
1
0
0
0
0
0
2
=Np=
B

1
0
1
1
1
1
0
1
1
1
8
=Np=
B

1
0
1
0
0
1
0
0
0
0
3
=Np=
B

1
0
1
1
1
1
0
1
1
1
8
=Np=
B

10
0
1
0
1
0
1
1
1
1
1
7
=Np=
B

Masing-masing tingkat kesukaran soal dihitung dengan cara sebagai berikut :


Tabel 2 Perhitungan untuk memperoleh P, dalam rangka analisis derajat kesukaran dari 10 butir item diatas
dalam tes hasil belajar yang diikuti oleh 10 orang testee
Butir Item Nomor
Angka Indeks kesukaran item (P)
Interpretasi
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

P=
P=
P=
P=
P=
P=
P=
P=
P=
P=

Cukup (sedang)
Terlalu sukar
Terlalu mudah
Cukup (sedang)
Cukup (sedang)
Terlalu sukar
Terlalu mudah
Cukup (sedang)
Terlalu mudah
Cukup (sedang)

Tingkat kesukaran soal model ini banyak mengandung kelemahan karena tingkat
kesukaran ini sebenarnya merupakan ukuran kemudahan soal. Semakin tinggi
indeks tingkat kesukaran (p), maka semakin mudah soalnya. Sebaliknya, semakin
rendah tingkat kesukaran, maka semakin sulit soalnya. Artinya, model tingkat
kesukaran seperti ini lebih tepat disebut tingkat kemudahan (easiness). Dalam
praktiknya, ada soal yang dikatagorikan ekstrem sukar (jika p mendekati nol) dan ada
soal yang termasuk ekstrem mudah (jika p mendekati satu).
Sehubungan dengan tingkat kesukaran ini, ada beberapa hal yang harus diperhatikan dalam menyusun soal,
yaitu :
1) Soal yang termasuk ekstrem sukar atau ekstrem mudah tidak memberikan informasi yang berguna bagi
sebahagian besar peserta didik. Oleh sebab itu, soal seperti ini kemungkinan distribusi jawaban ada yang
tidak memnuhi syarat.
2) Jika ada soal ektrem sukar atau ekstrem mudah, tetapi setiap pengecoh (distribusi jawaban) pada soal
tersebut menunjukkan jawaban yang merata , logis, dan daya bedanya negative (kecuali kunci) maka
soal-soal tersebut masih memnuhi syarat untuk diterima.
3) Jika ada soal ektrem sukar atau ekstrem mudah, tetapi memiliki daya pembeda dan statistik pengecoh
memenuhi kriteria maka soal itu dapat dipilih dan diterima sebagai salah satu alternatif untuk disimpan
dalam bank soal.
4) Jika ada soal ektrem sukar atau ekstrem mudah, daya pembeda dan statistic pengecohnya belum
memenuhi criteria, maka soal tersebut perlu direvisi dan diuji coba lagi. 24[6]
Cara kedua, menggunakan rumus tingkat kesukaran (TK) ;
Keterangan :
WL = Jumlah peserta didik yang menjawab salah dari kelompok bawah
24[6] Zainal Arifin, Evaluasi Pembelajaran, op.cit, h.272-273.

55
WH = JUmlah peserta didik yang menjawab salah dari kelompok atas
nL = Jumlah kelompok bawah
nH = Jumlah kelompok atas
Sebelum menggunakanan rumus diatas, harus ditempuh terlebih dahulu langkah-langkah sebagai berikut
1. Menyusun lembar jawaban peserta didik dari skor tertinggi sampai dengan skor terendah.
2. Mengambil 27% lembar jawaban dari atas yang selanjutnya disebut kelompok atas ( higher group), dan
27% lembar jawaban dari bawah yang selanjutnya disebut kelompok bawah (lower group). Sisa sebanyak
46% disisihkan
3. Membuat table untuk mengetahui jawaban (benar atau salah) dari setiap peserta didik, baik untuk
kelompok atas maupun kelompok bawah. Jika jawaban peserta didik benar, diberi tanda + (plus),
sebaliknya jika jawaban peserta didik salah diberi tanda (minus).
Contoh :
Kelompok atas/ kelompok bawah
Peserta Didik
No. Soal
1
2
3
4
5
dst.
4.

Membuat table seperti berikut


No.
WL
WH
Soal
1
2
3
4
dst

WL + WH

dst

WL-WH

Contoh :
36 orang peserta didik SMP mengikuti Ujian Akhir Semester dalam mata pelajaran
Teknologi Informasi dan Komunikasi. Berdasarkan hasil ujian tersebut kemudian
disusun lembar jawaban peserta didik dari yang mendapat skor tertinggi sampai
dengan skor terendah. Selanjutnya, diambil 27 % dari skor tertinggi, yaitu 27 % x 36
orang = 9,72 =10 orang (dibulatkan). Setelah diketahui jumlah sampel kelompok atas
dan kelompok bawah, kemudian membuat table untuk mengetahui jawaban (benar
atau salah) dari setiap peserta didik dalam kelompok tersebut.
Tabel 10.7
Jawaban Benar-Salah Dari Kelompok Atas
Peserta Didik
No. Soal
1
2
3
4
5
6
7
8
9
10

10

+
+
+
+
+
+
+
+
+

+
+
+
+
+
+
+
+
+

+
+
+
+
+
+
+
+
+
-

+
+
+
+
+
+
+

+
+
+
+
+
+
+
+

+
+
+
+
+
+
+
+
+
+

+
+
+
-

+
+
+
-

+
+
+
+

+
+
+
+
+
+
+
+
+

56
Tabel 10.8
Jawaban Benar-Salah Dari Kelompok Atas
PesertaDidik
No. Soal

10

1
2
3
4
5
6
7
8
9
10

+
+
+
+
+
+
+
+
-

+
+
+
+
-

+
+
+
+
+

+
+
+
+
-

+
+
+
+
+
+

+
+
+
+
+
+
+
+

+
+
+
-

+
+
+
+
-

+
+

+
+
+
+

1. Untuk soal nomor 1 pada kelompok bawah yang salah 6 orang, dan pada
yang salah 4 orang
2. Untuk soal nomor 2 pada kelompok bawah yang salah 6 orang, dan pada
yang salah 2 orang
3. Untuk soal nomor 3 pada kelompok bawah yang salah 6 orang, dan pada
yang salah 3 orang
4. Untuk soal nomor 4 pada kelompok bawah yang salah 6 orang, dan pada
yang salah 1 orang
5. Untuk soal nomor 5 pada kelompok bawah yang salah 6 orang, dan pada
yang salah 3 orang
6. Untuk soal nomor 6 pada kelompok bawah yang salah 3 orang, dan pada
yang salah 2 orang
7. Untuk soal nomor 7 pada kelompok bawah yang salah 5 orang, dan pada
yang salah 3 orang
8. Untuk soal nomor 8 pada kelompok bawah yang salah 4 orang, dan pada
yang salah 4 orang
9. Untuk soal nomor 9 pada kelompok bawah yang salah 5 orang, dan pada
yang salah 4 orang
10. Untuk soal nomor 10 pada kelompok bawah yang salah 5 orang, dan pada
yang salah 3 orang

Berdasarkan data diatas dapat dibuat tabel seperti berikut :


No. Soal
WL
WH
WL + WH
WL-WH
1
6
4
10
2
2
6
2
8
4
3
6
3
9
3
4
6
1
7
5
5
6
3
9
3
6
3
2
5
1
7
5
3
8
2
8
4
4
8
0
9
5
4
9
1
10
5
3
8
2
Jadi, tingkat kesukaran setiap soal adalah sebagai berikut berikut
Adapun kriteria penafsiran tingkat kesukaran soal adalah :
1.
Jika jumlah persentase sampai dengan 27% termasuk mudah
2.
Jika jumlah 28% - 72% termasuk sedang

kelompok atas
kelompok atas
kelompok atas
kelompok atas
kelompok atas
kelompok atas
kelompok atas
kelompok atas
kelompok atas
kelompok atas

57
3.
Jika jumlah persentase 73% keatas termasuk sukar 25[7]
Berdasarkan kriteria diatas, maka hasil perhitungan tingkat kesukaran soal dapat
ditafsirkan seperti berikut :
Tabel 10.10
Penafsiran Hasil Perhitungan Tingkat Kesukaran Soal
Nomor Soal
Persentase Tingkat
Penafsiran
Kesukaran
1
50%
Sedang
2
40%
Sedang
3
45%
Sedang
4
35%
Sedang
5
45%
Sedang
6
25%
Mudah
7
40%
Sedang
8
40%
Sedang
9
45%
Sedang
10
40%
Sedang
2. Menghitung tingkat kesukaran untuk tes uraian
Cara melakukan analis untuk menentukan tingkat kesukaran pada tes uraian adalah
dengan menggunakan rumus sebagai berikut :
Ket :
P
= Proporsi menjawab benar \ tingkat kesukaran
= banyaknya peserta tes yang menjawab benar
m = skor maksimum
N
= jumlah peserta tes
Contoh :
No.
Peserta
1
1.
Puspa
5
2.
Dadap
4
3.
Jali
5
4.
Albasia
4
5.
Meranti
5
6.
Rasamala
4
7.
Cendana
5
8.
Randu
4
9.
Kamper
5
10.
Pinus
4
Masing-masing tingkat kesukaran soal

Nomor Soal
2
3
4
5
4
2
2
3
3
1
1
2
3
3
1
1
4
1
1
3
3
1
3
2
3
3
3
1
4
2
3
3
3
2
2
3
3
1
2
2
4
1
2
2
dihitung dengan cara sebagai berikut :

Pengaruh tingkat kesukaran pada skor


Idealnya, tingkat kesukaran soal sesuai dengan kemampuan peserta tes sehingga diperoleh informasi yang
antara lain dapat digunakan sebagai alat perbaikan atau peningkatan program pembelajaran .Tingkat
kesukaran akan berpengaruh pada variabilitas skor dan ketepatan dalam menbedakan antara kelompok
peserta tes.pengaruh dari tingkat kesukaran pada varian skor sangat diragukan ketika p sangat ekstrim ( 0
atau 1) .ketika seluruh soal sangat sukar ,maka skor total tentunya akan rendah.Sebaliknya ,Ketika seluruh

25[7] Ibid, h. 266-270

58
soal mudah ,tentunya skor total akan tinggi .Dengan demikian,skor total akan sedikit berpengaruh pada
variabilitas.26[8]
ANALISIS BUTIR SOAL
Analisis soal antara lain bertujuan untuk mengadakan identifikasi soal-soal baik, kurang baik dan soal yang
jelek. Dengan analisis soal dapat diperoleh informasi tentang kejelekan sebuah soal atau kekurangan sebuah
soal dan petunjuk untuk mengadakan perbaikan.
Kapan sebuah soal dikatakan baik? Untuk memberikan jawaban terhadap pertanyaan ini, perlu diterangkan
tiga masalah yang berhubungan dengan analisis soal, yaitu : taraf kesukaran, daya pembeda dan pola
jawaban soal.
a. Taraf Kesukaran
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu
mudah tidak merangsang peserta didik untuk mempertinggi usaha memecahkannya. Sebaliknya soal yang
terlalu sukar akan menyebabkan peserta didik menjadi putus asa dan tidak mempunyai semangat untuk
mencoba lagi karena diluar kemampuannya. Seorang peserta didik akan menjadi hafal dengan kebiasaan
guru-gurunya dalam pembuatan soal ini. Misalnya saja guru A dalam memberikan ulangan soalnya mudahmudah, sebaliknya guru B kalau memberikan ulangan soalnya sukar-sukar. Dengan pengetahuannya dengan
kebiasaan ini maka siswa akan belajar giat jika menghadapi ulangan dari guru B dan sebaliknya jika akan
menghadapi ulangan dari guru A, tidak mau belajar giat atau mungkin tidak mau belajar sama sekali.
Bilangan yang menunjukkan sukar dan mudahnya suatu soal disebut indeks kesukaran (difficulty index).
Besarnya indeks kesukaran antara 0,0 sampai dengan 1,0. Soal dengan indeks kesukaran 0,0 menunjukkan
bahwa soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa soalnya terlalu mudah.
0,0 -------------------------------------------> 1,0
sukar
mudah
Di dalam istilah evaluasi, indeks kesukaran ini diberi simbol P (proporsi). Dengan demikian maka soal
dengan P = 0,70 lebih mudah dibandingkan dengan soal P = 0,20. Sebaliknya soal dengan P = 0,30 dengan P
= 0,80.
Melihat besarnya bilangan indeks ini maka lebih cocok jika bukan disebut sebagai indeks kesukaran tetapi
indeks kemudahan atau indeks fasilitas, karena semakin mudah soal itu, semakin besar pula indeksnya. Akan
tetapi telah disepakati bahwa semakin tinggi indeksnya menunjukkan soal yang semakin mudah, maka tetap
disebut indeks kesukaran.
Rumus menentukan nilai P adalah :
P = B/JS
Dimana :
P= Indeks Kesukaran
B = Banyaknya siswa yang menjawab soal itu dengan betul
JS = Jumlah seluruh siswa peserta tes
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut :
Soal dengan 0,0 < P < 0,30 adalah soal sukar
Soal dengan 0,3 < P < 0,70 adalah soal sedang
Soal dengan 0,7 < P < 1,0 adalah soal mudah

Meskipun ada yang berpendapat bahwa soal-soal yang dianggap baik adalah soal-soal dengan kategori
sedang dengan indeks kesukaran 0,3 < P < 0,70. Tetapi perlu diketahui bahwa soal-soal yang terlalu mudah
atau terlalu sukar, tidak berarti tidak boleh digunakan. Hal ini tergantung dari penggunaannya.
b. Daya Pembeda
Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antara siswa yang pandai
(berkemampuan tinggi) dengan siswa yang kurang pandai (berkemampuan rendah). Angka yang
26

59
menunjukkan besarnya daya pembeda disebut indeks daya pembeda (indeks diskriminasi). Indeks
diskriminasi ini juga berkisar antara 0,0 sampai 1,0. Perbedaannya dengan indeks kesukaran adalah pada
indeks kesukaran tidak mengenal tanda negatif ( - ), tetapi pada indeks diskriminasi digunakan jika terjadi
sesuatu pada soal sehingga menunjukkan kualitas testee. Yaitu anak pandai disebut bodoh dan anak bodoh
disebut pandai.
Dengan demikian ada tiga titik dalam pada daya pembeda yaitu daya pembeda negatif (-1,00), daya pembeda
rendah (0,00) dan daya pembeda tinggi (+1,00).
Pada soal yang dapat dijawab benar oleh siswa pandai maupun siswa bodoh, soal itu dikatakan tidak baik
karena tidak mempunyai daya pembeda. Demikian pula jika semua kelompok bawah menjawab betul, maka
nilai kelompok bawah sama-sama menjawab benar atau sama-sama menjawab salah, maka soal tersebut
mempunyai nilai D 0,00. Karena tidak mempunyai daya pembeda.
c. Pola Jawaban Soal
Yang dimaksud pola jawaban disini adalah distribusi testee dalam hal menentukan pilihan jawaban
pada soal bentuk pilihan ganda. Pola jawaban soal diperoleh dengan menghitung banyaknya testee yang
tidak memilih pilihan manapun pada pilihan jawaban a, b, c, dan d. dalam istilah evaluasi disebut Omit
disingkat O. Dari pola jawaban soal dapat ditentukan apakah pengecoh (distractor) berfungsi dengan baik
atau tidak. Pengecoh yang tidak dipilih sama sekali oleh testee berarti pengecoh itu jelek, terlalu menyolok
menyesatkan. Sebaliknya sebuah pengecoh (distractor) tersebut mempunyai daya tarik yang besar bagi
pengikut-pengikut tes yang kurang memahami konsep atau kurang menguasai bahan.
Dengan melihat pola jawaban soal, dapat diketahui :
1. Taraf kesukaran butir
2. Taraf Pembeda Soal
3. Baik dan tidaknya distraktor.
Distraktor dapat diperlakukan dengan 3 cara :
a. Diterima, karena sudah baik.
b. Ditolak, karena tidak baik
c. Diperbaiki, karena kurang baik.
Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga hanya perlu diperbaiki, dengan
perubahan seperlunya. Pada soal dengan indeks kesukaran yang sukar, masih terdapat distraktor yang
dikatakan berfungsi dengan baik jika paling sedikit dipilih oleh 5% pengikut tes.
Kriteria pengujian daya penbeda adalah sebagai berikut :Bila SR

ST sama atau lebih besar dari nilai tabel, artinya butir soal itu mempunyai daya pembeda.Dari data di atas, batas pengujian adalah
5, yakni yang pertama dalam tabel di atas dengan jumlah N (28 - 31), n = 8 pada option 4. Dengan demikian dapat
disimpulkan sebagai berikut :
No.item
SR
ST Batas nilai tabel
Keterangan
1. 5 5 Diterima
2. 5 5 Diterima
3. 3 5 Ditolak
4.55 Diterima
5.15 Ditolak
6.45 Ditolak
7.15 Ditolak
8.65 Diterima
9.65 Diterima
10.25 Ditolak
11.25 Ditolak
12.55 Diterima
13.1 5 Ditolak
14.55 Diterima
15.35 Ditolak

60
Dari kesimpulan di atas hanya soal nomor 1, 2, 4, 8, 9, 12, dan 14 yang memenuhi dayapembeda, sedangkan soal nomor lainnya
tidak memiliki daya pembeda.Dari contoh di atas dapat disimpulkan bahwa cara menghitung daya pembeda adalah
denganmenempuh langkah sebagai berikut :a.Memeriksa jawaban soal semua siswa peserta tes.b.
Membuat daftar peringkat hasil tes berdasarkan skor yang dicapainya.c.Menentukan jumlah sampel sebanyak 27 % dari jumlah
peserta tes untuk kelompok siswa pandai(peringkat atas) dan 27 % untuk kelompok siswa kurang pandai (peringkat bawah).d.
Melakukan analisa butir soal, yakni menghitung jumlah siswa yang menjawab salah dari semuanomor soal, baik pada kelompok
pandai maupun pada kelompok kurang.e.Menghitung selisih jumlah siswa yang salah menjawab pada kelompok kurang
dengan kelompokpandai (SR - ST).f.Membandingkan nilai selisih yang diperoleh dengan nilai Tabel Ross dan Stanley.
g.Menentukan ada tidaknya daya pembeda pada setiap nomor soal dengan kriteria memiliki dayapembeda bila nilai selisih
jumlah siswa yang menjawab salah antara kelompok kurang dengankelompok pandai (SR - ST) sama atau lebih besar dari nilai
tabel.Butir soal yang tidak memiliki daya pembeda diduga terlalu mudah atau terlalu sukar sehinggaperlu diperbaiki atau diganti
dengan pertanyaan lain. Idealnya semua butir soal memiliki dayapembeda dan tingkat kesukaran. Tes yang telah dibakukan di
samping memenuhi validitas danreliabilitas, juga memenuhi tingkat kesukaran dan daya penbeda.Dalam literatur lain disebutkan
bahwa salah satu ciri butir yang baik adalah yang mampumembedakan antara kelompok atas (yang mampu) dan kelompok
bawah (kurang mampu). Karenaitu butir tes harus diketahui daya bedanya. Siswa yang termasuk kelompok tinggi adalah siswa
yangmempunyai rata-rata skor paling baik. Siswa yang termasuk kelompok rendah adalah siswa yangmempunyai rata-rata skor
yang rendah. Kelompok siswa yang pandai sering disebut dengan istilahkelompok Upper, dan kelompok siswa yang kurang
pandai sering disebut dengan istilah Lower.Tingkat daya pembeda butir-butir tes dinyatakan dalam skala indeks -1,00 sampai
dengan 1,00.-1,00 0 1,00
Penjelasan :
Indeks -1,00 berarti butir tes terbalik, siswa kurang pandai dalam kelompok Lower dapat menjawabbutir tes dengan sempurna,
dan kelompok yang paling pandai dalam Upper tidak ada satupun yangmampu menjawab dengan benar.
Indeks 0,00 berarti butir tes tidak dapat membedakan siswa yang pandai dengan yang kurangpandai. Atau kemampuan
kelompok pandai (Upper) sama dengan kemampuan kelompok kurangpandai (Lower).
Indeks 1,00 berarti butir tes secara sempurna dapat membedakan siswa berdasarkan tingkatkemampuannya. Adapun rumus
yang digunakan untuk menghitung daya pembeda butir tes adalah :DB =
U-L
Nup x skor maks
DB
=
Daya BedaU = Kelompok TinggiL = Kelompok RendahNup = Jumlah siswa Upper dan Lower Langkah-langkah yang
dilakukan untuk menganalisis daya pembeda butir tes adalahsebagai berikut :1.
Mengurutkan jawaban siswa mulai dari yang tertinggi sampai dengan yang terendah.2.
Membagi kelompok Atas dan kelompok Bawah masing-masing 25 % atau 30 % atau 40 %.3.
Memberi skor 1 untuk setiap jawaban yang benar dan 0 untuk jawaban yang salah pada tes pilihanganda. Sedangkan pada tes
essay diberikan skor sesuai pada rentangan yang ditentukan.4.
Menghitung daya beda dengan rumus yang telah ditentukan.
Contoh :Dalam evaluasi tes yang menggunakan bentuk pilihan ganda dan essay diperoleh skor siswa dandaya beda sebagai
berikut :
no
NAMA
SKOR PILIHAN GANDA
SKOR ESSAY
total
12345678
1.Tukul
101115610
25 U

2. Jojon
10111561025
3. Kirun
1011156924

61
4.Santi
1010145921
5.Joko
1010135819
6.Rani
1010134818
7.Pilus
1000133715
8.Rara
1000133715
9.Karyo
1 0 0 0 1 2 3 5
12 L

10.Dody
1000022510
11.Didin
100001259
12 Soro
10000123
7Upper
40434192338
95Lower
400016918
38JmlsiswaU/L
44444444
28Skor maks
11111561026
Dayabeda
0,00
0,00
1,00
0,75
0,75
0,65
0,58
0,50
Secara lebih terperinci tentang penafsiran daya beda butir soal dapat diperhatikan sebagaiberikut :0,70
1,00 = baik sekali0,40
0,69 = baik0,20
0,39 = cukup0,00
0,19 = jelek-1,00
0,00 = jelek sekali

62
Untuk butir soal yang ideal, daya bedanya berkisar antara 0,2 hingga 1,00. sehingga apabiladitemukan daya beda butir yang
negatif, sebaiknya guru mengganti butir tersebut apabila hendakdimunculkan dalam tes berikutnya. Karena daya beda negatif
memberi pengertian bahwa kelompoklower (kurang mampu) lebih baik dari pada kelompok upper (paling baik) sebesar angka
negatif yang diperoleh.
DAFTAR PUSTAKA
Fuadi, Athok,Sistem Pengembangan Evaluasi . Ponorogo : STAIN Po Press, 2008
Sudjana, Nana, Penilaian Hasil Proses Belajar Mengajar Bandung: PT. Remaja Rosdakarya,1995.
[1] Athok Fuadi,Sistem Pengembangan Evaluasi (Ponorogo : STAIN Po Press, 2008), 68-69.
ANALISIS TINGKAT KESUKARAN TES DAN DAYA PEMBEDA
BAB II
PEMBAHASAN
A. Tingkat Kesukaran
Analisis butir soal atau analisis item adalah pengkajian pertanyaan-pertanyaan tes agar diperoleh
perangkat pertanyaan yang memiliki kualitas yang memadai. Ada dua jenis analisis butir soal, yakni analisis
tingkat kesukaran soal dan analisis daya pembeda, di samping validitas dan reliabilitas. Menganalis
tingkat kesukaran soal artinya mengkaji soal-soal tes dari segi kesulitannya sehingga dapat diperoleh
soal-soal mana yang termasuk mudah, sedang, dan sukar. .
Asumsi yang digunakan untuk memperoleh kualitas soal yang baik, di samping memenuhi validitas dan
reliabilitas, adalah adanya keseimbangan dari tingkat kesulitan soal tersebut. Keseimbangan yang
dimaksudkan adalah adanya soal-soal yang termasuk mudah, sedang, dan sukar secara proporsional. Tingkat
kesukaran soal dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya, bukan dilihat dari
sudut guru sebagai pembuat soal. Persoalan yang penting dalam melakukan analisis tingkat kesukaran soal
adalah penentuan proporsi dan kriteria soal yang termasuk mudah, sedang, dan sukar.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang, dan
sukar. Pertimbangan pertama adalah adanya keseimbangan, yakni jumlah soal sama untuk ketiga kategori
tersebut. Artinya, soal mudah, sedang, dan sukar, jumlahnya seimbang. Misalnya tes objektif pilihan
berganda dalam pelajaran matematika disusun sebanyak 60 pertanyaan. Dari ke-60 pertanyaan tersebut, soal
kategori mudah sebanyak 20, kategori sedang 20, dan kategori sukar 20. Pertimbangan kedua proporsi
jumlah soal untuk ketiga kategori tersebut didasarkan atas kurva normal. Artinya, sebagian soal berada dalam
kategori sedang, sebagian lagi termasuk ke dalam kategori mudah dan sukar dengan proporsi yang seimbang.
Perbandingan antara soal mudah-sedang-sukar bisa dibuat 3-4-3, artinya 30 % soal kategori mudah, 40 %
kategori sedang, dan 30 % kategori sukar. Perbandingan lain yang termasuk sejenis dengan proporsi di atas
misalnya 3-5-2. Artinya, 30 % soal kategori mudah, 50 % kategori sedang, dan 20 % kategori sukar.
Cara melakukan analisis untuk menentukan tingkat kesukaran soal adalah dengan menggunakan rumus
sebagai berikut :
I=B
N
I = indek kesulitan untuk setiap butir soal
B = banyaknya siswa yang menjawab benar setiap butir soal
N = banyaknya siswa yang memberikan jawaban pada soal yang dimaksudkan
Kriteria yang digunakan adalah makin kecil indeks yang diperoleh, makin sulit soal tersebut. Sebaliknya,
makin besar indeks yang diperoleh, makin mudah soal tersebut. Kriteria indeks kesulitan soal itu adalah
sebagai berikut :
0 - 0,30
= soal kategori sukar.
0,31 - 0,70
= soal kategori sedang.
0,71 - 1,00
= soal kategori mudah.
Contoh :
Guru IPS memberikan 10 pertanyaan pilihan berganda dengan komposisi 3 mudah, 4 soal sedang, dan 3 soal
sukar. Jika dilukiskan, susunan soalnya adalah sebagai berikut :
No. Soal
1.
2.

Abilitas yang diukur


Pengetahuan
Aplikasi

Tingkat kesulitan soal


Mudah
Sedang

63
3.
4.
5.
6.
7.
8.
9.
10.

Pemahaman
Analisis
Evaluasi
Sintesis
Pemahaman
Aplikasi
Analisis
Sintesis

Mudah
Sedang
Sukar
Sukar
Mudah
Sedang
Sedang
Sukar

Kemudian soal tersebut diberikan kepada 20 orang siswa dan tidak seorangpun
seluruh pertanyaan tersebut. Setelah diperiksa, hasilnya adalah sebagai berikut :
No. Soal
Banyaknya siswa yang
Banyaknya siswa yang
Indeks
menjawab (N)
menjawab betul (B)
B
N
1.
20
18
0,9
2.
20
12
0,6
3.
20
10
0,5
4.
20
20
1,0
5.
20
6
0,3
6.
20
4
0,2
7.
20
16
0,8
8.
20
11
0,55
9.
20
17
0,85
10.
20
5
0,25

yang tidak mengisi


Kategori soal
Mudah
Sedang
Sedang
Mudah
Sukar
Sukar
Mudah
Sedang
Mudah
Sukar

Dari sebaran di atas, ternyata ada tiga soal yang meleset, yakni soal nomor 3 yang semula diproyeksikan ke
dalam kategori mudah, setelah dicoba ternyata termasuk ke dalam kategori sedang. Demikian juga soal
nomor 4 yang semula diproyeksikan sedang ternyata termasuk ke dalam kategori mudah. Soal nomor 9
semula diproyeksikan sedang, ternyata termasuk ke dalam kategori mudah. Sedangkan 7 soal lainnya sesuai
dengan proyeksi semula. Atas dasar tersebut, ketiga soal di atas harus diperbaiki kembali.
- soal no. 3 diturunkan ke dalam kategori mudah,
- soal no. 4 dinaikkan ke dalam kategori sedang,
- soal no. 9 dinaikkan ke dalam kategori sedang.
Cara lain dalam melakukan analisis tingkat kesukaran soal adalah dengan menggunakan tabel Rose dan
Stanley.
Dalam literatur lain disebutkan bahwa Tingkat kesukaran tes adalah pernyataan tentang seberapa
mudah atau seberapa sukar sebuah butir tes itu bagi testee atau siswa terkait. Tingkat kesukaran
merupakan salah satu ciri tes yang perlu diperhatikan, karena tingkat kesukaran tes menunjukkan seberapa
sukar atau mudahnya butir-butir tes atau tes secara keseluruhan yang telah diselenggarakan. Butir tes yang
baik adalah butir yang memiliki tingkat kesukaran yang sedang, yaitu yang dapat dijawab dengan benar oleh
sekitar 40 sampai 80 % peserta tes. Sebab butir tes yang hanya dijawab oleh 10 % atau bahkan 90 %, akan
sulit dibedakan, manakah kelompok yang benar-benar mampu dan kelompok yang benar-benar kurang
mampu dalam menjawab soal.
Butir tes harus diketahui tingkat kesukarannya, karena setiap pembuat tes perlu mengetahui apakah soal itu
sukar, sedang atau mudah. Tingkat kesukaran itu dapat dilihat dari jawaban siswa. Semakin sedikit jumlah
siswa yang dapat menjawab soal itu dengan benar, berarti soal itu termasuk sukar dan sebaliknya semakin
banyak siswa yang dapat menjawab soal itu dengan benar, berarti itu mengindikasikan soal itu tidak sukar
atau soal itu mudah.
Dalam proses analisis tes, seorang guru hendaknya meninjau ulang validitas dan susunan redaksional butir
tes yang dibuatnya. Jika ternyata butir tes/soal tidak valid, maka keputusan yang harus diambil adalah
membuang butir tes tersebut. Dan jika butir tes itu valid, maka perlu diadakan revisi terhadap susunan
redaksi tes. Valid yang dimaksud di sini adalah, terdapat keterwakilan dan relevansi dengan kemampuan
yang harus diukur sesuai GBPP yang diberlakukan.
Tingkat kesukaran butir tes dinyatakan dengan indeks berkisar antara 0,00 sampai dengan 1,00.
0
1

64
Indeks 0,00 berarti butir soal sangat sukar karena tidak seorangpun dapat menjawab dengan benar butir tes
tersebut. Sebaliknya jika indeksnya 1,00 berarti butir soal tersebut sangat mudah karena semua siswa dapat
menjawabnya dengan benar.
Adapun rumus yang digunakan untuk menghitung tingkat kesukaran butir tes adalah :
TK =
B
N x skor maks
TK = Tingkat Kesukaran
B = Jumlah skor siswa yang menjawab dengan benar
N = Jumlah siswa
Contoh :
Dalam evaluasi tes yang menggunakan bentuk pilihan ganda dan essay diperoleh skor siswa dan tingkat
kesukaran sebagai berikut :
N
O

SKOR PILIHAN GANDA

SKOR ESSAY

NAMA

1
2
3
4
5
6
7
8
Tukul
1
0
1
1
1
5
6
10
Jojon
1
0
1
1
1
5
6
10
Kirun
1
0
1
1
1
5
6
9
Santi
1
0
1
0
1
4
5
9
Joko
1
0
1
0
1
3
5
8
Rani
1
0
1
0
1
3
4
8
Pilus
1
0
0
0
1
3
3
7
Rara
1
0
0
0
1
3
3
7
Karyo
1
0
0
0
1
2
3
5
Dody
1
0
0
0
0
2
2
5
Didin
1
0
0
0
0
1
2
5
Soro
1
0
0
0
0
1
2
3
Jml Benar
12
0
6
3
9
37
47
86
Skor Maks
1
1
1
1
1
5
6
10
Tingkat
0,2
Kesukaran
1
0
0,5
5
0,75 0,62 0,65 0,72
Secara lebih terperinci tentang penafsiran tingkat kesukaran dapat diperhatikan sebagai berikut :
0,00
= Sangat Sukar
0,02 0,39 = Sukar
0,40 0,80 = Sedang (baik)
0,81 0,99 = Mudah
Untuk sebuah butir tes yang ideal, tingkat kesukaran butir berkisar antara 0,4 hingga 0,8.[1]
1
2
3
4
5
6
7
8
9
10
11
12

B. Daya Beda
Menganalisis daya pembeda artinya mengkaji soal-soal tes dari segi kesanggupan tes tersebut dalam
membedakan siswa yang termasuk ke dalam kategori lemah/rendah dan kategori kuat/tinggi
prestasinya. Artinya, bila soal tersebut diberikan kepada anak yang mampu, hasilnya rendah. Tetapi bila
diberikan kepada anak yang lemah, hasilnya lebih tinggi. Atau bila diberikan kepada kedua kategori siswa
tersebut, hasilnya sama saja. Dengan demikian, tes yang tidak memiliki daya pembeda tidak akan
menghasilkan gambaran hasil yang sesuai dengan kemampuan siswa yang sebenarnya. Sungguh aneh bila
anak pandai tidak lulus, tetapi anak bodoh lulus dengan baik tanpa dilakukan manipulasi oleh si penilai atau
di luar faktor kebetulan.
Cara yang biasa dilakukan dalam analisis daya pembeda adalah dengan menggunakan tabel atau kriteria
dari Rose dan Stanley :
Rumusnya adalah :
SR ST
SR = jumlah siswa yang menjawab salah kelompok rendah
ST = jumlah siswa yang menjawab salah kelompok tinggi

65
Contoh :
Tes pilihan ganda dengan option 4 diberikan kepada 30 siswa. Jumlah soal 15. setelah diperiksa, datanya
adalah sebagai berikut :
No.soal
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

Jumlah siswa yang menjawab


salah
kelompok
rendah
(SR)
6
6
5
6
2
5
2
7
7
4
3
6
2
6
5

Jumlah
siswa
yang
menjawab salah kelompok
tinggi (ST)
1
1
2
1
1
1
1
1
1
2
1
1
1
1
2

SR - ST
Keterangan
5
5
3
5
1
4
1
6
6
2
2
5
1
5
3

N = 30 orang
N = 27 % dari 30 = 8
Kriteria yang digunakan dari tabel Ross dan Stanley adalah sebagai berikut :
Jumlah Testee (N)

n
(27 % N)
8
9
10

28 31
32 35
36 38
dst. Lihat tabel pada lampiran

2
4
5
5

Option
3
4
5
5
5
5
5
5

5
5
5
5

Kriteria pengujian daya penbeda adalah sebagai berikut :


Bila SR ST sama atau lebih besar dari nilai tabel, artinya butir soal itu mempunyai daya pembeda.
Dari data di atas, batas pengujian adalah 5, yakni yang pertama dalam tabel di atas dengan jumlah N (28 31), n = 8 pada option 4. Dengan demikian dapat disimpulkan sebagai berikut :
No.item
SR ST
Batas nilai tabel
Keterangan
1.
5
5
Diterima
2.
5
5
Diterima
3.
3
5
Ditolak
4.
5
5
Diterima
5.
1
5
Ditolak
6.
4
5
Ditolak
7.
1
5
Ditolak
8.
6
5
Diterima
9.
6
5
Diterima
10.
2
5
Ditolak
11.
12.
13.
14.
15.

2
5
1
5
3

5
5
5
5
5

Ditolak
Diterima
Ditolak
Diterima
Ditolak

Dari kesimpulan di atas hanya soal nomor 1, 2, 4, 8, 9, 12, dan 14 yang memenuhi daya pembeda, sedangkan
soal nomor lainnya tidak memiliki daya pembeda.

66
Dari contoh di atas dapat disimpulkan bahwa cara menghitung daya pembeda adalah dengan menempuh
langkah sebagai berikut :
a. Memeriksa jawaban soal semua siswa peserta tes.
b. Membuat daftar peringkat hasil tes berdasarkan skor yang dicapainya.
c. Menentukan jumlah sampel sebanyak 27 % dari jumlah peserta tes untuk kelompok siswa
pandai (peringkat atas) dan 27 % untuk kelompok siswa kurang pandai (peringkat bawah).
d. Melakukan analisa butir soal, yakni menghitung jumlah siswa yang menjawab salah dari semua
nomor soal, baik pada kelompok pandai maupun pada kelompok kurang.
e. Menghitung selisih jumlah siswa yang salah menjawab pada kelompok kurang dengan
kelompok pandai (SR - ST).
f. Membandingkan nilai selisih yang diperoleh dengan nilai Tabel Ross dan Stanley.
g. Menentukan ada tidaknya daya pembeda pada setiap nomor soal dengan kriteria memiliki
daya pembeda bila nilai selisih jumlah siswa yang menjawab salah antara kelompok kurang
dengan kelompok pandai (SR - ST) sama atau lebih besar dari nilai tabel.
Butir soal yang tidak memiliki daya pembeda diduga terlalu mudah atau terlalu sukar sehingga perlu
diperbaiki atau diganti dengan pertanyaan lain. Idealnya semua butir soal memiliki daya pembeda dan
tingkat kesukaran. Tes yang telah dibakukan di samping memenuhi validitas dan reliabilitas, juga memenuhi
tingkat kesukaran dan daya penbeda.
Dalam literatur lain disebutkan bahwa salah satu ciri butir yang baik adalah yang mampu membedakan
antara kelompok atas (yang mampu) dan kelompok bawah (kurang mampu). Karena itu butir tes harus
diketahui daya bedanya. Siswa yang termasuk kelompok tinggi adalah siswa yang mempunyai rata-rata skor
paling baik. Siswa yang termasuk kelompok rendah adalah siswa yang mempunyai rata-rata skor yang
rendah. Kelompok siswa yang pandai sering disebut dengan istilah kelompok Upper, dan kelompok siswa
yang kurang pandai sering disebut dengan istilah Lower.
Tingkat daya pembeda butir-butir tes dinyatakan dalam skala indeks -1,00 sampai dengan 1,00.
-1,00
0
1,00
Penjelasan :
Indeks -1,00 berarti butir tes terbalik, siswa kurang pandai dalam kelompok Lower dapat
menjawab butir tes dengan sempurna, dan kelompok yang paling pandai dalam Upper tidak ada
satupun yang mampu menjawab dengan benar.
Indeks 0,00 berarti butir tes tidak dapat membedakan siswa yang pandai dengan yang kurang
pandai. Atau kemampuan kelompok pandai (Upper) sama dengan kemampuan kelompok kurang
pandai (Lower).
Indeks 1,00 berarti butir tes secara sempurna dapat membedakan siswa berdasarkan tingkat
kemampuannya.
Adapun rumus yang digunakan untuk menghitung daya pembeda butir tes adalah :
DB =
U - L
Nup x skor maks
DB = Daya Beda
U = Kelompok Tinggi
L = Kelompok Rendah
Nup = Jumlah siswa Upper dan Lower
Langkah-langkah yang dilakukan untuk menganalisis daya pembeda butir tes adalah sebagai berikut :
1.
Mengurutkan jawaban siswa mulai dari yang tertinggi sampai dengan yang terendah.
2.
Membagi kelompok Atas dan kelompok Bawah masing-masing 25 % atau 30 % atau 40 %.
3.
Memberi skor 1 untuk setiap jawaban yang benar dan 0 untuk jawaban yang salah pada tes pilihan
ganda. Sedangkan pada tes essay diberikan skor sesuai pada rentangan yang ditentukan.
4.
Menghitung daya beda dengan rumus yang telah ditentukan.
Contoh :
Dalam evaluasi tes yang menggunakan bentuk pilihan ganda dan essay diperoleh skor siswa dan daya beda
sebagai berikut :
no

NAMA

SKOR PILIHAN GANDA

SKOR ESSAY

total

67
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12

Tukul
Jojon
Kirun
Santi
Joko
Rani
Pilus
Rara
Karyo
Dody
Didin
Soro
Upper
Lower
Jml siswa U/L
Skor maks
Daya beda

1
1
1
1
1
1
1
1
1
1
1
1
1
4
4
4
1

2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
1

3
1
1
1
1
1
1
0
0
0
0
0
0
4
0
4
1

4
1
1
1
0
0
0
0
0
0
0
0
0
3
0
4
1

5
1
1
1
1
1
1
1
1
1
0
0
0
4
1
4
1

6
5
5
5
4
3
3
3
3
2
2
1
1
19
6
4
5

7
6
6
6
5
5
4
3
3
3
2
2
2
23
9
4
6

8
10
10
9
9
8
8
7
7
5
5
5
3
38
18
4
10

0,00

0,00

1,00

0,75

0,75

0,65

0,58

0,50

25
25
24
21
19
18
15
15
12
10
9
7
95
38
28
26

UPPER

LOWER

Secara lebih terperinci tentang penafsiran daya beda butir soal dapat diperhatikan sebagai berikut :
0,70 1,00
=
baik sekali
0,40 0,69
=
baik
0,20 0,39
=
cukup
0,00 0,19
=
jelek
-1,00 0,00
=
jelek sekali
Untuk butir soal yang ideal, daya bedanya berkisar antara 0,2 hingga 1,00. sehingga apabila ditemukan daya
beda butir yang negatif, sebaiknya guru mengganti butir tersebut apabila hendak dimunculkan dalam tes
berikutnya. Karena daya beda negatif memberi pengertian bahwa kelompok lower (kurang mampu) lebih
baik dari pada kelompok upper (paling baik) sebesar angka negatif yang diperoleh.
DAFTAR PUSTAKA
Fuadi, Athok, Sistem Pengembangan Evaluasi. Ponorogo : STAIN Po Press, 2008.
Sudjana, Nana, Penilaian Hasil Proses Belajar Mengajar. Bandung: PT. Remaja Rosdakarya, 1995.

analisis kesukaran
Yang dimkasud dengan analisis tingkat kesukaran adalah mengkajisoal-soal dari segi kesulitannya, sehingga
dapat diperoleh soal-soal mana yangtermasuk mudah, sedang, dan sukar. Guru dalam menyusun soal
harusmemperhatikan tingkat kesukaran soal yang dibuat. Soal dikatakan baikapabila soal tersebut tidak
terlalu sukar atau terlalu mudah. Soal yang terlalumudah, yakni semua anak dapat mengerjakan dengan
benar, adalah tidak baik.Demikian juga soal yang terlalu sukar, yaitu semua anak tidak dapatmengerjakan
soal dengan benar, juga merupakan soal yang tidak baik. Hal itudisebabkan karena soal yang terlalu mudah
tidak merangsang peserta didikuntuk mempertinggi usaha memecahkannya.
Dan soal yang terlalu sukarmenyebabkan peserta didik putus asa serta menjadi tidak mempunyaisemangat
untuk mencoba lagi Karena diluar jangkauannya.Adapun bilangan yang menunjukkan sukar dan mudahnya
suatu soaldisebut dengan indeks kesukaran (difficulty index). Indek Kesukaran (IK) inimenunjukkan taraf
kesukaran soal. Besarnya IK adalah antara 0.00 sampaidengan 1,00.68Kriteria yang di gunakan adalah makin
kecil indeks yang di peroleh,maka makin sulit soal tersebut. Sebaliknya makin besar indeks yang diperoleh
makin mudah soal tersebut. Kriteria indeks kesulitan soal tersebutsebagai berikut: Yang dimaksud dengan
peserta tes kelompok pandai (upper group)adalah peserta tes yang mempunyai skor-skor tinggi, atau disebut
jugakelompok atas (KA).

68
Dan peserta tes kelompok kurang (lower group) adalahpeserta tes yang mempunyai skor-skor rendah, atau
disebut kelompok bawah(KB). Untuk menentukan uppergroup dan lower group diambil kira-kira 25%atau
27% dari jumlah peserta tes (apabila peserta tes jumlahnya 100 ), ataukira-kira 50% (apabila peserta tes
jumlahnya < 100 ).. Analisis Daya PembedaMenganalisis daya pembeda maksudnya adalah mengkaji soalsoal tesdari segi kesanggupan tes tersebut dalam membedakan peserta tes yangtermasuk kedalam kategori
rendah atau tinggi prestasinya. Nilai bedamerupakan jarak untuk dapat membedakan antara peserta tes yang
termasukkelompok pandai (upper group) dengan peserta tes yang termasuk kelompokkurang (lower group).
Daya pembeda soal ini menunjukkan kemampuan suatu soal untuk membedakan antara testee yang mampu
dengan testee yangtidak mampu.Soal dikatakan mempunyai kemampuan diskriminasi yang benarapabila soal
tersebut dijawab denga benar oleh banyak anggota upper groupbila dibandingkan dengan anggota lower
group. Kemampuan diskriminasi inidikatakan benar dan mutlak, bila semua anggota upper group menjawab
soaltersebut dengan benar dan semua anggota lower group tidak bisamenjawabnya. Sebaliknya kadangkadang justru terjadi anggota lower groupyang lebih banyak menjawab betul dari pada anggota upper group,
hal sepertiini dikatakan bahwa soal yang bersangkutan dikatakan mempunyaikemampuan diskriminasi yang
salah. Kemampuan diskriminasi yang salahinni dikatakan mutlak apabila semua anggota upper group
menjawab salahdan semua anggota lower group menjawab benar.75Angka yang menunjukkan besarnya daya
pembeda disebut denganIndeks Diskriminasi (ID).
Besarnya ID suatu item berkisar antar -1,00 sampaidengan 1,00. Indeks Diskriminasi suatu item sebesar 0,00
berarti tidak adaperbedaan jawaban benar antara peserta tes yang termasuk upper group danlower group.
Indeks Diskriminasi suatu item sebesar 1,00 berarti adaperbedaan yang sempurna dari jawaban benar antar
peserta tes yang termasukupper group dan lower group. Dengan kata lain seluruh peserta tes yang tergolong
upper group menjawab benar soal/item tertentu dan seluruh pesertates yang tergolong lower group menjawab
salah terhadap item tersebut.Sebaliknya, apabila seluruh siswa yang tergolong upper group menjawabsalah
suatu item tertentu dan peserta tes yang tergolong lower groupmenjawab benar item tersebut, maka indeks
diskriminasinya sebesar -1,00.
Rumus Daya Pembeda dan Tingkat Kesukaran Pada Analsis Butir Soal
Tingkat Kesukaran (TK)
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu
yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan
dalam bentuk proporsi yang besarnya berkisar 0,00 - 1,00 (Aiken (1994: 66). Semakin besar indeks tingkat
kesukaran yang diperoleh dari hasil hitungan, berarti semakin mudah soal itu. Suatu soal memiliki TK= 0,00
artinya bahwa tidak ada siswa yang menjawab benar dan bila memiliki TK= 1,00 artinya bahwa siswa
menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap nomor soal. Pada
prinsipnya, skor rata-rata yang diperoleh peserta didik pada butir soal yang bersangkutan dinamakan tingkat
kesukaran butir soal itu. Rumus ini dipergunakan untuk soal obyektif. Rumusnya adalah seperti berikut ini
(Nitko, 1996: 310).

Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya untuk keperluan ujian
semester digunakan butir soal yang memiliki tingkat kesukaran sedang, untuk keperluan seleksi digunakan
butir soal yang memiliki tingkat kesukaran tinggi/sukar, dan untuk keperluan diagnostik biasanya digunakan
butir soal yang memiliki tingkat kesukaran rendah/mudah.
Hasil perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran soal itu.
Klasifikasi tingkat kesukaran soal dapat dicontohkan seperti berikut ini.
0,00 - 0,30 soal tergolong sukar
0,31 - 0,70 soal tergolong sedang
0,71 - 1,00 soal tergolong mudah

69
Tingkat kesukaran butir soal dapat mempengaruhi bentuk distribusi total skor tes. Untuk tes yang sangat
sukar (TK= < 0,25) distribusinya berbentuk positif skewed, sedangkan tes yang mudah dengan TK= >0,80)
distribusinya berbentuk negatif skewed.
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi guru dan kegunaan bagi pengujian
dan pengajaran. Kegunaannya bagi guru adalah: (1) sebagai pengenalan konsep terhadap pembelajaran ulang
dan memberi masukan kepada siswa tentang hasil belajar mereka, (2) memperoleh informasi tentang
penekanan kurikulum atau mencurigai terhadap butir soal yang bias. Adapun kegunaannya bagi pengujian
dan pengajaran adalah: (a) pengenalan konsep yang diperlukan untuk diajarkan ulang, (b) tanda-tanda
terhadap kelebihan dan kelemahan pada kurikulum sekolah, (c) memberi masukan kepada siswa, (d) tandatanda kemungkinan adanya butir soal yang bias, (e) merakit tes yang memiliki ketepatan data soal.
Di samping kedua kegunaan di atas, dalam konstruksi tes, tingkat kesukaran butir soal sangat penting karena
tingkat kesukaran butir dapat: (1) mempengaruhi karakteristik distribusi skor (mempengaruhi bentuk dan
penyebaran skor tes atau jumlah soal dan korelasi antarsoal), (2) berhubungan dengan reliabilitas. Menurut
koefisien alfa clan KR-20, semakin tinggi korelasi antar soal, semakin tinggi reliabilitas.
Tingkat kesukaran butir soal juga dapat digunakan untuk mempredikst alat ukur itu sendiri (soal) dan
kemampuan peserta didik dalam memahami materi yang diajarkan guru. Misalnya satu butir soal termasuk
kategori mudah, maka prediksi terhadap informasi ini adalah seperti berikut.
1) Pengecoh butir soal itu tidak berfungsi.
2) Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa sebagian besar siswa telah
memahami materi yang ditanyakan.
Bila suatu butir soal termasuk kategori sukar, maka prediksi terhadap informasi ini adalah seperti berikut.
1) Butir soal itu "mungkin" salah kunci jawaban.
2) Butir soal itu mempunyai 2 atau lebih jawaban yang benar.
3) Materi yang ditanyakan belum diajarkan atau belum tuntas pembelajarannya, sehingga kompetensi
minimum yang harus dikuasai siswa belum tercapai.
4) Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal yang diberikan (misalnya
meringkas cerita atau mengarang ditanyakan dalam bentuk pilihan ganda).
5) Pernyataan atau kalimat soal terlalu kompleks dan panjang.
Namun, analisis secara klasik ini memang memiliki keterbatasan, yaitu bahwa tingkat kesukaran sangat sulit
untuk mengestimasi secara tepat karena estimasi tingkat kesukaran dibiaskan oleh sampel (Haladyna, 1994:
145). Jika sampel berkemampuan tinggi, maka soal akan sangat mudah (TK= >0,90). Jika sampel
berkemampuan rendah, maka soal akan sangat sulit (TK = < 0,40). Oleh karena itu memang merupakan
kelebihan analisis secara IRT, karena 1RT dapat mengestimasi tingkat kesukaran soal tanpa menentukan
siapa peserta tesnya (invariance). Dalam IRT, komposisi sampel dapat mengestimasi parameter dan tingkat
kesukaran soal tanpa bias.
Daya Pembeda (DP)
Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara warga belajar/siswa yang
telah menguasai materi yang ditanyakan dan warga belajar/siswa yang tidak/kurang/belum menguasai materi
yang ditanyakan. Manfaat daya pembeda butir soal adalah seperti berikut ini.
1) Untuk meningkatkan mutu setiap butir soal melalui data empiriknya. Berdasarkan indeks daya
pembeda, setiap butir soal dapat diketahui apakah butir soal itu baik, direvisi, atau ditolak.
2) Untuk mengetahui seberapa jauh setiap butir soal dapat mendeteksi/membedakan kemampuan siswa,
yaitu siswa yang telah memahami atau belum memahami materi yang diajarkan guru. Apabila suatu
butir soal tidak dapat membedakan kedua kemampuan siswa itu, maka butir soal itu dapat dicurigai
"kemungkinannya" seperti berikut ini.
Kunci jawaban butir soal itu tidak tepat.
Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar
Kompetensi yang diukur tidak jelas
Pengecoh tidak berfungsi
Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang menebak
Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang salah informasi dalam

70
butir soalnya
Indeks daya pembeda setiap butir soal biasanya juga dinyatakan dalam bentuk proporsi. Semakin tinggi
indeks daya pembeda soal berarti semakin mampu soal yang bersangkutan membedakan warga belajar/siswa
yang telah memahami materi dengan warga belajar/peserta didik yang belum memahami materi. Indeks daya
pembeda berkisar antara -1,00 sampai dengan +1,00. Semakin tinggi daya pembeda suatu soal, maka
semakin kuat/baik soal itu. Jika daya pembeda negatif (<0) berarti lebih banyak kelompok bawah (warga
belajar/peserta didik yang tidak memahami materi) menjawab benar soal dibanding dengan kelompok atas
(warga belajar/peserta didik yang memahami materi yang diajarkan guru).
Untuk mengetahui daya pembeda soal bentuk pilihan ganda adalah dengan menggunakan rumus berikut ini.

DP = daya pembeda soal,


BA = jumlah jawaban benar pada kelompok atas,
BB = jumlah jawaban benar pada kelompok bawah,
N =jumlah siswa yang mengerjakan tes.
Hasil perhitungan dengan menggunakan rumus di atas dapat menggambarkan tingkat kemampuan soal dalam
membedakan antar peserta didik yang sudah memahami materi yang diujikan dengan peserta didik yang
belum/tidak memahami materi yang diujikan. Adapun klasifikasinya adalah seperti berikut ini (Crocker dan
Algina, 1986: 315).
0,40 - 1,00
0,30 - 0,39
0,20 - 0,29
0,19 - 0,00

soal diterima baik


soal diterima tetapi perlu diperbaiki
soal diperbaiki
soal tidak dipakai/dibuang

Evaluasi Hasila Belajar (Tingkat kesukaran,Daya beda,Validitas, dan


Reabilitas,
BAB I
PENDAHULUAN
Dalam pembelajaran perlunya hasil jawaban yang mudah dipahami mengenai nilai hasil dari peserta.
Untuk mengetahui seberapa baiknya soal yang dipahami. Tes hasil belajar merupakan instrument atau alat
ukur yang digunakan untuk mengumpulkan data hasil belajar dengan cara mengukur atau mengujikannya.
Sebagai sebuah alat ukur tes hasil belajar harus memenuhi persyaratan yang dituntut untuk dimiliki oleh
sebuah alat ukur yang baik sebagaimana alat ukur yang digunakan untuk mengumpulkan data dan ilmu
alam.alat ukur pengumpulan data harus memenuhi dua syarat yaitu validitas dan reliabilitas.
Analisis butir dapat dilakukan dengan salah satu dari dua cara tergantung teori tes yang digunakan.
Teori tes itu dapat berupa teori tes klasik atau modern.tapi yang kita gunakan adalah tes klasik, tes modern
masih dalam tahap pengembangan.
Teori tes klasik adalah teori mengenai analisis butir tes dimana analisis dilakukan dengan
memperhitungkan kedudukan butir dalam suatu kelas atau kelompok. Karakteristik atau kualitas butir sangat
tergantung pada kelompok dimana analisis butir dilakukan sehingga kualitas butir terikat pada sampel
responden atau siswa yang memberikan respons. Karakteristik butir berhubungan dengan tingkat kesukaran
dan daya beda.
Pembahasan mengenai tingkat kesukaran dan daya beda akan dikerjakan dan dibahas dengan soal
yang telah diambil kesekolah-sekolah sebagai sampel. Lalu akan dilanjutkan dengan alat ukur untuk
menentukan validitas dan reliabilitas terhadap soal.pembahasan tersebut akan dibahas dalam bab selanjutnya.
BAB II
PEMBAHASAN

71
Dalam pengujian hasil belajar ada sejumlah karakteristik soal yang diuji yaitu, tingkat
kesukaran dan daya beda.
A. TINGKAT KESUKARAN
Tingkat kesukaran (difficulty index) atau TK dapat didefinisikan sebagai proporsi siswa peserta tes yang
menjawab benar.
Definisi itu dapat dijelaskan dengan sebuah rumus dimana TK adalah sejumlah peserta yang menjawab benar
dibagi dengan jumlah peserta.
Keterangan:
TK= tingkat kesukaran
SB= jumlah siswa yang menjawab benar
SP= jumlah siswa peserta tes.
Misalnya dari 10 siswa yang mengikuti uji coba THB, pada butir (soal) 1 terdapat 7 orang dapat menjawab
benar dan pada soal ke 2 terdapat 2 orang yang menjawab benar. Maka:
Nilai TK butir merentang antara 0- 1.
Secara keseluruhan pembahagian rentang TK diatur sebagai berikut:
Rentang TK
Kategori
0,00- 0,19
Sangat sukar
0,20- 0,39
Sukar
0,40- 0,59
Sedang
0,60- 0,79
Mudah
0,80- 1,00
Sangat mudah
Pada teori diatas kami menggunakan data atau sampel untuk lebih banyak menjelaskan dan mudah dipahami
mengenai tingkat kesukaran ini yang telah dicoba pada SMAN 9 MEDAN, datanya adalah sebagai berikut:
Ini adalah data keseluruhan nilai yang telah diuji pada kelas 1 di SMA MEDAN. Maka nilai tingkat
kesukarannya pada setiap soalnya adalah:
TK(1)=25/26=0,96
tergolong sangat mudah
TK(2)=13/26=0,5
tergolong sedang
TK(3)=11/26=0,42
tergolong sedang
TK(4)=9/26=0,34
tergolong sukar
TK(5)=23/26=0,88
tergolong sangat mudah
TK(6)=9/26=0,34
tergolong sukar
TK(7)=15/26=0,57
tergolong sedang
TK(8)=11/26=0,42
tergolong sedang
TK(9)=17/26=0,65
tergolong mudah
TK(10)=1/26=0,038
tergolong sangat sukar
Maka yang dapat disimpulkan dari data diatas soal yang dibuat dan tingkat pemahaman siswanya masih
tergolong sangat rendah. Karena soal yang dibuat tergolong mudah dan sedikit analisis soal. Tapi tingkat
kesukarannya sudah berpariasi bisa dikatakan soal- soalnya valid karena dijawab dengan jawaban yang
berpariasi.
B.
DAYA BEDA
Daya beda (DB) adalah kemampuan butir soal yang membedakan siswa yang
mempunyai kemampuan tinggi dan rendah.DB berhubungan dengan derajad
kemampuan butir membedakan dengan baik perilaku pengambil tes dalam tes yang
dikembangkan (Anastasi dan urbina 1997:179).
DB itu dapat ditentukan besarannya dengan rumus sbb:
DB=Pt-Pr
Atau

72
Keterangan:
Pt= proporsi siswa yang menjawab benar pada kelompok siswa yang
kemampuan tinggi.
Pr=proporsi siswa yang menjawab benar pada kelompok siswa yang
kemampuan rendah
Tb=jumlah peserta yang menjawab benar pada kelompok siswa yang
kemampuan tinggi
T=jumlah kelompok siswa yang mempunyai kemampuan tinggi
Rb=jumlah peserta yang jawab benar pada kelompok siswa yang
kemampuan rendah
R=jumlah kelompok siswa yang mempunyai kemampuan rendah

mempunyai
mempunyai
mempunyai
mempunyai

Langkah-langkah perhitungan:
Menentukan siswa kelompok atas dan bawah. kelompok atasa adalah setengah
kelompok yang mempunyai nilai tertinggi. Kelompok bawah setengah yang
mendapatkan nilai terendah.
Tabel nilai atas dan bawah
Menghitung DB:
lai persoal

Kelompok atas

Kelompok bawah

0,076

benar/salah

benar/salah

0,84

benar/salah

benar/salah

0,69

benar/salah

benar/salah

0,53

benar/salah

benar/salah

0,15

benar/salah

benar/salah

-0,46

Menjawab salah

Menjawab benar

0,61

benar/salah

benar/salah

0,38

benar/salah

benar/salah

0,69

benar/salah

benar/salah

+1,00

Menjawab benar

Menjawab salah

Nilai DB akan merentang antara -1,00 hingga +1,00.


Bila semua siswa kelompok atas dapat menjawab benar dan semua siswa kelompok
bawah menjawab
salah, maka DB akan +1,00
Bila semua siswa kelompok atas dapat menjawab salah dan semua siswa kelompok
bawah dapat
menjawab benar, maka DB akan -1,00.
Bila baik siswa kelompok atas maupun kelompok bawah dapat menjawab dengan
benar maka DB akan
0,00.
Bila baik siswa kelompok atas maupun kelompok bawah menjawab salah maka DB
akan 0,00.
PENGUJIAN VALIDITAS TES HASIL BELAJAR
Validitas berhubungan dengan kemampuan untuk mengukur secara tepat sesuatu
yang diinginkan
diukur.
Cara mengetahui validitas alat ukur

73
sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium,(kriteria)
dalam arti memiliki kesejajaran antara hasil tes tersebut dengan kriteria.teknik yang
digunakan untuk mengetahui kesejajaran adalah teknik kolerasi.
Rumus kolerasi dengan angka kasar:

Diamana:
Rxy=koefesien korelasi antara variabel X dan variabel Y, dua variabel yang
dikolerasikan.
Dengan menggunakan data hasil pengamatan di SMAN 9 MEDAN hasil tes prestasi
soal fisika, dihitung dengan rumus diatas yaitu:
Soal 1
Soal 4
Soal 5

Soal yang di tampakkan hanya sampai 5 soal.


Pembahasan keseluruhan
Kevalitan soal

rentang hasil

Soal(1) 0,21221232

Sangat rendah

Soal(2) 0,76885748

Tinggi

Soal(3) 0,70138155

Tinggi

Soal(4) 0,64867745

Cukup

Soal(5) 0,25394

Rendah

Soal(6) -0,26298

Rendah

Soal(7) 0,69524

Tinggi

Soal(8) 0,38215

Rendah

Soal(9) 0,66394

Tinggi

Soal(10) 0,40611

Rendah

ANALISIS SOAL
Soal 10,21221232=Sangat rendah
Analisis yang didapat mengapa sangat rendah akibat pemahaman siswa terhadap
soal ini terbilang sedikit dan totalnya sedikit. Jadi tinggi rendah X dan Y nya
berpengaruh terhadap nilai.
Soal(2) 0,76885748= Tinggi
Analisis yang didapat mengapa tinggi akibat pemahaman siswa terhadap soal ini
terbilang tinggi dan totalnya tinggi sehingga tinggi rendahnya berpengaruh.
RELIABILITAS
Reliabilitas berhubungan dengan masalah kepercayaan. Suatu tes dapat dikatakan
mampunyai taraf kepercayaan yang tinggi jika tes tersebut dapat memberikan hasil
yang tetap. Maka pengertian reliabilitas tes, berhubungan dengan ketetapan hasil tes.
Teknik Belah Dua

74
Dalam tes belah dua ini, suatu tes diberikan kepada sejumlah subjek (sampel).itemitem tes itu dibagi dua nomor ganjil dan genap.
Skor soal-soal nomor ganjil dan genapPerhitungan realibilitas tes dengan
teknik belah duaPerhitungan
Tabel rentang
NO

RENTANG

PENAFSIRAN ARTI

0,00-0,40

Reliabilitas rendah

0,41-0,70

Reliabilitas sedang

0,71-0,90

Reliabilitas tinggi

0,91-1,00

Reliabilitas sangat tinggi

Reliabilitas yang didapat dari soal-soal tadi adalah sebesar 0.783608 berarti
penafsirannya adalah reabilitasnya tinggi
SOAL- SOALNYA
PENGUKURAN, BESARAN, DAN SATUAN
Berikut ini yang termasuk besaran pokok adalah..
a. Panjang, massa, waktu
c. panjang, luas, volume
b. Kecepatan, percepatan
d. massa, berat, gaya
Kriteria soal diatas termasuk dalam kriteria C1 karena memasuki mengenai
pemahaman dan pengertian.
Jika kecepatan suatu benda yang bergerak didefinisikan sebagai jarak perpindahan
dibagi dengan waktu tempuh, maka satuan besaran kecepatan dalam SI adalah.
a. Sentimeter/sekon
c. meter/sekom
b. Kilometer/jam
d. kilometer/sekon
Kriteria soal diatas termasuk dalam kriteria C1 mengenai ingatan siswa terhadap
satuan kecepatan
Panjang benda A diukur memakai alat ukur X, sedangkan panjang benda B diukur
memakai alat ukur Y. nilai hasil pengukuran masing-masing adalah:
Panjang benda A= 10 panjang X
Panjang benda B= 10 panjang Y
Kesimpulan yang dapat diambil dari kedua hasil pengukuran tersebut adalah.
a. Kedua benda itu sama panjangnya
b. Kedua benda itu berbeda panjangnya
c. Kedua benda itu sama panjangnya jika alat ukur X sama panjang dengan alat ukur Y
d. Kedua benda itu berbeda panjangnya jika alat ukur x sama panjangnya dengan alat
ukur Y
Kriteria pada soal 3 kriteria nya adalah C4 karena disana menganalisis pemahaman
siswa tentang satuan dan besaran suau panjang.
Untuk mengukur kedalaman botol kecil berbentuk silinder digunakan.
a. mistar berskala millimeter
c. micrometer sekrup
b. mistar berskala sentimeter
d. jangka sorong
Kriteria dari soal no 4 adalah C2 karena harus menggunakan pemahaman siswa
mengenai bagaimana cara menggunakan alat diatas.
Massa bendad diukur menggunakan alat ukur
a. Mistar
c. mikrometer
b. Jangka sorong
d. neraca
Kriteria soal diatas adalah C1 karena membutuhkan ingatan siswa untuk dapat
memahami alat ukur tersebut
Perhatikan pernyataan tentang syarat satuan SI berikut ini!
1) Tidak dipengaruhi oleh suhu

75
2)
3)
4)
5)

Tidak mudah ditiru


Dapat dipakai dimana-mana
Menunjukkan ketelitian yang tinggi
Mudah dibuat tiruannya

Pernyataan yang benar adalah.


a. 1), 2), 3)
c. 1), 3), dan 5)
b. 2), 3), dan 4)
d. 2), 4), dan 5)
kriteriasoal adalah C5 karena soal ini menggunakan sintesis soal dengan
menggunakan angka2
Jika momentum suatu benda didefinisikan sebagai massa kali kecepatan benda
tersebut, maka satuan momentum menurut SI adalah.
a. g cm/s
c. kg m/s2
b. kg m
d. kg m/s
Kriteria soal termasuk C1 karena soal ini membuktikan ingatan siswa terhadap satuan
speedometer yang terdapat pada setiap kendaraan bermotor adalah alat untuk
mengukur laju kendaraan bermotor tersebut. Dalam hal ini, laju merupakan..
a. besaran pokok
c. satuan besaran poko
b. besaran turunan
d. bukan besaran fisika
kriteria soal 8 adalah C2mengenai pemahaman siswa.
dalam astronomi dikenal satuan tahun cahaya. Satu tahun cahaya adalah jarak yang
ditempuh oleh cahaya dalam satu tahun. Jika kecepatan cahaya diudara 3X10 8 m/s
dan 1 tahun=365,25 hari, berapa meter jarak satu tahun cahaya?
a.9,8 X 1015
c. 9,48 X 1015
15
b. 9,5 X 10
d. 9,40 X 1015
kriteria soal diatas adalah C2 pemahaman terhadap soal.

dua buah gaya F1 dan F2 masing-masing 8/2 N dan 2 N terletak pada bidang
datar. Koordinat titik tangkap kedua gaya itu berturut-turut (2,2) dan (0,3), sedangkan
arahnya terhadap sumbu x positif berturut- turut 45 0 dan 900 maka.
a.
Pasangan kedua gaya tersebut disebut kopel
b.
Pasangan kedua gaya itu sebesar 10/2 N
c.
Komponen gaya F2 searah dengan sumbu x adalah 2N
d.
Komponen gaya F1 searah sumbu x sebesar 8N
Kriteria soal diatas adalah C2 pemahaman.

BAB III
PENUTUP
KESIMPULAN
Dari 10 soal yang digunakan untuk menguji siswa ternyata hanya beberapa saja
yang dapat digunakan dan soalnya tidak berpariasi.
Sebagaimana contoh validitas dari 10 soal sbagai sampel penilaian ada dua soal
yaitu:
Soal 1 0,21221232=Sangat rendah
Analisis yang didapat mengapa sangat rendah akibat pemahaman siswa terhadap
soal ini terbilang sedikit dan totalnya sedikit. Jadi tinggi rendah X dan Y nya
berpengaruh terhadap nilai.
Soal(2) 0,76885748= Tinggi

76
Analisis yang didapat mengapa tinggi akibat pemahaman siswa terhadap soal ini
terbilang tinggi dan totalnya tinggi sehingga tinggi rendahnya berpengaruh.
Reliabilitas yang didapat dari soal-soal yang diuji adalah sebesar 0.783608 berarti
penafsirannya adalah
reabilitasnya tinggi.
Bisa disimpulkan dari soal
yang dianalisis pada validitas soalnya tergolong
bervariasi dan validitas setiap soal juga bervariasi dan valid sehingga
reabilitasnya cukup tinggi.

DAFTAR PUSTAKA
Sudjana, Nana. 1989. Penilaian Hasil Proses Belajar. Bandung: PT. Remaja Rosdakarya
Offset
Menentukan Tingkat Kesukaran Soal
Tingkat kesukaran soal atau proporsi jawaban benar adalah jumlah peserta tes yang menjawab dengan benar
pada butir soal yang dianalisis dibandingkan dengan jumlah peserta tes seluruhnya (Surapranata, 2004: 12).
Butir soal yang banyak dikerjakan dengan benar oleh peserta didik termasuk tipe soal mudah. Sebaliknya
soal sulit adalah soal yang dikerjakan dengan benar oleh lebih sedikit peserta didik.
Sedangkan menurut Arikunto (2009: 207) bilangan yang menunjukkan sukar dan mudahnya sesuatu soal
disebut indeks kesukaran (difficulty index). Indeks kesukaran butir adalah bilangan yang menunjukkan sukar
dan mudahnya soal. Semakin tinggi indeks kesukaran butir maka soal semakin mudah. Soal yang baik adalah
soal tidak terlalu mudah atau tidak terlalu sukar. Analisis tingkat kesukaran soal adalah mengkaji soal-soal
dari segi kesulitannya sehingga dapat diperoleh soal-soal mana yang termasuk rendah, sedang, dan sukar;
Menurut Witherington dalam Sudijono (2008: 371) dan Arikunto (2009: 207) angka indeks kesukaran butir
itu besarnya berkisar antara 0,00 sampai dengan 1,00. Semakin besar angka indeks kesukaran maka soal
semakin mudah. Jika seluruh peserta ujian menjawab dengan salah butir tersebut maka soal tersebut sangat
sukar dengan angka kesukaran 0,00 dan jika angka kesukaran 1,00 maka soal sangat mudah karena dijawab
dengan benar oleh seluruh peserta tes.
Indeks kesukaran butir dapat dihitung dengan formula:

Keterangan
p = indeks kesukaran butir,
B = jumlah responden yang menjawab benar,
JS = jumlah responden seluruhnya.
Menurut Witherington dalam Sudijono (2008: 372) Tingkat kesukaran soal dibedakan dalam tiga kategori
yaitu: soal yang memiliki p 0,75 disebut soal terlalu mudah. Sedangkan menurut Thorndike dalam Sudijono
(2008: 372) memberikan penafsiran terhadap angka tingkat kesukaran adalah p 0,70 disebut soal terlalu
mudah.
Dari dua pendapat di atas penulisan mengambil kesimpulan bahwa tingkat kesukaran soal dibedakan dalam
tiga kategori seperti tampak pada tabel 2.1
Tabel 2.2 Klasifikasi Tingkat Kesukaran Soal
Indeks Kesukaran Katagori Soal
Kurang dari 0,25 Terlalu Sukar
0,25 0,75 (Cukup) Sedang
Lebih dari 0,750 Terlalu Mudah
ANALISIS TINGKAT KESUKARAN SOAL
Rumus yang digunakan untuk menghitung tingkat kesukaran adalah:

77
P=
Keterangan:
P = Indeks kesukaran
B = Banyaknya siswa yang menjawab soal itu dengan benar
JS = Jumlah siswa peserta tes
Klasifikasi indeks kesukaran butir soal adalah sebagai berikut:
Soal dengan P 0,00 - 0,30 = Soal sukar
Soal dengan P 0,31 - 0,70 = Soal sedang
Soal dengan P 0,71 - 1,00 = Soal mudah (Arikunto,2002:208)
Anilisis soal try out
1. Diketahui: B = 12 Siswa
JS = 15 Siswa
P = ?
P = ?
P=
= = 0,8

P=
= = 0,8

3. Diketahui: B = 6 Siswa
JS = 15 Siswa
P = ?
P = ?
P=
P=
= = 0,4

4. Diketahui: B = 10 Siswa
JS = 15 Siswa

= = 0,67

5. Diketahui: B = 3 Siswa
JS = 15 Siswa
P = ?
P = ?
P=
P=
= = 0,2

2. Diketahui: B = 12 Siswa
JS = 15 Siswa

6. Diketahui: B = 6 Siswa
JS = 15 Siswa

= = 0,13

Dari uji tingkat kesukaran soal diketahui bahwa terdapat dua soal dengan
kategori mudah, yaitu soal no 1 dan 2. Dua soal dengan kategori sedang, yaitu soal no
3 dan 4. Dua soal dengan kategori sukar atau sulit, yaitu soal no 5 dan 6.
Dari data di atas terdapat beberapa soal yang perlu di perbaiki karena tidak sesuai
dengan kisi-kisi pembuatan instrument soal, yaitu:
soal no 3 dengan tingkat ketunrasan 6 orang sehingga soal masuk kedalam tipe
sedang, setelah di analisis teryata siswa belum memahami mengenai pemasangan
ohmmeter, hal tersebut diketahui dari tngkat kesalahan menjawab soal mengenai
pemasangan ohmmeter.
soal no 5 dengan tingkat ketunrasan 3 orang sehingga soal masuk kedalam tipe
sulit, setelah di analisis teryata siswa belum memahami mengenai pemasangan
hambatan Rx yang berguna untuk menaikan batas ukur galvanometer, hal tersebut
diketahui dari tngkat kesalahan menjawab soal mengenai tujuan pemasangan
hambatan Rx pada sebuah rangkaian listrik.
soal no 6 dengan tingkat ketunrasan 2 orang sehingga soal masuk kedalam tipe
sulit, setelah di analisis teryata siswa belum memahami mengenai pemasangan
ampermeter, voltmeter, dan ohmmeter pada satu rangkaian listrik, hal tersebut
diketahui dari tngkat kesalahan menjawab soal mengenai pemasangan ampermeter,
voltmeter, dan ohmmeter.
TINGKAT KESUKARAN ITEM TES DAN
DAYA PEMBEDA SEBUAH ITEM TES
BAB I

78
PENDAHULUAN
A.
LatarBelakang
Proses evaluasisangatdiperlukandalampendidikan formal, dalamhalinisekolah.
Khususnyaevaluasidalampembelajaran,untukmengetahuisejauhmanahasilbelajarseora
ngsisiwa.Selainitujuga,
halinidimaksudkanintukmelihattingkatkemampuandankeberhasilansiswadalam proses
pembelajaran.
Evaluasihasilbelajarsiswamerupakansalahsatukegiatan yang
merupakankewajibanbagisetiap guru.Karena,
setiappengajarpadaakhirnyaharusmampumemberikaninformasikepadalembagaataupu
nsiswanyasendiritentangbagaimanadansampaidimanapenguasaandankemampuan
yang telahdicapaisiswatentangmateripembelajarandanketerampilanketerampilanmengenaimatapelajaran yang telahdiberikanolehpengajartersebut.
Dalam proses evaluasi, adasalahsatutugas yang cukuppenting yang
seringkalidanbahkanpadaumumnyamemangdilupakanolehstafpengajar (guru, dosen,
dan lain-lain)adalahtugasmelakukanevaluasiterhadapalatpengukur yang
telahdigunakanuntukmengukurkeberhasilanbelajarparapesertadidiknya (murid/siswa,
mahasiswadan lain-lain).
Alatpengukur yang dimaksudadalahteshasilbelajar, yang
sebagaimanatelahkitaketahuibersamaterdiridaributir-butirsoal.
Terkadanghasildarisuatutesmenunjukkanbahwahampirseluruhdaripesertatesmendapat
kanhasiltes yang
terbilangrendah.Denganhasiltersebutparapengajarcenderungmenasumsikanbahwapar
apesertatesterdiridari anak-anak yang
bodoh.Namunasumsitersebutbelumtentukepastiannya, karenamungkinsajasoalsoaltesterlalusulituntukdijawab.
Sebaliknya,
terkadangterjadidalamsuatutesdimanahampirseluruhpesertatesmendapatkanhasil
yang tinggi, kemudian tester
mengasumsikanbahwamerekatelahmenguasaiseluruhmateri yang
telahdiberikandanberanggapanbahwamerekaadalah anak-anak yang hebat.Seperti
yang telahdisebutkansebelumnya, asumsiinijugabelumtentubenarkepastiannya,
karenamungkinsajabutir-butirsoaltesterlalumudahbagiparapesertates.
Untukmengantisipasikemungkinantersebut,
stafpengajarperlumelakukanpenganalisisanterhadapteshasilbelajar yang
dijadikanalatukurkeberhasilanpesertadidikdalampembelajaran.Kegiatantersebutsering
dikenaldenganistilahanalisis item (item analysis). Olehkarenaitu,
makalahinisedikitbanyaknyaakanmenjelaskanbagaimanakitaakanmenganalisissetiap
item soaltes yang kitaberikandalam proses pembelajaran di kelas.
B.
RumusanMasalah
1. Analisisderajat/tingkatkesukaran item tes.
2. Analisisdayapembeda item.
C.
TujuanPenulisan
1. Untukmengetahuibagaimanacaramenganalisistingkatkesukaransetiapbutirsoaltes.
2. Untukmengetahuifungsidayapembeda item dan
bagaimanacaramenganalisisdayapembedasetiapbutirsoaltes.
BAB II
PEMBAHASAN
Penganalisisan terhadap butir soal teshasil belajar guna memperoleh item tes yang
mampu menjalankan fungsinya sebagai alat ukur hasil belajar, dapat dilakukan

79
dengan beberapa cara, yaitu: dengan analisis tingkat kesukaran butir soal tesnya, dan
dengan menganalisis daya pembeda butir soalnya.
A.
Analisis Derajat/Tingkat Kesukaran Item
Bermutu atau tidaknya butir-butir item tes hasil belajar dapat diketahui melalui
analisis terhadap tingkat kesukaran atau taraf kesukaran yang dimiliki oleh masingmasing butir item tes tersebut.Tingkat kesukaran setiap item tes adalah pernyataan
tentang seberapa mudah atau seberapa sukar sebuah butir tes itu bagi testee atau
siswa terkait yang menjawab soal tes tersebut.
Tingkat kesukaran merupakan salah satu ciri tes yang perlu diperhatikan, karena
tingkat kesukaran tes menunjukkan seberapa sukar atau mudahnya butir-butir tes
atau tes secara keseluruhan yang telah diselenggarakan. Butir-butir item tes hasil
belajar dapat dikatakan sebagai butir-butir item yang baik apabila butir-butir item
tersebut tidak terlalu sukar dan tidak pula terlalu mudah dengan kata lain
derajat/tingkat kesukaran item tes tersebut itu adalah sedang atau cukup.
Butir tes yang memiliki tingkat kesukaran yang sedangadalah butir-butir item tes yang
dapat dijawab dengan benar oleh sekitar 40% sampai 80% peserta tes. Sebab butir
tes yang hanya dijawab oleh 10 % atau bahkan 90 %, akan sulit dibedakan, manakah
kelompok yang benar-benar mampu dan kelompok yang benar-benar kurang mampu
dalam menjawab soal.Butir tes harus diketahui tingkat kesukarannya, karena setiap
pembuat butir soal tes perlu mengetahui apakah soal itu sukar, sedang atau
mudah.Tingkat kesukaran itu dapat dilihat dari jawaban siswa.Semakin sedikit jumlah
siswa yang dapat menjawab soal itu dengan benar, berarti soal itu termasuk sukar dan
sebaliknya semakin banyak siswa yang dapat menjawab soal itu dengan benar, berarti
itu mengindikasikan soal itu tidak sukar atau soal itu mudah.
Dalam hal ini Witherington dalam bukunya yang berjudul Psychological Education
(hlm. 87) menyatakan bahwa sudah atau belum memadainya tingkat kesukaran item
tes hasil belajar dapat dilihat dan diketahui dari besar kecilnya angka yang
melambangkan tingkat kesulitan dari item tes tersebut yang sering dikenal dengan
istilah difficulty index (=angka indek kesukaran item), yang dalam dunia evaluasi
pembelajaran umumnya dilambangkan dengan huruf P, yaitu singkatan dari kata
Proportion (proporsi=proporsa).
Angka indek kesukaran item tersebut besarnya berkisar amtara 0,00 sampai dengan
1,00. Yang berarti bahwa angka terrendah dari indek kesukaran item tes adalah 0,00
dan angka tertinggi dari indek kesukaran tes adalah 1,00. Jika angka indeks 0,00 (P =
0,00) berarti butir soal sangat sukar karena tidak seorangpun dapat menjawab dengan
benar butir tes tersebut. Sebaliknya jika indeksnya 1,00 berarti butir soal tersebut
sangat mudah karena semua siswa dapat menjawabnya dengan benar.
P:
0,7

0,0
0,8

0,1
0,9

0,2
1,0

0,3

0,4

0,5

0,6

Terlalu sukar
Terlalu mudah
Angka indek kesukaran tersebut dapat diperoleh dengan menggunakan rumus yang
dikemukakan Dubois dalam Sudijono (2011: 371), yaitu:
P=
di mana:
P
= Proportion = proporsi = proporsa = difficulty index = angka indek kesukaran
item.
Np
Banyaknya testee/peserta tes yang mampu menjawab dengan benar
=
terhadap butir item yang bersangkutan.
N
= Jumlah testee/peserta tes yang mengikuti hasil belajar.
Rumus lainnya adalah:P =

di mana:

80
P
= Proportion = proporsi = proporsa = difficulty index = angka indek kesukaran
item.
B
= Banyaknya testee/peserta tes yang mampu menjawab dengan benar
terhadap butir item yang bersangkutan.
JS
= Jumlah testee/peserta tes yang mengikuti hasil belajar.
Ada beberapa pendapat tentang cara menginterpretasikan (menafsirkan) angka indek
kesukaran item tes. Menurut Robert L. Thorndike dan Elizabeth Hagen (1961)
mengemukakan pendapatnya sebagai berikut:
Besarnya P
Interpretasi
Kurang dari 0,30
Terlalu Sukar
0,30 - 0,70
Cukup (Sedang)
Lebih dari 0,70
Terlalu Mudah
Sedangkan menurut Witherington adalah sebagai berikut:
Besarnya P
Interpretasi
Kurang dari 0,25
Terlalu Sukar
0,25 - 0,75
Cukup (Sedang)
Lebih dari 0,75
Terlalu Mudah
Sebagai contoh, lihat tabel dibawah ini:
TABEL 2.1. Penyebaran skor jawaban 10 orang testee terhadap 10 butir item yang
diajukan dalam tes hasil belajar tahap akhir bidang studi Bahasa Inggris.
Test
Skor yang dicapai oleh testee untuk setiap butir item nomor
ee
1
2
3
4
5
6
7
8
9
10
A
B
C
D
E
F
G
H
I
J
10=
N=JS

0
1
1
0
1
0
1
0
1
1
6=
NP=B

1
0
0
0
0
0
0
0
0
1
2=
NP=B

1
1
0
1
1
1
1
1
1
1
9=
NP=B

0
1
0
1
0
1
0
1
0
1
5=
NP=B

1
1
0
1
1
0
0
0
1
1
6=
NP=B

0
1
0
0
1
0
0
0
0
1
3=
NP=B

1
0
1
1
1
1
0
1
1
1
8=
NP=B

1
0
1
0
0
1
0
0
0
0
3=
NP=B

1
1
1
1
1
1
0
1
1
1
9=
NP=B

0
1
0
1
0
1
1
1
1
1
7=
NP=B

Setiap butir item yang mampu dijawab dengan benar diberikan bobot 1 dan untuk
setiap item soal yang dijawab salah diberikan bobot 0.Dari tabel tersebut, kita
memperoleh data bahwa jumlah testee (N atau JS) adalah 10. Dari butir soal nomor
satu diperoleh testee yang menjawab benar ada 6 orang sehingga dapat dihitung
angka indek kesukarannya adalah 6/10 = 0,60. Dengan demikian dapat ditarik
kesimpulan bahwa butir soal nomor 1 termasuk kriteria butir soal yang tingkat
kesukarannya sedang.Untuk butir soal nomor 2 dan nomor 3 dengan N p atau B
masing-masing sebesar 2 dan 9 akan didapat angka indek kesukaran item untuk
masing-masing adalah sebesar 2/10 = 0,20 (nomor 2) dan 9/10 = 0,90 (nomor 3).
Diantara kedua pendapat yang telah disebutkan, pendapat yang pertama adalah yang
lebih banyak digunakan, oleh karenanya, kita dapat menginterpretasikan bahwa soal
nomor 2 termasuk kedalam kategori butir soal yang terlalu sulit; sedangkan butir soal
nomor 3 termasuk ke dalam kategori butir soal yang terlalu mudah.
Untuk memperjelas dan mempermudahkan perhitungan keseluruhan angka indek
kesukaran ataupun tingkat kesukaran butir tes untuk setiap nomornya, perhatikan
tabel berikut ini:
Butir Soal
Angka Indek Kesukaran Item
Interpretasi
Nomor
(P)
1
P = 6/10 = 0,60
Cukup (Sedang)
2
P = 2/10 = 0,20
Terlalu Sukar
3
P = 9/10 = 0,90
Terlalu Mudah
4
P = 5/10 = 0,50
Cukup (Sedang)

81
5
P = 6/10 = 0,60
Cukup (Sedang)
6
P = 3/10 = 0,30
Cukup (Sedang)
7
P = 8/10 = 0,80
Terlalu Mudah
8
P = 3/10 = 0,30
Cukup (Sedang)
9
P = 9/10 = 0,90
Terlalu Mudah
10
P = 7/10 = 0,70
Cukup (Sedang)
Tabel 2.2.Perhitungan angka indek kesukaran item tes dan interpretasinya.
Dari tabel tersebut dapat diketahui bahwa butir soal yang tergolong baik; tingkat
kesukarannya sedang adalah butir soal nomor 1,4,5,6,8 dan 10. Butir soal yang
tergolong sulit adalah butir soal nomor 2. Sedangkan butir soal yang tergolong terlalu
mudah adalah butir soal nomor 3,7 dan 9.
Setelah identifikasi tentang tingkat kesukaran butir soal tes telah dilakukan, perlu
adanya penindaklanjutan terhadap soal-soal tersebut. Tindak lanjut tersebut
diantaranya adalah:
Pertama, untuk butir soal yang telah memenuhi kategori yang baik (tingkat
kesukarannya sedang atau cukup), hendaknya disimpan ke dalam bank soal agar
tester dapat mempergunakanya kembali untuk waktu yang akan datang.
Kedua,untuk item soal yang tergolong terlalu sulit ada 3 kemungkinan tindak lanjut,
yaitu:
1) Dibuang atau didrop dan tidak akan digunakan lagi,
2) Diperbaiki, diteliti ulang dan dicari tahu apa faktor penyebab dari sulitnya soal
tersebut dijawab oleh
testee,
3) Disimpan dan digunakan untuk tujuan khusus, seperti tes penyeleksian siswa yang
bersifat lebih ketat
yang hanya sebagian kecil yang akan diterima.
Ketiga, untuk item soal yang tergolong terlalu mudah juga ada 3 kemungkinan tindak
lanjut, ini hampir sama dengan tindak lanjut untuk butir-butir soal yang tergolong sulit,
yaitu:
1) Dibuang atau didrop dan tidak akan digunakan lagi,
2) Diperbaiki, diteliti ulang dan dicari tahu apa faktor penyebab dari mudahnya soal
tersebut untuk dijawab
oleh testee,
3) Disimpan dan digunakan untuk tujuan khusus, seperti tes penyeleksian siswa yang
bersifat lebih longgar,
yang sebagian besar yang akan diterima yang bisa dikatakan sebagai tes
formalitas.
Cara yang lain yang dapat digunakan untuk mencari atau menghitung angka indek
kesukaran item adalah dengan menggunakan skala kesukaran linear. Skala linear ini
digunakan untuk mencari P bersih, karena sesungguhnya P yang kita hitung
sebelumnya tidak memperhatikan atau memperhitungkan option atau alternative
jawaban yang dipasang disetiap butir soal tes.
Skala kesukaran ini disusun dengan cara mentransformasikan nilai P menjadi nilai z
yang ada di dalam tabel nilai z yang umumnya dilampirkan disetiap buku statistik.
Dengan cara kedua ini ada beberapa langkah yang harus ditempuh.
Langkah pertama, Mengubah nilai P kotor (Pk) menjadi nilai P bersih (Pb) dengan
menggunakan rumus:
Pb =
di mana:
Pb
= P bersih.
Pk
= P kotor
a
= Alternatif atau option yang disediakan di butir soal yang bersangkutan.
1
= Bilangan konstan.
Contoh: Pk no. 7 = 0,80, jumlah option = 5 butir, maka:

82
Pb = =

= 0,75

Untuk lebih menghemat waktu, untuk pengoreksian atau pengubahan P kotor menjadi
P bersih kita bisa langsung melihat tabel nilai P bersih yang telah tersedia, termasuk
dengan pilihan alternatif dari 2 sampai 5 butir.
Langkah kedua, Mentransformasikan nilai P bersih (Pb) menjadi nilai z dengan melihat
tabel kurva normal yang telah tesedia. Sebagai contoh, kita ambil nilai P bersih dari
butir nomor soal 7 yaitu 0,75. Kita cari angka 0,75 di tabel kurva normal, sehingga
diperoleh sebagai berikut:
B
C
z
Larger Area
Smaller Area
0,750
0,6745
0,250
Dengan demikian nilai z untuk butir nomor 7 sebesar 0,6745. Dengan berpegang
terhadap pendapat Thorndike dan Hagen maka butir soal nomor 7 tergolong butir soal
yang memiliki tingkat kesukaran yang sedang (cukup).
Selain itu ada rumus lain yang bisa digunakan untuk mencari P bersih (Pb) dengan
hasil yang sama, yaitu:
S
Ba-1
Pb =
B+S
di mana:
Pb
= P bersih.
B
= Jumlah testee yang jawabannya benar.
S
= Jumlah testee yang jawabannya salah
a
= Alternatif atau option yang disediakan di butir soal yang bersangkutan.
Contoh: Butir soal nomor 7 yang menjawab benar ada 8 orang, dan yang menjawab
salah 2 orang dengan jumlah option/alternative 5 butir, maka:
2
88 0,50
Pb =
5-1
Pb =
8 + 210
7,50
=
0,75 (hasilnya sama)
10
Langkah ketiga, Mencari atau menghitung angka indek kesukaran item dengan
menggunakan angka indek Davis yang sering disingkat dengan indeks Davis saja dan
dilambangkan dengan huruf D dengan rumus:
D = 21,063 z + 50
Dengan menggunakan rumus ini kita dapat menghindari hasil perolehan nilai P bersih
(Pb) yang negatif, perhatikan contoh berikut:
Diketahui: P kotor = 0,20, dengan jumlah alternative/option = 4, maka:
Pb =
=
= -0,667
Pb=

Dalam indeks Davis tingkat kesukaran berkisar antara 0 sampai dengan 100, maka
tidak mungkin akan menghasilkan tanda minus. Sebagai contohnya, misalkan sebutir
item soal memiliki P bersih sebesar 0,755. Dengan berkonsultasi dengan tabel kurva
normal diperoleh z sebesar 0,6905, maka:
D = 21,063 z + 50
= (21,063) (0,6905) + 50
= 64,5440015
= 64,54 (dibulatkan 2 angka dibelakang koma/tanda desimal)

83
B.
Analisis Daya Pembeda Item
Daya pembeda item adalah kemampuan suatu butir item tes hasil belajar untuk dapat
membedakan (mendiskriminasi) antara testee yang berkemampuan tinggi (pandai)
dengan testee yang berkemampuan rendah (tidak pandai) sehingga sebagian testee
yang berkemampuan tinggi untuk menjawab butir item tersebut lebih banyak yang
menjawab benar, sementara testee yang berkemempuan rendah untuk menjawab
item tes terrsebut sebagian besar tidak dapat menjawab item soal dengan benar.
Dengan kata lain, bahwa analisis daya beda item adalahanalisis yang mengungkapkan
seberapa besar butir tes dapat membedakan antara siswa kelompok tinggi dengan
siswa kelompok rendah. Salah satu ciri butir yang baik adalah yang mampu
membedakan antara kelompok atas (yang mampu) dan kelompok bawah (kurang
mampu).Ini dianggap sangat penting karena ada anggapan bahwa kemampuan setiap
testee akan berbeda dengan testee yang lainnya.
Daya pembeda (discriminatory power) item itu dapat diketahui melalui atau dengan
melihat besar kecilnya angka indeks diskriminasi item.Pada dasarnya, daya pembeda
ini dihitung atas dasar pembagian testee ke dalam dua kelompok, yaitu kelompok atas
(the higher group) kelompok yang tergolong pandai dankelompok bawah (the
lower group) kelompok yang tergolong kurang pandai. Ada beberapa cara untuk
mengelompokkan testee, dapat menggunakan median, dapat juga menggunakan
hanya 20% dari testee yang temasuk kelompok atas dan 20% yang termasuk
kelompok bawah. Namun pada umumnya, para pakar di bidang evaluasi
menggunakan persentase 27% dari testee yang termasuk kelompok atas dan 27% dari
testee yang termasuk kelompok bawah karena dianggap cukup mampu diandalkan.
Indeks dikriminasi item umumnya diberi lambang D (singkatan ari Discriminatory
Power) yang besarnya berkisar antara 0 sampai dengan 1,00. Akan tetapi indeks
diskriminasi ini dapat bertanda minus (-). Jika sebutir item angka indeks
diskriminasinya = 0,00, maka item tersebut tidak memiliki daya pembeda sama sekali.
Jika indeks diiskriminasi itemnya bertanda negative (minus) maka butir item tersebut
lebih banyak dijawab benar oleh testee dari kelompok bawah daripada testee
kelompok atas atau testee yang sebenarnya termasuk dalam kelompok atas lebih
banyak yang menjawab salah sedangkan testee yang termasuk kelompok bawah lebih
banyak yang menjawab benar. Perhatikan bagan berikut ini:
D=
D=
D=
-1,00
0,00
+1,00
Daya pembeda item bersifat negative
Item yang bersangkutan tidak memiliki daya pembeda sama sekali
Daya pembeda item bersifat positif
Dalam hubungan ini pada umumnya besaran indeks diskriminasi yang dapat
diinterpretasikan adalah sebagai berikut:
Basarnya Angka
Indeks
Klasifik
Interpretasi
Diskriminasi Item
asi
(D)
Butir item yang bersangkutan daya pembedanya
Kurang dari 0,20
Poor
lemah sekali (jelek), dianggap tidak memiliki daya
pembeda yang baik.
Satisfac Butir item yang bersangkutan telah memiliki daya
0,20 0,40
tory
pembeda yang cukup (sedang).
Butir item yang bersangkutan telah memiliki daya
0,40 0,70
Good
pembeda yang baik.
Excelle Butir item yang bersangkutan telah memiliki daya
0,70 1,00
nt
pembeda yang baik sekali.
Butir item yang bersangkutan daya penbedanya
Bertanda negatif
negative (jelek sekali).

84
Untuk menghitung besar kecilnyaangka indeks diskriminasi item dapat dipergunakan
dua rumus.
Rumus pertama:
D = PA - p B
atau
D = PH p L
di mana:
D
= Discriminatory power (angka indeks diskriminasi item)
PA atau PH = Proporsi testee kelompok atas yang dapat menjawab dengan benar
butir item yang bersangkutan.
(PHadalah singkatan dari Proportion of Higher Group)
PA atau PH dapat diperoleh dengan rumus:
PA aaut PH =

dimana:
BA = Banyaknya testee kelompok atas yang dapat menjawab benar
butir item yang bersangkutan.
JA = Jumlah testee yang termasuk dalam kelompok atas.
pB atau pL = Proporsi testee kelompok bawah yang dapat menjawab dengan benar
butir item yang bersangkutan.
(pL adalah singkatan dari Proportion of Lower Group).
pB atau pL dapat diperoleh dengan rumus:
pB atau pL =

dimana:
BB = Banyaknya testee kelompok bawah yang dapat menjawab benar
butir item yang bersangkutan.
JB = Jumlah testee yang termasuk dalam kelompok bawah.
Rumus kedua:
Indeks diskriminasi item pada rumus kedua ini didapatkan dengan menggunakan
teknik korelasi Phi () dengan rumus sebagai berikut:
=
di mana:

= Angka Indeks Korelasi Phi (Indeks Diskriminasi Item).


PH
= Proportion of Higher Group.
PL
= Proportion of Lower Group.
2
= Bilangan konstan.
p
= Proporsi seluruh testee yang jawabannya Benar.
q
= Proporsi seluruh testee yang jawabannya Salah, dimana q = (1 - p).
Contoh 1: Menggunakan rumus pertama (rumus D)
Misalkan 10 orang mengikuti tes hasil belajar bidang studi Matematika yang berbentuk
pilihan ganda.Ada 10 butir item soal dalam tes tersebut dengan catatn yang
menjawab benar diberi bobot 1 dan yang menjawab salah 0, sebagaimana tertera
pada Tabel 2.3.
Ada beberapa langkah yang harus dilakukan untuk mencari besarnya angka indeks
diskriminasi item (D), yaitu:
Langkah pertama:Mengelompokkan (membagi) testee menjadi 2 kelompok, yaitu
kelompok atas (yang mendapatkan skor yang tinggi) dan kelompok bawah (yang
mendapatkan skor rendah).
Tabel 2.3.Distribusi skor hasil tes Matematika
Skor yang dicapai oleh testee untuk setiap butir item nomor

Total

Teste
e

10

A
B
C

0
(1)
1

(1)
0
0

(1)
(1)
0

0
(1)
0

(1)
(1)
0

0
(1)
0

(1)
0
1

(1)
0
1

(1)
(1)
1

(1)
(1)
0

7
7
4

85
D
E
F
G
H
I
J
N=10

(1)
(1)
0
1
0
1
(1)
7

0
0
0
0
0
0
(1)
2

(1)
(1)
1
1
1
1
(1)
9

(1)
0
1
0
1
0
(1)
5

(1)
(1)
0
0
0
1
(1)
6

0
(1)
0
0
0
0
(1)
3

(1)
(1)
1
0
1
1
(1)
8

(1)
0
1
0
0
0
0
4

(1)
(1)
1
0
1
1
(1)
9

(1)
(1)
0
1
0
1
(1)
7

8
7
5
3
4
6
9
60

Kelompok Atas
Kelompok Bawah
Testee
Skor
Testee
Skor
J
9
I
6
D
8
F
5
A
7
C
4
B
7
H
4
E
7
G
3
JA = 5
JB = 5
Langkah kedua:menuliskan atau memberikan tanda atau kode terhadap hasil
pengelompokan testee atas dua kategori tersebut. (Menggunakan tanda kurung bagi
jawaban yang benar untuk kelompok atas).
Langkah ketiga:Mencari (menghitung) BA, BB, PA, PBdan D. (Lihat Tabel 2.4)
Tabel 2.4.Hasil perhitungan BA, BB, PA, PB dan D
Nom
or
D=PABA
BB
JA
JB
PA
PB
Butir
PB
Item
1
4
3
5
5
0,80
0,60
0,20
2
2
0
5
5
0,40
0,00
0,40
3
5
4
5
5
1,00
0,80
0,20
4
3
2
5
5
0,60
0,40
0,20
5
5
1
5
5
1,00
0,20
0,80
6
3
0
5
5
0,60
0,00
0,60
7
4
4
5
5
0,80
0,80
0,00
8
2
2
5
5
0,40
0,40
0,00
9
5
4
5
5
1,00
0,80
0,20
10
5
2
5
5
1,00
0,40
0,60
Langkah keempat: Memberikan interpretasi mengenai kualitas daya pembeda item
yang dimiliki oleh 10 item soal tes hasil belajar seperti yang terlihat pada Tabel 2.5
Tabel 2.5.Pemberian Interpretasi terhadap D
Nomor Butir
Besarnya
Klasifikasi
Interpretasi
Item
D
5
0,80
Excellent
Daya pembeda itemnya sangat baik sekali.
6 dan 10
0,60
Good
Daya pembeda itemnya baik.
2
0,40
Satisfactory Daya pembeda itemnya cukup (sedang).
1, 3, 4 dan 9
0,20
Poor
Daya pembeda itemnya lemah sekali.
7 dan 8
0,00
Poor
Tidak memiliki daya pembeda sama sekali.
Dengan demikian, jelas terlihat bahwa 4 dari 10 item soal diatas sudah termasuk
memiliki daya pembeda yang memadai dan sisanya, yaitu 6 masih tergolong
kelompok item soal yang tidak/belum memiliki daya pembeda yang diharapkan.
Contoh 2: Menggunakan rumus yang kedua
Karena pada hakikatnya PA = PH dan PB= PL maka kita hanya perlu mengganti
simbolnya saja. Setelah itu kita cari nilai p (proporsi testee yang jawabannya benar)
dan q (proporsi testee yang jawabannya salah).Setelah selesai didapatkan, nilai P H, PL,
p dan q kita substitusikan kedalam rumus korelasi Phi. Hasilnya adalah sebagai
berikut:
Tabel 2.6.Perhitungan besarnya korelasi koefisien Phi ()
Butir
PH
PL
p
q
=

Klasifikasi

86
Item
Nom
or
0,8
0,2
0,60
0,7
0,3
Satisfactory
0
2
0,4
0,5
2
0,00
0,2
0,8
Good
0
0
1,0
0,3
3
0,80
0,9
0,1
Satisfactory
0
3
0,6
0,4
4
0,40
0,5
0,5
Good
0
0
1,0
0,8
5
0,20
0,6
0,4
Excellent
0
1
0,6
0,6
6
0,00
0,3
0,7
Good
0
5
0,8
0,0
7
0,80
0,8
0,2
Poor
0
0
0,4
0.0
8
0,40
0,4
0,6
Poor
0
0
1,0
0,3
9
0,80
0,9
0,1
Satisfactory
0
3
1,0
0,6
10
0,40
0,7
0,3
Good
0
5
Dengan menggunakan teknik/rumus korelasi Phi ternyata angka indeks diskriminasi
itemnya () sedikit berbeda besarnya dengan angka indeks diskriminasi item yang
dihitung dengan menggunakan rumus pertama (rumus D).Hal ini memang dapat
dipahami, sebab menurut para ahli di bidang evaluasi pendidikan angka indeks
diskriminasi item yang diperoleh dengan menggunakan teknik korelasi Phi itu sifatnya
lebih teliti.
pB atau pL = Proporsi testee kelompok bawah yang dapat menjawab dengan benar
butir item yang bersangkutan.
(pL adalah singkatan dari Proportion of Lower Group).
pB atau pL dapat diperoleh dengan rumus:
pB atau pL =
1

dimana:
BB = Banyaknya testee kelompok bawah yang dapat menjawab benar
butir item yang bersangkutan.
JB = Jumlah testee yang termasuk dalam kelompok bawah.
Rumus kedua:
Indeks diskriminasi item pada rumus kedua ini didapatkan dengan menggunakan
teknik korelasi Phi () dengan rumus sebagai berikut:
=
di mana:

= Angka Indeks Korelasi Phi (Indeks Diskriminasi Item).


PH
= Proportion of Higher Group.
PL
= Proportion of Lower Group.
2
= Bilangan konstan.
p
= Proporsi seluruh testee yang jawabannya Benar.
q
= Proporsi seluruh testee yang jawabannya Salah, dimana q = (1 - p).
Contoh 1: Menggunakan rumus pertama (rumus D)
Misalkan 10 orang mengikuti tes hasil belajar bidang studi Matematika yang berbentuk
pilihan ganda. Ada 10 butir item soal dalam tes tersebut dengan catatan yang
menjawab benar diberi bobot 1 dan yang menjawab salah 0, sebagaimana tertera
pada Tabel 2.3.

87
Ada beberapa langkah yang harus dilakukan untuk mencari besarnya angka indeks
diskriminasi item (D), yaitu:
Langkah pertama: Mengelompokkan (membagi) testee menjadi 2 kelompok, yaitu
kelompok atas (yang mendapatkan skor yang tinggi) dan kelompok bawah (yang
mendapatkan skor rendah).
Tabel 2.3. Distribusi skor hasil tes Matematika
Skor yang dicapai oleh testee untuk setiap butir item nomor
Teste
e
1
2
3
4
5
6
7
8
9
10
A
B
C
D
E
F
G
H
I
J
N=10

0
(1)
1
(1)
(1)
0
1
0
1
(1)
7

(1)
0
0
0
0
0
0
0
0
(1)
2

(1)
(1)
0
(1)
(1)
1
1
1
1
(1)
9

0
(1)
0
(1)
0
1
0
1
0
(1)
5

(1)
(1)
0
(1)
(1)
0
0
0
1
(1)
6

0
(1)
0
0
(1)
0
0
0
0
(1)
3

(1)
0
1
(1)
(1)
1
0
1
1
(1)
8

(1)
0
1
(1)
0
1
0
0
0
0
4

(1)
(1)
1
(1)
(1)
1
0
1
1
(1)
9

(1)
(1)
0
(1)
(1)
0
1
0
1
(1)
7

Total
7
7
4
8
7
5
3
4
6
9
60

Kelompok Atas
Kelompok Bawah
Testee
Skor
Testee
Skor
J
9
I
6
D
8
F
5
A
7
C
4
B
7
H
4
E
7
G
3
JA = 5
JB = 5
Langkah kedua: menuliskan atau memberikan tanda atau kode terhadap hasil
pengelompokan testee atas dua kategori tersebut. (Menggunakan tanda kurung bagi
jawaban yang benar untuk kelompok atas).
Langkah ketiga: Mencari (menghitung) BA, BB, PA, PBdan D. (Lihat Tabel 2.4)
Tabel 2.4. Hasil perhitungan BA, BB, PA, PB dan D
Nomor Butir
D=PABA
BB
JA
JB
PA
PB
Item
PB
1
4
3
5
5
0,80
0,60
0,20
2
2
0
5
5
0,40
0,00
0,40
3
5
4
5
5
1,00
0,80
0,20
4
3
2
5
5
0,60
0,40
0,20
5
5
1
5
5
1,00
0,20
0,80
6
3
0
5
5
0,60
0,00
0,60
7
4
4
5
5
0,80
0,80
0,00
8
2
2
5
5
0,40
0,40
0,00
9
5
4
5
5
1,00
0,80
0,20
10
5
2
5
5
1,00
0,40
0,60
Langkah keempat: Memberikan interpretasi mengenai kualitas daya pembeda item
yang dimiliki oleh 10 item soal tes hasil belajar seperti yang terlihat pada Tabel 2.5
Tabel 2.5. Pemberian Interpretasi terhadap D
Nomor Butir
Klasifikas
Besarnya D
Interpretasi
Item
i
5
0,80
Excellent Daya pembeda itemnya sangat baik sekali.
6 dan 10
0,60
Good
Daya pembeda itemnya baik.
Satisfact
2
0,40
Daya pembeda itemnya cukup (sedang).
ory
1, 3, 4 dan 9
0,20
Poor
Daya pembeda itemnya lemah sekali.
7 dan 8
0,00
Poor
Tidak memiliki daya pembeda sama sekali.

88
Dengan demikian, jelas terlihat bahwa 4 dari 10 item soal diatas sudah termasuk
memiliki daya pembeda yang memadai dan sisanya, yaitu 6 masih tergolong
kelompok item soal yang tidak/belum memiliki daya pembeda yang diharapkan.
Contoh 2: Menggunakan rumus yang kedua
Karena pada hakikatnya PA = PH dan PB= PL maka kita hanya perlu mengganti
simbolnya saja. Setelah itu kita cari nilai p (proporsi testee yang jawabannya benar)
dan q (proporsi testee yang jawabannya salah). Setelah selesai didapatkan, nilai P H, PL,
p dan q kita substitusikan kedalam rumus korelasi Phi. Hasilnya adalah sebagai
berikut:
Tabel 2.6. Perhitungan besarnya korelasi koefisien Phi ()
Butir Item Nomor
PH
PL
p
q =

Klasifikasi
0,8 0,6 0,
0,
0,2
1
Satisfactory
0
0
7
3
2
0,4 0,0 0,
0,
0,5
2
Good
0
0
2
8
0
1,0 0,8 0,
0,
0,3
3
Satisfactory
0
0
9
1
3
0,6 0,4 0,
0,
0,4
4
Good
0
0
5
5
0
1,0 0,2 0,
0,
0,8
5
Excellent
0
0
6
4
1
0,6 0,0 0,
0,
0,6
6
Good
0
0
3
7
5
0,8 0,8 0,
0,
0,0
7
Poor
0
0
8
2
0
0,4 0,4 0,
0,
0.0
8
Poor
0
0
4
6
0
1,0 0,8 0,
0,
0,3
9
Satisfactory
0
0
9
1
3
1,0 0,4 0,
0,
0,6
10
Good
0
0
7
3
5
Dengan menggunakan teknik/rumus korelasi Phi ternyata angka indeks diskriminasi
itemnya () sedikit berbeda besarnya dengan angka indeks diskriminasi item yang
dihitung dengan menggunakan rumus pertama (rumus D). Hal ini memang dapat
dipahami, sebab menurut para ahli di bidang evaluasi pendidikan angka indeks
diskriminasi item yang diperoleh dengan menggunakan teknik korelasi Phi itu sifatnya
lebih teliti.
BAB III
PENUTUP
A.
Kesimpulan
Evaluasi hasil belajar siswa merupakan salah satu kegiatan yang merupakan
kewajiban bagi setiap guru.Penganalisisan terhadap butir soal tes hasil belajar
dilakukan guna memperoleh dan mengetahui apakah item tes sudah mampu
menjalankan fungsinya sebagai alat ukur hasil belajar.
Penganalisisan terhadap butir soal tes hasil belajar dapat dilakukan dengan beberapa
cara, yaitu: dengan analisis tingkat kesukaran butir soal tesnya, dan dengan
menganalisis daya pembeda butir soalnya.Analisis tingkat kesukaran butir item tes
dimaksudkan untuk mengetahui seberapa mudah dan seberapa sulit tingkat
kesukaran sebuah item soal tes bagi testee atau siswa yang terkait.
Analisis daya beda butir item tes dimaksudkan untuk mengungkapkan seberapa besar
butir tes dapat membedakan antara siswa kelompok tinggi dengan siswa kelompok
rendah.Salah satu ciri butir yang baik adalah yang mampu membedakan antara
kelompok atas (yang mampu) dan kelompok bawah (kurang mampu).
B.

Saran

89
Tidak sedikit dari para staf pengajar yang hanya membuat soal tes, lalu
memberikannya, setelah itu maka selesailah proses evaluasi belajar. Mereka
cenderung tidak memperhatikan bagaimana setiap butir soal tes mampu menjalankan
tugasnya sebagai alat ukur kemampuan testee.
Dalam proses evaluasi hasil belajar, hendaknya kita memperhatikan setiap butir soal
yang akan diberikan dalam rangka mengukur kemampuan seorang testee atau
seorang siswa. Soal yang akan diberikan harus mampu menjalankan tugasnya sebagai
alat ukur atas sejauh mana seorang testee atau siswa menguasai atau memehami
hasil pembelajarannya.
Oleh karena itu, analisis terhadap tingkat kesukaran setiap item tes dan daya
pembeda item perlu dilakukan untuk menunjang fungsi dan tujuan pemberian tes hasil
belajar tadi yang telah disebutkan agar mendapatkan tes hasil belajar yang
berkualitas.
Analisis Butir (Tingkat Kesukaran Soal)
Tingkat kesukaran soal ditunjukkan dengan indeks kesukaran, yaitu menunjukkan
sukar mudahnya suatu soal. Soal yang baik adalah soal yang mempunyai derajad
kesukaran memadai dalam arti tidak terlalu sukar dan tidak terlalu mudah. Menurut
Zaenal Arifin (2009: 266), tingkat kesukaran soal bentuk objektif dapat dicari dengan
menggunakan rumus:
TK = (WL + WH)/ (nL + nH) x 100%
Dimana:
WL
= Jumlah peserta didik yang menjawab salah pada kelompok bawah
WH
= Jumlah peserta didik yang menjawab salah pada kelompok atas
nL
= Jumlah peserta didik pada kelompok bawah
nH
= Jumlah peserta didik pada kelompok atas
Sebelum menggunakan rumus di atas, harus ditempuh terlebih dahulu langkahlangkah sebagai berikut.
1. Menyusun lembar jawaban peserta didik dari skor tertinggi sampai dengan skor
terendah.
2. Mengambil 27% lembar jawaban dari atas yang selanjutnya disebut kelompok atas
(higher group) dan
mengambil 27% lembar jawaban dari bawah yang selanjutnya disebut kelompok
bawah (lower group).
Sisa sebanyak 46% disisihkan.
3. Membuat tabel jawaban benar salah dari kelompok atas dan kelompok bawah
untuk memudahkan
perhitungan.
4. Menghitung tingkat kesukaran soal
Adapun kriterian
1.
Jika jumlah
2.
Jika jumlah
3.
Jika jumlah

penafsiran tingkat kesukaran soal adalah:


persentase sampai dengan 27%, maka soal termasuk mudah
persentase sampai dengan 28% - 72%, maka soal termasuk sedang
persentase sampai dengan 73% ke atas , maka soal termasuk sulit

Vous aimerez peut-être aussi