Uraian mengenai validitas dan reliabilitas alat ukur
ini, rujukkan utamanya adalah Gronlund (1985), Arikunto (1986), dan dilengkapi
dengan referensi lainnya. Validitas dan
reliabilitas ini merupakan konsep penting dalam pengembangan dan penggunaan tes
hasil belajar.
A. Validitas
Gronlund (1985) mengemukakan bahwa validitas,
dalam pengertian secara umum, artinya sampai seberapa jauh hasil tes dapat
dipakai untuk tujuan yang dimaksudkan.
Lebih lanjut, Gronlund mengemukakan bahwa konsep mengenai validitas
sebagaimana yang digunakan dalam pelaksanaan tes, dapat dijelaskan dengan
memperhatikan pokok umum berikut: (1)
Validitas menunjuk kepada interpretasi hasil tes (bukan terhadap tes itu
sendiri), (2) Validitas disimpulkan dari bukti-bukti yang tersedia (bukan
diukur), (3) Validitas adalah khas untuk tujuan tertentu (seleksi, penentuan
tempat (murid), evaluasi belajar dan lain-lain), dan (4) Validitas dinyatakan
dengan derajat (misalnya tinggi, sedang, rendah).
Gronlund (1985),
mengutip penggolongan validitas yang tercantum dalam American Psychological
Association (1974), mengemukakan bahwa validitas terdiri dari (1) validitas isi
bahan, (2) validitas yang berhubungan dengan kriterium (meramalkan dan keadaan
kini), dan (3) validitas bentuk.
Selanjutnya, Gronlund menguraikan secara rinci setiap
validitas tersebut. Isi pada tabel
berikut menjadi acuan dalam penguraian nantinya. Terdapat dua kolom dalam tabel. Kolom pertama berisi jenis validitas, dan
kolom satunya lagi berisi pertanyaan mengenai corak masing-masing validitas.
Tabel 2
Jenis Validitas
Jenis
|
Pertanyaan Untuk dijawab
|
Validitas Isi (bahan)
|
Bagaimana tepatnya isi bahan tes untuk dijadikan
sampel mengenai semua corak situasi yang diwa-kilinya secara umum?
|
Validitas yang berkaitan dengan kriterium
|
Bagaimana kemampuan tes pe-nampilan meramalkan penampilan (validitas
meramalkan) atau mem-perkirakan keadaan sekarang (va-liditas untuk masa kini
dihubungkan dengan hasil pengukuran lain yang disebut kriterium?
|
Validitas bentuk
|
Bagaimana kejelasan tes penampilan berdasarkan konsep psikologis?
|
1. Validitas Isi
Gronlund (1985) mengemukakan bahwa validitas isi
sangat penting terutama dalam tes hasil belajar. Yang menarik perhatian dalam hal ini, betapa
tes itu mengukur topik bahan bahasan dan hasil belajar yang diliput selama satu
masa pelajaran. Tes yang tinggi
validitas isinya dapat dibuat dengan prosedur sebagai berikut: (1) mengidentifikasi topik pokok bahasan dan
hasil tingkah laku yang dapat diukur, (2) membuat tabel spesifikasi yang
memerinci sampel butir pertanyaan yang akan digunakan, dan (3) membuat tes yang
paling mendekati tabel spesifikasi itu.
Prosedur terbut dapat menjanjikan validitas isi yang tinggi.
Lebih lanjut Gronlund mengemukakan bahwa untuk
menentukan apakah suatu tes hasil belajar yang dibakukan berlakuk untuk dipakai
di kelas tertentu, hendaknya butir-butir pertanyaannya dinilai dalam kaitannya
dengan isi dan tujuan pelajaran, yang ditekannkan dalam pengajaran. Validitas isi bahan merupakan hal yang utama
dalam tes hasil belajar dan penting pula untuk dimiliki dalam penilaian acauan
patokan dan penilaian acuan norma.
2. Validitas yang berkaiatan dengan kriterium
Menurut
Gronlund (1985) terdapat ada dua jenis validitas yang berhubungan dengan
kriterium, yaitu: (1) berkaitan dengan penggunaan penampilan dalam tes untuk
meramalkan penampilan dalam suatu pengukuran yang sudah dinilai, yang disebut
kriterium, (2) berkaitan dengan penggunaan hasil tes penampilan untuk
memperkirakan penampilan sekarang berdasarkan suatu kriterium.
Gronlund (1985) lebih lanjut mengemukakan bahwa paling
sedikit ada 3 alasan yang baik untuk menggunakan skor tes untuk mengira-ngira
penampilan berkenaan dengan pengukuran yang lain yang sebenarnya dapat
diperoleh pada waktu yang sama, yaitu: (1)
mungkin kita ingin meneliti hasilsuuatu tes yang baru saja disusun
dengan membandingkannya dengan hasil suatu tes yang sudah ada, dan yang
diketahui sudah valid; (2) mungkin ada
keinginan menggantikan pengukuran yang kompleks dan banyak memakan waktu dengan
suatu prosedur yang lebih singkat dan sederhana, dan (3) mungkin kita ingin
memastikan apakah suatu prosedur pengujian mempunyai potensi untuk dijadikan
alat meramalkan. Jika suatu tes misalnya
tidak menghasilkan taksiran yang memuaskan untuk penampilan kini, maka tentu
saja tes tersebut tidak dapat dipakai untuk meramalkan penampilan pada masa
yang akan datang dengan ukuran yang sama.
Di pihak lain, taksiran yang memuaskan mengenai penampilan kini akan
menunjukkan, bahwa tes itu mungkin berguna (walaupun kurang tepat) untuk
meramalkan penampilan pada waktu yang akan datang Unsur pokok dalam jenis validitas yang
berkaitan dengan kriterim ini adalah derajat hubungan antara kedua alat ukur,
yaitu skor tes dan kriterium yang akan diramalkan dan diperkiraan. Hubungan tersebut umumnya dinyatakan dalam
koefisien korelasi (r). Koefisien korelasi ini bisa negatif atau
positif, dengan rentang 0 sampai 1 untuk korelasi positif, atau 0 sampai -1
untuk korelasi negatif. Angka nol
menunjukan tidak ada korelasi sedangkan 1 korelasi positif sempurna dan -1
korelasi negatif sempurna.
B. Reliabilitas
Pengujian reliabilitas
suatu tes itu adalah untuk melihat sejauh mana hasil tes tersebut dapat
‘dipercaya’ atau reliabel. Menurut
Arikunto (1986), suatu tes dapat
dikatakan mempunyai taraf kepercayaan yang tinggi jika tes tersebut dapat
memberikan hasil yang tetap, jadi pengertian reliabilitas tes berhubungan dengan
masalah ketetapan hasil tes. Scarvia B.
Anderson, sebagaimana dikutip Arikunto (1986) mengatakan bahwa persyaratan bagi
tes yaitu validitas dan reliabilitas itu penting, di mana validitas lebih
penting dan reliabilitas itu perlu, karena menyokong terbentuknya
validitas. Sebuah tes dapat saja
reliabel tapi bisa saja tidak valid; sementara tes yang valid biasanya
reliabel.
Arikunto (1986)
mengelompokkan 3 hal yang dapat memberikan pengaruh terhadap reliabilitas,
yaitu (1) hal yang berhubungan dengan tes itu sendiri (panjang tes dan kualitas
butir-butir soalnya), (2) hal yang berhubungan dengan tercoba (testee), dan (3) hal yang berhubungan
dengan penyelenggaraan tes. Untuk hal
pertama di atas, bila tes yang terdiri dari banyak butir, maka tentu saja dapat
lebih valid dibanding dengan tes yang hanya terdiri dari beberapa butir
soal. Tinggi rendahnya validitas
menunjukkan tinggi rendahnya reliabilitas tes.
Dengan demikian semakin panjang tes (semakin banyak butir) maka
reliabilitasnya semakin tinggi. Rumus
Spearman dan Brown berikut dapat digunakan untuk menghitung besarnya
reliabilitas berhubung dengan penambahan banyaknya butir soal:
Contoh menghitung n (berapa kali butir-butir soal
ditambah): bila suatu tes awalnya
terdiri dari 40 butir, kemudian ditambah 20 butir maka menjadi 60 butir. 60 butir ini sudah menjadi 1,5 kali dibanding
banyaknya butir tes awal. Dengan
demikian n = 1,5.
Untuk hal kedua, yang
berkaitan dengan tercoba, bila tes dicobakan kepada kelompok yang terdiri dari banyak siswa maka
akan mencerminkan keragaman hasil yang menggambarkan besar kecilnya
reliabilitas tes. Tes yang diobakan
kepada bukan kelompok terpilih, akan menunjukkan reliabilitas yang lebih besar
dari pada yang dicobakan kepada kelompok tertentu yang diambil secara dipilih.
Kemudian, untuk hal ketiga, adalah yang berhubungan dengan penyelenggaraan
tes. Petujuk mengerjakan soal, akan
memberikan ketenangan bagi yang mengerjakan tes, demikian juga tidak akan
menimbulkan banyak pertanyaan, sehingga ketenangan pelaksanaan dapat terjaga
sehingga tidak menggangu hasil pelaksanaan tes.
Demikian juga pengawas yang tertib akan mempengaruhi hasil pelaksanaan
tes (Arikunto (1986).
Dengan demikian, untuk
memberikan dukungfan terhadap perolehan koefisien reliabilitas yang tinggi maka
tiga hal tersebut perlu dijadikan acuan, yaitu (1) gunakan jumlah butir soal
relatif banyak, (2) gunakan kelompok
sampel coba yang juga banyak, tanpa dipilih siapa saja anggota sampelnya, dan
(3) dalam pelaksanaan tes, hindari berbagai hal/gangguan yang dapat berakibat
mengganggu pemerolehan hasil tes yang sebenarnya.
Gronlund (1985)
mengemukakan bahwa reliabilitas menunjukkan konsistensi skor tes dari satu
pengukuran kepada yang lain.
Reliabilitas skor tes secara umum dinyatakan dengan koefisien
keterandalan atau standar kesalahan pengukuran.
Lebih lanjut Gronlund (1985) mengemukakan suatu koefisien keterandalan
adalah juga koefisien korelasi, tetapi menunjukkan adanya korelasi antara dua
perangkat hasil pengukuran yang dilaksanakan dengan prosedur yang sama. Prosedur pengujian reliabilitas dapat saja
dilakukan dengan: melaksanakan tes yang sama sebanyak dua kali kepada
sekelompok murid dengan selang waktu tertentu antara pelaksanaan tes pertama
dan kedua (metode tes – tes kembali), melaksanakan dua bentuk susunan tes yang
setara dalam waktu yang berdekatan (tes – tes kembali dan bentuk yang sama),
atau sekali saja melaksanakan tes dan kemudian menghitung konsistensi jawaban
dalam tes (konsistensi internal). Setiap
metode untuk memperoleh koefisien keterandalan ini menghasilkan jenis informasi
yang berlainan. Dengan demikian
koefisien keterandalan yang iperoleh dengan cara yang berbeda tidak dapat
ditukar-tukar.
Berikut ini akan dijelaskan mengenai metode-metode
yang digunakan untuk menentukan reliabilitas tes, dengan merujuk pada Gronlund
(1985) dan Arikunto (1986).
Metode tes dan tes kembali (test-retest method). Metode
ini mengharuskan pelaksanaan bentuk tes yang sama kepada kelompok murid yang
sama pula dengan jarak waktu tertentu.
Jarak waktu antara kedua pelaksanaan tersebut dapat saja beberapa hari
atau beberapa tahun. Lamanya jarak
waktu itu harus sesuai dengan jenis
tafsiran yang akan dibuat tentang hasil tes itu. Jika yang dikehendaki hanya penggunaan skor
tes untuk mengelompokkan murid agar mereka belajar lebih efektif, jarak waktu
pendek mungkin sudah cukup. Sebaliknya
bila yang diinginkan adalah meramalkan keberhasilan dalam pekerjaan atau
membuat ramalan lain untuk jangka panjang, maka diperlukan bukti mengenai
stabilitas selama beberapa tahun.
Berkaitan dengan jarak waktu pelaksanaan tes dan tes kembali ini,
Gronlund mengemukakan bahwa koefisien reliabilitas tes dipengaruhi oleh
kesalahan dalam prosedur pengukuran dan oleh stabilitas jawaban murid
sehari-hari. Semakin besar jarak waktu
pelaksanaan antara tes dan tes kembali maka akan semakin rendah koefisien
reliabilitas yang dihasilkan. Sebab
ituadalah penting untuk memperhitungkan jarak waktu kalau hendak melaporkan
koefisien reliabilitas pada tes dan tes kembali.
Arikunto mengemukakan bahwa untuk tes yang banyak
mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang mengena karena
tercoba akan masih ingat butir-butir soalnya.
Oleh karena itu tenggang waktu antara pemberian tes pertama dengan tes
kedua menjadi permasalahan sendiri. Jika
jarak waktunya sempit peserta tes akan masih ingat tentang isi tes yang sudah
dikerjakannya dulu. Sebaliknya bila
tenggang waktunya terlalu lama, maka peserta tes sudah berkesempatan memperoleh
pengetahuan baru, sehingga dalam hal seperti itu sulit menyimpulkan bila tes
kedua berbeda dengan hasil tes pertama sebagai suatu yang tidak konsisten, atau
tidak stabil.
Metode susunan bentuk yang setara (equivalent). Melalui metode ini dua bentuk tes yang
memiliki kesamaan tujuan (paralel) dikerjakan oleh satu kelompok pada waktu
yang sama. Jadi ada dua tes berbeda tapi
paralel atau setara baik di segi tujuannya, tingkat kesukaran, dan
susunannya. Bentuk tes yang setara ini,
disusun dalam bentuk mengukur kemampuan yang sama (dari tabel spesifikasi yang
sama). Namun, untuk menentukan taraf
reliabilitas adalah penting untuk mengkostruksi kedua tes tersebut
sendiri-sendiri. Ini berarti koefisien
reliabilitas yang tinggi akan menunjukkan kedua sampel yang berdiri sendiri itu
adalah untuk mengukur aspek yang sama.
Sebaliknya koefisien reliabilitas yang rendah menunjukkan bahwa kedua
bentuk tes tersebut mengukur tingkah laku yang berlainan dan karena iitu kedua
sampel butir pertanyaannya dapat dapat disangsikan ketepatannya.
Metode konsistensi internal. Metode ini hanya memerlukan satu pelaksanaan
tes saja. Dapat saja tes yang digunakan
dengan metode belah dua (split-half). Metode ini dapat dilakukan dengan memisahkan
antara butir ganjil dengan butir genap kemudian butir-butir genap tersebut
dikorelasikan dengan butir-butir ganjil, atau bisa juga pembelahan awal
akhir. Koefisien korelasi yang
didasarkan atas butir pertanyaan nomor ganjil dan nomor genap menyatakan adanya
hubungan antara kedua bagian tes, maka koefisien validitas seluruh tes
ditentukan dengan menerapkan rumus Spearman-Brown. Bentuk rumus tersebut adalah:
Penggunaan rumus tersebut membuat prinsip reliabilitas
tes yang bermanfaat menjadi jelas.
Reliablilitas tes dapat diperbesar dengan memperpanjang susunan
tes. Rumus di atas menunjukkan bahwa
betapa besarnya reliabilitas akan ditingkatkan jika panjangnya suatu tes
dilipat-duakan. Namun aplikasi rumus itu
idasari anggapan bahwa penambahan panjangnya tes itu dilakukan dengan menambah
butir pertanyaan seperti sudah ada di dalam tes.
Reliabilites tes pembelahan ganjil genap ini, juga
bisa dicari dengan menggunakan rumus Flanagan, sebagai berikut:
Selanjutnya rumus yang
dapat digunakan untuk perhitungan reliabilitas tes pembelahan bawah-atas, dapat
menggunakan rumus Rulon, sebagai berikut:
Perhitungan reliabilitas tes baik dengan ganjil genap
maupun dengan pembelahan (awal – akhir) tentu saja butir harus genap. Kita tahu
bahwa tidak selamanya jumlah butir tes itu genap. Jadi bisa saja jumlahnya ganjil. Untuk itu ada rumus lain bisa digunakan untuk
menghitung reliabilitas, baik itu jumlah butirnya genap maupun. Rumus tersebut dibuat oleh Kuder dan
Richarson. Ada dua rumus yang terkenal,
diberi urutan 20 dan 21, dikenal rumus KR-20 dan KR-21.
Rumus KR-21. Ada tiga informasi yang dibutuhkan dalam
rumus ini, Yaitu: (1) jumlah butir pertanyaan dalam suatu tes, (2) Rata-rata,
dan (3) Standar Deviasi (SD atau
S). Versi rumusan yang sudah KR-21, adalah:
Untuk butir soal uraian, perhitungan konsistensi
internal ini dapat menggunakan rumus koefisiean alpha dari Cronbach (Fernandes,
1984). Rumus tersebut digunakan apabila
skor hasil belajar yang akan dihitung adalah berbentuk rentang skor.
C. Analisis Butir Soal
Setiap guru tentu saja
dapat menyusun butir-butir soal untuk kepentingan melihat sejauh mana tujuan
pembelajaran dicapai. Namun pada saat
butir-butir soal itu selesai dikerjakan,
kita belum bisa mengatakan secara
meyakinkan mengenai seberapa sulit atau mudah butir-butir soal tersebut. Demikian juga apakah butir-butir soal
tersebut memiliki ‘kemampuan’ untuk bisa memiliki daya beda yang memadai.
Demikian juga bila butir soal itu adalah adalah pilihan ganda, juga perlu
diketahui juga seberapa efektif setiap pilihan yang ada
Untuk itu uraian berikut
ini akan dijelaskan tentang langkah atau prosedur menentukan taraf kesulitan,
analisis daya pembeda butir soal, dan efektivitas pilihan dalam soal pilihan
ganda. Uraian tentang ini akan merujuk
pada Arikunto (1986), dan referensi lainnya.
1. Taraf Kesukaran
Menurut
Arikunto (1986) soal yang baik adalah soal yang tidak terlalu mudah atau tidak
terlalu sulit. Soal yang terlalu mudah
tidak merangsang siswa untuk mempertinggi usaha memecahkannya. Sebaliknya soal yang terlalu sukar akan
menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba
lagi karena di luar jangkauannya.
Tes yang baik nantinya bisa bersifat diskriminatif,
artinya hasil tes tersebut mampu membedakan mana murid yang pintar dan
bodoh. Karena itu, menurut saya, dalam
satu paket soal yang akan dikerjakan siswa, harus ada perimbangan yang
proporsional antar soal mudah, sedang dan sulit, meskipun soal sedang
proporsinya lebih besar. Butir soal yang
terlalu mudah atau sebaliknya terlalu sulit, maka otomatis tidak memiliki daya
pembeda. Artinya tidak bisa membedakan mana murid pintar dan bodoh.
Arikunto (1986) mengemukakan bahwa bilangan yang
menunjukkan sukar dan mudahnya sesuatu butir soal disebut ‘indeks kesukaran’
(difficulty index). Rentang besaran indeks kesukaran ini adalah
antara 0 sampai 1. Angka 0 menunjukkan
butir terlalu sulit dan 1 menunjukkan butir terlalu mudah.
Rentang kesukaran butir soal diklasifikasikan sebagai
berikut:
p = 0,00
- 0,30 adalah butir sukar
p = 0,30
- 0,70 adalah butir sedang
p = 0,70
- 1,00 adalah butir mudah
1.
Daya Pembeda
Menurut Arikunto (1986) yang dimaksud dengan daya pembeda soal adalah
kemampuan suatu soal untuk membedakan antara siswa yang pandai (berkemampuan
tinggi) dengan siswa yang bodoh (berkemampuan rendah). Angka yang menunjukkan besarnya daya pembeda
disebut indeks diskriminasi (D). Rentang daya pembeda ini mulai dari -1,00
(daya pembeda negatif), ke 0,00 (daya pembeda rendah), sampai 1,00 (daya
pembeda tinggi).
Untuk menentukan daya pembeda ini maka peserta tes dikelompokkan
menjadi 2 kelompok, yaitu kelompok atas (yang memperoleh skor tinggi) dan
kelompok bawah (yang memperoleh skor rendah).
Cara pengelompokan ini, menurut Arikunto (1986) dapat dilakukan 2 cara
berbeda dengan melihat banyaknya peserta tes.
Ada yang dikategorikan kelompok kecil, di mana peserta tesnya <100,
dan ada kelompok besar di mana peserta tesnya > 100. Untuk kelompok kecil semua peserta tesnya
digunakan, dengan proporsi 50% kelompok atas, dan 50% kelompok bawah. Sedangkan untuk kelompok besar, tidak semua
peserta tes digunakan. Yang hanya
digunakan adalah 27% kelompok bawah dan 27% kelompok atas.
Rentang daya pembeda menurut Arikunto (1986) adalah:
D = 0,00 -
0,20 =
jelek
D = 0,40 -
0,70 =
baik
D = 0,70 -
1,00 =
baik sekali
Bila D = negatif, maka butir soal tersebut tidak baik
dan langsung dibuang saja.
3. Efektivitas Pengecoh dalam Pilihan Ganda
Dalam
menulis soal pilihan ganda, tentu saja di samping tersedia pilihan jawaban
benar, biasanya 1 jawaban benar (key),
juga disediakan beberapa obsi jawaban salah sebagai pengecoh (distractor). Pengecoh ini harus efektif, jangan sampai
malah menggunakan pengecoh yang tidak mampu berfungsi sebagai pengecoh sehingga
malah mengantarkan peserta untuk memilih jawaban benar yang tadinya tidak
diketahu peserta tes.
Menurut Arikunto (1986), pengecoh yang baik apabila
minimal dipilih oleh sekurang-kurangnya 5% dari peserta tes.
(Ruddy Pakasi, 2014)
(Ruddy Pakasi, 2014)
Tidak ada komentar:
Posting Komentar