Sabtu, 03 Mei 2014

04 VALIDITAS DAN RELIABILITAS INSTRUMEN

Uraian mengenai validitas dan reliabilitas alat ukur ini, rujukkan utamanya adalah Gronlund (1985), Arikunto (1986), dan dilengkapi dengan referensi lainnya.   Validitas dan reliabilitas ini merupakan konsep penting dalam pengembangan dan penggunaan tes hasil belajar.

A.  Validitas
             Gronlund (1985) mengemukakan bahwa validitas, dalam pengertian secara umum, artinya sampai seberapa jauh hasil tes dapat dipakai untuk tujuan yang dimaksudkan.  Lebih lanjut, Gronlund mengemukakan bahwa konsep mengenai validitas sebagaimana yang digunakan dalam pelaksanaan tes, dapat dijelaskan dengan memperhatikan pokok umum berikut: (1)  Validitas menunjuk kepada interpretasi hasil tes (bukan terhadap tes itu sendiri), (2) Validitas disimpulkan dari bukti-bukti yang tersedia (bukan diukur), (3) Validitas adalah khas untuk tujuan tertentu (seleksi, penentuan tempat (murid), evaluasi belajar dan lain-lain), dan (4) Validitas dinyatakan dengan derajat (misalnya tinggi, sedang, rendah).
            Gronlund (1985), mengutip penggolongan validitas yang tercantum dalam American Psychological Association (1974), mengemukakan bahwa validitas terdiri dari (1) validitas isi bahan, (2) validitas yang berhubungan dengan kriterium (meramalkan dan keadaan kini), dan (3) validitas bentuk. 
Selanjutnya, Gronlund menguraikan secara rinci setiap validitas tersebut.  Isi pada tabel berikut menjadi acuan dalam penguraian nantinya.  Terdapat dua kolom dalam tabel.  Kolom pertama berisi jenis validitas, dan kolom satunya lagi berisi pertanyaan mengenai corak masing-masing validitas.
Tabel 2
Jenis Validitas

Jenis
Pertanyaan Untuk dijawab
Validitas Isi (bahan)
Bagaimana tepatnya isi bahan tes untuk dijadikan sampel mengenai semua corak situasi yang diwa-kilinya secara umum?
Validitas yang berkaitan dengan kriterium
Bagaimana kemampuan tes pe-nampilan meramalkan penampilan (validitas meramalkan) atau mem-perkirakan keadaan sekarang (va-liditas untuk masa kini dihubungkan dengan hasil pengukuran lain yang disebut kriterium?
Validitas bentuk
Bagaimana kejelasan tes penampilan berdasarkan konsep psikologis?


1.  Validitas Isi
Gronlund (1985) mengemukakan bahwa validitas isi sangat penting terutama dalam tes hasil belajar.  Yang menarik perhatian dalam hal ini, betapa tes itu mengukur topik bahan bahasan dan hasil belajar yang diliput selama satu masa pelajaran.  Tes yang tinggi validitas isinya dapat dibuat dengan prosedur sebagai berikut:  (1) mengidentifikasi topik pokok bahasan dan hasil tingkah laku yang dapat diukur, (2) membuat tabel spesifikasi yang memerinci sampel butir pertanyaan yang akan digunakan, dan (3) membuat tes yang paling mendekati tabel spesifikasi itu.  Prosedur terbut dapat menjanjikan validitas isi yang tinggi. 
Lebih lanjut Gronlund mengemukakan bahwa untuk menentukan apakah suatu tes hasil belajar yang dibakukan berlakuk untuk dipakai di kelas tertentu, hendaknya butir-butir pertanyaannya dinilai dalam kaitannya dengan isi dan tujuan pelajaran, yang ditekannkan dalam pengajaran.  Validitas isi bahan merupakan hal yang utama dalam tes hasil belajar dan penting pula untuk dimiliki dalam penilaian acauan patokan dan penilaian acuan norma.

2.   Validitas yang berkaiatan dengan kriterium
            Menurut Gronlund (1985) terdapat ada dua jenis validitas yang berhubungan dengan kriterium, yaitu: (1) berkaitan dengan penggunaan penampilan dalam tes untuk meramalkan penampilan dalam suatu pengukuran yang sudah dinilai, yang disebut kriterium, (2) berkaitan dengan penggunaan hasil tes penampilan untuk memperkirakan penampilan sekarang berdasarkan suatu kriterium. 
Gronlund (1985) lebih lanjut mengemukakan bahwa paling sedikit ada 3 alasan yang baik untuk menggunakan skor tes untuk mengira-ngira penampilan berkenaan dengan pengukuran yang lain yang sebenarnya dapat diperoleh pada waktu yang sama, yaitu: (1)  mungkin kita ingin meneliti hasilsuuatu tes yang baru saja disusun dengan membandingkannya dengan hasil suatu tes yang sudah ada, dan yang diketahui sudah valid; (2)  mungkin ada keinginan menggantikan pengukuran yang kompleks dan banyak memakan waktu dengan suatu prosedur yang lebih singkat dan sederhana, dan (3) mungkin kita ingin memastikan apakah suatu prosedur pengujian mempunyai potensi untuk dijadikan alat meramalkan.  Jika suatu tes misalnya tidak menghasilkan taksiran yang memuaskan untuk penampilan kini, maka tentu saja tes tersebut tidak dapat dipakai untuk meramalkan penampilan pada masa yang akan datang dengan ukuran yang sama.  Di pihak lain, taksiran yang memuaskan mengenai penampilan kini akan menunjukkan, bahwa tes itu mungkin berguna (walaupun kurang tepat) untuk meramalkan penampilan pada waktu yang akan datang  Unsur pokok dalam jenis validitas yang berkaitan dengan kriterim ini adalah derajat hubungan antara kedua alat ukur, yaitu skor tes dan kriterium yang akan diramalkan dan diperkiraan.   Hubungan tersebut umumnya dinyatakan dalam koefisien korelasi (r).  Koefisien korelasi ini bisa negatif atau positif, dengan rentang 0 sampai 1 untuk korelasi positif, atau 0 sampai -1 untuk korelasi negatif.  Angka nol menunjukan tidak ada korelasi sedangkan 1 korelasi positif sempurna dan -1 korelasi negatif sempurna.

B.  Reliabilitas
            Pengujian reliabilitas suatu tes itu adalah untuk melihat sejauh mana hasil tes tersebut dapat ‘dipercaya’ atau reliabel.  Menurut Arikunto (1986),  suatu tes dapat dikatakan mempunyai taraf kepercayaan yang tinggi jika tes tersebut dapat memberikan hasil yang tetap, jadi pengertian reliabilitas tes berhubungan dengan masalah ketetapan hasil tes.  Scarvia B. Anderson, sebagaimana dikutip Arikunto (1986) mengatakan bahwa persyaratan bagi tes yaitu validitas dan reliabilitas itu penting, di mana validitas lebih penting dan reliabilitas itu perlu, karena menyokong terbentuknya validitas.  Sebuah tes dapat saja reliabel tapi bisa saja tidak valid; sementara tes yang valid biasanya reliabel.           
            Arikunto (1986) mengelompokkan 3 hal yang dapat memberikan pengaruh terhadap reliabilitas, yaitu (1) hal yang berhubungan dengan tes itu sendiri (panjang tes dan kualitas butir-butir soalnya), (2) hal yang berhubungan dengan tercoba (testee), dan (3) hal yang berhubungan dengan penyelenggaraan tes.  Untuk hal pertama di atas, bila tes yang terdiri dari banyak butir, maka tentu saja dapat lebih valid dibanding dengan tes yang hanya terdiri dari beberapa butir soal.  Tinggi rendahnya validitas menunjukkan tinggi rendahnya reliabilitas tes.  Dengan demikian semakin panjang tes (semakin banyak butir) maka reliabilitasnya semakin tinggi.   Rumus Spearman dan Brown berikut dapat digunakan untuk menghitung besarnya reliabilitas berhubung dengan penambahan banyaknya butir soal:


        
            Contoh menghitung n (berapa kali butir-butir soal ditambah):  bila suatu tes awalnya terdiri dari 40 butir, kemudian ditambah 20 butir maka menjadi 60 butir.  60 butir ini sudah menjadi 1,5 kali dibanding banyaknya butir tes awal.  Dengan demikian n = 1,5.
            Untuk hal kedua, yang berkaitan dengan tercoba, bila tes dicobakan kepada  kelompok yang terdiri dari banyak siswa maka akan mencerminkan keragaman hasil yang menggambarkan besar kecilnya reliabilitas tes.  Tes yang diobakan kepada bukan kelompok terpilih, akan menunjukkan reliabilitas yang lebih besar dari pada yang dicobakan kepada kelompok tertentu yang diambil secara dipilih. Kemudian, untuk hal ketiga, adalah yang berhubungan dengan penyelenggaraan tes.  Petujuk mengerjakan soal, akan memberikan ketenangan bagi yang mengerjakan tes, demikian juga tidak akan menimbulkan banyak pertanyaan, sehingga ketenangan pelaksanaan dapat terjaga sehingga tidak menggangu hasil pelaksanaan tes.  Demikian juga pengawas yang tertib akan mempengaruhi hasil pelaksanaan tes (Arikunto (1986). 
            Dengan demikian, untuk memberikan dukungfan terhadap perolehan koefisien reliabilitas yang tinggi maka tiga hal tersebut perlu dijadikan acuan, yaitu (1) gunakan jumlah butir soal relatif banyak, (2)  gunakan kelompok sampel coba yang juga banyak, tanpa dipilih siapa saja anggota sampelnya, dan (3) dalam pelaksanaan tes, hindari berbagai hal/gangguan yang dapat berakibat mengganggu pemerolehan hasil tes yang sebenarnya.
            Gronlund (1985) mengemukakan bahwa reliabilitas menunjukkan konsistensi skor tes dari satu pengukuran kepada yang lain.    Reliabilitas skor tes secara umum dinyatakan dengan koefisien keterandalan atau standar kesalahan pengukuran.  Lebih lanjut Gronlund (1985) mengemukakan suatu koefisien keterandalan adalah juga koefisien korelasi, tetapi menunjukkan adanya korelasi antara dua perangkat hasil pengukuran yang dilaksanakan dengan prosedur yang sama.  Prosedur pengujian reliabilitas dapat saja dilakukan dengan: melaksanakan tes yang sama sebanyak dua kali kepada sekelompok murid dengan selang waktu tertentu antara pelaksanaan tes pertama dan kedua (metode tes – tes kembali), melaksanakan dua bentuk susunan tes yang setara dalam waktu yang berdekatan (tes – tes kembali dan bentuk yang sama), atau sekali saja melaksanakan tes dan kemudian menghitung konsistensi jawaban dalam tes (konsistensi internal).  Setiap metode untuk memperoleh koefisien keterandalan ini menghasilkan jenis informasi yang berlainan.  Dengan demikian koefisien keterandalan yang iperoleh dengan cara yang berbeda tidak dapat ditukar-tukar.
Berikut ini akan dijelaskan mengenai metode-metode yang digunakan untuk menentukan reliabilitas tes, dengan merujuk pada Gronlund (1985) dan Arikunto (1986).
Metode tes dan tes kembali (test-retest method).  Metode ini mengharuskan pelaksanaan bentuk tes yang sama kepada kelompok murid yang sama pula dengan jarak waktu tertentu.  Jarak waktu antara kedua pelaksanaan tersebut dapat saja beberapa hari atau beberapa tahun.  Lamanya jarak waktu  itu harus sesuai dengan jenis tafsiran yang akan dibuat tentang hasil tes itu.  Jika yang dikehendaki hanya penggunaan skor tes untuk mengelompokkan murid agar mereka belajar lebih efektif, jarak waktu pendek mungkin sudah cukup.  Sebaliknya bila yang diinginkan adalah meramalkan keberhasilan dalam pekerjaan atau membuat ramalan lain untuk jangka panjang, maka diperlukan bukti mengenai stabilitas selama beberapa tahun.  Berkaitan dengan jarak waktu pelaksanaan tes dan tes kembali ini, Gronlund mengemukakan bahwa koefisien reliabilitas tes dipengaruhi oleh kesalahan dalam prosedur pengukuran dan oleh stabilitas jawaban murid sehari-hari.  Semakin besar jarak waktu pelaksanaan antara tes dan tes kembali maka akan semakin rendah koefisien reliabilitas yang dihasilkan.  Sebab ituadalah penting untuk memperhitungkan jarak waktu kalau hendak melaporkan koefisien reliabilitas pada tes dan tes kembali. 
Arikunto mengemukakan bahwa untuk tes yang banyak mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang mengena karena tercoba akan masih ingat butir-butir soalnya.  Oleh karena itu tenggang waktu antara pemberian tes pertama dengan tes kedua menjadi permasalahan sendiri.  Jika jarak waktunya sempit peserta tes akan masih ingat tentang isi tes yang sudah dikerjakannya dulu.  Sebaliknya bila tenggang waktunya terlalu lama, maka peserta tes sudah berkesempatan memperoleh pengetahuan baru, sehingga dalam hal seperti itu sulit menyimpulkan bila tes kedua berbeda dengan hasil tes pertama sebagai suatu yang tidak konsisten, atau tidak stabil. 
Metode susunan bentuk yang setara (equivalent).  Melalui metode ini dua bentuk tes yang memiliki kesamaan tujuan (paralel) dikerjakan oleh satu kelompok pada waktu yang sama.  Jadi ada dua tes berbeda tapi paralel atau setara baik di segi tujuannya, tingkat kesukaran, dan susunannya.  Bentuk tes yang setara ini, disusun dalam bentuk mengukur kemampuan yang sama (dari tabel spesifikasi yang sama).  Namun, untuk menentukan taraf reliabilitas adalah penting untuk mengkostruksi kedua tes tersebut sendiri-sendiri.  Ini berarti koefisien reliabilitas yang tinggi akan menunjukkan kedua sampel yang berdiri sendiri itu adalah untuk mengukur aspek yang sama.  Sebaliknya koefisien reliabilitas yang rendah menunjukkan bahwa kedua bentuk tes tersebut mengukur tingkah laku yang berlainan dan karena iitu kedua sampel butir pertanyaannya dapat dapat disangsikan ketepatannya.
Metode konsistensi internal.  Metode ini hanya memerlukan satu pelaksanaan tes saja.  Dapat saja tes yang digunakan dengan metode belah dua (split-half).  Metode ini dapat dilakukan dengan memisahkan antara butir ganjil dengan butir genap kemudian butir-butir genap tersebut dikorelasikan dengan butir-butir ganjil, atau bisa juga pembelahan awal akhir.  Koefisien korelasi yang didasarkan atas butir pertanyaan nomor ganjil dan nomor genap menyatakan adanya hubungan antara kedua bagian tes, maka koefisien validitas seluruh tes ditentukan dengan menerapkan rumus Spearman-Brown.  Bentuk rumus tersebut adalah:



Penggunaan rumus tersebut membuat prinsip reliabilitas tes yang bermanfaat menjadi jelas.  Reliablilitas tes dapat diperbesar dengan memperpanjang susunan tes.  Rumus di atas menunjukkan bahwa betapa besarnya reliabilitas akan ditingkatkan jika panjangnya suatu tes dilipat-duakan.  Namun aplikasi rumus itu idasari anggapan bahwa penambahan panjangnya tes itu dilakukan dengan menambah butir pertanyaan seperti sudah ada di dalam tes.
Reliabilites tes pembelahan ganjil genap ini, juga bisa dicari dengan menggunakan rumus Flanagan, sebagai berikut:



            Selanjutnya rumus yang dapat digunakan untuk perhitungan reliabilitas tes pembelahan bawah-atas, dapat menggunakan rumus Rulon, sebagai berikut:



            Varians beda tersebut dapat dihasilkan dengan menggunakan rumus:




Perhitungan reliabilitas tes baik dengan ganjil genap maupun dengan pembelahan (awal – akhir) tentu saja butir harus genap. Kita tahu bahwa tidak selamanya jumlah butir tes itu genap.  Jadi bisa saja jumlahnya ganjil.  Untuk itu ada rumus lain bisa digunakan untuk menghitung reliabilitas, baik itu jumlah butirnya genap maupun.  Rumus tersebut dibuat oleh Kuder dan Richarson.  Ada dua rumus yang terkenal, diberi urutan 20 dan 21, dikenal rumus KR-20 dan KR-21.
Rumus KR-20 adalah:



Rumus KR-21. Ada tiga informasi yang dibutuhkan dalam rumus ini, Yaitu: (1) jumlah butir pertanyaan dalam suatu tes, (2) Rata-rata, dan (3)  Standar Deviasi (SD atau S).  Versi rumusan yang sudah KR-21, adalah:


                
Untuk butir soal uraian, perhitungan konsistensi internal ini dapat menggunakan rumus koefisiean alpha dari Cronbach (Fernandes, 1984).  Rumus tersebut digunakan apabila skor hasil belajar yang akan dihitung adalah berbentuk rentang skor.
            Rumus tersebut adalah:





C.  Analisis Butir Soal
            Setiap guru tentu saja dapat menyusun butir-butir soal untuk kepentingan melihat sejauh mana tujuan pembelajaran dicapai.  Namun pada saat butir-butir soal itu selesai dikerjakan,  kita belum  bisa mengatakan secara meyakinkan mengenai seberapa sulit atau mudah butir-butir soal tersebut.  Demikian juga apakah butir-butir soal tersebut memiliki ‘kemampuan’ untuk bisa memiliki daya beda yang memadai. Demikian juga bila butir soal itu adalah adalah pilihan ganda, juga perlu diketahui juga seberapa efektif setiap pilihan yang ada
            Untuk itu uraian berikut ini akan dijelaskan tentang langkah atau prosedur menentukan taraf kesulitan, analisis daya pembeda butir soal, dan efektivitas pilihan dalam soal pilihan ganda.  Uraian tentang ini akan merujuk pada Arikunto (1986), dan referensi lainnya.

1.  Taraf Kesukaran
            Menurut Arikunto (1986) soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sulit.  Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha memecahkannya.  Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi karena di luar jangkauannya. 
Tes yang baik nantinya bisa bersifat diskriminatif, artinya hasil tes tersebut mampu membedakan mana murid yang pintar dan bodoh.  Karena itu, menurut saya, dalam satu paket soal yang akan dikerjakan siswa, harus ada perimbangan yang proporsional antar soal mudah, sedang dan sulit, meskipun soal sedang proporsinya lebih besar.  Butir soal yang terlalu mudah atau sebaliknya terlalu sulit, maka otomatis tidak memiliki daya pembeda. Artinya tidak bisa membedakan mana murid pintar dan bodoh.
Arikunto (1986) mengemukakan bahwa bilangan yang menunjukkan sukar dan mudahnya sesuatu butir soal disebut ‘indeks kesukaran’ (difficulty index).  Rentang besaran indeks kesukaran ini adalah antara 0 sampai 1.  Angka 0 menunjukkan butir terlalu sulit dan 1 menunjukkan butir terlalu mudah. 
Rumus yang di gunakan untuk mengetahui taraf kesulitan butir soal adalah:




Rentang kesukaran butir soal diklasifikasikan sebagai berikut:
p   =   0,00  -  0,30  adalah butir sukar
p   =   0,30  -  0,70  adalah butir sedang
p   =   0,70  -  1,00  adalah butir mudah

1.       Daya Pembeda
Menurut Arikunto (1986)  yang dimaksud dengan daya pembeda soal adalah kemampuan suatu soal untuk membedakan antara siswa yang pandai (berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan rendah).  Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi (D).  Rentang daya pembeda ini mulai dari -1,00 (daya pembeda negatif), ke 0,00 (daya pembeda rendah), sampai 1,00 (daya pembeda tinggi).
Untuk menentukan daya pembeda ini maka peserta tes dikelompokkan menjadi 2 kelompok, yaitu kelompok atas (yang memperoleh skor tinggi) dan kelompok bawah (yang memperoleh skor rendah).  Cara pengelompokan ini, menurut Arikunto (1986) dapat dilakukan 2 cara berbeda dengan melihat banyaknya peserta tes.  Ada yang dikategorikan kelompok kecil, di mana peserta tesnya <100, dan ada kelompok besar di mana peserta tesnya > 100.  Untuk kelompok kecil semua peserta tesnya digunakan, dengan proporsi 50% kelompok atas, dan 50% kelompok bawah.  Sedangkan untuk kelompok besar, tidak semua peserta tes digunakan.  Yang hanya digunakan adalah 27% kelompok bawah dan 27% kelompok atas. 
Rumus yang digunakan adalah:



Rentang daya pembeda menurut Arikunto (1986) adalah:
D  =  0,00  - 0,20   =   jelek
D  =  0,20  - 0,40   =   cukup
D  =  0,40  - 0,70   =   baik
D  =  0,70  - 1,00   =   baik sekali
Bila D = negatif, maka butir soal tersebut tidak baik dan langsung dibuang saja.

3.   Efektivitas Pengecoh dalam Pilihan Ganda
            Dalam menulis soal pilihan ganda, tentu saja di samping tersedia pilihan jawaban benar, biasanya 1 jawaban benar (key), juga disediakan beberapa obsi jawaban salah sebagai pengecoh (distractor).  Pengecoh ini harus efektif, jangan sampai malah menggunakan pengecoh yang tidak mampu berfungsi sebagai pengecoh sehingga malah mengantarkan peserta untuk memilih jawaban benar yang tadinya tidak diketahu peserta tes.
Menurut Arikunto (1986), pengecoh yang baik apabila minimal dipilih oleh sekurang-kurangnya 5% dari peserta tes. 
(Ruddy Pakasi, 2014)

Tidak ada komentar:

Posting Komentar