Sabtu, 03 Mei 2014

05  CONTOH MENENTUKAN VALIDITAS DAN RELIABILITAS INSTRUMEN

Ada beberapa contoh praktis yang sudah saya upload. Untuk saat ini contoh tersebut berkaitan dengan bidang Seni Rupa.  Dikesempatan lain saya akan menambahkan contoh lain di bidang Sendratasik.

Untuk dapat mengunduh file yang berisi contoh tersebut silahkan klik link di bawah ini.  Setelah anda klik link tersebut, akan muncul situs yang berisi file yang siap diunduh. Kemuadian klik boks "Download Now".

CONTOH MENENTUKAN VALIDITAS DAN RELIABILITAS


04 VALIDITAS DAN RELIABILITAS INSTRUMEN

Uraian mengenai validitas dan reliabilitas alat ukur ini, rujukkan utamanya adalah Gronlund (1985), Arikunto (1986), dan dilengkapi dengan referensi lainnya.   Validitas dan reliabilitas ini merupakan konsep penting dalam pengembangan dan penggunaan tes hasil belajar.

A.  Validitas
             Gronlund (1985) mengemukakan bahwa validitas, dalam pengertian secara umum, artinya sampai seberapa jauh hasil tes dapat dipakai untuk tujuan yang dimaksudkan.  Lebih lanjut, Gronlund mengemukakan bahwa konsep mengenai validitas sebagaimana yang digunakan dalam pelaksanaan tes, dapat dijelaskan dengan memperhatikan pokok umum berikut: (1)  Validitas menunjuk kepada interpretasi hasil tes (bukan terhadap tes itu sendiri), (2) Validitas disimpulkan dari bukti-bukti yang tersedia (bukan diukur), (3) Validitas adalah khas untuk tujuan tertentu (seleksi, penentuan tempat (murid), evaluasi belajar dan lain-lain), dan (4) Validitas dinyatakan dengan derajat (misalnya tinggi, sedang, rendah).
            Gronlund (1985), mengutip penggolongan validitas yang tercantum dalam American Psychological Association (1974), mengemukakan bahwa validitas terdiri dari (1) validitas isi bahan, (2) validitas yang berhubungan dengan kriterium (meramalkan dan keadaan kini), dan (3) validitas bentuk. 
Selanjutnya, Gronlund menguraikan secara rinci setiap validitas tersebut.  Isi pada tabel berikut menjadi acuan dalam penguraian nantinya.  Terdapat dua kolom dalam tabel.  Kolom pertama berisi jenis validitas, dan kolom satunya lagi berisi pertanyaan mengenai corak masing-masing validitas.
Tabel 2
Jenis Validitas

Jenis
Pertanyaan Untuk dijawab
Validitas Isi (bahan)
Bagaimana tepatnya isi bahan tes untuk dijadikan sampel mengenai semua corak situasi yang diwa-kilinya secara umum?
Validitas yang berkaitan dengan kriterium
Bagaimana kemampuan tes pe-nampilan meramalkan penampilan (validitas meramalkan) atau mem-perkirakan keadaan sekarang (va-liditas untuk masa kini dihubungkan dengan hasil pengukuran lain yang disebut kriterium?
Validitas bentuk
Bagaimana kejelasan tes penampilan berdasarkan konsep psikologis?


1.  Validitas Isi
Gronlund (1985) mengemukakan bahwa validitas isi sangat penting terutama dalam tes hasil belajar.  Yang menarik perhatian dalam hal ini, betapa tes itu mengukur topik bahan bahasan dan hasil belajar yang diliput selama satu masa pelajaran.  Tes yang tinggi validitas isinya dapat dibuat dengan prosedur sebagai berikut:  (1) mengidentifikasi topik pokok bahasan dan hasil tingkah laku yang dapat diukur, (2) membuat tabel spesifikasi yang memerinci sampel butir pertanyaan yang akan digunakan, dan (3) membuat tes yang paling mendekati tabel spesifikasi itu.  Prosedur terbut dapat menjanjikan validitas isi yang tinggi. 
Lebih lanjut Gronlund mengemukakan bahwa untuk menentukan apakah suatu tes hasil belajar yang dibakukan berlakuk untuk dipakai di kelas tertentu, hendaknya butir-butir pertanyaannya dinilai dalam kaitannya dengan isi dan tujuan pelajaran, yang ditekannkan dalam pengajaran.  Validitas isi bahan merupakan hal yang utama dalam tes hasil belajar dan penting pula untuk dimiliki dalam penilaian acauan patokan dan penilaian acuan norma.

2.   Validitas yang berkaiatan dengan kriterium
            Menurut Gronlund (1985) terdapat ada dua jenis validitas yang berhubungan dengan kriterium, yaitu: (1) berkaitan dengan penggunaan penampilan dalam tes untuk meramalkan penampilan dalam suatu pengukuran yang sudah dinilai, yang disebut kriterium, (2) berkaitan dengan penggunaan hasil tes penampilan untuk memperkirakan penampilan sekarang berdasarkan suatu kriterium. 
Gronlund (1985) lebih lanjut mengemukakan bahwa paling sedikit ada 3 alasan yang baik untuk menggunakan skor tes untuk mengira-ngira penampilan berkenaan dengan pengukuran yang lain yang sebenarnya dapat diperoleh pada waktu yang sama, yaitu: (1)  mungkin kita ingin meneliti hasilsuuatu tes yang baru saja disusun dengan membandingkannya dengan hasil suatu tes yang sudah ada, dan yang diketahui sudah valid; (2)  mungkin ada keinginan menggantikan pengukuran yang kompleks dan banyak memakan waktu dengan suatu prosedur yang lebih singkat dan sederhana, dan (3) mungkin kita ingin memastikan apakah suatu prosedur pengujian mempunyai potensi untuk dijadikan alat meramalkan.  Jika suatu tes misalnya tidak menghasilkan taksiran yang memuaskan untuk penampilan kini, maka tentu saja tes tersebut tidak dapat dipakai untuk meramalkan penampilan pada masa yang akan datang dengan ukuran yang sama.  Di pihak lain, taksiran yang memuaskan mengenai penampilan kini akan menunjukkan, bahwa tes itu mungkin berguna (walaupun kurang tepat) untuk meramalkan penampilan pada waktu yang akan datang  Unsur pokok dalam jenis validitas yang berkaitan dengan kriterim ini adalah derajat hubungan antara kedua alat ukur, yaitu skor tes dan kriterium yang akan diramalkan dan diperkiraan.   Hubungan tersebut umumnya dinyatakan dalam koefisien korelasi (r).  Koefisien korelasi ini bisa negatif atau positif, dengan rentang 0 sampai 1 untuk korelasi positif, atau 0 sampai -1 untuk korelasi negatif.  Angka nol menunjukan tidak ada korelasi sedangkan 1 korelasi positif sempurna dan -1 korelasi negatif sempurna.

B.  Reliabilitas
            Pengujian reliabilitas suatu tes itu adalah untuk melihat sejauh mana hasil tes tersebut dapat ‘dipercaya’ atau reliabel.  Menurut Arikunto (1986),  suatu tes dapat dikatakan mempunyai taraf kepercayaan yang tinggi jika tes tersebut dapat memberikan hasil yang tetap, jadi pengertian reliabilitas tes berhubungan dengan masalah ketetapan hasil tes.  Scarvia B. Anderson, sebagaimana dikutip Arikunto (1986) mengatakan bahwa persyaratan bagi tes yaitu validitas dan reliabilitas itu penting, di mana validitas lebih penting dan reliabilitas itu perlu, karena menyokong terbentuknya validitas.  Sebuah tes dapat saja reliabel tapi bisa saja tidak valid; sementara tes yang valid biasanya reliabel.           
            Arikunto (1986) mengelompokkan 3 hal yang dapat memberikan pengaruh terhadap reliabilitas, yaitu (1) hal yang berhubungan dengan tes itu sendiri (panjang tes dan kualitas butir-butir soalnya), (2) hal yang berhubungan dengan tercoba (testee), dan (3) hal yang berhubungan dengan penyelenggaraan tes.  Untuk hal pertama di atas, bila tes yang terdiri dari banyak butir, maka tentu saja dapat lebih valid dibanding dengan tes yang hanya terdiri dari beberapa butir soal.  Tinggi rendahnya validitas menunjukkan tinggi rendahnya reliabilitas tes.  Dengan demikian semakin panjang tes (semakin banyak butir) maka reliabilitasnya semakin tinggi.   Rumus Spearman dan Brown berikut dapat digunakan untuk menghitung besarnya reliabilitas berhubung dengan penambahan banyaknya butir soal:


        
            Contoh menghitung n (berapa kali butir-butir soal ditambah):  bila suatu tes awalnya terdiri dari 40 butir, kemudian ditambah 20 butir maka menjadi 60 butir.  60 butir ini sudah menjadi 1,5 kali dibanding banyaknya butir tes awal.  Dengan demikian n = 1,5.
            Untuk hal kedua, yang berkaitan dengan tercoba, bila tes dicobakan kepada  kelompok yang terdiri dari banyak siswa maka akan mencerminkan keragaman hasil yang menggambarkan besar kecilnya reliabilitas tes.  Tes yang diobakan kepada bukan kelompok terpilih, akan menunjukkan reliabilitas yang lebih besar dari pada yang dicobakan kepada kelompok tertentu yang diambil secara dipilih. Kemudian, untuk hal ketiga, adalah yang berhubungan dengan penyelenggaraan tes.  Petujuk mengerjakan soal, akan memberikan ketenangan bagi yang mengerjakan tes, demikian juga tidak akan menimbulkan banyak pertanyaan, sehingga ketenangan pelaksanaan dapat terjaga sehingga tidak menggangu hasil pelaksanaan tes.  Demikian juga pengawas yang tertib akan mempengaruhi hasil pelaksanaan tes (Arikunto (1986). 
            Dengan demikian, untuk memberikan dukungfan terhadap perolehan koefisien reliabilitas yang tinggi maka tiga hal tersebut perlu dijadikan acuan, yaitu (1) gunakan jumlah butir soal relatif banyak, (2)  gunakan kelompok sampel coba yang juga banyak, tanpa dipilih siapa saja anggota sampelnya, dan (3) dalam pelaksanaan tes, hindari berbagai hal/gangguan yang dapat berakibat mengganggu pemerolehan hasil tes yang sebenarnya.
            Gronlund (1985) mengemukakan bahwa reliabilitas menunjukkan konsistensi skor tes dari satu pengukuran kepada yang lain.    Reliabilitas skor tes secara umum dinyatakan dengan koefisien keterandalan atau standar kesalahan pengukuran.  Lebih lanjut Gronlund (1985) mengemukakan suatu koefisien keterandalan adalah juga koefisien korelasi, tetapi menunjukkan adanya korelasi antara dua perangkat hasil pengukuran yang dilaksanakan dengan prosedur yang sama.  Prosedur pengujian reliabilitas dapat saja dilakukan dengan: melaksanakan tes yang sama sebanyak dua kali kepada sekelompok murid dengan selang waktu tertentu antara pelaksanaan tes pertama dan kedua (metode tes – tes kembali), melaksanakan dua bentuk susunan tes yang setara dalam waktu yang berdekatan (tes – tes kembali dan bentuk yang sama), atau sekali saja melaksanakan tes dan kemudian menghitung konsistensi jawaban dalam tes (konsistensi internal).  Setiap metode untuk memperoleh koefisien keterandalan ini menghasilkan jenis informasi yang berlainan.  Dengan demikian koefisien keterandalan yang iperoleh dengan cara yang berbeda tidak dapat ditukar-tukar.
Berikut ini akan dijelaskan mengenai metode-metode yang digunakan untuk menentukan reliabilitas tes, dengan merujuk pada Gronlund (1985) dan Arikunto (1986).
Metode tes dan tes kembali (test-retest method).  Metode ini mengharuskan pelaksanaan bentuk tes yang sama kepada kelompok murid yang sama pula dengan jarak waktu tertentu.  Jarak waktu antara kedua pelaksanaan tersebut dapat saja beberapa hari atau beberapa tahun.  Lamanya jarak waktu  itu harus sesuai dengan jenis tafsiran yang akan dibuat tentang hasil tes itu.  Jika yang dikehendaki hanya penggunaan skor tes untuk mengelompokkan murid agar mereka belajar lebih efektif, jarak waktu pendek mungkin sudah cukup.  Sebaliknya bila yang diinginkan adalah meramalkan keberhasilan dalam pekerjaan atau membuat ramalan lain untuk jangka panjang, maka diperlukan bukti mengenai stabilitas selama beberapa tahun.  Berkaitan dengan jarak waktu pelaksanaan tes dan tes kembali ini, Gronlund mengemukakan bahwa koefisien reliabilitas tes dipengaruhi oleh kesalahan dalam prosedur pengukuran dan oleh stabilitas jawaban murid sehari-hari.  Semakin besar jarak waktu pelaksanaan antara tes dan tes kembali maka akan semakin rendah koefisien reliabilitas yang dihasilkan.  Sebab ituadalah penting untuk memperhitungkan jarak waktu kalau hendak melaporkan koefisien reliabilitas pada tes dan tes kembali. 
Arikunto mengemukakan bahwa untuk tes yang banyak mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang mengena karena tercoba akan masih ingat butir-butir soalnya.  Oleh karena itu tenggang waktu antara pemberian tes pertama dengan tes kedua menjadi permasalahan sendiri.  Jika jarak waktunya sempit peserta tes akan masih ingat tentang isi tes yang sudah dikerjakannya dulu.  Sebaliknya bila tenggang waktunya terlalu lama, maka peserta tes sudah berkesempatan memperoleh pengetahuan baru, sehingga dalam hal seperti itu sulit menyimpulkan bila tes kedua berbeda dengan hasil tes pertama sebagai suatu yang tidak konsisten, atau tidak stabil. 
Metode susunan bentuk yang setara (equivalent).  Melalui metode ini dua bentuk tes yang memiliki kesamaan tujuan (paralel) dikerjakan oleh satu kelompok pada waktu yang sama.  Jadi ada dua tes berbeda tapi paralel atau setara baik di segi tujuannya, tingkat kesukaran, dan susunannya.  Bentuk tes yang setara ini, disusun dalam bentuk mengukur kemampuan yang sama (dari tabel spesifikasi yang sama).  Namun, untuk menentukan taraf reliabilitas adalah penting untuk mengkostruksi kedua tes tersebut sendiri-sendiri.  Ini berarti koefisien reliabilitas yang tinggi akan menunjukkan kedua sampel yang berdiri sendiri itu adalah untuk mengukur aspek yang sama.  Sebaliknya koefisien reliabilitas yang rendah menunjukkan bahwa kedua bentuk tes tersebut mengukur tingkah laku yang berlainan dan karena iitu kedua sampel butir pertanyaannya dapat dapat disangsikan ketepatannya.
Metode konsistensi internal.  Metode ini hanya memerlukan satu pelaksanaan tes saja.  Dapat saja tes yang digunakan dengan metode belah dua (split-half).  Metode ini dapat dilakukan dengan memisahkan antara butir ganjil dengan butir genap kemudian butir-butir genap tersebut dikorelasikan dengan butir-butir ganjil, atau bisa juga pembelahan awal akhir.  Koefisien korelasi yang didasarkan atas butir pertanyaan nomor ganjil dan nomor genap menyatakan adanya hubungan antara kedua bagian tes, maka koefisien validitas seluruh tes ditentukan dengan menerapkan rumus Spearman-Brown.  Bentuk rumus tersebut adalah:



Penggunaan rumus tersebut membuat prinsip reliabilitas tes yang bermanfaat menjadi jelas.  Reliablilitas tes dapat diperbesar dengan memperpanjang susunan tes.  Rumus di atas menunjukkan bahwa betapa besarnya reliabilitas akan ditingkatkan jika panjangnya suatu tes dilipat-duakan.  Namun aplikasi rumus itu idasari anggapan bahwa penambahan panjangnya tes itu dilakukan dengan menambah butir pertanyaan seperti sudah ada di dalam tes.
Reliabilites tes pembelahan ganjil genap ini, juga bisa dicari dengan menggunakan rumus Flanagan, sebagai berikut:



            Selanjutnya rumus yang dapat digunakan untuk perhitungan reliabilitas tes pembelahan bawah-atas, dapat menggunakan rumus Rulon, sebagai berikut:



            Varians beda tersebut dapat dihasilkan dengan menggunakan rumus:




Perhitungan reliabilitas tes baik dengan ganjil genap maupun dengan pembelahan (awal – akhir) tentu saja butir harus genap. Kita tahu bahwa tidak selamanya jumlah butir tes itu genap.  Jadi bisa saja jumlahnya ganjil.  Untuk itu ada rumus lain bisa digunakan untuk menghitung reliabilitas, baik itu jumlah butirnya genap maupun.  Rumus tersebut dibuat oleh Kuder dan Richarson.  Ada dua rumus yang terkenal, diberi urutan 20 dan 21, dikenal rumus KR-20 dan KR-21.
Rumus KR-20 adalah:



Rumus KR-21. Ada tiga informasi yang dibutuhkan dalam rumus ini, Yaitu: (1) jumlah butir pertanyaan dalam suatu tes, (2) Rata-rata, dan (3)  Standar Deviasi (SD atau S).  Versi rumusan yang sudah KR-21, adalah:


                
Untuk butir soal uraian, perhitungan konsistensi internal ini dapat menggunakan rumus koefisiean alpha dari Cronbach (Fernandes, 1984).  Rumus tersebut digunakan apabila skor hasil belajar yang akan dihitung adalah berbentuk rentang skor.
            Rumus tersebut adalah:





C.  Analisis Butir Soal
            Setiap guru tentu saja dapat menyusun butir-butir soal untuk kepentingan melihat sejauh mana tujuan pembelajaran dicapai.  Namun pada saat butir-butir soal itu selesai dikerjakan,  kita belum  bisa mengatakan secara meyakinkan mengenai seberapa sulit atau mudah butir-butir soal tersebut.  Demikian juga apakah butir-butir soal tersebut memiliki ‘kemampuan’ untuk bisa memiliki daya beda yang memadai. Demikian juga bila butir soal itu adalah adalah pilihan ganda, juga perlu diketahui juga seberapa efektif setiap pilihan yang ada
            Untuk itu uraian berikut ini akan dijelaskan tentang langkah atau prosedur menentukan taraf kesulitan, analisis daya pembeda butir soal, dan efektivitas pilihan dalam soal pilihan ganda.  Uraian tentang ini akan merujuk pada Arikunto (1986), dan referensi lainnya.

1.  Taraf Kesukaran
            Menurut Arikunto (1986) soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sulit.  Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha memecahkannya.  Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi karena di luar jangkauannya. 
Tes yang baik nantinya bisa bersifat diskriminatif, artinya hasil tes tersebut mampu membedakan mana murid yang pintar dan bodoh.  Karena itu, menurut saya, dalam satu paket soal yang akan dikerjakan siswa, harus ada perimbangan yang proporsional antar soal mudah, sedang dan sulit, meskipun soal sedang proporsinya lebih besar.  Butir soal yang terlalu mudah atau sebaliknya terlalu sulit, maka otomatis tidak memiliki daya pembeda. Artinya tidak bisa membedakan mana murid pintar dan bodoh.
Arikunto (1986) mengemukakan bahwa bilangan yang menunjukkan sukar dan mudahnya sesuatu butir soal disebut ‘indeks kesukaran’ (difficulty index).  Rentang besaran indeks kesukaran ini adalah antara 0 sampai 1.  Angka 0 menunjukkan butir terlalu sulit dan 1 menunjukkan butir terlalu mudah. 
Rumus yang di gunakan untuk mengetahui taraf kesulitan butir soal adalah:




Rentang kesukaran butir soal diklasifikasikan sebagai berikut:
p   =   0,00  -  0,30  adalah butir sukar
p   =   0,30  -  0,70  adalah butir sedang
p   =   0,70  -  1,00  adalah butir mudah

1.       Daya Pembeda
Menurut Arikunto (1986)  yang dimaksud dengan daya pembeda soal adalah kemampuan suatu soal untuk membedakan antara siswa yang pandai (berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan rendah).  Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi (D).  Rentang daya pembeda ini mulai dari -1,00 (daya pembeda negatif), ke 0,00 (daya pembeda rendah), sampai 1,00 (daya pembeda tinggi).
Untuk menentukan daya pembeda ini maka peserta tes dikelompokkan menjadi 2 kelompok, yaitu kelompok atas (yang memperoleh skor tinggi) dan kelompok bawah (yang memperoleh skor rendah).  Cara pengelompokan ini, menurut Arikunto (1986) dapat dilakukan 2 cara berbeda dengan melihat banyaknya peserta tes.  Ada yang dikategorikan kelompok kecil, di mana peserta tesnya <100, dan ada kelompok besar di mana peserta tesnya > 100.  Untuk kelompok kecil semua peserta tesnya digunakan, dengan proporsi 50% kelompok atas, dan 50% kelompok bawah.  Sedangkan untuk kelompok besar, tidak semua peserta tes digunakan.  Yang hanya digunakan adalah 27% kelompok bawah dan 27% kelompok atas. 
Rumus yang digunakan adalah:



Rentang daya pembeda menurut Arikunto (1986) adalah:
D  =  0,00  - 0,20   =   jelek
D  =  0,20  - 0,40   =   cukup
D  =  0,40  - 0,70   =   baik
D  =  0,70  - 1,00   =   baik sekali
Bila D = negatif, maka butir soal tersebut tidak baik dan langsung dibuang saja.

3.   Efektivitas Pengecoh dalam Pilihan Ganda
            Dalam menulis soal pilihan ganda, tentu saja di samping tersedia pilihan jawaban benar, biasanya 1 jawaban benar (key), juga disediakan beberapa obsi jawaban salah sebagai pengecoh (distractor).  Pengecoh ini harus efektif, jangan sampai malah menggunakan pengecoh yang tidak mampu berfungsi sebagai pengecoh sehingga malah mengantarkan peserta untuk memilih jawaban benar yang tadinya tidak diketahu peserta tes.
Menurut Arikunto (1986), pengecoh yang baik apabila minimal dipilih oleh sekurang-kurangnya 5% dari peserta tes. 
(Ruddy Pakasi, 2014)

03 JENIS-JENIS ALAT EVALUASI

            Terdapat berbagai jenis instrumen yang dapat digunakan dalam kegiatan pembelajaran.  Dari berbagai ragam alat evaluasi tersebut, Arikunto (1986) menggolongkannya menjadi 2 bagian besar, yaitu “tes” dan “non-tes”.   Tes dan non tes ini juga disebutnya sebagai teknik evaluasi.  Yang termasuk dalam teknik non tes adalah:  skala bertingkat (rating scale), kuesioner (questionair), daftar cocok (check-list) wawancara (interview), pengamatan (observation), dan riwayat hidup.
A.  Non Tes 
Berikut ini diuraikan secara lebih detail tentang sebagian jenis-jenis instrumen yang termasuk dalam kategori “non tes”.
1.      Skala Bertingkat.
Menurut Arikunto (1986) skala menggambarkan suatu nilai berbentuk angka, jadi skala selalu disajikan dalam bentuk angka.  Skala sikap pada umumnya disajikan dalam bentuk bertingkat.  Contoh:  Sikap tentang menghargai karya seni
ß----------------------------------------------------à
                                                 1             2             3             4             5
Angka-angka tersebut dideretkan dari kiri ke kanan, dengan makna secara bertingkat.  Dari kecil/rendah  sampai ke yang tinggi secara bertingkat, yang merupakan representasi sikap responden mulai dari “sangat tidak suka” (diwakili angka 1) berturut-turut secara bertingkat sampai ke “sangat suka” (diwakili angka 5).
2.  Kuesioner
Menurut Arikunto (1986), kuesioner (questionair) atau angket, pada dasarnya adalah sebuah daftar pertanyaan yang harus diisi oleh orang yang akan diukur (responden).  Dengan kuesionner ini orang dapat diketahui tentang keadaan/data diri, pengalaman, pengetahuan, sikap, atau pendapatnya dan lain-lain.  Lebih lanjut, Arikunto (1986) mengemukakan bahwa macam kuesioner dapat dibedakan dari dua segi, yaitu:  ditinjau dari segi siapa yang menjawab, dan dari segi cara menjawab.
Dari segi siapa yang menjawab, maka terdapat:
·         Kuesioner langsung:  jika kuesioner tersebut dikirim dan diisi langsung oleh orang yang akan dimintai jawaban tentang dirinya tentang dirinya.
·         Kuesioner tidak langsung: jika kuesioner yang dikirimkan dan diisi oleh bukan orang yang diminta keterangannya. Kuesioner tidak langsung biasanya digunakan untuk mencari informasi tentang bawahan, anak, saudara, tetangga dan sebagainya.
Dari segi cara menjawab, maka terdapat:
·         Kuesioner tertutup:  Disusun dengan menyediakan pilihan jawaban lengkap sehingga pengisi hanya tinggal memberi tanda pada jawaban yang dipilih.
·         Kuesioner terbuka: Disusun sedemikian rupa sehingga para pengisi bebas mengemukakan pendapatnya.  Kuesioner terbuka disusun apabila macam jawaban pengisi belum terperinci dengan jelas sehingga jawabannya akan beraneka ragam.  Keterangan tentang alamat pengisi, tidak mungkin diberikan dengan cara memilih pilihan jawaban yang disediakan.  Kuesioner terbuka juga digunakan untuk meminta pendapat seseorang.  Contoh: Bagaimana pendapat anda terhadap komposisi dari lukisan Piccaso yang a boy with a pipe?
3.              Daftar Cocok
       Daftar cocok atau check list adalah deretan pernyataan, yang biasanya singkat, di mana responden yang dievaluasi hanya membubuhkan tanda centang di kotak atau tempat yang sudah disediakan (Arikunto, 1986).  
4.              Wawancara
Wawancara atau interview adalah suatu metode atau cara yang digunakan untuk mendapatkan jawaban dari tesponden dengan jalan tanya jawab sepihak (Arikunto, 1986).  Dalam wawancara, responden diberi kesempatan untuk menjawab pertanyaan-pertanyan yang diajukan pewawancara.  Dapat dikatakan bahwa dalam wawancara ini responden hampir sama sekali tidak diberi kesempatan untuk bertanya.  Menurut Arikunto (1986),  wawancara dapat dilakukan dengan 2 cara, yaitu (1) wawancara bebas, dan (2) wawancara terpimpin.  Dalam wawancara bebas, responden memiliki kebebasan untuk mengutarakan pendapatnya, artinya tanpa dibatasi patokan-patokan tertentu.  Dengan demikian pewawancara berkewajiban mempersiapkan situasi di mana responden bisa dengan bebas menyampaikan apa yang dirasakannya perlu untuk disampaikan.  Berbeda dengan wawancara bebas, dalam wawancara terpimpin pewawancara sudah mempersiapkan sedemikian rupa instrumen wawancara yang digunakan sehingga responden tinggal memilih opsi yang memang sudah disediakan sebelumnya oleh pewawancara.  Oleh karena itu menurut Arikunto (1986)  pertanyaan yang diajukan kadang-kadang bersifat sebagai yang memimpin, mengarahkan dan penjawab sudah dipimpin oleh sebuah daftar cocok, sehingga dalam menuliskan jawaban, ia tinggal membubuhkan tanda centang di tempat yang sesuai dengan keadaan responden.
5.              Observasi
       Observasi atau pengamatan adalah suatu teknik untuk memperoleh informasi di mana observer melakukan pengamatan pada suatu situasi tertentu, kemudian mencatat hal-hal yang dibutuhkannya. 
Menurut Arikunto (1986), terdapat 3 macam observasi, yaitu (1) observasi partisipan, (2) observasi sistematik, dan (3) observasi eksperimental.  Pada observasi partisipan, pengamat terlibat langsung dalam kegiatan yang diobservasi.  Dapat dikatakan bahwa terjadi situasi observer berperan serta.  Dengan pengamat berperan serta terhadap situasi yang diamati maka akan pengamat akan merasakan secara langsung tentang situasi yang diamati sehingga pada gilirannya dapat diperoleh informasi yang benar-benar sesuai dengan situasi yang diamati.  Yang dimaksud dengan observasi sistematik, faktor-faktor yang akan diamati sudah disiapkan atau didaftar secara sistematik terlebih dahulu sehinngga menjadi panduan bagi pengamat untuk mengamati apa-apa saja yang perlu diamati.  Sementara yang dimaksud dengan observasi eksperimental, pengamat bisa saja “mengendalikan” situasi yang diamatinya untuk mendapatkan informasi tentang situasi tertentu yang diharapkan dimunculkan.
Ketiga jenis observasi di atas, masing punya keunggulannya sendiri-sendiri. Kalau pada observasi partisipan, observer dapat empati sehingga dapat merasakan dengan jelas tentang situasi yang diamati, sementara pada observasi sistematik, fakta yang akan diamati terfokus dengan jelas sehingga kemungkinan tidak ada informasi yang tercecer, sedangkan pada observasi eksperimental, observer dapat memunculkan bisa saja tidak mampu diungkap oleh dua pengamatan sebelumnya.
B.  Tes
Tes merupakan suatu alat pengumpul informasi tetapi jika dibandingkan dengan alat-alat yang lain, tes ini bersifat lebih resmi karena penuh dengan batasan-batasan (Arikunto, 1986).  Dilihat dari segi kegunaan tes untuk mengukur siswa,  maka tes dibedakan atas 3 macam tes, yaitu: (1) tes diagnostik, (2) tes formatif, dan (3) tes sumatif.   Tes diagnostik, ibarat kerja seorang dokter, pasen terlebih dahulu diperiksa atau didiagnosa untuk mencari tahu jenis penyakitnya sehingga dokter dapat menentukan jenis terapi yang sesuai dengan karakteristik jenis penyakit pasen.  Demikian juga seorang guru bila berhadapan dengan murid yang mengalamai permasalahan belajar, seorang guru perlu melakukan ‘diagnosa’ sehingga ia dapat menentukan treatment yang sesuai untuk mengatasi permasalahan belajar yang dialami muridnya. Dalam memperoleh informasi tentang masalah yang dialami muridnya, itu dapat dilakukan dengan pemberian tes.  Jadi bila tes yang diberikan untuk kepentingan memperoleh informasi tentang keadaan/permasalahan siswa kemudian guru melakukan tindakan perbaikan untuk kepentingan mengatasi permasalahan belajar yang dialami muridnya, maka tes tadi yang digunakan dapat kita sebut sebagai tes diagnostik.  Hal ini sesuai dengan apa yang dikemukakan oleh Arikunto (1986) bahwa tes diagnostik adalah tes yang digunakan untuk mengetahui kelemahan-kelemahan siswa sehingga berdasarkan kelemahan-kelemahan tersebut dapat dilakukan pemberian perlakuan yang tepat.
            Tes formatif dan sumatif merupakan tes yang perlu diberikan oleh dalam kegiatam pembelajaran yang dilakukannya. Dalam situs http://wahyumaulita.wordpress.com/2010/04/17/tugas (diakses 17 Januari 2013) mengemukakan bahwa kedua tes tersebut memiliki fungsinya masing-masing.  Dalam blog tersebut (mengutip pendapat Thoha) disebutkan bahwa Tes formatif (formative test) juga disebut sebagai tes pembinaan, yakni tes yang diselenggarakan pada saat berlangsungnya proses belajar mengajar, diselenggarakan secara periodik, isinya mencakup semua unit pengajaran yang telah diajarkan. Tes formatif juga diartikan sebagai evaluasi yang dilakukan pada setiap akhir pembahasan suatu pokok bahasan/ topik, dan dimaksudkan untuk mengetahui sejauh manakah suatu proses pembelajaran telah berjalan sebagaimana yang direncanakan. Pada dasarnya tes formatif dilaksanakan di tengah berlangsungnya proses pembelajaran.  Mengapa demikian, karena melalui hasil tes formatif tersebut guru mendapatkan umpan balik tentang proses pembelajaran yang sedang dilaksanakan sehingga atas dasar umpan balik tersebut guru dapat melakukan perubahan-perubahan tertentu yang dikehendaki.  Tes formatif ini juga dimaksudkan untuk mengetahui pencapaian tujuan pembelajaran khusus yang sudah disiapkan sebelumnya. Dari hasil evaluasi ini akan diperoleh gambaran siapa saja yang telah berhasil dan siapa yang dianggap belum berhasil untuk selanjutnya diambil tindakan-tindakan yang tepat. Tindak lanjut dari evaluasi ini adalah bagi para siswa yang belum berhasil maka akan diberikan remedial, yaitu bantuan khusus yang diberikan kepada siswa yang mengalami kesulitan memahami suatu pokok bahasan tertentu. Sementara bagi siswa yang telah berhasil akan melanjutkan pada topik berikutnya, bahkan bagi mereka yang memiliki kemampuan yang lebih akan diberikan pengayaan, yaitu materi tambahan yang sifatnya perluasan dan pendalaman dari topik yang telah dibahas.
            Sementara tes sumatif fungsinya adalah untuk melihat prestasi belajar akhir siswa setelah mengikuti seluruh rangkaian proses pembelajaran.  Dari hasil tes sumatif ini dapat menentukan posisi seorang dibanding dengan kelompok siswa keseluruhan.  Demikian juga melalui tes ini dapat dilihat sejauh mana trujuan pembelajaran secara keseluruhan telah tercapai.
Menurut Arikunto (1986), tes formatif dapat memberikan manfaat bagi murid, guru, maupun program.  Bagi murid, melalui tes formatif ini murid dapat mengetahui apakah ia telah menguasai bahan program secara menyeluruh; dan dapat juga merupakan penguatan baginya setelah dia mengetahui bahwa tes yang diikutinya telah menghasilkan skor yang memuaskan.  Demikian juga mengetahui hasil tes formatif tersebut siswa dapat mengetahui kelemahannya sehingga pada gilirannya ia akan dapat menyadari apa saja perlu diperbaikinya.  Sementara, bagi guru, dengan mngetahui hasil tes formatif, maka guru akan dapat memperoleh manfaat untuk apakah perlu mengganti atau tetap mempertahankan strategi mengajarnya.  Demikian juga guru dapat mengetahui bagian-bagian pembelajaran mana yang masih membutuhkan pengulangan atau penjelasan yang lebih mendalam.
Selanjutnya, Arikunto (1986) mengemukakan bahwa hasil tes sumatif dapat memberikan manfaat dalam menentukan nilai perolehan siswa, dengan nilai capaian ini dapat diketahui kedudukan seorang murid di dalam kelompok kelasnya.  Dengan demikian guru dapat melakukan tindakan-tindakan tertentu berdasarkan informasi posisi murid dalam kelas.
Rusli (1988) menjelaskan bahwa terdapat berbagai jenis tes, tergantung dari sudut mana dipandangnya.  Menurutnya, bila dilihat dari segi ciri apa yang diukur maka tes dapat digolongkan atas (1) tes prestasi (achievement test), (2) tes kemampuan (aptitude test), dan tes kepribadian (personality test).
Selanjutnya Rusli (1988) mengemukakan bahwa tes prestasi berisi butir, pertanyaan, tugas, dan sebagainya  yang mencoba untuk menentukan apa yang diketahui atau apa yang dapat dilakukan oleh seseorang.  Biasanya tes tersebut adalah untuk mengukur keterampilan dan pengetahuan yang diperoleh seseorang waktu mempelajari mata pelajaran atau mata kuliah.  Tes ini berusaha agar responden menunjukkan unjuk kerja mereka yang terbaik. 
Selanjutnya, tes kemampuan.  Isi tes ini menurut Rusli (1988) sama dengan isi tes prestasi, akan tetapi diberikan dengan tujuan untuk dapat menarik kesimpulan tentang apakah responden tes akan dapat melaksaanakan tugasnya dikemudian hari.  Tes yang dipakai untuk mengukur prestasi siswa dalam beberapa mata pelajaran, menjadi tes kemampuan bila dipakai untuk meramalkan apakah siswa itu dapat mengikuti pelajaran di perguruan tinggi kelak.  Tes kemampuan yang banyak dipakai adalah the Scholastic Aptiude Test yang berisi butir-butir mengenai kemampuan verbal maupun kemampuan ilmu pasti.  Jadi, dapat dikatakan bahwa bentuk atau tes prestasi dan tes kemampuan itu sama saja,  nanti dibedakan saat memanfaatkan kedua jenis tersebut. 
Tes kepribadian.  Rusli (1988) mengemukakan bahwa tes kepribadian dimaksudkan mengobservasi aspek afektif dan aspek non intelektual dari tingkah laku.  Tes ini berusaha menampilkan respons khas dari responden.  Terdapat bermacam-macam bentuk tes kepribadian.  Ada yang dilaksanakan untuk mengharapkan respons yang bersifat informasi atau yang menyatakan fakta, dan ada tes bersifat open-ended yang mengharuskan pemakai tes menyempurnakan kalimat, bercerita berdasarkan gambar, dan sebagainya. Kemudian ada juga tes yang disebut proyektif, seperti tes noda tinta Rorschach, yang stimulusnya tidak mempunyai bentuk yang jelas, tapi responden ditugaskan untuk menggambarkannya dalam bentuk yang nyata.  Tes lainnya adalam dalam bentuk daftar cek kata sifat, di mana responden memberi centang pada kata sifat atau ungkapan yang mmenyatakan sifat yang menggambarkan dirinya sendiri. (Ruddy Pakasi)


02 TUJUAN DAN MANFAAT EVALUASI
DALAM PEMBELAJARAN

          Kegiatan melakukan evaluasi, termasuk di dalamnya menyusun instrumen tes, melakukan pengukuran terhadap respon tes yang diberikan, sudah merupakan tugas yang biasa dikerjakan oleh setiap guru atau pendidik.  Melalui kegiatan dalam evaluasi ini, seorang guru bisa mendapatkan informasi tentang kondisi muridnya, sehingga guru dapat menentukan tindakan-tindakan apa yang perlu diberikan kepada siswanya.
            Kelihatannya kegiatan evaluasi hasil belajar ini, siswa adalah yang dianggap berkepentingan.  Memang benar bahwa hasil evaluasi ini siswalah yang mendapatkan ‘akibatnya’ nyata.  Padahal, kegiatan evaluasi, sebenarnya bukan cuma untuk kepentingan menilai siswa, tapi juga untuk kepentingan guru yang mengajar.   Karena bagaimanapun juga hasil evaluasi yang diberikan guru merupakan gambaran juga tentang keberhasilan dari proses pembelajaran yang dilakukan oleh guru itu sendiri.  Demikian juga secara lebih luas, bagi kepentingan institusi sekolah di mana pihak pimpinan sekolah sedikitnya akan menerapkan kebijakan-kebijakan tertentu sehubungan dengan informasi capaian hasil belajar yang diperoleh siswanya.  Dengan demikian melalui informasi karakteristik hasil belajar siswanya, sekolah juga dapat menyadari atau mendapatkan gambaran mengenai posisi kualifikasi yang dimilikinya dibanding misalnya dengan sekolah lain.
            Arikunto (1986) dan Suryanto (2009) mengemukakan bahwa hasil dari penilaian hasil belajar bukan saja memberikan makna kepada siswa tapi juga guru, sekolah itu sendiri, dan atentu saja orang tua siswa.  Berikut ini akan diuraikan makna penilaian menurut Arikunto (1986), dan Suryanto (2009) yaitu makna bagi siswa, makna bagi guru, makna bagi sekolah, dan makna bagi orang tua:
Makna bagi siswa.  Dengan mengetahui hasil dari penilaian  yang diberikan gurunya, baik itu melalui ulangan harian maupun nilai semester, maka siswa dapat mengetahui juga tentang sejauh mana ia telah mengikuti atau menguasai pelajaran yang disampaikan gurunya sehingga dengan demikian memberikan efek dan akibat bagi siswa itu sendiri, yaitu (1)  memuaskan, bila siswa memperoleh skor hasil yang tinggi maka biasanya siswa akan merasa senang.  Rasa gembira ini tentu saja membuat siswa ingin agar pada kesempatan lain ia dapat memperoleh hasil yang juga memuaskan.  Kondisi ini dapat merupakan motivasi bagi siswa tersebut untuk melakukan tindakan positif dengan lebih giat dalam  belajar, supaya dikesempatan berikut dia akan menikmati kesenangan lagi saat mendapatkan nilai yang tinggi.  Namun demikian bisa saja terjadi keadaan yang sebaliknya atau yang memberikan efek yang berbeda.  Karena siswa sudah merasa puas dengan perolehan skor hasil belajar yang tinggi, sehingga menjadi kurang tekun dalam belajar di kesempatan berikutnya.  (2) tidak memuaskan. Bila siswa mengetahui bahwa hasil yang diperoleh kurang memuaskan, maka mungkin saja siswa akan termotivasi untuk lebih giat, dan lebih gigih untuk belajar agar pada kesempatan lain hasil yang kurang memuaskan ini dapat berubah menjadi hasil yang memuaskan.  Kondisi sebaliknya juga bisa terjadi bilamana siswa mengetahui bahwa hasil belajar yang dicapainya itu kurang memuaskan mungkin saja akan berakibat siswa tersebut kecewa dan kurang bersemangat lagi untuk belajar.
Makna bagi guru.  Ada tiga maka hasil penelitian bagi guru, sebagaimana yang dikemukakan Arikunto, yaitu:  (1)  Dengan mengetahui hasil penilaian terhadap prestasi belajar siswa guru akan juga mengetahui siswa mana yang telah dan sudah berhak melanjutkan ke pelajaran lainnya, demikian juga guru siswa mana saja yang perlu diberikan bimbingan khusus tambahan karena hasil belajarnya masih kurang, (2) Dengan hasil penlilaian ini guru juga akan mengetahui ketepatan materi ajar yang disampaikannya, dan (3)  Guru juga akan mengetahui apakah metode pembelajaran yang digunakannya sudah tepat atau belum.
Makna bagi Sekolah.  Hasil penilaian dapat juga memberikan makna bagi sekolah, dalam bentuk: (1)  Hasil penilaian yang diberikan guru-guru dapat menunjukkan apakah kondisi belajar yang diciptakan sekolah sudah atau belum sesuai dengan harapan.  Hasil belajar siswa ini mencerminkan juga kualitas suatu sekolah.  (2)  Informasi dari guru tentang tepat tidaknyakurikulum untuk sekolah itu  dapat merupakan bahan pertimbangan bagi perencanaan sekolah untuk masa-masa yang akan datang.  (3)  Demikian juga  hasil penilaian ini dari tahun ke tahun dapat digunakan sebagai pedoman untuk melakukan hal-hal yang diperlukan untuk memenuhi standar tertentu.  Pemenuhan standar akan terlihat dari bagusnya angka-angka yang diperoleh siswa.

Makna bagi Orang tua siswa.  Terntu saja orang sangat berkepentingan dengan mengetahu hasil belajar anaknya.  Sebagian besar orang tua mempercayakan pendidikan anaknya pada guru atau institusi sekolah.  Apalagi karena kesibukan bekerja, orang yang tidak mungkin bisa mengawasi sepanjang hari aktivitas belajar anaknya.  Waktu belajar anak di sekolah Cuma sekitar 6 – 7 jam sehari.  Waktu terbanyak anak justru berada di luar sekolah, bisa di rumah atau di luar rumah.  Hasil ulangan, tes akhir semester, atau bahkan tes akhir tahun ajaran, sangat bermanfaat bagi orang tua untuk mengetahui perkembangan prestasi belajar anaknya.  Jika hasil tes tersebut memuaskan maka orang tua dapat memberikan motivasi kepada anaknya agar bisa mempertahankan bahkan meningkatkan apa yang sudah dicapainya.  Bila sebaliknya, nilai hasil belajar anaknya kurang memuaskan maka orang tua dapat memberikan ekstra perhatian kepada anaknya.  Mungkin saja orang tua akan memutuskan untuk memberikan pelajaran tambahan, les misalnya, untuk mata pelajaran yang dianggap perlu ditingkatkan.  
(Ruddy Pakasi, 2014)