Kamis, 02 April 2009

EQUATING dan DIF (Tulisan Pertama)

PEMBAHASAN MENGENAI EQUATING (PENYETARAAN)
DAN DIFFERENTIAL ITEM FUNCTIONING (DIF)
Oleh : Rakhmad Mulyana, S.Ag
Mahasiswa Magister Psikometri Universitas Indonesia Angk. 2007/2008


A. Pendahuluan

Pendidikan adalah usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar peserta didik secara aktif mengembangkan potensi dirinya untuk memilki kekuatan spritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta ketrampilan yang diperlukan dirinya, masyarakat, bangsa dan negara. (Bab 1 Pasal 1 UU No.20 Tahun 2003, Sistem Pendidikan Nasional). Selanjutnya dijelaskan pula bahwa Evaluasi pendidikan adalah kegiatan pengendalian, penjaminan, dan penetapan mutu pendidikan terhadap berbagai komponen pendidikan setiap jalur, jenjang, dan jenis pendidikan sebagai bentuk pertanggung jawaban penyelenggaraan pendidikan.

Dalam PP No 19 Tahun 2005 tentang Standar Nasional Pendidikan, tepatnya pada bab 1 pasal 1 point ke-20 dinyatakan bahwa Ujian adalah kegiatan yang dilakukan untuk mengukur pencapaian kompetensi peserta didik sebagai pengakuan prestasi belajar dan atau penyelesaian dari suatu satuan pendidikan. Kemudian, pada bab 10 pasal 63 disebutkan standar penilaian pendidikan yang diklasifikasikan kepada 3 kriteria, yaitu (1) penilaian hasil belajar oleh pendidik, (2) penialaian hasil belajar oleh satuan pendidikan, dan (3) penilaian hasil belajar oleh pemerintah. Khusus pada kriteria ketiga, dalam PP ini dijelaskan secara lebih spesifik lagi dalam pasal 66 butir 1 dinyatakan bahwa; penilaian hasil belajar sebagaimana dimaksud dalam pasal 63 ayat 1 butir c bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional pada mata pelajaran tertentu dalam kelompok mata pelajaran ilmu pengetahuan tehnologi dan dilakukan dalam bentuk Ujian Nasional (UN).

Berpedoman pada penjelasan di atas, maka dapat disimpulkan bahwa Ujian Nasional (UN) merupakan salah satu instrumen dalam sistem pendidikan di Indonesia guna mengukur kompetensi siswa, keberhasilan guru mengajar dan dijadikan standar mutu kelulusan (quality control). Harapan lain dari pelaksanaan UN adalah agar pelajar dan pembelajar serta pengelola pendidikan dapat meningkatkan kinerja dan kualitasnya. Sebagai alat ukur tentunya dikatakan baik apabila tes tersebut mampu meberikan hasil yang cermat, akurat dan berkualitas. Hal tersebut diperlukan supaya hasil tes yang dihasilkan benar-benar objektif dan dapat dipercaya.


Polemik yang berkembang di masyarakat bahwa Ujian Nasional dijabarkan secara berbeda untuk setiap daerah di Indonesia. Perbedaan ini terlihat dari adanya Paket UN yang diberikan disetiap provinsi terdiri dari dua paket, kecuali di wilayah DKI Jakarta yang mendapatkan empat paket. Karena dalam tiap propinsi terdiri dari dua paket dari kisi-kisi yang sama, seharusnya kualitas terutama tingkat kesukaran paket tersebut sama atau setara. Pengunaan beberapa paket soal ini dengan maksud agar pelaksanaan ujian nasional tidak terjadi kebocoran (security and fairness). Paket-paket soal yang digunakan secara empiris disetarakan skornya dengan menggunakan metode Test Score Equating. Penyetaraan skor adalah suatu prosedur empiris yang diperlukan untuk mentransformasi skor suatu perangkat tes ke skor perangkat tes yang lain. Karena merupakan prosedur empiris maka penyetaraan skor didasarkan pada data skor tes (Weiss, 1983).
Membuat soal yang setara dalam dua buah paket atau lebih, tentunya tidak mudah atau bahkan tidak mungkin, karena pasti ada perbedaannya. Hal itu terbukti dengan empat paket yang dipakai dalam UN 2007 di DKI Jakarta, masing-masing memiliki tingkat kesukaran yang berbeda (Widiatmo, 2007). Hal tersebut disebabkan karena hampir tidak mungkin menyusun multi paket tes yang benar-benar parallel (Petersen, Kolen, & Hoover, 1989). Meskipun penyusun tes menggunakan spesifikasi tes yang sama dalam menulis item-itemnya dan hanya merobah angka, tidak ada jaminan bahwa tingkat kesukaran item-item tersebut akan sama (Kolen, 1984). Apalagi kalau yang berbeda adalah kata kunci dan isi dari pilihan jawaban.

Menurut Angoff (1971) dan Kolen (1988) seperti yang dikutip dalam Hambleton (1991), metode Equating ini dibagikan kepada 2 kategori; yaitu (1) Equipercentile equating, dan (2) Linear Equating.

Kategori pertama ini merupakan penyempurnaan skor dengan melakukan perbandingan antara skor tes X dan Y menjadi ekuivalen apabila urutan persen rangking masing-masing group adalah sama. Selanjutnya untuk penyetaraan skor dalam 2 tes yang berbeda, maka kedua tes tesebut harus diberikan pada kelompok examinee yang sama. Selanjutnya pada kategori kedua, diasumsikan bahwa skor x pada test X dan skor y pada test Y mempunyai hubungan yang searah/segaris (linearly related).

Proses penyetaraan dari beberapa perangkat tes (equating) dapat dilakukan dengan dua cara, yaitu penyetaraan secara horizontal dan penyetaraan secara vertikal. Proses penyetaraan yang diperoleh dari dua perangkat tes yang berbeda tetapi mengukur hal yang sama dinamakan penyetaraan horizontal. Adapun proses penyetaraan dari dua kelompok peserta tes yang berbeda dalam jenjang/tingkat pendidikannya, namun diberi perangkat soal yang sama dinamakan penyetaraan vertikal (Crocker & Algina, 1986). Pada dasarnya equating bertujuan untuk menyetarakan skor dengan cara membandingkan skor yang diperoleh dari mengerjakan perangkat tes yang satu dengan skor yang diperoleh dari mengerjakan perangkat tes lainnya yang dilakukan melalui proses penyetaraan sekor pada kedua perangkat tes tersebut (Hambleton & Swaminthan, 1990).

Menurut Zhu (1998), skor-skor pada tes A dan tes B dapat disetarakan jika memenuhi empat syarat:

  1. Mengukur kemampuan atau karakteristik yang sama. Sehingga tes-tes yang disusun dari kisi-kisi yang berbeda tidak dapat disetarakan.
  2. Setelah equating, distribusi frekuensi skor pada tes A harus sama seperti distribusi frekuensi skor pada tes B, sehingga skor pada tes A dan tes B dapat saling dipertukarkan setelah equating.
  3. Equating tes harus bebas dari data atau pekerjaan peserta tes dalam proses equating, dan konversi yang berasal dari equating harus berlaku bagi semua situasi yang serupa.
  4. Transformasinya harus sama tanpa memperhatikan tes mana yang digunakan sebagai dasar atau referensi konversi, artinya interpretasi skor harus sama baik equating dari tes A ke tes B atau dari tes B ke tes A.

Dalam buku Fundamental of Item Response Theory (Hambleton et al, 1991) Lord (1980) mengemukakan gagasan atau ide equating dalam beberapa implikasi, diantaranya;

  • Pengukuran tes dengan sifat yang berbeda tidak dapat di setarakan atau diequating.
  • Skor mentah pada tes yang konsisten tidak sama, tidak dapat diproses equating.
  • Skor mentah pada tes dengan kesukaran yang bervariasi tidak dapat disetarakan karena tes tidak akan konsisten sama pada tingkat kesukaran yang sama.
  • Fallible (kekeliruan/kesalahan) Skor pada tes atau paket Y dan X tidak dapat disetarakan kecuali jika kedua test tersebut benar-benar paralel.
  • Tes yang sempurna reliabilitasnya dapat dilakukan equating
Penyetaraan dilakukan dengan cara mengkonversikan satu paket ke paket yang lain, dari paket yang mengukur kemampuan yang sama. Penyetaraan perangkat tes merupakan pembuatan sejumlah keputusan dari skor yang diperoleh dari sebuah paket untuk disesuaikan ke bentuk yang berbeda tingkat kesukarannya. Jika ada paket X lebih sukar dari paket Y, maka penyetaraan paket X ke Y menghasilkan nilai paket X lebih tinggi atau berharga jika disetarakan ke paket Y (Crocker dan Algina, 1986).

Ada tiga dasar dalam merancang data untuk diambil atau dianalisis dengan equating (Crocker dan algina, 1986), (Yi, Kim dan Brennan, 2007), yaitu;

  1. Design data yang dikumpulkan dari dua kelompok atau group yang di tes paket berbeda dengan kisi-kisi sama, dimana pembagian kedua paket tersebut secara acak atau random.
  2. Untuk proses penyetaraan, salah satu kelompok tes diberikan paket A setelah itu di tes kembali dengan paket B, dan satu kelompok lagi diberikan dulu paket B kemudian mengerjakan kembali paket A.
  3. Perbedaan intrumen tes yang diberikan kepada peserta ujian yang berbeda pula. Namun dalam kedua paket tersebut terdapat cammon item atau anchor test yang diberikan kepada seluruh peserta tes. Anchor itulah yang dijadikan patokan untuk melakukan equating. Peserta tes dalam hal ini tidak perlu dibagi secara acak atau random walaupun pembagian dengan random juga tidak akan mempengaruhi moel ini. (Crocker dan Algina, 1986).

Ilustrasi dari ketiga rancangan equating dari uraian di atas, dapat dilihat seperti yang tampak pada tabel berikut ini;

(Tabel diadopsi dari Crocker dan Algina, 1986)

a adalah group 1 yang diberi paket X selanjutnya diberi paket Y
b adalah group 1 yang diberi paket 1 dan terdapat anchor (paket Z)

Dengan demikian dapat dikatakan bahwa equating merupakan prosedur yang dilakukan secara empiris untuk membandingkan skor dari paket tes yang satu dengan paket tes yang lain. Dengan proses equating yang benar, maka memungkinkan konversi secara langsung hasil-hasil ujian peserta tes yang mengambil paket yang berbeda. Tujuan dari equating adalah menyetarakan skor dari A ke B atau dari B ke A pada kisi-kisi yang sama, karena dua paket tersebut tidak dapat langsung dibandingkan jika belum di setarakan. Penyetaraan tersebut dilakuka melalui rumus transpormasi.

Sebagai ilustrasi dalam review ini, penulis mencoba mengemukakan proses equating antara paket 12 dan 45 UN Matematika SMA tahun 2007 di Provinsi Jawa Barat. Penyetaraan dilakukan bila tingkat kesukaran kedua paket tersebut berbeda.

Instrumen tes adalah paket 12 dan paket 45. Masing-masing paket berjumlah 30 item, bentuk pilihan ganda dengan lima buah anternatif jawaban. Responden adalah siswa SMA yang mengikuti UN 2007 di Provinsi Jawa Barat berjumlah 2029 orang tiap paket, diambil secara acak dari data Pusat Penilaian Pendidikan Departemen Pendidikan Nasional. Tingkat kesukaran soal diolah dengan sofware ITEMAN dan BIGSTEP, lalu dilakukan Equating menggunakan metode linear equating random groups design.

Adapun prosedur pelaksanaan equating secara linear equating random groups design melalui persamaan seperti yang dikemukakan oleh Croker dan Algina (1986) yaitu;


Dari analisis secara klasikal tes teori dengan program ITEMAN, maka diperoleh informasi statistik terhadap kedua Paket UN Matematika yaitu Paket 12 dan Paket 45 tahun 2007 di Provinsi Jawa Barat, maka dapat disimpulkan dalam ilustrasi berikut:


Hasil penelitian menunjukkan bahwa persamaan linear equating dari dua perangkat UN Matematika 2007 di Provinsi Jawa Barat adalah:

Adapun rekapitulasi hasil equating Paket 45 (X) kepada Paket 12 (Y) maka diperoleh hasil seperti dalam tabel berikut:

Adapun bentuk grafik / kurva liniear equating dari hasil perhitungan di atas adalah sebagai berikut:



Dari gambar di atas, dipelihatkan bahwa garis hasil linear equating paket 45 terhadap paket patokan 12 sama nilai-nilai rata-ratanya, hal itulah memang yang menjadi dasar pada rumus linear equating. Namun hasil linear equating bagi skor yang rendah berada dibawah nilai patokan, sementara skor yang lebih tinggi akan berada diatas nilai patokan hal itu disebabkan karena proses equating dilakukan dari paket yang sukar kepada paket yang mudah. Bila proses equating tersebut dari paket mudah kepaket yang sukar maka garis linear hasil penyetaraan akan sebaliknya

Adapun kebalikan dari proses equating di atas adalah menempatkan kondisi analisis statistik ITEMAN paket 12 sebagai X (proses equating) dan paket 45 (Y) sebagai skor patokan.





Adapun rekapitulasi hasil equating Paket 12 (X) kepada Paket 45 (Y) maka diperoleh hasil seperti dalam tabel berikut:

Adapun bentuk grafik / kurva liniear equating dari hasil perhitungan Paket 12 (proses equating) dan Paket 45 sebagai patokan di atas dapat dipresentasikan dalam grafik berikut:

Kedua grafik equating di atas memperlihatkan pebedaan hasil equating dari dua paket, dimana paket paket 12 sebagai patokan pada gambar grafik equating 1 dan gambaran paket 45 sebagai patokan pada gambar grafik equating 2 dibandingkan dengan hasil equatingnya. Oleh karena itu, rata-rata paket 12 dan paket 45 yang semula berbeda, maka terlihat akan sama setelah kedua paket tersebut diproses dengan melakukan linear equating, sehingga rata-rata paket 45 akan sama dengan rata-rata paket 12.

Berdasarkan kedua persamaan penyetaraan linier tersebut tergambar bahwa kedua paket UN Matematika SMA tahun 2007 di Provinsi Jawa Barat memiliki tingkat kesukaran yang berbeda. Paket 45 lebih sukar dibandingkan paket 12. Maka, persamaan linear equating yang terbaik terhadap skor akhir yang tidak merugikan peserta UN adalah penyetaraan dari paket sukar ke paket mudah dengan persamaan Y* = 1,142X – 1,954.

Jika paket 12 dan paket 45 tidak setara dalam artian bahwa paket tes tersebut tidak mencerminkan alat ukur yang benar-benar reliabel, padahal ia diberikan di satu sekolah atau antar sekolah dalam satu propinsi, maka hasil akhir dari UN tersebut akan terjadi kesenjangan. Siswa dengan kemampuan tinggi yang mendapatkan paket sukar akan dirugikan dengan hasil tes tersebut, sedangkan yang mendapat paket mudah tentunya akan diuntungkan. Dengan demikian hasil dari ujian tersebut tidak mencerminkan prestasi siswa yang sebenarnya dalam satu provinsi karena bebedanya paket-paket yang diujikan. Selain itu dalam menafsirkan hasil pengukuran, dari beberapa paket UN sering diperlakukan sama, padahal tingkat kesukaran berbeda. Hal demikian dapat dikatakan bahwa pengukuran tersebut menyimpang dari teori pengukuran yang seharusnya reliabel untuk satu populasi yang sama.

Berdasarkan uraian di atas seharusnya kedua paket tersebut dilakukan penyetaraan hasil skornya, dan itulah yang perlu dilakukan hasil ujian pada perangkat tes soal UN Matematika SMA tahun 2007 antara paket 12 dan paket 45. Bila paket yang diberikan berbeda padahal mengukur kontrak yang sama dan dari kisi-kisi yang sama, tidak adil jika hasil tes tidak disetarakan kecuali ada konversi sebelumnya yang telah dirancang dan disiapkan untuk menyesuaikan dengan perbedaan paket dan perbedaan tingkat kesukarannya.

>>>>>>>>>>>>>>>>>>>>>>()()())()()()<<<<<<<<<<<<<<<<<<

DAFTAR PUSTAKA

Ahmad Arif Makruf, (2007), Bias Jenis Kelamin Soal-soal Olimpiade Sains Nasional Bidang Biologi SLTP 2007 pada Seleksi tingkat Provinsi. Tugas Akhir, Psikometri – Universitas Indonesia.

Angoff, W.H. (1971). Norms, scales, and equivalent score.. In R.L. Thorndike (Ed). Educational measurement (2d Ed.). Wasington, D.C.: American Council on Education

Azwar, Saifuddin. (1986). Dasar-dasar Psikometri. Yogyakarta : Pustaka Pelajar

Bastari, Ph.D, (2008), Materi Kuliah Semester III, Teori Test 2, Psikometri, Fakultas Psikologi, Universitas Indonesia, Depok.

Budiyono, (2005). Perbandingan Metode Mantel-Haenszel, SIBTEST, Regresi Logistik, dan Perbedaan Peluang dalam Mendeteksi Keberbedaan Fungsi Butir. Yogyakarta: UNY (disertasi)

Crocker, L & Algina, J. (1986). Introduction to Classical & Modern Test Theory. Forth Worth: Holt, Rinehart, and Winston, Inc

Hambleton, R.K, Swaminathan, H, & Rogers, h.J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: Sage Publications

Kolen, M. J., & Brennan, R. L. (2004). Test equating, scaling, and linking: Methods and practices. New York: Springer

Khalis Aliyuddin, (2007), Equating Skor Matematika Ujian Nasional SMA di Provinsi Jawa Barat Tahun 2007, Tugas Akhir, Psikometri – Universitas Indonesia.

Linn, R.L., (1989). Educational mesurement. New York. Macmillan Publishing campany

Naga, Dali.S., 1992. Pengantar Teori Sekor Pada Pengukuran. Jakarta: Gunadarma.

Petersen, N.S., Kolen,M.J., & Hoover,H.D. (1989). Scaling, Norming, and Equating. In R.L. Linn (ed), Educational Measurement. New York: Macmillan

Surapranata, S. (2006). Analisis validitas, Reliabilitas, dan Interpretasi Hasil Tes. Implementasi Kurikulum 2004. Bandung. Remaja Rosdakarya

Zhu. W. (1998). Teas Equating: What, Why, How?. Research Quarterly for Exercis and Sport. Wayne State University.

2 komentar:

  1. nyan ka meuhi aneuk psikometri. ka bereh. nyono info baro tlg buka bak blog lon :
    www.abumasturablog.blogspot.com

    BalasHapus