Conference Report: International Association for Computerized Adaptive Testing Conference 2022


The 8th IACAT conference was hosted by Goethe University in Frankfurt, Germany. It was an excellent experience to see how people from 29 countries conducted research on CAT and shared their findings at the conference. It is not an exaggeration to state that the 2022 IACAT conference was the best I have ever attended. And it was an honour to participate and present my paper at this conference.

On the first day of the conference, there was a pre-conference workshop. I joined one of the workshops about “Developing Online Adaptive Tests Using Open-Source Concerto Platform”. I learnt a lot, and it’s beneficial for my own study. In the afternoon, after the pre-conference workshop, the conference officially started. Three big names opened the conference: Prof. Dr. Sonja Rohrmann (Dean of the Faculty of Psychology), Dr. Alina A. von Davier (IACAT president), and Dr. Andreas Frey (conference chair). After the opening, there was a keynote speech from Dr. Anthony Zara from Pearson VUE, the new IACAT president. The session continued with a parallel paper presentation. At the end of the first day, there was a welcome dinner where all participants met and talked to each other. It was a good opportunity to interact with many big names of researchers and practitioners in the CAT field.

The second day was the same as the first, with more paper presentations. I really enjoyed the paper presentations because I got much insight into my study from the presenters. There were two keynote lectures on the second day from Wim J. van der Linden (the developer of the Math Garden test) and Ying Cheng (Department of Psychology, University of Notre Dame, USA).

The third day was the best part of this conference because I had my presentation. I presented my paper entitled “The Effect of Computerized Adaptive Testing on Motivation and Anxiety: A Systematic Review and Meta-Analysis”. I did not expect that there would be many audiences in my session. The room was full of people. Our theme was “test-taking experience”, slightly different from the other “technical” papers. The best part of this presentation was that the chair of our session was the author who inspired me a lot (Dr. Steven Wise). I cited many of his papers in my works. And after my presentation, I got a lot of positive feedback as well as new connections.

Overall, I am grateful for such an opportunity to attend the conference. This year’s IACAT conference showcased various perspectives concerning psychological testing and related research methodology. The pre-conference workshop, keynote lectures, and paper presentations at this conference greatly helped my thesis. In addition, I find a lot of new colleagues, and it is possible for us to collaborate in the future.

Biaya Hidup di Hungaria (Update Bulan Juli 2022)

Selain komponen pendanaan, biasanya informasi yang paling ditanyakan calon pendaftar beasiswa Hungaria adalah berapa biaya hidup rata-rata per bulan di Hungaria? Apakah uang beasiswa yang diterima cukup untuk biaya hidup di sana? Apakah memungkinkan untuk kerja part time sambil kuliah? Tulisan ini mencoba memberikan gambaran atas pertanyaan tersebut.

Biaya hidup di Hungaria sebenarnya relatif lebih murah dibanding biaya hidup di negara lain di Eropa. Biaya hidup ini juga tergantung dari kota dimana kita tinggal. Ada beberapa kota besar yang sering dijadikan tujuan studi mahasiswa, misalnya Budapest, Pesc, Szeged, Debrecen, Miskolc, Gyor, dan Sopron. Tiap kota tentu berbeda-beda, dan yang paling mahal tentu saja di Budapest. Nah berhubung saya tinggalnya di Budapest, jadi tulisan ini akan menjelaskan biaya hidup standar di Kota Budapest. Untuk kota lain tentu lebih murah, terutama untuk hal akomodasi. Di tulisan ini saya akan menggunakan mata uang Forint karena nilai tukar Forint (HUF) ke Rupiah (IDR) sudah jauh berbeda, Tahun 2020 ketika saya datang ke sini, 1 Forint setara 50 Rupiah, sedangkan sekarang 1 Forint setara 37 Rupiah. Jadi kalau ibaratnya dulu uang beasiswa PhD kalau dikonversi ke Rupiah dapat 9 juta, sekarang hanya 6,8 juta.

Makanan

Untuk makanan, saya coba list harga rata-rata makanan yang sering saya beli

Beras: 500 HUF/kgAyam paha: 1300 HUF/kgMinyak goreng: 650 HUF/liter
Pasta: 800 HUF/kgDaging sapi: 4500 HUF/kgMie instan: 200 HUF/biji
Susu: 250 HUF/literKentang: 500 HUF/kgIndomie goreng: 200 HUF/biji
Roti tawar: 500 HUFBawang Bombay: 400 HUF/kgSamyang: 450 HUF/biji
Telur: 650 HUF/10 bijiBawang putih: 1800 HUF/kgPotato chip: 3000 HUF/kg
Nugget: 1000 HUF/500 grApel: 600 HUF/kg Gula: 250 HUF/kg
Ayam dada: 1500 HUF/kgJeruk: Rp. 800 HUF/kg Garam: 250 HUF/kg
Ayam sayap: Rp. 1200 HUF/kgSayur beku: Rp. 1000 HUF/kg Kopi hitam:1000 HUF/250 gr
Harga makanan di Budapest

Untuk makanan mentah sendiri harganya tidak terlalu berbeda jauh dengan di Indonesia sebenarnya. Hanya saja, kalau makanan beli di luar harganya jauh lebih mahal. Sebagai gambaran, untuk makan di kafe atau kinai (masakan china) rata-rata habis sekitar 2000 HUF (75 ribu IDR). Untuk ngopi di kafe sekitar 600 HUF (23 ribu IDR), tapi kalau ngopi di vending machine rata-rata sekitar 300 HUF (12 Ribu IDR). Untuk harga makanan pokok di kota lain saya rasa tidak jauh berbeda dengan di Budapest, hanya kalau untuk makan di kafe mungkin sedikit murah.

Akomodasi

Ini yang paling membedakan Budapest dengan kota besar lainnya. Akomodasi di Budapest jauh lebih mahal. Kalau tinggal di dormitory, bagi penerima beasiswa sih gratis. Tapi sayangnya dengan kondisi sekarang, dormitory selalu penuh dan tidak semua mahasiswa kebagian tempat. Kalau mau tinggal di luar dormitory, ada beberapa opsi. Kalau mau sewa flat private (misal karena ingin bawa keluarga), sewa per bulan rata-rata 140.000 HUF/bulan (5,3 Juta IDR), itu belum termasuk bill listrik dan gas. Kalau ditotal ya rata-rata 170.000 HUF/bulan (6,5 Juta IDR) lah untuk sewa flat yang bisa ditinggali keluarga kecil (anak satu). Ini yang bikin shock, di Malang harga segitu sudah sewa rumah setahun tuh. Kalau mau sewa kamar saja (sharing flat), pengeluaran total sekitar 90.000 HUF/bulan (3,4 Juta IDR).

Sebagai informasi, sebagai penerima beasiswa, kalau kita memutuskan tinggal di luar dormitory, Stipendium Hungaricum memberikan subsidi akomodasi sebesar 40.000 HUF/bulan (1,5 Juta IDR). Jadi bisa dihitung sendiri, berapa uang yang harus ditambahkan agar cukup untuk tinggal di luar dormitory. Ini lah yang sering menjadi penghalang mahasiswa untuk membawa keluarganya ikut mendampingi kuliah di Hungaria. Kalau harus tinggal di luar dormitory, harganya mahal sekali dan uang beasiswa saja tidak akan cukup.

Transportasi

Untuk pelajar, kita bisa beli tiket transportasi bulanan seharga 3500 HUF/bulan (134 Ribu IDR). Tiket ini bisa digunakan untuk moda transportasi apapun, baik dengan metro, bus, tram, trolley bus, atau kereta selama masih di wilayah Budapest. Kalau bukan student, harganya tiket bulanannya jauh lebih mahal, yaitu 9500 HUF/bulan (364 Ribu IDR).

Pulsa

Untuk pulsa saya sih jarang beli paket yang banyak, karena sudah ada wifi di flat. Saya biasanya membeli paket yang 1 GB seharga 1000 HUF/bulan (38 Ribu IDR), atau kalau dirasa akan banyak keluar-keluar, saya paketkan yang 3GB seharga 2250 HUF/bulan (86 Ribu IDR). Tapi tenang, di luar di tempat umum juga banyak wifi gratis kok. Masih sangat terjangkau lah

Nah itu tadi hitungan kasar pengeluaran per bulan untuk tinggal di Budapest. Berdasarkan pengalaman saya satu tahun terakhir, pengeluaran total saya jika tinggal di flat bersama istri dan satu anak balita rata-rata 315.000 HUF/bulan (12 Juta IDR), dengan error estimasi sekitar + 30.000 HUF (1.2 Juta IDR).

Apakah uang beasiswa dari Stipendium Hungaricum cukup?

Bagi saya pribadi tidak cukup. Uang beasiswa yang saya terima sebulan secara total adalah 180.000 HUF, sementara pengeluaran total per bulan sekitar 315.000 HUF. Jadi ada selisih kekurangan 135.000 HUF (5,2 Juta IDR) yang harus dipenuhi. Bagaimana saya memenuhinya? Saat ini saya masih terima gaji pokok dari UMM karena status saya tugas belajar. Saya juga masih mengerjakan beberapa project jarak jauh dari Indonesia. Jadi pemasukan ini cukup untuk memenuhi kebutuhan pokok kami di sini.

Untuk kasus mahasiswa PhD yang tinggal sendiri, saya rasa uang beasiswa ini cukup, apalagi jika tinggal di dormitory kampus. Tapi ini tergantung dengan gaya hidupnya. Bagi yang master pun kalau tinggal di dormitory masih cukup, dengan catatan hidup sangat pas-pasan (bisa dibilang tidak layak). Tapi jika tinggal di luar dormitory, apalagi di kota Budapest, bisa dipastikan uang beasiswa hanya cukup untuk sewa tempat tinggal saja. Masalahnya, kapasitas dormitory biasanya terbatas, dan kampus akan memprioritaskan mahasiswa baru yang boleh tinggal di dormitory. Jadi kalau pahit-pahitnya kita ga dapat kuota dormitory dan harus cabut, ya harus pikir otak supaya biaya akomodasinya cukup.

Nah bagi mahasiswa yang mau membawa keluarga bagaimana? Sayangnya keluarga tidak ditanggung oleh Stipendium Hungaricum, jadi harus pandai-pandai mengatur uang. Bagi mahasiswa master, dengan berat hati saya mengatakan mustahil untuk bisa membawa keluarga. Kecuali kalian punya pekerjaan sampingan yang gajinya di atas 10 juta Rupiah. Bagi mahasiswa PhD sebenarnya masih mungkin, tapi dengan syarat, kalian punya pemasukan lain selain dari uang beasiswa kalau mau aman. Kalau hanya mengandalkan uang beasiswa rasanya tidak akan cukup. Uang beasiswa total yang diterima (plus subsidi akomodasi) itu sekitar 180.00 HUF/bulan (6,8 Juta IDR), sementara pengeluaran total kalau mau realistis ya sekitar 315.000 HUF/bulan (12 Juta IDR) untuk konsumsi, akomodasi, transportasi, pulsa, asuransi, dll. Makanya mahasiswa PhD yang mengajak keluarga, biasanya punya pekerjaan di Indonesia (kebanyakan dosen), dan mereka masih menerima gaji karena statusnya tugas belajar. Dengan begitu mereka bisa mencukupi kebutuhan hidup tinggal di Hungaria Bersama keluarga. Tapi untuk tahun ke 3 dan 4 (kalau lulus complex exam), uang beasiswa untuk PhD naik kok, totalnya jadi 220.000 HUF juta/bulan (8,4 Juta IDR). Alternatifnya, ya kerja part-time. Di Budapest, cukup banyak tawaran kerja part-time. Hanya saja di kota-kota lain, kesempatan part-time tidak sebanyak di Budapest.

Jadi kalau dibilang beasiswa ini minimalis, ya ada benarnya, apalagi dengan kondisi ekonomi saat ini. Hungaria ini merupakan salah satu negara yang sangat terdampak ekonominya akibat perang Ukraina-Rusia. Tapi bagi saya beasiswa ini cukup lah, toh tujuan saya ke sini bukan mencari uang, tapi mencari ilmu dan gelar PhD. Bagi teman-teman yang mau menambah pengalaman dan pemasukan juga bisa kerja part time di sini. Bayarannya juga lumayan, bisa lah dapat 100.000 HUF (3,7 Juta IDR) per bulan. Tapi ya harus pinter bagi waktu dan tenaga karena kuliah saja sudah capek. Masalahnya orang Hungaria tidak semua bisa berbahasa Inggris, jadi akan jadi tantangan juga sih kerja part time di sini kalau masih belum bisa bahasa Hungaria dasar.  

Simak juga penjelasannya di Youtube saya di https://www.youtube.com/watch?v=Lwp3g2PLpC8





Melihat Motivasi Partisipan Riset Berdasarkan Response Time

Hal aneh yang selalu saya jumpai ketika nguji skripsi adalah, pada bagian keterbatasan penelitian, mahasiswa sering menuliskan “pengambilan data dilakukan secara online, sehingga memungkinkan terjadinya bias”. Sayangnya, itu jadi semacam template buat pelengkap bagian diskusi saja. Udah tahu mungkin terjadi bias, tapi ga ada tuh mahasiswa yang melakukan screening, apakah data mereka benar-benar berkualitas untuk dianalisis. Tapi apakah benar, kalau data yang diambil dengan survey online itu kualitasnya lebih jelek? Jawaban diplomatisnya, belum tentu, tapi jawaban singkatnya, iya. Orang berpartisipasi dalam survey online itu alasannya macem-macem, bisa karena membantu teman, karena mengincar hadiahnya, karena disuruh dosen, karena tertarik dengan isu penelitiannya, atau sekedar iseng aja. Secara umum, survey ini kebanyakan anonim, dan tidak berpengaruh pada nasib responden (low-stakes), jadi ya wajar saja kalau responden kehilangan motivasi untuk menyelesaikan survey. Kadang meskipun awalnya udah semangat, tiba-tiba motivasinya turun karena tahu pertanyaannya banyak banget. Bagi partisipan sih ga masalah, tapi bagi peneliti, datanya jadi “kotor” dan validitas hasil penelitiannya jadi diragukan. Trus solusinya apa?

Ya datanya dicek dulu sebelum dianalisis. Metode untuk ngecek ada macem-macem, mulai dari yang sederhana, sampai yang menggunakan analisis statistik kompleks. Yang paling sederhana misalnya dicek, apakah item dijawab konsisten. Kalau semua item dijawab “setuju” semua, tanpa melihat apakah item itu favorable atau unfavorbale, ya udah jelas dia ngerjainnya asal-asalan. Bisa juga pertanyaan survey disisipi “bogus item”, itu lho item yang jawabannya udah jelas. Misal “Saya memakai baju yang sama setiap hari”. Kan ga mungkin dijawan “setuju”. Kalau ada responden menjawab setuju, nah udah pasti ga baca itemnya tuh dia. Kalau mau pakai cara yang lebih sulit, kasih aja pertanyaan di akhir, “apakah Anda mengerjakan survey ini dengan sungguh-sungguh?”, atau bisa juga pakai person-fit statistics punya Rasch kalau mau terlihat lebih keren.

Cara-cara tadi punya kelebihan dan kelemahan masing-masing. Tapi secara umum, cara-cara tadi hanya bisa melihat motivasi partisipan secara global selama sesi survey berlangsung. Padahal motivasi mengisi survey itu kan fluktuatif ya. Ada yang awalnya serius, tapi lama-kelamaan jadi ngasal. Berhubung platform pengambilan data sekarang juga udah canggih, kita bisa pakai indikator “response time” partisipan untuk melihat motivasi mereka dalam mengerjakan survey. Asumsinya gini, partisipan yang menjawab item terlalu cepet (di bawah waktu yang wajar untuk mereka bisa membaca pertanyaan) diidentifikasi sebagai respon yang asal. Google form yang paling populer di kalangan mahasiswa sayangnya belum bisa merekam response time partisipan, dia cuma merekam waktu pengerjaan secara keseluruhan aja. Tapi platform gratisan lain, seperti Psytoolkit bisa kok dipakai untuk merekan response time tiap orang saat menjawab tiap item.

Nah beberapa waktu lalu, saya melakukan data collection studi eksperimental untuk mengetahui pola motivasi kalau orang dikasih tes kognitif dan non-kognitif secara bersamaan. Tes kognitif ini misalnya tes IQ, intinya perlu mikir lah buat ngerjainnya. Sedangkan tes non-kognitif ini ga butuh usaha lebih buat menjawabnya. Saya manipulasi urutan penyajian tes. Partisipan dirandom (oleh Psytoolkit), ada yang dapat tes kognitif dulu, ada yang dapet tes non-kognitif dulu. Banyak partisipan yang gugur di tengah jalan, dan kebanyakan yang gugur adalah yang mengerjakan tes kognitif dulu. Saya bandingkan motivasi mereka di dua kondisi ini. Ternyata motivasi mereka saat menjawab tes kognitif sama saja, tapi motivasi menjawab tes non-kognitifnya berbeda. Orang yang dikasih tes kognitif lebih dulu memiliki motivasi yang lebih rendah dibanding yang dikasih tes non-kognitif dulu. Oiya, ngukur motivasinya ini pakai ukuran yang namanya Response Time Effort (RTE). RTE dihitung berdasar seberapa sering partisipan menjawab “terlalu cepat”. Semakin banyak dia menjawab “terlalu cepat”, semakin rendah skor RTE nya. Dengan RTE ini kita juga bisa lihat tuh pola motivasi tiap partisipan.

Saya lalu coba lihat apakah karakteristik item dan skala berpengaruh terhadap motivasi mereka. Iya, item yang disajikan di awal cenderung dijawab dengan sunggung-sungguh dibanding item yang disajikan di akhir. Item yang terlalu sulit cenderung dijawab asal-asalah dibanding item yang mudah. Item dengan format pilihan ganda juga cenderung dijawab asal-asalan dibanding soal berbentuk isian singkat. Pada tes non-kognitif, semakin panjang skala, semakin orang ngasal juga ngisinya. Jadi, secara praktis, kalau mau orang mengerjakan surveymu dengan sungguh-sungguh, ya pakai item yang ga terlalu sulit dan jangan banyak-banyak. Dan kalau kamu mengadministrasikan dua tes (kognitif dan non-kognitif), sajikan dulu yang non-kognitif. Tentu nanti kalau nulis paper, ga sesederhana ini sih saya nulisnya. Tapi ini menunjukkan kalau tes berbasis computer (online ataupun offline), meskipun banyak yang skeptis, ternyata juga punya fitur yang bermanfaat untuk mendeteksi pola perilaku mereka.

Oiya, response time ini pada tataran yang lebih advance ga cuma bisa mendeteksi motivasi, tapi juga kecurangan. Response time yang “ga wajar” bisa jadi mengindikasikan kecurangan. Selain jadi isu metodologis, response time juga digunakan untuk mengukur karakter seseorang lho. Prinsipnya seperti ngerjain tes Pauli atau Kraeplin gitu, karena dengan response time kita bisa tahu fluktuasi naik-turunnya motivasi seseorang, kita juga bisa tahu kan karakter mereka. Ada orang yang motivasinya stabil dari awal sampai akhir. Ada juga yang awalnya aja semangat, lama-lama jadi asal-asalan ngisinya. Jadi ibaratnya kita bisa mengetahui karakter seseorang hanya dari cara mereka berpartisipasi dalam survey.

Toleransi dalam ber-Psikometrika

Source: https://doi.org/10.7275/v2gd-4441

Kalau ada yang bilang bahwa orang yang beragama itu cenderung tidak toleran, sedangkan saintis lebih toleran, sebenarnya tidak juga. Prinsip dasar dalam sains memang tidak ada satu kebenaran yang mutlak, keberanan ini relatif seiring berkembangnya ilmu dan ditemukannya bukti yang baru. Ini mungkin yang membedakan sains dengan agama. Tapi kalau sudah menyangkut individunya, nyatanya banyak juga kok ilmuwan yang suka “mengkafir-kafirkan” keilmuan lain yang bertentangan dengannya.

Di dunia pengukuran hal-hal abstrak (sebut saja Psikometrika) yang banyak digunakan di Psikologi dan Pendidikan, ternyata juga memiliki beragam agama. Ada agama teori tes klasik (CTT) dan agama teori tes modern. Teori tes modern sendiri, meskipun memiliki Tuhan yang sama, ternyata juga terpecah dalam dua agama yang berbeda, Item Response Theory (IRT) dan Rasch model. Ketiga agama ini memiliki keyakinan akan keberannya masing-masing, dan tidak jarang pengukutnya sering memposting di medsos menjelek-jelekkan agama yang lain. Untungnya UU ITE tidak mengcover hal ini. Sama seperti agama sesungguhnya, ketiga agama ini juga pasti memiliki kesamaan yakni mereka bertujuan untuk mengukur hal-hal yang tak kasat mata, seperti kecerdasan, kepribadian, dll. Mereka hanya memiliki cara dan keyakinan yang berbeda dalam beribadah.

Agama CTT mungkin adalah agama yang paling sederhana dalam cara beribadahnya. Mereka membuat segala perhitungan untuk mengukur hal-hal yang abtrak tadi sesederhana mungkin, sehingga mudah diterima oleh orang awam. Perhitungannya sesederhana gini, kalau kamu dites dengan 10 soal, dan kamu menjawab betul 7 soal, maka skormu ya 7, atau level penguasaanmu 70%, ga peduli soal yang kamu kerjakan itu mudah atau sulit. Jadi kalau Ali dan Badu dites kemampuan matematikanya dengan 10 soal yang berbeda, selama 10 soal itu mengukur hal yang sama (kemampuan matematika) dan selama jawaban betulnya sama-sama 7, ya level kemampuan matematika mereka dianggap sama. Kalau mau menghitung tingkat kesulitan soal juga mudah saja, tinggal dilihat aja proporsi penjawab betul soal tersebut. Jadi kalau ada soal dijawab oleh 10 orang, dan hanya 2 orang yang menjawab betul, ya artinya tingkat kesulitan soalnya 0,2. Eh, 0,2 ini artinya soal ini sulit lho ya. Jadi bingung deh, ini tingkat kesulitan atau tingkat kemudahan sih. Tapi ya gitulah.

Pengikut agama teori tes modern ga terima dengan hal itu. Kalau Ali dan Badu ini mendapat soal yang tingkat kesulitannya berbeda, ya ga adil dong mengatakan kemampuan mereka sama. Misal, Badu dapet 10 soal yang sulit dan Ali dapet 10 soal yang mudah, trus keduanya sama-sama betul 7, masak kemampuan Badu disamakan dengan kemampuan Ali. Ga adil lah. Ada tiga keyakinan utama dalam agama Rasch yang membedakannya dengan CTT. Pertama, mereka mengasumsikan konstruk yang diukur ini berdistribusi normal (bukan data yang dianalisis lho ya). Kedua, pengukuran harus “test-free” dan “sample-free”. Artinya gini, tes ini sulit atau mudah, bukan ditentukan oleh siapa yang mengerjakan; begitu juga sebaliknya, orang ini mampu atau tidak, bukan ditentukan oleh seberapa sulit tes yang disajikan. Kan ada tuh, tes yang sama, tapi kalau disajikan ke orang-orang pintar jadi terlihat mudah (proporsi betulnya tinggi), sementara kalau disajikan ke orang-orang bodoh jadi terlihat sulit (proporsi betulnya rendah). Lha kan bingung, ini sebenarnya teh soal mudah atau sulit sih. Atau kayak kasus Ali dan Badu tadi, kan level kemampuan mereka ditentukan dari kesulitan soal yang disajikan yak. Nah, Rasch pakai transformasi logit buat mengatasi masalah ini, jadi datanya memiliki interval yang sama antara tingkat kesulitan butir dan kemampuan individu. Ketiga, Rasch percaya kalau pengukuran objektif bisa dilakukan jika tes unidimensi dan fit dengan model Rasch. Jadi kalau dari perspektif Rasch, tes yang baik itu ya tes yang fit dengan model ideal. Makanya di Rasch proses uji kecocokan model menjadi prosedur yang sangat penting dilakukan. Sebagai informasi, Rasch ini hanya menggunakan satu parameter, yakni tingkat kesulitan butir (parameter b). Sering juga disebut IRT 1PL, meskipun pengikut Rasch ga mau disamakan dengan mereka. Mereka menghendaki daya diskriminasi item (parameter a) diset menjadi 1, dan tebakan semu (parameter c) diset menjadi 0. Kalau ada soal yang punya parameter a dan c jauh dari 1 dan 0, ya artinya dia ga sesuai model Rasch, buang aja, bikin ngga objektif aja.        

Sebagian orang yang termakan iklan Rasch banyak yang akhirnya kecewa setelah tahu hasil pengukuran Rasch ternyata ga jauh beda dengan CTT. Mereka mengkorelasikan hasil pengukuran CTT dan Rasch dan menjumpai korelasinya suuaangat tinggi, di atas 0,9. Artinya, ya sami mawooon. Ngapain aku capek-capek murtad dari CTT dan mempelajari agama Rasch, kalau akhirnya sama aja. Nah pengikut agama IRT mulai masuk di sini. Meskipun secara prinsip mereka memiliki banyak kesamaan dengan Rasch, mereka mulai menawarkan ajaran-ajaran mereka yang berbeda dari Rasch dan CTT. Mereka memperkenalkan parameter baru, yakni paremeter a, c, dan bahkan d. Semakin banyak parameter yang dipakai, maka korelasi dengan skor hasil CTT biasanya semakin rendah, bisa di bawah 0,8. Dan mereka akan bilang, “nah kan, beda jauh kan dengan CTT. Ini nih yang benar”. Mereka ga setuju dengan Rasch yang mengatakan item harus memiliki parameter a = 1, dan parameter c = 0. Item harus diberi kebebasan, kita sebagai peneliti hanya memfasilitasi item-item saja. Jadi kalau di Rasch, kalau item ga cocok dengan model, ya jangan dipakai item itu. Kalau di IRT enggak, kalau item ga cocok dengan model, coba cari model lain yang bisa menjelaskan item itu, mau model 2PL, 3PL, atau bahkan 4PL. Makanya banyak yang bilang, Rasch itu model preskriptif, sedangkan IRT model deskriptif.

Nah itulah awal mula perpecahan agama Rasch dan IRT. Mereka memiliki Tuhan yang sama dan satu musuh yang sama (CTT), tapi mereka ternyata ga bisa rukun juga. Rasch berpendapat, kalau daya diskriminasi item diijinkan bervariasi, jadinya pengukuran jadi tidak objektif lagi. Sebaliknya, pengikut IRT berargumen kalau memaksa item memiliki daya diskriminasi yang sama itu mustahil dan tidak patut dilakukan. Mereka lebih setuju untuk membuat model prediktif yang mampu mengakomodasi perbedaan daya diskriminasi item dan mempertimbangkannya dalam mengukur kemampuan individu. Di level komunitas ilmuwan, mereka juga memiliki basis nya masing-masing. Saya pernah mengikuti konferensinya para pengikut Rasch, Pacific Rim Objective Measurement Symposium (PROMS), dan benar, ujaran-ujaran kebencian terhadap CTT dan IRT tak jarang saya dengar di acara itu. Mereka juga mendiskriminasi presenter yang melakukan analisisnya pakai IRT dengan membuat sesi sendiri di hari yang lain (tapi mereka masih baik hati sih mau menerima IRT). Dan ketika saya pindah ke Eropa, mayoritas orang sini lebih familiar dengan IRT, termasuk supervisor saya. Sering juga menjumpai reviewer jurnal atau penguji skripsi/tesis/disertasi yang memaksakan keyakinan mereka atas artikel yang sedang mereka nilai. Inilah kenapa saya pikir di Psikologi, bidang kajian metodologi itu yang paling menantang, karena banyak keyakinan-keyakinan pribadi dari individu (soal metode mana yang paling benar) yang turut berperan di situ.

Saya sih mengidentifikasi diri saya sebagai ateis atau bahkan politeis dalam aliran agama pengukuran ini. Saya hanya pemakai, dan mendukung ketiga agama ini untuk tujuan-tujuan tertentu. Kalau ngajar mahasiswa S1 atau untuk riset yang tidak berkaitan dengan metodologi, ya saya jadi pengikutnya CTT. Kalau untuk riset metodologi ya saya cenderung pakai Rasch, lebih karena alasan praktis aja sih. Tapi kalau di suruh pakai IRT juga oke. Selow aja sih. Tapi yang perlu disadari, intoleransi dalam ber-Psikometri itu nyata, ga hanya dalam beragama saja. Ilmuwan juga bisa bersikap fanatik terhadap kebenaran yang mereka yakini. Kalau di Psikometri solusinya sih ya dipelajari tuh aliran lainnya. Dengan dipelajari kita jadi tahu tuh mengapa pengikut aliran tersebut menganggap itu yang paling benar, jadi ga perlu lah kita “mengkafir-kafirkan” pengikut aliran lain. Kalau intoleransi di agama betulan, solusinya? Yo Ndak Tahu, Kok Tanya Saya.

Note: Kalau mau belajar perbedaan CTT, IRT, dan Rasch yang serius tapi “relatif” ringan, artikel ini sangat recommended: https://doi.org/10.7275/v2gd-4441

Tentang Riset PhD Saya: Pengembangan Computerized Adaptive Testing untuk Kemampuan Kognitif

Sekilas tentang Computerized Adaptive Testing

Karena banyak yang bertanya tentang riset saya, di tulisan ini saya akan bercerita sedikit tentang riset yang sedang saya kerjakan untuk studi doktoral saya. Siapa tahu bisa menambah wawasan atau membuka peluang kerja sama dengan teman-teman semua.

Secara sederhana, riset saya berfokus untuk mengembangkan tes kognitif dengan mode Computerized Adaptive Testing (CAT). Spesifiknya, saya ingin membuat tes non-verbal untuk mengukur fluid reasoning (penalaran fluid). Kalau teman-teman sudah familiar dengan tes Raven’s Standard Progressive Matrices (SPM) atau Culture Fair Intelligence Test (CFIT), tes inteligensi yang bisa disajikan secara klasikal dan dapat digunakan untuk mengetahui kemampuan kognitif individu secara umum, nah project riset saya kurang lebih akan membuat tes serupa, tapi dengan mode CAT.

Kenapa hanya mengukur fluid reasoning? Mengapa tidak membuat tes komprehensif yang bisa mengukur banyak kemampuan?

Pinginnya juga mau buat tes yang bisa melihat banyak kemampuan, tapi bikin tes semacam itu butuh waktu, biaya, dan tenaga yang buuaanyak. Sebagai gambaran, AJT CogTest, tes kemampuan kognitif yang mengukur 8 broad abilities yang dikembangkan oleh UGM bersama YDB, butuh waktu 5 tahun untuk membuatnya. Itupun dikerjakan banyak orang dengan dana ratusan juta. Lha aku lho, cuma mahasiswa PhD yang ga punya duit dengan tim terbatas. Nah berhubung dari berbagai riset diketahui kalau fluid reasoning itu ibaratnya inti dari kemampuan kognitif, makanya kalau dibutuhkan satu tes untuk menggambarkan kemampuan kognitif seseorang, maka tes fluid reasoning adalah yang paling tepat.

Kan udah punya CFIT dan SPM? Kenapa bikin yang baru lagi?

Pertama, emang kita punya izin buat pakai CFIT dan SPM? Emang selama ini kita makainya legal?

Kedua, seandainya iya, emangnya CFIT dan SPM masih valid? Maksud saya, coba deh cari di Google dengan keyword “soal CFIT” atau “soal SPM”, kalau kalian teliti, pasti ketemu deh tuh soalnya. Nah kalau tes ini dipakai buat seleksi pegawai misalnya, yakin hasil tes tersebut benar-benar menggambarkan kemampuan kognitif kandidat?

Ketiga, kedua tes tersebut hanya mengukur satu narrow abilities dari fluid reasoning, yakni induction (penalaran induktif). Padahal ada tiga narrow abilities dari fluid reasoning, yakni induction, general sequential reasoning (penalaran deduktif), dan quantitative reasoning (penalaran kuantitatif). Jadi ya tetap butuh tes baru yang bisa mengukur fluid reasoning secara komprehensif.

Keempat, belum ada tes CAT yang bisa diakses oleh publik. Selama ini yang pakai CAT hanya perusahaan yang punya duit banyak aja, dan tentu saja aksesnya terbatas. Masalahnya, karena tes buat peneliti ini terbatas, makanya penelitian tentang kemampuan kognitif / inteligensi di Indonesia ini juga ga berkembang. Coba deh cek ada berapa artikel yang meneliti kemampuan kognitif / inteligensi dari Indonesia, dikit banget. Oiya, btw CAT di sini beda dengan CAT yang dipakai di CPNS lho ya.

Lho, bedanya CAT ini dengan yang dipakai CPNS apa?

Kalau yang dipakai CPNS itu Computer Assisted Tes, kalau ini Computer Adaptive Test. Yang buat CPNS itu sebenarnya sama aja dengan tes konvensional yang pakai kertas dan pensil, tapi skoringnya bisa langsung dikerjakan computer, jadi lebih efisien. Kalau CAT yang saya buat ini adalah “adaptive test”, jadi ga cuma tes biasa yang dipindah ke computer, tapi juga penyajian soalnya pun beda. Pemilihan soal itu sifatnya adaptif terhadap kemampuan peserta. CAT ini mengaplikasikan teori modern dalam Psikometri, yakni Item Response Theory (IRT), jadi sebelum tes sesungguhnya, item perlu diujicobakan dan dikalibrasi, sehingga tiap item udah punya parameter tingkat kesulitannya. Peserta hanya disajikan soal yang sesuai dengan kemampuannya. Jadi misalnya di soal pertama dia menjawab betul, maka soal berikutnya dikasih soal yang lebih susah. Sebaliknya, kalau menjawab salah, soal berikutnya dikasih yang lebih mudah. Dengan pemilihan soal yang demikian sih katanya bisa meningkatkan motivasi dan menurunkan kecemasan peserta tes (katanya, nanti aku konfirmasi lagi dari hasil risetku). Orang yang jenius, ga bosen mengerjakan soal yang terlalu gampang buat mereka, sebaliknya, orang yang kurang pintar, ga perlu cemas mengerjakan soal yang terlalu sulit buat mereka.

Nah karena di CAT, computer akan memilih item yang sesuai dengan kemampuan peserta, makanya kita butuh item bank yang jumlah itemnya banyak. Dalam riset saya, saya sudah buat 450 item yang siap untuk diujicobakan (mungkin bisa bertambah, tergantung hasil ujicoba nanti). Bikinnya memang susah minta ampun, butuh item yang banyak dan uji coba ke sampel yang banyak pula. Tapi kalau udah jadi, kelebihannya juga banyak. Misal, kalau dengan SPM kita butuh mengerjakan 60 item buat mengetahui kemampuan kita, dengan CAT mungkin dengan item 20 saja sudah mendapatkan hasil dengan presisi yang serupa, karena computer akan memilih item yang relevan saja. Selain itu, kalau dengan tes konvensional pemilik tes perlu waspada terhadap praktek kecurangan (misal mencontek, soal bocor, dll), dengan CAT resiko itu bisa diminimalisir. Pertama, tiap peserta akan mendapat soal yang berbeda, tergantung jawaban dan kemampuan mereka, jadi ga mungkin bisa mencontek. Kedua, kalaupun tes bocor, susah juga buat peserta mengingat-ingat tes yang jumlah itemnya buaanyaak banget, sampai ratusan, dan mereka juga ga tahu item mana yang akan mereka hadapi. Jadi lebih aman lah. Selain itu, tes semacam ini juga sangat cocok kalau dipakai untuk design pengetesan berulang, misal untuk mengukur perkembangan kemampuan penalaran anak. Selama ini masalah peneliti kalau pakai design pengetesan berulang adalah adanya efek belajar. Peserta udah tahu tesnya saat tes pertama, jadi pas tes selanjutnya mereka masih ingat. Kalau pakai CAT antara tes pertama, kedua, dst bisa diatur soalnya beda, tapi tetap mengukur hal yang sama. Jadi intinya, bikin CAT ini memang menderita di awal. Tapi kalau udah jadi, manfaatnya juga lebih banyak.  

Bentar, kalau sebegitu penting dan bermanfaatnya tes ini, emangnya belum ada yang kepikiran membuatnya?

Udah, banyak. Di luar negeri udah buuaanyak banget tes serupa. Di Indonesia juga udah banyak, setahu saya PLN dan TNI udah pakai CAT. Tapi masalahnya buat peneliti Indonesia, aksesnya susah sekali, apalagi kalau ga punya duit. Ini juga sih yang bikin saya galau, belum ada dana penelitian, ini bikinnya susah, memakan waktu, tenaga, dan duit yang banyak, tapi susah dipublikasikan di jurnal internasional karena hanya menawarkan sedikit kebaruan. Penelitian ini juga ga bisa dipecah-pecah jadi beberapa artikel, dan estimasi saya sih butuh waktu 3-4 tahun buat menyelesaikannya. Sialnya di kampus saya, sebagai syarat daftar ujian akhir, butuh minimal 3 publikasi sebagai penulis pertama yang topiknya nyambung dengan topik disertasi dan dipublikasikan di jurnal berimpact factor. Apesnya, nyambung dengan topik disertasi ini susah sekali, lha ambil data tes kognitif ini tidak semudah ambil data pakai kuesioner je. Peneliti Indonesia ga banyak yang mau susah-susah ambil data beginian, apalagi tes yang buat ambil data juga ga ada. Sempat terpikir ganti topik yang lebih gampang saja, biar perjalanan PhD saya lebih mulus, tapi kok tanggung, udah nulis 450 item mosok ga dilanjutin. Lagian saya masih berpikir tes ini penting, meskipun “hanya” untuk tingkat nasional. Jadi sementara ini buat memenuhi tuntutan 3 publikasi, saya juga nyambi ngerjain penelitian lain. Kalau teman-teman ada yang topik penelitiannya serupa (tentang kemampuan kognitif, psikometri, atau computerized testing di bidang Psikologi atau Pendidikan), ayoklah bisa kita kolaborasikan.