pengembangan item bank tes kognitif kepolisian...

PENGEMBANGAN ITEM BANK TES KOGNITIF

KEPOLISIAN NEGARA REPUBLIK INDONESIA (POLRI)

Diajukan untuk Memenuhi Persyaratan Memperoleh

Gelar Magister Sains Psikologi (M.Psi)

Disusun Oleh :

ABI RISA BAYU ARGO

21180700000009

FAKULTAS PSIKOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

PENGEMBANGAN ITEM BANK TES KOGNITIF

KEPOLISIAN NEGARA REPUBLIK INDONESIA (POLRI)

Diajukan kepada Fakultas Psikologi

untuk Memenuhi Persyaratan Memperoleh

Gelar Magister Sains Psikologi (M.Psi)

Oleh :

ABI RISA BAYU ARGO

21180700000009

Pembimbing I

Jahja Umar, Ph.D

FAKULTAS PSIKOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

“ Sing Penting Yakin”

“Belajar adalah perjuangan. Perjuangan adalah pengorbanan.

Sesungguhnya pengorbanan adalah meninggalkan hal-hal yang

menyenangkan.”

--Jahja Umar--

HALAMAN PERSEMBAHAN

Tesis ini saya persembahkan untuk Polri dan untuk para pecinta psikometri.

Semoga tulisan ini dapat menjadi sumbangan keilmuan yang dapat

bermanfaat untuk kemajuan ilmu psikometri di Indonesia

--penulis--

ABSTRAK

A. Program Magister Fakultas Psikologi UIN Syarif Hidayatullah Jakarta

B. Oktober 2020

C. Abi Risa Bayu Argo

D. Pengembangan Item Bank Tes Kognitif Kepolisian Negara Republik

Indonesia (Polri)

E. 152 halaman

F. Polri merupakan aparatur negara yang berperan dalam memelihara keamanan

dan ketertiban masyarakat (HARKAMTIBMAS), menegakkan hukum, serta

memberikan perlindungan, pengayoman, dan pelayanan pada masyarakat.

Beberapa riset terdahulu menemukan bahwa orang-orang yang memilih untuk

melakukan pekerjaan sebagai polisi harus memiliki karakteristik psikologis

yang tepat (Dantzker & McCoy, 2006; Ho, 1999; Sanders et al, 1995; Mark,

2013; Chang-Bae, 2006; Cochrane et al, 2003). Peran tes psikologi sangat

dibutuhkan dalam menyeleksi para calon kandidat anggota Polri salah satunya

adalah tes kognitif. Meskipun tes kognitif Polri telah dikembangkan secara

mandiri oleh Polri namun masih terdapat beberapa kelemahan dalam proses

pengembangan alat ukur ini, antara lain (a) persiapan dan administrasi tes

dilakukan setiap tahun oleh tim ad hoc dengan waktu yang singkat, hal ini

dapat berpengaruh terhadap kualitas item-item tes yang dihasilkan, (b)

penggunaan alat tes tersebut hanya digunakan sekali pakai dalam setiap

tahunnya, sehingga biaya yang dibutuhkan akan semakin banyak atau

kurangnya efisiensi biaya dan karena digunakan sekali pakai maka

dimungkinkan sulit untuk melakukan perbandingan hasil dari waktu ke waktu

yang dapat meningkatkan kualitas item-item tes tersebut, (c) penggunaan

pendekatan Classical Test Theory (CTT) dalam analisis pengolahan data yang

bergantung pada sampel/sample bound (Hambleton & Swaminathan, 1985).

Studi ini merupakan studi awal untuk pengembangan item bank tes kognitif

Polri guna memperbaiki kelemahan-kelemahan yang ada. Tes kognitif yang

digunakan dalam studi ini merupakan tes kognitif yang disusun dari tiga aspek

dengan jumlah 100 item yaitu 33 item diteorikan mengukur aspek berpikir

berpikir logis, 33 item diteorikan mengukur aspek berpikir praktis dan 34 item

diteorikan mengukur aspek berpikir verbal. Model soal dalam tes kognitif ini

adalah pilihan ganda dengan respon jawaban (1=benar) dan (0=salah). Adapun

responden yang digunakan dalam studi ini berjumlah 6.204 orang yang telah

melampaui tes psikologi seleksi calon anggota Polri tahun 2018. Metode

analisis data yang digunakan adalah Confirmatory Factor Analysis (CFA) dan

Item Response Theory (IRT).

Hasil studi menunjukkan bahwa item-item pada ketiga aspek tes kognitif Polri

mempunyai validitas konstruk dan karakteristik psikometri yang baik.

Meskipun ada beberapa item yang memiliki ketepatan yang kurang baik,

tetapi tidak ditemukan pelanggaran asumsi dalam penerapan Item Response

Theory (IRT). Dapat disimpulkan bahwa sebanyak 52 item tes kognitif Polri

masih memenuhi kriteria item yang baik untuk digunakan dalam

pengembangan item bank tes kognitif Polri. Item-item inilah yang nantinya

dijadikan sebagai acuan dalam proses kalibrasi selanjutnya ketika ada item-

item baru yang akan ditambahkan ke bank. Adapun rancangan prosedur

pengembangan item bank tes kognitif Polri yang ideal meliputi penentuan

tujuan, penyusunan blueprint, penulisan item, peninjauan item, pengujian

lapangan, analisis dan kalibrasi, pemilihan item, penyimpanan dan

pengambilan item serta pengelolaan item bank akan ditambahkan pada bagian

lampiran tesis ini.

G. Bahan bacaan: (1956-2015) 25 buku + 52 jurnal + 2 disertasi

ABSTRACT

A. Master Program in the Faculty of Psychology UIN Syarif Hidayatullah

Jakarta

B. October 2020

C. Abi Risa Bayu Argo

D. Development Of Cognitive Test Item Bank For The Indonesian National

Police (INP)

E. 152 pages

F. The Indonesian National Police is a state apparatus that plays a role in

maintaining security and public order (HARKAMTIBMAS), enforce the law,

to protect and serve society. Some previous researches have found that people

who choose to do police work must have the appropriate psychological

characteristics (Dantzker & McCoy, 2006; Ho, 1999; Sanders et al, 1995;

Mark, 2013; Chang-Bae, 2006; Cochrane et. al, 2003). The role of

psychological tests is highly needed in selecting candidates for the Indonesian

National Police (INP), one of them is the cognitive test. Although INP

cognitive test has been developed independently by the INP,but there still are

several weaknesses in the process of developing this measuring instrument,

i.a.: (a) the preparation and administration of the test are carried out annually

by the ad hoc team with a short time, this can affect the quality of the test

items that produced, (b) the use of the test kit is only used once every year, so

that the costs involved more or less cost efficiency is needed and because it is

only used once, it is possible to compare results from time to time which can

improve the quality of the test items, (c) use of the Classical Test Theory

(CTT) approach in data processing analysis depend on the sample bound

(Hambleton & Swaminathan, 1985).

This study is a preliminary study for the development of the INP cognitive test

item bank to improve existing weaknesses. The cognitive test used in this

study is a cognitive test composed of three aspects with a total of 100 items,

namely 33 items theorized measuring aspects of logical thinking, 33 items

theorized measuring aspects of practical thinking and 34 items theorizing

measuring aspects of verbal thinking. The question model in this cognitive test

is multiple choice with an answer response (1 = correct) and (0 = false). The

number of respondents used in this study were 6204 people who had passed

the psychological test for the selection of candidates for the Indonesian

National Police in 2018. The data analysis methods used were Confirmatory

Factor Analysis (CFA) and Item Response Theory (IRT).

The results showed that the items on the three aspects of the INP cognitive

tests had good construct validity and psychometric characteristics. Although

there are some items that have poor accuracy, there is no violation of the

assumptions found in the application of the Item Response Theory (IRT). It

can be concluded that 52 INP cognitive test items still meet the criteria for

good items to be used in the development of the INP cognitive test item bank.

These items will be used as a reference in the next calibration process when

new items are added to the bank. The development procedure design for the

ideal INP cognitive test item bank includes goal setting, blueprint preparation,

item writing, item review, field testing, analysis and calibration, item

selection, item storage and retrieval and item bank management will be added

to the attachment section of this thesis.

G. Reading material: (1956-2015) 25 books + 52 journals + 2 dissertation

KATA PENGANTAR

Assalamualaikum Warohmatullahi Wabarokatuh

Alhamdulillah hirobil’alamin, puji syukur penulis panjatkan kepada ALLAH

SWT yang telah melimpahkan nikmatnya pada penulis dan keluarga penulis.

Dengan limpahan nikmat berupa kesehatan, rizki yang banyak barokah, dan

perlindungan selalu dariNya dan atas seizin ALLAH akhirnya penulis bisa

menyelesaikan tugas akhir (tesis) ini dengan baik.

Selanjutnya penulis juga mengucapkan terimakasih teruntuk:

1. Brigjen Pol Yudawan R, S.H., M.H selaku Kepala Biro Psikologi SSDM

Polri, Brigjen Pol Drs. Hartono, Psikolog selaku Psikolog Kepolisian Utama

dan ketua Asosiasi Psikologi kepolisian Indonesia (APSIPOL), Para Kabag,

senior dan rekan di lingkungan Psikologi Polri yang tak selalu memberikan

dukungan kepada penulis hingga terselesaikannya tesis ini.

2. Ibu Dr. Zahrotun Nihayah, M.Si selaku Dekan Fakultas Psikologi UIN Syarif

Hidayatullah Jakarta, Ibu Yufi Adriani, Ph.D selaku Wakil Dekan Bidang

Akademik, Ibu Dr. Yunita Faela Nisa, M.Psi selaku Wakil Dekan Bidang

Kemahasiswaan. Dan Pak Dr. Gazi, M.Si selaku Wakil Dekan Bidang

Administrasi Umum yang telah memberikan kesempatan kepada penulis

sehingga dapat menyelesaikan tesis ini.

3. Bapak Jahja Umar Ph.D, selaku dosen pembimbing. Terima kasih telah

memberikan banyak inspirasi dan motivasi serta bimbingannya dalam

penyelesaian tesis ini. Terima kasih juga atas waktu dan kesabaran dalam

membimbing penulis.

4. Bapak Bahrul Hayat Ph.D, Bapak Bastari Ph.D, Ibu Dr. Rachmawati, Bapak

Agung Priyo Utomo M.T, Bapak Dr. Suprananto M.Ed, dan seluruh dosen

Fakultas Psikologi UIN Syarif Hidayatullah Jakarta. Terima kasih telah

memberikan ilmu yang bermanfaat kepada penulis.

5. Ibu Dr. Yunita Faela Nisa, selaku dosen pembimbing akademik. Terima kasih

telah banyak memberikan bimbingan, motivasi serta saran yang sangat

bermanfaat pada penulis selama masa perkuliahan ini.

6. Segenap staf karyawan Fakultas Psikologi UIN Syarif Hidayatullah Jakarta.

Terima kasih telah bekerjasama serta membantu penulis dari awal perkuliahan

sampai penulis menyelesaikan studi ini.

7. Kedua orangtua penulis (Alm. Bapak Abi Tumarno dan Ibu Susilowati),

atas semua kepercayaan yang telah diberikan kepada penulis selama ini.

Terimakasih atas pendidikan, dukungan dan do’anya sehingga tesis ini

bisa selesai dengan baik. “Bapak dan Ibu ketika wisuda seharusnya bapak

dan ibulah yang memakai toga kemenangan itu, karena penulis bisa seperti

ini karena bapak dan ibu”

8. Istri penulis (Maya Aprita Dewi). Terimakasih untuk cintanya, untuk

sabarnya, untuk supportnya pada penulis. “Love You Forever”.

9. Anak-anak penulis (Abiya Satria Wirasana dan Abiya Shakeel Rasyid).

Terimakasih kalian sumber penyemangat penulis.

10. Mama (Wiwi Ridawati), Berlian Abiyoga, Setyo Agung, Mia, Rezi, Kak

Ria, Kak Yahya. Terimakasih do’a dan dukungannya.

11. Muhammad Dwirifqi Kharisma Putra. Terima kasih atas waktunya, ilmunya,

bimbingannya dan motivasinya kepada penulis dalam menyelesaikan tesis ini.

12. Bang Heri Yulianto dan Mbak Bimi Tanida. Terimakasih sudah jadi senior,

teman, sahabat dan partner yang luarbiasa.

13. Teman seperjuangan psikometri angkatan 2018. Heri Yulianto, Bimi Tanida,

Tina Deviana, Vini Mutia, Dewi Maryam, Citra Febriyanti. Terima kasih atas

kerjasamanya selama perkuliahan ini, kalian sungguh luarbiasa, semangat dan

sukses selalu.

14. Rekan-rekan penulis (Magister Psikologi Angkatan 2018). Terima kasih

untuk kebersamaannya. Tetap kompak selalu.

Penulis juga mengucapkan terima kasih kepada berbagai pihak yang tidak dapat

penulis sebutkan satu per satu yang telah membantu kelancaran dalam

menyelesaikan tesis ini. Semoga Allah SWT memberikan kemudahan bagi kita

semua.

Jakarta, Oktober 2020

Penulis

DAFTAR ISI

HALAMAN SAMPUL

HALAMAN JUDUL ............................................................................................... i

HALAMAN PERSETUJUAN ............................................................................... ii

HALAMAN PENGESAHAN ............................................................................... iii

HALAMAN PERNYATAAN .............................................................................. iv

MOTTO .................................................................................................................. v

PERSEMBAHAN ................................................................................................. vi

ABSTRAK ........................................................................................................... vii

ABSTRACT .......................................................................................................... ix

KATA PENGANTAR .......................................................................................... xi

DAFTAR ISI ...................................................................................................... xiii

DAFTAR GAMBAR .......................................................................................... xvi

DAFTAR TABEL .............................................................................................. xvii

DAFTAR PERSAMAAN ................................................................................. xviii

BAB 1 PENDAHULUAN

1.1 Latar Belakang .................................................................................. 1

1.2 Rumusan Masalah ............................................................................. 9

1.3 Tujuan Penelitian ............................................................................ 11

1.4 Manfaat Penelitian ........................................................................... 11

BAB 2 LANDASAN TEORI

2.1 Pengembangan Item Bank Tes Kognitif Polri ................................. 12

2.1.1 Hakekat Tes Kognitif .......................................................... 12

2.1.2 Penyusunan Tes Kognitif Polri ........................................... 16

2.1.3 Item Bank ............................................................................ 23

2.1.2.1 Definisi Item Bank ................................................... 23

2.1.2.3 Kelebihan dan kekurangan Item Bank .................... 26

2.1.2.4 Penyusunan Item Bank yang dikalibrasi ................. 30

BAB 3 METODE PENELITIAN.......................................................................... 56

3.1 Responden Penelitian ...................................................................... 56

3.2 Instrumen Penelitian ........................................................................ 56

3.3 Prosedur Analisis Data .................................................................... 58

3.3.1 Uji Validitas Konstruk ........................................................ 58

3.3.2 Seleksi Model IRT dan Uji Asumsi

Unidimensionalitas IRT ....................................................... 60

3.3.3 Uji Asumsi Local Independence ......................................... 61

3.3.4 Kalibrasi Parameter Item ..................................................... 62

3.3.5 Pemilihan Item ..................................................................... 63

BAB 4 HASIL ANALISIS DATA ....................................................................... 64

4.1 Hasil Pengujian Validitas Konstruk ................................................. 64

4.2 Hasil Seleksi Model IRT dan Hasil Uji Asumsi

Unidimensionalitas IRT ................................................................... 73

4.3 Hasil Uji Asumsi Local Independence ............................................ 79

4.4 Hasil Kalibrasi Parameter Item ....................................................... 79

4.5 Hasil Pemilihan Item ....................................................................... 87

BAB 5 KESIMPULAN, DISKUSI DAN SARAN ............................................... 91

5.1 Kesimpulan ..................................................................................... 91

5.2 Diskusi ............................................................................................. 95

5.3 Saran ................................................................................................ 98

DAFTAR PUSTAKA ........................................................................................ 101

LAMPIRAN ....................................................................................................... 107

DAFTAR GAMBAR

Gambar 2.1 Linking Item ...................................................................................... 44

Gambar 4.1 Path diagram aspek berpikir logis ..................................................... 66

Gambar 4.2 Path diagram aspek berpikir praktis .................................................. 69

Gambar 4.3 Path diagram aspek berpikir verbal ................................................... 72

Gambar 4.4 Total ICC aspek berpikir logis .......................................................... 83

Gambar 4.5 Total ICC aspek berpikir praktis ....................................................... 85

Gambar 4.6 Total ICC aspek berpikir verbal ........................................................ 88

DAFTAR TABEL

Tabel 3.1 Blueprint Tes Kognitif Polri ................................................................ 58

Tabel 4.1 Muatan Faktor Item Apek Berpikir Logis ............................................ 67

Tabel 4.2 Muatan Faktor Item Aspek Berpikir Praktis......................................... 70

Tabel 4.3 Muatan Faktor Item Aspek Berpikir Verbal ......................................... 73

Tabel 4.4 Perbandingan model IRT Aspek Berpikir Logis................................... 74

Tabel 4.5 Perbandingan model IRT Aspek Berpikir Praktis................................. 75

Tabel 4.6 Perbandingan model IRT Aspek Berpikir Verbal ................................. 76

Tabel 4.7 Signifikansi Item Aspek Berpikir Logis ............................................... 77

Tabel 4.8 Signifikansi Item Aspek Berpikir Praktis ............................................. 78

Tabel 4.9 Signifikansi Item Aspek Berpikir Verbal.............................................. 79

Tabel 4.10 Daya Pembeda Item Aspek Berpikir Logis......................................... 80

Tabel 4.13 Tingkat Kesukaran Item Aspek Berpikir Logis .................................. 81

Tabel 4.11 Daya Pembeda Item Aspek Berpikir Praktis....................................... 83

Tabel 4.14 Tingkat Kesukaran Item Aspek Berpikir Praktis ................................ 84

Tabel 4.12 Daya Pembeda Item Aspek Berpikir Verbal ....................................... 85

Tabel 4.15 Tingkat Kesukaran Item Aspek Berpikir Verbal ................................ 87

Tabel 4.13 Pemilihan Item Aspek Berpikir Logis ................................................ 88

Tabel 4.14 Pemilihan Item Aspek Berpikir Praktis .............................................. 89

Tabel 4.15 Pemilihan Item Aspek Berpikir Verbal ............................................... 90

DAFTAR PERSAMAAN

Persamaan 2.1 Persamaan IRT model 1PL .......................................................... 40

Persamaan 2.2 Persamaan IRT model 2PL ........................................................... 40

Persamaan 2.3 Persamaan IRT model 3PL ......................................................... 41

Persamaan 2.4 Persamaan regression method ...................................................... 46

Persamaan 2.5 Persamaan mean and sigma method ............................................. 47

Persamaan 2.6 Persamaan robust mean and sigma method .................................. 48

Persamaan 2.7 Persamaan characteristic curve method ...................................... 49

PENDAHULUAN

1.1 Latar Belakang

Polisi merupakan aparatur yang memiliki peranan penting dalam suatu negara

mengingat tugas-tugas pokok polisi adalah untuk menjaga kestabilan nasional.

Tentunya, tugas yang diemban setiap anggota kepolisian sangatlah berat. Riset

terdahulu menemukan bahwa orang-orang yang memilih untuk melakukan

pekerjaan sebagai polisi harus memiliki karakteristik yang tepat. Karakteristik

yang terkait dengan tugas polisi seringkali berhubungan dengan aspek negatif

kehidupan manusia. Mengingat tugasnya sangat dibatasi oleh hukum dan

kebijakan dari institusi, seringkali polisi dituntut untuk mampu mengendalikan

emosinya. (Dantzker & McCoy, 2006).

Di Indonesia, Institusi Kepolisian Negara Republik Indonesia atau disingkat

Polri merupakan aparatur negara yang berperan dalam memelihara keamanan dan

ketertiban masyarakat (HARKAMTIBMAS), menegakkan hukum, serta

memberikan perlindungan, pengayoman, dan pelayanan pada masyarakat. Tugas

yang diemban oleh anggota Polri telah diatur dalam Pasal 2 Undang-Undang

Nomor 2 Tahun 2002. Tugas anggota Polri sangatlah kompleks mengingat selain

harus hidup sebagai individu masing-masing, anggota Polri juga harus dapat

melayani orang lain dengan berbagai macam bentuk permasalahan yang berbeda-

Dengan kompleksitas tugas tersebut, maka seorang anggota Polri dituntut

untuk memiliki kemampuan yang baik dalam kecerdasan maupun karakteristik

individu (misal, kepribadian & regulasi emosi). Itulah mengapa, untuk dapat

menjadi anggota Polri, harus melewati proses seleksi yang sangat ketat. Proses

rekrutmen calon anggota Polri ini tentunya tidak mudah, mengingat terdapat

kriteria dan standar dalam hal kapasitas individu yang sesuai dengan kebutuhan

Polri.

Setiap tahun, animo peserta yang ingin mendaftarkan diri untuk menjadi

seorang anggota Polri sangat tinggi. Data dari Biro Pengendalian Personel Staf

Sumber Daya Manusia Polri menunjukkan bahwa tahun 2017 animo pendaftar

Polri secara nasional sebanyak 197.826 orang dengan kuota didik sebesar 10.802,

pada tahun 2018 animo pendaftar Polri sebanyak 160.427 orang dengan kuota

didik sebesar 9.040 orang dan tahun 2019 animo pendaftar Polri sebanyak

141.510 dengan kuota didik sebanyak 9.514 orang. Artinya kandidat yang

diterima oleh Polri kurang lebih 8% dari jumlah animo setiap tahunnya. Hal ini

menunjukkan bahwa ada persaingan yang sangat ketat dari para peserta dalam

mengikuti seleksi untuk menjadi anggota Polisi. Ini artinya tantangan Polri dalam

merekrut calon anggotanya sangat membutuhkan perhitungan yang matang agar

mendapatkan calon anggota Polri yang sesuai dengan kebutuhan institusi.

Para kandidat ini harus melewati beberapa tahap seleksi untuk dapat lulus

dan terpilih sebagai anggota Polri. Salah satu tahapan pengujian yang merupakan

bagian penting adalah tes psikologi. Riset terdahulu mengungkapkan bahwa

komponen utama yang harus dijadikan pertimbangan adalah karakteristik

psikologis individu agar kandidat terpilih memiliki kecocokan secara psikologis

dengan institusi Polisi (Dantzker & McCoy, 2006; Ho, 1999; Sanders et al,1995;

Mark, 2013; Cochrane et al, 2003).

Sejalan dengan riset tersebut Anastasi & Urbina (2003) mengungkapkan

proses seleksi dan klasifikasi sumber daya manusia untuk suatu institusi

merupakan ranah penerapan tes psikologi, diantaranya untuk proses penerimaan

karyawan, penunjukan tugas, pemindahan, promosi, ataupun pemutusan hubungan

kerja. Selain itu, penerapan tes psikologi digunakan juga dalam proses seleksi

terhadap calon anggota militer yang telah memiliki sejarah panjang, seperti tes

sederhana calon anggota militer pada Perang Dunia ke I, serta perkembangan

pesat penerapan tes psikologi selama Perang Dunia ke II, sehingga studi tentang

pengembangan tes terus berlanjut dalam skala yang lebih besar di seluruh bidang

angkatan bersenjata.

Tes psikologi umumnya berkaitan dengan proses pengukuran yang objektif

dan terstandarisasi terhadap sampel dari suatu perilaku dan bertujuan untuk

mengukur perbedaan antar individu (individual differences) dalam hal diagnosa,

prediksi, deskripsi, serta self-evaluation (Allen & Yen, 2001; Anastasi & Urbina,

2003). Perbedaan individu yang dimaksud diantaranya merupakan atribut

psikologis seperti sikap, fungsi emosional, kecerdasan dan kemampuan kognitif

(penalaran, pemahaman, dan abstraksi, dll.), bakat, nilai, minat, dan karakteristik

kepribadian (American Psychological Association, 2015).

Mengingat atribut psikologis umumnya bersifat laten, terdapat prosedur

sistematis yang dapat digunakan agar atribut tersebut dapat diukur (Raykov &

Marcoulides, 2010). Prosedur sistematis yang dimaksud adalah salah satu ruang

lingkup dalam ilmu psikometrika yaitu teori tes (Maydeu-Olivares, 2005). Teori

tes digunakan untuk menggambarkan karakteristik psikometri dari instrumen

pengukuran atribut yang bersifat laten (tidak dapat diamati secara langsung)

(Brennan, 2010). Sebagian besar Departemen Kepolisian telah menggunakan

berbagai tindakan psikometrik dan perilaku untuk memilih petugas yang

berkualifikasi tinggi. Dengan mempertimbangkan sifat unik pekerjaan polisi,

anggota polisi diharapkan stabil secara mental, dapat beradaptasi secara sosial,

dan kompeten secara intelektual untuk melakukan berbagai tugas kepolisian (Ho,

1999).

Penggunaan tes psikologi sudah banyak diterapkan dalam rekrutmen

petugas Kepolisian. Sanders et al (1995) dalam risetnya menemukan bahwa ada

peningkatan yang signifikan terkait penggunaan pengujian kecerdasan,

wawancara psikologis, referensi tertulis, dan tes praktis selama proses seleksi

Departemen Kepolisian di Amerika Serikat pada tahun 1990 dan 1994. Survei

Law Enforcement Management and Administrative Statistics (LEMAS) pada

Departemen Kepolisian Amerika Serikat menunjukkan bahwa pada tahun 2007,

wawancara pribadi digunakan oleh 99% kantor Sheriff dan dilengkapi dengan

evaluasi psikologis di 62% kantor Sheriff. Wawancara kepribadian digunakan di

41% kantor sheriff (Burch, 2012).

Sejalan dengan riset tersebut, Cochrane et al (2003) dalam survei pada

Departemen Kepolisian yang ada di Amerika Serikat mengidentifikasikan bahwa

seleksi dan praktik penilaian psikologis untuk petugas polisi menunjukkan sekitar

91% responden memerlukan penilaian psikologis untuk semua calon polisi baru.

Riset dari Chang-Bae (2006) juga meneliti konten dan prosedur pengujian

psikologis di 43 lembaga penegak hukum Texas. Hasil temuannya menunjukkan

mayoritas agensi sepakat bahwa tujuan pengujian psikologis adalah untuk

menyaring kandidat yang tidak layak dan hanya 35% dari agensi memiliki proses

banding untuk kandidat yang gagal dalam proses penyaringan psikologis.

Tinjauan psikologis biasanya mencakup tes kecerdasan, riwayat pribadi laporan

diri, tes objektif, dan wawancara psikologis.

Praktik seleksi personil telah banyak digunakan selama bertahun-tahun,

terutama dengan kandidat penegak hukum. Peningkatan penggunaan ini

mencakup metode yang lebih canggih untuk mengevaluasi calon polisi. Salah satu

alasan penekanan yang lebih besar pada prosedur seleksi adalah dampak negatif

dari ketika memiliki karyawan yang tidak memenuhi syarat maka biaya yang

dikeluarkan juga besar. Misalnya, Departemen Kepolisian Los Angeles

menghabiskan sekitar $ 100.000 untuk melatih setiap petugas polisi baru. Selain

itu, diperkirakan bahwa rata-rata perekrutan polisi baru diharuskan untuk

menjalani hampir 1.000 jam pelatihan. Jelas, jika karyawan kemudian terbukti

tidak mampu melakukan tugasnya, sumber daya yang substansial telah terbuang

sia-sia (Cochrane et al., 2003).

Tes psikologi pada proses rekrutmen calon anggota Polri bertujuan untuk

mendapatkan kandidat calon anggota Polri dengan karakteristik psikologi yang

sesuai dengan kebutuhan organisasi Polri. Adapun karakteristik psikologis yang

dimaksud telah tertuang dalam Peraturan Asisten Kapolri Bidang Sumber Daya

Manusia No 3 Tahun 2017 tentang Pelaksanaan Tes Psikologi Calon Anggota

Kepolisian Negara Republik Indonesia. Salah satu karakteristik psikologis yang

tertuang dalam peraturan tersebut adalah karakteristik intelegensi yang diungkap

dengan tes kemampuan kognitif.

Kemampuan kognitif mencakup aspek-aspek yang berkaitan dengan proses

mental maupun yang berkaitan dengan keterampilan yang terlibat dalam

pelaksanaan tugas-tugas terkait persepsi, pembelajaran, memori, pemahaman,

kesadaran, penalaran, penilaian, intuisi, dan bahasa (American Psychological

Association, 2015). Tujuan aspek kognitif berorientasi pada kemampuan berfikir

yang mencakup kemampuan intelektual yang lebih sederhana, yaitu mengingat,

sampai pada kemampuan memecahkan masalah yang menuntut seorang individu

untuk menghubungkan dan menggabungkan beberapa ide, gagasan, metode atau

prosedur yang dipelajari untuk memecahkan masalah tersebut. Dengan demikian

aspek kognitif adalah sub-taksonomi yang mengungkapkan tentang kegiatan

mental yang sering berawal dari tingkat pengetahuan sampai ke tingkat yang

paling tinggi yaitu evaluasi.

Kemampuan kognitif yang dimaksud disini adalah kemampuan kognitif

yang telah disesuaikan dengan tujuan Institusi Polri antara lain kemampuan

berfikir logis, kemampuan berfikir praktis dan kemampuan berfikir verbal

(Peraturan Asisten Kapolri bidang SDM No 3, 2017). Pengembangan alat ukur

kemampuan kognitif ini dilakukan secara independen oleh Institusi Polri setiap

tahunnya. Hal tersebut dilakukan dengan harapan alat ukur yang dikembangkan

dapat digunakan secara efektif dan tepat sasaran serta memperhatikan tingkat

keamanan alat tes tersebut.

Meskipun demikian, masih ada beberapa catatan yang harus menjadi

perhatian dalam proses pengembangan alat ukur ini, antara lain (a) persiapan dan

administrasi tes dilakukan setiap tahun oleh tim ad hoc dengan waktu yang

singkat, hal ini bisa berpengaruh terhadap kualitas item-item tes yang dihasilkan,

(b) penggunaan alat tes tersebut hanya digunakan sekali pakai dalam setiap

tahunnya, sehingga biaya yang dibutuhkan akan semakin banyak atau kurangnya

efisiensi biaya dan karena digunakan sekali pakai maka dimungkinkan sulit untuk

melakukan perbandingan hasil dari waktu ke waktu yang dapat meningkatkan

kualitas item-item tes tersebut, (c) penggunaan pendekatan tes klasik / Classical

Test Theory (CTT) dalam analisis pengolahan data. Hal tersebut dirasa memiliki

beberapa kelemahan jika diterapkan dalam pengembangan alat ukur psikologi

yang akan digunakan sebagai penentu pengambilan keputusan secara nasional.

Classical Test Theory (CTT) memang telah berkembang secara luas dan

menjadi aliran utama dikalangan ahli psikologi dan pendidikan serta bidang kajian

perilaku (behavioral) yang lain selama 20 dekade (Embretson & Reise, 2000).

Akan tetapi menurut Hambleton & Swaminathan (1985) CTT memiliki beberapa

kelemahan. Taraf kesukaran dan daya pembeda item yang diperoleh dalam

analisis CTT bergantung pada sampel (sample bound). Ketergantungan terhadap

sampel menyebabkan karakteristik item yang dianalisis dengan CTT ini dapat

berubah sesuai konteks dari responden. Artinya, suatu item bisa memiliki taraf

kesukaran rendah karena item tersebut dikerjakan oleh kelompok responden

dengan kemampuan tinggi. Sebaliknya, taraf kesukaran item tersebut bisa menjadi

tinggi ketika dikerjakan oleh kelompok responden dengan kemampuan rendah.

Kelemahan lain dari CTT adalah lebih berorientasi pada tes dibandingkan item

(Hambleton et al, 1991). CTT tidak memperhatikan bagaimana responden telah

merespon suatu item. Dalam hal ini, kemampuan responden dilihat berdasarkan

skor total dari jumlah jawaban benar dari responden, tanpa mempertimbangkan

apakah item yang dijawab benar oleh responden merupakan item yang mudah

atau sukar.

Dalam menyikapi beberapa catatan penting pada proses pengembangan alat

ukur tes kognitif Polri tersebut, maka akan lebih tepat apabila prosedur item bank

diterapkan. Item bank ini dapat untuk memastikan bahwa hanya item-item yang

berkualitas tinggi yang digunakan. Ketika item bank terdiri dari item-item yang

mengukur hal yang sama dan dikalibrasi ke skala yang sama, hal tersebut akan

dapat membantu para pengembang tes dalam menangani permasalahan-

permasalahan dalam praktek tes. Penggunaan item bank yang sudah dikalibrasi

dapat mempengaruhi kebijakan dalam penilaian (Umar, 1999). Dengan teori

tersebut maka tidak menutup kemungkinan Polri akan dapat merekrut para

kandidat-kandidatnya sesuai dengan yang diharapkan. Disamping itu, dengan

adanya item bank ini banyak keuntungan yang didapatkan baik dari segi ekonomi,

fleksibilitas, konsistensi dan keamanan (Choppin,1981).

Pengembangan item bank ini akan lebih baik jika disertai penggunaan

pendekatan teori tes modern atau yang biasa dikenal dengan Item Response

Theory (IRT). Konsep dasar Item Response Theory (IRT) adalah: (1) performansi

subjek pada suatu tes dapat diprediksi atau dijelaskan oleh seperangkat faktor

yang disebut traits, latent traits atau abilitas, dan (2) hubungan antara performansi

subjek pada suatu item dan seperangkat kemampuan laten yang mendasarinya

dapat digambarkan oleh suatu fungsi yang bergerak naik secara monoton yang

disebut sebagai Item Characteristic Curve (ICC) (Hambleton et al, 1991).

Keuntungan yang didapatkan dengan pendekatan ini adalah parameter item

dan peserta tes tidak saling mempengaruhi, sehingga memungkinkan untuk

melihat konstribusi item, ketika item itu ditambahkan atau dikurangi pada suatu

perangkat tes. Keuntungan selanjutnya adalah memungkinkan penulis untuk

melakukan pengukuran yang sangat cermat pada kelompok-kelompok yang

equivalen namun berbeda kultur sehingga dapat diketahui ada bias atau tidak

pada hasil pengukuran itu (Stark et al, 2001).

Oleh karena itu dalam studi ini akan membahas tentang pengembangan

item bank tes kognitif Polri mulai dari perencanaan sampai dengan tahap

manajemen item bank itu sendiri. Pendekatan yang digunakan dalam

pengembangannya adalah menggunakan pendekatan Item Response Theory (IRT)

sehingga analisis psikometris yang didapatkan akan lebih detail, lengkap serta

dapat berguna dengan baik.

1.2 Rumusan Masalah

Tes kemampuan kognitif Polri merupakan alat ukur yang digunakan dan

diharapkan untuk mampu menggali kemampuan kognisi seseorang. Tes ini

merupakan bagian dari tes intelegensi yang dikembangkan oleh Polri serta

digunakan sebagai proses tes psikologi pada rekrutmen calon anggota Polri tahap

I. Dengan adanya tes ini diharapkan dapat menjadi sebuah tools yang dapat

menyaring individu-individu sesuai dengan kriteria yang telah ditentukan oleh

Polri sehingga diperoleh kandidat-kandidat yang memenuhi persyaratan, yaitu

memiliki kemampuan berfikir praktis, kemampuan berfikir verbal dan

kemampuan berfikir logis yang baik.

Proses rekrutmen calon anggota Polri dilakukan setiap tahun, sehingga

dalam penyusunan tes kognitif ini Polri selalu membuat item-item baru dengan

aspek yang sama. Alasan keamanan adalah sebagai dasar kenapa harus membuat

item-item baru. Bisa dikatakan bahwa item-item tersebut hanya digunakan sekali

pakai. Adapun proses pembuatan item-item baru tersebut dilakukan oleh tim ad

hoc dengan waktu yang cukup singkat. Dalam proses analisis item Polri masih

menggunakan pendekatan CTT yang masih banyak ditemukan beberapa

kelemahan.

Dalam studi ini proses pengembangan item bank tes kognitif Polri akan

melibatkan pendekatan Item Response Theory (IRT) dengan harapan dapat

menjawab pertanyaan-pertanyaan penelitian seperti dibawah ini:

a. Apakah item-item tes kognitif yang dimiliki Polri sudah teruji validitas

konstruknya?

b. Apakah tes kognitif yang dimiliki Polri sudah memenuhi asumsi-asumsi

Item Response Theory (IRT)?

c. Apakah item-item tes kognitif Polri memenuhi persyaratan untuk dijadikan

item bank ?

d. Bagaimanakah penyusunan item bank pada tes Kognitif Polri yang ideal?

1.3 Tujuan Penelitian

Studi ini dilakukan dengan tujuan untuk melakukan evaluasi karakteristik

psikometri dari tes kognitif Polri dengan pendekatan Item Response Theory (IRT)

yang selanjutnya hasil evaluasi item-item tersebut akan digunakan sebagai item-

item persiapan dalam mengembangkan item bank pada tes kognitif Polri. Dengan

pengembangan item bank ini dimaksudkan untuk memenuhi item-item tes kognitif

Polri yang terkalibrasi sehingga ketika suatu tes akan disusun dan digunakan

dalam suatu pengujian, maka Polri dapat melakukanya dengan lebih efektif dan

efisien. Disamping itu factor keamanan juga akan lebih terjaga, karena Polri dapat

menyusun tes-tes yang setara dengan skala yang sama ketika ditengarai adanya

kebocoran suatu tes. Dengan adanya item bank ini juga memungkinkan Polri

mengevaluasi hasil tes dari tahun ke tahun, sehingga perbaikan-perbaikan akan

lebih mudah dilakukan dalam pengembangan selanjutnya.

1.4 Manfaat Penelitian

Studi ini diharapkan memberikan manfaat secara teoritis atau keilmuan psikologi,

khususnya ilmu psikometri bagi mahasiswa, peneliti selanjutnya dan pengembang

alat tes. Selain itu studi ini juga diharapkan memberikan manfaat secara praktis

untuk institusi Polri dalam pengembangan item bank tes kognitif Polri maupun

tes-tes lain yang akan dikembangkan Polri selanjutnya.

LANDASAN TEORI

2.1 Pengembangan Tes Kognitif Polri

2.1.1 Hakekat Tes Kognitif

Tes adalah sebagai salah satu alat atau teknik pengukuran yang digunakan untuk

mengukur perilaku, membantu memahami dan memprediksi perilaku (Kaplan &

Saccuzzo, 2012) sehingga tingkah laku dua orang atau lebih dapat

diperbandingkan (Cronbach, 1970). Dalam proses pengukuran perilaku ini

dibutuhkan prosedur yang sistematik (Brown, 1976) dan dibutuhkan suatu

pertanyaan-pertanyaan yang telah terstandarisasi (Chaplin, 2006).

Tes psikologi adalah alat ukur yang obyektif dan dibakukan atas sampel

perilaku tertentu yang berfungsi untuk mengukur perbedaan-perbedaan antara

individu atau bagaimana individu menampilkan perilaku yang sama dalam situasi

yang berbeda (Geisinger, 2013). Umumnya tes psikologi digunakan sebagai alat

bantu dalam pengambilan keputusan tentang pekerjaan, meliputi baik konseling

individual maupun keputusan-keputusan kelembagaan yang menyangkut seleksi

dan klasifikasi personel. Hampir semua jenis tes yang tersedia dalam hal

pengambilan keputusan sehubungan dengan personel digunakan oleh organisasi

dalam sektor bisnis dan industri pada tingkat pemerintahan serta bidang angkatan

bersenjata (Anastasi & Urbina, 2007).

Cronbach (1970) mengklasifikasikan tes psikologi dalam dua kelompok

besar, yaitu tes yang mengukur performansi maksimal (maximal performance)

dan tes yang mengukur performansi tipikal (typical performance). Pembahasan

dalam studi ini akan lebih fokus terhadap tes yang mengukur performansi

maksimal. Maximal performance yang dimaksud adalah tes yang dirancang untuk

mengungkap apa yang dapat dilakukan oleh individu dan seberapa baik ia dapat

melakukannya. Tes yang tergolong dalam maximal performance adalah tes

intelegensi.

Anastasi & Urbina (2007) mengungkapkan bahwa inteligensi adalah istilah

yang luas dan memiliki berbagai definisi. Apa yang disebut inteligensi pasti

bervariasi dalam artinya menurut perbedaan budaya maupun perbedaan tahap

kehidupan. Tes inteligensi tradisional meliputi suatu kelompok keterampilan

kognitif dan pengetahuan yang lebih terbatas dan lebih mudah diidentifikasikan.

Tes ini biasanya terbukti lebih mampu memprediksi kinerja baik dalam aktivitas

akademik maupun aktivitas pekerjaan yang dituntut dalam masyarakat teknologi

modern. Kemampuan ini kerap dideskripsikan sebagai inteligensi akademik atau

kemampuan belajar. Isinya mencakup pemahaman verbal, analisa kuantitatif dan

aspek-aspek berpikir abstrak lainnya. Tes-tes kognitif umum memberikan

sumbangan secara substansial pada prediksi kinerja pekerjaan, terutama untuk

pekerjaan-pekerjaan kompleks.

Kognisi didefinisikan sebagai semua bentuk pengetahuan dan kesadaran,

seperti mempersepsikan, memahami, mengingat, bernalar, menilai,

membayangkan, dan memecahkan masalah (American Psychological Association,

2015). Teori kognitif ini telah dikembangkan oleh Psikolog asal Swiss, Jean

Piaget (1896-1980). Piaget menyatakan bahwa kognitif dapat mencakup berbagai

persoalan yang menyangkut kemampuan untuk mengembangkan atau

mempresentasikan kemampuan rasional (akal) berdasarkan kenyataan. Terdapat

dua prinsip utama dalam perkembangan kognitif yaitu organisasi dan adaptasi

(Solso et al, 2005).

Organisasi mengacu pada sifat dasar struktur mental yang digunakan untuk

mengeksplorasi dan memahami dunia. Pikiran dalam perspektif Piaget bersifat

terstruktur atau terorganisasi, meningkat kompleksitasnya dan terintegrasi.

Tingkat berpikir yang paling sederhana adalah skema (scheme), yaitu representasi

mental beberapa tindakan (fisik maupun mental) yang dapat dilakukan terhadap

objek. Pada bayi yang baru lahir, menghisap, menggenggam dan melihat adalah

skema yang digunakan sebagai strategi kognitif bayi untuk mengetahui dunia.

Dalam perkembangannya, skema-skema ini terintegrasi secara progresif dan

terkoordinasikan dalam pola-pola yang teratur, sehingga membentuk pikiran

orang dewasa.

Sedangkan adaptasi mencakup dua proses, yaitu asimilasi dan akomodasi.

Asimilasi adalah proses perolehan informasi dari luar dan pengasimilasiannya

dengan pengetahuan dan perilaku kita sebelumnya. Pada bayi, dunianya lebih

banyak dipengaruhi oleh benda-benda fisik dan skema pertamanya adalah

memasukkan benda-benda tersebut ke dalam mulutnya. Akomodasi meliputi

proses perubahan (adaptasi) skema lama untuk memproses informasi dan objek-

objek baru di lingkungannya. Misalnya, ketika bayi semakin besar dan

mobilitasnya meningkat, mereka akan mendekati meja kopi. Benda ini terlalu

besar untuk diambil dan dimasukkan ke dalam mulutnya (skema lama), sehingga

ia mengakomodasi (mengubah) skema lamanya itu dengan mendekatkan

wajahnya pada sudut meja tersebut, kemudian menggigit-gigitnya. Piaget

meyakini bahwa fenomena-fenomena serupa dapat diterapkan pada aktivitas

mental, yaitu bahwa kita memiliki struktur mental, mengasimilasikan peristiwa-

peristiwa eksternal dan mengkonversikannya menjadi peristiwa-peristiwa mental

atau pikiran. Dengan kata lain, kita mengakomodasikan struktur biologis kita

untuk menghadapi permasalahan yang muncul dari objek-objek baru. Dengan cara

yang sama, kita mengakomodasi struktur mental kita terhadap aspek-aspek baru

dan asing ke dalam lingkungan mental kita. Kedua proses ini, yaitu asimilasi dan

akomodasi merupakan representasi dua aspek yang saling melengkapi satu sama

lain dalam proses adaptasi.

Kemampuan kognitif ini berkembang seiring dengan perkembangan

individu serta proses belajarnya. Kemampuan kognitif juga disebutkan sebagai

alternatif penyebutan tentang gagasan yang menggambarkan perbedaan di antara

individu dalam hal kemampuan mental mereka. Kemampuan kognitif ini

didefinisikan sebagai kemampuan mental umum yang melibatkan penalaran,

pemecahan masalah, perencanaan, pemikiran abstrak, pemahaman ide yang

kompleks, dan belajar dari pengalaman serta kemampuan beradaptasi

(Gottfredson, 1997; Wilhelm & Engle, 2004). Sementara kemampuan kognitif

menurut tinjauan definisi dari American Psychological Assosiation (2015) adalah

keterampilan yang terlibat dalam melakukan tugas-tugas yang terkait dengan

persepsi, pembelajaran, memori, pemahaman, kesadaran, penalaran, penilaian,

intuisi, dan bahasa.

2.1.2 Penyusunan Tes Kognitif Polri

Tes kognitif Polri disusun atas tiga aspek yang telah dikembangkan secara

mandiri oleh Biro Psikologi SSDM Polri. Dikembangkannya tes kognitif ini

adalah sebagai alat atau instrumen untuk screening awal dalam proses rekrutmen

para kandidat calon anggota Polri sebelum dilakukan wawancara psikologi

lanjutan. Pengembangan aspek pada tes kognitif ini telah disesuaikan dengan

karakteristik ideal yang harus dimiliki oleh setiap anggota Polri. Ketiga aspek

yang terkandung dalam tes kognitif Polri ini telah dituangkan dalam peraturan

Asisten Kapolri bidang SDM nomor 3 Tahun 2017 antara lain: kemampuan

berpikir logis, kemampuan berpikir praktis dan kemampuan berpikir verbal.

Menurut American Psychological Assosiation (2015) kemampuan berpikir

logis adalah kemampuan kognitif seseorang yang sesuai dengan logika, benar

menurut penalaran dan masuk akal. Kemampuan berpikir praktis adalah

kemampuan untuk menerapkan kecerdasan seseorang dalam situasi praktis sehari-

hari. Dalam teori kecerdasan triarkis, aspek kecerdasanlah yang membutuhkan

adaptasi, pembentukan, dan pemilihan lingkungan baru. Sedangkan kemampuan

berpikir verbal adalah kemampuan untuk menggunakan kata-kata dan kombinasi

kata-kata secara efektif dalam komunikasi dan pemecahan masalah.

Proses penyusunan tes kognitif Polri ini telah melewati beberapa tahap

penyusunan sesuai kaidah konstruksi alat ukur psikologi, antara lain: tahap

persiapan, tahap penyusunan item, tahap perakitan item, tahap uji coba, tahap

analisis dan evaluasi, serta tahap finalisasi.

a. Tahap Persiapan

Dalam tahap ini tim kelompok kerja (pokja) dibentuk dengan tujuan untuk

mempersiapkan segala sesuatu yang dibutuhkan dalam proses

pengembangan tes kognitif Polri. Persiapan administrasi, sarana dan

prasarana serta pembagian atau pertelaahan tugas dilaksanakan dalam

proses persiapan ini. Selain itu penjelasan mengenai mekanisme kerja, target

waktu kerja (timeline) serta tata tertib pelaksanaan juga ditetapkan seperti

SOP dan berita acara kegiatan. Dalam tahap persiapan ini semua anggota

tim pokja juga dituntut untuk menandatangani sebuah pakta integritas

penyusunan materi tes kognitif Polri sebagai bentuk tanggung jawab dan

profesionalisme kerja.

b. Tahap Penyusunan Item

Pada tahap penyusunan item ini seluruh anggota tim pokja dilibatkan sesuai

dengan pembagian tugas yang telah ditetapkan dalam proses persiapan.

Pada tahap ini ada tiga kegiatan penting yang harus dilaksanakan yaitu

penyusunan blueprint, penulisan item dan peninjauan item.

Kegiatan penyusunan blueprint dilakukan dalam rapat pokja yang

melibatkan semua anggota. Kegiatan ini merupakan kegiatan yang dilakukan

dalam menentukan definisi operasional setiap aspek tes kognitif dengan

mengacu pada teori yang telah dituangkan dalam Peraturan Asisten SDM

Kapolri antara lain; aspek berpikir logis, aspek berpikir praktis dan aspek

berpikir verbal. Penentuan indikator perilaku pada setiap aspek tersebut

selanjutnya dijabarkan berdasarkan definisi operasionalnya masing-masing.

Dalam kegiatan ini didapatkan hasil akhir yaitu sebuah kisi-kisi / blueprint tes

yang berisi definisi operasional, indikator dari masing-masing aspek yang

akan disusun dan jumlah item yang akan digunakan serta penetapan posisi

item-item tersebut juga ditetapkan dalam kegiatan ini.

Setelah blueprint disusun maka tahap selanjutnya adalah proses

penulisan item. Pembagian tim yang telah dilaksanakan dalam tahap

persiapan digunakan sebagai acuan. Para penulis item ini dipilih berdasarkan

kualifikasi yang telah ditetapkan sebelumnya yaitu Psikolog / S1 Psikologi

baik itu anggota Polri maupun PNS Polri. Dengan kualifikasi tersebut proses

penulisan item-item ini dapat dilaksanakan dengan baik dan tepat sasaran

karena penulis dengan kualifikasi tersebut dianggap mampu dan telah

memahami konten dari tes yang akan disusun. Tim penulis ini dibagi dalam

tiga bagian yaitu minimal dua orang penulis aspek berpikir logis, dua orang

penulis aspek berpikir praktis dan dua orang penulis aspek berpikir verbal.

Masing-masing subtim tersebut juga harus menyelesaikan target penulisan

item dalam jumlah dan waktu yang telah ditentukan sebelumnya.

Ada beberapa peraturan yang cukup ketat yang diterapkan dalam proses

penulisan item ini antara lain: (1) seluruh anggota tim penulis item bekerja

dengan menggunakan komputer atau laptop dinas dan menyimpan seluruh

hasil pekerjaan pada hard disk eksternal atau flash disk sesuai nama masing-

masing dan dilarang menyimpan hasil pekerjaan pada komputer atau laptop;

(2) seluruh anggota tim penulis item bekerja di ruangan khusus yang telah

disediakan; (3) seluruh anggota tim penulis item pada saat melakukan

penulisan item dilarang membawa alat komunikasi, alat perekam suara,

kamera, serta melakukan kegiatan lain yang tidak berkaitan dengan tugasnya;

(4) seluruh anggota tim penulis setiap hari wajib mengisi daftar hadir dan

berita acara harian serta mencatat segala hal yang berkaitan dengan kegiatan

yang dilakukan.

Setelah proses penulisan item dilaksanakan maka kegiatan selanjutnya

adalah kegiatan peninjauan item. Pada tahap ini tim peninjau item disiapkan

dan dibagi sesuai dengan jumlah aspek yang disusun. Masing-masing aspek

ditinjau oleh satu orang peninjau yang berbeda. Peninjau item ini bukanlah

orang dari bagian penulis item. Semua item ditelaah secara kualitatif oleh

peninjau item dengan tujuan untuk menguji keterbacaan setiap item yang

telah ditulis serta kesesuaian dengan indikator dan tatacara penulisan item.

Para peninjau item ini juga terdiri dari para psikolog / S1 Psikologi baik

anggota Polri maupun PNS Polri. Hasil telaah / tinjauan item tersebut

selanjutnya diklasifikasikan menjadi beberapa bagian yaitu item baik, item

perlu revisi, dan item ditolak. Jika item baik maka langsung diterima,

sedangkan item perlu revisi akan langsung direvisi sehingga diperoleh item

yang baik, sementara item yang ditolak akan dikembalikan ke penulis item.

c. Tahap Persiapan Uji Coba

Item-item yang telah ditelaah / ditinjau dan telah dinyatakan sebagai item

baik oleh tim peninjau maka selanjutnya item-item tersebut akan

dikumpulkan. Item-item tersebut disusun menjadi sebuah tes yang akan

diujicobakan di lapangan. Penyusunan item menjadi sebuah tes uji coba

dilakukan oleh seluruh anggota tim pokja. Pada tahap ini ketika item-item

akan diujicobakan, tes disusun dari item yang lebih banyak daripada saat

perakitan tes yang sebenarnya. Hal ini bertujuan ketika dalam proses

analisis item didapatkan ada beberapa item yang gugur maka tidak akan

banyak mengurangi jumlah item yang diharapkan (misal item yang

dibutuhkan dalam tes sebenarnya 100 item, maka dalam tahap uji coba

disusun item sebanyak 100 item ditambah sekitar 20-30 % item).

d. Tahap Uji Coba

Sebelum melaksanakan uji coba item-item tersebut, perencanaan teknis

pelaksanaan uji coba dibuat dan disesuaikan dengan kebutuhan penyusunan

materi tes, dengan memperhatikan: (1) jumlah item; (2) jumlah sampel; (3)

tempat dan tanggal pelaksanaan uji coba; (4) tim pelaksana uji coba dan (5)

administrasi serta dokumen penunjang lainnya juga disiapkan untuk legalitas

kerja.

Penentuan jumlah item uji coba didapatkan setelah proses peninjauan

item. Jumlah item yang diujicobakan biasanya ditambah 20-30% dari jumlah

yang dibutuhkan dalam tes sebenarnya. Dalam proses penentuan sampel uji

coba sangat dibutuhkan pengkajian dan perhitungan yang matang. Klasifikasi

secara geografis diharapkan dapat mendapatkan sampel yang representatif.

Dengan demikian penentuan sampel uji coba ini diambil dari beberapa

provinsi yang dibagi dalam tiga bagian yaitu wilayah barat (Jawa), wilayah

tengah (Kalimantan) dan wilayah timur (Papua). Kualifikasi sampel yang

telah ditentukan adalah pendidikan Sekolah Menengah Atas (SMA) atau

sederajat, peserta didik calon anggota Polri baik golongan perwira maupun

bintara, dan Mahasiswa/mahasiswi tingkat awal.

Penentuan tempat dan tanggal uji coba ini ditetapkan berdasarkan

jadwal yang telah disepakati oleh dua belah pihak, baik dari tim pelaksana uji

coba maupun dari pihak penyedia sampel uji coba (tempat pendidikan Polisi,

SMA/SMK, Universitas) yang sebelumnya telah membuat kesepakatan

kerjasama. Sedangkan tim pelaksana uji coba ini dibagi kedalam beberapa tim

sesuai dengan jumlah tempat uji coba yang akan diambil sampelnya. Setiap

sub-tim diberikan tanggung jawab untuk melaksanakan kegiatan uji coba

pada wilayahnya masing-masing mulai dari menyiapkan administrasi dan

teknis uji coba sampai dengan pelaporan hasil uji coba.

e. Tahap Analisis Evaluasi Hasil Uji Coba Item

Data empirik dari hasil ujicoba selanjutnya dianalisis secara kuantitatif oleh

tim analisis data. Pada tahapan ini proses analisis data yang dilakukan

menggunakan pendekatan Classical Test Theory (CTT). Hasil analisis data

uji coba tersebut meliputi reliabilitas tes, daya beda item, tingkat kesukaran

item, daya distraktor, dan pengecekan kunci jawaban. Setelah hasil analisis

data didapatkan, selanjutnya tim analisis data membuat laporan terhadap

hasil analisis data uji coba tersebut dan selanjutnya memaparkan hasil

didepan seluruh anggota tim pokja. Pada tahap ini tim pokja melakukan

review terhadap hasil analisis data tersebut sekaligus melaksanakan koreksi,

penambahan, penghapusan serta revisi item.

f. Tahap Penyusunan Master Materi Tes

Pada tahap ini semua anggota tim pokja dilibatkan dalam menentukan dan

memilih item yang akan disusun sebagai master materi tes berdasarkan

blueprint yang telah ditentukan. Dalam penyusunan master materi tes ini ada

beberapa bagian yang harus diperhatikan antara lain: sampul, petunjuk

pelaksanaan tes, contoh persoalan dan item-item tes itu sendiri. Setelah

disusun kemudian master materi tes ini disimpan ke dalam hard disk eksternal

dan selanjutnya dimasukkan dalam berangkas khusus yang telah disediakan.

g. Tahap Finalisasi Materi Tes

Tahap ini adalah tahap dimana master materi tes yang telah disusun

dipresentasikan kembali kepada semua tim pokja. Finalisasi materi tes ini

dilakukan untuk memastikan item-item yang disusun sudah sesuai dengan

blueprint dan review keterbacaan masing-masing item sudah baik. Setelah

master tes ini dianggap siap untuk digunakan maka tahap selanjutnya adalah

menggandakan materi tes ini dalam bentuk Compact Disc (CD) sesuai

jumlah wilayah yang akan melaksanakan tes tersebut. Proses ini biasa

dinamakan tahap penggandaan (burning) materi tes. Dalam proses ini

penggunaan password dilakukan untuk mengamankan CD materi tes untuk

menghindari kebocoran soal. Pada tahap penggandaan (burning) materi tes

ini anggota tim pokja dibagi dalam beberapa bagian yaitu bagian pembuat

password, bagian penggandaan (burning) CD, bagian verifikasi keterbacaan

CD, bagian finishing (pembungkusan dan pemasangan segel rahasia) pada

CD materi tes.

Proses ini melibatkan pengawasan internal dari Biro Paminal Divisi

Propam Polri dan tim auditor IT dari Divisi Teknologi Informasi dan

Komunikasi (DivTIK) Polri. Tim auditor IT dari DivTIK Polri

melaksanakan sterilisasi terhadap sarana dan prasarana elektronik yang

digunakan dalam proses penggandaan (burning) pada tahap awal dan akhir

kegiatan dilaksanakan. Sementara pengawas internal dari Biro Paminal

Divpropam Polri membantu menyimpan serta mengamankan materi tes

yang sudah siap digunakan hingga materi tersebut akan didistribusikan dan

digunakan dalam proses tes psikologi calon Anggota Polri pada masing-

masing Polda sebagai panitia tingkat daerah pelaksana tes psikologi. Semua

tahapan dalam proses penyusunan tes kognitif Polri ini dicatat dan

didokumentasikan serta ditulis dalam Berita Acara pelaksanaan kegiatan.

2.1.3 Item Bank

2.1.3.1 Definisi item bank

Tidak ada kesepakatan terkait dengan definisi item bank. Umar (1999)

menyatakan bahwa item bank adalah gagasan yang didefinisikan secara luas, dari

definisi yang longgar dan tidak terbatas sampai definisi yang sangat ketat.

Millman & Arter, (1984) mendefinisikan item bank sebagai kumpulan pertanyaan

tes yang mudah diakses dan relatif besar. "Relatif besar" berarti jumlah item

melebihi beberapa kali jumlah yang akan digunakan dalam salah satu tes. "Mudah

diakses" berarti bahwa item diindeks, terstruktur, atau berisi informasi lain yang

dapat digunakan untuk memfasilitasi pemilihannya dalam pengujian.

Sementara definisi yang lebih ketat adalah koleksi item-item tes yang

disusun dan dikatalogkan untuk memperhitungkan konten setiap item tes dan juga

karakteristik pengukurannya (tingkat kesukaran, reliabilitas, validitas dan lainnya)

(Choppin, 1976) dengan demikian memberikan definisi operasional dari suatu

variabel (Wright & Bell, 1984). Ini berarti bahwa ketika tes dibangun dari

sehimpunan item yang diambil dari bank, kalibrasi ini dapat digunakan untuk

menentukan sifat psikometrik dari tes tersebut.

Terlepas dengan adanya perbedaan dalam definisi tentang item bank ini, ada

satu landasan bersama yang dapat dipedomani yaitu hanya item-item yang baik

saja yang dimasukkan dalam bank. Perbedaan dalam level yang dimaksud dengan

item baik itulah yang membuat perbedaan definisinya (Umar, 1999). Pada tingkat

dasar item dapat diletakkan pada bank jika dibangun dengan benar dan isinya

dianggap valid. Tingkat selanjutnya pada item banking adalah masuknya validasi

empiris “tradisional” dari item-item tersebut sebagai kriteria tambahan dalam

pemilihan item. Pada tingkatan ini, item yang memenuhi kriteria pada tingkat

dasar di atas diujicoba dan pemilihan item dilakukan berdasarkan pada seberapa

baik item-item tersebut bekerja sesuai yang diharapkan. Di sini sifat psikometrik

klasik seperti proporsi, item-to-total correlation (daya pembeda) dan distribusi

dari distraktor (dalam item pilihan ganda) dicatat.

Tingkat tertinggi pada item banking adalah item bank yang telah dikalibrasi.

Di sini, item yang memenuhi kriteria tingkat dasar di atas diujicoba untuk

memverifikasi kesesuaiannya dengan model IRT. Item yang cocok dengan model

dikalibrasi menggunakan skala yang ditentukan oleh model. Kalibrasi dalam

model satu parameter IRT biasanya melibatkan penentuan posisi masing-masing

item pada skala yang mengukur tingkat kesukaran item dan kemampuan orang.

Sedangkan dengan dua atau tiga parameter IRT, daya pembeda dan guessing juga

diperhitungkan. Validasi dan kalibrasi pada item-item, desain tes dan

konstruksinya serta penilaian dalam item banking jenis ini dimungkinkan melalui

penerapan Item Response Theory (IRT). Berdasarkan jenis item bank ini,

dimungkinkan untuk merancang dan membangun tes yang diharapkan dapat

memberikan informasi yang optimal tentang karakteristik orang yang sedang

diukur dan dengan tingkat presisi yang tinggi atau bahkan yang diinginkan.

Umar (1999) juga menambahkan bahwa ada cara lain untuk mendefinisikan

tingkatan dalam item banking yaitu dengan melihat bagaimana bank diatur. Salah

satu fitur dari item bank adalah item-item tersebut mudah untuk diakses. Itu bisa

berarti adanya keterlibatan komputer. Item-item yang disimpan dalam basis data

yang terkomputerisasi akan memberikan akses dan efisiensi yang lebih besar.

Dalam hal item bank yang dikalibrasi, hampir tidak mungkin mengembangkan

dan mengoperasikan item bank tanpa komputer. Menurut Hambleton &

Swaminathan (1985), kegagalan dalam pengaplikasian item banking pada akhir

1960an dan awal 1970an di Amerika Serikat dan Inggris Raya adalah karena

kurangnya perangkat lunak dan fasilitas komputer.

Berdasarkan tingkat keterlibatan komputer dalam pengoperasiannya, item

banking dapat juga digolongkan kedalam: (a) item banking sepenuhnya manual,

(b) item banking manual menggunakan kartu item tetapi dengan menggunakan

layanan komputer yang digunakan dalam analisis data serta validasi item, dan (c)

item banking sepenuhnya menggunakan komputer. Pilihan tingkat komputerisasi

tergantung pada tujuan dalam bank yang berisi sekumpulan item tes, kondisi dan

situasi setempat.

2.1.3.2 Kelebihan dan kekurangan item bank

Ide item bank ini berkaitan dengan kebutuhan untuk membuat konstruksi tes lebih

mudah, cepat dan lebih efisien (Umar, 1999). Keunggulan utama dari sistem item

bank ini adalah fleksibilitasnya (Choppin, 1976) yang memungkinkan untuk

beroperasi secara efektif dalam beragam pengaturan pengajaran (implikasi bagi

guru, implikasi psikometri, implikasi kurikuluer, maupun implikasi bagi siswa)

dan yang memungkinkan untuk menyesuaikan dengan mudah ketika pengaturan

ini berubah (Millman & Arter, 1984; Wright & Bell, 1984). Di Amerika Serikat,

konsep item bank juga telah dikaitkan dengan pergerakan ke instruksi individual

dan tujuan perilaku pada tahun 1960-an (Hambleton & Swaminathan, 1985).

Menurut Umar (1999) item bank yang dikalibrasi dapat memberikan

beberapa keuntungan antara lain: (a) kebijakan desentralisasi program pengujian

secara nasional dapat dilakukan, (b) dapat menekan biaya dan waktu yang

dihabiskan untuk konstruksi tes, (c) dengan adanya jumlah item-item yang besar

dalam bank dapat mengatasi masalah keamanan seperti kebocoran item, (d)

pengembang tes dapat menyusun istrumen tes menggunakan item yang relatif

bagus yang telah tersedia di bank, serta (e) tes terbaik untuk tujuan tertentu atau

untuk kelompok peserta ujian tertentu dapat dirancang.

Sementara Choppin (1981) juga mengidentifikasi keunggulan spesifik dari

item bank. Keunggulannya diklasifikasikan menjadi empat kategori:

(a) Ekonomi

Dalam sistem item bank ini penggunaan item secara berulang sangat

dimungkinkan, dengan demikian ribuan item berkualitas tinggi yang telah

ditulis dan dikalibrasi dapat digunakan tidak hanya sekali sehingga dapat

menghemat biaya yang cukup banyak.

(b) Fleksibilitas

Item bank yang telah dikalibrasi menawarkan fasilitas untuk menyesuaikan

pengujian pada aplikasi tertentu. Item-item dalam bank tersebut dapat

digunakan untuk menyusun tes sesuai kebutuhan pengujian yang diharapkan

seperti menentukan panjang atau pendeknya suatu tes dapat dilakukan

secara lebih fleksibel. Untuk setiap tes yang dibangun menggunakan item

yang dikalibrasi di bank, setiap item dapat dihapus atau ditambahkan

dengan efek yang dapat diprediksi pada karakteristik tes. Bahkan program

Computerized Adaptive Testing (CAT) sangat berpotensi dapat dilakukan.

(c) Konsistensi

Dalam item bank dimana item dikalibrasi ke skala yang sama, sistem

pengukuran memiliki tingkat koherensi dan konsistensi yang tinggi yang

tidak dapat diperoleh dari jaringan tes standar. Memungkinkan untuk

membuat tes paralel atau setara dengan makna yang sama untuk skor yang

sama terlepas dari tes mana yang terkait dengan skor tersebut.

(d) Keamanan

Ada dua cara dimana item bank dapat mengendurkan ketegangan keamanan.

Pertama, dengan jumlah item yang besar dalam bank tentu saja tidak mudah

mempelajari jawaban dari ribuan item tanpa memahami latar belakang

materinya. Kedua, cukup mudah untuk membangun beberapa bentuk tes

alternatif (tanpa kehilangan nilai yang dapat dibandingkan) dari item bank

yang dikalibrasi, dengan demikian masalah keamanan seperti kebocoran

soal dapat diatasi.

Dari beberapa kelebihan di atas masih ada beberapa tokoh yang menyoroti

sisi kekurangan dari item bank. Baker (1986) berpendapat bahwa pengembangan

pengujian menggunakan item bank mungkin tidak sesederhana seperti yang

diklaim. Hiscox & Brzezinski (1980) juga mengatakan tidaklah mudah untuk

mengimplementasikan beberapa aspek dari item bank, seperti masalah keamanan

dan pengembangan koleksi item yang bermanfaat dan berguna, orang yang

berpengetahuan luas untuk mempertahankan item bank, publikasi item bank, dan

penggunaan item dengan tepat dan efektif.

Sementara Hayat (1989) mengungkapkan beberapa masalah teknis yang

dianggap sebagai kelemahan item bank dapat diatasi, berikut ini pemaparannya:

(a) Untuk mengembangkan item bank yang besar, seseorang harus

menghabiskan banyak biaya terutama dalam langkah-langkah awal

pengembangan antara lain biaya penulisan item, pengujian lapangan,

analisis dan kalibrasi item serta pengembangan sistem. Namun, pengeluaran

besar ini pada langkah-langkah awal dapat dikompensasi dengan

penggunaan bank jangka panjang dalam mengembangkan tes untuk

berbagai keperluan dan untuk kebutuhan pengujian yang aman dan

dilakukan secara berulang.

(b) Sistem item bank membutuhkan orang yang berpengetahuan untuk

mengoperasikan dan memelihara bank. Orang-orang harus memiliki

pengetahuan dan keterampilan yang cukup terkait dengan teori pengukuran,

psikometri dan aplikasi computer.

(c) Item bank memiliki kelemahan yang biasanya disebutkan pada literatur

dalam hal keterbatasan kemampuan komputer untuk menyimpan dan

mencetak jenis gambar, grafik, dan karakter khusus yang menyertai item

tes. Namun keterbatasan tersebut dapat diatasi dengan mudah menggunakan

perkembangan terbaru dalam teknologi komputer.

(d) Kerugian lain dari item bank terkait dengan beberapa teknis statistik, yaitu

kesulitan dalam memperkirakan norma, pada saat setiap siswa mengambil

tes yang berbeda dan kesalahan pengukuran yang berasal dari pelanggaran

asumsi ketika bank memiliki item yang dikalibrasi menggunakan IRT

(Millman dan Arter, 1984). Hilangnya informasi normatif ini (lokal atau

nasional) adalah konsekuensi dari fleksibilitas item bank dalam

memungkinkan pengembang tes untuk merancang tes yang berbeda untuk

memenuhi kebutuhan khusus mereka. Namun, Hambleton (1980)

menawarkan solusi untuk masalah ini dengan memiliki kumpulan besar item

tes yang dirujuk ke skala kemampuan dan seperangkat norma yang

disiapkan dari administrasi satu set item uji yang menarik bagi pengguna

tes, dapat digunakan untuk memprediksi skor tes peserta ujian pada set item

tes yang ada di test normed. Berdasarkan inti tes yang diprediksi ini, tabel

norma dapat digunakan untuk melihat skala norma yang sesuai.

2.1.3.3 Penyusunan Item Bank yang dikalibrasi

Ada beberapa kegiatan penting yang dilakukan di dalam pengembangan item bank

yang dikalibrasi, antara lain: spesifikasi konten, penulisan item, pengujian

lapangan, analisis dan kalibrasi item, linking item, pemilihan item, penyimpanan

dan pengambilan item serta pengelolaan item bank (Hayat, 1989; Umar, 1999).

a. Spesifikasi Konten

Tujuan tes harus ditentukan dalam proses perencanaan awal dari penyusunan item

bank. Penentuan tujuan tes ini adalah sebagai dasar disusunnya suatu konten yang

spesifik agar tepat sasaran, efektif dan efisien. Setelah tujuan tes ditetapkan maka

langkah selanjutnya adalah membuat spesifikasi konten. Maksud dan tujuan dari

spesifikasi konten ini adalah digunakan sebagai (a) sebuah panduan teknis bagi

penulis item untuk membuat item tes yang diinginkan, dan (b) deskriptor item

yang disertai dengan properti statistik item yang akan disimpan di bank yang

menyertai teks item tersebut (Hayat, 1989).

Nitko (1983) menyatakan bahwa isi dari spesifikasi konten ini harus jelas

dan dapat menunjukkan beberapa hal antara lain; bentuk item yang akan

digunakan, topik spesifik yang akan dibahas, tujuan instruksional, jenis tugas

yang akan disajikan, luas area yang akan dijadikan sampel, jumlah item, level atau

taksonomi kognitif yang dinilai dan properti psikometri yang diinginkan seperti

tingkat kesukaran item, daya pembeda dan lainya. Hal tersebut diharapkan dapat

menjadi pedoman bagi penulis item sesuai dengan yang diinginkan.

Penyusunan spesifikasi konten ini dapat dilakukan dalam suatu pertemuan

kecil yang terdiri dari spesialis suatu konten atau expertist (misalnya Psikolog,

guru mata pelajaran, pengembang kurikulum atau yang lainnya). Dalam proses

merancang spesifikasi konten ini dapat didukung dengan penggunaan buku teks,

silabus, dan bahan lainnya. Salah satu perangkat yang sering digunakan untuk

menguraikan cakupan konten item adalah two-way grid atau biasa disebut

blueprint tes (Hayat, 1989).

b. Penulisan Item

Langkah selanjutnya adalah tahap penulisan item. Hal ini merupakan bagian yang

penting, karena tidak semua orang dapat melakukan proses penulisan item ini.

Umar (1999) mengatakan bahwa proses penulisan item dalam pengembangan item

bank membutuhkan bakat dan keahlian khusus. Dalam proses ini, dibutuhkan

cukup banyak penulis item yang terlatih dan berbakat. Tanpa hal tersebut

pengembangan item bank yang dikalibrasi tidak akan efisien karena tingkat

mortalitas item dalam proses validasi mungkin akan sangat tinggi.

Menurut Hayat (1989) ada tiga poin penting yang harus diperhatikan dalam

praktik penulisan item ini. Poin pertama adalah tentang siapa yang akan

membangun item ini. Dalam poin ini orang yang paling tepat untuk menulis item

adalah mereka yang tahu betul apa yang akan ditulis (misal seorang guru yang

paham tentang apa yang sedang terjadi di sekolah mengenai materi pelajaran atau

psikolog yang tahu betul tentang materi serta variabel-variabel apa yang akan

diukur). Meskipun demikian, pemilihan penulis item ini juga harus didasari

pengalaman menulis soal, kompetensi, pengetahuan tentang materi dan konstruksi

tes. Jika susah mendapatkan kriteria penulis yang baik, maka harus diadakan

pelatihan penulisan item kepada calon-calon penulis sebelum mereka mulai

menulis.

Adapun prosedur penulisan yang biasanya banyak digunakan adalah

melalui lokakarya dan individual (dibawa pulang). Prosedur penulisan item

melalui lokakarya memiliki keuntungan bahwa penulis item dapat berkonsentrasi

penuh pada pekerjaan, dengan asumsi semua fasilitas dan sumber daya

tersedia. Namun, dengan prosedur lokakarya ini penulis tidak dapat memproduksi

item yang banyak karena waktunya akan sangat terbatas. Sebaliknya berlaku

untuk prosedur kedua. Pilihan prosedur yang sesuai tergantung pada rentang

waktu yang ditargetkan, beban pekerjaan dan sumber daya keuangan yang

tersedia.

Poin kedua dalam tahap penulisan item ini adalah berapa kali item perlu

ditinjau dan siapa yang akan meninjaunya. Ada dua cara dalam pelaksanaan

peninjauan item-item ini. Pertama adalah bahwa para peninjau item berkumpul

untuk meninjau item satu persatu dalam diskusi panel peninjauan. Kedua,

peninjau item dapat melakukan aktivitas review mereka secara individual dan

independen yang selanjutnya dibahas bersama-sama dalam suatu pertemuan

khusus para peninjau item tersebut. Dalam tahapan ini petunjuk teknis manual

peninjauan item tersebut harus disediakan untuk para peninjau item (Nitko dan

Hsu, 1985). Peninjau item setidaknya harus terdiri dari penulis item senior,

spesialis subjek dan spesialis pengukuran.

Poin selanjutnya dalam tahap penulisan item adalah aspek apa saja yang

perlu ditinjau. Komponen peninjauan item ini mencakup akurasi dalam hal

kesukaran, kepentingan dan bias, kesesuaian dengan spesifikasi, relevansi

lingkungan, dan peluang peserta ujian (Millman dan Greene, 1989). Berdasarkan

komponen ini, panel peninjau item dapat menerima, memodifikasi, atau

membuang komponen-komponen item tersebut. Item yang telah diterima,

selanjutnya akan dirangkai menjadi suatu set tes yang siap diujikan di lapangan

(Hayat, 1989).

c. Pengujian Lapangan

Tujuan pengujian lapangan atau field testing ini adalah untuk mendapatkan data

empiris dari item-item yang diujikan. Ketepatan data empiris item tergantung

pada jenis analisis yang akan dilakukan maupun karakteristik dan ukuran sampel

yang digunakan dalam pengujian ini (Hayat, 1989).

Analisis dengan model IRT lebih baik jika dibandingkan dengan analisis

item klasik. Proses analisis item menggunakan model IRT mengarah

ke parameter item dengan sampel yang invarian. Sehingga statistik item tidak

tergantung pada karakteristik sampel peserta ujian yang digunakan dalam

analisis. Namun, ukuran sampel yang besar diperlukan untuk analisis berbasis IRT

untuk mendapatkan estimasi parameter item yang stabil (Hambleton &

Swaminathan, 1985).

d. Analisis dan Kalibrasi Item

Setelah melaksanakan pengujian lapangan maka langkah selanjutnya adalah

melakukan analisis psikometri pada item-item tes tersebut. Dalam hal ini proses

analisis item dapat ditempuh dengan dua pendekatan yaitu Confirmatory Factor

Analysis (CFA) dan Item Response Theory (IRT).

Confirmatory Factor Analysis (CFA) merupakan bagian dari analisis faktor

sebagai sebuah metodologi statistik yang berhubungan dengan variabel yang

dapat diamati secara tidak langsung seperti konstruk laten (Raykov dan

Marcoulides, 2011). Adapun penentuan jumlah faktor dan pola indikator muatan

faktor dilakukan terlebih dahulu, serta parameter lain seperti yang terkait dengan

independensi atau kovarians faktor dan variasi indikator yang unik. Solusi faktor

yang ditentukan sebelumnya dievaluasi dalam hal seberapa baik mereproduksi

matriks korelasi sampel (kovarians) dari variabel yang diukur. Jadi CFA

membutuhkan fondasi empiris atau konseptual yang kuat untuk memandu

spesifikasi dan evaluasi model faktor (Brown dan Moore, 2012; Brown, 2015).

Tujuannya adalah untuk menguji validitas konstruk, yaitu ketepatan

konstruksi teoretis yang mendasari disusunnya tes (Nunnally, 1978; Allen & Yen,

1979) artinya apakah item-item yang digunakan benar-benar mengukur apa yang

seharusnya diukur atau tidak. Untuk dapat menentukan validitas konstruk ini

dibutuhkan suatu kriteria ukuran kecocokan mutlak (absolute fit measures) yaitu

suatu ukuran kecocokan model secara keseluruhan (model struktural dan model

pengukuran) terhadap matriks korelasi dan matriks kovarians. Adapun kriteria

kecocokan tersebut dapat dilihat dengan beberapa kriteria indeks fit sebagai

berikut:

(1) Chi-Square

Indeks ketepatan model paling umum adalah nilai Chi-Square. untuk

menilai model fit maka diharapkan nilai Chi-Square tidak signifikan (p-

value > 0.05) karena hasil tersebut menandakan bahwa tidak ada perbedaan

antara model dengan data (Joreskog & Sorbom, 1993). Meskipun demikin,

nilai Chi-square sangat sensitif terhadap jumlah sampel, dimana jika sampel

besar ada kecenderungan hasil estimasi untuk signifikan, sehingga diartikan

sebagai model tidak fit.

(2) RMSEA (Root Mean Square Error of Aproximation)

Kriteria ini adalah bertujuan menjelaskan residu yang terdapat di dalam

model. Besaran nilai RMSEA yang diharapkan ≤ 0.05. Nilai RMSEA ≤ 0.05

menandakan bahwa model fit dengan sangat baik (Browne & Cudeck,

1993; Wang & Wang, 2012).

(3) Comparative Fit Index (CFI)

Adalah nilai perbandingan model yang disusun dengan model yang ideal.

Nilainya berkisar antara 0 sampai 1. Nilai CFI yang mendekati 1

mengindikasikan model memiliki tingkat kesesuaian yang baik. Nilai CFI

yang diharapkan adalah di atas 0,90 (Hooper, Coughlan, & Mullen, 2008).

(4) Tucker Lewis Index (TLI)

Kriteria Tucker Lewis Index (TLI) merupakan indeks kesesuaian

incremental (incremental fit) membandingkan model yang diuji dengan

baseline model. TLI digunakan untuk mengatasi permasalahan yang timbul

akibat kompleksitas model. Nilai penerimaan yang direkomendasikan

adalah nilai TLI > 0,90. TLI merupakan indeks yang kurang dipengaruhi

oleh ukuran sampel (Brown, 2003; Hu & Bentler, 1999).

Setelah pengujian validitas dilakukan, maka selanjutnya adalah melakukan

estimasi parameter item. Proses analisis ini dilakukan dengan pendekatan Item

Response Theory (IRT). Liang, Wells & Hambleton (2014) mengatakan bahwa:

“Item response theory (IRT) is a powerful scaling technique with appealing

features such as the invariance of item and ability parameter values”. Tujuan

utama IRT dikembangkan adalah untuk mengatasi kelemahan teori tes klasik yang

tidak independen terhadap kelompok peserta yang mengerjakan tes maupun

terhadap tes yang diujikan.

Terlepas dari kompleksitas prosedur matematika dari IRT, ide dasarnya

relatif lebih mudah dipahami yaitu teori tentang bagaimana variabel orang

bersama-sama dengan variabel item menentukan data respons ketika seseorang

merespons suatu item. Walaupun ada banyak variabel seperti itu, teori ini

mengasumsikan bahwa hanya beberapa variabel yang secara dominan

menentukan respon (Umar, 1999).

Molenaar (1995) mengemukakan IRT dibangun dari pemahaman bahwa

probabilitas responden menjawab benar terhadap suatu item dapat dideskripsikan

sebagai fungsi sederhana dari posisi responden pada suatu trait laten, ditambah

dengan satu atau lebih parameter yang menjadi karakteristik item. Lebih lanjut

Hambleton, et al. (1991) menyatakan bahwa dasar dari IRT adalah (a)

performansi responden terhadap item dapat diprediksikan berdasar sejumlah

faktor yang disebut trait atau abilitas laten yang menunjukkan kemampuan atau

ciri sifat, (b) hubungan performansi responden terhadap item dan trait yang

mendasari performansi terhadap item digambarkan meningkat secara monotonik,

membentuk suatu fungsi yang disebut Item Characteristic Curve (ICC). Kurva

tersebut meningkat secara monoton sepanjang kemampuan kontinum, yang berarti

semakin tinggi kemampuan semakin baik kinerja pada item tersebut (Umar,

1999).

Ada dua asumsi penting yang mendasari pendekatan IRT, yaitu asumsi

unidimensionality dan local independence (Hambleton et al, 1991).

Unidimensionalitas artinya bahwa hanya satu kemampuan diukur oleh item yang

membentuk tes. Tes yang unidimensional terdiri dari item yang hanya memiliki

satu dimensi (DeMars, 2010) atau ketergantungan statistik antara item dapat

dipertanggungjawabkan oleh satu faktor yang mendasarinya (Raykov &

Marcoulides, 2011). Hambleton et al, (1991) menyatakan asumsi

unidimensionalitas dapat dipenuhi dengan baik yaitu dengan adanya komponen

atau faktor "dominan" yang mempengaruhi kinerja pengujian.

Komponen atau faktor dominan ini disebut sebagai kemampuan yang diukur

dengan tes. Perlu dicatat, bahwa kemampuan tidak selalu melekat atau tidak dapat

diubah. Skor kemampuan mungkin diharapkan berubah seiring waktu karena

pembelajaran, lupa, dan faktor-faktor lainnya. Model IRT di mana kemampuan

merupakan faktor tunggal dianggap cukup untuk menjelaskan kinerja peserta tes

disebut sebagai model unidimensional. Pelanggaran asumsi ini dapat

menyebabkan kesalahan estimasi parameter atau standard error (DeMars, 2010).

Asumsi kedua adalah local independence, yang berarti bahwa ketika

kemampuan yang mempengaruhi kinerja agar tetap konstan, respons peserta ujian

terhadap setiap pasangan item secara statistik independen. Dengan kata lain,

setelah memperhitungkan kemampuan peserta ujian, tidak ada hubungan antara

respons peserta ujian terhadap item yang berbeda. Secara sederhananya, ini berarti

bahwa kemampuan yang ditentukan dalam model adalah satu-satunya faktor yang

mempengaruhi respons peserta ujian untuk item tes. Seperangkat kemampuan ini

mewakili ruang laten lengkap. Jika asumsi unidimensionalitas terpenuhi, konstruk

/ faktor yang diukur hanya terdiri dari satu kemampuan (Hambleton et al., 1991).

Ketika asumsi unidimensionalitas terpenuhi, hal ini sekaligus menunjukkan

bahwa asumsi local independence terpenuhi. Artinya, dua konsep ini setara (Lord.

1980; Lord & Novick. 1968). Local independence akan diperoleh setiap kali

faktor telah ditentukan yaitu ketika semua dimensi kemampuan yang

memengaruhi kinerja telah diperhitungkan (Hambleton et al., 1991).

Dalam pendekatan IRT ini ada tiga model yang sering digunakan, yaitu:

model One Parameter Logistic (1PL), Two Parameter Logistic (2PL) dan Three

Parameter Logistic (3PL). Nama model tersebut disesuaikan dengan jumlah

parameter item yang dipergunakan. Parameter yang dimaksud adalah taraf

kesukaran item, daya pembeda item dan pseudo guessing (tebakan semu)

(Hambleton & Swaminathan, 1985; Hambleton et al., 1991; Embretson & Raise,

2000).

Model 1PL merupakan model IRT yang paling sederhana yang sering

disebut sebagai Rasch model. Pada model ini item-item diasumsikan mempunyai

daya pembeda yang sama dan tidak memperhitungkan tebakan semu. Setiap item

hanya mempunyai tingkat kesukaran (b) yang bervariasi. Parameter b mengacu

pada titik pada skala kemampuan (ability) dimana seorang peserta mempunyai

peluang 50% menjawab item dengan benar. Semakin besar nilai parameter b,

maka semakin sulit item tersebut.

Ketika item-item diasumsikan mempunyai parameter daya beda (a) yang

bervariasi maka model 2PL lebih cocok. Nilai a tinggi menunjukkan bahwa item

tersebut lebih dapat membedakan peserta tes kedalam kelompok kemampuan

yang berbeda dibandingkan dengan nilai a yang rendah. Model 3PL digunakan

ketika parameter pseudo guessing / tebakan semu (c) diasumsikan ada dalam

model. Parameter ini merepresentasikan peluang seorang peserta tes dengan

kemampuan sangat rendah menjawab item soal dengan tingkat kesukaran yang

tinggi dengan benar.

Model logistik satu parameter atau yang biasanya dikenal dengan nama

model Rasch, merupakan model IRT yang paling sering digunakan. Pada model

ini item-item diasumsikan mempunyai daya pembeda yang sama dan tidak

memperhitungkan tebakan semu. Kecocokan asumsi bergantung pada data yakni

misalnya pada tes yang relatif mudah dan terdiri dari item-item homogen. Dalam

kondisi ukuran sampel yang kecil, estimasi yang dihasilkan model Rasch

dimungkinkan lebih akurat jika dibandingkan dengan hasil dari model tiga

parameter (Lord, 1980). Model ini juga dinilai memiliki kemudahan dalam

pelaksanaannya karena jumlah parameter yang sedikit (Hambleton &

Swaminathan, 1985). Persamaan model logistik satu parameter adalah sebagai

berikut:

𝑷𝒊(𝛉) = 𝒆𝒂(𝛉−𝒃𝒊)

𝟏 + 𝒆𝒂(𝛉−𝒃𝒊) (persamaan 2.1)

Dimana Pi (θ) adalah probabilitas responden yang terpilih secara random dengan

kemampuan θ menjawab item i dengan benar, 𝑏𝑖 adalah parameter kesukaran item

i, dan e adalah nilai 2.718. Parameter 𝑏𝑖 merupakan titik pada kontinum abilitas

dimana probabilitas respons benar adalah 0.5. Semakin besar nilai parameter 𝑏𝑖,

semakin besar pula abilitas yang dibutuhkan bagi responden untuk memperoleh

peluang 50% menjawab item dengan benar (Hambleton et al., 1991).

Model logistik dua parameter merupakan generalisasi dari model satu

parameter yang memungkinkan adanya perbedaan pada daya pembeda item.

Model ini dapat dikenakan pada tes dengan item yang direspon secara bebas.

Selain itu, model logistik dua parameter juga dapat dikenakan pada tes pilihan

ganda, dalam kondisi tes tersebut tidak terlalu sukar bagi individu (Hambleton et

al., 1991). Persamaan model logistik dua parameter adalah sebagai berikut:

𝑷𝒊(𝛉) = 𝒆𝑫𝒂𝒊(𝛉−𝒃𝒊)

𝟏 + 𝒆𝑫𝒂𝒊(𝛉−𝒃𝒊) (persamaan 2.2)

Dimana faktor D adalah faktor penskalaan yang diperkenalkan untuk membuat

fungsi logistik sedekat mungkin dengan fungsi ogive normal, dengan nilai D =

1.7. Sementara 𝑎𝑖 merupakan parameter diskriminasi item. Parameter ini

memberikan informasi sejauh mana item mampu membedakan kelompok

responden dengan abilitas tinggi dan rendah. Item dengan ai tinggi ditunjukkan

dengan kemiringan yang curam. Item tersebut lebih mampu membedakan

responden pada tingkat abilitas yang berbeda dibandingkan item dengan

kemiringan yang landai (Hambleton et al., 1991).

Sedangkan model logistik tiga parameter cocok dikenakan pada tes yang

memandang tebakan sebagai faktor yang berkontribusi penting dalam performansi

tes. Kondisi seperti ini dapat terjadi pada tes pilihan ganda. Parameter pseudo

guessing / tebakan semu pada umumnya terdeteksi pada tes dengan item-item

yang memiliki taraf kesukaran yang tinggi. Item-item yang sukar untuk dijawab

memungkinkan individu untuk memilih jawaban dengan cara menebak

(Hambleton et al., 1991). Persamaan dari model logistik tiga parameter adalah

sebagai berikut:

𝑷𝒊(𝛉) = 𝒄𝒊 + (𝟏 − 𝒄𝒊)𝒆𝑫𝒂𝒊(𝛉−𝒃𝒊)

𝟏 + 𝒆𝑫𝒂𝒊(𝛉−𝒃𝒊) (persamaan 2.3)

Pada model logistik tiga parameter terdapat tambahan parameter yakni 𝑐𝑖 atau

pseudo-chance level (Hambleton et al., 1991). Parameter ini menunjukkan

probabilitas responden dengan kemampuan rendah menjawab item dengan tingkat

kesukaran jauh lebih tinggi dari kemampuannya dengan benar.

Setelah analisis item dilakukan maka langkah selanjutnya adalah proses

kalibrasi. Kalibrasi item adalah proses estimasi parameter item dan parameter

kemampuan orang untuk mengetahui kedudukan item dan orang dalam suatu

instrumen tes berdasarkan model Item Response Theory (Standards for

Educational and Psychological Testing, 1999; Wells, et al., 2002; Yen &

Fitzpatrick, 2006). Pada tes-tes standar, diasumsikan bahwa parameter item telah

diketahui. Hal ini dikarenakan kalibrasi item dilakukan selama proses standarisasi

tes. Pada tes yang baru diujikan, parameter-parameter item akan diestimasi dari

data yang diperoleh. Selain mengestimasi parameter item, parameter kemampuan

juga diestimasi. Pada berbagai situasi diperlukan lebih dari satu perangkat tes

yang diujikan (Wright & Stone, 1979).

e. Linking Design

Ketika item baru akan terus ditambahkan ke bank, maka dibutuhkan prosedur

menghubungkan skala yang diperoleh dari kalibrasi baru ke skala yang ada di

bank (Umar, 1999). Pada keadaan ini, permasalahan yang muncul adalah

bagaimana menempatkan parameter item yang baru atau parameter item pada tes

sebelumnya, apakah perlu untuk ditempatkan pada skala item-item yang telah

dikalibrasi atau pada skala yang baru.

Hayat (1989) mengungkapkan tidak ada skema yang ditetapkan untuk

mengklasifikasikan desain linking ini, namun ada beberapa desain yang dapat

digunakan antara lain: Group Link Design, Test or Item Link Design dan Group

and Item Link Design.

(1) Group Link Design

Dalam klasifikasi ini, linking dicapai dengan menggunakan parameter orang

sebagai alat transformasi parameter. Ada tiga jenis desain di bawah

klasifikasi ini yaitu single group, equivalent group, dan anchor group.

Pada desain Single Group ini dua buah tes yang akan dikaitkan

diujikan pada kelompok yang sama. Desain ini sederhana, tetapi tidak

praktis karena membutuhkan waktu yang lama dan karena satu kelompok

harus mengerjakan dua tes sekaligus. Hal tersebut juga menjadi sebuah

kelemahan karena pengalaman pengujian dan efek kelelahan dapat

mengganggu proses equating (Hambleton, 1985).

Sementara pada desain equivalent group, dua bentuk tes diberikan

kepada kelompok peserta ujian yang setara tetapi tidak identik. Pemilihan

kelompok dapat dilakukan secara acak diambil dari populasi. Keuntungan

utama dari desain ini adalah bahwa efek latihan dan kelelahan dapat

dihindari. Akan tetapi, karena kelompoknya tidak sama, bias dalam proses

equating dapat muncul karena perbedaan distribusi kemampuan kedua

kelompok (Hambleton, 1985).

Sedangkan pada desain anchor group sekelompok peserta ujian yang

sama mengambil kedua bentuk tes. Jika beberapa bentuk pengujian

dikembangkan dan ukuran sampel yang besar tersedia, desain dapat

diperluas untuk membentuk struktur penghubung dengan membagi sampel

menjadi beberapa kelompok dan kelompok tersebut dihubungkan oleh

kelompok yang sama. Desain ini memiliki keuntungan bahwa kelompok

tidak harus setara. Desain ini juga sangat berguna dalam situasi di mana

berbagai bentuk tes dikembangkan dan desain anchor item tidak

memungkinkan untuk digunakan. Sementara kerugian utama dari desain ini

adalah sulit untuk menemukan kelompok yang dapat mengambil lebih dari

satu formulir tes. Jika desain anchor group ini digunakan, disarankan bahwa

grup lain harus berisi setidaknya 30 peserta ujian (Vale, 1986).

(2) Test or Item Link Design

Desain ini sering digunakan karena cukup mudah dan efektif penggunaanya.

Pendekatan common item biasanya lebih sering digunakan karena dalam

desain ini responden biasanya akan mengambil item lebih sedikit daripada

yang diperlukan dalam desain common person. Gambar 2.1a dan 2.1b

menunjukkan dua cara sederhana untuk menghubungkan skala yang

diperoleh dari lima set item yang diberikan ke lima kelompok peserta ujian

yang berbeda (area yang gelap adalah item yang sama).

Gambar 2.1 (a) empat set item yang sama menghubungkan lima formulir

tes. (b) satu set item yang sama menghubungkan lima formulir tes.

Jumlah anchor item adalah bagian penting dari desain linking ini.

Semakin besar jumlah anchor semakin baik. Jika jumlah anchor terlalu

sedikit, prosedur linking mungkin tidak mendapatkan hasil yang diharapkan.

Tidak ada aturan yang disepakati dalam jumlah anchor ini. Wingersky &

Lord (1987) merekomendasikan sedikitnya lima item. Sementara Vale et al

(1986) mengungkapkan bahwa jumlah anchor item yang baik setidaknya

ada 15-25 item. Umar (1987) menunjukkan bahwa lima item dapat diterima

dan sepuluh item cukup di bawah model IRT.

(3) Group and Item Link Design

Pada kedua klasifikasi desain di atas, baik kelompok maupun item

digunakan sebagai teknik penghubung. Kombinasi penggunaan kelompok

dan item sebagai hasil tautan dalam desain double anchor di mana anchor

item dan anchor group digunakan secara bersamaan. Meskipun desain ini

tampaknya menawarkan manfaat tambahan karena anchoring utamanya,

tidak ada transformasi sederhana untuk desain double anchor (Vale, 1986).

Akibatnya, desain ini jarang digunakan dalam praktiknya.

Mengingat berbagai desain linking seperti yang dibahas di atas dengan kelebihan

dan kekurangannya, pilihan desain bukanlah tugas yang mudah. Adapun beberapa

pertimbangan dalam memilih desain linking yang sesuai mencakup jumlah

formulir tes yang dikembangkan, panjang tes, dan ukuran sampel peserta ujian

yang tersedia harus diperhitungkan. Lebih jauh lagi jika grup-grup tersebut setara,

desain equivalent group dapat digunakan, jika tidak, desain anchor item lebih

efektif (Vale, 1986). Untuk meningkatkan efisiensi pengujian lapangan,

disarankan untuk menggunakan kombinasi beberapa formulir dalam single group

design dan anchor item dalam grup berbeda.

Desain linking ini selanjutnya digunakan dalam proses equating. Proses

equating bertujuan untuk menentukan konstanta konversi. Proses equating terhadap

dua perangkat tes atau lebih dapat dilakukan jika konstanta konversi telah diketahui

(Hambleton & Swaminathan, 1985). Nilai konversi yang dihasilkan kemudian

disubstitusi dalam persamaan skala dalam rancangan equating yang digunakan.

Adapun beberapa metode equating untuk menentukan konstanta konversi menurut

Item Response Theory (IRT) adalah sebagai berikut:

(1) Regression Method

Penentuan konstanta konversi α dan β menggunakan metode regresi dilakukan

dengan memperhatikan respons peseta tes pada kedua perangkat tes X dan Y.

Estimasi parameter item dan parameter kemampuan peserta memenuhi persamaan

regresi linier sbagai berikut (persamaan 2.4):

𝒚 = 𝜶𝒙 + 𝜷 + 𝜺

𝜶 = 𝒓𝒙𝒚𝒔𝒚

𝒔𝒙

𝜷 = �̅� − 𝜶�̅�

Keterangan:

y : estimasi kemampuan atau estimasi parameter item pada perangkat tes Y,

x : estimasi kemampuan atau estimasi parameter item pada perangkat tes X,

𝑟𝑥𝑦 : koefisien korelasi antara X dan Y,

�̅�, �̅�: rerata dari y dan x,

𝑠𝑥, 𝑠𝑦 : simpangan baku dari x dan y.

Penggunaan metode ini bersifat tidak timbal balik (asimetris) sehingga

kurang memadai untuk penentuan konstanta konversi apalagi mengingat bahwa

penyetaraan dua perangkat tes atau lebih sangat memerlukan syarat invariansi dan

timbal balik dari perangkat tes yang disetarakan.

(2) Mean dan Sigma Method

Penentuan konstanta konversi α dan β menurut metode mean dan sigma dilakukan

dengan memperhatikan nilai estimasi parameter tingkat kesukaran item tes pada

kedua perangkat tes yaitu 𝑏𝑥 dan 𝑏𝑦. Menurut Hambleton & Swaminathan (1985),

hubungan antara estimasi parameter item tes atau parameter kemampuan peserta

pada kedua perangkat tes yang akan disetarakan dan penentuan konstanta

konversinya memenuhi persamaan sebagai berikut (persamaan 2.5):

𝒚 = 𝜶𝒙 + 𝜷

�̅� = 𝜶�̅� + 𝜷

𝜶 = 𝒔𝒚

𝒔𝒙

𝜷 = �̅� − �̅�𝒙

Keterangan:

y : estimasi kemampuan atau estimasi parameter item pada perangkat tes Y,

x : estimasi kemampuan atau estimasi parameter item pada perangkat tes X,

�̅�, �̅�: rerata dari y dan x,

𝑠𝑥, 𝑠𝑦 : simpangan baku dari x dan y.

Metode mean dan sigma ini bersifat timbal balik sehingga dengan cara yang sama

hubungan dari y ke x dapat ditentukan. Namun demikian, menurut Hambleton &

Swaminathan (1991) mengemukakan bahwa metode penyetaraan mean dan sigma

ini tidak mempertimbangkan variasi standar error estimasi parameter item.

(3) Robust Mean dan Sigma Method

Berbeda dengan metode mean dan sigma, menurut Linn, et al (dalam Hambleton

& Swaminathan, 1991) menyatakan bahwa metode Robust Mean dan Sigma

Method mempertimbangkan adanya variasi standar error estimasi parameter item.

Adapun dalam prosedur penyetaraan dengan metode Robust Mean dan Sigma

Method yang dikembangkan oleh Linn, Levin, Hastings, & Wardrop (dalam

Hambleton & Swaminathan, 1991), langkah-langkah penentuan konstanta

konversi dalam penyetaraan tes adalah sebagai berikut (persamaan 2.6):

i) Menentukan bobot parameter item i (𝑤𝑖) pada setiap pasangan

(𝑏𝑥𝑖 , 𝑏𝑦𝑖) dengan persamaan sebagai berikut:

𝒘𝒊 = [𝒎𝒂𝒌𝒔{𝒗(𝒙𝒊), 𝒗(𝒚𝒊)}]-1

dengan, 𝑣(𝑥𝑖) dan 𝑣(𝑦𝑖) adalah varians estimasi parameter tingkat

kesukaran item perangkat tes X dan Y.

ii) Menentukan bobot terskala 𝑤𝑖 dengan persamaan:

𝒘𝒊′ =

𝒘𝒊

∑ 𝒘𝒋𝒌𝒋=𝒍

dengan k adalah jumlah item pada perangkat tes.

iii) Menghitung estimasi bobot tes X dan Y dengan menggunakan rumus:

𝒙𝒊′ = 𝒘𝒊′𝒙𝒊

𝒚𝒊′ = 𝒘𝒊

′, 𝒚𝒊

iv) Menentukan mean dan standar deviasi dari estimasi berbobot tes X dan Y

yaitu x̅, y̅ dan sx, sy.

v) Menentukan konstanta konversi α dan β dengan menggunakan mean dan

standar deviasi estimasi berbobot dengan mensubstitusikan mean dan

standar deviasi estimasi berbobot pada persamaan penyamaan skala.

(4) Characteristic Curve Method

Penentuan konstanta konversi a dan b pada Characteristic Curve Method ini

dilakukan dengan memperhatikan nilai estimasi parameter item kedua perangkat

tes yang akan disetarakan misalnya X dan Y. Apabila pada metode mean and

sigma serta metode robust mean and sigma dalam menghitung konstanta konversi

hanya memperhitungkan hubungan antara paramater-parameter tingkat kesukaran

item perangkat tes yang satu dengan yang lainnya tanpa mempertimbangkan

hubungan antara parameter-parameter daya pembeda kedua prangkat tes maka

dengan Characteristic Curve Method, hubungan antara parameter-parameter daya

pembeda kedua prangkat tes dipertimbangkan. Penyetaraan tes dengan metode ini

mempertimbangkan informasi dari parameter daya pembeda item dan tingkat

kesukaran item dalam penentuan konstanta konversi (Haebara, 1980). Oleh karena

itu, dalam metode ini diperhatikan hubungan antara parameter daya pembeda dan

hubungan antara parameter tingkat kesukaran item pada perangkat tes yang akan

disetarakan. Selain itu, dalam metode ini juga diperhatikan true score peserta tes

pada kedua perangkat tes.

True score (𝜏𝑥𝑎) dari peserta tes dengan kemampuan q yang merespons k

butir dalam perangkat tes X dan Y ditentukan dengan rumus sebagai berikut

(persamaan 2.7):

𝝉𝒙𝒂 = ∑ 𝒑 (𝜽𝒂, 𝒃𝒙𝒊, 𝒂𝒙𝒊, 𝒄𝒙𝒊)

𝒊=𝒍

𝝉𝒚𝒂 = ∑ 𝒑 (𝜽𝒂, 𝒃𝒚𝒊, 𝒂𝒚𝒊, 𝒄𝒚𝒊)

𝒊=𝒍

Adapun penentuan konstanta konversi untuk setiap item pada perangkat tes X dan

Y dilakukan dengan rumus sebagai berikut:

𝒃𝒚𝒊 = 𝜶𝒃𝒙𝒊 + 𝜷

𝒂𝒚𝒊 = 𝒂𝒙𝒊

𝜶 = 𝒂𝒙𝒊

𝒂𝒚𝒊

𝜷 = 𝒃𝒚𝒊 − 𝜶𝒃𝒙𝒊

Secara keseluruhan tampak bahwa masing-masing metode memiliki kelebihan atau

kekurangan. Metode regresi tidak bersifat timbal balik, metode mean and sigma

bersifat timbal balik namun tidak mempertimbangkan variasi standar error estimasi

parameter item. Metode robust mean and sigma bersifat timbal balik dan

mempertimbangkan variasi standar error estimasi parameter item namun tidak

mempertimbangkan hubungan antar daya pembeda perangkat tes yang disetarakan.

Sedangkan Characteristic Curve Method selain bersifat timbal balik dan

mempertimbangkan variasi standar error estimasi parameter item juga

memperhitungkan hubungan parameter daya pembeda antara perangkat tes.

Memperhatikan kelebihan atau kelemahan masing-masing metode tersebut,

menunjukkan bahwa Characteristic Curve Method secara teoretik lebih baik dari

metode lainnya.

f. Pemilihan Item

Jika semua item tes telah dianalisis dan dikalibrasi, langkah selanjutnya adalah

memilih item yang akan dimasukkan ke dalam bank. Hayat (1989)

mengungkapkan bahwa proses pemilihan dapat menghasilkan penerimaan item

yang akan dimasukkan dalam bank, merevisi item yang akan diuji ulang atau

membuang item. Item dipilih berdasarkan penilaian dan sifat statistiknya.

Dalam IRT, kriteria didasarkan pada apakah data item cocok dengan model

IRT seperti yang ditunjukkan oleh ukuran kecocokan yang ditentukan

sebelumnya. Jika ada cukup bukti bahwa suatu item berperilaku seperti yang

diharapkan oleh model, item tersebut diterima di bank. Tidak ada kriteria tunggal

dalam proses pemilihan item ini. Menurut Hambleton, et al., (1985) parameter

daya pembeda ini dapat diterima ketika nilainya positif dan berkisar antara 0

sampai dengan 2 dengan tingkat kesukaran item berkisar antara −2 sampai

dengan + 2. Sedangkan Nitko (1983) mengungkapkan ada beberapa aturan yang

dapat digunakan sebagai pedoman umum. Item yang memiliki indeks daya beda ≥

+ 0.30 dengan indeks kesukaran mulai dari 0.16 hingga 0.84 dapat diterima. Item

yang tidak memenuhi kriteria yang ditentukan dapat diteliti lebih lanjut apakah

harus direvisi atau dibuang tergantung pada kualitas item. Item yang ditolak yang

perlu direvisi harus dimasukkan dalam uji coba item berikutnya (Hayat, 1989).

g. Penyimpanan dan pengambilan item

Item harus disimpan di bank yang terkomputerisasi (Bergstrom & Gershon, 1995;

Hayat, 1989) karena siklus hidup suatu item biasanya mencakup pengembangan,

peninjauan oleh konten dan panel bias, uji lapangan, penulisan ulang, administrasi

pengujian, analisis dan administrasi tes tambahan. Beberapa langkah ini dapat

diulang lebih dari satu kali (Bergstrom & Gershon, 1995). Hayat (1989)

menambahkan, penyimpanan item harus mencakup teks item dan

informasi. Menggunakan teknologi komputer canggih, item-item yang

membutuhkan gambar, grafik atau karakter khusus juga dapat disimpan menyertai

teks. Jika komputer tidak dapat menangani masalah ini, sistem pencatatan manual

harus digunakan.

Informasi item yang akan disimpan harus mencakup tiga jenis informasi: (a)

non-statistik, (b) analisis item tradisional, dan (c) model respons item. Informasi

non- statistik harus berisi: nomor identifikasi, tingkat kelas, tujuan, topik, tingkat

kognitif, tanggal administrasi, penggunaan anchor, jenis item, kunci jawaban, dan

kode kegunaan (Holmes, 1983). Data analisis item tradisional berisi informasi

tentang kesukaran item, daya pembeda item, analisis distraktor dan ukuran

sampel. Informasi berdasarkan analisis IRT harus mencakup estimasi tingkat

kesukaran item, kesalahan standar estimasi tingkat kesukaran item dan ukuran

kecocokan atau measures of fit (Hayat, 1989).

Tiga jenis informasi item yang disebutkan di atas kemudian digunakan

untuk menghasilkan item guna membangun tes. Prosedur pengambilan harus

dikembangkan sesuai dengan klasifikasi konten dan sifat statistik. Adapun

prosedur pengambilan item-item tersebut adalah sebagai berikut. Pertama,

konstruksi tes menunjukkan berapa jumlah item yang diinginkan untuk tes

tersebut. Selanjutnya, kriteria pemilihan item ditunjukkan dengan menentukan

jenis item yang dibutuhkan. Kriteria ini terkait dengan informasi klasifikasi dari

item yang meliputi topik, tujuan, tingkat kognitif, dan estimasi kesukaran dan

lainnya.

Prosedur penyimpanan dan pengambilan item di bank tergantung pada

bagaimana sistem item bank dibangun dan peralatan software apa yang akan

digunakan. Memberikan kesan bahwa sistem menjadi sangat fleksibel dalam hal

informasi apa yang dapat disimpan di bank dan bagaimana informasi dapat

dimasukkan ke dalam sistem, diambil, ditampilkan, dan kemudian dirangkum

(Holmes, 1983).

h. Pengelolaan Item Bank

Setelah item bank dibuat dan digunakan, maka pemeliharaan item bank ini harus

dilakukan dengan baik. Pembuatan jadwal yang baik dan teratur dalam

pembaharuan dan pemeliharaan item-item di bank harus ditetapkan. Permasalahan

terkait hal ini adalah: siapa yang akan diizinkan untuk memperbaruinya, prosedur

apa yang akan digunakan, siapa yang akan menggandakan item dan menghapus

item, kriteria penghapusan item-item dari bank dan bagaimana statistik item akan

diperbarui (Nitko dan Hsu, 1984).

Proses pengelolaan item bank ini harus dilaksanakan secara

berkelanjutan. Ini berarti bahwa di bank harus diperbarui dalam jadwal yang

teratur. Agar item bank tumbuh, lebih banyak item harus ditambahkan terus

menerus ke dalamnya. Jadwal untuk memperbarui item bank harus ditetapkan

setidaknya setiap dua tahun. Selain itu, properti item tertentu harus diganti setiap

tahunnya (Hayat, 1989).

Item bank tergantung pada sistem informasi. Penyimpanan, pembuatan

katalog dan pengambilan item-item jelas membutuhkan bantuan komputer,

khususnya di bank yang lebih besar. Perhitungan yang terlibat dalam estimasi

parameter, merancang bentuk tes optimal untuk tujuan tertentu dan skoring tes,

dengan mempertimbangkan parameter item yang diketahui, tidak akan mustahil.

Dalam hal ini, ketersediaan perangkat lunak yang baik dan mudah digunakan

sangat penting untuk implementasi praktis dari item bank (Umar, 1999).

Umar (1999) mengungkapkan setidaknya ada tiga jenis perangkat lunak

yang dibutuhkan dalam praktik item bank. Pertama, sebuah program berbasis data

yang cocok untuk penyimpanan, permintaan, pengambilan, memformat tata letak

halaman tes dan mencetak kertas ujian. Banyak item yang membutuhkan data

grafis untuk disisipkan melalui gambar atau pemindaian optik, sementara

beberapa item lainnya mengandung simbol matematika atau ilmiah yang tidak

tersedia pada keyboard komputer. Dalam pemilihan item untuk memenuhi

spesifikasi item tes tertentu data termasuk grafik dan simbol harus disusun dan

ditampilkan sehingga setiap item muncul seperti pada kertas yang dicetak. Oleh

karena itu, perangkat lunak yang dikembangkan secara khusus untuk

mengoperasikan dan mengelola item bank sangat diperlukan.

Tipe kedua dari perangkat lunak komputer yang dibutuhkan dalam item

bank adalah perangkat lunak statistik untuk estimasi parameter IRT dan analisis

item klasik. Perangkat lunak jenis ini sudah banyak tersedia tetapi pengguna

potensialnya terbatas karena membutuhkan pengetahuan teknis dalam statistik

lanjutan (khususnya IRT). Sehingga ada kemungkinan bahwa beberapa lembaga

yang tertarik pada gagasan item bank tidak mengembangkannya karena kurangnya

keahlian dalam IRT.

Tipe ketiga dari perangkat lunak yang dibutuhkan dalam item bank adalah

alat untuk penilaian skor, cara kreatif untuk melaporkan hasil tes, dan untuk

merancang tes yang terdiri dari kombinasi terbaik dari item yang tersedia dalam

bank. Perangkat lunak yang digunakan dalam Computerized Adaptive Testing

(CAT) tergolong dalam kategori ini. Perangkat lunak jenis ini biasanya mudah

digunakan tetapi cukup sulit untuk dikembangkan.

Selain komputer ada dua subsistem yang harus tersedia dalam item bank:

sistem produksi item (termasuk kalibrasi dan pemeliharaan item) dan sistem

pemanfaatan / layanan. Untuk produksi item, perlu untuk memiliki program yang

berkelanjutan, dilakukan oleh para profesional penuh waktu, dengan anggaran

yang dialokasikan dan menggunakan jadwal yang ketat. Itu harus diatur dengan

baik bukan dengan sistem ad hoc dan aktivitas insidental (sementara).

METODE PENELITIAN

Pada bab ini yang akan penulis lakukan adalah bagaimana menganalisis data tes

kognitif Polri yang telah disusun dan digunakan dalam pelaksanaan tes psikologi

pada rekrutmen calon anggota Polri T.A 2018. Dalam bagian ini tidak dijelaskan

prosedur penyusunan tes kognitif tersebut karena sudah dijelaskan cukup detail

tentang langkah-langkah pengembangan tes kognitif Polri pada bab sebelumnya.

Hasil analisis item-item ini yang nantinya akan digunakan sebagai persiapan

pengembangan item bank tes kognitif Polri yang lebih luas lagi. Dibawah ini

dijelaskan bagaimana metode analisis data yang akan penulis lakukan terhadap

data tes kognitif Polri tersebut.

3.1 Responden Penelitian

Dalam studi ini data yang dianalisis diambil dari data tes psikologi seleksi calon

anggota Polri tahun 2018 pada salah satu Provinsi di Indonesia dengan responden

sebanyak 6204 orang. Adapun karakteristik responden dalam studi ini berusia

antara 18 - 24 tahun, berpendidikan minimal SMA / sederajat, berjenis kelamin

laki-laki dan perempuan yang telah berdomisili minimal 2 tahun di daerah tempat

mendaftar (Peraturan Kapolri Nomor 10, 2016).

3.2 Instrumen Penelitian

Instrumen atau alat ukur yang digunakan dalam studi ini adalah menggunakan

instrument tes kognitif Polri. Tes ini merupakan bagian tes inteligensi yang telah

dikembangkan secara mandiri oleh bagian Laboratorium psikologi Polri. Tes

kognitif yang digunakan terdiri dari 100 item. Dengan perincian 33 item

diteorikan mengukur aspek logis, 33 item diteorikan mengukur aspek praktis dan

34 item diteorikan mengukur aspek verbal.

Model soal yang digunakan pada tes kognitif Polri ini adalah berbentuk

pilihan ganda dengan data dikotomi (1 = jawaban benar, 0 = jawaban salah).

Adapun definisi operasional yang telah ditentukan oleh Polri pada masing-masing

aspek tes tersebut adalah sebagai berikut (Peraturan As SDM Kapolri Nomor 3,

2017):

(1) Aspek kemampuan berpikir logis adalah kemampuan untuk menyimpulkan

suatu hal berdasarkan pada sekumpulan data.

(2) Aspek kemampuan berpikir praktis adalah kemampuan untuk beradaptasi

pada setiap keadaan baik itu lingkungan, bentuk, keadaan, kondisi dan

lainnya untuk mencapai suatu target visi yang ingin dituju (bagaimana

seseorang mampu menentukan tentang penting atau berharganya tindakan

atau keputusan yang akan diambil.)

(3) Aspek kemampuan berpikir verbal adalah salah satu aspek kemampuan

yang sangat berguna dalam menganalisis informasi verbal, berpikir logis

ketika memahami sebuah tulisan, atau saat harus menyimpulkan sesuatu

secara logis (ragam pengukuran kemampuan verbal biasanya dilakukan

dalam bentuk pertanyaan tentang sinonim (persamaan kata), antonim (lawan

kata), hubungan antar kata atau analogi padanan kata, serta pemahaman

wacana).

Adapun keterangan terkait nama aspek, indikator dan nomor item dijelaskan

dalam blueprint dibawah ini:

Tabel 3.1. Blueprint tes kognitif Polri

Nama Aspek Indikator Nomor Item

Aspek Berpikir

• Kemampuan membangun pendapat

atau kesimpulan

4,5,6,14,15,16,17,28

,29,30,35,36,37,41,4

2,43,50,51,52,60,61,

67,68,75,76,81,82,8

7,88,93,94,99,100

• Mengolah dan menangkap data

secara umum serta melihat realitas

dalam suatu data

Aspek Berpikir

Praktis

• Mengambil keputusan dengan cara

berpikir sederhana 7,8,9,18,19,20,21,25

,26,27,38,39,40,47,4

8,49,57,58,59,62,63,

69,70,73,74,79,80,8

5,86,89,90,95,96

• Mempertimbangkan penting

tidaknya suatu tindakan serta

menyederhanakan suatu masalah

yang kompleks

Aspek Berpikir

Verbal

• Mampu mengenali persamaan kata

(sinonim) 1,2,3,10,11,12,13,22

,23,24,31,32,33,34,4

4,45,46,53,54,55,56,

64,65,66,71,72,77,7

8,83,84,91,92,97,98

• Mampu mengenali sifat lawan kata

(antonim)

• Mampu hubungan antar kata

(analogi)

• Mampu memahami esensi suatu

wacana

3.3 Prosedur Analisis Data

Proses analisis data yang dilakukan dalam studi ini adalah pengujian validitas

konstruk dengan pendekatan Confirmatory Factor Analysis (CFA), pengujian

asumsi teori tes modern (IRT) yaitu uji unidimensionalitas dan uji local

independence, serta estimasi parameter item dengan pendekatan IRT.

3.3.1 Uji Validitas Konstruk

Sebelum alat tes kognitif Polri ini dianalisis secara mendalam dengan

pendekatan IRT, terlebih dahulu alat tes kognitif ini diuji validitas konstruk

nya. Hal ini bertujuan untuk menguji apakah item-item yang menyusun tes

kognitif Polri ini benar-benar sudah valid secara konstruk artinya benar-

benar mengukur apa yang seharusnya diukur. Dalam menguji validitas

konstruk tes kognitif Polri ini penulis melakukan pengujian dengan

pendekatan Corfimatory Factor Analysis (CFA) dengan bantuan program

Mplus 8.4.

Adapun logika dasar dari pendekatan CFA ini adalah pertama menguji

hipotesis: apakah semua item mengukur satu konstruk yang didefinisikan.

Apabila terdapat perbedaan yang signifikan antara teori dengan data, maka

suatu model dikatakan tidak fit dengan data. Hipotesis nihil yang berbunyi

“tidak ada perbedaan antara matriks ∑ dengan matriks S” kemudian diuji

dengan beberapa indeks fit. Jika hasilnya memenuhi kriteria indeks fit yang

telah ditentukan maka hipotesis nihil tersebut “tidak ditolak“. Artinya teori

unidimensionalitas tersebut dapat diterima, dimana itemnya hanya

mengukur satu faktor saja (Umar, 2012). Dalam studi ini indeks fit yang

digunakan adalah Chi-Square dan RMSEA (Root Mean Square Error of

Aproximation).

Indeks Chi-Square adalah ketepatan model paling umum. Untuk

menilai model fit maka diharapkan nilai Chi-Square tidak signifikan (p-

value >0.05) karena hasil tersebut menandakan bahwa tidak ada perbedaan

antara model dengan data (Joreskog & Sorbom, 1993). Meskipun demikin,

nilai Chi-square sangat sensitif terhadap jumlah sampel, dimana jika sampel

besar ada kecenderungan hasil estimasi untuk signifikan atau diartikan

sebagai model tidak fit. Sehingga dalam analisis ini juga digunakan indeks

RMSEA, dengan kriteria jika nilai RMSEA ≤ 0.05 maka model dinyatakan

fit dengan data (Browne & Cudeck, 1993) dan dapat dilakukan analisis

psikometri lebih lanjut.

Setelah mendapatkan model yang fit, langkah berikutnya adalah

menguji hipotesis: apakah setiap item menghasilkan informasi secara

signifikan tentang konstruk yang diukur. Pada tahap ini, penulis menentukan

item mana yang valid dan item mana yang tidak valid. Adapun langkah

menentukan kriteria item yang baik pada CFA adalah sebagai berikut

(Umar, 2012):

(1) Melihat signifikan tidaknya suatu item dalam memberikan informasi

tentang suatu konstruk. Perbandingannya adalah jika t > 1,96 maka

item tersebut signifikan (dianggap valid) dan sebaliknya.

(2) Melihat koefisien muatan faktor dari item, jika koefisien muatan

faktor item bernilai negatif maka mengindikasikan bahwa item

tersebut tidak valid.

(3) Terakhir, apabila kesalahan pengukuran item terlalu banyak

berkorelasi, maka item tersebut tidak baik, dan disarankan untuk

dieliminasi. Sebab, item yang demikian selain mengukur apa yang

hendak diukur, juga mengukur hal lain.

3.3.2 Seleksi Model IRT dan Uji Asumsi Unidimensionalitas IRT

Setelah mendapatkan item-item yang valid melalui prosedur CFA, maka

proses selanjutnya adalah menentukan model IRT yang paling tepat dan

sesuai untuk menganalisis data tes kognitif Polri tersebut. Dalam hal ini

penulis menguji dua model IRT yaitu model 1PL dan model 2PL. Perangkat

lunak yang digunakan penulis dalam melakukan analisis ini adalah

menggunakan software Mplus 8.4 dengan metode estimasi yang digunakan

adalah metode estimasi WLSMV (robust weighted least square).

Dalam proses seleksi model ini penulis melakukan perbandingan dua

model tersebut dengan melihat nilai indeks fit Chi-Square dan RMSEA dari

masing-masing model. Jika nilai Chi-Square dan RMSEA kedua model

tersebut sama-sama menunjukkan nilai yang fit, maka selanjutnya dilakukan

analisa Chi-Square Difference Testing. Langkah tersebut digunakan untuk

menunjukkan model yang paling cocok dalam analisis data studi ini.

Dengan terpilihnya model tersebut maka secara otomatis pengujian

unidimensionalitas IRT akan terpenuhi karena dalam proses pemilihan

model IRT tersebut kriteria indek fit yang digunakan sama yaitu RMSEA

dengan kriteria nilai ≤ 0.05 menandakan close fit (Browne & Cudeck, 1993).

Artinya jika nilai RMSEA yang didapatkan dalam pengujian tes kognitif ini

≤ 0.05, maka boleh dikatakan bahwa asumsi unidimensionalitas terpenuhi.

3.3.3 Uji Asumsi Local Independence

Jika pengujian asumsi unidimensionalitas telah dilaksanakan, langkah

selanjutnya adalah melakukan uji asumsi local independence. Kedua asumsi

tersebut terkait erat karena ketika unidimensionalitas telah terbukti maka

respon pada masing-masing item akan memiliki sifat independen satu sama

lainnya selain mengukur satu faktor yang sama (Embretson & Reise, 2000).

Menurut beberapa tokoh, ketika asumsi unidimensionality benar,

maka local independence diperoleh. Dalam pengertian ini, dua konsep itu

setara (Lord. 1980; Lord & Novick. 1968) pengujian asumsi local

independence diuji mengikuti asumsi unidimensionality yang telah diuji

dengan menggunakan metode Confirmatory Factor Analysis (Lord, 2012;

Lord et al., 2008) dengan tidak adanya korelasi antara residual (perbedaan

antara probabilitas yang diprediksi dari perkiraan parameter item dan respon

aktual orang) dari sepasang item (DeMars, 2003).

3.3.4 Kalibrasi Parameter Item

Proses ini merupakan estimasi parameter item dan parameter kemampuan

orang untuk mengetahui kedudukan item dan orang dalam suatu instrumen

tes berdasarkan model Item Response Theory (Standards for Educational

and Psychological Testing, 1999; Wells, et al., 2002; Yen & Fitzpatrick,

2006). Pada pengujian kalibrasi ini dilihat beberapa gambaran tentang

karakteristik psikometris item-item tes kognitif Polri diantaranya adalah uji

fit statistics, analisis parameter tingkat kesukaran item dan daya pembeda

Tingkat kesukaran suatu item yang biasa dinotasikan dengan huruf b

merupakan salah satu parameter item yang sangat berguna dalam analisa

suatu tes. Dengan melihat parameter tingkat kesukaran item ini, maka akan

diketahui seberapa baiknya kualitas suatu item tersebut. Sedangkan tingkat

daya beda biasa dinotasikan dengan huruf a yang tujuannya adalah melihat

seberapa baik item tersebut dapat membedakan antara orang dengan

kemampuan rendah dan orang dengan kemampuan yang tinggi dalam

merespon suatu item (Hambleton & Swaminathan, 1985; Hambleton, et al,

1991).

Adapun langkah dalam melakukan kalibrasi item pada tiga aspek tes

kognitif Polri dilakukan dengan pendekatan IRT 2PL menggunakan bantuan

software Mplus 8.4 adalah sebagai berikut:

(1) Membuat syntax pengujian IRT 2PL sesuai dengan kebutuhan

sehingga diperoleh estimasi parameter tingkat kesukaran item dan

daya pembeda item yang dimuat pada output Mplus.

(2) Melihat nilai estimate pada table model result yang berisi nilai

signifikansi item dengan kriteria nilai EST./S.E. > 1,96 dan p-value <

0,05. Jika terdapat item yang tidak signifikan maka item tersebut

dibuang / didrop. Artinya, item tersebut tidak diikutsertakan dalam

proses kalibrasi.

(3) Melihat table IRT Parameterization yang berisi item discriminations

dan item difficulties untuk menganalisis parameter kesukaran item dan

daya pembeda item sehingga dapat diketahui kedua parameter tersebut

berdasarkan lokasi item berdasarkan skala z-score.

3.3.5 Pemilihan Item

Item-item yang telah melewati uji validitas konstrak dan kalibrasi ini

selanjutnya dipilih untuk dijadikan sebagai item-item persiapan dalam

pengembangan item bank tes kognitif Polri. Adapun dalam pemilihan item

ini penulis mengacu pada kriteria tingkat kesukaran item berkisar antara -2

sampai dengan +2 dengan tingkat daya beda bernilai positif dan berkisar

antara 0 sampai dengan 2 (Hambleton & Swaminathan, 1985; Hambleton, et

al, 1991).

HASIL ANALISIS DATA

Dalam bab ini akan dibahas tentang hasil yang didapatkan oleh penulis dalam

proses analisis data tes kognitif Polri. Adapun rangkaian pembahasannya adalah

sebagai berikut:

4.1 Hasil Uji Validitas Konstruk

Pembahasan ini menjelaskan tentang hasil uji validitas konstruk dari masing-

masing aspek yang menyusun tes kognitif Polri. Pengujian unidimensionalitas

CFA dan signifikansi item dijelaskan secara deskriptif dengan disertai path

diagram dan tabel signifikansi item.

4.1.1 Aspek Kemampuan Berpikir Logis

Penulis menguji apakah 33 item yang menyusun aspek kemampuan berpikir logis

bersifat unidimensional, yang artinya item-item tersebut mengukur satu faktor

yaitu kemampuan berpikir logis. Dari hasil analisis CFA dengan model satu faktor

didapatkan hasil Chi-square = 2906.731, df = 495, p-value = 0.000 , RMSEA =

0.028. Adapun path diagram dari hasil pengujian CFA ini dapat dilihat pada

gambar 4.1 dibawah ini.

Gambar 4.1. Path diagram

Model CFA 1 - faktor aspek kemampuan berpikir logis

Pada gambar 4.1 diatas dapat dijelaskan bahwa pengujian CFA 1-faktor

(unidimensional) fit dengan data. Hal tersebut terlihat dari kriteria nilai RMSEA ≤

0.05, yang artinya model dengan satu faktor (unidimensional) dapat diterima

meskipun indeks chi-square menunjukkan nilai yang signifikan (tidak fit) ini

dikarenakan indeks chi-square sangat sensitif dengan jumlah sampel yang besar.

Dengan hasil indeks RMSEA ≤ 0.05 tersebut dapat ditarik kesimpulan bahwa

model ini dapat diterima dan berarti bahwa seluruh item benar-benar mengukur

satu faktor saja yaitu kemampuan berpikir logis.

Tahapan selanjutnya adalah melihat apakah signifikan tidaknya item-item

tersebut mengukur faktor yang hendak diukur. Dalam hal ini yang diuji adalah

hipotesis nihil tentang koefisien muatan faktor item. Pengujiannya dilakukan

dengan melihat nilai z bagi setiap koefisien muatan faktor, seperti pada tabel 4.1

berikut.

Tabel 4.1. Muatan Faktor Item Kemampuan Berpikir Logis

No Item Koefisien Standar Error z-value Keterangan

V1 0.374 0.013 27.784 Valid

V2 0.409 0.013 30.954 Valid

V3 0.303 0.014 21.576 Valid

V4 0.239 0.014 16.625 Valid

V5 0.311 0.014 22.229 Valid

V6 0.034 0.015 2.289 Valid

V7 0.122 0.015 8.17 Valid

V8 0.235 0.014 16.274 Valid

V9 0.275 0.014 19.349 Valid

V10 0.266 0.014 18.573 Valid

V11 0.197 0.015 13.528 Valid

V12 0.408 0.013 31.025 Valid

V13 0.005 0.015 0.357 Tidak Valid

V14 0.192 0.015 13.097 Valid

V15 0.210 0.015 14.419 Valid

V16 0.175 0.015 11.909 Valid

V17 0.399 0.013 29.957 Valid

V18 0.036 0.015 2.413 Valid

V19 0.118 0.015 7.918 Valid

V20 0.304 0.014 21.634 Valid

V21 0.221 0.015 15.206 Valid

V22 0.360 0.014 26.209 Valid

V23 0.251 0.014 17.353 Valid

V24 0.253 0.014 17.505 Valid

V25 0.343 0.014 24.86 Valid

V26 0.116 0.015 7.813 Valid

V27 0.099 0.015 6.613 Valid

V28 0.012 0.015 0.794 Tidak Valid

V29 0.496 0.012 39.82 Valid

V30 0.356 0.014 26.145 Valid

V31 -0.151 0.015 -10.212 Tidak Valid

V32 0.012 0.015 0.772 Tidak Valid

V33 0.135 0.015 9.073 Valid

Berdasarkan tabel 4.1 tersebut di atas dapat dilihat bahwa dari 33 item yang

diteorikan mengukur aspek kemampuan berpikir logis terdapat empat item yang

tidak valid. Hal ini dapat dijelaskan secara berturut-turut sebagai berikut: item

nomor 13 mempunyai nilai z-value = 0.357, item nomor 28 mempunyai nilai z-

value = 0.794, item nomor 31 mempunyai nilai koefisien negatif = -1.151 dengan

nilai z-value = -10.212 dan item nomor 32 mempunyai nilai z-value = 0.772 yang

artinya keempat item tersebut memiliki nilai z-value < 1.96 dan ada satu item juga

memiliki koefisien negatif. Dengan demikian dari 33 item yang diujikan terdapat

29 item yang valid dan akan dianalisis selanjutnya.

4.1.2 Aspek kemampuan berpikir praktis

Penulis menguji apakah 33 item yang menyusun aspek kemampuan berpikir

praktis bersifat unidimensional, yang artinya item-item tersebut mengukur satu

faktor yaitu kemampuan berpikir praktis. Dari hasil analisis CFA menunjukkan

model satu faktor sudah fit, dengan chi-square = 2175.713, df = 495, p-value =

0.000 , RMSEA = 0.023. Adapun path diagram dari hasil pengujian CFA ini dapat

dilihat pada gambar 4.2 dibawah ini.

Model CFA 1 - faktor aspek kemampuan berpikir praktis

satu faktor saja yaitu kemampuan berpikir praktis.

berikut.

Tabel 4.2. Muatan Faktor Item Kemampuan Berpikir Praktis

V1 0.263 0.014 19.302 Valid

V2 0.322 0.013 24.337 Valid

V3 0.362 0.013 28.123 Valid

V4 0.095 0.014 6.640 Valid

V5 0.009 0.014 0.6180 Tidak Valid

V6 0.279 0.013 20.712 Valid

V7 0.346 0.013 26.734 Valid

V8 0.072 0.014 5.057 Valid

V9 0.237 0.014 17.312 Valid

V10 0.286 0.013 21.289 Valid

V11 0.270 0.014 19.988 Valid

V12 0.270 0.014 19.954 Valid

V13 0.018 0.014 1.287 Valid

V14 0.108 0.014 7.550 Valid

V15 0.052 0.014 3.619 Valid

V16 0.133 0.014 9.356 Valid

V17 0.171 0.014 12.212 Valid

V18 - 0.013 0.014 -0.926 Tidak Valid

V19 0.072 0.014 5.054 Valid

V20 0.305 0.013 23.022 Valid

V21 0.279 0.013 20.712 Valid

V22 0.559 0.011 51.683 Valid

V23 0.534 0.011 48.112 Valid

V24 0.181 0.014 12.972 Valid

V25 0.113 0.014 7.917 Valid

V26 0.485 0.012 41.86 Valid

V27 0.489 0.012 42.264 Valid

V28 0.086 0.014 6.038 Valid

V29 0.267 0.014 19.748 Valid

V30 0.565 0.011 52.865 Valid

V31 0.470 0.012 39.963 Valid

V32 0.109 0.014 7.632 Valid

V33 0.217 0.014 15.699 Valid

diteorikan mengukur aspek kemampuan berpikir praktis terdapat tiga item yang

nomor 5 mempunyai nilai z-value = 0.618, item nomor 13 mempunyai nilai z-

value = 1.287 dan item nomor 18 mempunyai nilai koefisien negatif = - 0.013

dengan nilai z-value = - 0.926 yang artinya ketiga item tersebut memiliki nilai z-

value < 1.96 dan ada satu item juga memiliki koefisien negatif. Dengan demikian

dari 33 item yang diujikan terdapat 30 item yang valid dan akan dianalisis

selanjutnya.

4.1.3 Aspek kemampuan berpikir Verbal

Penulis menguji apakah 34 item yang menyusun aspek kemampuan berpikir

verbal bersifat unidimensional, yang artinya item-item tersebut mengukur satu

faktor yaitu kemampuan berpikir verbal. Dari hasil analisis CFA menunjukkan

model satu faktor sudah fit, dengan chi-square = 1594.567, df = 527, p-value =

0,000 , RMSEA = 0,018. Adapun path diagram dari hasil pengujian CFA ini dapat

dilihat pada gambar 4.3 dibawah ini.

Model CFA 1 - faktor aspek kemampuan berpikir verbal

satu faktor saja yaitu kemampuan berpikir verbal.

berikut.

Tabel 4.3. Muatan Faktor Item Kemampuan Berpikir Verbal

V1 0.492 0.012 41.038 Valid

V2 0.417 0.013 32.721 Valid

V3 0.343 0.013 25.718 Valid

V4 0.310 0.014 22.74 Valid

V5 0.394 0.013 30.414 Valid

V6 0.061 0.015 4.129 Valid

V7 0.295 0.014 21.548 Valid

V8 0.152 0.014 10.5 Valid

V9 0.070 0.015 4.788 Valid

V10 0.262 0.014 18.825 Valid

V11 0.354 0.013 26.623 Valid

V12 0.431 0.013 34.222 Valid

V13 0.341 0.013 25.421 Valid

V14 0.421 0.013 33.047 Valid

V15 0.352 0.013 26.541 Valid

V16 0.170 0.014 11.863 Valid

V17 0.274 0.014 19.789 Valid

V18 0.021 0.015 1.404 Tidak Valid

V19 0.125 0.015 8.585 Valid

V20 0.219 0.014 15.446 Valid

V21 0.248 0.014 17.709 Valid

V22 0.168 0.014 11.646 Valid

V23 0.390 0.013 30.022 Valid

V24 0.226 0.014 15.99 Valid

V25 0.172 0.014 11.963 Valid

V26 0.099 0.015 6.801 Valid

V27 0.183 0.014 12.801 Valid

V28 -0.030 0.015 -2.045 Tidak Valid

V29 -0.023 0.015 -1.593 Tidak Valid

V30 0.221 0.014 15.634 Valid

V31 0.340 0.013 25.403 Valid

V32 0.053 0.015 3.587 Valid

V33 0.095 0.015 6.491 Valid

V34 0.356 0.013 26.916 Valid

diteorikan mengukur aspek kemampuan berpikir verbal terdapat tiga item yang

nomor 18 mempunyai nilai z-value = 1.404, item nomor 28 mempunyai nilai

koefisien negatif = - 0.03 dengan nilai z-value = -2.045 dan item nomor 29

mempunyai nilai koefisien negatif = - 0.023 dengan nilai z-value = - 1.593 yang

artinya ketiga item tersebut memiliki nilai z-value < 1.96 dan ada dua item juga

memiliki koefisien negatif. Dengan demikian dari 34 item yang diujikan terdapat

31 item yang valid dan akan dianalisis selanjutnya.

4.2 Hasil Seleksi Model Item Response Theory (IRT) dan Uji

Unidimensionalitas IRT

Hasil pembahasan ini menjelaskan tentang pemilihan model IRT mana yang lebih

tepat dalam menganalisis data tes kognitif Polri. Penulis membandingkan model

IRT 1PL dan 2PL pada ketiga aspek yang menyusun tes kognitif Polri.

Pembahasan hasil uji asumsi unidimensionalitas IRT juga dijelaskan sekaligus.

Data dalam analisis ini menggunakan item-item sejumlah 90 item yang telah

terbukti valid pada pengujian CFA. Adapun hasilnya adalah sebagai berikut:

4.2.1 Aspek Kemampuan Berpikir Logis

Analisis perbandingan model 1PL dan 2PL yang telah dilakukan pada aspek

kemampuan berpikir logis memberikan gambaran hasil yang dapat dilihat pada

tabel 4.4 berikut ini.

Tabel 4.4. Perbandingan model IRT 1PL dan 2PL Aspek Berpikir Logis

Index Fit 1PL 2PL

Chi-Square

5791.174

df = 405

p-value = 0.000

2677.230

df = 377

p-value = 0.000

RMSEA 0.046 0.031

Chi-Square

Difference

Testing

1559.075; df = 28; p-value = 0.000

Jika dilihat dari kedua nilai indeks fit chi-square dan RMSEA tersebut maka dapat

ditarik kesimpulan bahwa kedua model IRT (1PL dan 2PL) adalah fit dengan nilai

RMSEA ≤ 0.05. Namun indeks RMSEA yang dihasilkan model IRT 2PL lebih

kecil dan bisa dikatakan model IRT 2PL lebih cocok. Hal tersebut juga didukung

dengan hasil analisis lebih lanjut terhadap Chi-Square Difference Testing yang

didapatkan nilai signifikan pada model IRT 2PL, sehingga dapat disimpulkan

model 2PL lebih cocok digunakan dalam analisis data pada aspek kemampuan

berpikir logis.

4.2.2 Aspek Kemampuan Berpikir Praktis

kemampuan berpikir praktis memberikan gambaran hasil yang dapat dilihat pada

Tabel 4.5. Perbandingan model IRT 1PL dan 2PL Aspek Berpikir Praktis

Index Fit 1PL 2PL

Chi-Square

9626.386

df = 434

p-value = 0.000

1823.092

df = 405

p-value = 0.000

RMSEA 0.058 0.024

Chi-Square

Difference

Testing

3139.327; df = 29; p-value = 0.000

Jika dilihat dari hasil tersebut maka dapat ditarik kesimpulan bahwa model IRT

1PL memiliki nilai RMSEA ≥ 0.05 artinya model tersebut tidak fit. Adapun model

IRT 2PL adalah fit dengan nilai RMSEA ≤ 0.05 sehingga model IRT 2PL lebih

cocok digunakan dalam analisis data pada aspek kemampuan berpikir praktis.

4.2.3 Aspek Kemampuan Berpikir Verbal

kemampuan berpikir verbal memberikan gambaran hasil yang dapat dilihat pada

Tabel 4.6. Perbandingan Model IRT 1PL dan 2PL Aspek Berpikir Verbal

Index Fit 1PL 2PL

Chi-Square

5803.085

df = 464

p-value = 0.000

1407.396

df = 434

p-value = 0.000

RMSEA 0.043 0.019

Chi-Square

Difference

Testing

1832.274; df = 30; p-value = 0.000

Jika dilihat dari kedua nilai indeks fit chi-square dan RMSEA tersebut maka dapat

ditarik kesimpulan bahwa kedua model IRT (1PL dan 2PL) adalah fit dengan nilai

RMSEA ≤ 0.05. Namun indeks RMSEA yang dihasilkan model IRT 2PL lebih

kecil dan bisa dikatakan model IRT 2PL lebih cocok. Hal tersebut juga didukung

dengan hasil analisis lebih lanjut terhadap Chi-Square Difference Testing yang

didapatkan nilai signifikan pada model IRT 2PL, sehingga dapat disimpulkan

model 2PL lebih cocok digunakan dalam analisis data pada aspek kemampuan

berpikir verbal.

Dari hasil pemilihan model IRT diatas, didapatkan hasil model IRT 2PL

lebih cocok diterapkan pada ketiga aspek tersebut. Adapun nilai RMSEA ketiga

aspek tersebut berturut-turut: pada aspek kemampuan berpikir logis dihasilkan

nilai RMSEA = 0.031, pada aspek kemampuan berpikir praktis dihasilkan nilai

RMSEA = 0.024 dan pada aspek kemampuan berpikir verbal dihasilkan nilai

RMSEA = 0.019, yang artinya nilai RMSEA ≤ 0.05 (fit). Dengan hasil tersebut

sekaligus dapat disimpulkan bahwa asumsi unidimensionalitas pada masing-

masing aspek yang menyusun tes kognitif Polri terpenuhi. Adapun hasil pengujian

item fit statistic yang diperoleh dari ketiga aspek tersebut dijelaskan pada tabel

4.7, 4.8 dan 4.9 di bawah ini.

Tabel 4.7. Tabel Signifikansi Item Kemampuan Berpikir Logis

V1 0.471 0.016 28.871 Valid

V2 0.515 0.017 30.672 Valid

V3 0.480 0.020 24.009 Valid

V4 0.321 0.020 15.867 Valid

V5 0.418 0.017 24.444 Valid

V6 0.046 0.019 2.4700 Valid

V7 0.177 0.020 8.6480 Valid

V8 0.308 0.018 16.664 Valid

V9 0.400 0.020 20.185 Valid

V10 0.388 0.019 20.092 Valid

V11 0.302 0.021 14.151 Valid

V12 0.506 0.016 31.616 Valid

V14 0.330 0.024 13.801 Valid

V15 0.359 0.023 15.321 Valid

V16 0.224 0.019 12.051 Valid

V17 0.506 0.016 31.879 Valid

V18 0.061 0.028 2.1560 Valid

V19 0.153 0.019 8.0320 Valid

V20 0.381 0.017 21.780 Valid

V21 0.280 0.018 15.241 Valid

V22 0.474 0.016 28.746 Valid

V23 0.360 0.019 19.250 Valid

V24 0.329 0.018 18.476 Valid

V25 0.445 0.017 26.377 Valid

V26 0.148 0.019 7.9060 Valid

V27 0.128 0.019 6.8630 Valid

V29 0.624 0.015 41.535 Valid

V30 0.449 0.016 27.292 Valid

V33 0.200 0.021 9.4420 Valid

Tabel 4.8. Tabel Signifikansi Item Kemampuan Berpikir Praktis

V1 0.513 0.020 26.191 Valid

V2 0.453 0.016 28.623 Valid

V3 0.522 0.015 34.493 Valid

V4 0.137 0.020 6.7330 Valid

V6 0.365 0.017 21.092 Valid

V7 0.441 0.016 28.439 Valid

V8 0.098 0.019 5.2300 Valid

V9 0.318 0.018 17.578 Valid

V10 0.372 0.016 22.997 Valid

V11 0.369 0.019 19.750 Valid

V12 0.368 0.019 19.295 Valid

V14 0.155 0.020 7.6660 Valid

V15 0.073 0.018 4.0500 Valid

V16 0.200 0.022 9.1950 Valid

V17 0.222 0.018 12.416 Valid

V19 0.107 0.021 5.1810 Valid

V20 0.405 0.018 22.682 Valid

V21 0.373 0.019 19.662 Valid

V22 0.695 0.012 57.148 Valid

V23 0.664 0.013 52.853 Valid

V24 0.257 0.020 12.653 Valid

V25 0.154 0.019 8.1220 Valid

V26 0.601 0.013 44.501 Valid

V27 0.615 0.013 47.712 Valid

V28 0.123 0.021 5.8730 Valid

V29 0.349 0.018 19.616 Valid

V30 0.730 0.014 52.086 Valid

V31 0.579 0.014 41.035 Valid

V32 0.153 0.021 7.4130 Valid

V33 0.307 0.020 15.373 Valid

Tabel 4.9. Tabel Signifikansi Item Kemampuan Berpikir Verbal

V1 0.626 0.014 45.391 Valid

V2 0.528 0.015 34.442 Valid

V3 0.431 0.017 25.783 Valid

V4 0.387 0.017 23.081 Valid

V5 0.497 0.016 31.380 Valid

V6 0.091 0.021 4.2550 Valid

V7 0.371 0.017 22.127 Valid

V8 0.248 0.024 10.128 Valid

V9 0.091 0.019 4.7910 Valid

V10 0.336 0.018 19.087 Valid

V11 0.504 0.019 27.180 Valid

V12 0.540 0.016 34.469 Valid

V13 0.436 0.016 26.428 Valid

V14 0.536 0.015 35.446 Valid

V15 0.486 0.017 28.481 Valid

V16 0.232 0.020 11.868 Valid

V17 0.348 0.017 19.926 Valid

V19 0.185 0.021 8.7460 Valid

V20 0.275 0.018 15.622 Valid

V21 0.311 0.017 17.801 Valid

V22 0.222 0.019 11.438 Valid

V23 0.489 0.016 30.734 Valid

V24 0.306 0.019 16.009 Valid

V25 0.258 0.023 11.385 Valid

V26 0.144 0.022 6.4870 Valid

V27 0.257 0.020 12.567 Valid

V30 0.277 0.018 15.777 Valid

V31 0.431 0.017 25.478 Valid

V32 0.075 0.021 3.5450 Valid

V33 0.149 0.023 6.3980 Valid

V34 0.446 0.016 27.177 Valid

Berdasarkan hasil analisis dalam tabel 4.7, 4.8 dan 4.9 diatas dapat ditarik

kesimpulan bahwa 90 item yang terdiri dari 29 item diteorikan mengukur aspek

kemampuan berpikir logis, 30 item diteorikan mengukur aspek kemampuan

berpikir praktis dan 31 item diteorikan mengukur aspek kemampuan berpikir

verbal di atas adalah valid dengan kriteria tidak ada koefisien yang negatif dan

nilai z-value > 1,96. Dengan demikian semua item tersebut dapat dilibatkan dalam

proses kalibrasi item.

4.3 Hasil Uji Asumsi Local Independence

Dengan terpenuhinya asumsi unidimensionalitas pada masing-masing aspek diatas

menunjukkan bahwa konstruk / faktor yang diukur hanya terdiri dari satu

kemampuan saja dan tidak ditemukan korelasi residual antar item pada masing-

masing aspek, sehingga dengan terpenuhinya asumsi unidimensionalitas pada

ketiga aspek tersebut maka terpenuhi pula asumsi local independence.

4.4 Hasil Kalibrasi Parameter Item

Setelah semua pengujian asumsi dilakukan maka selanjutnya adalah melakukan

kalibrasi item dengan memperhitungkan tingkat daya pembeda dan tingkat

kesukaran item. Di bawah ini disajikan hasil analisa daya pembeda dan tingkat

kesukaran item sebagai berikut:

Tabel 4.10. Parameter Daya Pembeda Item Kemampuan Berpikir Logis

No Item Koefisien a Standar Error z-value p-value

V1 0.534 0.024 22.460 0.000

V2 0.601 0.027 22.525 0.000

V3 0.547 0.030 18.477 0.000

V4 0.339 0.024 14.232 0.000

V5 0.460 0.023 20.181 0.000

V6 0.047 0.019 2.4650 0.014

V7 0.179 0.021 8.3780 0.000

V8 0.324 0.021 15.083 0.000

V9 0.437 0.026 16.950 0.000

V10 0.421 0.025 17.064 0.000

V11 0.317 0.025 12.857 0.000

V12 0.586 0.025 23.528 0.000

V14 0.350 0.028 12.295 0.000

V15 0.385 0.029 13.346 0.000

V16 0.229 0.020 11.449 0.000

V17 0.587 0.025 23.711 0.000

V18 0.061 0.028 2.1480 0.032

V19 0.155 0.020 7.8440 0.000

V20 0.412 0.022 18.620 0.000

V21 0.291 0.021 14.050 0.000

V22 0.538 0.024 22.298 0.000

V23 0.386 0.023 16.756 0.000

V24 0.349 0.021 16.472 0.000

V25 0.497 0.024 21.147 0.000

V26 0.150 0.019 7.7320 0.000

V27 0.130 0.019 6.7500 0.000

V29 0.799 0.032 25.342 0.000

V30 0.503 0.023 21.779 0.000

V33 0.205 0.023 9.0630 0.000

Parameter daya pembeda ini bergerak antara 0 sampai 2 (Hambleton, et al., 1991).

Dari tabel di atas ditemukan bahwa nilai daya pembeda berkisar antara (0.047 s/d

0.799). Item nomor 6 adalah item dengan nilai daya pembeda paling rendah

dengan nilai (0.047) artinya item tersebut memiliki kemampuan yang cenderung

rendah dalam membedakan kemampuan seseorang yang tidak pandai dengan

orang yang pandai. Sedangkan item dengan nomor 29 memiliki nilai daya

pembeda sebesar (0.799) yang artinya item tersebut memiliki kemampuan yang

cenderung tinggi dalam membedakan kemampuan seseorang yang tidak pandai

dengan orang yang pandai.

Tabel 4.11. Parameter Taraf Kesukaran Item Kemampuan Berpikir Logis

V1 -0.665 0.042 -15.726 0.000

V2 0.441 0.034 12.937 0.000

V3 -2.399 0.113 -21.266 0.000

V4 2.015 0.139 14.470 0.000

V5 -1.499 0.076 -19.669 0.000

V6 4.190 1.732 2.4200 0.016

V7 -4.390 0.520 -8.4350 0.000

V8 -1.494 0.106 -14.110 0.000

V9 -2.312 0.127 -18.246 0.000

V10 -2.238 0.124 -18.052 0.000

V11 -3.475 0.258 -13.472 0.000

V12 0.138 0.032 4.3310 0.000

V14 -3.943 0.298 -13.215 0.000

V15 -3.560 0.245 -14.534 0.000

V16 0.774 0.096 8.0340 0.000

V17 -0.632 0.038 -16.406 0.000

V18 20.929 9.719 2.1530 0.031

V19 2.284 0.305 7.4960 0.000

V20 0.333 0.044 7.4840 0.000

V21 0.902 0.083 10.900 0.000

V22 -0.790 0.045 -17.526 0.000

V23 -2.038 0.119 -17.096 0.000

V24 -0.723 0.063 -11.487 0.000

V25 0.373 0.039 9.6620 0.000

V26 1.642 0.235 6.9800 0.000

V27 -1.410 0.241 -5.8580 0.000

V29 0.236 0.026 9.0660 0.000

V30 -0.934 0.052 -18.057 0.000

V33 -4.623 0.502 -9.2110 0.000

Dari tabel di atas ditunjukkan bahwa 28 item pada aspek Logis ini memiliki

rentang tingkat kesukaran item antara (-4.623 s/d +4.19). Item nomor 33 memiliki

nilai estimate = -4.623 yang artinya item tersebut adalah item yang paling mudah

untuk dijawab benar. Sedangkan item nomor 6 memiliki nilai estimate = 4.19

yang artinya item tersebut adalah item yang paling susah untuk dijawab benar.

Namun ada 1 item dengan nomor 18 memiliki tingkat kesukaran yang sangat

ekstrim yaitu dengan nilai estimate = 20.929 yang artinya item tersebut harus

ditinjau ulang. Adapun tampilan Item Characteristic Curve (ICC) pada aspek

kemampuan berpikir logis adalah sebagai berikut.

Gambar 4.4

Total Item Characteristic Curve (ICC)

Tabel 4.12. Parameter Daya Pembeda Item Kemampuan Berpikir Praktis

V1 0.597 0.031 19.308 0.000

V2 0.508 0.022 22.759 0.000

V3 0.612 0.024 25.101 0.000

V4 0.139 0.021 6.6060 0.000

V6 0.392 0.021 18.281 0.000

V7 0.492 0.021 22.899 0.000

V8 0.099 0.019 5.1800 0.000

V9 0.335 0.021 15.801 0.000

V10 0.400 0.020 19.820 0.000

V11 0.398 0.023 17.055 0.000

V12 0.396 0.024 16.675 0.000

V14 0.157 0.021 7.4820 0.000

V15 0.073 0.018 4.0290 0.000

V16 0.204 0.023 8.8270 0.000

V17 0.228 0.019 11.802 0.000

V19 0.108 0.021 5.1210 0.000

V20 0.442 0.023 18.970 0.000

V21 0.402 0.024 16.922 0.000

V22 0.966 0.033 29.571 0.000

V23 0.888 0.030 29.542 0.000

V24 0.266 0.023 11.816 0.000

V25 0.155 0.020 7.9310 0.000

V26 0.751 0.026 28.442 0.000

V27 0.779 0.026 29.694 0.000

V28 0.124 0.021 5.7840 0.000

V29 0.373 0.022 17.224 0.000

V30 1.069 0.044 24.312 0.000

V31 0.709 0.026 27.298 0.000

V32 0.154 0.021 7.2400 0.000

V33 0.322 0.023 13.929 0.000

Tabel 4.13. Parameter Taraf Kesukaran Item Kemampuan Berpikir Praktis

V1 -2.780 0.122 -22.787 0.000

V2 -1.441 0.066 -21.958 0.000

V3 -1.539 0.060 -25.806 0.000

V4 5.785 0.872 6.6350 0.000

V6 0.933 0.063 14.790 0.000

V7 -0.512 0.041 -12.411 0.000

V8 4.905 0.955 5.1380 0.000

V9 1.508 0.101 14.875 0.000

V10 -0.681 0.053 -12.740 0.000

V11 1.796 0.104 17.305 0.000

V12 1.799 0.106 17.048 0.000

V14 4.878 0.649 7.5160 0.000

V15 0.688 0.277 2.4860 0.013

V16 4.663 0.519 8.9900 0.000

V17 1.195 0.121 9.8960 0.000

V19 7.273 1.416 5.1360 0.000

V20 1.322 0.072 18.278 0.000

V21 1.677 0.098 17.161 0.000

V22 -0.044 0.023 -1.8990 0.058

V23 -0.039 0.024 -1.6210 0.105

V24 3.004 0.249 12.045 0.000

V25 3.654 0.465 7.8570 0.000

V26 -0.181 0.027 -6.6790 0.000

V27 -0.466 0.029 -16.146 0.000

V28 7.135 1.227 5.8140 0.000

V29 1.270 0.081 15.733 0.000

V30 0.680 0.026 26.081 0.000

V31 0.164 0.028 5.9410 0.000

V32 5.259 0.722 7.2860 0.000

V33 2.499 0.175 14.320 0.000

Dari tabel di atas ditunjukkan bahwa 30 item pada aspek berpikir logis ini

memiliki rentang tingkat kesukaran item antara (-2.78 s/d +7.273). Item nomor 1

memiliki nilai estimate = -2.78 yang artinya item tersebut adalah item yang paling

mudah untuk dijawab benar. Sedangkan item nomor 6 memiliki nilai estimate =

7.273 yang artinya item tersebut adalah item yang paling susah untuk dijawab

benar. Adapun tampilan Item Characteristic Curve (ICC) pada aspek kemampuan

berpikir praktis adalah sebagai berikut.

Gambar 4.5

Tabel 4.14. Parameter Daya Pembeda Item Kemampuan Berpikir Verbal

V1 0.802 0.029 27.613 0.000

V2 0.622 0.025 24.841 0.000

V3 0.478 0.023 20.991 0.000

V4 0.420 0.021 19.616 0.000

V5 0.573 0.024 23.624 0.000

V6 0.092 0.022 4.2200 0.000

V7 0.400 0.021 19.077 0.000

V8 0.256 0.027 9.5060 0.000

V9 0.092 0.019 4.7510 0.000

V10 0.357 0.021 16.934 0.000

V11 0.584 0.029 20.266 0.000

V12 0.641 0.026 24.425 0.000

V13 0.484 0.023 21.405 0.000

V14 0.635 0.025 25.256 0.000

V15 0.556 0.026 21.751 0.000

V16 0.239 0.021 11.228 0.000

V17 0.371 0.021 17.520 0.000

V19 0.189 0.022 8.4460 0.000

V20 0.286 0.020 14.439 0.000

V21 0.327 0.020 16.082 0.000

V22 0.228 0.021 10.875 0.000

V23 0.560 0.024 23.398 0.000

V24 0.322 0.022 14.506 0.000

V25 0.267 0.025 10.628 0.000

V26 0.146 0.023 6.3530 0.000

V27 0.266 0.023 11.736 0.000

V30 0.288 0.020 14.568 0.000

V31 0.478 0.023 20.744 0.000

V32 0.075 0.021 3.5250 0.000

V33 0.151 0.024 6.2560 0.000

V34 0.498 0.023 21.773 0.000

Tabel 4.15. Parameter Taraf Kesukaran Item Kemampuan Berpikir Verbal

V1 -0.533 0.029 -18.182 0.000

V2 -0.585 0.036 -16.348 0.000

V3 0.423 0.041 10.414 0.000

V4 0.145 0.042 3.4840 0.000

V5 -0.497 0.036 -13.619 0.000

V6 9.979 2.357 4.2330 0.000

V7 -0.313 0.046 -6.8590 0.000

V8 4.718 0.477 9.8910 0.000

V9 4.270 0.910 4.6910 0.000

V10 -1.077 0.076 -14.260 0.000

V11 1.598 0.071 22.624 0.000

V12 0.362 0.031 11.489 0.000

V13 0.397 0.040 9.9950 0.000

V14 -0.314 0.031 -10.006 0.000

V15 -1.489 0.066 -22.615 0.000

V16 2.866 0.255 11.243 0.000

V17 0.784 0.061 12.768 0.000

V19 -5.218 0.609 -8.5660 0.000

V20 -0.599 0.070 -8.5520 0.000

V21 0.151 0.052 2.9090 0.004

V22 2.347 0.220 10.684 0.000

V23 -0.251 0.034 -7.4230 0.000

V24 2.083 0.143 14.520 0.000

V25 3.762 0.341 11.022 0.000

V26 6.223 0.971 6.4120 0.000

V27 2.996 0.250 11.959 0.000

V30 0.089 0.058 1.5420 0.123

V31 0.569 0.043 13.088 0.000

V32 10.199 2.889 3.5300 0.000

V33 7.264 1.147 6.3330 0.000

V34 0.261 0.037 7.0350 0.000

Dari tabel di atas ditunjukkan bahwa 31 item pada aspek verbal ini memiliki

rentang tingkat kesukaran item antara (-5.218 s/d +10.199). Item nomor 19

memiliki nilai estimate = -5.218 yang artinya item tersebut adalah item yang

paling mudah untuk dijawab benar. Sedangkan item nomor 32 memiliki nilai

estimate = 10.199 yang artinya item tersebut adalah item yang paling susah untuk

dijawab benar. Adapun tampilan Item Characteristic Curve (ICC) pada aspek

kemampuan berpikir verbal adalah sebagai berikut.

Gambar 4.6

4.5 Pemilihan Item

Adapun dalam pemilihan item ini penulis mengacu pada kriteria tingkat kesukaran

item berkisar antara -2 sampai dengan +2 dengan tingkat daya beda bernilai

positif dan berkisar antara 0 sampai dengan 2 (Hambleton & Swaminathan, 1985;

Hambleton, et al, 1991). Adapun hasilnya dapat dilihat pada tabel 4.16, 4.17 dan

4.18 dibawah ini.

Tabel 4.16 Pemilihan Item Kemampuan Berpikir Logis

No Item Tingkat Kesukaran (b) Daya Beda(a) Keterangan

V1 -0.665 0.534 Dipilih

V2 0.441 0.601 Dipilih

V3 -2.399 0.547 Tidak Dipilih

V4 2.015 0.339 Tidak Dipilih

V5 -1.499 0.460 Dipilih

V8 -1.494 0.324 Dipilih

V12 0.138 0.586 Dipilih

V16 0.774 0.229 Dipilih

V17 -0.632 0.587 Dipilih

V20 0.333 0.412 Dipilih

V21 0.902 0.291 Dipilih

V22 -0.790 0.538 Dipilih

V24 -0.723 0.349 Dipilih

V27 -1.410 0.130 Dipilih

V29 0.236 0.799 Dipilih

V30 -0.934 0.503 Dipilih

Berdasarkan hasil analisa yang ditampilkan dalam tabel 4.16 diatas dapat ditarik

kesimpulan bahwa dari 29 item yang diteorikan menyusun aspek kemampuan

berpikir logis terdapat 14 item yang memenuhi persyaratan sebagai item persiapan

untuk pengembangan item bank item kognitif Polri. Adapun 15 item yang tidak

dipilih dapat ditinjau kembali untuk direvisi dan diujicobakan pada studi

selanjutnya.

Tabel 4.17 Pemilihan Item Kemampuan Berpikir Praktis

V2 -1.441 0.508 Dipilih

V3 -1.539 0.612 Dipilih

V6 0.933 0.392 Dipilih

V7 -0.512 0.492 Dipilih

V9 1.508 0.335 Dipilih

V10 -0.681 0.400 Dipilih

V11 1.796 0.398 Dipilih

V12 1.799 0.396 Dipilih

V15 0.688 0.073 Dipilih

V17 1.195 0.228 Dipilih

V20 1.322 0.442 Dipilih

V21 1.677 0.402 Dipilih

V22 -0.044 0.966 Dipilih

V23 -0.039 0.888 Dipilih

V26 -0.181 0.751 Dipilih

V27 -0.466 0.779 Dipilih

V29 1.270 0.373 Dipilih

V30 0.680 1.069 Dipilih

V31 0.164 0.709 Dipilih

berpikir praktis terdapat 19 item yang memenuhi persyaratan sebagai item

persiapan untuk pengembangan item bank item kognitif Polri. Adapun 11 item

yang tidak dipilih dapat ditinjau kembali untuk direvisi dan diujicobakan pada

studi selanjutnya.

Tabel 4.18 Pemilihan Item Kemampuan Berpikir Verbal

V1 -0.533 0.802 Dipilih

V2 -0.585 0.622 Dipilih

V3 0.423 0.478 Dipilih

V4 0.145 0.420 Dipilih

V5 -0.497 0.573 Dipilih

V7 -0.313 0.400 Dipilih

V10 -1.077 0.357 Dipilih

V11 1.598 0.584 Dipilih

V12 0.362 0.641 Dipilih

V13 0.397 0.484 Dipilih

V14 -0.314 0.635 Dipilih

V15 -1.489 0.556 Dipilih

V17 0.784 0.371 Dipilih

V20 -0.599 0.286 Dipilih

V21 0.151 0.327 Dipilih

V23 -0.251 0.560 Dipilih

V30 0.089 0.288 Dipilih

V31 0.569 0.478 Dipilih

V34 0.261 0.498 Dipilih

berpikir verbal terdapat 19 item yang memenuhi persyaratan sebagai item

persiapan untuk pengembangan item bank item kognitif Polri. Adapun 12 item

yang tidak dipilih dapat ditinjau kembali untuk direvisi dan diujicobakan pada

studi selanjutnya.

KESIMPULAN, DISKUSI DAN SARAN

Dalam bab ini akan dibahas tiga hal pokok yang akan disampaikan secara terpadu

tentang hasil analisis data tes kognitif Polri. Tiga hal tersebut antara lain

kesimpulan, diskusi dan saran penelitian.

5.1 Kesimpulan

Berdasarkan hasil analisis data dalam studi ini, penulis dapat menyampaikan

kesimpulan sekaligus menjawab pertanyaan penelitian sebagai berikut:

(1) Validitas tes kognitif Polri

Dari hasil analisis pengujian validitas konstruk terhadap tiga aspek yang

membentuk tes kogitif Polri (kemampuan berpikir logis, kemampuan berpikir

praktis dan kemampuan berpikir verbal) maka didapatkan hasil sebagai berikut:

a. Pada aspek berpikir logis hasil analisis CFA menunjukkan bahwa model

satu faktor sudah fit, dengan chi-square = 2906.731, df = 495, p-value =

0,000 , RMSEA = 0,028. Nilai RMSEA < 0.05, yang artinya model dengan

satu faktor (unidimensional) dapat diterima, bahwa seluruh item mengukur

satu faktor saja yaitu kemampuan berpikir logis. Dari 33 item yang

diteorikan mengukur aspek berpikir logis, terdapat empat item yang

mempunyai nilai Est./S.E. < 1.96 (tidak signifikan) dan nilai p-value > 0.05

(tidak signifikan), artinya item yang diteorikan mengukur kemampuan

berpikir logis tersisa 29 item yang valid.

b. Pada aspek berpikir praktis hasil analisis CFA menunjukkan model satu

faktor sudah fit, dengan chi-square = 2175.713, df = 495, p-value = 0.000 ,

RMSEA = 0.023. Nilai RMSEA < 0.05 (tidak signifikan), yang artinya

model dengan satu faktor (unidimensional) dapat diterima, bahwa seluruh

item mengukur satu faktor saja yaitu kemampuan berpikir praktis. Dari 33

item yang diteorikan mengukur aspek berpikir logis, terdapat tiga item yang

mempunyai nilai Est./S.E. < 1.96 (tidak signifikan) dan nilai p-value > 0.05

(tidak signifikan), artinya item yang diteorikan mengukur kemampuan

berpikir praktis tersisa 30 item yang valid.

c. Pada aspek berpikir verbal analisis CFA menunjukkan model satu faktor

sudah fit, dengan chi-square = 1594.567, df = 527, p-value = 0,000 ,

RMSEA = 0,018. Nilai RMSEA < 0,05 (tidak signifikan), yang artinya

model dengan satu faktor (unidimensional) dapat diterima, bahwa seluruh

item mengukur satu faktor saja yaitu kemampuan berpikir verbal. Dari 34

item yang diteorikan mengukur aspek berpikir verbal, terdapat tiga item

yang mempunyai nilai Est./S.E. < 1.96 (tidak signifikan) dan nilai p-value >

0.05 (tidak signifikan), artinya item yang diteorikan mengukur kemampuan

berpikir vebal tersisa 31 item yang valid.

(2) Hasil pengujian asumsi IRT

Hasil pengujian asumsi IRT dengan model two parameter logistic (2PL) terhadap

tiga aspek yang membentuk tes kogitif Polri (kemampuan berpikir logis,

kemampuan berpikir praktis dan kemampuan berpikir verbal) mendapatkan hasil

bahwa ketiga aspek tersebut telah memenuhi asumsi unidimensionalitas artinya

ketiga aspek tersebut benar-benar mengukur apa yang seharusnya diukur. Dari

pengujian asumsi unidimensionalitas juga tidak ditemukan korelasi residual antar

item pada masing-masing aspek, sehingga dengan terpenuhinya asumsi

unidimensionalitas pada ketiga aspek tersebut maka terpenuhi pula asumsi local

independence.

(3) Hasil analisis parameter item

Dari analisis IRT 2PL terhadap tiga aspek yang membentuk tes kogitif Polri

(berpikir logis, berpikir praktis dan berpikir verbal) mendapatkan kesimpulan

sebagai beriut:

a. Nilai daya pembeda pada aspek berpikir logis berkisar antara (0.047 s/d

dengan nilai (0.047), sedangkan item dengan nomor 29 memiliki nilai daya

pembeda sebesar (0.799). Adapun tingkat kesukaran item pada aspek

berpikir logis terdapat 28 item yang memiliki rentang tingkat kesukaran

item antara (-4.623 s/d +4.19). Item nomor 33 memiliki nilai estimate = -

4.623 yang artinya item tersebut adalah item yang paling mudah untuk

dijawab benar. Sedangkan item nomor 6 memiliki nilai estimate = 4.19 yang

artinya item tersebut adalah item yang paling susah untuk dijawab benar.

Namun ada 1 item dengan nomor 18 memiliki tingkat kesukaran yang

sangat ekstrim yaitu dengan nilai estimate = 20.929 yang artinya item

tersebut harus ditinjau ulang, hal ini terjadi mengingat orang yang

menjawab benar sangat sedikit sekali.

b. Nilai daya pembeda pada aspek berpikir praktis berkisar antara (0.073 s/d

1.069). Item nomor 15 adalah item dengan nilai daya pembeda paling

rendah dengan nilai (0.073), sedangkan item dengan nomor 30 memiliki

nilai daya pembeda sebesar (1.069). Adapun tingkat kesukaran item pada

aspek berpikir praktis terdapat 30 item yang memiliki rentang tingkat

kesukaran item antara (-2.78 s/d +7.273). Item nomor 1 memiliki nilai

estimate = -2.78 yang artinya item tersebut adalah item yang paling mudah

untuk dijawab benar. Sedangkan item nomor 6 memiliki nilai estimate =

7.273 yang artinya item tersebut adalah item yang paling susah untuk

dijawab benar.

c. Nilai daya pembeda pada aspek berpikir verbal berkisar antara (0.073 s/d

1.069). Item nomor 15 adalah item dengan nilai daya pembeda paling

rendah dengan nilai (0.073), sedangkan item dengan nomor 30 memiliki

nilai daya pembeda sebesar (1.069). Adapun tingkat kesukaran item pada

aspek berpikir verbal terdapat 31 item yang memiliki rentang tingkat

kesukaran item antara (-5.218 s/d +10.199). Item nomor 19 memiliki nilai

estimate = -5.218 yang artinya item tersebut adalah item yang paling mudah

untuk dijawab benar. Sedangkan item nomor 32 memiliki nilai estimate =

10.199 yang artinya item tersebut adalah item yang paling susah untuk

dijawab benar.

Adapun item-item yang memenuhi syarat sebagai item persiapan dalam

pengembangan item bank mengacu dengan kriteria tingkat kesukaran item

berkisar antara -2 sampai dengan +2 dengan tingkat daya beda bernilai positif dan

berkisar antara 0 sampai dengan 2 adalah sebanyak 14 pada aspek kemampuan

berpikir logis, 19 item pada aspek kemampuan berpikir praktis dan 19 item pada

aspek kemampuan berpikir verbal. Dengan demikian 52 item tersebut dapat

diikutsertakan dalam proses awal pengembangan item bank tes kognitif Polri.

Sementara item-item yang belum memenuhi persyaratan harus ditinjau kembali

apakah akan direvisi atau didrop untuk kebutuhan penelitian selanjutnya.

(4) Prosedur pengembangan item bank tes kognitif Polri

Seperti dijelaskan dalam tinjauan teori dalam studi ini, Polri telah melaksanakan

beberapa prosedur pengembangan tes yang cukup baik dan cukup ketat. Namun

jika hasil item-item yang dianalisis ini akan digunakan dalam pengembangan item

bank, maka harus ada evaluasi menyeluruh supaya dapat sejalan dengan prosedur

pengembangan item bank yang baik dan ideal untuk diaplikasikan pada Polri.

Beberapa evaluasi itu terkait dengan proses penyusunan item dan analisisnya.

Penentuan target jumlah item dan jadwal pengembangannya harus dibuat. Dengan

demikian dalam lampiran studi ini akan dijelaskan sebuah rancangan

pengembangan item bank tes kognitif Polri yang ideal untuk diaplikasikan.

3.4 Diskusi

Hasil studi ini menunjukkan bahwa karakteristik psikometris dapat bermanfaat

pada penelitian-penelitian dengan sampel polisi, melengkapi studi lainnya

(Dantzker & McCoy, 2006; Ho, 1999; Sanders et al, 1995; Mark, 2013; Chang-

Bae, 2006; Cochrane et al, 2003) yang telah banyak dilakukan walaupun belum

menggunakan sampel polisi indonesia.

Studi ini meneruskan tradisi pengembangan item bank yang sekaligus

menjadi gambaran perkembangan psikometrika di indonesia pada beberapa

dekade lalu yang dipelopori oleh Umar (1987) dan Hayat (1992). Studi ini juga

menjembatani penerapan item bank dengan lingkup pendidikan yang tidak umum

yaitu seleksi masuk pendidikan Polri.

Namun dalam perspektif metodologis, ada perbedaan secara filosofis antara

studi ini dengan dua studi tersebut. Perbedaan yang dimaksud adalah dalam studi

ini proses analisis data menggunakan pendekatan IRT 2PL, sedangkan dua studi

terdahulu menggunakan pendekatan Rasch model. Sehingga studi ini dapat

digunakan sebagai acuan bagi riset-riset tentang IRT 2PL mendatang.

Penyusunan item bank ini menunjukkan pemanfaatan metode statistika

canggih dari IRT dengan sampel yang besar, ketika ini digunakan dalam seleksi

atau rekrutmen maka akan dapat menghasilkan pengambilan keputusan yang lebih

adil, tepat guna dan objektif (Hambleton et al, 1991).

Ada sejumlah keuntungan ketika menggunakan model IRT untuk

mengkalibrasi dan melakukan equating terhadap semua item dalam item bank

menurut Bergstrom & Gershon (1995), antara lain: (a) memudahkan persiapan

ketika bentuk tes paralel atau setara akan dibuat, (b) dapat membandingkan

kinerja individu dari waktu ke waktu (untuk individu yang mengulang tes) (c)

perbandingan kinerja kelompok dari waktu ke waktu (untuk mengevaluasi

kecakapan atau keahlian kandidat secara keseluruhan berdasarkan sekolah,

program, atau area konten tertentu) dan (d) penggunaan item bank untuk CAT

(Computerized Adaptive Testing).

Studi ini juga sekaligus memberikan gambaran akan pentingnya tahapan

tentang penyusunan item bank yang dikalibrasi, yaitu spesifikasi konten,

penulisan item, pengujian lapangan, analisis dan kalibrasi item, linking item,

pemilihan item untuk dimasukkan ke dalam bank, penyimpanan item dan

pengambilan serta pengelolaan item bank (Hayat, 1989; Umar, 1999). Adapun

beberapa tahapan tersebut telah dilakukan oleh Biro Psikologi SSDM Polri.

Sehingga dalam studi ini penulis hanya melaksanakan kegiatan analisis item-item

yang menyusun tes kognitif Polri, dengan harapan item-item tersebut akan dapat

dipakai untuk persiapan dalam pengembangan item bank tes kognitif Polri

selanjutnya. Prosedur analisis data dalam studi ini juga hanya sampai dengan

tahap pemilihan item, karena studi ini adalah sebagai proses awal pengembangan

item bank pada Polri. Prosedur linking ataupun equating akan dilakukan

selanjutnya pada studi mendatang jika ada item baru yang akan ditambahkan

dalam bank.

Keterbatasan studi ini adalah belum dilakukannya uji prediktif terhadap tes

kognitif Polri dan sebenarnya uji Differential Item Functioning (DIF) dapat

dilakukan karena dalam tes ini terdapat adanya kemungkinan perbedaan dalam

menempuh tes pada jenis kelamin yang berbeda, namun data yang tersedia tidak

mencakup jenis kelamin tersebut sehingga uji DIF dalam studi ini belum bisa

dilakukan. Studi ini dapat diperpanjang dengan melaksanakan pendekatan mix

method dengan pendekatan wawancara terhadap penyelenggara dan pelaksana tes

psikologi Polri sehingga pendekatan yang digunakan dalam studi ini dapat

dipertimbangkan untuk digunakan pada tes mendatang.

Dengan item-item pada studi ini yang telah dianalisis dan memenuhi syarat

dengan kriteria item bank maka selanjutnya penulis akan membuat sebuah

rancangan pengembangan item bank yang cocok diterapkan pada institusi Polri

yang diharapkan dapat digunakan sebagai bahan masukan oleh Biro Psikologi

SSDM Polri nantinya.

3.5 Saran

Berdasarkan hasil studi ini, ada beberapa hal yang penulis sarankan antara lain:

1. Saran Praktis

a. Studi ini dapat digunakan sebagai bahan masukan bagi pengembang

tes untuk menerapkan item bank, karena dengan adanya item bank ini

akan bermanfaat terhadap beberapa faktor antara lain ekonomi,

fleksibilitas, konsistensi dan keamanan serta keadilan tes.

b. Dengan adanya item bank ini tes-tes mendatang akan dapat dengan

mudah dihubungkan dengan temuan studi ini khususnya tes kognitif

Polri .

c. Dengan dikembangkannya item bank ini, dimungkinkan untuk

merancang dan membangun tes yang diharapkan dapat memberikan

informasi yang optimal tentang karakteristik orang yang sedang

diukur dan dengan tingkat presisi yang tinggi atau bahkan yang

diinginkan.

d. Penjadwalan penulisan item harus dibuat secara rutin dan ditargetkan

dengan baik sampai menjadi item bank yang sempurna dan tidak lagi

bersifat ad hoc.

e. Pelaksanaan program Computerized Adaptive Testing (CAT) dapat

dibuat ketika item bank sudah dibangun dengan baik. Dengan kata lain

item bank menjembatani pengembangan prosedur administrasi tes ke

tahap yang lebih tinggi.

2. Saran Metodologis

a. Kepada peneliti selanjutnya dapat dilakukan uji prediktif terhadap tes

kognitif Polri ini.

b. Penentuan definisi operasional konstruk studi supaya mengambil

teori-teori yang lebih kokoh dan sejalan dengan perkembangan dalam

literatur.

DAFTAR PUSTAKA

Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory.

Monterey, CA: Brooks.

Allen, M. J., & Yen, W. M. (2001). Introduction to measurement theory.

Waveland Press.

American Educational Research Association, American Psychological

Association, Joint Committee on Standards for Educational, Psychological

Testing (US), & National Council on Measurement in Education.

(1985). Standards for educational and psychological testing. American

Educational Research Association.

American Psychological Association (Ed.). (2015). APA Dictionary of Psychology

(2𝑛𝑑𝑒𝑑). American Psychological Association

Anastasi, A., & Urbina, S. (2003). Tes Psikologi (terjemahan Robertus Hariono,

S. Imam). Jakarta: PT. Indeks Gramedi Group.

Anastasi, A., & Urbina, S. (2007). Tes Psikologi (Edisi 7). Indeks: Jakarta.

Ban, J-C., Hanson, B.A., Tianyou Wang, et al. (2001) A comparative study of on-

line pretest item-calibration/scaling methods in computerized adaptive

testing. Journal of Educational Measurement, 38, 191-212.

Baker, F. B. (1986). Item Banking in Computer-Based Instructional Systems.

Applied Psychological Measurement, 10(4), 405–414.

Bergstrom, B. A., & Gershon, R. C. (1995). Item Banking. Licensure Testing:

Purposes, Procedures, and Practices. 13, 197–204.

Bollen, K. A. (1989). Structural equations with latent variables. New York:

Wiley.

Brennan, R. L. (2010). Generalizability Theory and Classical Test Theory.

Applied Measurement in Education, 24(1), 1–21.

Browne, M. W., & Cudeck, R. (1993). Alternative ways of assessing model fit.

Testing structural equation models. KA Bollen and JS Long.

Brown, F. G. (1976). Principles of Educational and Psychological Testing. New

York: Holt, Rinehart & Winston.

Brown, T. A. (2003). Confirmatory factor analysis of the penn state worry

questionnaire: multiple factors or method effect?. Behaviour Research and

Therapy, 41 (2), 1411-1426.

Brown, T. A. (2015). Confirmatory factor analysis for applied research. Guilford

publications.

Brown, M. W., & Cudeck, R. (1993). Alternative ways of assessing model fit In:

Bollen KA, Long JS, editors. Testing structural equation models. Beverly

Hills, CA: Sage, 111-135.

Brown, T. A., & Moore, M. T. (2012). Confirmatory factor analysis. Handbook of

structural equation modeling, 361-379.

Burch, A. M. (2012). Sheriffs’ offices, 2007 – statistical tables. Retrieved from

U.S. Department of Justice, Bureau of Justice Statistics.

http://www.bjs.gov/content/ pub/pdf/so07st.pdf

Chaplin, J. P. (2006). Dictionary of psychology. Terjemahan Kartini Kartono.

Jakarta: PT. Raja Grafindo Persada.

Chang-Bae, L. (2006). Psychological testing for recruit screening. TELEMASP

Bulletin, 13(2), 1-7.

Choppin, B. (1976). Developments in Item Banking. “Monitoring National

Standards of Attainment in Schools”, R. Sumner, Ed., Slough, UK: NFER,

216–234.

Choppin, B.H. (1981). Educational measurement and the item bank model. In

colin Lacey and Danis Lawton (Eds.) Issues in Evaluation and

Accountability (pp 204-221) London: Mathnen & Co. Ltd.

Cochrane, R. E., Tett, R. P., & Vandecreek, L. (2003). Psychological Testing and

the Selection of Police Officers: A National Survey. Criminal Justice and

Behavior, 30(5), 511–537.

Cronbach, L. J. (1970). Essentials of psychological testing. Harper & Row.

Dantzker, M. L., & McCoy, J. H. (2006). Psychological screening of police

recruits: A Texas perspective. Journal of Police and Criminal Psychology,

21(1), 23–32.

DeMars, C. (2010). Item response theory. Oxford University Press.

Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists.

L. Erlbaum Associates.

Geisinger, K. F., Bracken, B. A., Carlson, J. F., Hansen, J. I. C., Kuncel, N. R.,

Reise, S. P., & Rodriguez, M. C. (2013). APA handbook of testing and

assessment in psychology, Vol. 2: Testing and assessment in clinical and

counseling psychology (pp. ix-605). American Psychological Association.

Gottfredson, L. S. (1997). Why g matters: The complexity of everyday life.

Intelligence, 24, 79−132.

Guilford, J.P. 1956. Fundamental Statistic in Psychology and Education. 3rd Ed.

New York: McGraw-Hill Book Company, Inc.

Hambleton, R. K. (1980). Test score validity and standard-setting

methods. Criterion-referenced measurement: The state of the art, 80, 123.

Hambleton, R. K., & Swaminathan, H. (1985). Item Response Theory. Springer

Netherlands.

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of

Item Response Theory. SAGE.

Hanson, B. A., & Beguin, A. A. (2002). Obtaining a common scale for IRT item

parameters using separate versus concurrent estimation in the common

item non equivalent groups equating desain. Applied Psychological

Measurement, 26, 3-34.

Hayat, B. (1989). Item Bank And Its Use In The Indonesian National Examination

Of Elementary And Secondary Education. University Of Pittsburgh (tidak

dipublikasikan).

Hiscox, M. D., & Brzezinski, E. K. (1980). A guide to item banking in education.

Portland, OR: Northwest Regional Educational Laboratory. (ERIC

Document Reproduction Service No. ED 196 945).

Holmes, R. L. (1983). Computer-assisted quality control in tree-ring dating and

measurement.

Hooper, D., Coughlan, J., & Mullen, M. (2008, September). Evaluating model fit:

a synthesis of the structural equation modelling literature. In 7th European

Conference on research methodology for business and management

studies (pp. 195-200).

Ho, T. (1999). Assessment of Police Officer Recruiting and Testing Instruments.

Journal of Offender Rehabilitation, 29(3–4), 1–23.

Hu, L. T., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance

structure analysis: Conventional criteria versus new

alternatives. Structural equation modeling: a multidisciplinary

journal, 6(1), 1-55.

Jöreskog, K. G., & Sörbom, D. (1993). LISREL 8: Structural equation modeling

with the SIMPLIS command language. Scientific Software International.

Kaplan, R. M., & Saccuzzo, D. P. (2012). Pengukuran Psikologi–Prinsip,

Penerapan, dan Isu. Jakarta: Salemba Humanika.

Kolen, M. J. & Brennan, R. L. (2004). Test equating, scaling, and linking:

Methods and practices (2nd ed.). New York: Springer.

Li,-Y. H., Griffith, W. D., & Tam, H.P. (1997, June). Equating multiple tests via

an IRT linking design: Utililizing a single set of common items with fixed

common item parameters during the calibration process. Paper presented

at the annual meet-ing of the psychometric society, Knoxville, TN.

Liang, T., Wells, C. S., & Hambleton, R. K. (2014). An assessment of the

nonparametric approach for evaluating the fit of item response models.

Journal of Educational Measurement, 51(1), 1–17.

Lord, F. M. & M. R. Novick. (1968). Statistical theories of mental test scores.

Reading, Mass.: Addison-Wesley.

Lord, F. M. (1980). Applications of item response theory to practical testing

problems. Routledge.

Lord, Frederic M., Novick, M. R., & Birnbaum, A. (2008). Statistical theories of

mental test scores. Information Age Publ.

Lord, F. M. (2012). Applications of Item Response Theory to Practical Testing

Problems (1st ed.). Routledge.

Mark, R. S. (2014). The consistency of the use of the psychological evaluation

during the selection process among law enforcement agencies.

Maydeu-Olivares, A. (Ed.). (2005). Contemporary psychometrics: A festschrift for

Roderick P. McDonald. Lawrence Erlbaum Associates.

Millman, J., & Arter, J. A. (1984). Issues In Item Banking. Journal of Educational

Measurement, 21(4), 315–330.

Millman, J. & Greene, J. (1989). The Specification and Development of Tests of

Achievement and Ability. In R.L. Linn (Ed). Educational Measurement

(3rd. ed., pp 335-366). New York: Mc Millan Publishing Co.

Molenaar, I. W. (1995). Some background for item response theory and the Rasch

model. In Rasch models (pp. 3-14). Springer, New York, NY.

Nitko, A.J. (1983). Educational test and measurement: an introduction. New

York: Harcourt Brace Jovanovich, Inc.

Nitko, A.J. & Hsu, T.C. (1985). Teacher’s Guide to Better Classroom Testing: A

Judgmental Approach. Pittsburgh, PA: Institute for Practice and Research

in Education, University of Pittsburgh.

Nunally, J. (1978). Psychometric theory (2nd ed.) . New York: McGraw Hill

Peraturan Asisten Kapolri Bidang Sumber Daya Manusia No 3. (2017).

Pelaksanaan Tes Psikologi Calon Anggota Kepolisian Negara Republik

Indonesia.

Peraturan Kapolri Nomor 10. (2016). Penerimaan Calon Anggota Kepolisian

Negara Republik Indonesia.

Raykov, T. (2001). Bias of coefficient afor fixed congeneric measures with

correlated errors. Applied psychological measurement, 25(1), 69-76.

Raykov, T., & Marcoulides, G. A. (2010). Group Comparisons in the Presence of

Missing Data Using Latent Variable Modeling Techniques. Structural

Equation Modeling: A Multidisciplinary Journal, 17(1), 134–149.

Raykov, T., & Marcoulides, G. A. (2011). Introduction to psychometric theory.

Routledge.

Sanders, B., Hughes, T., & Langworthy, R. (1995). Police officer recruitment an

selection: A survey of major police departments in the U.S. Police Forum,

5, 1-4.

Solso, R. L., MacLin, M. K., & MacLin, O. H. (2005). Cognitive psychology.

Pearson Education New Zealand.

Stark, S., Chernyshenko, O. S., Chan, K.-Y., Drasgow, F., & Williams, B. (2001).

Fitting Item Response Theory Models to Two Personality Inventories:

Issues and Insights. Multivariate Behavioral Research, 36(4), 523–562.

Taehoon Kang & Petersen, N. (2009). Linking item parameters to a base scale.

ACT Research Report Series, 2009-2. Diambil tanggal 20 September 2010,

dari http://www. act.org/ research/researchers/reports/pdf/ACT_RR2009-

2.pdf.

Umar, J. (1987). Robustness of the simple linking procedure in item banking

using the Rasch model. (Doctoral dissertation, University of California,

Los Angeles).

Umar, J. (1999). Item Bank. Advances in measurement in educational research

and assessment.

Umar, J. (2012). Bahan Ajar Psikometri. Tidak diterbitkan.

Undang-Undang Nomor 2. (2002). Kepolisian Negara Republik Indonesia.

Vale, C.D. (1986). Linking Item Parameters onto a common scale. Applied

Psychological Measurement, 10 (4) 333-344.

Van der Linden, W. J., & Hambleton, R. K. (2013). Handbook of modern item

response theory. Springer Science & Business Media.

Wang, J., & Wang, X. (2012). Structural Equation Modeling: Applications using

Mplus. Chichester: John Wiley & Sons.

Wilhelm, O., & Engle, R. W. (Eds.). (2004). Handbook of understanding and

measuring intelligence. Sage Publications.

Wingersky, M.S., Cook, L.L. and Eignor, D.R. (1987). Specifying The

Characteristics Of Linking Items Used For Item Response Theory Item

Calibration. Princeton, NJ: Educational Testing Service.

Wright, B. D. & Stone, M. H. (1979). Best test design. Chicago: Mesa Press.

Wright, B. D., & Bell, S. R. (1984). Item Banks: What, Why, How. Journal of

Educational Measurement, 21(4), 331–345.

Yen, W. M., Fitzpatrick, A. R., & Brennan, R. L. (2006). Educational

measurement.

Lampiran 1. Rancangan Pengembangan Item Bank Tes Kognitif Kepolisian

Negara Republik Indonesia

A. Tes Kognitif Polri

Tes kognitif Polri disusun atas tiga aspek yang telah dikembangkan secara

mandiri oleh Biro Psikologi SSDM Polri. Dikembangkannya tes kognitif ini

adalah sebagai alat atau instrumen untuk screening awal dalam proses rekrutmen

para kandidat calon anggota Polri sebelum dilakukan wawancara psikologi

lanjutan. Pengembangan aspek pada tes kognitif ini telah disesuaikan dengan

karakteristik ideal yang harus dimiliki oleh setiap anggota Polri. Ketiga aspek

yang terkandung dalam tes kognitif Polri ini telah dituangkan dalam peraturan

Asisten Kapolri bidang SDM nomor 3 Tahun 2017 antara lain; kemampuan

berpikir logis, kemampuan berpikir praktis dan kemampuan berpikir verbal.

Dalam melaksanakan ujian, setiap tahun tim ad hoc dibentuk di kantor Biro

Psikologi SSDM Polri untuk mempersiapkan tes dan administrasi lainnya yang

akan digunakan dalam tes psikologi rekrutmen anggota Polri. Seluruh Polda

menggunakan tes yang disediakan oleh Biro Psikologi SSDM Polri. Pemeriksaan

dilaksanakan secara nasional dan serentak pada waktu yang sama. Setiap Polda

bertanggung jawab dalam menyiapkan teknis administrasi tes seperti

penggandaan, penilaian dan pelaporan pengujian berdasarkan kebijakan

dan petunjuk teknis yang dirancang oleh Biro Psikologi SSDM Polri.

Meskipun, tes ini dilakukan sudah sejak lama, tetapi dibutuhkan perbaikan

utama dilakukan terkait dengan masalah pengukuran dan masalah sistem. Ada

sejumlah kelemahan dari sistem tes psikologi yang ada yang perlu

diperbaiki. Beberapa kelemahannya adalah: (a) Karena persiapan dan administrasi

ujian dilakukan setiap tahun oleh tim ad hoc , bukan oleh unit permanen yang

bertanggung jawab atas pemeriksaan, perbaikan pada pemeriksaan menjadi sulit

dan ketidakberlanjutan serta variabilitas dalam kualitas item dari tahun ke tahun

kurang jelas; (b) Karena setiap tahun tes hanya digunakan sekali pakai maka sulit

untuk membandingkan hasil dari waktu ke waktu; (c) Item-item tes dikembangkan

dengan sangat tergesa-gesa dan hanya digunakan sekali pakai membuat biaya

penulisan item sangat tinggi; (d) Belum ada prosedur penyetaraan yang

dikembangkan sehingga dapat berdampak pada ketidakadilan tes untuk beberapa

kelompok peserta. Untuk memperbaiki kelemahan yang disebutkan di atas,

diperlukan pemeriksaan nasional berdasarkan item bank yang berkembang dengan

B. Langkah Pengembangan Item Bank Tes Kognitif Polri

Bagian ini membahas langkah-langkah prosedural dalam mengembangkan item

bank tes kognitif Polri. Item-item yang disusun selanjutnya dianalisis dan

dikalibrasi menggunakan pendekatan teori tes modern yaitu Confirmatory Factor

Analysis (CFA) dan Item Response Theory (IRT). Secara lebih khusus topik ini

akan membahas prosedur pengembangan item bank tes kognitif Polri yang ideal

dengan kebutuhan Institusi Polri. Adapun rancangan skema pengembangan item

bank yang akan diaplikasikan adalah sebagai berikut:

Gambar 1. Skema Rancangan Pengembangan Item Bank

Dalam skema rancangan pengembangan item bank tes kognitif Polri diatas,

terdapat beberapa langkah yang harus dilampaui. Penjelasan skema tersebut akan

dijelaskan sebagai berikut:

1. Penentuan Tujuan

Sebelum menulis suatu item sangat diperlukan penentuan tujuan item-item

tersebut. Penentuan tujuan ini dimaksudkan sebagai informasi terkait dengan

konten apa yang akan disusun oleh item-item yang akan ditulis. Hal ini dilakukan

Seleksi Item

Pelaksanaan Tes

Skoring

Pelaporan

Pemanfaatan

Penulisan Item

Item Bank

Analisis Kualitatif

Pemilihan Item

Item Baik?

Uji Coba Item

Analisis dan Kalibrasi

Tolak Item Tidak Revisi

Penyusunan Blueprint

Penentuan Tujuan

untuk memudahkan pembuatan spesifikasi konten yang akan digunakan sebagai

pedoman penulisan item-item. Sebagai contoh tujuan dari studi ini adalah

penyusunan item-item tes kognitif yang akan dijadikan item bank tes kognitif

Polri.

2. Penyusunan Blueprint

Setelah tujuan penulisan item ditentukan, maka langkah selanjutnya adalah

penyusunan blueprint / kisi-kisi dari masing-masing aspek yang akan diukur.

Blueprint ini berisi informasi mengenai ruang lingkup dari aspek-aspek yang akan

diukur misalnya memuat komponen atribut, definisi operasional, indikator-

indikator item dan proporsi item. Penyusunan blueprint ini dapat dilakukan

melalui rapat kecil oleh para ahli dibidangnya (dalam konteks studi ini adalah

Psikolog / S1 Psikologi yang bertugas di Kepolisian Negara Republik Indonesia)

dan penggunaan buku tex, silabus serta bahan lain yang mendukung konten harus

digunakan sebagai sumber daya dalam merancang blueprint ini (Hayat, 1989).

Penyusunan blueprint dalam pengembangan item bank tes kognitif Polri ini

mengacu pada aspek-aspek yang telah tertuang dalam Peraturan Asisten Kapolri

Bidang Sumber Daya Manusia No 3 Tahun 2017 tentang Pelaksanaan Tes

Psikologi Calon Anggota Kepolisian Negara Republik Indonesia.

3. Penulisan Item

Proses penulisan item adalah bagian penting dari pengembangan item bank yang

membutuhkan bakat dan keahlian. Untuk mendapatkan item-item yang baik

dibutuhkan penulis item yang terlatih dan berbakat, karena tanpa itu maka

penulisan item tidak akan efisien dan akan banyak item yang gugur dalam proses

analisisnya (Umar, 1999). Pedoman dalam penulisan item ini harus benar-benar

mengacu pada kisi-kisi / blueprint yang telah disusun. Dengan demikian setiap

item perlu dibuat sedemikian rupa sehingga jelas apa yang ditanyakan dan jelas

pula jawaban apa yang dituntut. Kualitas setiap item akan menentukan kualitas tes

secara keseluruhan. Dalam penulisan item ini ada beberapa yang perlu

diperhatikan antara lain: (a) siapa yang akan menulis item dan kriteria apa yang

digunakan untuk memilih penulis item, (b) seperti apa prosedur penulisan yang

akan digunakan (Hayat, 1989).

Berkenaan dengan konteks studi ini, orang yang paling tepat untuk menulis

item adalah Psikolog / S1 psikologi yang bekerja pada Institusi Kepolisian Negara

Republik Indonesia baik anggota Polri maupun PNS Polri karena mereka tahu

betul apa yang sedang terjadi di institusi Polri. Pelatihan penulisan item juga akan

sangat bermanfaat jika disediakan untuk para penulis yang telah dipilih sebelum

mereka mulai menulis. Hal ini dilakukan untuk memberikan pemahaman

mengenai prosedur yang jelas terkait dengan tema yang akan disusun serta

menyamakan persepsi tentang tema yang akan ditulis sehingga meminimalisir

penulisan item yang tumpang tindih.

Terkait dengan poin yang kedua yaitu prosedur penulisan item. Jenis

prosedur penulisan yang digunakan harus sesuai dengan pekerjaan yang

ditugaskan kepada penulis item. Ada dua jenis prosedur penulisan item yang dapat

digunakan dalam pengembangan item bank ini, antara lain: pelaksanaan lokakarya

menulis dan penulisan secara individu. Prosedur pertama memiliki keuntungan

bahwa penulis item dapat berkonsentrasi penuh pada pekerjaan sejauh semua

fasilitas dan sumber daya tersedia. Namun, penulis memiliki keterbatasan dalam

memproduksi item karena dibatasi waktu. Adapun prosedur kedua penulis dapat

mengeksplorasi lebih banyak sumber-sumber yang ada sehingga produktivitas

item juga lebih banyak. Pilihan prosedur apa yang sesuai tergantung pada lamanya

waktu yang tersedia, beban pekerjaan, dan sumber daya keuangan yang tersedia

(Hayat,1989). Jadwal penulisan item-item ini harus dibuat bukan dengan tim ad

hoc melainkan dibuat rutin setiap minggu / setiap bulan. Dengan demikian target

yang ditentukan dalam pengembangan item bank ini akan berjalan dengan baik.

Sebagai ilustrasi, berikut ini adalah skenario jika pengembangan item bank

tes kognitif Polri ini akan dilaksanakan dan ditargetkan dalam waktu satu tahun.

Tim penulis item diambil dari personel pada masing-masing Polda setidaknya dua

personel yang diajukan sebagai penulis item sesuai kriteria (Psikolog/S1

Psikologi). Artinya dari 34 Polda akan diperoleh 68 penulis item. Setiap penulis

item ditugaskan untuk membuat 15 item (5 item mengukur aspek berpikir logis, 5

item mengukur aspek berpikir praktis dan 5 item mengukur aspek berpikir verbal)

per bulan, maka ada 15 X 2 X 34 atau 1.020 item baru setiap bulannya. Sehingga

diharapkan bahwa 12.240 item (sejumlah 4.080 item pada masing-masing aspek)

dapat dikumpulkan setiap tahunnya dengan asumsi tidak ada item-item yang

tumpang tindih. Dengan demikian target pengembangan yang telah direncanakan

akan segera terpenuhi.

4. Analisis Kualitatif

Analisis secara kualitatif bertujuan antara lain untuk melihat apakah item-item

yang telah ditulis sudah sesuai dengan blueprint dan indikator perilaku yang

hendak diungkap, melihat apakah item telah ditulis sesuai dengan kaidah

penulisan yang benar, melihat apakah item yang ditulis masih mengandung social

desirability yang tinggi dan melihat apakah suatu item diperkirakan akan

berfungsi dengan baik atau tidak.

Langkah analisis kualitatif ini merupakan hal yang penting dan langkah ini

merupakan sebuah bagian dari kegiatan review yang harus dilakukan bukan oleh

penulis sendiri, karena seringkali penulis itu sendiri tidak bisa melihat kekurangan

yang terdapat pada suatu item yang telah ditulisnya. Selain dilakukan oleh orang

yang berbeda, langkah ini juga harus dilakukan oleh suatu panel ahli dibidangnya.

Sedapat mungkin panel ahli ini terdiri atas ahli pengukuran (psikometri) dan ahli

dalam masalah konten yang akan diukur (Millman dan Greene, 1989). Hasil

telaah / tinjauan item dalam langkah ini selanjutnya diklasifikasikan menjadi

beberapa bagian yaitu item baik, item perlu revisi, dan item ditolak. Jika item baik

maka langsung diterima, sedangkan item perlu revisi akan langsung direvisi

sehingga diperoleh item yang baik, sementara item yang ditolak akan

dikembalikan ke penulis item.

Jika dihubungkan dengan ilustrasi pada penulisan item diatas maka setiap

bulan item yang harus dianalisis adalah sebanyak 1.020 item (340 item pada

masing-masing aspek). Setidaknya 10 orang disiapkan sebagai tim peninjau item

dalam setiap bulannya untuk melakukan review item-item tersebut. Karena

pelaksanaan pengembangan item ini sifatnya terpusat maka para peninjau item ini

adalah personel Biro Psikologi SSDM Polri yang memenuhi kualifikasi yang telah

dipersyaratkan.

5. Uji Coba Lapangan

Pengujian lapangan atau field testing dilaksanakan untuk mendapatkan data

empiris dari item-item yang diujikan. Dalam proses uji coba lapangan ini

sebaiknya memperhatikan dua tahapan ini: tahap perakitan tes dan tahap

pelaksanaan tes.

a. Tahap Perakitan Tes

Perakitan tes dilakukan sebelum kegiatan uji coba dilaksanakan. Tes harus dirakit

dengan item-item yang telah ditinjau baik oleh tim peninjau item. Perakitan ini

juga harus sesuai dengan spesifikasi yang telah disusun sebelumnya. Penentuan

letak kunci jawaban dalam satu perangkat ditata secara menyebar, artinya jangan

sampai ada kunci yang sama terkumpul pada nomor yang berurutan. Hal lain yang

harus dipertimbangkan untuk keperluan kalibrasi item menggunakan Item

Response Theory (IRT) adalah desain linking. Hayat (1989) mengungkapkan ada

beberapa desain yang dapat digunakan antara lain: Group Link Design, Test or

Item Link Design dan Group and Item Link Design. Beberapa desain Anchor telah

dijelaskan cukup detail dalam tinjauan teori studi ini.

Dalam pengembangan item bank tes kognitif Polri ini akan lebih cocok jika

menggunakan desain test or item link design. Desain ini sering digunakan karena

cukup mudah dan efektif penggunaanya. Dengan ketersediaan sampel uji coba

yang besar akan mempermudah penggunaan desain ini. Kelebihan pendekatan ini

salah satunya adalah responden biasanya akan mengambil item lebih sedikit

sehingga desain ini akan meminimalisir faktor kelelahan pada responden.

Jumlah anchor item adalah bagian penting dari desain linking ini. Semakin

besar jumlah anchor item maka akan semakin baik kebermanfaatannya. Jika

jumlah anchor terlalu sedikit, prosedur linking mungkin tidak mendapatkan hasil

yang diharapkan. Tidak ada aturan yang disepakati dalam jumlah anchor ini.

Wingersky & Lord (1987) merekomendasikan sedikitnya lima item. Sementara

Vale et al (1986) mengungkapkan bahwa jumlah anchor item yang baik

setidaknya ada 15-25 item. Umar (1987) menunjukkan bahwa lima item dapat

diterima dan sepuluh item cukup di bawah model IRT.

Jika dihubungkan dengan ilustrasi pada penulisan item di atas, tiap bulan

diproduksi item sebanyak 1020 item (340 item pada aspek kemampuan berpikir

logis, 340 item pada aspek berpikir praktis dan 340 item pada aspek kemampuan

berpikir verbal) dengan asumsi semua item telah ditinjau dengan hasil baik secara

kualitatif. Maka dapat disusun kurang lebih 11 paket tes setiap bulan yang siap

diuji coba. Sebagai contoh jika desain item link design yang digunakan dalam

studi ini maka dibutuhkan common item dari item-item dalam bank yang telah

dikalibrasi. Adapun contoh desain anchoring nya sebagai berikut:

Gambar 2. Desain Tes yang Memuat Common Items

Berdasarkan gambar diatas dapat dijelaskan bahwa 11 paket tes masing-

masing mempunyai 30 item inti yang terdiri dari 10 item mewakili aspek berpikir

logis, 10 item mewakili aspek berpikir praktis dan 10 item mewakili aspek

berpikir verbal yang diambil dari bank yang telah dikalibrasi sebelumnya. Item-

item tersebut yang akan berfungsi sebagai common items. Sedangkan 90 item baru

terdiri dari tiga aspek dengan masing-masing aspek sebanyak 30 item dan item ini

berbeda pada tiap paket tes.

b. Pelaksanaan Uji Coba

Tujuan dilaksanakannya uji coba lapangan adalah untuk mendapatkan data

empirik setiap item, antara lain: tingkat kesukaran, daya pembeda, distribusi

distraktor, faktor tebakan semu, reliabilitas, dan standar kesalahan item. Untuk

mendapatkan data yang valid perlu ditekankan kepada sekolah-sekolah yang

menjadi sampel uji coba agar melaksanakan uji coba dengan sungguh-sungguh.

Hal-hal yang perlu diperhatikan dalam pelaksanaan uji coba item sebagai berikut:

(1) Sampel Uji Coba

Dalam proses penentuan sampel uji coba item-item ini membutuhkan

pengkajian dan perhitungan yang matang. Klasifikasi secara geografis

diharapkan dapat mendapatkan sampel yang representatif. Kualifikasi tingkat

pendidikan juga harus diperhatikan sesuai dengan tujuan tes tersebut. Teknik

sampling yang tepat juga harus dipilih dan dirancang dengan baik agar

mendapatkan data yang representatif.

Karena tes ini nantinya akan digunakan secara Nasional, sampel uji

coba ini sebaiknya diambil dari beberapa provinsi yang dibagi dalam tiga

bagian yaitu wilayah barat (Jawa), wilayah tengah (Kalimantan) dan wilayah

timur (Papua). Penentuan jumlah sampel juga sangat penting, meskipun

tidak ada angka pasti yang disarankan dalam literatur, ukuran sampel

minimum untuk setiap bentuk tes tidak boleh kurang dari 1000 orang (Lord,

1980).

(2) Lembar Jawaban

Untuk memudahkan proses analisis data, penggunaan lembar jawaban

komputer (LJK) nampaknya akan lebih efektif daripada sistem manual jika

digunakan pada pengujian studi ini, mengingat jumlah sampel yang besar

dan tersedianya perangkat komputer untuk proses analisis data.

(3) Proses Pelaksanaan

Penentuan tempat dan tanggal uji coba ditetapkan berdasarkan jadwal yang

telah disepakati oleh dua belah pihak, baik dari tim pelaksana uji coba

maupun dari pihak penyedia sampel uji coba (tempat pendidikan Polisi,

SMA/SMK, Universitas) yang sebelumnya telah membuat kesepakatan

kerjasama. Dalam proses pelaksanaan uji coba ini juga disusun beberapa

pedoman pelaksanaan uji coba antara lain: tata tertib, prosedur

pengumpulan lembar jawaban dan buku tes, pengawasan, format berita

acara pelaksanaan dan format daftar hadir.

6. Analisis dan Kalibrasi

Setelah melaksanakan pengujian lapangan maka langkah selanjutnya adalah

melakukan analisis psikometri pada item-item tes tersebut. Dalam hal ini proses

analisis item dapat ditempuh dengan dua pendekatan yaitu Confirmatory Factor

Analysis (CFA) dan Item Response Theory (IRT). Pendekatan Confirmatory

Factor Analysis (CFA) dilakukan dengan tujuan untuk menguji validitas konstruk,

yaitu ketepatan konstruksi teoretis yang mendasari disusunnya tes (Nunnally,

1978; Allen & Yen, 1979) artinya item-item yang menyusun tes kognitif Polri

apakah benar-benar mengukur yang seharusnya diukur atau tidak.

Selanjutnya pendekatan Item Response Theory (IRT) digunakan untuk

proses kalibrasi item-item yang akan ditambahkan ke bank. Kalibrasi dalam IRT

adalah proses estimasi parameter item dan parameter kemampuan orang untuk

mengetahui kedudukan item dan orang dalam suatu instrumen tes berdasarkan

model Item Response Theory (Standards for Educational and Psychological

Testing, 1999; Wells, et al., 2002; Yen & Fitzpatrick, 2006). Jika item-item baru

akan ditambah ke bank maka kalibrasi ini melibatkan item-item yang telah

dikalibrasi lebih dulu dalam bank.

Penggunaan desain linking sangat dibutuhkan dalam proses ini. Ketika

desain anchor linking digunakan maka prosedurnya seperti yang telah dibahas dan

diilustrasikan pada tahap uji coba. Sebagai contoh apabila digunakan dua

perangkat tes yakni X dan Y dan dua kelompok peserta yakni K1 dan K2, maka

masing-masing perangkat tes ditambahkan anchor item Z sehingga kedua

perangkat tes menjadi X + Z item dan Y + Z item. Kelompok peserta K1

mengerjakan perangkat tes X + Z dan kelompok K2 mengerjakan Y + Z sehingga

anchor item Z dikerjakan oleh dua kelompok peserta tes (sebagai common item).

Penyamaan skala dilakukan dengan kalibrasi parameter kemampuan atau

parameter anchor item. Apabila pada rancangan anchor dengan kalibrasi

parameter item, maka parameter kemampuan peserta kedua kelompok sudah

berada pada skala yang sama. Sebaliknya jika penyamaan skala dilakukan dengan

kalibrasi kemampuan peserta, maka estimasi parameter anchor item dari

kelompok K1 ke kelompok K2 memenuhi persamaan:

𝒃 ∗𝒌𝟏= 𝜶𝒃𝒌𝟐 + 𝜷

𝒂 ∗𝒌𝟐= 𝜶𝒂𝒌𝟏

Keterangan:

𝑏 ∗𝑘1 : parameter tingkat kesukaran item tes anchor pada kelompok 1,

𝑎 ∗𝑘2 : parameter daya pembeda item tes anchor pada kelompok 2,

𝑏𝑘2 : parameter tingkat kesukaran item kelompok 2,

𝑎𝑘1 : parameter daya pembeda item kelompok 1.

𝛼, 𝛽 : konstanta konversi penyetaraan tes.

7. Pemilihan Item