19
CAT An Article Written by MICHEL LAURIER Presented by Juniato Keywords: Testing, Adaptive, Conventional, Computerized, IRT, ICC, item banks, trait

Cat ppt

  • Upload
    juniato

  • View
    374

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cat ppt

CATAn Article Written by MICHEL LAURIER

Presented by Juniato

≠Keywords: Testing, Adaptive, Conventional, Computerized,

IRT, ICC, item banks, trait

Page 2: Cat ppt

WHAT WE CAN DO AND CANNOT DO WITH COMPUTERIZED ADAPTIVE TESTINGMICHAEL LAURIER Generasi TestI. Conventional Testing; administered by computersFor a long time, educational testing has focused mainly on paper-and-pencil tests and performance assessments. Since the late 1980s, when the rapid dissemination of personal computers in education began, these testing formats have been extended to formats suitable for delivery by computer. (der Linden & Glas, 2010: v). Examples include the two-stage testing format (Cronbach &Gleser, 1965), Bayesian item selection with an approximation to the posterior distribution of the ability parameter (Owen,1969),the up-and-down method of item selection (Lord, 1970), the Robbins–Monro algorithm (Lord, 1971a), the flexilevel test(Lord,1971b), the stradaptive test (Weiss,1973), and pyramidal adaptive testing (Larkin&Weiss, 1975). (der Linden & Glas, 2010: vi)II. CAT (Bunderson, Inouye, Olsen 1989) - Will be less obtrusive, - Provide constant advice to learners and teachers. ..\Teaching Materials Download\Linden, Wim J. n Cees Glas Elements of Adaptive Testing (2010) Springer.pdfLaurier, ingin menunjukkan: 1. How CAT works

2. What is the underlying theory Dengan memberikan contoh implementasi CAT di Perancis

Page 3: Cat ppt

Prinsip-prinsip Adaptive TestingComputers in testing sangatlah berguna dibandingkan dengan conventional testing methods:1. Number-crunching capabilities

Conventional:Sistem penilaian menghitung jumlah jawaban Benar; atau mengkonversikannya pada skala yang sudah ada.Computerized:-allows more complex procedures segera atau saat test dilaksanakan-penggunaan datanya lebih efisien.-dgn computer; lebih cepat dan virtually error-free (bebas dari kesalahan).

2. Multiple-branching capabilitiesConventional:-terkendala dengan linearitas.Computerized:-menggunakan sistem testing “intelligent”-saat test dilakukan, dimungkinkan membuat keputusan.

- computer dapat menganalisa jawaban students dan menentukan jawaban mana yang sesuai.-perihal linearitas, bukanlah sebagai kendala

Page 4: Cat ppt

LatarbelakangDari sudut pandang pengajar:Misalnya kita ingin memasukkan pelajar pada satu kelompok secara placement test konvensional; -agak kesulitan untuk mengetahui level-nya, bisa saja seorang itu absolut beginner; Kalau begitu, harus ada soal yang mudah dan sulit.Jika pelajar pada advanced level, beberapa soal akan sangat mudah. Dari sudut pandang pelajar:- menganggap soal tersebut kurang menantang, membosankan

Dari sudut pandang psikometrik, soal itu tidak memberikan informasi yang penting/berharga karena hasilnya dapat diprediksi.Di sisi lain, soal tertentu dianggap sangat sulit terutama bagi pemula “akan frustrasi”; dan sangat sedikit informasi yang diperoleh terkait level pemelajar.

Page 5: Cat ppt

Adaptive testing = tailored testing = karena:Bertujuan menunjukkan hal-hal sesuai dengan kompetensi si pemelajar dan sifatnya informatif. Pada open-ended test (biasanya oral), kemungkinan jawaban benar 50 / 50.Ini sebuah problem, mengingatkan kita pada Binet’s multi-stage intelligent test.

Penerapan test memang membutuhkan proses yang kompleks, CAT mencoba mereplikasi; dengan cara menyediakan:1. Item bank : sekumpulan hal/soal disimpan dengan spesifikasi tertentu dan dapat mengukur kemampuan yang sama pada level yang berbeda.2. Prosedur seleksi : sebuah algoritma memungkinkan untuk memilih dan mendapatkan kembali the most appropriate item (hal-hal yang paling sesuai) pada satu momen, dan pada pemelajar tertentu.

Page 6: Cat ppt

Untuk menyusun Item bank dan Prosedur seleksi tersebut, theoretical framework yg paling sering digunakan adalah IRT (Item Response Theory)( -- ) mathematical complexity( + ) conceptually attractive and very interesting for CAT IRT = Latent Trait Theory (oleh Birnbaum 1968) karena menganggap bahwa (p.246) “a test score or a pattern of answers reflects a single construct that is not directly observable.”(Skor sebuah tes atau pola jawaban mencerminkan sebuah konstruksi tunggal yang tidak dapat diamati secara langsung).Apa yang diukur lewat test disebut “Trait” dan hal ini terkait dengan subject’s ability. Teori ini diperjelas oleh F. Lord (1977) dengan ICC (Item Characteristic Curve) sebuah fungsi matematis yang menghubungkan probabilitas keberhasilan atas soal tertentu dengan kemampuan (ability) yang diukur dengan soal yang telah dibuat sebelumnya. (Hambleton dan Swaminathan 1985:22).

Page 7: Cat ppt

Kurva ini menunjukkan bahwa probabilitas akan naik seiring dengan kemampuan subjek tersebut. Range ability-nya -3 hingga +3 pada sumbu X, sedangkan probabilitas ada pada sumbu Y. Kurva pada hal 246 ICC pada Intermediate Level dengan tiga parameter pada sumbu X, parameter a Discrimination = 1.0, Parameter b Difficulty = 0, dan parameter c Guessing = 0.2. Kurva tsb tidak akan pernah menyentuh baris paling bawah karena soal yang diberikan berupa PG yang memungkinkan adanya guessing (parameter c). Denan mengetahui parameter ini, kita dapat secara tepat menggambarkan ICC menggunakan rumus dasar IRT:

†= subject’s abilityD = konstanta 1.7

Page 8: Cat ppt

G. Rasch 1960, pernah mengusulkan rumus yang lebih sederhana tetapi kurang akurat, “ Rasch Model, menganggap bahwa tidak ada guessing dan semua soal diperlakukan (discriminate) sama. Dengan model ini, hanya kesulitan (difficulty) yang perlu diestimasi. Parameter estimasi merupakan sebuah prosedur matematis komplek yang memerlukan komputer. Ada LOGIST (Wingersky, Barton & Lord 1982), atau micro-computers (MicroCAT, Assessment Systems Corp. 1984).( -- ) Agar bisa mengestimasi paramater secara tepat (untuk tiga parameter tadi), diperlukan sampel yang besar (1000 peserta tes).( -- ) Sayangnya, sebaran sampel ini tidak merefleksikan secara tepat distribusi populasi karena program akan mencoba membuatkan kurvanya dibanding dengan menhitung proporsi jawaban benar. IRT menyediakan:1. invariance of items Item calibration is sample free2. invariance of subjects Test-free person measurement Yg kedua ini sangatlah penting dalam adaptive testing karena secara tidak langsung menyatakan bahwa estimasi kemampuan dapat dihitung dan dibandingkan meskipun soal-soal berbeda telah disampaikan.

Page 9: Cat ppt

Implementasi TestUntuk menyusun item bank, ada beberapa langkah:1. Merencanakan bank tsb. Apakah ada lebih dari satu trait yang akan diukur? Jika ya, maka perlu disusun bank soal.Harus dipastikan bahwa itu mudah dilaksanakan, dijawab dan dinilai baik dgn format paper-and-pencil format juga versi computerisasi. 2. Field Testing dan analisis item / soal.Perlu uji coba dgn sampel kecil 100 s/d 200 subjek. Classical analysis item menggunakan proporsi jawaban benar dan korelasi adalah sangat membantu untk mengeliminasi soal-soal “bad” dari versi berikutnya. Pada tahap ini, dimensionality analysis dapat dilakukan untuk memastikan tes atau sub tes mengukur single trait.

3. Field Testing and Calibration: Versi baru dilaksanakan pada sample besar 200 s/d 2000 subjek tergantung pada model dan kualitas sample. Data ini akan diproses sehingga parameter dan tingkat kesesuaian (fit) akan diperoleh untuk masing-masing item.

4. Inclusion to the bank.Jika itemnya dapat diterima, maka akan ditambahkan ke bank. Setidaknya, kode identifikasi, pertanyaan (dan pilihan dengan soal bentuk PG), jawaban benar dan parameter harus ada pada item record. (Henning 1986. Hal 248)

Page 10: Cat ppt

Tentu saja, sistem manajemen sudah harus dibuat sebelumnya. Cara kerjanya seperti sistem data base. Masing-masing sub-test merupakan data base yang dapat diakses dengan sistem manajemen.

Ketika seorang user memilih satu sub-test, operasi yang berbeda dapat dijalankan:1. Updating the bank:Ada item yang ditambah, juga dikurangi (dihapus). User harus dapat melihat dan memodifikasi item dalam bank tersebut tanpa harus menuliskannya lagi.

2. Importing items:Harus dapat melakukan transfer dalam jumlah besar ke bank items.

3. Listing items:Masing-masing item dapat dilihat pada jendela terpisah. User juga harus bisa melihat daftar items mencakup kode identifikasi item, parameter, dan isyarat (semacam kata kunci) untuk meingingatkan user pada pertanyaan.

4. Obtaining the item information:Dengan IRT, seseorang dapat mengetahui berapa banyak informasi yang dapat diperoleh pada poin-poin berbeda dari skala ability. Ketika informasi tersebut dikumpulkan, pada poin ability tertentu, estimasi menjadi lebih reliable.

Page 11: Cat ppt

Prosedur seleksi merupakan sebuah metode yang dapat diterapkan untuk memperkirakan ability peserta ujian setelah menjawab pertanyaan dan untuk menemukan item berikutnya yang paling sesuai. Konsep informasi item sangatlah penting karena item yang paling sesuai merupakan item yang menyiratkan informasi paling banyak merujuk pada ability tertentu. Melihat kembali pelaksanaan adaptive test yang telah dirancang akan membantu dalam memahami bagaimana program tersebut bekerja. Kita butuh tes penempatan terkomputerisasi; dimana instrumen mencoba mengakses general proficiency pemelajar. Konstruksinya harus mempertimbangkan beberapa kompetensi, gramatikal, sosiolinguistik, diskursus, (Canale dan Swain 1980) dan strategic competence (CLT, Richards n Rogers).

Format test dipengaruhi oleh medium, the micro-computer. Tiga sub tes berisi soal PG karena kita ingin meminimalisir penggunaan keyboard dan karena open-ended answers terlalu tidak dapat diprediksi untuk dapat diproses dalam tipe tes ini. Organisasi dan isi test juga merefleksikan fakta bahwa kita harus mengikuti syarat-syarat yang ada pada IRT.

Page 12: Cat ppt

Pelaksanaan TestDengan IRT, prosedur telah dibuat untuk mengestimasi ability pemelajar, dengan menggunakan jawaban dan parameter dari item tersebut.Namun, menghitung ability pemelajar tidaklah mungkin saat program baru dijalankan, karena data belum tersedia. Inilah sebabnya mengapa pada awal tes, pemelajar ditanyakan beberapa informasi seputar latar belakang bahasa keduanya. Misalnya:Sudah berapa tahun belajar bahasa tersebut?Pernah tidak tinggal di lingkungan yang menggunakan bahasa tersebut?Jika ya, berapa lama? Lalu program akan mengarahkan pemelajar pada tingkatan proficiency-nya atas tujuh skala kategori mulai dari “Beginner” hingga pada “Very Advanced”.

Informasi ini digunakan agar dapat diperoleh estimasi awal yang nantinya akan digunakan untuk memilih item pertama dari sub-test dimaksud.

Tung (1986) menunjukkan bahwa jika estimasi awal ini lebih tepat, maka adaptive test itu akan lebih efisien.

Page 13: Cat ppt

Biasanya, sub-test pertama memuat paragraf pendek untuk mengukur tingkat pemahaman pemelajar. Menurut Jafarpur (1987), “short context technique” ini merupakan suatu cara untuk mengukur general proficiency. Program kemudian akan menyesuaikan jenis soal sesuai dengan tingkat kesulitan item. Jika sub-test ini terjawab dengan baik, maka program akan berpindah pada sub-test berikutnya.

Sub-test kedua dilaksanakan dengan merujuk pada hasil sub-test pertama. Pada bagian ini, ditampilkan suatu situasi dalam bahasa Inggris dan lalu diikuti oleh empat pernyataan benar dalam bahasa Perancis. Pemelajar harus memilih satu yang paling sesuai secara semantik dan sosiolinguistik dari pernyataan tadi. Raffaldini (1988) menyatakan bahwa tipe test situasional ini memberi nilai tambah untuk mengukur proficiency.

Jika semuanya terjawab, maka program akan beralih pada sub-test ketiga yakni a traditional fill-the-gap exercise. Ini untuk mengukur aspek bahasa secara leksikal dan gramatikal. Setelah semuanya selesai, maka hasilnya akan tampil di layar.

Maka hasilnya akan dikategorikan pada 14 tingkatan; “absolute beginner, Absolute beginner +, … Very advanced +”.

Page 14: Cat ppt

Keuntungan ( + ) dan Keterbatasan ( - )

+ Pemelajar dan pelaksana (administrator / pengelola) mendapatkan hasil langsung (cepat).+ Pemelajar menerima balikan atas pekerjaannya, dan ini sifatnya rahasia (confidential).+ Karena tidak ada “markers”, jadi “marking”-nya jadi lebih ekonomis, bebas dari kesalahan (error-free), dan tidak ada penundaan.+ Karena testnya sifatnya individual, pemelajar dapat mencatat tes tersebut jika diinginkan.+ karena prosedurnya sifatnya adaptive (dapat disesuaikan), test-nya lebih singkat. + Untuk dapat membandingkan dari sisi reliabilitas test yang kita ikuti, kita perlu versi “paper-and-pencil” (dua kali dari CAT). + CAT hanya menggunakan 40% dari soal pada tes convensional sejenis. + Dengan prosedur yang adaptif, pemelajar dihadapkan pada test yang realistis : maksudnya item tersebut tidak pernah dianggap terlalu sulit ataupun terlalu mudah.+ Dengan menggunakan instrumen yang canggih, dapat diketahui jika ada peserta test yang palsu (semacam joki).+ Dengan penggunaan komputer, seseorang itu dapat menciptakan suasana yang lebih asyik (santai). + “within a CAT environment item selection and ability estimation occur in real time” (der Linden & Pashley, 2010 : 4)

Page 15: Cat ppt

- Komputer itu sifatnya artificial (buatan), hanya mencoba merepresentasikan dunia nyata dan menghindari bentuk test langsung.- Selain itu, jenis jawaban terbatas karena mesin dan juga karena model psikometrik. - Medium, komputer tidak hanya mempengaruhi tipe jawaban tetapi juga isi tes. Pada test, kita ingin menggunakan standar dan perangkat keras yang terjangkau tetapi beberapa pemelajar mengeluh bahwa tes tersebut sangat kurang dalam mengakses oral skills. - Meskipun inovasi videodisc, perangkat audio-tape, CD-Rom, atau perangkat buatan lainnya, stimulus dalam CAT umumnya bentuknya tertulis.- Sebaliknya, model, IRT, tidak hanya mempengaruhi tipe jawaban tetapi juga kepraktisan pengembangannya. - Dalam tes, tiga bagian terdiri atas 50 item (soal) diberikan kepada peserta dalam jumlah besar (700 hundred examinees (hal. 252). Dengan jumlah ini, komponen kesalahan dari tiga parameter itu mungkin terlalu besar. Untuk menguranginya, model Rasch dapat diterapkan biasanya pada penyesuaian model. CAT kurang applicable pada tes berskala kecil.

Page 16: Cat ppt

Masalah yang paling besar adalah asumsi atas unidimensionalitas (ukuran); ini terkait dengan trait yang diukur. Dengan IRT, dimensi umum, yakni faktor tertentu, harus secara jelas dimunculkan.

Sebaliknya, aplikasi IRT ini masih diperdebatkan. Meskipun prosedur kalibrasinya secara statistik cukup bagus dan kebanyakan tes bahasa akan mengikuti syarat unidimensionalitas (Henning, Hudson & Turner 1985), banyak situasi tes didasarkan pada ancangan multidimensi kompetensi bahasa (Bachman). Teknik kalibrasi multidimensi ada tetapi tidak selalu praktis (Dandonelli & Rumizen 1989). Salah satu jenis unidimensionalitas adalah independensi soal. Prinsip ini menyiratkan bahwa sebuah jawaban benar pada item tertentu tidak akan mempengaruhi kemungkinan akan benar pada item yang lainnya. Syarat ini tidak terpenuhi pada Cloze Test karena untuk menemukan kata yang tepat dan benar dalam sebuah konteks juga memungkinkan kita menemukan jawaban benar pada kata berikutnya. Akhirnya, ketika semua masalah teoritis ini teratasi, kerapkali masalah-masalah praktis muncul. Misalnya, bagi beberapa lembaga, biaya pengembangan dan implementasi adaptif test ini sangat berat (tinggi). Madsen (1986) menyelidiki sikap dan kebimbangan pemelajar menghadapi test komputerisasi; perlu ada perhatian atas pengaruh afeksi ini.

Page 17: Cat ppt

Contoh: catdemo.htm cat10.asp.htm Rudner, Lawrence M. (1998). An On-line, Interactive,

Computer Adaptive Testing Mini-Tutorial, http://edres.org/scripts/cat/cat

http://examenglish.com

Page 18: Cat ppt

Kesimpulan

1. Dengan adanya keterbatasan CAT ini mengindikasikan bahwa CAT bukanlah sebuah panacea (ampuh/mujarab). 2.Sebaiknya jangan digunakan untuk tes diagnosa jika untuk mencari kelemahan atau kekuatan pada discrete points karena tipe tes ini (DP) tidak unidimensional. 3. Juga sebaiknya tidak digunakan pada “communicative test” yang mencoba mengukur aspek kompetensi komunikatif tanpa mengisolasinya dengan dimensi yang berbeda dalam sub-tes terpisah.4. Canale (1986) menyebutkan bahwa suasana tesnya sangat artifisial sehingga dari sisi validitasnya CAT kurang, karena jika hasil tes digunakan untuk membuat suatu keputusan penting (High Level Test), misalnya tes sertifikasi. Namun, jika itu sebagai estimasi kasar atas ability dalam lingkup luas dibutuhkan, misalnya untuk tes penempatan, barangkali CAT bisa sebagai solusi yang sesuai. Juga jika trait yang diukur sesuatu yang unik seperti general proficiency, vocabulary, grammar. Juga dapat menjadi solusi bagi tes integratif terkait receptive skills terutama jika hasilnya tidak mempengaruhi masa depan pemelajar, atau dimungkinkan saja dilengkapi dengan pengukuran langsung lainnya. 5. Perangkat lunak program CAT diperlukan dalam bidang pengukuran untuk membantu proses evaluasi guna mengetahui keberhasilan proses pembelajaran ; Kinerja program CAT menggunakan algoritma logika fuzzy mampu melaksanakan tugas dengan baik untuk pemilihan butir tes dan pengukuran kemampuan hasil belajar siswa dalam proses pembelajaran (Haryanto, 2009. DISERTASI:UNY)

Page 19: Cat ppt

T3r1m4 k451H

≠Singkatnya, CAT akan tetap sebagai CAT, tidak akan pernah

sebagai seekor “watchdog”.