asp_subjective performance evaluation in the public sector_evidence from school inspections

Kinerja subyektif Evaluasi di Sektor Publik: Bukti Dari Inspeksi SekolahAbstrakPengukuran kinerja di sektor publik sebagian besar didasarkan pada hardmetrics, yang memiliki manfaat yang transparan, tetapi dapat dikenakan perilaku game. Evaluasi kinerja subyektif menawarkan keuntungan potensial dari emeasuring apa matters, tapi terbuka untuk manipulasi oleh birokrat dibebankan dengan pengawasan. Makalah ini menyelidiki inspeksi sistem sekolah baru di mana inspektur independen mengunjungi dan menilai sekolah pada pemberitahuan yang sangat singkat, menulis dan mengungkapkan laporan kualitas sekolah dan sekolah sanksi dinilai 'Gagal'. Setelah menunjukkan bahwa peringkat pemeriksaan yang berlaku dalam arti yang kondisional berkorelasi dengan independen ukuran kualitas sekolah dasar, penelitian mengevaluasi efek kausal dari inspeksi gagal pada prestasi murid berikutnya. Bukti menunjukkan bahwa inspeksi gagal mengarah untuk menguji keuntungan skor. Keuntungan terbesar dinikmati oleh siswa dengan kemampuan yang lebih rendah sebelumnya, hasil ini tidak dapat dipertanggungjawabkan oleh 'efek langit-langit' bagi siswa kemampuan tinggi. Bukti juga menunjukkan bahwa setidaknya beberapa keuntungan terakhir ke jangka menengah. Selanjutnya, dan kontras dengan banyak bukti dari uji berbasis rezim akuntabilitas, studi ini menemukan ada bukti yang menunjukkan bahwa sekolah dapat mengembang kinerja skor tes dengan game sistem, menunjukkan bahwa pengawasan oleh inspektur dapat membatasi perilaku strategis seperti.

1. PendahuluanDalam upaya untuk membuat organisasi publik lebih efisien, pemerintah di seluruh dunia menggunakan 'keras' target kinerja untuk mengevaluasi kualitas pelayanan. Contoh termasuk nilai tes siswa untuk sektor pendidikan di AS, Inggris dan Chili (lihat survei oleh Figlio dan Loeb, 2011) dan rumah sakit waktu tunggu dalam sistem perawatan kesehatan masyarakat Inggris (Besley, Bevan dan Buchardi, 2008; Propper et al , 2008). Akuntabilitas berdasarkan ukuran kinerja keras atau tujuan memiliki manfaat yang transparan tetapi kelemahan potensial adalah bahwa skema tersebut dapat mengakibatkan perilaku game dalam pengaturan di mana insentif fokus hanya pada satu dimensi hasil.Evaluasi kinerja subyektif, di sisi lain, mengulurkan janji 'mengukur apa yang penting' jika evaluator dapat menggabungkan kedua informasi keras dan lunak untuk mengukur keluar-datang. Namun, sistem di mana evaluator diperbolehkan untuk melakukan penilaian sendiri, daripada mengikuti aturan keputusan formal, menimbulkan satu set baru kekhawatiran. Sebagai contoh, hasil dari literatur teoritis menekankan 'kegiatan pengaruh' dan 'pilih kasih' (Milgrom dan Roberts, 1988; Prendergast dan Topel 1996) yang membuat 'fana' ukuran subyektif (Dixit, 2002). Bukti empiris pada efektivitas evaluasi subyektif tetap tipis. Sebagaimana dicatat oleh Prendergast (1999, p.33), literatur ekonomi sebagian besar berfokus pada "pekerja dengan output mudah diamati [yang] sebagian kecil dari populasi."Makalah ini berusaha untuk mengisi kesenjangan ini dengan mengevaluasi secara empiris rezim evaluasi kinerja subyektif untuk sekolah. Pengaturan adalah publik (negara) sistem pendidikan bahasa Inggris, di mana inspektur independen kunjungan, monitor dan laporan tentang kualitas sekolah. Selain itu, sekolah dinilai 'Gagal' dapat dikenakan sanksi, seperti inspeksi lebih sering dan intensif. Sebagaimana dijelaskan secara rinci di bawah, inspektur menggabungkan metrik keras, seperti skor tes, dengan yang lebih lembut, seperti pengamatan pengajaran di kelas, dalam rangka untuk sampai pada penilaian mereka tentang kualitas sekolah. Hampir tidak ada bukti empiris mengenai apakah suatu sistem untuk sektor pendidikan bekerja dalam prakteknya.Saya memberikan bukti tentang efektivitas rezim ini sepanjang dua dimensi berikut. Pertama, apakah peringkat inspektur memberikan informasi tambahan pada kualitas sekolah, atas dan di atas yang sudah tersedia di ruang publik? Ini 'uji validitas' diimplementasikan sebagai berikut: Saya bertanya apakah peringkat inspeksi berkorelasi dengan ukuran kualitas sekolah yang mendasari - dibangun dari laporan survei mahasiswa remaja praktek guru serta kepuasan orangtua - tergantung pada standar karakteristik sekolah yang dapat diamati seperti peringkat nilai ujian dan proporsi siswa yang layak untuk makan siang gratis.Kedua, saya memeriksa apakah rating inspeksi gagal mengarah ke keuntungan berikutnya dalam skor tes siswa. Mengidentifikasi pengaruh rating gagal pada nilai tes terkendala oleh jenis masalah pembalikan rata-rata dihadapi dalam literatur tentang evaluasi program pasar tenaga kerja (lihat Ashenfelter, 1978; Heckman, Lalonde dan Smith, 1999). Hal ini karena tugas untuk pengobatan, gagal, setidaknya sebagian didasarkan pada realisasi masa lalu dari variabel hasil, skor tes. Ancaman terhadap identifikasi adalah bahwa kinerja yang buruk sebelum pemeriksaan hanya karena nasib buruk dan bahwa nilai tes di sekolah gagal akan meningkat bahkan tanpa adanya inspeksi gagal. Setiap strategi yang kredibel harus mengatasi kekhawatiran tersebut. Gambar 1 menggambarkan masalah dalam pengaturan saat ini. Antara tahun 2000 dan 2005, tes kinerja skor pada tes usia 11 Key Stage 2 matematika menurun di sekolah gagal pada tahun 2006 relatif terhadap sekolah dinilai memuaskan atau lebih baik di tahun yang sama inspeksi. Ada sebuah pickup dramatis dalam kinerja di sekolah gagal baik di tahun inspeksi dan selanjutnya. Pertanyaannya kemudian adalah sejauh mana peningkatan kinerja pada gagal sekolah karena pemeriksaan gagal itu sendiri.

Penelitian ini memanfaatkan fitur desain sistem pengujian Inggris untuk menilai efek kausal dari inspeksi gagal. Sebagaimana dijelaskan secara rinci di bawah, tes untuk Tahun 6 (umur 11) siswa di Inggris yang diberikan pada minggu kedua bulan Mei setiap tahun. Tes ini ditandai eksternal, dan hasil yang dirilis ke sekolah dan orang tua pada pertengahan Juli. Jendela singkat antara Mei dan Juli memungkinkan saya untuk mengatasi masalah pengembalian rata-rata: sekolah gagal pada bulan Juni yang gagal setelah tes di Mei tapi sebelum inspektur mengetahui hasil tes. Dengan membandingkan sekolah gagal di awal tahun akademik - September, katakanlah - dengan sekolah gagal di Juni saya dapat mengisolasi pengembalian rata-rata dari pengaruh pemeriksaan gagal.Isu tambahan diperiksa dalam penelitian ini adalah apakah ada pengaruh positif diperkirakan inspeksi gagal pada hasil tes dapat dijelaskan oleh tanggapan strategis atau disfungsional oleh guru. Sebuah literatur yang berkembang telah sekarang mendirikan pentingnya empiris dari fenomena tersebut dalam konteks sekolah. Pesan keseluruhan dari tubuh ini bukti adalah bahwa ketika insentif sekolah ini terkait erat dengan menguji skor guru sering akan mengadopsi strategi yang artifisial meningkatkan tes mengukur kinerja sekolah skor. Saya menguji sampai sejauh mana perilaku tersebut dapat dideteksi dalam konteks saat ini.Temuan dari penelitian ini adalah sebagai berikut. Pada apakah peringkat inspeksi berkorelasi dengan siswa (dan orang tua) laporan praktek sekolah, bukti-bukti menunjukkan bahwa peringkat inspeksi sangat terkait dengan langkah-langkah survei kualitas sekolah. Misalnya, hubungan antara peringkat inspeksi dan laporan siswa survei praktek guru secara ekonomis berarti dan signifikan secara statistik, bahkan setelah pengkondisian pada rank test sekolah, proporsi siswa yang layak untuk makan siang gratis dan sekolah lainnya dan karakteristik siswa. Hasil ini menunjukkan bahwa siswa yang terdaftar di sekolah dengan penilaian pemeriksaan yang lebih baik mengalami suatu lingkungan di mana, menurut laporan diri siswa, guru praktek lebih unggul. Temuan serupa berlaku untuk ukuran lain kualitas sekolah dibangun dari mahasiswa dan tanggapan orangtua survei, termasuk kepuasan orangtua. Hasil ini menunjukkan bahwa peringkat pemeriksaan yang informatif tentang pandangan 'orang dalam' dari sekolah, tergantung pada ukuran tradisional atribut sekolah.Beralih ke efek rating gagal pada hasil tes, hasil menggunakan mahasiswa tingkat data dari panel semua sekolah gagal di Inggris antara tahun 2006 dan 2009 menunjukkan bahwa siswa di sekolah gagal awal mendapatkan 0,12 dari standar deviasi pada tes matematika nasional standar relatif terhadap siswa yang terdaftar di sekolah gagal akhir skor. Efek pengobatan untuk bahasa Inggris adalah keuntungan dari 0,08 dari standar deviasi. Hasil ini kuat untuk metode yang berbeda dari estimasi: perbandingan sederhana pasca-hasil pengobatan untuk kontrol dan kelompok perlakuan serta perbedaan-dalam-perbedaan model menghasilkan hasil yang sangat mirip.Saya tidak menemukan bukti yang menunjukkan bahwa sekolah mampu mengembang kinerja gaming test oleh sistem. Pertama, ada sedikit bukti yang menunjukkan bahwa guru tidak termasuk kemampuan siswa rendah dari kolam uji-taking. Kedua, bukti tidak mendukung gagasan bahwa guru sasaran siswa pada margin mencapai tingkat kemahiran offcial ('Level 4' pencapaian pada tes 2 Key Stage) dengan mengorbankan siswa jauh di atas atau di bawah ambang batas ini. Ketiga, walaupun kenaikan tes memudar sedikit dari waktu ke waktu, ada bukti yang menunjukkan bahwa untuk beberapa keuntungan siswa terakhir ke jangka menengah, bahkan setelah mereka meninggalkan sekolah gagal. Hal ini menunjukkan bahwa guru menanamkan pembelajaran nyata dan bukan hanya menguji-mengambil keterampilan dalam menanggapi rating gagal.Mengingat bukti-bukti sebelumnya tentang perilaku strategis hasil ini mengungkapkan. Dalam pengaturan bahasa Inggris taruhannya - tentu untuk kepala sekolah - yang berpotensi sangat tinggi. Kenyataan bahwa aku tidak mendapati bukti jenis perilaku strategis ditemui di banyak konteks serupa lainnya menunjukkan bahwa dengan menundukkan sekolah untuk menutup pengawasan, inspektur mungkin memainkan peran dalam membatasi kegiatan distortif tersebut.Efek keseluruhan heterogenitas masker substansial dalam efek pengobatan. Keuntungan terbesar adalah bagi siswa mencetak rendah pada (usia tujuh) Tahap Kunci tes sebelum 1. Dalam kelompok ini, analisis regresi kuantil mengungkapkan bahwa siswa mencapai lebih tinggi memperoleh yang terbaik. Temuan ini konsisten dengan pandangan bahwa anak-anak dari orang tua berpenghasilan rendah paling diuntungkan dari inspeksi. Jika orang tua setidaknya dapat menilai kualitas pengajaran yang diberikan oleh sekolah maka anak-anak mereka dapat menerima perhatian setidaknya dari guru. Setelah inspeksi gagal, guru dapat mengisi kekosongan ini. Hasil penelitian menunjukkan bahwa untuk matematika, siswa di kuartil bawah keuntungan distribusi kemampuan sebelumnya antara 0,1 dan 0,3 dari standar deviasi, dengan efek diperkirakan terus meningkat dari 0,1 untuk quantiles terendah hingga 0,3 untuk quantiles tertinggi. Untuk bahasa Inggris, perkiraan untuk kisaran antara subkelompok 0,08 dan 0,18 dari standar deviasi.Kontribusi utama dari penelitian ini adalah untuk menawarkan evaluasi empiris efektivitas inspeksi sekolah. Meskipun negara-negara dengan rezim pemeriksaan yang komprehensif sekolah masih jarang, ada beberapa indikasi bahwa minat mengadopsi skema tersebut tumbuh. Mengingat bahwa rezim inspeksi sistematis telah terjadi di Inggris sejak awal 1990-an, tampaknya agak mengejutkan bahwa belum ada evaluasi kuantitatif dari efektivitas.Selain literatur disebutkan sebelumnya pada evaluasi kinerja subjektif, penelitian ini juga terkait dengan literatur kecil menyelidiki perilaku birokrasi. Misalnya, Heckman, Smith dan Taber (1996) menunjukkan bahwa dalam konteks program pelatihan kerja, kasus pekerja, yang diizinkan untuk menggunakan penilaian mereka sendiri dalam mengalokasikan pelatihan, cenderung memanjakan preferensi mereka sendiri dengan mendaftar yang paling diuntungkan dan paling dipekerjakan pelamar ke dalam program.Akhirnya, tulisan ini juga memberikan kontribusi untuk literatur tumbuh pada mekanisme untuk meningkatkan pelayanan publik, khususnya bagi masyarakat miskin. Sejumlah contoh ada dari mengembangkan pengaturan negara, termasuk Olken (2007).Sisa dari makalah ini ditata sebagai berikut. Bagian 2 menjelaskan konteks untuk studi ini dan latar belakang teoritis yang relevan. Bagian 3 melaporkan temuan pada validitas peringkat inspeksi. Bagian 4 menjabarkan strategi empiris yang digunakan untuk mengevaluasi efek dari inspeksi gagal pada nilai tes siswa. Bagian ini juga menjelaskan metode empiris digunakan untuk menguji perilaku strategis oleh guru dalam menanggapi Peringkat gagal. Bagian 5 laporan hasil dan bagian 6 menyimpulkan.

2. Kelembagaan Konteks dan Latar Belakang Teoritis2.1 Kelembagaan KonteksMeskipun tidak ada bebas masuk atau keluar dari sekolah, sistem pendidikan Inggris telah tetap mengadopsi beberapa pasar seperti elemen penting. Secara khusus, ada unsur pilihan sekolah dan anggaran sekolah terkait dengan tingkat partisipasi. Setiap sekolah memiliki dewan sendiri yang mengatur, yang terdiri dari gubernur orangtua dan perwakilan dari otoritas setempat serta masyarakat setempat. Sekolah mengelola anggaran mereka sendiri dan dewan sekolah yang mengatur bertanggung jawab untuk mempekerjakan kepala sekolah serta penilaian dan menetapkan gajinya secara tahunan. Ada kurikulum nasional di tempat dan pengujian siswa terjadi pada usia 7, 11, 14, 16 dan 18. Nilai ujian diterbitkan dalam bentuk tabel liga sekolah.Sejak awal 1990-an semua English publik (negara) sekolah telah diperiksa oleh Kantor Standar dalam Pendidikan, atau Ofsted, lembaga pemerintah independen. Sebagaimana dicatat oleh Johnson (2004) Ofsted memiliki tiga fungsi utama: (i) menawarkan umpan balik dan saran kepada kepala sekolah dan guru, (ii) memberikan informasi kepada orang tua dan 'calon' orang tua murid untuk membantu proses pengambilan keputusan mereka, dan (iii) mengidentifikasi sekolah yang menderita 'kelemahan serius'.Rezim pemeriksaan telah berkembang sejak awal pertama dan untuk sekolah dasar, ada tiga siklus inspeksi penuh sejak tahun 1995, setiap siklus yang berlangsung antara empat dan enam tahun. Sekolah biasanya diperiksa sekali dalam setiap siklus. Meskipun kategori grading dan aturan pengungkapan publik sebagian besar tetap tidak berubah selama periode ini, kerangka inspeksi, atau seperangkat aturan yang digunakan untuk sekolah-sekolah kelas, telah berkembang dari waktu ke waktu. Yang paling penting untuk penelitian ini, sampai dengan Juli 2006 sekolah telah berminggu-minggu, kadang-kadang berbulan-bulan, pemberitahuan dari tanggal yang tepat dari pemeriksaan. Dari September 2006 periode pemberitahuan secara drastis dipotong, maksimal tiga hari dan minimal nol pemberitahuan, di mana inspektur kasus tiba di sekolah tanpa pemberitahuan.Latihan Peringkat Ofsted dapat dipandang sebagai suatu proses dua tahap. Pada tahap pertama, inspektur membentuk sebelumnya tentang sekolah 'keras' dasar oh data ', yaitu nilai tes, dikombinasikan dengan karakteristik latar belakang yang digunakan untuk mencocokkan sekolah dengan peer group-nya.Tahap kedua melibatkan kunjungan ke sekolah, biasanya dengan dua atau lebih inspektur berlangsung satu atau dua hari. Selama kunjungan ini inspektur mengumpulkan bukti kualitatif pada kinerja dan praktek di sekolah. Hal ini dapat dilihat sebagai upaya untuk mengungkap heterogenitas teramati, yang dapat membantu menjelaskan mengapa sekolah kurang atau lebih - melakukan relatif terhadap peer group-nya sekolah. Pedoman untuk inspektur menetapkan bahwa 'Setidaknya dua pertiga dari waktu yang diajarkan di sekolah harus digunakan untuk pengamatan langsung belajar dan mengajar, pemeriksaan murid, penilaian kerja dan catatan, dan diskusi dengan murid' (Ofsted, 2003, pasal 4 ). Inspektur menghabiskan sebagian besar waktu mereka di sekolah pada pengamatan pelajaran, sehingga sebagian besar guru di sebuah sekolah dasar yang diamati, dan dinilai, setidaknya sekali. Peringkat individu guru tidak diungkapkan ke sekolah, meskipun skor agregat. Bukti yang dikumpulkan oleh inspektur selama kunjungan mereka serta data uji kinerja membentuk dasar bukti untuk laporan masing-masing sekolah, yang dirilis segera setelah pemeriksaan. Laporan inspeksi masing-masing sekolah dapat didownload dari internet.Unsur sanksi rezim berasal dari kekuatan hukum otoritas pendidikan lokal untuk menunjuk dewan sekolah baru yang mengatur jika sekolah tersebut dianggap gagal oleh Ofsted. Pada gilirannya, dewan pemerintahan dapat menghapus kepala sekolah. Gagal sekolah juga dikenakan untuk mengulang inspeksi dan pengawasan yang lebih besar. Tidak ada hadiah langsung untuk baik atau luar biasa melaporkan kelas.Perlu dicatat bahwa pemeriksaan sistem seperti, Inggris satu meskipun tanpa unsur hukuman nya, telah berada di tempat di Selandia Baru dan Belanda untuk beberapa waktu. Swedia juga baru-baru mengadopsi inspeksi sekolah. Grubb (2000) mencatat kantong kecil eksperimen dengan sistem seperti di Amerika Serikat.

2.2 Latar Belakang Teoritis[Untuk melengkapi]

3. Bukti pada Validitas Ratings InspeksiBagian ini mengkaji apakah peringkat inspeksi menyampaikan informasi tentang kualitas sekolah di luar itu yang sudah ditangkap oleh, misalnya, skor tes peringkat. Pertanyaan penting adalah apakah inspektur mengunjungi sekolah mampu mengumpulkan dan meringkas informasi tentang kualitas sekolah dasar yang belum tersedia di ruang publik.Dalam analisis di bawah ukuran kualitas sekolah dasar dibangun dari siswa (umur 14) tanggapan survei terhadap pertanyaan tentang perilaku guru dan praktek. Data ini berasal dari Survei Longitudinal Orang Muda di Inggris (LSYPE), sebuah survei utama didukung oleh Departemen Pendidikan. (Lampiran 1 memberikan rincian survei dan hasil lebih lanjut untuk pertanyaan survei yang berkaitan dengan disiplin sekolah serta kepuasan orangtua) Survei meminta enam pertanyaan berikut tentang bagaimana guru kemungkinan adalah untuk: mengambil tindakan ketika seorang siswa melanggar aturan, membuat siswa bekerja untuk kapasitas penuh mereka, menjaga ketertiban di kelas; PR set , periksa bahwa setiap pekerjaan rumah yang diatur dilakukan, dan pekerjaan mark siswa.Sebuah skor mahasiswa tingkat komposit dihitung dengan mengambil rata-rata dari tanggapan terhadap enam pertanyaan (lihat Lampiran 1 untuk informasi lebih lanjut). Ini berarti siswa-tingkat tersebut kemudian diubah menjadi z-skor dengan normalisasi mereka berarti satu deviasi nol dan standar. Uji validitas dilakukan dengan kemunduran komposit z-skor, q, pada peringkat pemeriksaan serta sekolah lainnya dan karakteristik keluarga responden background:qjs = a.Ratings + bXjs + uijsj menunjukkan responden survei individu (unit observasi) di sekolah s. XJS menangkap sekolah dan siswa-tingkat variabel. Sekolah-variabel tingkat termasuk schools nasional rank test persentil dan proporsi siswa yang layak untuk makan siang gratis. 'Penilaian' adalah Peringkat inspeksi sekolah.Masalah kunci di sini adalah apakah peringkat inspeksi berkorelasi dengan ukuran yang mendasari kualitas sekolah tidak diamati oleh inspektur, tergantung pada karakteristik sekolah yang diamati seperti tes peringkat, proporsi siswa yang menerima makan siang gratis, apakah sekolah itu sekuler atau agama, seperti serta karakteristik survei latar belakang responden. Para peringkat inspeksi kemudian dikatakan valid jika koefisien pada variabel Peringkat inspeksi, sebuah, tetap statistik signigicant dan ekonomis bermakna dalam regresi 'panjang' (1). Perhatikan bahwa parameter ini hanya menangkap hubungan antara rating inspeksi dan ukuran 'kualitas' (praktek guru), q, ia tidak memperkirakan efek kausal.Salah satu cara untuk melihat tes ini adalah sebagai berikut. 'Insider' pandangan sekolah dari saham saat siswa (dan orang tua mereka) berpotensi memberikan informasi yang berguna kepada orang tua yang terlibat dalam memilih di antara sekolah-sekolah. Seperti Heckman telah dicatat dari sekolah umum di Amerika Serikat:"Salah satu sumber informasi yang berharga - orang tua dan persepsi siswa terhadap kualitas guru dan sekolah - jarang digunakan untuk menghukum pengajaran yang buruk" (Heckman, 2000, hal 24.).Umpan balik informasi tersebut dari konsumen biasanya tidak diamati di sektor publik. Namun, jika peringkat pemeriksaan dapat digunakan untuk meramalkan persepsi mahasiswa kualitas pengajaran maka orangtua saat ini terlibat dalam sekolah memilih dapat menempatkan berat badan pada peringkat ketika membuat keputusan mereka.

HasilMeskipun fokus utama dari analisis di sini adalah hubungan antara langkah-langkah survey sekolah kualitas dan peringkat pemeriksaan, hal ini berguna untuk pertama menyelidiki hubungan antara survei z-skor dan rank test sekolah. Hal ini kemudian akan memberikan analis (atau orangtua) patokan yang digunakan untuk menilai hubungan antara survei z-skor dan peringkat inspeksi. Kolom 1 dari Tabel 1 menunjukkan bahwa ada hubungan yang kuat dan signifikan secara statistik antara praktek guru seperti yang dilaporkan oleh siswa dan peringkat uji sekolah: kenaikan dari 50 peringkat persentil nasional berkaitan dengan 0,32 (50 x 0,0064) dari peningkatan standar deviasi di guru praktek skor komposit.Sekarang kita beralih ke masalah utama kepentingan, kolom 3 Panel A menunjukkan hubungan tanpa syarat antara praktek guru z-skor dan rating inspeksi setelah survei itu diberikan. Hasilnya menunjukkan bahwa setiap penurunan kinerja unit pada rating pemeriksaan dikaitkan dengan 0,22 dari penurunan standar deviasi dalam praktek guru z-score. Dengan demikian, kesenjangan dalam praktek guru z-skor antara Istimewa (Grade 1) dan Fail a (Kelas 4) sekolah adalah sekitar 0,7 dari standar deviasi. Jika kita mengambil hasil untuk peringkat uji (kolom 1) sebagai patokan maka ini adalah jelas efek yang besar.Mengontrol untuk peringkat uji dan proporsi siswa yang menerima makanan sekolah gratis dalam kolom 4 mengarah pada penurunan 40% dalam pergaulan antara Peringkat inspeksi dan gurupraktek z-skor, tapi secara relatif, perkiraan tetap besar, dan sangat signiffcant. (Juga termasuk sebagai kontrol pada kolom 4 adalah ukuran sekolah dan jenis sekolah serta efek otoritas pendidikan lokal tetap.) Ada dua kritik potensial untuk latihan ini. Pertama, mungkin ada kekhawatiran bahwa siswa dari latar belakang sosial ekonomi yang berbeda menanggapi pertanyaan-pertanyaan survei dengan cara yang berbeda sistematis, bahkan jika praktek guru yang mendasari adalah sama. Misalnya, siswa dari latar belakang miskin atau mereka nilai rendah mencetak gol pada tes sebelumnya mungkin memiliki lebih opini negatif atau positif tentang guru dari siswa berkinerja lebih kaya atau lebih baik. Ada maka kemungkinan bahwa hubungan antara peringkat inspeksi dan survei z-skor adalah artefak semacam ini bias dalam menanggapi pertanyaan-pertanyaan survei. Kolom 5 meliputi kontrol rinci tentang latar belakang studentsfamily dan skor tes sebelumnya. Hal ini menyebabkan penurunan kecil dalam ukuran absolut dari koefisien pada peringkat inspeksi, yang tetap statistik signifikan pada tingkat 1 persen.Sebuah kritik potensial kedua adalah bahwa respon survei siswa dapat dipengaruhi oleh peringkat inspeksi masa lalu. Jika peringkat pemeriksaan sebuah sekolah berkorelasi dari waktu ke waktu maka efek dari peringkat inspeksi setelah wawancara survei ditunjukkan pada Tabel 1 hanya dapat menangkap efek inspeksi masa lalu pada pandangan responden. Dalam rangka untuk menyelidiki kemungkinan bahwa mekanisme ini adalah mendorong hasil, kolom 6 termasuk kontrol tambahan untuk peringkat pemeriksaan sebelum tahun wawancara siswa, 2003/04. Hasil menunjukkan bahwa efek termasuk dummies untuk peringkat pemeriksaan terbaru sebelum wawancara hanya memiliki efek kecil pada efek perkiraan. Hasil dalam kolom 6 dengan set lengkap kontrol menunjukkan bahwa peringkat inspeksi buruk terkait dengan kualitas sekolah menurun tajam yang diukur dengan laporan mahasiswa praktek guru. Kekuatan gradien ini dapat diukur dengan membandingkan penurunan kualitas yang berhubungan dengan penurunan peringkat pengujian: hasil menunjukkan bahwa 50 titik penurunan persentil dalam peringkat tes sekolah dikaitkan dengan penurunan 0,15 (0,0029 x 50) dari satu standar penyimpangan dalam praktik guru z-score. Bandingkan ini dengan penurunan unit satu di Peringkat pemeriksaan: ini dikaitkan dengan penurunan 0,10 dari satu standar deviasi dalam praktek guru z-score.Akhirnya, dengan memasukkan dummies inspeksi, kolom 7 menyelidiki apakah asumsi linearitas tersirat dalam model-model sebelumnya dibenarkan. Hasil dalam kolom 7 menunjukkan adanya hubungan antara praktek cekung guru dan peringkat inspeksi: kesenjangan yang terbesar ketika kita pindah dari sekolah kelas 1 (kategori dihilangkan) ke kelas 2, itu adalah terkecil antara kelas 3 dan kelas 4 (Gagal) sekolah . Hal ini patut dicatat dalam bahwa hal itu menunjukkan bahwa pada ukuran ini setidaknya, ada sejumlah besar sekolah (kelas 3) yang tidak jauh berbeda dari sekolah Fail langsung.Lampiran 1 mengulangi analisis di atas untuk mahasiswa tingkat berarti z-skor untuk tiga pertanyaan sekolah murid-pline (berkaitan dengan gangguan kelas dan perilaku dan disiplin keseluruhan di sekolah) dan lima pertanyaan kepuasan orangtua (yang berkaitan dengan guru menunjukkan minat pada anak , disiplin sekolah, umpan balik dari sekolah dan kepuasan secara keseluruhan dalam kemajuan sekolah childs). Hasil untuk hasil ini sangat mirip dengan yang dilaporkan untuk hasil guru praktek pada Tabel 1: hubungan antara peringkat inspeksi dan siswa-dan orangtua-melaporkan kualitas sekolah (disiplin) hasil yang kuat.Singkatnya, analisis ini menunjukkan bahwa peringkat inspeksi dapat membantu mendeteksi praktek guru yang baik dan miskin (atau kepuasan orangtua yang tinggi dan rendah seperti yang dilaporkan dalam Lampiran 1) antara sekolah denganperingkat pengujian yang sama dan komposisi sosial ekonomi siswa. Hasil di atas memberikan gambaran yang sangat konsisten di semua siswa dan orangtua langkah-langkah: peringkat pemeriksaan memang menyampaikan informasi tentang kualitas sekolah atas dan di atas yang sudah terkandung dalam informasi publik yang tersedia seperti skor tes, jenis sekolah, proporsi siswa memenuhi syarat untuk makan siang gratis, dll Selain itu, hasil regresi yang terpisah (tidak direproduksi di sini) untuk masing-masing item yang membentuk skor komposit juga menunjukkan kesimpulan yang sama. Sebagai contoh, masing-masing dari enam item yang membentuk guru praktek menunjukkan nilai komposit bahwa hubungan dengan penilaian pemeriksaan adalah negatif dan signifikan secara statistik. Yaitu, rating inspeksi yang lebih baik dikaitkan dengan praktik guru yang lebih baik pada masing-masing enam langkah yang mendasarinya. Ini berarti bahwa tergantung pada sekolah diamati dan karakteristik siswa, siswa di sekolah nilai yang lebih tinggi mengalami suatu lingkungan di mana guru lebih mungkin untuk: mengambil tindakan saat istirahat siswa aturan, membuat siswa bekerja untuk kapasitas penuh mereka, menjaga ketertiban di kelas, PR set; memeriksa bahwa setiap pekerjaan rumah yang diatur dilakukan, dan pekerjaan mark siswa.

4. Pengaruh dari Inspeksi Fail pada Skor Tes: empiris strategiPertanyaan utama dibahas di sini adalah: Apa efek dari inspeksi gagal pada skor berikutnya siswa 'test? Sebuah analisis menggunakan sebelum dan sesudah-data yang gagal skor tes untuk panel sekolah sangat mungkin mengacaukan efek dari rating gagal dengan reverting berarti perilaku skor tes. Misalnya, jika inspektur tidak sepenuhnya mampu menjelaskan guncangan negatif istimewa terkait dengan kualitas sekolah yang sebenarnya, maka hasil skor tes miskin satu atau dua tahun sebelum pemeriksaan dapat menyebabkan gagal. Perhatian adalah bahwa setiap kenaikan nilai tes setelah inspeksi sebenarnya akan terjadi bahkan dalam adanya Peringkat gagal.Penelitian ini memanfaatkan fitur desain sistem pengujian Bahasa Inggris untuk mengatasi masalah tersebut. Tes usia-11 'Kunci Tahap 2' - diberikan di tingkat nasional dan papan sentral pada siswa dan penilaian sekolah - berlangsung selama lima hari pada minggu kedua bulan Mei setiap tahun. Hasil dari uji tersebut kemudian dirilis pada pertengahan Juli. Jendela singkat antara Mei dan Juli memungkinkan saya untuk mengatasi masalah pengembalian rata-rata: sekolah gagal pada bulan Juni yang gagal setelah tes di Mei tapi sebelum inspektur mengetahui hasil tes. Jadi Mei menguji hasil bagi sekolah-sekolah tidak terpengaruh oleh gagal berikutnya, tapi juga tidak inspektur memilih mereka untuk kegagalan atas dasar hasil ini. (Lihat Gambar 2 untuk garis waktu contoh untuk tahun 2005/06.)

Wawasan ini memungkinkan saya untuk mengidentifikasi perkiraan kausal kredibel dari efek jangka pendek dari inspeksi gagal. Secara khusus, dan mengambil tahun 2005/06 sebagai contoh lagi, pertanyaan dibenahi adalah: untuk sekolah gagal pada bulan September 2005, apa efek dari pemeriksaan gagal pada Mei 2006 nilai tes?Evaluasi dilakukan dengan membandingkan hasil untuk sekolah diperiksa di awal tahun ajaran, September - kelompok perlakuan - dengan sekolah diperiksa pada bulan Juni, kelompok kontrol. Sekolah gagal pada bulan September telah hampir satu tahun akademik keseluruhan untuk merespon pengobatan gagal. Identifikasi masalah, bahwa hasil kontrafaktual bagi sekolah yang gagal pada bulan September tidak diamati, diselesaikan melalui perbandingan dengan Juni gagal sekolah. Rincian perbandingan ini dijelaskan di bawah ini.Sebuah pertanyaan kunci adalah mengapa beberapa sekolah diperiksa awal tahun dari yang lain. Analisis deskriptif pada Tabel 1 membantu menjelaskan pertanyaan ini.

Deskriptif StatistikTabel 2 menunjukkan karakteristik berarti untuk sekolah diperiksa dan gagal dalam empat tahun 2005/06 sampai 2008/09. Untuk setiap tahun dua kolom pertama menunjukkan sarana untuk sekolah gagal di awal tahun akademik (September hingga November) dan mereka gagal di akhir tahun (dari pertengahan Mei, setelah tes Key Stage 2, sampai pertengahan Juli, sebelum rilis hasil skor tes). Kategori mantan sekolah adalah 'perlakuan' kelompok dan yang terakhir 'kontrol' kelompok. Baris pertama hanya menunjukkan rata-rata bulan pemeriksaan. Mengingat aturan seleksi untuk analisis, ini hanyalah Juni (antara 6.1 dan 6.2) dan Oktober (antara 10.1 dan 10.2) untuk kontrol dan kelompok perlakuan.Baris kedua, yang menunjukkan tahun pemeriksaan sebelumnya, yang mengungkapkan, dalam hal ini menawarkan penjelasan mengapa beberapa sekolah mungkin diperiksa di awal tahun dan lain-lain di kemudian hari. Kolom gagal 2005/06, yang khas dari semua empat tahun gagal, menunjukkan bahwa tahun rata-rata inspeksi untuk sekolah diperiksa terlambat adalah 2000,6, karena sekolah diperiksa awal itu adalah 2000.1. Hal ini menunjukkan bahwa sekolah diperiksa sedikit lebih awal di babak inspeksi sebelumnya juga diperiksa sedikit lebih awal pada tahun 2005/06. Lampiran Tabel A2 menunjukkan bahwa secara umum inspektur muncul untuk mengikuti aturan mekanik berkaitan dengan waktu inspeksi - sekolah yang diperiksa di awal babak pemeriksaan pertama pada pertengahan 1990-an yang diperiksa di awal putaran pemeriksaan berikutnya. Tabel 2 menunjukkan bahwa untuk gagal sekolah, dalam tahun tertentu, bulan pemeriksaan tampaknya ditentukan oleh waktu pemeriksaan sebelumnya.Baris ketiga dan keempat melaporkan proporsi siswa yang menerima makanan sekolah gratis (makan siang) dan proporsi siswa yang British putih pada perlakuan dan kontrol sekolah, masing-masing. Di seberang masing-masing empat tahun pemeriksaan perbedaan berarti antara kedua kelompok tampak kecil dan secara statistik tidak signifikan. Demikian pula, tidak ada perbedaan statistik signiffcant antara sekolah diperiksa awal dan akhir dalam rating pemeriksaan sebelumnya, kecuali untuk tahun 2008/09.Akhirnya, nilai ujian nasional standar untuk kelompok dari 11-tahun pada tahun sebelum pemeriksaan dilaporkan dalam baris enam dan tujuh. Sekali lagi, ini menunjukkan tidak ada bukti statistic perbedaan yang signifikan antara kedua kelompok. Perlu dicatat bahwa ini set sekolah gagal tampil antara 0,4 dan 0,5 dari satu standar deviasi di bawah rata-rata nasional.Singkatnya, bukti dalam Tabel 2 bahwa ada sedikit perbedaan antara sekolah kontrol dan perlakuan pada karakteristik diamati dikombinasikan dengan fakta bahwa waktu ditentukan oleh aturan mekanik menunjukkan bahwa ada perbedaan mungkin tidak teramati antara sekolah kontrol dan perlakuan. Jadi itu akan muncul bahwa ketika membandingkan sekolah gagal awal dan akhir dalam setahun, pengobatan sebagus acak.

OLS dan Perbedaan-in-Perbedaan ModelUntuk memudahkan penjelasan, saya akan mempertimbangkan kasus sekolah gagal dalam tahun 2005/06 di bulan September dan Juni. Analisis meluas ke sekolah-sekolah yang gagal di bagian awal tahun (September hingga November) dibandingkan dengan mereka gagal di akhir tahun (pertengahan Mei hingga pertengahan Juli) di masing-masing tahun pemeriksaan empat dianalisis. Pertama, mendefinisikan dummy pengobatan, Ds = 1 jika sekolah s gagal pada bulan September 2005 dan Ds = 0 jika sekolah tersebut gagal di Juni 2006. Untuk mahasiswa i pada masing-masing dua kelompok sekolah dua hasil potensial untuk skor 2.006 tes Mei standar diberikan sebagai berikut:Y0is,06 = + uis,y1is,06 = + i + uismana Y0is,06 adalah hasilnya jika sekolah tersebut tidak gagal pada bulan September 2005 dan y1is,06 adalah hasilnya jika sekolah tersebut gagal pada bulan September 2005. Untuk siswa sekolah menghadiri gagal pada bulan September 2005 hasil kontrafaktual, Y0is,06, tidak diamati. i adalah gain siswa-spesifik dari pengobatan. Peran variabel pengkondisian dalam analisis ini dibahas dalam bagian 4.1 di bawah ini. Realisasi hasil kemudian dapat dinyatakan sebagai berikut:yis,06 = (1 - Ds)y0is,06 + Dsy1is,06= + iDs + uis.Mengingat bukti pada tugas sampai September dibandingkan inspeksi Juni disajikan dalam sub-bagian sebelumnya, kita dipercaya bisa membantah bahwa pengobatan Status Ds yang berkorelasi dengan baik uis sisa dan keuntungan murid-spesifik i. Dengan demikian, perbandingan sarana untuk hasil pengobatan dan kontrol menghasilkan parameter bunga, efek pengobatan rata-rata pada (ATT) diobati, E(y1is,06 - y0is,06 Ds = 1) = E(i Ds = 1). Ini efek dari rating inspeksi gagal untuk hakim pengawas sekolah yang akan gagal.Di bawah ini, hasilnya juga disajikan dengan menggunakan perbedaan-dalam-perbedaan (DID) model. Bukti pada Tabel 2 menunjukkan bahwa meskipun tidak ada perbedaan signifikan secara statistik dalam tingkat hasil skor tes sebelumnya dan karakteristik sekolah lainnya di seluruh kelompok kontrol dan perlakuan, perbedaan kecil tetap. Perbedaan-perbedaan kecil dapat menyebabkan perkiraan bias dari perbandingan sederhana pasca-hasil pengobatan, terutama jika keuntungan dari pengobatan juga kecil. Pendekatan DID kemudian dapat dilihat sebagai cek ketahanan. Hal ini dilaksanakan sebagai berikut. Melanjutkan contoh sekolah yang gagal pada tahun 2005/06, data diambil dari dua periode untuk DID analisis, bentuk 2004/05 ('pra' tahun) dan 2005/06 ('post' tahun). Dalam skor Model DID menyadari tes ditentukan sebagai berikut:yist = + post06 + iDst + s + uistdimana t = 2005 atau 2006, post06 merupakan indikator dummy, dinyalakan saat t = 2006; Dst sekarang waktu-bervariasi boneka pengobatan, diaktifkan pada tahun 2006 untuk sekolah diperiksa pada bulan September (yaitu interaksi antara post06 dan boneka menunjukkan awal inspeksi, Ds); dan s adalah efek sekolah tetap. i adalah gain siswa-spesifik dari pengobatan. Asumsi DID, yang mewujudkan asumsi tren umum di perlakuan dan kelompok kontrol, adalah bahwa tergantung pada efek sekolah tetap (s) dan tahun (post06) pengobatan Dst dummy berkorelasi dengan sisa, yaitu E(uist s, post06, Dst) = 0. Versi regresi perkiraan Model DID E(i Ds = 1), yang merupakan ATT.Pada dasarnya, efek dari inspeksi gagal yang ditemukan dengan membandingkan perubahan dalam skor antara Mei 2005 dan Mei 2006 tes untuk sekolah diperiksa di awal tahun akademik (September-tember 2005) dibandingkan dengan mereka diperiksa di akhir tahun (Juni 2006). Asumsi utama adalah bahwa setiap rebound dalam skor tes yang akan terjadi tanpa adanya inspeksi gagal untuk September gagal sekolah ditangkap oleh perubahan diamati untuk Juni gagal sekolah (diwakili oleh koefisien pada boneka post06 dalam model regresi (3)). Perbedaan kinerja antara dua kelompok sekolah menghasilkan efek pengobatan. Satu sebelum akan bahwa beberapa dari penurunan nilai tes diamati pada tahun 2004/05 adalah sementara, sehingga kita akan mengharapkan beberapa pengembalian rata-rata nilai tes. Dalam hal ini strategi sekolah efek sederhana tetap akan melebih-lebihkan efek dari inspeksi gagal. Dalam setup DID kita harapkan koefisien positif pada dummy post06 dan karenanya efek diperkirakan lebih rendah dari pengobatan bila dibandingkan dengan efek yang tersirat oleh pendekatan efek sederhana tetap.

4.1 Pengujian untuk Perilaku StrategisSebuah bukti-bukti telah menunjukkan bahwa ketika sekolah menghadapi insentif yang kuat untuk melakukan pada hasil tes mereka mungkin mencoba untuk permainan sistem. Bukti dari jenis berikut respon strategis telah didokumentasikan. Pertama, studi menunjukkan bahwa di bawah pengujian berbasis guru akuntabilitas sistem dapat menghapus kemampuan siswa rendah dari kolam pengujian, misalnya dengan menangguhkan mereka selama periode pengujian atau reklasifikasi mereka sebagai kebutuhan khusus (Yakub 2005, Figlio 2006, Figlio dan Getzler 2006, Cullen dan reback 2006). Kedua, guru bisa 'mengajar untuk menguji,' sehingga kenaikan nilai tes taruhannya rendah signifikan lebih rendah dibandingkan direkam untuk tes taruhan tinggi [ref???]. Ketiga, ketika sekolah yang dinilai berdasarkan jumlah siswa mencapai tingkat kemahiran yang diberikan telah menunjukkan bahwa guru menargetkan siswa dekat dengan ambang batas kemampuan (lihat, misalnya, Burgess et al 2005, reback 2008 dan Neal dan Schanzenbach 2010). Keempat, mungkin ada kecurangan langsung oleh guru (Jacob dan Levitt 2003).Dalam analisis di bawah ini, saya menguji kehadiran tiga pertama jenis respon strategis. Pertama, saya meneliti sejauh mana keuntungan dalam nilai tes setelah gagal Peringkat dicatat untuk secara selektif menghilangkan kemampuan siswa rendah. Ini melibatkan memeriksa apakah efek diperkirakan pengobatan di OLS dan regresi DID (Dalam persamaan (2) dan (3) di atas) perubahan dengan masuknya karakteristik siswa seperti skor tes sebelumnya, pendidikan kebutuhan khusus status, status makan siang gratis dan latar belakang etnis. Sebagai contoh, anggaplah bahwa dalam rangka meningkatkan kinerja pengujian gagal sekolah merespon dengan menghapus kemampuan siswa rendah dari kolam uji. Hal ini berpotensi akan menghasilkan perbaikan besar dalam baku nilai ujian untuk sekolah diperlakukan relatif terhadap sekolah-sekolah kontrol. Namun, pengkondisian pada skor tes sebelum kemudian akan mengungkapkan bahwa keuntungan yang jauh lebih kecil atau tidak ada. Tes ini memungkinkan saya untuk secara langsung mengukur dampak dari perilaku game pada hasil tes. [Kedua, - menengah-efek jangka - apakah guru mendorong pembelajaran yang nyata dalam menanggapi rating gagal, atau hanya jangka pendek ujian keterampilan?]Ketiga, saya menganalisis konsekuensi distribusi dari inspeksi gagal. Secara khusus, saya menyelidiki apakah ada bukti bahwa guru menargetkan siswa pada margin mencapai target pemerintah kunci untuk Tahun 6 (umur 11) siswa. Di atas disebutkan bahwa persentase siswa mencapai kemahiran 'Level 4' pada tes usia 11 Key Stage 2 merupakan ukuran kunci kinerja yang digunakan oleh pemerintah. Itu juga merupakan sekolah judul mengukur kinerja dan karenanya umumnya digunakan untuk sekolah peringkat. Kami kemudian mungkin mengharapkan guru dan sekolah untuk menargetkan sumber daya terhadap siswa pada margin mencapai batas ini, sehingga merugikan siswa jauh di bawah dan jauh di atas tingkat kritis.Sejumlah strategi yang diadopsi untuk mengeksplorasi masalah ini. Dalam pendekatan pertama saya menguji apakah keuntungan dalam nilai tes siswa berbeda-beda berdasarkan kemampuan sebelumnya. Sebelum kemampuan memprediksi kemungkinan seorang mahasiswa mencapai ambang batas kinerja. Bukti sebelumnya telah menunjukkan bahwa guru dapat mengabaikan siswa di bagian bawah distribusi kemampuan dalam menanggapi sebelum pengenalan batas kinerja (lihat Neal dan Schanzenbach, 2010).Dalam pengaturan saat ini, harapan resmi bagi siswa untuk mencapai 'Tingkat 4' pada tes tahun-6 Key Stage 2. Tabel 3 menunjukkan distribusi Tahun 6 siswa mencapai target ini untuk matematika dan Bahasa Inggris di sekolah gagal, pada tahun sebelumnya gagal, dengan kuartil kemampuan sebelumnya. Kemampuan Sebelum diukur pada usia tujuh nilai tes. Seperti yang harus diharapkan, Tabel 3 menunjukkan bahwa kemampuan pada usia tujuh adalah prediktor kuat apakah siswa mencapai target resmi: proporsi melakukannya naik dari antara seperempat dan yang ketiga untuk bagian bawah kuartil hampir 100 persen di atas kuartil kemampuan sebelumnya. Seperti baris terakhir dari Tabel 3 menunjukkan, pada tahun sebelum pemeriksaan gagal rata-rata jumlah siswa yang mencapai Level 4 threshold adalah 67 dan 72 persen untuk matematika dan bahasa Inggris, masing-masing. Salah satu implikasi dari bukti yang disajikan dalam Tabel 2 adalah bahwa siswa dalam kuartil terendah kemampuan adalah yang paling mungkin untuk mencapai ambang resmi, sehingga guru dapat menggantikan usaha jauh dari mereka terhadap siswa di kuartil kedua. Analisis bawah menguji prediksi ini.Pendekatan kedua untuk menganalisis apakah guru selektif target usaha terhadap siswa pada margin mencapai ambang mandat adalah untuk menyelidiki efek distribusional dari rating gagal dalam kuartil kemampuan sebelumnya. Sebagai contoh, jika guru atau siswa set track dalam atau di antara ruang kelas dengan kemampuan, maka mereka dapat menargetkan siswa dalam kelompok-kelompok marjinal kemampuan.Gambar 3 menggambarkan ide ini. Misalkan nilai tes pada tahun sebelum inspeksi gagal didistribusikan seperti dalam contoh bergaya. Angka tersebut menunjukkan distribusi dari nilai ujian untuk masing-masing dari empat kuartil kemampuan sebelumnya, serta proporsi siswa yang lulus ambang batas kemampuan resmi, 'T0'. Sebagai ilustrasi, misalkan 20 persen dari siswa dari kemampuan kuartil bawah mencapai; 50, 75 dan 90 persen melakukannya di kuartil kedua, ketiga dan atas, masing-masing. Setelah inspeksi gagal insentif untuk memaksimalkan siswa lulus melewati ambang pintu mungkin lebih kuat daripada sebelum Peringkat gagal. Jika sekolah mampu permainan sistem (misalnya, jika inspektur tidak dapat mendeteksi perilaku strategis seperti) maka mereka dapat menargetkan siswa pada margin mencapai tingkat kemahiran. Misalkan bahwa distribusi skor tes potensi serupa pada tahun pemeriksaan seperti di tahun sebelumnya, sehingga 2 Gambar juga menggambarkan nilai tes potensi siswa pada tahun pemeriksaan. Kemudian jika guru mampu mendeteksi mahasiswa marjinal, mereka dapat mengalokasikan upaya yang lebih besar terhadap siswa yang terletak pada batas dari daerah yang diarsir pada masing-masing empat grafik pada Gambar 1.Analisis bawah tes untuk perilaku guru tersebut dengan memeriksa efek dari perawatan di quantiles tertentu dari distribusi skor tes. Dengan demikian, efek pengobatan kuantil diperkirakan untuk menetapkan apakah atau tidak keuntungan terbesar adalah sekitar batas ambang kinerja, seperti yang diperkirakan oleh teori sederhana.

5. Hasil5.1 Dasar HasilTabel 4 menunjukkan hasil dengan dampak dari inspeksi gagal pada matematika dan nilai tes bahasa Inggris untuk sekolah gagal dalam salah satu dari empat tahun akademik 2006 sampai 2009. Panel melaporkan hasil dari model OLS dan panel laporan hasil dari model perbedaan-in-perbedaan atas bawah. Untuk memudahkan presentasi, empat tahun inspeksi dikumpulkan bersama-sama. Model OLS diperkirakan adalah sebagai berikut:

Pooling selama empat tahun dibenarkan karena, pertama, waktu inspeksi secara sewenang-wenang ditentukan dan, kedua, selama empat tahun sekolah diperiksa dan dinilai secara konsisten. Bukti yang disajikan pada Tabel 2 menunjukkan bahwa sekolah memang sebanding di tahun-tahun yang berbeda. Sebagai cek ketahanan, hasil dari analisis regresi yang dilakukan untuk setiap tahun secara terpisah juga dilaporkan (dalam Tabel Lampiran A2 dan A3). Seperti yang akan terlihat, menunjukkan bahwa hasil ini untuk sampel dikumpulkan selama bertahun-tahun dan individu menghasilkan gambaran yang konsisten tentang efek dari inspeksi gagal.Beralih pertama untuk nilai tes matematika, 'Fail awal' baris di Panel A dari Tabel 4 sesuai dengan perkiraan efek pengobatan? dalam persamaan (4). Kolom (1) melaporkan 'mentah' efek yang gagal inspeksi, yaitu tanpa kontrol. Hasil dalam kolom (1) menunjukkan bahwa efek dari peringkat gagal adalah untuk meningkatkan nilai tes standar dengan 0,11 dari standar deviasi. Efek ini secara statistik signifikan pada tingkat konvensional (kesalahan standar yang berkerumun di tingkat sekolah).Sebagaimana dijelaskan dalam bagian 4.1 di atas, efek diperkirakan dalam kolom (1) mungkin sebagian mencerminkan perilaku menyimpang oleh guru. Jika sekolah menanggapi pemeriksaan gagal strategis, misalnya,dengan tidak termasuk kemampuan siswa rendah dari tes melalui suspensi, maka kita harus melihat keuntungan relatif besar dalam kolom (1) mengurangi kemampuan kontrol sekali sebelum diperkenalkan dalam analisis regresi. Untuk mengatasi masalah tersebut, kolom (2) dan (3) memperkenalkan siswa-tingkat kontrol. Hasil regresi dilaporkan dalam kolom (2) meliputi karakteristik siswa sebagai berikut: gender; kelayakan untuk makan siang gratis, kebutuhan pendidikan khusus, bulan lahir, apakah bahasa pertama adalah bahasa Inggris, latar belakang etnis, dan informasi sensus pada indeks lingkungan rumah kekurangan. Model dalam kolom (3) juga mencakup skor usia tujuh (Key Stage 1) tes. Dummies untuk kovariat hilang juga disertakan.Kenaikan R-squared statistik seperti yang kita bergerak dari kolom (1) ke (2) dan kemudian (3) jelas menunjukkan bahwa karakteristik latar belakang siswa dan skor tes awal adalah prediktor kuat siswa 'test hasil. Namun, penambahan kontrol ini tampaknya memiliki sedikit efek pada efek estimasi nilai gagal. Secara keseluruhan, bukti dalam Panel A untuk matematika menunjukkan bahwa (i) efek dari inspeksi gagal adalah untuk meningkatkan nilai tes dan (ii) kenaikan ini tampaknya tidak didorong oleh sekolah selektif termasuk (dengan kemampuan, misalnya) mahasiswa dari tes.Beralih ke perbedaan-in-perbedaan perkiraan untuk matematika dilaporkan dalam Panel B, fitur bagus dari pendekatan ini adalah bahwa hal itu memberikan bukti langsung tentang pentingnya pengembalian rata-rata. Untuk analisis DID 'pra' tahun sesuai dengan menguji skor sebelum tahun pemeriksaan (skor tes yaitu dari ujian 2004/05 untuk sekolah gagal pada tahun 2005/06, 2005/06 tes untuk sekolah yang gagal pada tahun 2006/07, dll .) sedangkan 'posting' tahun sesuai untuk menguji nilai dari tahun pemeriksaan. Perkiraan perubahan karena rata-rata disediakan oleh perbedaan antara nilai tes pada tahun pra-inspeksi dan nilai ujian pada tahun pemeriksaan untuk sekolah gagal di akhir tahun akademik (yaitu kelompok kontrol). Perkiraan ini ditunjukkan dalam baris berlabel 'posting'.Sementara itu, perkiraan DID pengaruh inspeksi gagal diidentifikasi dari keuntungan tambahan dalam nilai tes antara dua periode untuk sekolah gagal di awal tahun ajaran (kelompok perlakuan). Perkiraan ini disediakan di baris pertama dari Panel B, berlabel 'pasca x awal Gagal' yang sesuai dengan Dst boneka pengobatan dalam persamaan (3).Hasil DID persis sejalan dengan hasil OLS: Kolom (3) dari Panel B menunjukkan bahwa siswa di sekolah-sekolah keuntungan awal gagal oleh 0,12 dari standar deviasi relatif terhadap siswa yang terdaftar di sekolah gagal akhir. Selain itu, membandingkan hasil dengan dan tanpa mahasiswa tingkat kontrol - Kolom (1) versus kolom (2) dan (3) - menunjukkan bahwa ada sedikit perubahan dalam efek diperkirakan. Hasil ini mendukung anggapan bahwa inspeksi gagal meningkatkan nilai tes siswa dan, lebih lanjut, bahwa keuntungan tidak mungkin dipertanggungjawabkan oleh jenis perilaku strategis yang diuraikan di atas.Adapun bukti pengembalian rata-rata, hasil di baris kedua acara B Panel bahwa hanya ada berarti reversi ringan untuk matematika. Dengan set lengkap kontrol, koefisien pada dummy 'posting' adalah 0,03 dari deviasi standar dan tidak signifikan secara statistik pada tingkat konvensional. Hal ini menunjukkan bahwa dengan tidak adanya rating dari inspektur gagal, kita harus mengharapkan sangat kecil atau bahkan nol keuntungan dalam nilai tes dari tingkat rendah pada tahun dasar dilaporkan dalam statistik deskriptif pada Tabel 2.Kolom (4) sampai (6) hasil laporan untuk nilai tes bahasa Inggris. The OLS Hasil dalam kolom (6), Panel A menunjukkan bahwa efek dari inspeksi gagal adalah untuk meningkatkan nilai tes standar sebesar 0,08 dari standar deviasi. The DID perkiraan di titik Panel B dengan keuntungan sekitar 0,07 dari standar deviasi. Perkiraan ini secara statistik signifikan.Sejalan dengan hasil untuk matematika, hasil untuk bahasa Inggris tidak memberikan bukti perilaku game: meskipun daya prediksi dari kontrol besar, seperti yang ditunjukkan oleh kenaikan R-squared statistik, ada sedikit perubahan dalam perkiraan ketika kita berpindah dari kolom (4), tidak ada kontrol, pada kolom (6), set lengkap kontrol.Akhirnya, bukti pengembalian rata-rata nilai ujian bahasa Inggris yang disajikan di baris kedua dari Panel B dicatat. Kali ini ada bukti kuat dari re-terikat dalam nilai tes dari tingkat rendah pada tahun dasar. Para koefisien pada dummy 'posting' sekarang 0,08 dari standar deviasi, menunjukkan rebound substansial dalam nilai ujian bahkan tanpa adanya inspeksi gagal. Seperti yang terlihat di bawah ini, ini kembali terikat pada kenyataannya sesuai dengan saus 'pra-program diamati pada tahun sebelum pemeriksaan.

Uji pemalsuan dan 'Pra-Program Dip'Tabel 5 menyajikan analisis dari latihan pemalsuan. Hal ini membuat penggunaan fakta bahwa data yang tersedia di kedua tahun sebelum dan dua tahun sebelum perawatan dalam rangka untuk melakukan studi plasebo. Pertanyaan dibenahi adalah: ketika kita membandingkan perlakuan dan kelompok kontrol pada tahun sebelum pengobatan, kita bisa mendeteksi efek pengobatan ketika tidak ada?Tabel 5 kolam data selama empat tahun pemeriksaan. Para OLS memperkirakan dalam Panel A membandingkan hasil skor tes dalam tahun sebelum pemeriksaan bagi siswa di sekolah gagal awal dan akhir. Berfokus pada kolom (3) dan (6) dengan set lengkap kontrol, ini menunjukkan bahwa efek perkiraan pengobatan plasebo kecil, secara statistik tidak signifikan dan mendekati nol untuk matematika dan bahasa Inggris. Perkiraan DID di Panel B, yang membandingkan perubahan nilai tes satu dan dua tahun sebelum pemeriksaan untuk sekolah gagal awal dan akhir, juga menunjukkan tidak ada bukti efek plasebo, mendukung asumsi tren umum yang mendasari strategi DID.Tabel Lampiran A4 dan A5 menyajikan hasil pemeriksaan selama bertahun-tahun individu. Hasil dalam dua tabel mengkonfirmasi temuan bahwa pengobatan plasebo tidak menghasilkan pengaruh yang terlihat. Sebagai contoh, hasil OLS dalam kolom berlabel (3) dalam Panel A, Tabel A4 menunjukkan bahwa efek perkiraan pengobatan plasebo kecil, secara statistik tidak signifikan dan mendekati nol rata-rata di seluruh empat tahun untuk matematika dan bahasa Inggris.Ada satu fitur yang tersisa dari hasil pada Tabel 5 yang layak disebutkan. Ini adalah bukti dip preprogran dalam nilai tes, disajikan dalam baris berlabel 'pos' di Panel B. Hasil dalam kolom (3) untuk menunjukkan bahwa bahasa Inggris terjadi penurunan besar, statistik signifficant dalam nilai tes pada tahun sebelumnya dengan rating gagal yang tidak dapat dijelaskan oleh karakteristik siswa atau nilai ujian mereka sebelumnya. Efek ini, -0.08 dari deviasi standar, adalah sama dengan re-terikat dilaporkan dalam sel yang sesuai dari Tabel 3.

5.2 Efek Pengobatan heterogenPada bagian ini saya mengeksplorasi konsekuensi distribusi dari inspeksi gagal. Analisis di bawah ini pertama kali menentukan apakah efek pengobatan bervariasi dengan kemampuan sebelumnya. Diskusi kemudian berubah menjadi efek pengobatan kuantil, diikuti oleh beberapa analisis subkelompok lanjut. Bagian akhir menawarkan ringkasan dan diskusi hasil dari analisis efek heterogen.

Efek oleh Kemampuan SebelumSebagaimana dibahas dalam bagian 4.1 di atas, variasi dalam efek pengobatan dengan kemampuan sebelum dapat memberikan bukti perilaku guru distorsi. Namun, untuk menilai apakah guru strategis mengalokasikan upaya di kalangan siswa sehingga jumlah siswa yang lulus ambang batas kinerja dimaksimalkan, penting untuk terlebih dahulu mempertimbangkan siapa yang mungkin menjadi 'marjinal' siswa. Ingat bahwa harapan resmi bagi siswa untuk mencapai ambang batas kinerja 'Level 4' pada tes 2 Key Stage (biasanya diambil pada usia 11). Seperti disebutkan sebelumnya guru dapat menggantikan usaha jauh dari kemampuan siswa terendah jika ada sedikit kesempatan para siswa melewati ambang ini.Dalam rangka untuk menguji prediksi bahwa kemampuan siswa rendah terkena dampak ketika insentif untuk mencapai ambang kinerja diperkuat (setelah inspeksi gagal), saya uji apakah efek pengobatan bervariasi dengan kemampuan sebelumnya. Model berikut menggabungkan interaksi antara boneka pengobatan dan kemampuan sebelumnya diperkirakan:(rumus (5))di mana pengobatan Ds dummy dihidupkan untuk sekolah diperiksa di awal tahun akademik dan Rankis adalah peringkat persentil pada kemampuan sebelumnya untuk mahasiswa saya yang diukur dengan kinerja siswa pada Key Stage 1 (usia tujuh) tes. kemudian memperkirakan bagaimana efek pengobatan bervariasi dengan kemampuan sebelumnya. Efek pengobatan mungkin sebenarnya bervariasi non-linear dengan kemampuan sebelumnya. Ini akan terjadi jika, misalnya, guru siswa sasaran di tengah distribusi skor tes sebelum dan mahasiswa mengabaikan di bagian atas dan bawah. Dalam rangka untuk memungkinkan untuk seperti non-linear interaksi regresi berikut juga diperkirakan:(rumus (6))dimana Qisk variabel dummy diaktifkan untuk mahasiswa saya jika rank nya pada nilai tes sebelumnya terletak pada k kuartil. Dengan demikian, k memperkirakan efek pengobatan bagi siswa berbaring di k kuartil dalam distribusi kemampuan sebelumnya, relatif terhadap kategori dihilangkan, kuartil bawah. Tabel 5, kolom (1) dan (3), menyajikan perkiraan dari interaksi () Utama dan () efek untuk matematika dan bahasa Inggris, masing-masing, untuk model interaksi linear (5). Dalam setiap kolom, 'Fail awal' baris sesuai dengan perkiraan dan 'awal Gagal x kemampuan sebelum rank persentil sesuai dengan perkiraan . Hasil untuk kedua matematika dan bahasa Inggris dalam kolom (1) dan (3) menunjukkan bahwa ada hubungan terbalik yang kuat antara kemampuan sebelum dan keuntungan dari pengobatan. Siswa dari ujung terendah dari keuntungan distribusi kemampuan sebelum 0,19 dan 0,14 dari deviasi standar untuk matematika dan bahasa Inggris, masing-masing. Istilah interaksi di baris kedua kolom (1) dan (3) menunjukkan bahwa bagi siswa di akhir atas keuntungan kemampuan distribusi yang mendekati nol.Perkiraan untuk model interaksi nonlinier, persamaan (6), dilaporkan dalam kolom (2) dan (4). Memungkinkan untuk non-linearities meninggalkan kesimpulan di atas tidak berubah: keuntungan terbesar yang diposting bagi siswa dari kuartil bawah (kategori dihilangkan), siswa di tengah-tengah distribusi kemampuan sebelumnya juga mengalami kenaikan substansial, meskipun tidak besar seperti yang untuk rendah kemampuan siswa. Pada 0,05 dan 0,025 dari deviasi standar untuk matematika dan bahasa Inggris, masing-masing, keuntungan bagi siswa di kuartil atas tampaknya positif, meskipun jauh lebih kecil daripada mereka pada tingkat kemampuan yang lebih rendah.Salah satu penjelasan yang mungkin menjelaskan keuntungan relatif kecil diamati bagi siswa kemampuan tinggi adalah bahwa nilai ujian mereka pada atau dekat dengan langit-langit dari 100 persen pencapaian. Namun, perlu dicatat bahwa bahkan bagi siswa dalam kuartil kemampuan tertinggi, rata-rata nilai tes pada tahun sebelum pengobatan adalah beberapa cara di bawah angka 100 persen (76 persen dan 68 persen untuk matematika dan bahasa Inggris, masing-masing). Hipotesis ini dieksplorasi lebih lanjut (dan ditolak) dalam analisis efek pengobatan kuantil bawah.Singkatnya, hasil yang disajikan dalam Tabel 5 menunjukkan bahwa kemampuan siswa rendah meraup keuntungan nilai ujian yang relatif besar dari inspeksi gagal. Hal ini berbeda dengan temuan dari beberapa helai literatur akuntabilitas uji berbasis yang menunjukkan bahwa kemampuan siswa rendah mungkin menderita di bawah rezim tersebut. Satu penjelasan untuk temuan yang dilaporkan di sini mungkin terletak pada peran yang dimainkan oleh inspektur. Saya membicarakan hal ini secara panjang lebar di bawah ini.

Kuantil Pengobatan EfekKemampuan siswa rendah pada kerugian relatif dalam rezim akuntabilitas berdasarkan per-kinerja ambang batas jika guru hanya memiliki informasi mengenai kemungkinan seorang mahasiswa kliring rintangan ini adalah kemampuan sebelumnya, seperti pada Tabel 2. Dalam hal ini jumlah siswa mencapai standar yang diperlukan juga dapat dimaksimalkan dengan menggantikan upaya guru jauh dari orang-orang paling tidak mungkin untuk mencapai standar diamanatkan - rata-rata siswa di bawah kemampuan kuartil - terhadap orang-orang siswa yang paling mungkin untuk mencapai ambang batas sebagai hasil fokus guru besar (siswa di kuartil kedua, katakan).Kesimpulan ini - yang kontras dengan temuan yang dilaporkan dalam Tabel 5 - didasarkan pada asumsi bahwa guru harus menargetkan rata-rata siswa dalam setiap kuartil kemampuan sebelumnya, katakan, dan bahwa mereka tidak dapat mengidentifikasi siswa marjinal dalam kuartil tertentu. Hasilnya, dalam hal melewati ambang diamanatkan, dari investasi usaha yang lebih besar pada rata-rata siswa dalam kategori kemampuan rendah sebelum mungkin memang rendah. Namun, jika para guru berhasil dapat mengidentifikasi siswa marjinal, misalnya, kuartil bawah distribusi kemampuan sebelumnya, maka kembali ke usaha guru ekstra mungkin substansial. Intuisi untuk baris ini penalaran yang dibahas dalam bagian 4.1 dan diilustrasikan oleh Gambar 2.Salah satu cara untuk mendeteksi perilaku guru tersebut adalah dengan memeriksa efek dari perawatan di quantiles tertentu dari distribusi skor tes. Secara khusus, argumen di atas menunjukkan bahwa kita harus memeriksa kedua efek penuh sampel pengobatan kuantil serta efek pengobatan kuantil dalam subkelompok kemampuan sebelumnya. Mencari efek heterogen dalam perjanjian kemampuan subkelompok sebelumnya dengan gagasan bahwa guru dapat menetapkan (track) siswa dalam (kalangan) kelas dengan kemampuan. Mereka kemudian dapat menargetkan upaya terhadap siswa dalam sub-kelompok marjinal.Dalam analisis di bawah ini, saya meneliti bagaimana distribusi bersyarat dari nilai tes dipengaruhi oleh perawatan di kuantil masing-masing [0,1] dengan memperkirakan model bentuk berikut:Q(yis .) = + Ds + Xis1+ Ws2,di mana Q(. .) adalah 7th fungsi kuantil bersyarat dan merupakan efek pengobatan kuantil (QTE) di kuantil . Gambar 3 plot serta terkait 95 persen confidence interval, untuk sampel penuh sekolah gagal. Angka 4 dan 5 plot QTE dalam setiap kuartil kemampuan sebelumnya, untuk matematika dan bahasa Inggris, masing-masing.Panel A dari Gambar 3 menunjukkan bahwa efek dari inspeksi gagal adalah untuk meningkatkan nilai tes standar nasional oleh antara 0,08 dan 0,13 dari deviasi standar untuk semua quantiles. Apakah ada bukti yang menunjukkan bahwa guru bertindak strategis untuk meningkatkan kinerja 'marjinal' siswa? Ingat dari Tabel 2 bahwa 67 persen dari siswa mencapai target ini pada gagal sekolah di tahun sebelum pemeriksaan. Dengan demikian, jika guru secara strategis menargetkan mahasiswa marjinal kita akan mengharapkan efek pengobatan mencapai puncak pada sekitar 0,33 kuantil. Hal ini tidak terjadi, bahkan efek pengobatan yang relatif stabil di sebagian besar distribusi skor tes. Ada beberapa bukti dalam Gambar 3, Panel A bahwa siswa pada tingkat kemampuan tertinggi mendapatkan kurang. Namun demikian, keuntungan bahkan di sini substansial dan menurun hanya sedikit di bawah 0,1 dari standar deviasi. Dengan demikian, pada bukti ini ada sedikit yang menunjukkan bahwa guru bertindak strategis untuk meningkatkan kinerja siswa pada margin mencapai target resmi pemerintah.Sebuah poin tambahan untuk dicatat di sini adalah bahwa pola efek pengobatan di seluruh quantiles dilaporkan dalam Gambar 3, Panel A sangat menolak gagasan bahwa langit-langit efek gigitan. Jika ini terjadi maka siswa skor tinggi tidak akan memposting keuntungan dari pengobatan. Bahkan angka menunjukkan bahwa bahkan pada quantiles tinggi, efek pengobatan tetap besar.Panel B dari Gambar 3 menunjukkan hasil untuk nilai tes bahasa Inggris. Seperti kasus matematika, tidak ada bukti kuat yang menunjukkan bahwa guru menargetkan 'marjinal' siswa. Namun, untuk bahasa Inggris ada bukti kuat dari keuntungan yang lebih rendah bagi siswa di quantiles tinggi: sekitar 0,05 dari deviasi standar untuk kuantil 0,9, efek ini adalah setengah untuk quantiles bawah 0,7.Aku berbalik sekarang untuk analisis QTE dalam setiap kuartil kemampuan sebelumnya, dilaporkan dalam Angka 4 dan 5. Ini mengungkapkan. Pertama, hasil OLS dilaporkan dalam setiap panel dari dua tokoh mengkonfirmasi hasil pada Tabel 5: efek terbesar adalah untuk siswa dalam kuartil bawah distribusi kemampuan sebelumnya, dan efek terkecil adalah untuk orang-orang di kuartil atas. Kedua, dan yang lebih penting, dalam kuartil ada bukti banyak heterogenitas, terutama bagi siswa dalam satu kuartil. Bagi siswa di kuartil bawah kemampuan sebelumnya, efek pengobatan untuk matematika meningkat terus dari sekitar 0,1 dari deviasi standar untuk quantiles terendah untuk hanya di bawah 0,3 untuk quantiles tertinggi (Gambar 4, Panel A). Untuk bahasa Inggris, Panel A dari Gambar 5 menunjukkan bahwa efek pengobatan adalah sekitar 0,1 dari deviasi standar bagi siswa di bawah rata-rata distribusi skor tes dan dekat dengan 0,2 bagi siswa pada atau di atas median.Satu penjelasan untuk pola hasil yang dilaporkan dalam Panel A dari Gambar 4 dan 5 adalah bahwa guru menargetkan siswa pada margin mencapai Level 4 ambang batas kinerja. Namun, Bukti dari tiga panel yang tersisa (kemampuan sebelum kuartil 2, 3 dan 4) di setiap Angka 4 dan 5 tidak mendukung pandangan ini. Misalnya, untuk subkelompok kemampuan kedua kuartil sebelum bukti pada Tabel 2 menunjukkan keuntungan tes harus mencapai puncaknya sekitar 0,4 kuantil untuk matematika dan bahasa Inggris. Panel B dari Gambar 4 menunjukkan beberapa dukungan untuk ini, tetapi hasil bahasa Inggris di Panel B, Gambar 5 tidak menunjukkan bukti perilaku tersebut. Demikian pula, bagi siswa dalam kemampuan sebelum ketiga kuartil statistik deskriptif pada Tabel 2 menunjukkan bahwa jika guru berperilaku strategis kemudian menguji keuntungan kinerja harus mencapai puncaknya sekitar 0,1 kuantil atau 0,2 untuk matematika dan bahasa Inggris dan penurunan sesudahnya. Bukti di C Panel di setiap Angka 4 dan 5 menunjukkan tidak ada pola seperti itu.Pada keseimbangan, hasil dari efek sampel pengobatan penuh kuantil serta efek pengobatan kuantil dalam subkelompok kemampuan sebelum cenderung menolak pandangan bahwa guru sasaran siswa pada margin mencapai batas 'Level 4' pejabat. Apa yang mungkin kemudian menjelaskan kenaikan kuat dalam keuntungan dari pengobatan di quantiles bagi siswa dalam kuartil terendah kemampuan sebelum (panel A di setiap Gambar 4 dan 5)? Pembahasan pertanyaan ini ditunda sampai setelah analisis subkelompok berikut heterogenitas pengobatan.

Selanjutnya subkelompok AnalisisTabel 6 melaporkan hasil dari regresi terpisah untuk subkelompok ditentukan oleh status makan siang gratis dan apakah Bahasa Inggris adalah bahasa pertama yang digunakan di rumah. Hasil berdasarkan status makan siang gratis menunjukkan keuntungan sedikit lebih tinggi dalam matematika bagi siswa makan siang gratis, tetapi keuntungan yang lebih kecil untuk kelompok relatif tidak ada - siswa makan siang gratis dalam bahasa Inggris. Namun, ada perbedaan besar dalam keuntungan bagi siswa sesuai dengan apakah atau tidak bahasa pertama mereka adalah bahasa Inggris. Untuk matematika, siswa yang bahasa pertamanya bukan bahasa Inggris dari rekor keuntungan 0,19 dari deviasi standar, dibandingkan dengan 0,12 standar deviasi bagi mereka yang bahasa pertamanya adalah bahasa Inggris. Demikian pula, keuntungan pada tes bahasa Inggris 0,12 dari sd (meskipun hanya sedikit signifikan) untuk kelompok pertama mahasiswa dan 0,08 dari sd untuk kelompok kedua.

Diskusi Hasil Pengobatan Efek heterogenAnalisis di atas menunjukkan kenaikan kuat pada usia 11 (Key Stage 2) tes bagi siswa digolongkan sebagai kemampuan yang rendah pada tes (usia tujuh) sebelumnya. Atas dasar bukti yang disajikan di atas, dua penjelasan potensi temuan ini dapat ditolak. Pertama, keuntungan ini untuk siswa kemampuan rendah tidak muncul untuk menjadi hasil dari guru strategis mengalokasikan upaya di kalangan siswa: hanya ada dukungan yang lemah untuk hipotesis bahwa guru sasaran siswa pada margin mencapai ambang kinerja resmi. Kedua, hal itu juga tampaknya tidak mungkin bahwa langit-langit efek bagi siswa kemampuan tinggi menjelaskan hasil ini. Jadi apa yang kemudian menjelaskan keuntungan bagi siswa kemampuan rendah dilaporkan dalam Tabel 5 dan bentuk efek pengobatan kuantil di Panel A Gambar, 4 dan Panel A, Gambar 5?Salah satu penjelasan yang sesuai dengan fakta adalah argumen bahwa mungkin ada banyak heterogenitas dalam sekolah yang sama dan bahkan kelas yang sama dalam sejauh mana orang tua mampu menahan guru ke account. Orangtua dari anak-anak nilai rendah pada tes tujuh usia cenderung lebih miskin daripada rata-rata dan kurang mampu menilai kemajuan anak mereka dan kualitas pengajaran yang diberikan oleh sekolah. Guru sehingga dapat mengerahkan tingkat yang lebih rendah dari upaya bagi siswa yang orang tuanya kurang vokal tentang mutu pengajaran. Setelah inspeksi gagal dan pengawasan peningkatan selanjutnya dari sekolah, guru meningkatkan usaha. Kenaikan dalam upaya mungkin terbesar dimana sebelumnya ada kendur terbesar. Dengan demikian kemampuan siswa rendah, yang orang tuanya menghadapi biaya tertinggi dalam hal menilai kualitas pengajaran, dapat memperoleh yang terbaik dari inspeksi gagal. Hal ini kemudian akan membantu menjelaskan kenaikan kuat untuk kemampuan siswa rendah, seperti yang dilaporkan dalam Tabel 5.Selain itu, jika siswa dalam kelompok kemampuan rendah sebelum memang mendapat perhatian yang lebih besar dari guru setelah inspeksi gagal, harapan mungkin bahwa dalam kelompok ini, siswa dengan kemampuan bawaan yang lebih tinggi manfaat yang paling. Hal ini akan selaras dengan asumsi biasa bahwa investasi dan kemampuan siswa saling melengkapi dalam fungsi skor tes produksi. Hal ini persis sejalan dengan hasil Panel A Gambar, 4 dan Panel A, Gambar 5, yang menunjukkan efek pengobatan meningkat di seluruh quantiles bagi siswa dalam kuartil terendah kemampuan sebelumnya.Penafsiran atas hasil ini juga didukung oleh analisis subkelompok Tabel 6, yang menunjukkan bahwa anak-anak miskin dari, kelompok minoritas cenderung untuk mendapatkan relatif lebih dari gagal inspeksi. Anak-anak dari keluarga di mana bahasa Inggris bukan bahasa pertama di rumah kemungkinan besar memiliki orang tua yang kurang mampu untuk menginterogasi para guru dan meminta pertanggungjawaban mereka. Hasil pada Tabel 6 meningkatkan kesimpulan bahwa itu adalah anak-anak dari hal-keluarga yang dibantu sebagian oleh pemeriksaan gagal.

5.3 Bukti Jangka Menengah EfekHasil yang dilaporkan dalam bagian sebelumnya menunjukkan bahwa 6 Tahun siswa, yang berada di tahun terakhir sekolah dasar, manfaat dari pemeriksaan gagal dalam hal nilai ujian yang lebih tinggi. Satu pertanyaan adalah apakah keuntungan yang berkelanjutan setelah pindah ke sekolah menengah. Analisis ini memberikan penilaian langsung dari apakah keuntungan nilai awal tes di sekolah dasar adalah karena 'pengajaran tes' daripada hasil penguasaan lebih besar atau pemahaman yang lebih dalam dari bahan yang diperiksa. Dalam kasus yang pertama, setiap keuntungan akan diharapkan untuk mengusir cepat. Perhatikan bahwa fadeOut seperti keuntungan awal sebenarnya umum dalam pengaturan di mana pendidik bahkan tidak berada di bawah tekanan untuk artifisial mendistorsi kinerja siswa diukur (lihat misalnya Currie dan Thomas, 1995). Dengan demikian, memudar dari keuntungan skor tes tidak menunjukkan distorsi necesssarily respon pada bagian dari guru. Di sisi lain, jika beberapa keuntungan skor tes awal bertahan untuk jangka menengah maka ini akan menunjukkan bahwa keuntungan awal dari pengobatan gagal yang 'nyata'.[Hasil dilaporkan dalam Tabel 7 - harus ditulis. Utama poin: Hasil: skor standar nasional pada usia 14 penilaian guru matematika dan bahasa Inggris pencapaian (gabungan). Yaitu Tiga tahun setelah meninggalkan sekolah dasar gagal. Hasil yang tersedia untuk siswa di sekolah dasar gagal pada tahun 2006 (usia 14 tes yang diambil pada tahun 2009) dan 2007 (umur 14 tes yang diambil pada tahun 2010). Hasil pada Tabel 8: perkiraan yang bising, namun menunjukkan bahwa rata-rata efek pengobatan tiga tahun setelah meninggalkan sekolah gagal primer adalah keuntungan dalam skor tes dari 0,05 dari deviasi standar (sedikit signifikan, kolom (1)). Pengaruh yang terbesar untuk rendah (sebelumnya) kemampuan siswa: 0,07 dari standar deviasi (signifikan pada tingkat konvensional, kolom (3))].

6. Kesimpulan[Untuk dapat ditulis] Validitas analisis: peringkat inspeksi sangat terkait dengan langkah-langkah yang mendasarikualitas sekolah tidak diamati oleh inspektur, bahkan setelah pengkondisian pada karakteristik sekolah tradisional (seperti rank test dan proporsi siswa memenuhi syarat untuk makan siang gratis). Hal ini menunjukkan bahwa inspektur nilai tambah dalam hal mengungkap beberapa heterogenitas teramati dalam kualitas sekolah. Pengaruh inspeksi gagal: Tahun 6 (umur 11) siswa di sekolah yang gagal awal mendapatkan 0,12 dari deviasi standar nasional tes matematika skor relatif terhadap siswa yang terdaftar di sekolah gagal akhir standar. Efek pengobatan untuk bahasa Inggris adalah keuntungan dari 0,08 dari standar deviasi. Hasil ini kuat untuk metode yang berbeda dari estimasi: perbandingan sederhana pasca-hasil pengobatan untuk kontrol dan kelompok perlakuan serta perbedaan-in-perbedaan model memberikan hasil yang sangat mirip. Efek keseluruhan heterogenitas masker substansial dalam efek pengobatan. Keuntungan terbesar adalah bagi siswa mencetak rendah pada (usia tujuh) Tahap Kunci tes sebelum 1. Dalam kelompok ini, analisis regresi kuantil mengungkapkan bahwa siswa mencapai lebih tinggi mendapatkan sebagian besar: siswa di kuartil bawah keuntungan distribusi kemampuan sebelumnya antara 0,1 dan 0,3 dari standar deviasi, dengan efek diperkirakan terus meningkat dari 0,1 untuk quantiles terendah hingga 0,3 untuk quantiles tertinggi. Untuk bahasa Inggris, perkiraan untuk kisaran antara subkelompok 0,08 dan 0,18 dari standar deviasi. (Ini adalah efek yang sangat besar Bandingkan dengan efek kualitas guru, Rivkin et al, 2005;. Menghadiri sekolah dengan tingkat pencapaian yang lebih tinggi, Hastings et al, 2009;. Atau sekolah charter, Abdulkadiroglu et al, 2011) Temuan ini konsisten dengan pandangan bahwa anak-anak dari orang tua berpenghasilan rendah paling diuntungkan dari inspeksi. Saya tidak menemukan bukti yang menunjukkan bahwa sekolah mampu inate uji kinerja gaming dengan sistem. Pertama, ada sedikit bukti yang menunjukkan bahwa guru tidak termasuk kemampuan siswa rendah dari kolam uji-taking. Kedua, bukti tidak mendukung gagasan bahwa guru sasaran siswa pada margin mencapai tingkat kemahiran offcial ('Level 4' pencapaian pada tes 2 Key Stage) dengan mengorbankan siswa jauh di atas atau di bawah ambang batas ini. Ketiga, walaupun kenaikan tes memudar sedikit dari waktu ke waktu, ada bukti yang menunjukkan bahwa untuk beberapa keuntungan siswa terakhir ke jangka menengah, bahkan setelah mereka meninggalkan sekolah gagal. Hal ini menunjukkan bahwa guru menanamkan pembelajaran nyata dan bukan hanya menguji-mengambil keterampilan dalam menanggapi rating gagal. Kenyataan bahwa aku tidak mendapati bukti jenis perilaku strategis ditemui di banyak konteks serupa lainnya menunjukkan bahwa dengan menundukkan sekolah untuk menutup pengawasan, inspektur mungkin memainkan peran dalam membatasi kegiatan distortif tersebut. Berbeda dengan temuan Heckman, Smith dan Taber (1996), yang menemukan bukti bahwa birokrat tampaknya memanjakan mereka sendiri ('liberal') preferensi, saya menemukan bahwa inspektur muncul untuk melakukan pekerjaan yang masuk akal. Salah satu alasan untuk perbedaan mungkin bahwa tidak seperti dalam pengaturan et al Heckman, dalam kasus ini tindakan inspektur terbuka untuk pengawasan umum sebagai laporan inspeksi berada di ranah publik. Hal ini dapat membantu memastikan bahwa keputusan birokrasi adalah sebuah kualitas yang cukup tinggi untuk melewati 'ujian pengawasan publik'.

asp_subjective performance evaluation in the public sector_evidence from school inspections

Documents