im put as i missing value

57
IMPUTASI  MISSING VALUE PADA DATA YANG MENGANDUNG  OUTLIER Oleh : HAFTI MARDIAH 140720090012 TESIS Untuk memenuhi salah satu syarat Guna memperoleh gelar Magister Statistika Terapan Program Magister Statistika Terapan Konsentrasi Statistika Sosial UNIVERSI T AS P ADJADJARAN PROGRAM PASCASARJANA BANDUNG 2010

Upload: riskey-comunity

Post on 17-Oct-2015

119 views

Category:

Documents


0 download

DESCRIPTION

y

TRANSCRIPT

  • 5/26/2018 Im Put as i Missing Value

    1/57

    IMPUTASIMISSING VALUE

    PADA DATA YANG MENGANDUNGOUTLIER

    Oleh :

    HAFTI MARDIAH

    140720090012

    TESIS

    Untuk memenuhi salah satu syarat

    Guna memperoleh gelar Magister Statistika Terapan

    Program Magister Statistika Terapan

    Konsentrasi Statistika Sosial

    UNIVERSITAS PADJADJARAN

    PROGRAM PASCASARJANA

    BANDUNG

    2010

  • 5/26/2018 Im Put as i Missing Value

    2/57

    IMPUTASIMISSING VALUE

    PADA DATA YANG MENGANDUNGOUTLIER

    Oleh :

    HAFTI MARDIAH

    140720090012

    TESIS

    Untuk memenuhi salah satu syarat ujian

    Guna memperoleh gelar Magister Statistika Terapan

    Program Magister Statistika Terapan

    Telah disetujui oleh Tim Pembimbing pada tanggal

    Seperti tertera di bawah ini

    Bandung, Agustus 2010

    Gandhi Pawitan, Ph.D. Budhi Handoko, M.Si.

    Ketua Tim Pembimbing Anggota Tim Pembimbing

  • 5/26/2018 Im Put as i Missing Value

    3/57

    PERNYATAAN

    Dengan ini saya menyatakan bahwa :

    1. Karya tulis saya, tesis ini, adalah asli dan belum pernah diajukan untuk

    mendapatkan gelar akademik (sarjana, magister, dan/atau doktor), baik di

    Universitas Padjadjaran maupun di perguruan tinggi lain.

    2. Karya tulis ini adalah murni gagasan, rumusan, dan penelitian saya sendiri,

    tanpa bantuan pihak lain, kecuali arahan Tim Pembimbing.

    3. Dalam karya tulis ini tidak terdapat karya atau pendapat yang telah ditulis atau

    dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan

    sebagai acuan dalam naskah dengan disebutkan nama pengarang dan

    dicantumkan dalam daftar pustaka.

    4. Pernyataan ini saya buat dengan sesungguhnya dan apabila di kemudian

    hari terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka

    saya bersedia menerima sanksi akademik berupa pencabutan gelar yang telah

    diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang

    berlaku di perguruan tinggi ini.

    Nama : Hafti Mardiah

    NPM : 140720090012

    Tanda Tangan :

    Tanggal : Agustus 2010

    ii

  • 5/26/2018 Im Put as i Missing Value

    4/57

    ABSTRAK

    Judul Tesis : ImputasiMissing Valuepada Data yang Mengandung

    Outlier.

    Kata Kunci : Missing Data, Outlier,Predictive Mean Matching,

    Least Trimmed Squares, Robust Estimation

    Nama : Hafti Mardiah

    NPM : 140720090012

    Program Studi : Statistika Terapan

    Bidang Kajian Utama : Statistika Sosial

    Tim Pembimbing : 1. Gandhi Pawitan, Ph.D.

    2. Budhi Handoko, M.Si.

    Tahun Kelulusan : 2010

    Abstrak

    Missing Data merupakan salah satu permasalahan yang sering terjadi pada

    sebuah survey. Imputasi adalah pilihan penangananmissing datayang paling bijak

    dari pada membuang sebagian observasi atau variabel yang mengandung missing

    value, mengingat bahwa data sangat mahal dan berharga. Penanganan missing

    valuepada sekumpulan data yang terdapat outliermenjadi perhatian khusus karena

    sebagian besar metode imputasi dengan mekanisme Missing at Random (MAR)

    dan Missing Completely at Random (MCAR) mengasumsikan data berdistribusi

    normal multivariat. Asumsi ini menjadi tidak valid ketika terdapat outlier pada

    data, sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi yang

    robustterhadap outlier. MetodePredictive Mean Matching (PMM) adalah salah

    satu alternatif metode imputasi komposit, penggabungan metode imputasi regresi

    iii

  • 5/26/2018 Im Put as i Missing Value

    5/57

    iv

    dengan metode imputasi nearest neighbour, yang mengasumsikan data berasal

    dari distribusi normal multivariat. Ketika asumsi normalitas dilanggar, PMM

    menghasilkan nilai hasil imputasi yang tidak masuk akal dan statistik Efficiency

    Relative yang lebih rendah dibandingkan dengan metode imputasi regresi Least

    Trimmed Squares (LTS). Metode imputasi regresi LTS merupakan penggabungan

    algoritma LTS dan algoritma imputasi regresi.

    Abstract

    Missing data is the most frequent problem that occurs in a survey. Thus,

    imputation is a prudent alternative of handling the missing data instead of reducing

    the number of observations or variables due to its cost achieved and value. The

    treatment of the missing data in the presence of outlier becomes the major problem

    which is the most imputation method based on the Missing at Random (MAR) and

    Missing Completely at Random (MCAR) mechanism. Moreover, it assumes data

    originated from a multivariate normal distribution, which is no longer valid in the

    presence of outliers in the data. For instance, Predictive Mean Matching (PMM),

    a combination of regression imputation method and the nearest neighbour method,

    assumes the data originated from a multivariate normal distribution. When the

    normality assumption is violated, the predictive mean matching method does not

    yield plausible imputed values plus the performance of the Efficiency Relative (ER)

    is below compared to the ER of Least Trimmed Squares (LTS) regression imputation

    method. LTS regression imputation method is actually a regression imputation

    method which its parameter is the result of LTS regression estimation then combined

    with the regression imputation algorithm.

  • 5/26/2018 Im Put as i Missing Value

    6/57

    KATA PENGANTAR

    Puji syukur penulis panjatkan kehadirat kepada Allah SWT karena rahmat dan

    hidayah-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul Imputasi

    Missing Value Pada Data Yang Mengandung Outlier ini dapat diselesaikan.

    Penyelesaian penulisan tesis ini tidak terlepas dari bantuan moral dan material dari

    berbagai pihak. Oleh karena itu penulis mengucapkan terima kasih yang tidak

    terhingga kepada:

    1. Bapak Gandhi Pawitan, Ph.D., selaku Ketua Tim pembimbing yang selalu

    memberikan arahan, bimbingan dan motivasi sehingga penulisan tesis ini

    selesai tepat waktu.

    2. Bapak Budhi Handoko, M.Si., selaku Co-Pembimbing yang selalu

    memberikan arahan, bimbingan dan dengan tangan terbuka membagi

    ilmunya.

    3. Bapak M. Dokhi, Ph.D. dan Ibu Dr. Lienda Noviyanti,M.Si., selaku penguji

    yang banyak memberikan masukan dan arahan dalam penyelesaian tesis ini.

    4. Seluruh dosen dan staf di bagian Program Statistika Terapan Universitas

    Padjadjaran.

    5. Bapak Drs. Aminul Akbar, M.Sc. yang pada masa jabatannya selaku

    Kepala BPS Provinsi Kepulauan Riau telah memberikan kesempatan dan ijin

    kepada penulis untuk mengikuti pendidikan di Program Magister Statistika

    Terapan Universitas Padjadjaran.

    6. Bapak Nyoto Widodo, M.Ec, selaku Kapusdiklat BPS yang telah memberikan

    kesempatan kepada penulis untuk mengikuti pendidikan di program Magister

    Statistika Terapan Universitas Padjadjaran.

    v

  • 5/26/2018 Im Put as i Missing Value

    7/57

    vi

    7. Ibunda Suyati yang tiada hentinya mencurahkan kasih sayangnya kepada

    penulis semenjak kecil serta sanak famili di Bandung dan di Jakarta atas

    dukungannya.

    8. Secara khusus untuk suami tercinta Purwo Astono dan buah hati Hana

    yang telah memberikan motivasi serta doanya dari jauh selama mengikuti

    pendidikan.

    9. Rekan-rekan senasib seperjuangan dalam kuliah Angkatan I Program Kerja

    Sama BPS-UNPAD, khususnya rekan-rekanGEROMBOLAN SI BERATatas

    kebersamaannya dalam menyelesaikan studi ini.

    10. Seluruh rekan-rekan di BPS Provinsi Kepulau Riau yang telah membantu

    kelancaran selama mengikuti kuliah.

    11. Rekan-rekan yang nun jauh di Papua Suryana dan di NTB Acul Marucul

    yang telah membantu dalam penulisan tesis ini.

    12. Semua pihak yang tidak dapat penulis sebutkan satu-persatu yang telah

    membantu kelancaran selama mengikuti kuliah dan menyelesaikan tesis ini.

    Bandung, Agustus 2010

    Hafti Mardiah

  • 5/26/2018 Im Put as i Missing Value

    8/57

    DAFTAR ISI

    Daftar Isi vii

    Daftar Tabel ix

    Daftar Gambar x

    BAB I PENDAHULUAN 1

    1.1 Latar Belakang Masalah. . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2 Identifikasi Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3 Tujuan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.4 Manfaat Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.5 Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    BAB II TINJAUAN PUSTAKA 6

    2.1 PolaMissing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.2 MekanismeMissing Data . . . . . . . . . . . . . . . . . . . . . . . 8

    2.3 Tinjauan Kritis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.3.1 MetodePredictive Mean Matching . . . . . . . . . . . . . . 11

    2.3.2 Metode ImputasiRobust . . . . . . . . . . . . . . . . . . . 12

    2.3.3 Outlier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.4 Survei Industri Besar dan Sedang (Survei IBS). . . . . . . . . . . . 14

    BAB III IMPUTASI MISSING VALUE PADA DATA YANG

    MENGANDUNG OUTLIER 16

    3.1 PendeteksianOutlier . . . . . . . . . . . . . . . . . . . . . . . . . 16

    3.1.1 PendeteksianOutlierpada DimensiX . . . . . . . . . . . . 17

    3.1.2 PendeteksianOutlierpada Dimensi Y . . . . . . . . . . . . 17

    vii

  • 5/26/2018 Im Put as i Missing Value

    9/57

    viii

    3.1.3 Outlieryang Berkaitan denganInfluential Cases. . . . . . . 17

    3.2 Metode Imputasi PMM . . . . . . . . . . . . . . . . . . . . . . . . 18

    3.3 Metode Imputasi Regresi LTS . . . . . . . . . . . . . . . . . . . . 20

    3.3.1 Ide Dasar dan C-steps . . . . . . . . . . . . . . . . . . . . . 21

    3.3.2 AlgoritmaFAST-LTS . . . . . . . . . . . . . . . . . . . . . 21

    3.3.3 Tahapan Imputasi Regresi . . . . . . . . . . . . . . . . . . 22

    3.4 Efisiensi dari Imputasi Berganda . . . . . . . . . . . . . . . . . . . 23

    3.5 Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.6 Variabel Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    BAB IV HASIL DAN PEMBAHASAN 29

    4.1 Eksplorasi Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    4.2 PendeteksianOutlier . . . . . . . . . . . . . . . . . . . . . . . . . 32

    4.2.1 PendeteksianOutlierpada DimensiX . . . . . . . . . . . . 33

    4.2.2 PendeteksianOutlierpada Dimensi Y . . . . . . . . . . . . 33

    4.2.3 PendeteksianOutlieryang Berkaitan denganInfluential Cases 33

    4.3 Imputasi dengan Menggunakan Metode PMM . . . . . . . . . . . . 33

    4.4 Imputasi dengan Menggunakan Metode Regresi LTS . . . . . . . . 36

    4.5 Perbandingan Efisiensi Relatif Metode Imputasi PMM dan Regresi

    LTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    BAB V KESIMPULAN DAN SARAN 41

    5.1 Kesimpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    5.2 Saran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    Daftar Pustaka 43

  • 5/26/2018 Im Put as i Missing Value

    10/57

    DAFTAR TABEL

    Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi . . 10

    Tabel 4.1. Tabel PolaMissing Data . . . . . . . . . . . . . . . . . . . . 29

    Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM . . . . . . . . . 35

    Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM . . . . 36

    Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS. . . . . . 37

    Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS 38

    Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM . . . . . . . 39

    Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS. . . . 39

    Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode

    Imputasi PMM dan Regresi LTS . . . . . . . . . . . . . . . . 40

    ix

  • 5/26/2018 Im Put as i Missing Value

    11/57

    DAFTAR GAMBAR

    Gambar 2.1. PolaMissing Data, baris menyatakan observasi dan kolom

    menyatakan variabel . . . . . . . . . . . . . . . . . . . . . 7

    Gambar 3.1. Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . 28

    Gambar 4.1. Boxplot VariabelX1 . . . . . . . . . . . . . . . . . . . . . . 30

    Gambar 4.2. Boxplot VariabelX2 . . . . . . . . . . . . . . . . . . . . . . 30

    Gambar 4.3. Boxplot VariabelX3 . . . . . . . . . . . . . . . . . . . . . . 31

    Gambar 4.4. Boxplot VariabelX4 . . . . . . . . . . . . . . . . . . . . . . 31

    Gambar 4.5. Boxplot VariabelX5 . . . . . . . . . . . . . . . . . . . . . . 32

    Gambar 4.6. Plot Laju ER PMM dan Regresi LTS . . . . . . . . . . . . . 40

    x

  • 5/26/2018 Im Put as i Missing Value

    12/57

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang Masalah

    Tugas pokok Badan Pusat Statistik (BPS) seperti tertuang pada Undang-

    undang Nomor: 16 tahun 1997 tentang statistik Bab VI pasal 11 menyatakan BPS

    sebagai satu-satunya lembaga yang berhak menyelenggarakan kegiatan statistik

    dasar, berkewajiban memberi masukan berupa data statistik kepada pemerintah,

    seperti tertuang dalam tugas pokok BPS pada Undang-undang Nomor: 16 tahun

    1997 tentang statistik Bab VI pasal 11. Salah satu tugas pokok BPS adalah

    melakukan kegiatan statistik di bidang perindustrian yaitu menyelenggarakan

    Survei Tahunan Industri Pengolahan Besar dan Sedang (Survei IBS). Permasalahan

    yang biasa ditemui dalam Survei IBS adalah missing datakarena nonrespons.

    Pencegahan dan penanganan nonrespons seperti dua sisi mata uang pada

    sebuah koin. Pencegahan adalah hal pertama yang harus dilakukan untuk

    mengurangi nonrespons. Nonrespons tidak sepenuhnya dapat dicegah sehingga

    penanganan nonrespons menjadi penting pada saat akan dilakukan analisis (Leeuw

    et al.,2003).

    BPS telah melakukan beberapa cara untuk meminimalkan nonrespons, yaitu:

    1. Menyederhanakan kuesioner hanya terdiri dari 4 lembar pertanyaan.

    2. Membuat kuesioner lebih menarik dengan jenis huruf yang menarik dan

    mudah dibaca, juga sedikit warna, didalamnya juga terdapat instruksi

    pengisian kuesioner dalam bahasa Indonesia dan bahasa Inggris.

    3. Di bagian sampul kuesioner disebutkan RAHASIA, untuk menjamin

    kerahasiaan responden yang dijamin dalam Undang-undang Nomor: 16 tahun

    1997 tentang statistik.

    1

  • 5/26/2018 Im Put as i Missing Value

    13/57

    2

    4. Memberikan souveniratau leafletyang berisi informasi mengenai hasil dari

    pengumpulan data secara agregat.

    5. Melakukan follow up, baik melalui kunjungan ulang ataupun telepon untuk

    mengingatkan responden.

    6. Mengantar kuesioner dan mengambilnya kembali setelah selesai diisi.

    Meskipun langkah-langkah tersebut telah dilakukan, tetapi nonrespons tetap tidak

    dapat dihindarkan. Beberapa alasan yang menyebabkan nonrespons dalam SurveiIBS di Provinsi Kepulauan Riau adalah perlindungan dari pihak kawasan industri

    yang sangat ketat dan dinamisnya pergantian manajemen dalam perusahaan

    sehingga personel yang baru terkendala dalam pengisian kuesioner dan bahkan

    menolak untuk mengisi kuesioner.

    Penanganan missing data menurutLittle and Rubin(1987) ada tiga macam,

    yaitu:

    1. Complete case analysis dengan membuang observasi yang terdapat missing

    value maka estimasi mengarah kepada standard error yang lebih besar

    dikarenakan jumlah sampel yang berkurang.

    2. Available case analysis terjadi ketika satu atau lebih gugus variabel yang

    terdapatmissing value dibuang dari pengamatan untuk kemudahan analisis.

    Penghilangan satu variabel yang penting ketika akan menganalisa hubungan

    sebab akibat akan menyebabkan salah penafsiran.

    3. Membuang beberapa observasi atau variabel bukanlah solusi yang baik

    berkaitan dengan bias dan presisi. Pendekatan lainnya adalah mengganti

    missing valuedengan suatu nilai, metode ini disebut metode imputasi.

    Lessler and Kalsbeek(1992) menggunakan istilahincomplete datayang sama

    maknanya denganmissing data. Missing data berhubungan dengan permasalahan

  • 5/26/2018 Im Put as i Missing Value

    14/57

    3

    noncoverage, unit nonresponse dan item nonresponse. Pada Survei IBS non-

    coverage diminimalisir dengan melakukan updating Direktori perusahaan IBS

    setiap tahunnya sebelum pencacahan dengan kuesioner dilakukan, yaitu dengan

    cara menghapus perusahaan yang tutup permanen dari daftar dan menambahkan

    perusahaan baik yang baru beroperasi secara komersil pada tahun pencacahan atau

    sudah beroperasi komersil sebelumnya tetapi belum tercatat di dalam Direktori.

    Daftar nama calon perusahaan baru yang akan dimasukkan ke dalam Direktori

    biasanya diambil dari pencatatan oleh instansi lain atau sumber lain. Kemudian

    dilakukan pengecekan awal seperti melihat keberadaan perusahaan, kesesuaian

    jumlah tenaga kerja, status permodalan perusahaan dan jenis produksi utama.

    Permasalahan unit nonresponsedanitem nonresponseterjadi di dalam Survei

    IBS, tetapi penelitian ini difokuskan kepada permasalahan item nonresponse. BPS

    melakukan estimasi untuk setiapunit nonresponsedengan menggunakan informasi

    pertumbuhan nilai tambah dan rasio antar variabel pada unit observasi yang respons

    dan melakukan imputasi untuk setiap item nonresponse dengan memperhatikan

    rasio antar variabel pada unit observasi respons yang terdekat.

    Survey IBS termasuk mail survey, hanya tidak dikirim lewat pos tetapi

    diantar dan diambil kembali oleh petugas BPS, jarang sekali terdapat proses

    wawancara pada pelaksanaannya. Hal tersebut menjadi salah satu penyebab

    terjadinya item nonresponse. Penafsiran yang berbeda dengan maksud pertanyaan,

    pihak manajemen perusahaan menganggap establishmentnya adalah jasa industri

    (makloon) sehingga pertanyaan bahan baku dan bahan penolong yang dipakai

    selama tahun 2008 (dalam 000 Rupiah) tidak terisi tetapi dapat mengisi

    pertanyaan barang-barang yang dihasilkan (dalam 000 Rupiah). Item nonresponse

    menyebabkan lubang dalam kumpulan data yang disebut missing value, oleh

    karena itu dibutuhkan metode imputasi untuk memperoleh kumpulan data yang

    lengkap sehingga analisis data dapat dilakukan. Keadaan lain yang nyata terjadi

  • 5/26/2018 Im Put as i Missing Value

    15/57

    4

    pada Survei IBS adalah outlier. Outlier terjadi karena cakupan Survei IBS itu

    sendiri yaitu perusahaan berskala sedang dan besar, status permodalan perusahaan

    berasal dari dalam negri (PMDN) dan dari luar negri (PMA).

    1.2 Identifikasi Masalah

    Pertanyaan-pertanyaan mengenai struktur pengeluaran dan pendapatan pada

    akhirnya diperlukan untuk menghitung nilai tambah (value added) suatu produk

    barang ataupun jasa. Terjadinyaitem nonresponse pada salah satu dari komponen

    pengeluaran akan mengakibatkan perhitungan nilai tambah menjadi over estimate

    apabila permasalahan ini tidak ditangani.

    BPS mengelompokan unit-unit observasi berdasarkan klasifikasi

    industri yang disebut Klasifikasi Baku Lapangan Usaha Indonesia (KBLI).

    Pengelompokkan unit-unit observasi ke dalam KBLI tidak dapat mencegah

    kehadiran outlier dengan asumsi bahwa jawaban responden adalah benar, karena

    responden sendiri yang menjawab pertanyaan-pertanyaan di dalam kuesioner.

    Sebagian besar metode imputasi dengan mekanisme Missing Completely at

    Random (MCAR) dan Missing at Random (MAR) mengasumsikan multivariat

    normal, jika data mengandung outlier maka asumsi ini menjadi tidak valid.

    Langkah selanjutnya yang harus dihadapi adalah:

    1. Bagaimana mengatasimissing valuemelalui metode imputasi pada data yang

    terdapatoutlier? Metode apa yang sesuai dengan masalah ini?

    2. Bagaimana efisiensi hasil imputasi antara metode imputasi PMM

    dibandingkan dengan imputasi Regresi LTS bila terdapatoutlier?

  • 5/26/2018 Im Put as i Missing Value

    16/57

    5

    1.3 Tujuan Penelitian

    Berdasarkan latar belakang dan identifikasi masalah diatas, maka tujuan

    penelitian ini adalah untuk mengetahui metode terbaik dalam mengatasi missing

    valuepada Survei IBS ketika data yang digunakan terdapatoutlier.

    1.4 Manfaat Penelitian

    1. Manfaat dari penelitian ini adalah sebagai kontribusi wawasan keilmuan dan

    pengetahuan mengenai metode imputasi yang robustterhadapoutlier.

    2. Metode yang dihasilkan menjadi salah satu alternatif yang dapat digunakan

    oleh BPS untuk mengatasi missing datapada Survei IBS.

    1.5 Batasan Masalah

    1. Permasalahan dibatasi dengan cakupan data Survei IBS Provinsi Kepulauan

    Riau tahun 2008 pada KBLI 32100 yaitu kelompok perusahaan yang

    memproduksi tabung, katup elektronik dan komponen elektronik lainnya

    dengan jumlah unit observasi terbanyak dari seluruh KBLI 5digityang ada.

    2. Metode yang digunakan terkait hasil eksplorasi data dengan pola missing data

    univariat dan asumsi mekanismemissing datayaituMissing At Random.

  • 5/26/2018 Im Put as i Missing Value

    17/57

    BAB II

    TINJAUAN PUSTAKA

    Lessler and Kalsbeek (1992) menjabarkan tentang noncoverage, unit

    nonresponse dan item nonresponse dilihat dari penyebabnya. Item nonresponse

    terjadi ketika ada pertanyaan di dalam kuesioner yang seharusnya dijawab tetapi

    tidak dijawab atau terhapus ketika proseseditingdan dataentry. Unit nonresponse

    terjadi jika tidak ada tanggapan dari unit observasi yang terpilih sebagai sampel.

    Penyebab terjadinya unit nonresponse adalah diantaranya karena sampel terpilih

    tidak berada di tempat, kendala bahasa antara pewawancara dengan sampel terpilih,

    kesulitan pengaturan jadwal pertemuan atau karena sampel terpilih memang

    menolak untuk memberi jawaban dan lain sebagainya. Noncoverage adalah

    kesalahan tidak memasukkan beberapa unit observasi ke dalam target populasi.

    2.1 PolaMissing Data

    MatriksY adalah sebuah matriks berukuran n x k, data tanpa missing value

    dengan elemen yi j, yaitu nilai variabel ke-j pada unit ke-i. Matriks M adalah

    matriks missing data,mi j= 1 jikayi jadalah missing value dan mi j= 0 jikayi jbukan

    missing value. Selanjutnya M akan menggambarkan pola missing data. Gambar

    2.1. menunjukkan contoh dari pola missing data (Little and Rubin, 2002 dalam

    Chaimongkol(2005)).

    1. Pola (a) disebutmissing dataunivariat yaitu dimana hanya satu variabel yang

    terdapatmissing data.

    2. Pola (b) adalah bentuk dimana satu blokmissing datauntuk kasus yang sama

    dan variabel lainnya komplit. Hal ini terjadi pada survei sampel yang terdapat

    unit nonresponse sehingga kuesioner tidak terisi dan terdapat beberapa unit

    6

  • 5/26/2018 Im Put as i Missing Value

    18/57

    7

    nonresponselainnya.

    Gambar 2.1. Pola Missing Data, baris menyatakan observasi dan kolom

    menyatakan variabel

    3. Pola (c) disebut monotone missing data, terjadi ketika observasi variabel

    Y1 lebih banyak dari Y2 dan observasi variabel Y2 lebih banyak dari Y3

    dan seterusnya. Missing data univariat adalah kasus khusus dari monotone

    missing data yang terjadi pada penelitian longitudinal dimana subjek

    penelitian keluar dari penelitian sebelum penelitian berakhir dan tidak per-

    nah kembali.

    4. Pola (d) adalah pola umum missing data, dikenal juga dengan item

    nonresponse pada kuesioner, missing value dapat terjadi pada variabel

    manapun. Item non responsebiasanya ditangani dengan metode imputasi.

  • 5/26/2018 Im Put as i Missing Value

    19/57

    8

    5. Pola (e) dinamakanfile matching pattern, ketika dua buah kumpulan variabel

    tidak pernah terobservasi secara bersama-sama maka parameter dari kedua

    variabel ini tidak dapat diestimasi, jika dipaksakan akan berakibat pada

    penafsiran yang salah.

    6. Pola (f) disebut faktor analisis. Terjadi ketika X adalah variabel laten

    dan terdapat variabel pengukuran Y, pola seperti ini adalah analisis regresi

    multivariat Y terhadapX, dan dibutuhkan beberapa asumsi.

    2.2 MekanismeMissing Data

    Terdapat tiga macam mekanismemissing data:

    1. Missing Completely at Random(MCAR)

    Sebuah variabel dikatakan MCAR bila peluang hilangnya sama untuk semua

    unit. Sebagai contoh, jika setiap responden memutuskan untuk menjawab

    pertanyaan tentang pendapatan dengan mengundi sebuah dadu, menolak

    menjawab jika muncul dadu mata enam. Jika data MCAR, maka membuang

    observasi dari kumpulan data tidak akan menyebabkan bias pada inferensi

    statistik.

    2. Missingness at Random(MAR)

    Kebanyakan missing data bukanlah MCAR. MAR terjadi jika peluang

    hilangnya data bergantung pada ketersediaan informasi. Pola missing data

    dapat dilacak atau dapat diprediksi dari variabel-variabel lain. Sebuah

    variabel yang hilang dipengaruhi oleh nilai-nilai dari variabel lainnya.

    Sebagai contoh pertanyaan tentang jenis kelamin, umur, suku bangsa,

    pendidikan, dan pendapatan ditanyakan untuk semua orang yang terkena

    sampel. Maka pertanyaan pendapatan adalah MAR, karena tidak semua orang

  • 5/26/2018 Im Put as i Missing Value

    20/57

    9

    mempunyai pendapatan.

    3. Nonignorable Missing at Random(NMAR)

    Mekanisme hilangnya data bergantung pada missing value itu sendiri. Pola

    dari data yang hilang tidak random dan tidak dapat diprediksi dari variabel-

    variabel lain. Contoh, misalkan orang yang mempunyai pendapatan tinggi

    cenderung untuk menolak menjawab pertanyaan mengenai pendapatan.

    2.3 Tinjauan Kritis

    Metode penanganan missing data berkembang dari masa ke masa.

    Chaimongkol (2005) dalam disertasinya memperkenalkan tiga jenis kombinasi

    imputasi antara regresi dannearest neighbour, yaituNearest Neighbour Regression

    Imputation (NNR), Weighted Nearest Neighbour Regression Imputation (WNR)

    dan Distance Regression Imputation (DRI). Meskipun metode ini menghasilkan

    estimator yang bias tetapi dapat diabaikan dan akan menuju nol bila persentase data

    hilang kurang dari lima belas persen.

    Carpenter and Kenward (2006) melakukan perbandingan regresi Least

    Squares(LS),doubly robust, multiple imputation dan inverse probabilty weighting

    (IPW) pada 2.000 data hasil simulasi berdistribusi normal yang mempunyai empat

    dimensi. Dari penelitiannyaCarpenter and Kenward(2006) menyimpulkan bahwa

    doubly robust sangat sensitif bila digunakan pada multivariate response model.

    Kemudian diperkenalkan doubly robust IPW untuk variabel kategorik dan jika

    peluang hilangnya data ekstrim. Metode ini merupakan salah satu metode alternatif

    untuk melakukan analisis pada ilmu-ilmu sosial jika terdapat observasi yang hilang.

    Perangkat lunak untuk teori tersebut masih terus dikembangkan.

    Hron et al. (2008) mengelompokkan teknik imputasi ke dalam empat kategori:

    1. Metode univariat, contoh: imputasi mean. Metode imputasi mean berguna

  • 5/26/2018 Im Put as i Missing Value

    21/57

    10

    jika mekanismemissing dataadalah MCAR atau jumlahmissing datasedikit

    dan bila tidak terdapat variabel prediktor. Ini merupakan cara termudah untuk

    mengimputasi yaitu mengganti missing data dengan nilai tengah tetapi hal

    ini dapat menyebabkan estimasi varians dari populasi menjadiunderestimate

    (Chaimongkol,2005).

    2. Metode imputasi berdasarkan jarak, contoh: imputasi k-nearest neighbour

    3. Metode imputasi berdasarkan kovarians, contoh: imputasi Algoritma

    Expectation Maximization (EM). Metode ini merupakan metode iterasi

    penggabungan antara complete data analysis dan penaksiran statistik yang

    efisien. Proses iterasinyaslowkonvergen karena perbedaan antara iterasi ke

    iterasi berikutnya sangat kecil sehingga kita tidak tahu kapan harus berhenti

    dari proses iterasi dan EM tidak dapat memberikan informasi mengenai

    varians.

    4. Metode imputasi berdasarkan model, contoh: imputasi regresi.

    Berdasarkan pola missing data dan tipe variabel yang akan diimputasi,

    diberikan rekomendasi seperti pada Tabel2.1.(SAS/STAT 9.2Users Guide).

    Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi

    PolaMissing Data Tipe variabel Metode

    yang akan diimputasi

    Monoton Kontinyu Regresi

    Komposit (PMM)

    Propensity Score

    Monoton Klasifikasi (Ordinal) Regresi Logistik

    Monoton Klasifikasi (Nominal) Metode Fungsi Diskriminan

    Arbitary Kontinyu MCMCFull-Data Imputation

    MCMCMonotone-Data Imputation

    Metode propensity score pada awalnya digunakan untuk percobaan pada

    pengukuran variabelresponseyang berulang. Setiap variabel dengan missing data

  • 5/26/2018 Im Put as i Missing Value

    22/57

    11

    dibuatpropensity score pada setiap observasi untuk mengestimasi peluang observasi

    tersebut hilang. Observasi dikelompokkan berdasarkanpropensity scorekemudian

    imputasi dengan menggunakan approximate bayesian bootstrap diterapkan pada

    setiap kelompok. Metode propensity score tidak menggunakan korelasi antar

    variabel dan tidak cocok untuk analisis hubungan antar variabel, seperti regresi.

    2.3.1 MetodePredictive Mean Matching

    Metode komposit pertama kali diperkenalkan olehRubin(1987) kemudian

    dikembangkan oleh Little (1988) untuk mengatasi multivariat nonrespons. Little

    (1988) memperkenalkan metode komposit yang disebutPredictive Mean Matching.

    Pada dasarnya metode ini adalah sama dengan metode regresi, yang membedakan

    adalah untuk setiap nilai yang hilang diimputasikan dari nilai observasi yang

    terdekat dari model (Rubin, 1987). Metode PMM menjamin bahwa nilai-nilai

    yang diimputasikan adalah lebih masuk akal dan kemungkinan akan lebih tepat

    dibandingkan metode regresi apabila asumsi kenormalan tidak terpenuhi (Horton &

    Lipsitz,2001).

    Basuki (2009) mendukung pernyataan Horton and Lipsitz (2001), dalam

    penelitiannya digunakan data Survei IBS tahun 2007 Provinsi Jawa Timur untuk

    KBLI 17115 (kain tenun ikat) dengan asumsi kenormalan dipenuhi, dan KBLI

    19201 (alas kaki) dengan asumsi kenormalan tidak dipenuhi. Pola missing data

    nya univariat pada variabel Y(nilai Produksi).

    Thibaudeau et al.(2006) dalam laporan penelitian tentang penggunaan PMM

    untuk assets dan liabilities pada Survey of Income and Program Participation,

    menyebutkan salah satu alternatif metode imputasi yang dilakukan untuk X

    (Mortgage Amount) dan Y (Property Value) sebagai variabel-variabel kontinyu, jika

    Yresponse danXhilang dapat menggunakan PMM dengan syarat nilai Y>0.

    Metode imputasi PMM dan regresi adalah yang paling memungkinkan untuk

  • 5/26/2018 Im Put as i Missing Value

    23/57

    12

    digunakan dalam penelitian ini karena metode tersebut termasuk metode imputasi

    berdasarkan model.

    2.3.2 Metode ImputasiRobust

    Metode imputasi yang dapat menangani missing data dengan mekanisme

    MCAR dan MAR sebagian besar mengasumsikan data berasal dari distribusi

    normal multivariat. Asumsi ini menjadi tidak valid ketika terdapatoutlierpada data,

    sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi robust

    (Hron et al., 2008). Hron et al. (2008) dalam penelitiannya membandingkan

    beberapa metode imputasi yaitu geometric mean, k-nn dengan jarak Aitchison,

    regresi LS dengan isometric logratio transformation (ilr), regresi LTS dengan

    ilr, imputasi mean, EM, k-nn dengan jarak Euclidian, regresi LS dan LTS

    tanpa transformasi. Hron et al. (2008) menyarankan untuk menggunakan regresi

    LTS karena robustregresi dapat mengurangi pengaruh kehadiran outlierterhadap

    penaksiran parameter regresi (Maronna et al., 2006). Rousseeuw and Driessen

    (2006) dalam kajiannya tentang penggunaan Regresi LTS untuk sampel besar

    yaitu n = 100, 500, 1.000, 10.000 dan 50.000 dengan data hasil simulasi dan

    sampel kecil n = 12, 18, 20, 23, 25 dan 28, menyimpulkan bahwa regersi LTS

    sangat robust terhadap outlierdan cepat dalam penghitungannya. Rousseeuw and

    Driessen (2006) mengembangkan Algoritma FAST-LTS kemudian dibandingkan

    dengan Feasible Subsets Algorithm (FSA). Algoritma FAST-LTS dua kali lebih

    cepat dari pada FSA pada sampel kecil dan sepuluh kali lebih cepat pada sampel

    besar.

    2.3.3 Outlier

    Sembiring (1995) mendefinisikan outlier sebagai pengamatan yang tidak

    mengikuti pola umum data, ditunjukkan dari residualnya yang besar, yang

  • 5/26/2018 Im Put as i Missing Value

    24/57

    13

    mungkin berpengaruh besar terhadap koefisien regresi. Barnett and Lewis(1994)

    mendefinisikan outlier sebagai sebuah observasi (atau subset dari observasi)

    yang memperlihatkan inkonsistensi dengan sisa data yang lain, pengamatan yang

    memperlihatkan penyimpangan sangat mencolok dari anggota sampel lainnya.

    Lebih lanjut Barnett and Lewis (1994) membedakan antara observasi ekstrim,

    outlierdan contaminant. Observasi ekstrim adalah observasi yang berada di batas

    atas atau batas bawah sebuah distribusi. Contaminantsadalah irisan observasi dari

    dua buah distribusi. Outlierbelum tentu contaminants dan contaminants belum

    tentuoutlier. Outliers sudah pasti observasi ekstrim sedangkan observasi ekstrim

    belum tentuoutlier.

    Secara umum terdapat tiga buah cara penanganan outlier, yaitu:

    1. Menyisihkan outlier dari kumpulan data sebelum dilakukan analisis.

    Alternatif pertama bukan lah keputusan yang bijak mengingat data sangat

    berharga dan mahal.

    2. Menganggap outlier sebagai missing value, lalu menggantikan nilai yang

    dianggap hilang dengan suatu nilai dari hasil estimasi. Elliott (2006)

    melakukan hal ini dalam penelitiannya, akan tetapi outlier yang terjadi

    karena kesalahan pencatatan clerical errors. Perlu diwaspadai ketika data

    sudah terdapat missing value, dengan menggantikan outliersebagaimissing

    value maka akan menambah jumlah missing value. Chaimongkol (2005)

    menyatakan bahwa jumlah missing value yang dapat ditangani oleh suatu

    metode imputasi adalah sebesar kurang dari 15%.

    3. Mengakomodir outlier dengan menggunakan metode yang robustterhadap

    outlier. Alternatif ke-3 yang akan dilakukan dalam penelitian ini.

  • 5/26/2018 Im Put as i Missing Value

    25/57

    14

    2.4 Survei Industri Besar dan Sedang (Survei IBS)

    Istilah-istilah yang berkaitan dengan Survei IBS (BPS (2006)):

    1. Kuesioner II-A adalah jenis kuesioner yang digunakan untuk mengumpulkan

    informasi mengenai jumlah perusahaan, status penanaman modal, jumlah

    tenaga kerja, pengeluaran untuk pekerja, tenaga listrik, bahan bakar yang

    digunakan, biaya input, nilaioutput, nilai tambah dan jual beli barang modal

    tetap.

    2. KBLI diadopsi dari International Standard Industrial Classification (ISIC)

    yang disesuaikan dengan kondisi di Indonesia. KBLI suatu perusahaan

    industri ditentukan berdasar pada produksi utamanya, yaitu jenis komoditi

    yang dihasilkan dengan nilai paling besar.

    3. Industri pengolahan adalah suatu kegiatan ekonomi yang melakukan kegiatan

    mengubah suatu barang dasar secara mekanis, kimia atau dengan tangan

    sehingga menjadi barang jadi atai setengah jadi dan atau barang kurang

    nilainya menjadi barang yang lebih tinggi nilainya, dan sifatnya lebih dekat

    kepada pemakai akhir.

    4. Jasa Industri adalah kegiatan industri yang melayani keperluan pihak

    lain. Pada kegiatan ini bahan baku disediakan oleh pihak lain sedangkan

    pihak pengolah hanya melakukan pengolahannya dengan mendapat imbalan

    sejumlah uang atau barang sebagai balas jasa (upah makloon).

    5. Perusahaan atau usaha industri adalah suatu unit (kesatuan) usaha yang

    melakukan kegiatan ekonomi, bertujuan menghasilkan barang atau jasa,

    terletak pada suatu bangunan atau lokasi tertentu, dan mempunyai catatan

    administrasi tersendiri yang bertanggung jawab atas usaha tersebut.

  • 5/26/2018 Im Put as i Missing Value

    26/57

    15

    6. Perusahaan atau usaha industri menurut jumlah tenaga kerja nya dibedakan

    menjadi perusahaan besar (>100 orang), perusahaan sedang (20-99 orang),

    perusahaan kecil (5-19 orang) dan usaha industri rumah tangga (1-4 orang).

  • 5/26/2018 Im Put as i Missing Value

    27/57

    BAB III

    IMPUTASI MISSING VALUEPADA DATA YANG MENGANDUNG

    OUTLIER

    Eksplorasi data merupakan langkah pertama yang harus dilakukan sebelum

    melakukan analisis. Cara termudah yaitu dengan memplot data. Terkait dengan

    permasalahan imputasi jika terdapat outlier maka pendeteksian outlier menjadi

    bagian dari eksplorasi data. Pemilihan metode imputasi juga didasarkan kepada

    hasil eksplorasi data secara keseluruhan mencakup data lengkap dan missing value.

    Pendekatan yang digunakan dalam penelitian ini adalah pendekatan

    superpopulasi yaitu nilai dari karakteristik dalam populasi dengan N elementer

    dinotasikan sebagai y={y1,y2,...,yN} dianggap sebagai realisasi dari variabel

    acak{Y1,Y2,...,YN}yang melalui suatu proses stokastik. Proses stokastik biasanya

    dinyatakan dalam suatu model yang melibatkan variabel-variabel acak dengan

    fungsi distribusi peluang tertentu (Pawitan, 2001). Jika seluruh komponen

    dari vektor y diketahui maka N(y) adalah sebuah perkiraan dari parameter

    superpopulasi . Jika survei populasi yaitu vektory tidak diketahui seluruhnya,

    maka N(y) adalah sebuah parameter untuk survei populasi (Godambe &

    Thompson,1986).

    3.1 PendeteksianOutlier

    Neter et al. (1989) menyatakan identifikasi outlier dengan boxplots, steam

    and leaf plots, scatter plots, danresidual plots untuk regresi dengan lebih dari dua

    variabel tidaklah memadai. Beberapa univariate outlierbelum tentu merupakan

    nilai ekstrim pada model regresi berganda dan beberapa multipel outliers belum

    tentu dapat terdeteksi pada analisis satu atau dua variabel.

    16

  • 5/26/2018 Im Put as i Missing Value

    28/57

    17

    3.1.1 PendeteksianOutlierpada DimensiX

    NilaiLaverage(hii)menampilkan nilai pengaruh terpusat, diperoleh dari nilai

    diagonal utama hatmatriks(H) yang berukuran n x n. Hat matriks juga dikenal

    sebagai matriks prediksi karena memetakan nilai Y menjadi nilai taksiran (Y).

    Formulasi hatmatriks:

    H=X

    XX1

    X. (3.1)

    NilaiLaverage> 2p/ndiindikasikan sebagai outlier, dengan p adalah banyaknya

    parameter dann adalah banyaknya unit observasi.

    3.1.2 PendeteksianOutlierpada Dimensi Y

    Studentized deleted residual merupakan nilai residual yang distandarkan

    dengan menghilangkan pengamatan ke-i dari perhitungan. Studentized deleted

    residualdiperoleh dengan menggunakan rumus sebagai berikut:

    ti= ei

    np1

    SSE(1hii) e2i

    1/2, i=1,2,...,n, (3.2)

    dengan ei adalah residual, SSE adalah jumlah kuadrat residu dan hii adalah nilai

    laverage. Bandingkan nilai| ti| dengan nilai t(1;np1), jika| ti|>t(1;np1)

    maka unit observasi ke-iadalahoutlier.

    3.1.3 Outlieryang Berkaitan denganInfluential Cases

    Untuk mendeteksioutlieryang berkaitan dengan influential casesdigunakan

    ukuranCooks distance(Di). UkuranCooks distance(Di)diformulasikan dengan:

    Di=X

    XX1

    X

    (p + 1)(1hii)

    e2i

    s2(1hii)

    , (3.3)

  • 5/26/2018 Im Put as i Missing Value

    29/57

    18

    dengan ei adalah residual, s2 adalah rata-rata kuadrat residu, (p + 1)

    adalah banyaknya parameter, dan hii adalah nilai laverage. Suatu data

    dianggap berpengaruh jika nilai Di > 1, atau bisa menggunakan kriteria Di >

    F((;(p+1),n(p+1))).

    3.2 Metode Imputasi PMM

    Pada dasarnya metode ini sama dengan metode regresi, yang membedakan

    adalah setiap nilai yang hilang diimputasikan dari nilai observasi yang terdekat

    dari model (Rubin,1987). Model yang digunakan pada tahapan ini adalah model

    regresi linier normal denganY N

    X,2

    . Vektor =

    0 1 2 . . . q

    adalah vektor komponen q + 1 dengan q adalah banyaknya variabel prediktor dan

    diasumsikan juga bahwanl> q + 1 dengannl jumlah responden yang memberikan

    data lengkap.

    Bilangan skalar 2

    didapatkan dengan membagi 2

    l(nl q1) denganbilangan acak g yang dibangkitkan dari distribusi Chi Square dengan derajat

    bebas nl q 1. Selain itu, given 2 adalah berdistribusi normal dengan rata-

    rata sebesar l dan matriks varians kovarians 2V (Box & Tiao, 1973). Dalam

    terminologi statistik kuadrat terkecil berdasarkan pada nl dapat dituliskan sebagai

    berikut:

    2l =YYlX

    Y

    nl q1 (3.4)

    l= V

    XY

    (3.5)

    V=

    XX

    1(3.6)

    Tahap-tahap berikut dilakukan untuk menghasilkan nilai yang akan diimputasikan

  • 5/26/2018 Im Put as i Missing Value

    30/57

    19

    pada setiap imputasi:

    1. Hitung nilai2dengan menggunakan persamaan:

    2=2l(nl q1)/g, (3.7)

    dengan

    2l adalah varian dari data lengkap

    nl jumlah responden yang memberikan data lengkap

    g adalah variabel random yang dibangkitkan dari distribusi Chi Square

    dengan derajat bebasnl q1 (2nlq1

    )

    2. Tentukan q + 1 buah variabel independen berdistribusi Normal (0,1) untuk

    membuatq + 1 komponen vektorZ, kemudian hitung nilai menggunakan

    persamaan:

    = l+ [V]1/2Z, (3.8)

    dengan [V]1/2 adalah akar ciri dari V yang merupakan matriks segitiga atas

    yang diperoleh dengan menggunakan dekomposisiCholesky.

    3. Ymis(data yang hilang) diprediksi menggunakan persamaan:

    Yi= Xi, (3.9)

    dengan i adalah anggota item nonresponden (unit observasi yang terdapat

    missing data). Untuk setiapYi dengani adalah anggota item nonresponden,

    ambil responden yang mempunyai nilai Yidenganiadalah anggota responden

    yang nilainya paling dekat dengan nilai Yi, kemudian nilai tersebut

    diimputasikan pada data yang hilang.

  • 5/26/2018 Im Put as i Missing Value

    31/57

    20

    3.3 Metode Imputasi Regresi LTS

    Asumsi Gaus-Markov harus dipenuhi sehingga dengan metode OLS akan

    diperoleh estimator yang bersifat unbias dan variansnya minimum yang biasa

    disebut dengan Best Linier Unbiased Estimator (BLUE). Asumsinya adalah rata-

    rata residual model adalah nol untuk semua pengamatan, tidak terdapat korelasi

    antar kekeliruan, setiap residual mempunyai varians yang sama, residual dan

    variabel bebas saling independen. Analisis regresi multipel dengan menggunakan

    OLS rentan terhadap outlier karena kehadirannya dapat menyebabkan varians

    residual tidak lagi homogen atau menjadi besar. Akibatnya selang kepercayaan

    melebar, taksiran parameter tidak lagi konsisten dan pengujian statistik terhadap

    taksiran parameter regresi dan pembuatan selang kepercayaan yang didasarkan

    kepada distribusi normal tidak dapat dilakukan. Estimator LTS diusulkan oleh

    Rousseeuw (1984) sebagai alternatifrobustuntuk mengatasi kelemahan estimator

    OLS. LTS merupakan suatu metode pendugaan parameter regresi robust untuk

    meminimumkan jumlah kuadrath residual (fungsi objektif):

    =argmin

    h

    i=1

    e2(i:n), (3.10)

    dengan

    h=n +p + 1

    2

    nadalah banyaknya pengamatan

    padalah banyaknya parameter regresi

    Jumlahh menunjukkan sejumlah subset data dengan kuadrat fungsi objektif

    terkecil. Nilai h akan membangunbreakdown value yang besar sebanding dengan

    50 persen. Breakdown value yaitu jumlah pengamatan minimal yang dapat

    menggantikan sejumlah pengamatan mula-mula yang berakibat pada nilai taksiran

  • 5/26/2018 Im Put as i Missing Value

    32/57

    21

    yang dihasilkan sangat berbeda dari taksiran sebenarnya. Algoritma FAST-LTS

    menurutRousseeuw and Driessen(2006) adalah gabungan LTS dan C-steps.

    3.3.1 Ide Dasar dan C-steps

    Sebuah kumpulan data(x1,y1) ,...,(xn,yn) terdiri dari pvariabel prediktor xi

    dan satu variabel responsyi.H1 {1,...,n} dengan |H1 |= hdanQ1:=iH1

    (e1(i))2

    dengan e1 (i) = yi

    11xi1+

    12xi2+ ...+

    1pxip

    untuk semua i = 1,...,n. 1 =

    11,21,...,p1

    adalah vektor px1. Selanjutnya H2 sedemikian rupa sehingga

    {| e1(i) |;i H2}:={| e1 |1:n,..., | e1 |h:n} dengan |e1 |1:n|e1|2:n... | e1 |n:n

    adalah order dari nilai absolut residual, kemudian hitung 2 dengan LS dari h

    observasi dalamH2. Dihasilkan e2(i) untuk semua i = 1,...,n dan Q2=iH2

    (e2(i))2

    .

    Tahapan algoritma C-stepsadalah sebagai berikut:

    1. Terdapat h-subsetsHold, lalu hitungolddengan LS berdasarkanHold

    2. Hitung residualeold(i)untuk semuai=1,...,n

    3. Urutkan nilai absolut residual dari terkecil sampai terbesar yang

    menghasilkan permutasi untuk | eold((1)) || eold((2)) | . . . |

    eold((n)) |

    4. AmbilHnew:= {(1) ,(2) , . . . ,(h)}

    5. Hitungnewdengan LS berdasarkanHnew.

    6. Lakukan sampaiQm= Qm1 dengan urutan Q1 Q2 Q3 . . .nilai yang

    nonnegatif dan konvergen.

    3.3.2 AlgoritmaFAST-LTS

    Tahapan algoritmaFAST-LTS adalah sebagai berikut:

  • 5/26/2018 Im Put as i Missing Value

    33/57

    22

    1. Nilai h = [(n +p + 1)/2] yang sudah default, tetapi boleh memilih

    suatu bilangan integer h dengan (n +p + 1)/2 h n. Jika yakin

    terdapat contaminant kurang dari dua puluh lima persen pada data,

    untuk mendapatkan breakdown value dan efisiensi sekaligus maka dapat

    menggunakan h= [0,75n].

    2. Jika p=2 dann kecil (sebut saja n=600) maka:

    a. Ulangi sampai beberapa kali (sebut saja 500 kali). Bangun sebuah inisial

    h-subset H1, kemudian lakukan dua langkah C-steps.

    b. 10 hasil denganQ3terendah lakukan C-stepssampai konvergen

    3.3.3 Tahapan Imputasi Regresi

    Tahapan imputasi regresi:

    1. Hitung nilai2dengan menggunakan persamaan:

    2=2l(nl q1)/g, (3.11)

    dengan

    2l adalah varian dari data lengkap

    nl banyak responden yang memberikan data lengkap

    g adalah variabel random yang dibangkitkan dari distribusi Chi Square

    dengan derajat bebasnl q1 (2nlq1

    )

    2. Tentukan q+1 buah variabel independen berdistribusi Normal (0,1) untuk

    membuat q+1 komponen vektorZ, kemudian hitung nilai menggunakan

    persamaan:

    = l+ [V]1/2Z, (3.12)

  • 5/26/2018 Im Put as i Missing Value

    34/57

    23

    dengan [V]1/2 adalah akar ciri dari V yang merupakan matriks segitiga atas

    yang diperoleh dengan menggunakan dekomposisi Cholesky.

    3. Ymis

    (data yang hilang) diprediksi dengan:

    Yi= Xi +zi, (3.13)

    dengani adalah anggota nonresponden (unit observasi yang terdapat missing

    data) danzi adalah nilai berdistribusi normal (0,1) hasil simulasi.

    Nilai yang akan diimputasikan pada Ymis dilakukan dengan mengambil nilai

    yang baru bagi parameter2. Apabila ingin dilakukan imputasi sebanyakm

    kali, maka ketiga langkah diatas diulang sebanyakm kali secara independen

    (Rubin 1987: 166-167).

    3.4 Efisiensi dari Imputasi Berganda

    Qi adalah estimasi titik dan Wi estimasi varians dari data set hasil imputasi

    ke-i dimanai=1,2,3,...,m. Rata-rata Qi darim buah imputasi adalah:

    Q= 1

    m

    m

    i=1

    Qi, (3.14)

    dengan m adalah banyaknya pengulangan imputasi. Rata-rata Wi adalah rata-rata

    varians dalam imputasi kei, yaitu:

    W= 1

    m

    m

    i=1

    Wi. (3.15)

    Badalah varians antar imputasi, formulasi nya adalah sebagai berikut:

    B=

    1

    m1

    m

    i=1

    Qi Q2

    (3.16)

  • 5/26/2018 Im Put as i Missing Value

    35/57

    24

    Tadalah total dari varians, formulasi nya adalah sebagai berikut:

    T= W+

    1 +

    1

    m

    B (3.17)

    Statistik dari

    QQ

    T1/2 mengikuti distribusitdengan derajat bebasvm(Rubin,

    1987), dengan formulasivmadalah sebagai berikut:

    vm= (m1) +1 + W

    (1 + m1)B2

    (3.18)

    Besarnya derajat bebas vm tergantung padamdan rasio r. Statistikrdidefinisikan

    sebagai pertambahan relatif dari varians akibat nonrespons (Rubin, 1987).

    Formulasi vmadalah sebagai berikut:

    r=

    1 + m1

    B

    W(3.19)

    Nilai r= 0 karena jika tidak ada informasi Q maka B adalah nol. Nilai m yang

    besar mengakibatkan nilairyang kecil dan derajat bebas darivmakan menjadi besar

    sehingga distribusinya akan mendekati normal. Statistik lain yang sangat berguna

    berkaitan dengan nonrespons adalahfractiondari informasiQ. Fractionmerupakan

    sebuah nilai yang berpengaruh terhadap kecepatan konvergensi terhadap suatu nilai.

    Semakin besar fraction pada informasi Q maka konvergensinya semakin lambat.

    Fractiondapat dicari dengan menggunakan persamaan:

    =r+ (2/(vm+ 3))

    r+ 1 (3.20)

    Efisiensi relatif (ER) adalah efisiensi yang diperoleh dengan menggunakanm buah

    imputasi terbatas (finite) dibandingkan dengan jumlah tidak terbatas (infinite). Pada

    kasus dengan hanya sedikit informasi yang hilang, hanya diperlukan sejumlah kecil

  • 5/26/2018 Im Put as i Missing Value

    36/57

    25

    pengulangan imputasi. Menurut Yuan (2001), nilai efisiensi relatif biasanya berkisar

    antara 80 sampai 100 persen. Efisiensi Relatif diperoleh dari fungsi m dan ,

    formulasinya adalah:

    ER=

    1 +

    m

    1x 100% (3.21)

    Nilai ER yang tinggi menunjukkan bahwa metode imputasi yang digunakan

    memiliki efisiensi yang besar yang artinya dengan tidak terlalu banyak melakukan

    pengulangan, nilai imputasi yang dihasilkan sudah mendekati hasil imputasi yang

    dilakukan dengan jumlah tidak terbatas (infinite).

    3.5 Tahapan Penelitian

    Tahapan-tahapan penelitian adalah sebagai berikut:

    1. Mengelompokkan perusahaan industri menjadi dua kelompok, unit

    nonresponse dan unit response (nonresponden dan responden). Dari

    kelompok responden dikelompokkan menjadi dua kelompok yaitu kelompok

    yang menjawab semua pertanyaan dan kelompok yang terdapat item

    nonresponse.

    2. Melakukan analisa pola missing data kelompok yang terdapat item

    nonresponse. Melakukan analisa deskriptif pada variabel yang digunakan

    dalam penelitian.

    3. Penanganan missing data

    a. Memodelkan variabel pada kelompok responden yang menjawab semua

    pertanyaan sebagai berikut X5 =0+ 1X1+ 2X2+ 3X3+ 4X4+

    menggunakan regresi LS, denganX1adalah nilai pendapatan,X2adalah

    banyaknya upah gaji yang dibayarkan,X3 adalah bahan bakar, pelumas

  • 5/26/2018 Im Put as i Missing Value

    37/57

    26

    dan tenaga listrik yang digunakan; X4 adalah banyaknya pengeluaran

    lain danX5adalah banyaknya bahan baku yang digunakan.

    b. Melakukan pendeteksianoutlier.

    c. Melakukan imputasi dengan metode imputasi PMM

    d. Memodelkan variabel menggunakan regresi LTS

    e. Melakukan imputasi dengan metode imputasi regresi

    4. Membandingkan hasil imputasi yang didapat dari kedua metode imputasi

    dengan Efisiensi Relatif

    3.6 Variabel Penelitian

    Variabel yang digunakan adalah sebagai berikut:

    1. Pendapatan (X1) yaitu nilai (dalam ribuan rupiah) dari semua barang yang

    dihasilkan baik yang diekspor maupun tidak diekspor, termasuk di dalamnya

    jasa industri, selisih nilai stok barang produksi setengah jadi, listrik yang

    dijual dan pendapatan lainnya yang berasal dari keuntungan penjualan barang

    yang tidak diproses, jasa-jasa non industri lainnya, penjualan limbah/sampah

    produksi.

    2. Upah gaji pekerja/karyawan (X2) yaitu nilai (dalam ribuan rupiah) upah

    gaji pekerja/karyawan yang dibayarkan selama tahun 2008. Termasuk di

    dalamnya insentif lain yang dibayarkan baik untuk pekerja produksi dan

    pekerja lainnya.

    3. Bahan bakar, pelumas dan tenaga listrik yang digunakan (X3) yaitu nilai

    (dalam ribuan rupiah) dari seluruh bahan bakar dan pelumas yang betul-betul

    dipakai selama tahun 2008 seperti bensin, solar, minyak tanah, batu bara dan

  • 5/26/2018 Im Put as i Missing Value

    38/57

    27

    bahan bakar lainnya + banyaknya tenaga listrik yang dibeli dari PLN dan atau

    nonPLN.

    4. Pengeluaran lain selama tahun 2008 (X4) nilai (dalam ribuan rupiah)

    untuk pengeluaran sewa gedung, mesin, serta alat-alat dan tanah, pajak

    tidak termasuk pajak upah dan pajak perseorangan, biaya jasa industri

    yang digunakan, bunga atas pinjaman, hadiah, sumbangan, derma dan

    sejenisnya, pengeluaran lainnya termasuk biaya representasi, royalti, man-

    agement fee, promosi/iklan, air, pos, telepon, fax, perjalanan dinas, pencega-

    han pencemaran lingkungan, biaya penelitian, biaya peningkatan SDM.

    5. Banyaknya bahan baku dan penolong(X5) yaitu nilai (dalam ribuan rupiah)

    dari seluruh bahan baku serta bahan penolong yang digunakan dalam proses

    produksi selama tahun 2008.

  • 5/26/2018 Im Put as i Missing Value

    39/57

    28

    Gambar 3.1. Tahapan Penelitian

  • 5/26/2018 Im Put as i Missing Value

    40/57

    BAB IV

    HASIL DAN PEMBAHASAN

    Tahapan analisis dimulai dengan eksplorasi data kemudian dilakukan

    imputasi dengan metode PMM dan metode regresi LTS. Hasil dari kedua metode

    tersebut dibandingkan dengan statistik Efficiency Relative (ER). Suatu metode

    dikatakan efisien jika ER nya bernilai sama dengan satu.

    4.1 Eksplorasi Data

    Hasil Survei Industri Besar Sedang di Provinsi Kepulauan Riau tahun

    2008 tidak mencapai seratus persen. Tingkat pemasukan dokumen nya hanya

    mencapai 83 persen dari total 534 perusahaan. Dari 83 persen terdapat missing

    data. Pengelompokkan perusahaan-perusahaan berdasarkan KBLI mempermudah

    tahapan eksplorasi data. Pada KBLI 32100 terdapat missing value dan outlier.

    Responden (unit observasi yang respons) dikumpulkan ke dalam dua kelompok

    yaitu kelompok n0 yang menjawab semua pertanyaan dan kelompok n1 yang

    terdapat item nonresponse. Dari 53 responden yang termasuk ke dalam KBLI

    32100 n0=47 responden dan n1=6 responden. Tabel 4.1 memperlihatkan bahwa

    polamissing datapada penelitian ini adalah pola univariat.

    Tabel 4.1. Tabel PolaMissing Data

    Responden Variabel

    X1 X2 X3 X4 X5

    1 0 0 0 0 0...

    ... ...

    ... ...

    ...

    n0=47 0 0 0 0 0

    1 0 0 0 0 1...

    ... ...

    ... ...

    ...

    n1=6 0 0 0 0 1

    29

  • 5/26/2018 Im Put as i Missing Value

    41/57

    30

    Gambar 4.1. Boxplot VariabelX1

    Gambar 4.2. Boxplot VariabelX2

  • 5/26/2018 Im Put as i Missing Value

    42/57

    31

    Gambar 4.3. Boxplot VariabelX3

    Gambar 4.4. Boxplot VariabelX4

  • 5/26/2018 Im Put as i Missing Value

    43/57

    32

    Gambar 4.5. Boxplot VariabelX5

    Dari gambar 4.1 - 4.5 terlihat bahwa semua variabel terdeteksi terdapat

    outlier. Pada variabel X1 terdeteksi observasi ke-13, 15, 18, 23 dan 47 sebagai

    outlier. Pada variabelX2 terdeteksi observasi ke-4, 15, 17 dan 49 sebagai outlier.

    Pada variabel X3 terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.

    Pada variabel X4 terdeteksi observasi ke-1, 9, 18, 23 dan 49 sebagai outlier. Pada

    variabelX5terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.

    4.2 PendeteksianOutlier

    Terkait dengan permasalahan bahwa data yang akan diimputasi mengandung

    outlier maka perlu dilakukan pendeteksian outlier untuk melihat secara jelas

    observasi mana saja yang dianggap sebagai outlier. Pada dasarnya imputasi PMM

    diawali dengan membuat persamaan regresi dengan metode OLS antara variabel

    yang mengandung missing value sebagai variabel respons dengan variabel yang

    memiliki data lengkap sebagai variabel prediktornya. Oleh karena itu tahapan

    eksplorasi berikutnya adalah melakukan pendeteksian outlier dilakukan dengan

  • 5/26/2018 Im Put as i Missing Value

    44/57

    33

    cara melihat nilai laverage, deleted studentized residual dan Cooks Distancedari

    masing-masing observasi. Nilailaverage, deleted studentized residual dan Cooks

    Distancemasing-masing observasi lihat pada lampiran.

    4.2.1 PendeteksianOutlierpada DimensiX

    Pengecekanoutlierpada dimensiXdilakukan dengan melihatlaverageuntuk

    setiap observasi. Sebuah observasi dikatakan outlier jika nilai laveragenya >

    2p/n. Pembentukan persamaan regresi antara variabel materi dengan variabelpendapatan, gaji, bahan bakar pelumas dan pengeluaran lainnya menghasilkan

    parameter sebanyak 5 (p=5) dengan observasi sebanyak 47 buah. Oleh karena itu,

    didapatkan 2p/n= (2x5)/47=0,21276. Observasi ke 6, 13, 15, 17, 23, 40 dan 47

    mempunyailaveragelebih besar dari pada 0,21276.

    4.2.2 PendeteksianOutlierpada Dimensi Y

    Pengecekan outlierpada dimensi Y dilakukan dengan membandingkan nilai

    absolut dari studentized deleted residual terhadap nilai t(1;np1). Dari tabel

    distribusi t didapatkan nilai t(0.95;4751) =1,683. Observasi ke 10, 13, 17 dan

    23 mempunyai nilai |ti| yang lebih besar dari pada 1,683.

    4.2.3 PendeteksianOutlieryang Berkaitan denganInfluential Cases

    Pengecekan outlierberkaitan dengan data berpengaruh menggunakan ukuran

    Cooks Distance. Suatu data dianggap berpengaruh jika nilaiDi>1. Observasi ke

    13, 15, 17 dan 23 adalah data yang berpengaruh.

    4.3 Imputasi dengan Menggunakan Metode PMM

    PROC MI pada paket program SAS 9.2 digunakan untuk melakukan imputasi

    data hilang sebanyak 5 kali. Ulangan imputasi umumnya cukup dilakukan tiga

  • 5/26/2018 Im Put as i Missing Value

    45/57

    34

    sampai lima kali (Rubin, 1996). Output dan sintaks pada lampiran. Algoritma

    imputasi PMM yaitu sebagai berikut:

    1. Langkah pertama yang dilakukan adalah meregresikan data lengkap

    (sebanyak 47 buah observasi) dengan metode OLS sehingga menghasilkan

    persamaan regresi sebagai berikut:

    yi= 5663635 + 0.622x11.62x2+ 2.49x30.893x4 (4.1)

    2. Langkah kedua yaitu mencari nilai2dengan menggunakan persamaan:

    2=2l(4741)/g, (4.2)

    dengan

    2

    l

    =SSE/d f=1.07490E16

    g adalah variabel random yang dibangkitkan dari distribusi Chi Square

    dengan derajat bebas 47-4-1 (24741)

    3. Langkah ketiga yaitu mencari =

    5663635

    0.622

    1.62

    2.49

    0.893

    +

    V

    1/2Z dengan

    V=

    XX

    1Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi

    normal baku N(0,1) dan

    V 1/2

    adalah adalah matriks segitiga atas yang diperoleh dari dekomposisi

    Cholesky.

  • 5/26/2018 Im Put as i Missing Value

    46/57

    35

    4. Ymis

    (data yang hilang) diprediksi menggunakan persamaan:

    yi=0+1x1+2x2+3x3+4x4, (4.3)

    Model pada setiap imputasi dihasilkan sebagai berikut:

    Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM

    Parameter Imputasi ke-

    1 2 3 4 5

    Intercept 0.031278 -0.13543 0.143468 -0.09983 -0.09802

    PENDAPATAN(X1) 1.061884 1.108503 1.167132 1.163257 1.198147

    GAJI(X2) 0.167279 -0.14848 -0.23702 -0.27967 -0.34579

    BHNBKRPLMS(X3) 0.028362 0.004218 0.082983 0.135629 0.272966

    PENGSEWA(X4) -0.91679 -0.59553 -0.69056 -0.8019 -0.75984

    Pada imputasi ke-1 untuk variabel Gaji dihasilkan nilai parameter yg positif

    tetapi tidak pada ulangan imputasi ke-2 ,3, 4, dan 5. Parameter hasil imputasi

    ke-1 tidak konsisten dengan parameter hasil imputasi ke-2 sampai ke-5.

    5. Hitung prediksi untuk setiap nilai yang hilang menggunakan persamaan4.3

    dengan nilai-nilai dari parameternya tertera pada tabel4.2.

    6. Ambil responden yang memiliki data lengkap dengan nilaiyi yang tedekat

    dengan yi

    7. Lakukan imputasimissing valuedengan menggunakan nilai dari tahap ke 6.

    Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang

    dihasilkan dari tabel 4.4. Sekilas bila dilihat secara kasat mata, maka nilai

    hasil imputasi PMM masih masuk akal karena tidak terdapat nilai minus, dalam

    penelitian ini variabel pengeluaran bahan baku dan penolong tidak boleh bernilai

    minus. Akan tetapi ada beberapa nilai pada imputasi ke-idan ke-i + 1 yang sangat

    berbeda jauh. Hal tersebut menunjukkan bahwa metode imputasi PMM tidak cocok

    digunakan pada data.

  • 5/26/2018 Im Put as i Missing Value

    47/57

    36

    Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM

    Observasi Imputasi ke-1 2 3 4 5

    1 15,855,718 0 0 326,000 326,000

    2 240,000,000 240,000,000 131,869,926 5,706,271 36,314,705

    3 136,297,463 13,625,576 36,314,705 13,057,100 28,662,200

    4 124,409,480 36,314,705 7,553,811 13,057,100 7,553,811

    5 0 5,053,463 1,532,377 326,000 0

    6 28,662,200 15,855,718 24,646,582 5,598,720 47,215,925

    4.4 Imputasi dengan Menggunakan Metode Regresi LTS

    Paket program SAS 9.2 menyediakan paket LTS dengan perintah call LTS.

    Koefisien dari hasil regresi LTS selanjutnya digunakan untuk imputasi dengan

    metode regresi. Langkah-langkah nya adalah sebagai berikut:

    1. Langkah pertama yang dilakukan menentukan subseth= (47 + 4 + 1)/2=

    26 setelah dilakukan iterasi dengan PROC IML didapatkan 26 subset terbaik

    yaitu observasi ke-3, 5, 11, 15, 16, 20, 21, 23, 24, 25, 27, 28, 29, 30, 31,

    33, 35, 36, 37, 38, 39, 40, 41, 43, 44 dan 45. Menggunakan metode OLS

    didapatkan persamaan regresi sebagai berikut:

    yi= 284561.6438 + 0.99217x11.24224x20.67622x3 1.08837x4

    (4.4)

    2. Langkah kedua yaitu mencari nilai2dengan menggunakan persamaan:

    2=2l(4741)/g, (4.5)

    dengan

    2l =SSE/d f=3.08717E+ 13

    g adalah variabel acak yang dibangkitkan dari distribusi Chi Square dengan

  • 5/26/2018 Im Put as i Missing Value

    48/57

    37

    derajat bebas 47-4-1 (24741)

    3. Langkah ketiga yaitu mencari =

    284561.6438

    0.9921733911

    1.242240211

    0.676226402

    1.088368064

    +

    V

    1/2Z

    denganV= XX

    1

    Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi

    normal baku N(0,1) dan

    V

    1/2adalah adalah matriks segitiga atas yang

    diperoleh dari dekomposisi Cholesky.

    4. Ymis

    (data yang hilang) diprediksi menggunakan persamaan:

    yi=0+1x1+2x2+3x3+4x4+zi, (4.6)

    dengan zi adalah nilai yang dibangkitkan dari distribusi normal baku N(0,1)

    Model pada setiap imputasi dihasilkan sebagai berikut:

    Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS

    Parameter Imputasi ke-

    1 2 3 4 5

    Intercept -751,642.50 -669,582.90 578,671.68 -547,058.00 -778,612.00

    PENDAPATAN(X1) 0.9921734 0.9921734 0.9921734 0.9921734 0.9921734GAJI(X2) -1.24224 -1.24224 -1.24224 -1.24224 -1.24224

    BHNBKRPLMS(X3) -0.676226 -0.676226 -0.676226 -0.676226 -0.676226

    PENGSEWA(X4) -1.088368 -1.088368 -1.088368 -1.088368 -1.088368

    5. Lakukan imputasimissing valuedengan menggunakan persamaan4.6dengan

    nilai-nilai dari parameternya tertera pada tabel4.4..

    Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang

    dihasilkan dari tabel 4.2.

  • 5/26/2018 Im Put as i Missing Value

    49/57

    38

    Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS

    Observasi Imputasi ke-1 2 3 4 5

    1 7,140,577 3,258,824 9,135,643 4,832,130 7,506,269

    2 226,459,817 231,826,775 238,445,408 238,645,486 221,926,623

    3 21,700,364 18,381,884 31,784,957 22,217,785 25,321,659

    4 75,954,984 71,064,833 63,981,323 70,044,146 70,541,831

    5 18,376,697 11,111,621 12,725,039 20,056,442 17,323,727

    6 35,455,594 31,510,268 33,595,911 44,415,840 35,616,538

    Nilai hasil imputasi regresi LTS saling berdekatan pada setiap ulangan

    imputasi.

    4.5 Perbandingan Efisiensi Relatif Metode Imputasi PMM dan Regresi LTS

    Efisiensi Relatif dari metode imputasi PMM dan regresi LTS diperoleh

    melalui langkah-langkah berikut ini:

    1. Hitung estimasi titik untukQ menggunakan persamaan3.14

    2. Hitung varian within imputation (W) dan between imputation (B) seperti pada

    persamaan3.15dan3.16

    3. Hitung derajat bebas (vm) menggunakan persamaan3.18

    4. Hitung besarnya nilai(r)menggunakan persamaan3.19

    5. Hitung yaitufractiondari informasi hilangQmenggunakan persamaan3.20

    6. Hitung besar ER menggunakan persamaan3.21

    Hasil penghitungan secara simultan diperoleh ER untuk metode PMM sebesar

    99.5109 persen dan ER untuk metode regresi LTS sebesar 99.9999 persen. Artinya

    metode imputasi regresi LTS lebih efisien dibandingkan metode imputasi PMM,

  • 5/26/2018 Im Put as i Missing Value

    50/57

    39

    karena tidak perlu melakukan banyak pengulangan untuk menghasilkan nilai

    imputasi. Hasil dari penghitungan ER ditampilkan pada lampiran.

    Hasil penghitungan ER untuk setiap parameter dapat dilihat pada tabel 4.6

    dan tabel 4.7. Setiap parameter yang dihasilkan pada metode imputasi regresi LTS

    mempunyai ER yang lebih tinggi dibandingkan dengan paramater yang dihasilkan

    dari metode imputasi PMM. Hal ini sejalan dengan kesimpulan yang didapatkan

    dari perbandingan ER secara simultan antara kedua metode.

    Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM

    Parameter Relative Fraction Relative

    Increase Missing Efficiency

    in Variance Information

    Intercept 0.011771 0.011701 0.997665

    PENDAPATAN(X1) 0.044906 0.043859 0.991304

    GAJI(X2) 0.565362 0.399123 0.926076

    BHNBKRPLMS(X3) 0.384237 0.303892 0.942704

    PENGSEWA(X4) 0.038608 0.037837 0.992489

    Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS

    Parameter Relative Fraction Relative

    Increase Missing Efficiency

    in Variance Information

    Intercept 0.000207 0.000207 0.999959

    PENDAPATAN(X1) 0.00017 0.00017 0.999966

    GAJI(X2) 0.002439 0.002436 0.999513

    BHNBKRPLMS(X3) 0.002021 0.002019 0.999596

    PENGSEWA(X4) 0.0002 0.000199 0.99996

    Laju kekonvergenan ER menuju nilai 100 persen dari kedua metode dapat dil-

    ihat pada gambar 4.2. Metode imputasi regresi LTS lebih cepat konvergen daripada

    metode imputasi PMM. Oleh karena itu secara jelas metode imputasi regresi LTS

    mempunyai kinerja yang lebih baik untuk imputasi ketika data terdapat outlier.

    Tidak ada aturan khusus dalam pemilihan hasil imputasi mana yang akan dipakai

    dari berbagai macam pilihan nilai yang dihasilkan dari hasil pengulangan imputasi.

  • 5/26/2018 Im Put as i Missing Value

    51/57

    40

    Merujuk kepada laju kekonvergenan ER suatu metode menuju 100 persen maka

    dapat digunakan nilai rata-rata hasil pengulangan imputasi, nilai median atau nilai

    modusnya sebagai nilai akhir hasil imputasi untuk menggantikan missing value.

    Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode Imputasi

    PMM dan Regresi LTS

    Imputasi ke- ER LTS ER PMM

    2 99.9998178041061 93.9282583002513

    3 99.9999785790541 98.7333000686382

    4 99.9999864200791 99.1747642887182

    5 99.9999950275297 99.5109469219189

    Gambar 4.6. Plot Laju ER PMM dan Regresi LTS

  • 5/26/2018 Im Put as i Missing Value

    52/57

    BAB V

    KESIMPULAN DAN SARAN

    5.1 Kesimpulan

    Berdasarkan penelitian yang telah dilakukan dapat diambil beberapa

    kesimpulan sebagai berikut:

    1. Pada beberapa kali ulangan, metode PMM menghasilkan nilai imputasi

    sama dengan nol. Hasil imputasi sama dengan nol pada kenyataannya

    mungkin terjadi untuk perusahaan makloon tetapi tidak pada perusahaan

    bukanmakloon. Nilai nol pada metode PMM terjadi karena proses estimasi

    menghasilkan nilai negatif maka kemudian akan dipilih nearest neighbour

    dari nilai estimasi. Dalam hal ini, nilai nol adalah nilai yang paling dekat

    dengan estimasi bernilai minus. Walaupun cukup baik dilihat dari statistik

    ERnya, tetapi melalui beberapa kali ulangan nilai imputasi yang dihasilkan

    tidak masuk akal.

    2. Penggunaan metode imputasi yang robust terhadap outlier mempunyai

    kinerja yang lebih baik dari pada metode imputasi PMM. Metode imputasi

    regresi LTS sangat cepat konvergen menuju nilai imputasi yang efisien.

    Metode imputasi regresi LTS menghasilkan nilai imputasi yang robust

    terhadapoutlier.

    5.2 Saran

    1. Penelitian ini hanya difokuskan kepada penanganan missing value dengan

    pola univariat, seyogyanya bila memungkinkan dapat dikembangkan untuk

    polamissing valueyang lain.

    41

  • 5/26/2018 Im Put as i Missing Value

    53/57

    42

    2. Sebelum melakukan imputasi missing value pada data yang mengandung

    outlier sebaiknya harus dipastikan bahwa outlier yang ada terjadi bukan

    karena kesalahan pengetikan atau penulisan (clerical errors) tetapi lebih

    karena fenomena yang memang benar-benar terjadi.

  • 5/26/2018 Im Put as i Missing Value

    54/57

    DAFTAR PUSTAKA

    Barnett, V., & Lewis, T. (1994). Outliers in statistical data. New York: John Wiley

    & Sons, Inc.

    Basuki, R. (2009). Imputasi berganda menggunakan metode regresi dan metode

    predictive mean matching untuk menangani missing data. Naskah tesis yang

    tidak dipublikasikan, Institut Teknologi Sepuluh Nopember, Surabaya.

    Box, G. E. P., & Tiao, G. C. (1973). Bayesian inference in statistical analysis.

    Reading Mass: Addison-Wesley.

    Carpenter, J., & Kenward, M. (2006). A comparison of multiple imputation and

    doubly robust estimation for analysis with missing data. Journal of Royal

    Statistics Society, 0964-1998/06/169000.

    Chaimongkol, W. (2005).Three composite imputation method for item nonresponse

    estimation in sample survey. Unpublished doctoral dissertation, National

    Institute of Development Administration, Thailand.

    Chambers, R., & Skinner, C. (2003). Analysis of survey data. New York: John

    Wiley & Sons, Inc.

    Elliott, M. (2006). Multiple imputation in the presence of outliers (Tech. Rep.

    No. 59). University of Michigan School of Public Health. Available from

    http://www.bepress.com/umichbiostat/paper59

    Godambe, V., & Thompson, M. (1986). Parameters of superpopulation and survey

    population: Their relationships and estimation. Internal Statistical Review,

    54, 127-138.

    Horton, N., & Kleinman, K. (2007). Much ado about nothing: A comparison of

    missing data method and software to fit incomplete data regression models.

    Journal of the American Statistical Association,61, 79-90.

    Horton, N., & Lipsitz, S. (2001). Multiple imputation in practice: Comparison of

    software package for regression model with missing variables. Journal of the

    American Statistical Association,55, 244-255.

    Hron, K., Templ, M., & Filzmoser, P. (2008, Desember). Imputation of missing

    value for compositional data using classical and robust methods (Research

    report sm-2008-4, Departement of Statistics and Probability Theory). Austria:

    Vienna University of Technology. Available from http://www.statistik

    .tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.

    Huber, P. (1981). Robust statistics. New York: John Wiley & Sons, Inc.

    43

    http://www.bepress.com/umichbiostat/paper59http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.statistik.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.http://www.bepress.com/umichbiostat/paper59
  • 5/26/2018 Im Put as i Missing Value

    55/57

    44

    Inc., S. I. (2008). Sas/stat 9.2 users guide. Cary, NC: SAS Institute Inc.

    Leeuw, E. de, Hox, J., & Huisman, M. (2003). Prevention and treatment of item

    nonresponse. Journal of Official Statistics,19, 153-176.

    Lessler, J., & Kalsbeek, W. (1992).Nonsampling error in surveys. New York: John

    Wiley & Sons, Inc.

    Little, R., & Rubin, D. (1987). Statistical analysis with missing data. Cambridge:

    John Wiley & Sons, Inc.

    Longford, N. (2005).Missing data and small-area estimation. New York: Springer.

    Maronna, R., Martin, R., & Yohai, V. (2006). Robust statistics: Theory and

    methods. New York: John Wiley & Sons, Inc.

    Neter, J., Wasserman, W., & Kutner, M. (1989). Applied linier regression. Boston:

    Irwin.

    Pawitan, G. (2001). Analysis of aggregated spatial social data. Naskah disertasi

    yang tidak dipublikasikan, University of Wollongong, Australia.

    Rousseeuw, P. J., & Driessen, K. V. (2006). Computing lts regression for large data

    sets. Data Mining and Knowledge Discovery,12, 29-45.

    Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection.

    Canada: John Wiley & Sons, Inc.

    Rubin, D. (1987). Multiple imputation for nonresponse in surveys. New York: JohnWiley & Sons, Inc.

    Sembiring, R. (1995). Analisis regresi. Bandung: Institut Teknologi Bandung.

    Statistik, B. P. (2006). Statistik industri besar sedang. Jakarta: BPS.

    Thibaudeau, Y., Gottschalck, A., & Palumbo, T. (2006). The predictive-mean

    method of imputation for preserving coupling between assets and liabilities

    (Research report series of Statistical Research Division). U.S. Census

    Bureau.

    Yuan, Y. C. (2001). Multiple imputation for missing data: Concept and newdevelopment sas/stat 8.2. Cary NC: SAS Institute Inc. Available from

    http://www.sas.com/statistics

    http://www.sas.com/statisticshttp://www.sas.com/statistics
  • 5/26/2018 Im Put as i Missing Value

    56/57

    LAMPIRAN

  • 5/26/2018 Im Put as i Missing Value

    57/57

    LAMPIRAN

    44