missing value

Download Missing Value

Post on 26-Nov-2015

49 views

Category:

Documents

4 download

Embed Size (px)

TRANSCRIPT

Statistika multivariat Missing value analysis

Statistika multivariat Missing value analysis

Selasa, 09 April 2013Pengantar Uji data pada prinsipnya bertujuan untuk memastikan bahwa berbagai metode multivariat bisa digunakan pada data tertentu.Pengabaian uji data berakibat BIASnya kesimpulan yang diambil atau bahkan metode multivariat tidak bisa diproses.Seperti jika data mempunya banyak missing valueJika data tersebut dipaksa untuk tetap diproses, output yang dihasilkan bisa sangat berbeda dibandingkan jika data tidak ada yang hilang.

Uji DataPengujian dengan menggunakan grafikPengujian adanya Missing DataPengujian adanya outlier (data yang sangat ekstrim)Pengujian beberapa asumsi metode-metode multivariat (Normalitas data, Uji Linearitas dan sebagainya)Contoh KasusMisalkan ada suatu data berisi 75 konsumen yang digolongkan berdasarkan banyaknya air minum yang dikonsumsi, usia, berat badan, tinggi badan, income konsumen, jam kerja dan lama olahraga. Berikut adalah datanya :DataApakah missing value yang terjadi bersifat acak (random) ataukah tidak?Bagaimana seharusnya perlakuan terhadap data yang mengandung missing value tersebut?Langkah-langkah di SPSSDefinisikan variabel dari data yang akan diuji pada Variable View. Baris pertama pada kolom Name ketik Nama, baris kedua ketik Minum, pada kolom Values dilakukan pembagian ata ke dalam dua grup, 1 sedikit, 2 banyak dst untuk variabel lain.Setelah pendefinisian variabel selesai klik Data View untuk mengisikan dataKlik Analyze Missing Value Analysis Masukkan variabel usia, berat, tinggi, income, jam kerja dan olahraga ke bagian Quantitative Variable (bertipe rasio)Lanjutan..Masukkan variabel Minum ke bagian Categorical Bariable. Masukkan variabel Nama ke bagian Case Labels (betipe string/huruf)Pada bagian Estimation, aktifkan kotak listwise, pairwise dan EM Pada icon Pattern, di bagian Display aktifkan Tabulated cases.. dan Cases with missing values..Pada icon Descriptives, di bagian Indicator Variable Statistics, aktifkan Percent mismatch dan Crosstabulation of..Ok

Analisa Output SPSS

Jika dilihat kolom N, terlihat angka yang bervariasi pada setiap variabel, tergantung data yang hilang pada setiap variabelKolom mean dan standar deviasi menunjukan statistika dasar yang dihitung dari data yang valid.Kolom missing di kolom count untuk jumlah data yang missing untuk masing-masing variabel.

Tabel ini merupakan perluasan dari perhitungan rata-rata, tetapi dengan metode yang berbeda, di mana ada tiga ukuran :Jika digunakan metode Listwise, artinya hanya kasus yang tidak memiliki missing saja yang diikutsertakan dalam perhitungan.Jika digunakan All Values, artinya semua kasus diikutsertakan untuk dihitung walaupun mengandung missing

Penyebaran data yang missing :Tabel sebelumnya menunjukan penyebaran data yang hilang hanya untuk konsumen yang memang dtanya tidak lengkap (mengandung missing)Pada baris 1, konsumen bernama Rusdi mempunya satu missing pada variabel berat. Oleh karena missing ada pada 1 dari 7 variabel, persentase missing adalah 1/7 x 100% = 14.3%. dst

Penyebaran missing value dinyatakan per variabel.Pada baris pertama, angka 45 menyatakan ada 45 data konsumen yang valid. Angka ke 5 pada baris kedua menunjukan adanya 5 data yang missing hanya pada variabel berat. dstAnalisis ListwiseTabel diatas adalah hasil perhitungan korelasi dengan metode listwise (yang tidak memiliki missing saja yang diikutsertakan). Dari 75 konsumen hanya 45 yang datanya lengkap. Angka korelasi antara Income dengan usia sebesar 0.798 (korelasi kuat) artinya Income berpengaruh kuat pada terjadinya missing value pada variabel usia. Hal ini tentunya tidak bagus, karena menandakan rendahnya keacakan missing value.

Analisis Pairwise

Metode ini akan memasangkan variabel yang mempunyai data lengkap dan tidak menghilangkan baris begitu saja . Dengan demikian jumlah data dapat berbeda-beda tergantung kelengkapan data dua variabel yang dipisahkan. Analisis metode EM

Kriteria Uji :Angka signifikan MCAR (sig) > 0.05, missing value randomAngka signifikan MCAR (sig) < 0.05, missing value tidak randomKarena angka probabilitas (signifikansi) =0.542 > 0.05, maka missing value dari data tersebut random.Kesimpulan : missing value bersifat acak dan tidak mengikuti pola tertentu maka dapat dilakukan berbagai perlakuan lanjutan.

Perlakuan Terhadap Missing ValueJika missing value terbukti random, maka berbagai perlakuan bisa dilakukan pada data-data yang missing. Penanganan terhadap missing value bisa bervariasi, seperti membuang baris (kasus) yang mengandung missing value, menghapus variabel dsb.Salah satu cara yang populer adalah bukan menghilangkan baris atau kolom yang mengandung data missing, namun justru mengisi sel (data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan sebenarnya jika data terisi.Contoh KasusMasih menggunakan data yang sebelumnya.Langkah-langkah :Buka file Missing ValueKlik Transform kemudian pilih submenu Replace Missing Value.Masukkan variabel usia, berat, tinggi, income, jam kerja dan olahraga ke bagian Nem Variabel(s)Pada bagian Name and Method, perhatikan bagian Name yang otomatis menampilkan nama variabel baru, seperti usia_1 untuk menampilka variabel baruPada bagian Method pilih Series Mean, atau pada kotak Combo pilih Mean of Nearby Point (pilihan)

Hasil Output

Terlihat ada 10 data untuk variabel usia yang diganti, 6 data untuk variabel berat dst.Model pergantian berdasarkan rata-rata, seperti untuk variabel usia, karena rata-ratanya adalah 30.06, maka setiap data yang kosong pada variabel usia akan diganti dengan angka 30.06. dst

Recommended

View more >