deteklsi outlier dg metodee theil penduga m
TRANSCRIPT
BAB I
PENDAHULUAN
Suatu nilai pengamatan yang terpisah jauh dari data yang lainnya disebut
dengan pencilan. Pencilan bisa memberikan pengaruh terhadap hasil analisa dan bisa
juga tidak (Bowerman dan O’Connell, 1991).
Keberadaan pencilan sering menunjukkan kesalahan pengukuran atau bahwa
populasi pengamatan memang memiliki sebaran yang condong. Oleh karena itu,
tidak sembarang pencilan dapat langsung dibuang begitu saja, tetapi harus diketahui
dulu penyebabnya, misalnya apakah terjadi situasi yang tidak biasa, terjadi kesalahan
pengukuran atau pengamatan, atau hal lainnya.
Dalam beberapa tulisan karya ilmiah baik berupa makalah, jurnal, skripsi,
tesis, dan sebagainya yang menggunakan analisa statistika inferensia dijumpai bahwa
analisa dilakukan tanpa memeriksa apakah galatnya mengandung pencilan atau tidak.
Tanpa pemeriksaan terhadap pencilan dikhawatirkan hasil analisa yang diperoleh
kurang sahih.
Makalah ini membahas hal-hal yang perlu diketahui mengenai data pencilan,
mengapa dan bagaimana data pencilan itu muncul, bagaimana mendeteksinya, dan
bagaimana menanganinya. Sehingga jika suatu saat dijumpai data yang mengandung
nilai pencilan di dalamnya, dapat disikapi dengan bijaksana agar analisa statistik
yang dilakukan menghasilkan kesimpulan yang sahih.
1
BAB II
DEFINISI PENCILAN
Terdapat beberapa definisi terhadap pencilan, yaitu sebagaimana yang
diungkapkan oleh sumber-sumber di bawah ini.
Dalam statistika, pencilan adalah suatu nilai pengamatan yang jaraknya jauh
secara numerik dengan data yang lainnya. Dalam analisa regresi, salah satu asumsi
yang harus dipenuhi adalah galat menyebar normal dengan rata-rata nol dan ragam
tertentu (Berry dan Feldman, 1985).
Draper dan Smith (1992) menambahkan bahwa galat yang merupakan
pencilan adalah yang nilai mutlaknya jauh lebih besar daripada galat-galat lainnya
dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari rata-
rata galatnya.
Selain itu, pencilan juga dapat didefinisikan sebagai nilai data yang lain
daripada yang lain atau menyendiri karena letaknya yang tidak seperti data lainnya.
Suatu pencilan bisa tampak sebagai nilai ekstrim atau kombinasi nilai-nilai yang
ganjil/aneh dalam data multivariat (Cheng, 2000).
Osborne dan Overbay (2004) mengatakan bahwa pencilan adalah suatu
pengamatan yang menyimpang jauh dari pengamatan-pengamatan yang lain yang
dicurigai nilai tersebut diperoleh dari mekanisme yang berbeda.
Dalam kaitannya dengan analisa regresi, pencilan adalah pengamatan yang
jauh dari pusat data yang mungkin berpengaruh besar terhadap koefesien regresi
(Soemartini, 2007).
2
BAB III
PENYEBAB TERJADINYA PENCILAN
Osborne dan Overbay (2004) menyebutkan pencilan dapat muncul dari
beberapa mekanisme atau penyebab. Terdapat dua katogeri utama terhadap pencilan,
yaitu:
1) Yang disebabkan kesalahan dalam data, yaitu:
a) Kesalahan dalam pelaporan data.
b) Kesalahan dalam pengambilan contoh.
c) Kesalahan dalam metode penelitian.
d) Kesalahan dalam asumsi sebaran data.
2) Yang disebabkan oleh sifat keragaman data, yaitu pencilan dari data sampel
yang diperoleh secara acak. Dari populasi yang menyebar normal, terdapat
kemungkinan diperoleh nilai pencilan.
Tidak semua pencilan adalah nilai yang tidak sah dan tidak semua nilai yang
tidak sah muncul sebagai pencilan. Oleh karena itu penting dipertimbangkan
penyebab terjadinya pencilan.
Soemartini (2007) juga menyebutkan bahwa pada data yang diperoleh bukan
dari angket, tidak jarang ditemukan satu atau beberapa data yang jauh dari pola
kumpulan data keseluruhan yang lazim didefinisikan sebagai data pencilan (outlier).
Karena dalam suatu pengamatan terhadap suatu keadaan tidak menutup
kemungkinan diperoleh suatu nilai pengamatan yang berbeda dengan nilai
pengamatan lainnya. Hal ini mungkin disebabkan oleh kesalahan pada saat persiapan
data atau terdapat peristiwa yang ekstrim yang mempengaruhi data.
Penyebab lain yang bisa memuncukan pencilan dalam data adalah
sebagaimana yang diungkapkan Chandola, Banerjee dan Kumar (2009), yaitu:
1) Tindakan penipuan, seperti informasi palsu untuk pengajuan kartu kredit,
asuransi, dan sebagainya.
2) Kerusakan peralatan, seperti mesin yang cacat dan sebagainya.
3) Perubahan lingkungan, seperti perubahan cuaca, pola baru pembelian oleh
konsumen, gen yang bermutasi, dan sebagainya.
3
4) Kesalahan manusia, seperti kesalahan pencatatan, kesalahan pelaporan, dan
sebagainya.
Cheng (2000) menambahkan bahwa pencilan dapat muncul karena alasan-
alasan tertentu, seperti kesalahan dalam pembacaan, perekaman, atau penghitungan
data.
Jika pendapat-pendapat beberapa sumber di atas diringkas, maka penyebab
pencilan di antaranya adalah:
1) Kesalahan manusia dalam penanganan data, termasuk kesalahan asumsi sebaran
data.
2) Tingginya sifat keragaman data.
3) Alat bantu dalam menghasilkan data tidak bekerja dengan baik.
4) Perubahan peristiwa atau keadaan.
5) Pemalsuan data.
4
BAB IV
MANFAAT DAN DAMPAK PENCILAN
Keberadaan pencilan memang dapat membuat hasil analisa menjadi kurang
sahih terutama untuk analisa statistik inferensia yang mengasumsikan kenormalan
sebaran data atau galat. Dengan adanya pencilan, maka sebaran menjadi condong.
Akan tetapi, selain dianggap mengganggu, pencilan memiliki beberapa manfaat, di
antaranya:
1) Pencilan dapat dijadikan sebagai inspirasi penyelidikan, misalnya di Afrika, para
wanita yang terinfeksi virus HIV hidup dengan baik dan sehat selama bertahun-
tahun tanpa perawatan. Kasus ini merupakan pencilan dibandingkan dengan
kebanyakan wanita terinfeksi yang hidup tanpa perawatan (Osborne dan
Overbay, 2004).
2) Pencilan dapat memberikan informasi tambahan yang terkadang sangat penting,
misalnya pola yang aneh dalam lalu lintas jaringan komputer yang dapat berarti
komputer yang diretas sedang mengirimkan data kepada pihak yang tidak
seharusnya menerima data tersebut. Dalam bidang kesehatan, pencilan
digunakan untuk mengetahui gejala penyakit baru melalui pola yang tidak biasa
pada rekaman medik pasien. Juga dalam bidang perbankan, transaksi kartu
kredit yang tidak biasa dapat mengindikasikan bahwa kartu kredit telah dicuri
atau disalahgunakan (Chandola, Banerjee, Kumar, 2009).
Selain memiliki beberapa manfaat seperti di atas, nilai pencilan memberikan
dampak dalam analisa statistik termasuk analisa regresi. Sungkawa (2009)
menyebutkan bahwa nilai residu akan semakin besar jika ada pencilan dan dapat
menurunkan nilai koefisien regresi atau koefisien korelasi.
Soemartini (2007) menambahkan keberadaan pencilan menyebabkan ragam
menjadi lebih besar dan membuat taksiran interval memiliki rentang yang lebar.
5
BAB V
IDENTIFIKASI PENCILAN
Deteksi data pencilan merupakan persoalan penting dan mempunyai banyak
manfaat diantaranya adalah identifikasi adanya pengacauan dan sumbatan dalam
jaringan komputer, aktivitas kriminal dalam e-commerce, deteksi pemalsuan kartu
kredit dan aktivitas-aktivitas yang mencurigakan.
Chandola, Banerjee, dan Kumar (2009) mengatakan pendeteksian pencilan
mengacu pada masalah menemukan pola dalam data yang tidak sesuai (ganjil)
dengan perilaku normal yang diharapkan. Pola yang ganjil tersebut sering disebut
sebagai pencilan, kelainan, pengamatan yang bertentangan, pengecualian, kesalahan,
cacat, penyimpangan, gangguan, kerusakan, kejutan, sesuatu yang baru, keganjilan,
atau pengamatan yang dihasilkan dari penerapan yang berbeda.
Khusus terkait dengan analisa regresi, Sungkawa (2009) menyebutkan
kehadiran data pencilan dapat membuat kualitas garis regresi menjadi rendah.
5.1 Identifikasi dengan Grafik
Identifikasi pencilan dapat dengan menggunakan Diagram Pencar, di mana
titik yang berada di luar range titik-titik yang lain atau titik yang menyendiri
merupakan pencilan (Cheng, 2000).
Dalam analisa regresi, jika sudah didapatkan model regresi, maka dapat
dilakukan dengan cara memplot antara residual (e) dengan nilai prediksi Y (Y ). Jika
terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data
keseluruhan maka hal ini mengindikasikan adanya pencilan (Soemartini, 2007).
Gambar 5.1 Deteksi pencilan dengan diagram pencar
6
Selain dengan Diagram Pencar, pencilan juga dapat dilihat Histogram dan
Box Plot.
Gambar 5.2 Deteksi pencilan dengan histogram
Kelemahan dari Diagram Pencar dan Histogram adalah keputusan bahwa
suatu data merupakan pencilan sangat bergantung pada penilaian peneliti, karena
hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan
berpengalaman dalam menginterpretasikan plot tersebut.
Sedangkan Box Plot menampilkan kuartil bawah (Q1) dan kuartil atas (Q3),
dan median yang menunjukkan 50 persentil data. Kuartil bawah memuat 25 persentil
data dan kuartil atas memuat 75 persentil data. Pagar atas dan bawah biasanya
memiliki jarak yang pasti berdasarkan jarak inter-kuartil (Q3 – Q1). Gambar 5.1.3
menunjukkan bahwa pagar atas dan bawah adalah 1,5 kali jarak inter-kuartil. Setiap
pengamatan yang berada di luar pagar atas dan bawah kemungkinan adalah pencilan.
Gambar 5.3 Deteksi pencilan dengan Box Plot
7
5.2. Identifikasi dengan Statistik Uji
Beberapa cara dapat digunakan untuk mendeteksi adanya pencilan dengan
statistik uji, yaitu: 1) Simpangan Baku; 2) Leverage Values, DfFITS, Cook’s
Distance, dan DfBETA; 3) uji-T dan Deviasi Kuartil; dan 4) Internal Studentization
(Residu yang Distudentkan).
5.2.1. Standar Deviasi/Simpangan Baku
Seperti yang telah disebutkan sebelumnya, Draper dan Smith (1992)
mengatakan bahwa pemeriksaan pencilan dapat dilakukan dengan memeriksa jarak
antara nilai mutlak galat dan rata-rata nilai mutlak galat. Jika jaraknya adalah 3
simpangan baku atau lebih, maka galat tersebut bisa dikatakan sebagai pencilan.
5.2.2. Leverage Values, DfFITS, Cook’s Distance, dan DfBETA
Tabel berikut adalah daftar statistik dan kriterianya jika terdapat pencilan
(Soemartini, 2007).
Tabel 5.1 Daftar statistik untuk menentukan pencilan
Statistik Ada pencilan, jika:
Leverage Values ¿(2 p−1)
n
DFITS ¿2 ∙√ pn
Cook’s Distance > F(0.5;p,n-p)
DfBETA(s) ¿ 2
√n
n = jumlah pengamatan; p = jumlah parameter
5.2.3. Uji-T dan Deviasi Kuartil
Selain menggunakan statistik di atas, dapat juga digunakan uji-T seperti yang
dikemukakan Sungkawa (2009), yaitu:
1. Hitunglah residu untuk setiap i = 1, 2,…,n, maka akan kita peroleh harga-harga
residu e1, e2,…,en.
2. Ambil harga mutlak | ei |; i = 1,2,…,n, kemudian urutkanlah dari yang terbesar
hingga terkecil, emaks menyatakan harga mutlak residu yang terbesar.
8
3. Tentukan median M dari e1,e2,…,en.
4. Hitung:
Q=∑i=1
n
|e i−M|
5. Hitung:
Qsisa=Q−|emaks−M|
6. Hitung: T=Qsisa
Q
7. Bandingkan harga statistik penguji T dengan titik kritis untuk k=1 dan tingkat
keberartian 0,01 atau 0,05 atau 0,10.
8. Jika harga T melebihi titik kritis, maka data yang memberikan emaks adalah bukan
data pencilan.
Cara lain untuk mendeteksi adanya gejala pencilan dapat dilakukan dengan
satu metode yang lebih sederhana, yaitu dengan menggunakan sebaran tengah dQ
(deviasi kuartil) sebagai berikut :
1. Tentukan nilai kuartil atas (QA) kuartil bawah (QB) dan hitung besarnya dQ = QA-
QB
2. Tentukan batas bawah pencilan BBP = QB-(1,5)dQ.
3. Tentukan batas atas pencilan BAP = QA+(1,5)dQ.
4. Untuk mendeteksi pencilan dilakukan dengan membandingkan nilai data (jika
data pengamatan lebih kecil dari BBP atau lebih besar dari BAP maka
pengamatan tersebut adalah pencilan).
5. Jadi BAP-BBP = 4dQ. Mengapa diambil 4 dQ? Hal ini dapat dijelaskan melalui
bentuk sebaran ideal, yakni normal. Dalam keadaan ideal ini, pengambilan 4 dQ
berarti bahwa tingkat keyakinan (probability) terjadinya pencilan adalah sebesar
0,007 atau 0,7% atau kira-kira 1%.
Atau, seperti cara di atas, data pengamatan diganti dengan residual.
1. Setelah mendapatkan residual dari semua pengamatan, selanjutnya tentukan nilai
kuartil atas QA dan kuartil bawah QB dari nilai mutlak residual atau | ei | serta
tentukan penyimpangannya dQ = QA - QB.
9
2. Kemudian tentukan BBP dan BAP untuk mendeteksi pencilan dengan
menggunakan residu (bukan data pengamatan). Ketentuannya adalah: (jika nilai
residu lebih kecil dari BBP atau lebih besar dari BAP maka data pengamatan
yang bersangkutan adalah pencilan).
Cara yang terakhir sama dengan identifikasi menggunakan Box Plot, hanya
saja tidak menggunakan grafik melainkan hanya angka.
5.2.4. Internal Studentization (Residu yang Distudentkan)
Soemartini (2007) mengungkapkan umumnya pencilan memiliki nilai y yang
ekstrim. Untuk mendeteksi apakah terdapat pencilan atau tidak, metode ini dapat
digunakan.
Hipotesa:
H0 : Δi = 0 (tidak terdapat pencilan)
H1 : Δi ≠ 0 (terdapat pencilan)
α = taraf nyata.
Statistik Uji:
ri=ei
s√1−pii
tn−p−1
Di mana:
p + 1 = banyaknya parameter
p = banyaknya variabel bebas (prediktor)
pii = diagonal utama matriks prediksi
Kriteria Uji:
H0 ditolak jika ri > tα/2;n-p-1
H0 diterima jika ri < tα/2;n-p-1
5.2.5. Uji Dixon-Type
Beyer (1991) menyebutkan Uji Dixon-Type didasarkan pada rasio jarak yang
dapat digunakan pada banyak pengamatan dan menghasilkan penilaian yang baik
untuk sampel berukuran kecil karena menggunakan peringkat dan tidak diperlukan
asumsi kenormalan data. Bergantung pada jumlah pengamatan yang dicurigai
sebagai pecilan, rasio-rasio yang berbeda digunakan untuk mengidentifikasi
10
pencilan. Rasio pertama adalah r10 yang digunakan jika kemungkinan pencilan adalah
nilai pengamatan terbesar dan terkecil. Rasio kedua adalah r11 yang digunakan jika
kemungkinan pencilan adalah nilai terbesar kedua dan terkecil kedua. Keadaan ini
disebabkan oleh masking. Masking terjadi ketika beberapa nilai pengamatan saling
berdekatan, tetapi letak kelompok pengamatan masih terpencil dari data yang
lainnya. Masking adalah peristiwa yang biasa terjadi terutama untuk data dari dua
sebaran. Berikut adalah persamaan untuk rasio r10 dan r11.
a) Menguji nilai pengamatan terbesar sebagai pencilan:
r10=xn−xn−1
xn− x1
b) Menguji nilai pengamatan terkecil sebagai pencilan:
r10=x2−x1
xn−x1
c) Menguji nilai pengamatan terbesar sebagai pencilan tanpa melibatkan nilai
pengamatan terkecil:
r11=xn−xn−1
xn−x2
d) Menguji nilai pengamatan terkecil sebagai pencilan tanpa melibatkan nilai
pengambatan terbesar:
r11=x2−x1
xn−1−x1
Nilai pengamatan disebut pencilan jika nilai r10 dan r11 lebih besar dari nilai
kritis pada tabel untuk uji Dixon.
11
BAB VI
PENANGANAN PENCILAN
Seperti yang telah disebutkan sebelumnya bahwa keberadaan pencilan harus
disikapi dengan bijaksana, dengan maksud bahwa data pencilan yang terjadi harus
diteliti lebih dahulu penyebabnya. Berikut adalah beberapa metode dalam menangani
pencilan yang terjadi.
6.1. Membuang Data Pencilan
Cara ini ditempuh jika pencilan terjadi karena kesalahan manusia dalam
pelaporan data akibat kesalahan pengamatan, kesalahan perekaman, kerusakan alat,
dan sebagainya. Sebagaimana yang diungkapkan Soemartini (2007), jika data
pencilan tidak dibuang, maka akan memberikan pengaruh setelah dilakukan
pengujian, karena keberadaan pencilan mengganggu proses analisis.
Membuang pencilan adalah tindakan yang kurang bijaksana jika data tersebut
memang data yang diperoleh tanpa ada faktor kesalahan manusia.
6.2. Menambah atau Memperbaiki Data Pengamatan
Sungkawa (2009) menyebutkan bahwa jika terjadi pencilan, selain
membuang data pencilan, cara lain adalah dengan menambah data pengamatan untuk
meyakinkan bahwa kemungkinan data pencilan tersebut sebenarnya bukanlah
pencilan.
Atau jika memang memungkinkan, penelitian atau pengamatan dapat diulang
dengan perlakuan yang sama untuk memastikan bahwa nilai tersebut bukanlah
pencilan.
6.3. Membiarkan Data Pencilan
Jika memang dipastikan tidak ada kesalahan data dan ada penjelasan yang
masuk akal bahwa kemungkinan data pencilan tersebut adalah data sebenarnya dari
hasil penelitian atau pengamatan, maka data tersebut tidak dibuang dan tetap berada
di dalam hasil penelitian atau pengamatan.
12
Seperti yang diungkapkan Osborne dan Overbay (2004) bahwa tidak semua
nilai pencilan memiliki nilai pengamatan yang tidak sah dan tidak semua nilai
pengamatan yang tidak sah adalah pencilan.
6.4. Transformasi Data
Jika tidak dimungkinkan untuk menambah data pengamatan, cara ini dapat
digunakan untuk tetap menjaga nilai pencilan dalam analisa. Dengan transformasi,
nilai ekstrim dapat dipertahankan dengan peringkat data yang relatif sama, tetapi
membuat kecondongan dan ragam galat dalam peubah berkurang (Osborne dan
Overbay, 2004).
Cousineau dan Chartier (2010) mengatakan bahwa jika terdapat pencilan,
maka langkah pertama yang dilakukan adalah membuat data yang simetris dengan
menggunakan transformasi non-linier. Dari tiga macam transformasi yang umum
digunakan yaitu trasformasi logaritma, transformasi akar kuadrat, dan transformasi
arcsin, didapatkan modifikasi transormasi akar kuadrat yang lebih cocok untuk
menempatkan pencilan di tiap-tiap sisi sebaran terhadap respon berupa data waktu,
yaitu:
y=√ x−X (1)
X (n)−X (1)
Di mana X(1) adalah nilai terkecil dari sampel X dan X(n) adalah nilai yang terbesar.
Membagi dengan range (nilai terbesar dikurangi nilai terkecil) membuat data
menjadi normal yang terletak dari 0 sampai dengan 1.
6.5. Pemodelan Regresi Menggunakan Metode Least Trimmed Square
Untuk analisa regresi, Soemartini (2007) menyebutkan Metode Least
Trimmed Squares sebagai salah satu metode penaksiran parameter model regresi
yang robust terhadap kehadiran nilai pencilan. Adapun tujuan yang ingin dicapai
adalah mendapatkan nilai parameter model regresi yang robust terhadap kehadiran
nilai pencilan.
Metode ini tidak membuang bagian dari data melainkan menemukan model
fit dari mayoritas data. Misalkan model regresi linier berganda adalah:
13
Model taksirannya adalah:
dan nilai residualnya adalah:
Prinsip dari metode ini adalah meminimumkan ∑i=1
h
ri ;n2 dari sebanyak (nh)
kombinasi data. Kemudian model dengan jumlah kuadrat residu yang terkecil
dijadikan sebagai model fit.
Di mana:
h = coverage;
n = banyaknya pengamatan;
r = residu
Nilai h berada antara [ n2+1]≤ h≤[ 3 n+ p+1
4 ], tapi biasanya untuk
mendapatkan nilai maksimum breadkdown yaitu mencapai 50% maka h=[ 3 n+p+14 ]
dengan p = banyaknya parameter.
Nilai breakdown adalah proporsi minimal dari banyaknya pencilan
dibandingkan seluruh data pengamatan.
14
BAB VII
CONTOH KASUS
Kasus :
Pilot – Plant Data Set
ObservationExtractio
nTitratio
n
X Y1 123 762 109 703 62 554 104 715 57 556 37 487 44 508 100 669 16 4110 28 4311 138 8212 105 6813 159 8814 75 58
15 88 64
16 164 8817 169 8918 167 8819 149 8420 167 88
Sumber: Daniel and Wood (1971)
1. Deteksi pencilan pada X dan pada Y
2. Deteksi adakah pengamatan berpengaruh
3. Dugalah beta menggunakan Metode Theil dan Penduga M
** Perhitungan dilakukan di Excell
** Dipresentasikan Minggu depan
15
PENYELESAIAN:
Menduga parameter analisis regresi
Matrik Y1 123 761 109 701 62 551 104 711 57 551 37 481 44 501 100 661 16 411 28 431 138 821 105 681 159 881 75 581 88 64
1 164 88
1 169 891 167 881 149 841 167 88
Matrik X
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1123 109 62 104 57 37 44 100 16 28 138 105 159 75 88 164 169 167 149 167
76 70 55 71 55 48 50 66 41 43 82 68 88 58 64 88 89 88 84 88
Matrik X'
Matrik Y'
16
20 20612061 261419
Matrik X'Y1372
157154
Matriks β'X'Y
0.266574824 -0.0021 35.458272 35.45827 0.32161 99190.76874-0.00210165 2E-05 0.3216082
Matriks (X'X)-1 (X'Y) = β Matriks β'
Matrik X'X
Matriks (X'X)-1
y = Xβ e = Y - Xβ Y - Ybar75.016084 0.983915918 7.470.513569 -0.513568937 1.455.397982 -0.397982377 -13.668.905528 2.094472187 2.453.789941 1.210058746 -13.647.357777 0.64222324 -20.649.609034 0.390965667 -18.667.619095 -1.619094915 -2.640.604004 0.395995958 -27.644.463303 -1.463302738 -25.679.840207 2.159792548 13.469.227136 -1.227136038 -0.686.59398 1.40601983 19.459.578889 -1.578889298 -10.6
63.759796 0.240203781 -4.6
88.202021 -0.202021294 19.489.810062 -0.810062417 20.489.166846 -1.166845968 19.483.377898 0.622102076 15.489.166846 -1.166845968 19.4
Matrik e0.983915918-0.51356894-0.397982382.0944721871.2100587460.642223240.390965667-1.619094910.395995958-1.463302742.159792548-1.227136041.40601983-1.5788893
0.240203781
-0.20202129
-0.81006242-1.166845970.622102076-1.16684597
0.9839 -0.514 -0.398 2.0945 1.2101 0.6422 0.391 -1.619 0.396 -1.463 2.1598 -1.227 1.406 -1.579 0.2402 -0.202 -0.81 -1.167 0.6221 -1.167Matrik e'
e'e = RSS σ2 = RSS/(n-p) t
27.23126184 1.433224307 0.382061517 -0.003012133 57.3655187-0.003012133 2.92298E-05 59.4859053
Var (β) = σ2(X'X)-1
7.4 1.4 -13.6 2.4 -13.6 -20.6 -18.6 -2.6 -27.6 -25.6 13.4 -0.6 19.4 -10.6 -4.6 19.4 20.4 19.4 15.4 19.4Matriks (Y - Ybar)'
Matriks Y'11372
TSS = (Y - Ybar)'(Y - Ybar) ESS = β'X'y - 1/n(1Y)'(1Y)5098.8 5071.568738
17
Model SS df MS F Sig.Regression 5071.568738 1 5071.5687 3352.33 6.57233E-22
Error 27.23126184 18 1.5128479Total 5098.8 19
Variabel Bebas Koefisien Beta R-Square t-hitung Sig. KeteranganConstant 35.458 57.366 0.000 Signifikan
X 0.322 59.486 0.000 Signifikan0.995
Tabel ANOVA
Berdasarkan proses pendugaan diatas, diperoleh matrik residual sebagai berikut:
Matrik e0.983915918-0.51356894-0.397982382.0944721871.2100587460.642223240.390965667-1.619094910.395995958-1.463302742.159792548-1.227136041.40601983-1.5788893
0.240203781
-0.20202129
-0.81006242-1.166845970.622102076-1.16684597
Mendeteksi outlier pada X, dengan menghitung matrik :
18
0.058 0.052 0.033 0.05 0.031 0.023 0.026 0.049 0.015 0.019 0.064 0.051 0.073 0.039 0.044 0.075 0.077 0.076 0.069 0.0760.052 0.051 0.045 0.05 0.044 0.042 0.043 0.05 0.039 0.041 0.054 0.05 0.057 0.047 0.048 0.057 0.058 0.058 0.056 0.0580.033 0.045 0.084 0.049 0.089 0.105 0.099 0.053 0.123 0.113 0.021 0.048 0.003 0.073 0.063 -0.001 -0.005 -0.004 0.012 -0.004
0.05 0.05 0.049 0.05 0.049 0.049 0.049 0.05 0.048 0.049 0.051 0.05 0.051 0.049 0.05 0.051 0.051 0.051 0.051 0.0510.031 0.044 0.089 0.049 0.093 0.112 0.105 0.053 0.132 0.12 0.017 0.048 -0.003 0.076 0.064 -0.007 -0.012 -0.01 0.007 -0.010.023 0.042 0.105 0.049 0.112 0.139 0.13 0.054 0.167 0.151 0.003 0.047 -0.025 0.088 0.07 -0.032 -0.039 -0.036 -0.012 -0.0360.026 0.043 0.099 0.049 0.105 0.13 0.121 0.054 0.155 0.14 0.008 0.048 -0.017 0.084 0.068 -0.023 -0.029 -0.027 -0.005 -0.0270.049 0.05 0.053 0.05 0.053 0.054 0.054 0.05 0.055 0.055 0.048 0.05 0.047 0.052 0.051 0.046 0.046 0.046 0.047 0.0460.015 0.039 0.123 0.048 0.132 0.167 0.155 0.055 0.205 0.183 -0.012 0.047 -0.049 0.1 0.077 -0.058 -0.067 -0.064 -0.032 -0.0640.019 0.041 0.113 0.049 0.12 0.151 0.14 0.055 0.183 0.165 -0.003 0.047 -0.036 0.093 0.073 -0.043 -0.051 -0.048 -0.02 -0.0480.064 0.054 0.021 0.051 0.017 0.003 0.008 0.048 -0.012 -0.003 0.075 0.051 0.09 0.03 0.039 0.093 0.097 0.096 0.083 0.0960.051 0.05 0.048 0.05 0.048 0.047 0.048 0.05 0.047 0.047 0.051 0.05 0.052 0.049 0.049 0.052 0.053 0.053 0.052 0.0530.073 0.057 0.003 0.051 -0.003 -0.025 -0.017 0.047 -0.049 -0.036 0.09 0.052 0.114 0.018 0.033 0.12 0.125 0.123 0.102 0.1230.039 0.047 0.073 0.049 0.076 0.088 0.084 0.052 0.1 0.093 0.03 0.049 0.018 0.066 0.059 0.015 0.012 0.013 0.024 0.0130.044 0.048 0.063 0.05 0.064 0.07 0.068 0.051 0.077 0.073 0.039 0.049 0.033 0.059 0.055 0.031 0.03 0.03 0.036 0.030.075 0.057 -0.001 0.051 -0.007 -0.032 -0.023 0.046 -0.058 -0.043 0.093 0.052 0.12 0.015 0.031 0.126 0.132 0.129 0.107 0.1290.077 0.058 -0.005 0.051 -0.012 -0.039 -0.029 0.046 -0.067 -0.051 0.097 0.053 0.125 0.012 0.03 0.132 0.139 0.136 0.112 0.1360.076 0.058 -0.004 0.051 -0.01 -0.036 -0.027 0.046 -0.064 -0.048 0.096 0.053 0.123 0.013 0.03 0.129 0.136 0.133 0.11 0.1330.069 0.056 0.012 0.051 0.007 -0.012 -0.005 0.047 -0.032 -0.02 0.083 0.052 0.102 0.024 0.036 0.107 0.112 0.11 0.093 0.110.076 0.058 -0.004 0.051 -0.01 -0.036 -0.027 0.046 -0.064 -0.048 0.096 0.053 0.123 0.013 0.03 0.129 0.136 0.133 0.11 0.133
Matriks H = X(X'X)-1X'
Dari matrik diatas, maka diperoleh matrik diagonal utama yaitu matrik Hii
seperti berikut ini:
Observation hii 2p/n Outlier pada Variabel X
1 0.058 -2 0.051 -3 0.084 -4 0.05 -5 0.093 -6 0.139 -7 0.121 -8 0.05 -
9 0.205 outlier
10 0.165 -11 0.075 -12 0.05 -13 0.114 -14 0.066 -15 0.055 -16 0.126 -17 0.139 -18 0.133 -19 0.093 -20 0.133 -
0.2
Matrik Hii
H0 : ada outlier pada variabel X
19
Vs
H1 : tidak ada outlier pada variabel X
Dengan :
p : banyaknya peubah X (1,X1) yaitu 2
n : banyaknya obyek pengamatan yaitu 20
Sehingga:
2p/n = 2(2)/20 = 0.2
Nilai Hii pada tabel diatas dibandingkan dengan nilai 2p/n =0.2. Dari proses
tersebut diketahui bahwa terdapat nilai Hii yang lebih dari 2p/n=0.2, ini
berarti pada variabel X terdapat outlier, yaitu amatan ke-9.
Mendeteksi outlier pada Y, dengan menghitung matrik TRESSi:
Observation ei |TRES| t Outlier pada Variabel Y1 0.9839159 0.8165915 -2 -0.513569 -0.41862 -3 -0.397982 -0.329668 -4 2.0944722 1.8631929 -5 1.2100587 1.0352075 -6 0.6422232 0.5517241 -7 0.3909657 0.3305629 -8 -1.619095 -1.384682 -9 0.395996 0.3520876 -10 -1.463303 -1.329295 -11 2.1597925 1.9655217 -12 -1.227136 -1.025093 -13 1.4060198 1.2316492 -14 -1.578889 -1.359192 -15 0.2402038 0.1954134 -16 -0.202021 -0.170862 -17 -0.810062 -0.699511 -18 -1.166846 -1.020236 -19 0.6221021 0.520227 -20 -1.166846 -1.020236 -
2.458050719
Deleted t residual atau Matrik TRESS
20
H0 : ada outlier pada variabel Y
Vs
H1 : tidak ada outlier pada variabel Y
Dengan n = 20
Dengan α = 0.05 dan t 17
α2 = 2.45
Nilai |TRES 1| pada tabel diatas dibandingkan dengan nilai t 2
α2 . Dari proses
tersebut diketahui bahwa tidak terdapat nilai |TRES 1| yang lebih dari t 2
α2
hal ini berarti tidak terdapat outlier pada variabel Y.
Setelah diketahui bahwa terdapat outlier pada variabel X pada onservasi ke-9,
perlu diketahui apakah outlier tersebut berpengaruh terhadap koefisien regresi atau
nilai duga (Y t) untuk kemudian dilakukan penanganan terhadap outlier tersebut.
Hasil pengujiannya sebagai berikut:
ei Di F Outlier Berpengaruh Koefisien (hi/(1-hi)^2)0.9839159 0.0209604 - 0.065510305-0.513569 0.0049066 - 0.056287204-0.397982 0.0052678 - 0.1006301522.0944722 0.0803569 - 0.0554242041.2100587 0.0548849 - 0.1134136690.6422232 0.0255531 - 0.1874547170.3909657 0.007921 - 0.156793034-1.619095 0.0482015 - 0.0556340960.395996 0.0167536 - 0.323259593-1.463303 0.1672951 - 0.2363959482.1597925 0.1349532 - 0.087535542-1.227136 0.0276202 - 0.055496651.4060198 0.09472 - 0.144972021-1.578889 0.0623845 - 0.0757179030.2402038 0.0011654 - 0.061112985-0.202021 0.0022196 - 0.164549382-0.810062 0.0405503 - 0.186974659-1.166846 0.079936 - 0.1776399150.6221021 0.0144713 - 0.113138638-1.166846 0.079936 - 0.177639915
0.72053765
Cook’s Distance
H0 : Pengamatan ke-i tidak berpengaruh
vs
21
H1 : Pengamatan ke-i berpengaruh
Kriteria yang digunakan untuk menguji hipotesis tersebut adalah sebagai
berikut:
dengan F(2,18)α
= 0.72
Nilai Di pada tabel diatas dibandingkan dengan F(2,18)α , dari proses
tersebut diketahui bahwa tidak terdapat nilai Di < F(2,18)α , maka dapat
disimpulkan bahwa tidak terdapat outlier yang berpengaruh terhadap
koefisien regresi.
DFIT 2*sqrt(p/n) Outlier Berpengaruh pada Nilai Duga0.2028421 --0.096766 --0.10007 -
0.4275286 -0.3319741 -0.2216555 -0.1227111 --0.318302 -0.1785397 --0.590633 -0.5593216 --0.235364 -0.441453 --0.361446 -0.0469704 --0.064805 --0.280713 --0.400294 -0.1666431 --0.400294 -
6.32455532
Dfits
H0 : Pengamatan ke-i tidak berpengaruh
vs
22
H1 : Pengamatan ke-i berpengaruh
Kriteria yang digunakan untuk menguji hipotesis tersebut adalah sebagai
berikut:
dengan : 2 √ p
n = 2
√ 220
= 6.32
Nilai DFIT pada tabel diatas dibandingkan dengan nilai 2√ pn
. Dari
proses tersebut diketahui bahwa tidak terdapat nilai DFIT1 > 2√ pn
, maka
dapat disimpulkan bahwa tidak terdapat outlier yang berpengaruh terhadap
nilai duga (Y t).
Berdasarkan proses pendeteksian outlier diatas, dapat disimpulkan bahwa
tidak terdapat pada variabel X dan variable Y serta pengamatan berpengaruh.
Berdasarkan hasil proses tersebut, maka proses pendugaan tidak dapat melalui proses
MKT, maka dalam kasus ini dilakukan penangan dengan Metode Theil dan
Penduga-M untuk memperolreh slope (β1) seperti berikut ini:
A. Metode Theil
23
bij Koefisien bij Koefisien bij Koefisien bij Koefisien bij Koefisien bij Koefisienb12 0.42857143 b23 0.31914894 b34 0.38095238 b45 0.34042553 b56 0.35 b67 0.28571429b13 0.3442623 b24 -0.2 b35 0 b46 0.34328358 b57 0.38461538 b68 0.28571429b14 0.26315789 b25 0.28846154 b36 0.28 b47 0.35 b58 0.25581395 b69 0.33333333b15 0.31818182 b26 0.30555556 b37 0.27777778 b48 1.25 b59 0.34146341 b610 0.55555556b16 0.3255814 b27 0.30769231 b38 0.28947368 b49 0.34090909 b510 0.4137931 b611 0.33663366b17 0.32911392 b28 0.44444444 b39 0.30434783 b410 0.36842105 b511 0.33333333 b612 0.29411765b18 0.43478261 b29 0.31182796 b310 0.35294118 b411 0.32352941 b512 0.27083333 b613 0.32786885b19 0.3271028 b210 0.33333333 b311 0.35526316 b412 -3 b513 0.32352941 b614 0.26315789b110 0.34736842 b211 0.4137931 b312 0.30232558 b413 0.30909091 b514 0.16666667 b615 0.31372549b111 0.4 b212 0.5 b313 0.34020619 b414 0.44827586 b515 0.29032258 b616 0.31496063b112 0.44444444 b213 0.36 b314 0.23076923 b415 0.4375 b516 0.30841121 b617 0.31060606b113 0.33333333 b214 0.35294118 b315 0.34615385 b416 0.28333333 b517 0.30357143 b618 0.30769231b114 0.375 b215 0.28571429 b316 0.32352941 b417 0.27692308 b518 0.3 b619 0.32142857b115 0.34285714 b216 0.32727273 b317 0.31775701 b418 0.26984127 b519 0.31521739 b620 0.30769231b116 0.29268293 b217 0.31666667 b318 0.31428571 b419 0.28888889 b520 0.3b117 0.2826087 b218 0.31034483 b319 0.33333333 b420 0.26984127b118 0.27272727 b219 0.35 b320 0.31428571b119 0.30769231 b220 0.31034483b120 0.27272727
bij Koefisien bij Koefisien bij Koefisien bij Koefisien bij Koefisien bij Koefisienb78 0.28571429 b89 0.29761905 b910 0.16666667 b1011 0.35454545 b1112 0.42424242 b1213 0.37037037b79 0.32142857 b810 0.31944444 b911 0.33606557 b1012 0.32467532 b1113 0.28571429 b1214 0.33333333b710 0.4375 b811 0.42105263 b912 0.30337079 b1013 0.34351145 b1114 0.38095238 b1215 0.23529412b711 0.34042553 b812 0.4 b913 0.32867133 b1014 0.31914894 b1115 0.36 b1216 0.33898305b712 0.29508197 b813 0.37288136 b914 0.28813559 b1015 0.35 b1116 0.23076923 b1217 0.328125b713 0.33043478 b814 0.32 b915 0.31944444 b1016 0.33088235 b1117 0.22580645 b1218 0.32258065b714 0.25806452 b815 0.16666667 b916 0.31756757 b1017 0.32624113 b1118 0.20689655 b1219 0.36363636b715 0.31818182 b816 0.34375 b917 0.31372549 b1018 0.32374101 b1119 0.18181818 b1220 0.32258065b716 0.31666667 b817 0.33333333 b918 0.31125828 b1019 0.33884298 b1120 0.20689655b717 0.312 b818 0.32835821 b919 0.32330827 b1020 0.32374101b718 0.30894309 b819 0.36734694 b920 0.31125828b719 0.32380952 b820 0.32835821b720 0.30894309
bij Koefisien bij Koefisien bij Koefisien bij Koefisien bij Koefisien bij Koefisienb1314 0.35714286 b1415 0.46153846 b1516 0.31578947 b1617 0.2 b1718 0.5 b1819 0.22222222b1315 0.33802817 b1416 0.33707865 b1517 0.30864198 b1618 0 b1719 0.25 b1820 0b1316 0 b1417 0.32978723 b1518 0.30379747 b1619 0.26666667 b1720 0.5b1317 0.1 b1418 0.32608696 b1519 0.32786885 b1620 0b1318 0 b1419 0.35135135 b1520 0.30379747 bij Koefisienb1319 0.4 b1420 0.32608696 b1920 0.22222222b1320 0
Matrik bij
Median (bij)0.319722222
Dari tabel diatas diperoleh nilai slope (β1) sebesar 0.3197, dan dapat dihitung
nilai dari intersep (β0) seperti berikut ini:
24
Extraction TitrationX Y
1 123 762 109 703 62 554 104 715 57 556 37 487 44 508 100 669 16 41
10 28 4311 138 8212 105 6813 159 8814 75 5815 88 6416 164 8817 169 8918 167 8819 149 8420 167 88
Rata-rata: 103.05 68.6
Observation
dengan metode Theil diperoleh persamaan :
Y=35.65263 + 0.319722X
intersep (β0) = Y - (β1) X
intersep (β0) = 68.6 – (0.3197 * 103.05)
intersep (β0) = 35.65
Berdasarkan proses diatas, maka dapat diperoleh model regresi yaitu:
Y = 35.65 + 0.3197 X
Dari persamaan diatas dapat disimpulkan bahwa dengan kenaikan nilai X sebesar 1
unit dapat meningkatkan nilai Y sebesar 0.3197.
B. Metode Penduga M
25
ei Short ei Median ei ei-med(ei) Median (ei-med(ei)1.032031974 -1.817748 -0.00526643 1.03729841 0.005266435
-0.524777649 -1.734172 -0.5247776-0.608352811 -1.668441 -0.6083528 S = Med(ei-Med(ei))/0.67452.062076057 -1.255295 2.06207606 0.0078079090.978500895 -0.932281 0.978500890.325915719 -0.932281 0.325915720.104320531 -0.608353 0.10432053
-1.668440978 -0.567022 -1.668441-0.009298715 -0.524778 -0.0092987-1.81774761 -0.009299 -1.81774762.271470856 0.0198316 2.27147086
-1.255294684 0.1043205 -1.25529471.606685291 0.1400079 1.60668529
-1.734172447 0.3259157 -1.73417240.140007917 0.7803927 0.140007920.019831584 0.9785009 0.01983158
-0.567022122 1.032032 -0.5670221-0.932280639 1.6066853 -0.93228060.780392703 2.0620761 0.7803927
-0.932280639 2.2714709 -0.9322806
ei*=ei/s abs(ei*) wi0 psi(ei*)132.17777 132.17777 0.010176 1.345-67.21104 67.211037 0.020012 -1.345-77.91495 77.914948 0.017262 -1.345264.10094 264.10094 0.005093 1.345125.32176 125.32176 0.010732 1.34541.741742 41.741742 0.032222 1.34513.36088 13.36088 0.100667 1.345-213.686 213.68602 0.006294 -1.345
-1.190935 1.1909354 1 -1.190935-232.8085 232.80851 0.005777 -1.345290.91923 290.91923 0.004623 1.345-160.7722 160.7722 0.008366 -1.345205.77665 205.77665 0.006536 1.345-222.1046 222.1046 0.006056 -1.34517.931551 17.931551 0.075007 1.3452.5399354 2.5399354 0.529541 1.345-72.62151 72.621509 0.018521 -1.345-119.4021 119.40209 0.011264 -1.34599.949003 99.949003 0.013457 1.345-119.4021 119.40209 0.011264 -1.345
26
0.0102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0.02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0.0173 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0.0051 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0.0107 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0.0322 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0.1007 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0.0063 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0.0058 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0.0046 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0.0084 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0.0065 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0.0061 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0.075 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.5295 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0185 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0113 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0135 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0113
Matik Wi
Penduga 1b=(X'WX)-1X'WY 1.8929 133.41 1.122 -0.008
35.92680424 133.41 17770 -0.008 0.00010.317444494
X'WY110.3610434
X'WX (X'WX)-1
Y= 35.9268042 + 0.3174 XXB
74.972Extraction Titration 70.528
X Y 55.6081 123 76 74.972 1.027522989 68.9412 109 70 70.528 -0.528254094 54.0213 62 55 55.608 -0.608362875 47.6724 104 71 68.941 2.058968376 49.8945 57 55 54.021 0.978859595 67.6716 37 48 47.672 0.327749476 41.0067 44 50 49.894 0.105638018 44.8158 100 66 67.671 -1.671253648 79.7349 16 41 41.006 -0.005916149 69.25810 28 43 44.815 -1.815250078 86.411 138 82 79.734 2.265855579 59.73512 105 68 69.258 -1.258476118 63.86213 159 88 86.4 1.599521204 87.98814 75 58 59.735 -1.735141297 89.57515 88 64 63.862 0.13808028 88.9416 164 88 87.988 0.012298734 83.22617 169 89 89.575 -0.574923736 88.9418 167 88 88.94 -0.94003474819 149 84 83.226 0.77396614420 167 88 88.94 -0.940034748
Sehingga diperoleh nilai residual:Matrik Y yang terbentuk
Model yang terbentuk:y=b0+b1x
Observation Ybar ei
27
Mengulangi proses pendugaan dengan metode di atas hingga diperoleh:
residu iterasi
1 2 3 4 5 6
1.0474781.08543
9 1.10462 1.1165111.12073
1 1.115366-0.48884 -0.47033 -0.45972 -0.45165 -0.44913 -0.4548-0.5036 -0.55042 -0.56858 -0.57333 -0.5765 -0.58323
2.1053382.11689
3 2.124441 2.131152.13306
7 2.127278
1.0905691.03680
5 1.015579 1.0094661.00568
9 0.998849
0.4672630.38570
4 0.352234 0.3406650.33446
4 0.327177
0.235420.16358
9 0.134405 0.1247460.11939
3 0.112262-1.61932 -1.61333 -1.60823 -1.60261 -1.60118 -1.60706
0.1627920.05204
7 0.005721 -0.01158 -0.02032 -0.02808-1.66322 -1.75729 -1.79627 -1.8103 -1.81759 -1.82508
2.2649582.32376
5 2.352129 2.368112 2.37415 2.36912-1.2135 -1.20055 -1.19239 -1.18541 -1.18337 -1.18914
1.5694291.65742
1 1.698642 1.7203531.72893
6 1.724375-1.64846 -1.6772 -1.68741 -1.68861 -1.69021 -1.69665
0.2066930.19601
2 0.193765 0.1961080.19608
7 0.18994
-0.024740.07019
7 0.114478 0.1375530.14674
2 0.142293-0.61892 -0.51703 -0.46969 -0.44525 -0.43545 -0.43979-0.98125 -0.88214 -0.83602 -0.81213 -0.80257 -0.80696
0.7577760.83187
1 0.866969 0.8859520.89332
3 0.888539
-0.98125 -0.88214 -0.83602 -0.81213 -0.80257 -0.80696
iterasi b0 b1keteranga
n
135.4582
70.32160
8 data awal
235.7358
50.31883
5
335.8688
30.31744
5
435.9249
60.31683
3
535.9466
2 0.31656
28
6 35.95730.31643
9
735.9654
20.31641
6
Pada iterasi ke enam diperoleh nilai estimasi yang stabil, dengan demikian, diperoleh
penduga regresi seperti berikut ini:
Y = 35.96542 + 0.316416 X
BAB VIII
PENUTUP
8.1 Kesimpulan
Terdapat berbagai macam definisi terhadap pencilan yang semuanya
memiliki arti yang tidak jauh berbeda, yaitu pencilan adalah nilai-nilai pengamatan
yang berada jauh atau menyendiri dari kumpulan nilai pengamatan lainnya. Berbagai
macam penyebab dapat membuat nilai pencilan muncul dalam hasil pengamatan,
yaitu kesalahan manusia dalam mengumpulkan, merekam, dan melaporkan data,
termasuk kesalahan dalam asumsi sebaran data; tingginya tingkat keragaman data;
kerusakan alat bantu penelitian atau pengamatan; terjadinya suatu peristiwa yang
tidak biasa; dan tindakan pemalsuan data.
Keberadaan pencilan memiliki manfaat tersendiri di antaranya untuk
dijadikan bahan inspirasi penelitian mengapa nilai pencilan tersebut muncul dan
untuk mendeteksi kejadian-kejadian yang tidak biasa untuk meningkatkan tingkat
kewaspadaan terhadap suatu tindakan kriminal, walaupun begitu, keberadaannya
memungkinkan hasil analisa menjadi kurang sahih. Terdapat beberapa cara
pendeteksian terhadap pencilan yang dapat dilakukan, di antaranya adalah dengan
menggunakan visualisasi grafik dan dengan statistik uji seperti Leverage, Cook’s
Distance, Deviasi Kuartil, dan lain-lain. Bahwa tidak semua nilai pencilan
merupakan nilai pengamatan yang tidak sah dan tidak semua nilai pengamatan yang
tidak sah merupakan nilai pencilan.
29
8.2 Saran
Pendeteksian pencilan dapat dilakukan dengan berbagai macam cara yang
mana setiap cara memungkinkan untuk memberikan keputusan yang berbeda-beda.
Misalnya dalam suatu kasus, cara (A) tidak mendeteksi adanya pencilan, sedangkan
cara (B) mendeteksi adanya pencilan. Dengan memprioritaskan sikap kehati-hatian,
sebaiknya dalam kasus tersebut dipilih cara (B) untuk ditelaah penyebab munculnya
nilai pencilan agar dapat ditentukan penanganan data yang tepat untuk mendapatkan
hasil analisa yang lebih sahih.
DAFTAR PUSTAKA
Berry, William O., dan Feldman, Stanley. 1985. Multiple Regression in Practice.
University of Kentucky.
Beyer, William H. 1991. CRC Standard Probability and Statistics: Tables and
Formulae. CRC Press. Boca Raton. Florida.
Bowerman, Bruce L., dan O’Connell, Richard T. 1991. Linear Statistical Models:
An Applied Approach. 2nd Edition. PWS Kent Publishing Company. Boston.
Chandola, Varun., Banerjee, Arindam., dan Kumar, Vipin. 2009. Outlier Detection:
A Survey. University of Minnesota. ACM Computing Surveys, 41(3), July
2009.
Cheng, J. Gongxian. 2000. Outlier Management in Intelligent Data Analysis.
University of London.
Cousineau, Denis., dan Chartier, Sylvain. 2010. Outliers Detection and Treatment:
A Review. International Journal of Psychological Research 2010 Vol.3 No. 1.
Draper, N.R. dan Smith H. 1992. Analisis Regresi Terapan. Edisi Kedua. PT.
Gramedia Pustaka Utama. Jakarta.
Osborne, Jason W. dan Overbay, Amy. 2004. The Power of Outliers (and Why
Researchers Should Always Check for Them). North Carolina State
University.
Soemartini. 2007. Pencilan (Outlier). Universitas Padjadjaran. Jatinangor.
30
Sungkawa, Iwa. 2009. Penditeksian Pencilan (Outlier) dan Residual pada
Regresi Linier. Informatika Pertanian Vol. 18 No.2.
31