best subsets

13
1. Teori Regresi Best Subset Regresi best subset berfungsi mengidentifikasi model-model yang mempunyai R 2 tertinggi dari kombinasi variabel prediktor yang dihasilkan. Regresi best subset adalah suatu metode yang efisien dalam menghasilkan model yang mempunyai akurasi tinggi dengan sesedikit mungkin variabel prediktor. R 2 =1SSError SSTotal =1( y i ^ y i ) 2 ( y i y ) 2 Keterangan: y i = nilai observasi respons ke-i y = mean respons ^ y i = nilai taksiran ke-i Adjusted R 2 , berguna dalam membandingkan model dengan jumlah predictor yang berbeda. Rumus untuk menghitung adjusted R 2 adalah: R adj 2 = 1MS Error MS Total =1( ( y i ^ y i ) 2 ( y i y ) 2 ) ( n1 np1 ) Keterangan: y i = nilai observasi respons ke-i y = mean respons ^ y i = nilai taksiran ke-i n = banyak observasi p = banyak prediktor masing-masing model Cp Mallows’ adalah ukuran kebaikan prediksi. Suatu variabel yang nilai Cp Mallows’nya kecil dan semakin mendekati p maka model tersebut semakin baik. Rumus untuk memperoleh Cp Mallows’ adalah: Cp= SSEp MSEm −( n2 p) Keterangan: 1

Upload: fitri-ayu

Post on 17-Dec-2015

20 views

Category:

Documents


2 download

DESCRIPTION

regresi best subset

TRANSCRIPT

1. Teori Regresi Best SubsetRegresi best subset berfungsi mengidentifikasi model-model yang mempunyai R2 tertinggi dari kombinasi variabel prediktor yang dihasilkan. Regresi best subset adalah suatu metode yang efisien dalam menghasilkan model yang mempunyai akurasi tinggi dengan sesedikit mungkin variabel prediktor.

Keterangan: = nilai observasi respons ke-i = mean respons = nilai taksiran ke-iAdjusted R2, berguna dalam membandingkan model dengan jumlah predictor yang berbeda. Rumus untuk menghitung adjusted R2 adalah:

Keterangan: = nilai observasi respons ke-i = mean respons = nilai taksiran ke-in = banyak observasip = banyak prediktor masing-masing modelCp Mallows adalah ukuran kebaikan prediksi. Suatu variabel yang nilai Cp Mallowsnya kecil dan semakin mendekati p maka model tersebut semakin baik. Rumus untuk memperoleh Cp Mallows adalah:

Keterangan:SSEp adalah SSE tiap-tiap model yang diperolehMSEm adalah MSE model dengan semua variabel prediktor dimasukkann adalah banyaknya observasip adalah banyaknya term di dalam model termasuk konstanta.

2. Contoh Kasus:Data diambil dari buku Applied Linear Statistical Models oleh Neter et al.(1996). Data ini dikumpulkan bertujuan untuk mempelajari hubungan antara banyaknya lemak pada tubuh (Y) dengan beberapa variabel penjelas yang mungkin berpengaruh, berdasarkan sampel 20 wanita sehat berusia 25-34 tahun. Variabel-variabel tersebut antara lain ketebalan lipatan kulit trisep (X1), ukuran lingkar paha (X2), dan lingkar lengan (X3).

Tabel 1. Data x1x2x3y

19.543.129.111.9

24.749.828.222.8

30.751.93718.7

29.854.331.120.1

19.142.230.912.9

25.653.923.721.7

31.458.527.627.1

27.952.130.625.4

22.149.923.221.3

25.553.524.819.3

31.156.63025.4

30.456.728.327.2

18.746.52311.7

19.744.228.617.8

14.642.721.312.8

29.554.430.123.9

27.755.325.722.6

30.258.624.625.4

22.748.227.114.8

25.25127.521.1

Keterangan:X1: Ketebalan Lipatan Kulit Trisep X2 : Lingkar Paha X3: Lingkar Lengan Y: Lemak Tubuh

3. Penyelesaian Kasus dengan software MINITABLangkah pertama kali yang dilakukan adalah meregresikan antara variabel respon dengan ketiga variabel prediktor. Dengan menggunakan software MINITAB maka dihasilkan output seperti berikut ini.

Regression Analysis: y versus x1. x2. x3

The regression equation isy = 117 + 4.33 x1 - 2.86 x2 - 2.19 x3

Predictor Coef SE Coef T P VIFConstant 117.08 99.78 1.17 0.258x1 4.334 3.016 1.44 0.170 708.843x2 -2.857 2.582 -1.11 0.285 564.343 x3 -2.186 1.595 -1.37 0.190 104.606

S = 2.47998 R-Sq = 80.1% R-Sq(adj) = 76.4%

Analysis of Variance

Source DF SS MS F PRegression 3 396.98 132.33 21.52 0.000Residual Error 16 98.40 6.15Total 19 495.39

Berdasarkan output regresi linier berganda maka didapatkan model : Y = 117 + 4.33 X1 2.86 X2 2.19 X3. Model tersebut dapat diartikan bahwa apabila ketebalan lipatan kulit trisep naik sebesar 1 satuan maka lemak tubuh cenderung naik sebesar 4.33 satuan dengan asumsi variabel lainnya adalah konstan. Sedangkan jika ukuran lingkar paha naik sebesar 1 satuan maka lemak tubuh cenderung turun sebesar 2.86 satuan dengan asumsi variabel lainnya adalah konstan. Apabila ukuran lingkar lengan naik sebesar 1 satuan maka lemak tubuh akan cenderung turun sebesar 2.19 satuan.Pada persamaan regresi yang didapat terlihat bahwa lingkar paha dan lingkar lengan memiliki hubungan negatif terhadap jumlah lemak dalam tubuh. Padahal secara logika hubungan keduanya pasti positif. Selain itu nilai VIF pada semua variabel sangat besar yaitu di atas 100. Secara teori apabila nilai VIF lebih dari 10 maka terindikasi adanya multikolinieritas pada model regresi tersebut. Tanda-tanda adanya multikolinieritas pada data di atas juga terlihat dari nilai R2 yang cukup tinggi yaitu 80,1% dan secara overall parameternya signifikan (ditunjukkan oleh nilai p pada Regression), tetapi tidak ada satupun variabel yang signifikan pada pengujian individu. Oleh karena itu diperlukan cara untuk mengatasi adanya multikolinieritas ini salah satunya adalah dengan cara regresi best subset.Berikut ini hasil regresi best subset dari data jumlah lemak tubuh dengan menggunakan software Minitab dan SAS.

4. Best Subset Regression Dengan MinitabDengan menggunakan program MINITAB. langkah-langkah yang dilakukan adalah mengklik Stat> Regression> Best subset> Minimal 1> Models of each size to print=3. diperoleh output seperti berikut:

Best Subsets Regression: y versus x1. x2. x3

Response is y

Mallows x x xVars R-Sq R-Sq(adj) Cp S 1 2 3 1 77.1 75.8 2.4 2.5102 X 1 71.1 69.5 7.3 2.8198 X 1 2.0 0.0 62.9 5.1926 X 2 78.6 76.1 3.2 2.4963 X X 2 77.8 75.2 3.9 2.5432 X X 2 77.6 74.9 4.1 2.5565 X X 3 80.1 76.4 4.0 2.4800 X X X

Pada regresi best subset, nilai R2 yang tinggi dan nilai cp-mallow yang mendekati jumlah parameter merupakan model yang terbaik. Pada output regresi best subset di atas, model regresi dengan hanya menggunakan variabel X2 yaitu ukuran lingkar paha sudah memberikan nilai R2 yang cukup tinggi yaitu sebesar 77,1% dan nilai cp-nya mendekati jumlah parameternya yaitu 2. Menurut prinsip parsimoni, sebaik-baiknya model adalah model yang jumlah variabelnya sekecil mungkin dengan R2 sebesar mungkin. Sedangkan R2 ketika menggunakan dua variabel yaitu lipatan trisep dan lingkar lengan adalah sebesar 78,6%, hanya bertambah 1,5% dari R2 ketika hanya menggunakan satu variabel yaitu lingkar paha. Untuk mempermudah analisis, maka dibuat plot antara p dan cp seperti pada gambar berikut.

Berdasarkan plot antara p dan cp terlihat bahwa memang yang lebih dekat dengan jumlah parameternya adalah regresi dengan menggunakan dua variabel yaitu X1 (lipatan trisep) dan X3(lingkar lengan). Akan tetapi pemilihan model terbaik bukan hanya berdasarkan cp yang mendekati jumlah parameter, tapi juga memperhatikan nilai R2-nya. Jadi yeng dipilih adalah regresi jumlah lemak tubuh dengan hanya menggunakan variabel X2 (lingkar paha). Berikut ini adalah hasil regresinya.

Regression Analysis: y versus x2

The regression equation isBanyak lemak pada tubuh = - 23.6 + 0.857 ukuran lingkar paha

Predictor Coef SE Coef T P VIFConstant -23.634 5.657 -4.18 0.001Ukuran lingkar paha 0.8565 0.1100 7.79 0.000 1.000

S = 2.51024 R-Sq = 77.1% R-Sq(adj) = 75.8%

Analysis of Variance

Source DF SS MS F PRegression 1 381.97 381.97 60.62 0.000Residual Error 18 113.42 6.30Total 19 495.39

Berdasarkan hasil regresi yang didapat, dapat diinterpretasikan bahwa apabila ukuran lingkar paha bertambah 1 satuan maka lemak pada tubuh akan meningkat sebanyak 0,857 satuan. Nilai VIF pada hasil regresi di atas juga sudah 1 artinya tidak ada multikolinieritas dalam model. Nilai R2 dapat dikatakn tinggi yaitu sebesar 77,1%. Pengaruh ukuran lingkar paha juga signifikan terhadap banyak lemak tubuh ditunjukkan oleh nilai p-value yang kurang dari alpha 0,05.

5. Regresi Best Subset dengan software SASLangkah-Langkah Regresi Best Subset dengan software SAS yaitu:1. Pada menu bar klik icon Solution-Analysis-Analyst.2. Mengklik File Import Data - Memasukkan data variabel respon (y) dan prediktor (x1,x2,x3) pada SAS dengan mengimport file yang berisi data kasus pada excel, file disimpan pada excel 97-2003 Workbook.3. Dalam melakukan pengolahan data melalui pemilihan model regresi terbaik pertama meregresikan variabel prediktor pada bagian explanatory dan variabel respon pada dependent variabel.4. Selanjutnya dilanjutkan dengan mengeklik Statistics Regression Linear. Pada sub menu model dilakukan pemilihan Mallows Cp dan pada bagian menu bar klik statisctic dan centang Mallows Cp statistics serta Adjusted R-Sq akhiri dengan klik OK. Sehingga dihasilkan output seperti di bawah ini, dan dilakukan analisis pembahasan berdasarkan output yang diperoleh.

Pemilihan model regresi terbaik melalui metode best subset regression memiliki beberapa kriteria, kriteria dalam pemilihan model tersebut terbagi menjadi empat yaitu :1. nilai koefisien determinasi R2 tinggi2. nilai koefisien R-Adj tinggi3. nilai statistics Cp-Mallow mendekati nilai parameternya4. prinsip Parsimony

Langkah pertama yang dilakukan adalah meregresikan antara variabel respon dengan semua variabel prediktor dan berikut adalah output SAS.

Berdasarkan output SAS tersebut maka dapat dilihat hasil regresi linier berganda menghasilkan model : Y=117,08 + 4,334X1 -2,856X2 -2,186X3. Apabila ketiga variabel prediktor diuji secara overall maka dihasilkan nilai p-value yang kurang dari 0,0001 sehingga disimpulkan bahwa terdapat minimal 1 variabel prediktor yang mempengaruhi variabel respon. Kemudian dilakukan uji individu yang dihasilkan nilai p-value > alpha (5%) sehingga pengujian individu menghasilkan kesimpulan bahwa semua variabel prediktor tidak ada yang signifikan dalam model. Dengan R2 yang cukup tinggi yaitu 80,1% dan tidak ada variabel yang signifikan maka terindikasi adanya ill conditional yaitu multikolinieritas. Oleh karena itu dilakukan pemilihan model terbaik dengan menggunakan metode Best Subset Regression seperti di bawah ini.Pemilihan model yang paling sesuai melalui Best Subset Regression dipilih melalui output di bawah ini.

Berdasarkan output di atas terlihat nilai Cp yang mendekati dengan jumlah parameter adalah nilai Cp sebesar 2,4420 dan memiliki nilai koefisien determinasi tertinggi kedua sebesar 77,10% merupakan model dengan satu prediktor yaitu X2. Sebenarnya nilai Cp mallow yang mendekati nilai parameter adalah dengan Cp 3,2242 (mendekati 3) tetapi dengan menambah satu variabel nilai R-sq hanya bertambah 1,52% maka tidak dipilih berdasarkan pertimbangan prinsip parsimony. Setelah diperoleh bahwa variabel yang digunakan dalam model adalah X2 maka selanjutnya diberikan hasil regresi antara dan lemak tubuh dan ukuran lingkar paha.

Dengan memasukkan variabel prediktor ukuran lingkar paha ke dalam model didapatkan bahwa nilai P-value < alpha (0,05) artinya variabel lingkar paha berpengaruh signifikan terhadap lemak tubuh. Nilai R2 model cukup tinggi yaitu 77,10%. Terlihat pula bahwa nilai variance inflation factor menunjukkan angka 1, sehingga terjadi multikolinearitas dalam model.

6. Pengujian Asumsi Residual Model Regresi Terpilih (Menggunakan Variabel Independen Lingkar Paha)

Berikut ini adalah plot residual dari model regresi yang terpilih.

Berdasarkan plot residual diatas dapat dilakukan uji asumsi IIDN untuk residual secara visual. Untuk Distribusi Normal maka dapat dilihat pada Normal Probability Plot yang terlihat titik-titik scatternya mengikuti garis linier. Sedangkan asumsi Identik terpenuhi dapat diuji secara visual dari Residual vs Fitted values yang menyebar secara random acak. Asumsi Independen juga terlihat terpenuhi karena plot antara residual versus order juga acak serta tidak membentuk suatu pola.Setelah diperoleh model regresi terbaik menggunakan best subset, kemudian diuji asumsi residual yang dihasilkan. yaitu asumsi identik, independen dan distribusi normal.

6.1 Asumsi IdentikAsumsi identik diuji dengan menggunakan uji glejser. Berikut ini adalah hasil output uji glejser dengan menggunakan eviews.

Hipotesis:H0 : Tidak ada heterokedastisitasH1 : Ada heterekodastisitasHasil output menunjukkan nilai Obs*R-squared adalah sebesar 0,375 sedangkan nilai probabilitas (chi-square) adalah 0.5402. Karena probabilitas (chi-square) > (0.05) dengan demikian gagal tolak H0. artinya residual tidak terjadi heteroskedastisitas.

6.2 Asumsi IndependenHipotesis:H0 : tidak ada autokorelasi antara residual sekarang dengan periode sebelumnya (H1 : ada korelasi autoantara residual sekarang dengan periode sebelumnya (Statistik uji : DW = 2.5Untuk = 0.05 n= 20 dan k=1 maka dL = 1.2015 dan dU = 1.4107Kesimpulan : karena DW terletak antara dU dan (4-dU), maka gagal tolak H0. Artinya tidak terdapat autokorelasi antara residualnya.

6.3 Asumsi Distribusi NormalPengujian residual apakah berdistribusi normal atau tidak dilakukan dengan menggunakan uji Kolmogorov Smirnov. Berikut ini adalah plot hasil uji Kolmogorov Smirnov.

H0 : residual berdistribusi normalH1 : residual tidak berdistribusi normal = 0.05Statistik uji : P-value > 0.15Titik kritis : Tolak H0 jika P-value < Kesimpulan : P-value > maka gagal tolak H0. Artinya residual berdistribusi normal.Berdasarkan pengujian di atas. asumsi normal untuk residual telah terpenuhi.

8