k7 k8 mpl logit multinomial
TRANSCRIPT
VARIABEL KATEGORIK
Variabel Kategorik sebagai variabel bebas
Contoh:
Jenjang Pendidikan: SD, SLTP, SLTA, D3, S1, S2, S3
Laki-perempuan; Kota-Desa; Ya-Tidak; Domestik-Asing
Variabel Kategorik sebagai variabel terikat
Contoh:
Pilihan Investasi: Saham, Valas, Obligasi, Deposito, Emas
Pilihan Moda Transportasi ke tempat kerja:
Kereta, Bus, Motor, Mobil Pribadi, Jalan kaki
REGRESI DG VARIABEL
TERIKAT KATEGORIK/ DUMMY
PEMBAHASAN:
Fokus
Kasus yang muncul
Model
Masalah
Bagaimana kalau diestimasi dengan
OLS
Kasus
1. Apa yang mempengaruhi pilihan investasi pada stock market?
Variabel terikat: Pilihan Investasi (kategorik): stock market atau lainnya
Variabel bebas:
Pendapatan (rupiah)
Return (persentasi)
Kondisi Ekonomi (kategorik): kontraksi, stagnan, ekspansi
2. Apa yang mempengaruhi pilihan transportasi kerja?
Variabel terikat: Pilihan moda transportasi (kategorik):
Kereta, bus, motor, mobil pribadi
Variabel bebas:
Jarak ke tempat kerja, Pendapatan (rupiah), Harga BBM, Kondisi Jalan, Kenyamanan
3. Apakah punya rumah atau tidak
Variabel terikat: Kepemilikan rumah
Variabel bebas: Pendapatan Keluarga, Banyaknya Anggota Keluarga, Jenis rumah, Usia Kepala Keluarga.
Pemodelan Matematis dan masalahnya
Yi = 1 + 2 Xi + ui
X = pendapatan keluarga
Y = 1 ; bila suatu keluarga mempunyai rumah
0 ; bila suatu keluarga tidak mempunyai rumah
Secara matematis, dengan mengasumsikan bahwa E(ui) = 0,
E(Yi Xi) = 1 + 2Xi
Secara statistik, ekspektasi kondisional dari Yi jika diberikan Xi
E (Yi Xi) = (Yi = 1) P( Yi = 1Xi ) + (Yi = 0) P(Yi = 0Xi) = P(Yi = 1 Xi)
Bila
pi : probabilita bahwa keluarga i memiliki rumah, yaitu bila Yi = 1;
(1 – pi ): probabilita bahwa keluarga i tidak memiliki rumah, yaitu bila Yi = 0,
E(Yi X) = (Yi = 0) P(Yi = 0 Xi) + (Yi = 1) P(Yi = 1 Xi) = P(Yi = 1 Xi) = pi
Akibatnya:
E(Yi Xi) = 1 + 2 Xi = pi
Karena 0 pi 1, akibatnya: 0 1 + 2 Xi 1
Contoh
Akan dilihat hubungan antara pernah-tidaknya melakukan
perjalanan ke luar negeri, dan penghasilan per bulan.
Model: Yi = 1 + 2 Xi + ui
Yi = 1; Pernah melakukan perjalanan ke luar negeri
= 0; Tidak pernah melakukan perjalanan ke luar
negeri
Xi = Pendapatan
Apakah estimator hasil OLS dapat menjamin bahwa
besaran 1 + 2 Xi terletak antara 0 dan 1?
D
A
T
A
KeluargaPernah ke Luar
Negeri
Pendapatan
(Juta Rp.)Keluarga
Pernah ke Luar
Negeri
Pendapatan
(Juta Rp.)
01 0 2,8 21 1 4,3
02 1 3,4 22 1 5,6
03 1 5,3 23 0 1,4
04 0 2,1 24 0 0,9
05 0 1,9 25 1 7,3
06 1 3,6 26 0 1,3
07 1 3,7 27 1 6,3
08 0 1,7 28 1 3,7
09 0 1,2 29 0 1,9
10 0 1,5 30 0 2,0
11 1 1,9 31 1 4,2
12 1 2,0 32 0 3,2
13 0 2,1 33 1 4,0
14 1 2,9 34 1 3,0
15 0 1,1 35 0 1,0
16 1 1,8 36 0 0,9
17 1 7,0 37 1 2,4
18 0 2,2 38 1 2,3
19 0 2,0 39 0 1,7
20 1 6,0 40 1 5,0
ANALISISTaksiran model yang ditaksir dengan OLS sebagai berikut:
Yi = -0,0637 + 0,1986 Xi
R2 = 0,4665
Interpretasi Model
Intercept = -0,0637;
Bila pendapatan Rp. 0, maka probabilitas bahwa orang tersebut pernah melakukan perjalanan ke luar negeri adalah negatif.
Bila pendapatan lebih kecil dari Rp 321.000, probabilitas orang tersebut pernah melakukan perjalanan ke luar negeri masih nol.
Bila pendapatan lebih besar Rp. 321.000 probabilitas orang tersebut pernah melakukan perjalanan ke luar negeri positif.
Tetapi, bila pendapatan lebih besar dari Rp. 5,4 juta, probabilitas pernah melakukan perjalanan ke luar negeri lebih dari satu.
Slope = 0,1986, artinya bila pendapatan naik 1 unit (Rp.1 juta) probabilitas seseorang untuk melakukan perjalanan keluar negeri naik 20%.
Persyaratan 0 E(Yi Xi) 1 sulit untuk
dipenuhi, bagaimana mengatasinya?
Ada dua cara untuk mengatasi hal tersebut :
Kita estimate modelnya dengan OLS.
Bila E(Yi Xi) terletak antara 0 dan 1 berarti tidak ada masalah
Bila E(Yi Xi) > 1, kita anggap E(Yi Xi) = 1
Bila E(Yi Xi) < 0, kita anggap E(Yi Xi) = 0
E(Yi Xi) akhirnya akan terletak antara 0 dan 1.
Metode ini tidak populer karena kurang realistis.
Kita estimate model Yi = 1 + 2 Xi + ui dengan suatu metode yang akan menjamin bahwa E(Yi Xi) terletak antara 0 dan 1.
Ada dua macam teknik yang dapat digunakan, yaitu :
(i). Logit, dan (ii). Probit
Dalam kuliah ini yang akan dibicarakan hanya Model Logit.
Logit (fungsi distribusi logistik)
Didefinisikan:
)X(iiii21e1
1)X1Y(Ep
atau
iZie1
1p
; dimana : Zi = 1 + 2 Xi
Pengamatan :
• pi terletak antara 0 dan 1, karena Zi terletak antara - dan .
Bila Z , maka pi 1
Bila Z - , maka pi 0
• pi mempunyai hubungan non linier dengan Zi, artinya pi tidak konstan
seperti asumsi pada MPL (Model Probabilitas Linier).
• Secara keseluruhan, Model Logit adalah Model Non-Linier, baik dalam
parameter maupun dalam variabel. Oleh karena itu,
metode OLS tidak dapat digunakan untuk mengestimasi model logit.
Definisi Logit:izi
e1
1p
izie1
1p1
i
i
z
z
e1
e
=
Sekarang, perhatikan rasio antara pi dan 1 – pi :
i21i
i
i
i
ixz
z
z
z
z
i
i eee
1
e1
e
e1
1
p1
p
Perbandingan itu disebut Odd Ratio atau sering juga disebut resiko.
Untuk contoh perjalanan ke luar negeri, maka odd ratio merupakanperbandingan antara probabilitas seseorang pernah pergi ke luarnegeri dengan probabilitas seseorang tidak pernah pergi ke luarnegeri .
Misalkan saja bahwa probabilitas seseorang pernah ke luar negeriadalah 80%. Dengan demikian, probabilitas bahwa seseorang tidakpernah pergi ke luar negeri adalah 20%. Sehingga odd ratio adalah 4banding 1.
Makin besar odd ini, makin besar kecenderungan seseorang pernahpergi ke luar negeri. Ekstrimnya, bila p kecil sekali, maka 1 – p dekatdengan 1. Akibatnya odd ratio mendekati nol. Sebaliknya, bila p dekatdengan 1, maka 1 – p mendekati nol. Sehingga odd ratio sangatbesar.
Dengan perkataan lain, odd adalah suatu indikator kecenderunganseseorang pernah pergi ke luar negeri Ringkasnya, bila oddmendekati nol berarti kecenderungan seseorang pernah pergi ke luarnegeri sangat kecil sekali.
Bila odd ini kita log-kan, akan kita dapatkan log odd sebagai berikut:
i21i
i
i xzp1
p
Li = ln
Sehingga model yang akan kita perhatikan atau kita analisis menjadi :
i21
i
i xp1
p
L disebut log odd.Li = ln
Pengamatan :
• L linier dalam X
• L juga linier dalam 1 dan 2
• L disebut model Logit
• Karena p terletak antara 0 dan 1, L terletak antara - dan
• Meskipun L linier dalam X, tetapi p tidak linier dalam X
• 2 menyatakan perubahan dalam L bila x berubah 1 unit
• 1 menyatakan log odd pada saat pendapatan sama dengan nol.
Bila kita mengetahui tingkat pendapatan keluarga, katakanlah xi, kita
dapat menghitung probabilitas bahwa seseorang pernah ke luar negeri
dengan cara menghitung :
)x(ii21e1
1p
Masalahnya sekarang bagaimana menaksir 1 dan 2 ?
Penaksiran dengan Teknik Maksimum Likelihood (ML)
Bagi yang berminat mengetahuinya, silahkan baca buku
halaman 258 - 260
Pengujian Signifikansi Model
& ParameterUji seluruh model (Uji G)
Ho : 1 = 2 = ….. = P = 0
H1 : sekurang-kurangnya terdapat satu 0
Statistik uji yang digunakan :
A) (Model likelihood
B) (Model likelihood
P
2 ,
G = -2 ln
Model B: model yang hanya terdiri dari konstanta saja
Model A: model yang terdiri dari seluruh variabel
G berdistribusi Khi Kuadrat dengan derajat bebas p atau G ~ p2.
; : tingkat signifikansi.Ho ditolak jika G >
Bila Ho ditolak, artinya model A signifikan pada tingkat signifikansi .
Uji Wald : uji signifikansi tiap-tiap
parameter
j
j
2
j
j
)ˆ ( SE
ˆ
Ho : = 0 untuk suatu j tertentu ; j = 0, 1, … , p.
0
; j = 0, 1, 2, …., P
H1 :
Statistik uji yang digunakan adalah
Wj =
2
1
1
2
,
Statistik ini berdistribusi Khi Kuadrat dengan derajat bebas 1 atau
secara simbolis ditulis
Ho ditolak jika Wj >
Bila Ho ditolak, artinya parameter tersebut signifikan secara statistik
pada tingkat signifikansi .
Wj ~
; dengan tingkat signifikansi yang dipilih.
Interpretasi model / parameter
Interpretasi koefisien-koefisien dalam model regresi logistik
dilakukan dalam bentuk odds ratio (perbandingan resiko) atau
dalam adjusted probability (probabilitas terjadi).
Odd didefinisikan sebagai:p1
p
Dimana p menyatakan probabilitas sukses (terjadinya peristiwa y = 1)
dan 1-p menyatakan probabilitas gagal (terjadinya peristiwa y = 0).
(resiko)
Odds Ratio (perbandingan resiko), adalah perbandingan nilai Odds (resiko)
pada dua individu ; misalkan individu A dan individu B.
Odds Ratio dituliskan sebagai.
;
)X(p1)X(p
)X(p1)X(p
B
B
A
A
XA : karakteristik individu A
XB : karakteristik individu B
Adjusted probabilitas merupakan probabilitas terjadinya suatu peristiwa y = 1 dengan karakteristik yang telah diketahui.
P (y = 1x) =(z) exp 1
(z) .exp
; z = 0 + 1 x1 + …. + P xp.
Dituliskan ;
Interpretasi Parameter
Variabel bebas: kategorik
Membandingkan nilai odd dari salah satu nilai pada variabel tersebut
dengan nilai odd dari nilai lainnya (Referensi).
Misalkan kedua kategori tersebut adalah 1 dan 0 dengan 0 yang digunakan
sebagai kategori referensi, maka interprestasi koefisien pada variabel ini adalah
rasio dari nilai odds untuk kategori 1 terhadap nilai odds untuk kategori 0;
dituliskan sebagai:
)0x(p1
0) x(p
)1p(x - 1
1) p(x
j
j
j
j= exp. ( j ).
Artinya
resiko terjadinya peristiwa y=1 pada kategori xj = 1 sebesar
exp. ( j ) kali resiko terjadinya peristiwa y=1 pada kategori xj = 0.
Variabel Bebas: Kontinyu (tidak kategorik).
Setiap kenaikan C unit satuan pada variabel bebas akan mengakibatkan
resiko terjadinya y = 1 sebesar exp ( C.j ) kali lebih besar.
Ilustrasi
Siapa Pilih ParPol ANU?
Analisis hubungan antara karakteristik pemilih dengan pilihan parpol
Dugaan: pendidikan dan lapangan pekerjaan berpengaruh pada pilihan.
Pendidikan dapat mencerminkan tingkat pengetahuan dan kecocokannya
dengan program partai. Pekerjaan sebagai proksi tingkat strata ekonomi
pemilih
Variabel terikat:
Apakah memilih partai ANU pada PEMILU lalu?
Ya = 1
Tidak = 0
Variabel bebas:
Pendidikan tertinggi yang ditamatkan:
Tidak/belum bersekolah, Tidak tamat SD & Tamat SD = 1
SLTP dan SLTA = 2
Diploma I/II/III/Akademi, S-1, dan S-2/S-3 = 3
Definisi operasional:
Pendidik1 = 1; Tdk/blm bersekolah, Tidak tamat SD, dan Tamat SD
= 0; Lainnya
Pendidik2 = 1; SLTP dan SLTA
= 0; Lainnya
Pembanding: kelompok yang lulus pendidikan tinggi
Lapangan Pekerjaan Utama:
Pertanian = 1
Industri = 2
Perdagangan = 3
Definisi operasional:
Pekerja1 = 1; Pertanian
= 0; Lainnya
Pekerja2 = 1; Industri
= 0; Lainnya
Pembanding: lapangan usaha Perdagangan.
Tawaran Model:
Ln (p/1-p) = + 1 Pendidik1 + 2 Pendidik2 + 1 Pekerja1 + 2 Pekerja2 +
Model terestimasi:
Ln (p/1-p) = 2,383 – 2,280 Pendidik1 – 1,831 Pendidik2 – 1,130 Pekerja1
– 0,299 Pekerja2
Uji G: Nilai –2 log likelihood = 189,331.
Semua variabel signifikan secara bersama-sama.
Uji Wald: semua koefisien signifikan secara statistik pada = 5%,
kecuali koefisien pada variabel pekerja(2).
Perlukah variabel tersebut dikeluarkan dari model?.
Interpretasi
Bila pendidikan = 0, dan lapangan usaha = 0, atau disaat pendidikan
seseorang tinggi, dan bekerja di sektor perdagangan,
maka probabilitas mereka mendukung Partai ANU adalah sebesar:
Ln (p/1-p) = 2,383
(p/1-p) = e2,383
p = e2,383/ (1 + e2,383) = 91,55%.
Slop untuk variabel Pendidik1 adalah –2,280.
Artinya, peluang penduduk berpendidikan rendah untuk mendukung
Partai Anu lebih rendah. Terbukti dari nilai Exp (B= -2,280) = 0,102,
berarti bahwa peluang penduduk berpendidikan rendah hanya 0,102 kali
peluang penduduk berpendidikan tinggi.
Slop Pendidikan2 adalah –1,831. Artinya, peluang penduduk berpendidikan
rendah untuk mendukung Partai Anu lebih rendah.
Terbukti dari nilai Exp (B= -1,831) = 0,16, yang dapat diartikan bahwa
peluang penduduk berpendidikan menengah hanya 0,16 kali peluang
penduduk berpendidikan tinggi.
Secara analog, peluang penduduk yang bekerja di sektor pertanian atau industri
untuk mendukung partai lebih rendah dibanding penduduk yang bekerja
di sektor perdagangan.
Peluang penduduk yang bekerja di sektor pertanian mendukung partai
hanya 0,323 kali penduduk yang bekerja di sektor perdagangan.
Penduduk yang bekerja di sektor industri hanya 0,742 kali penduduk yang
bekerja di sektor perdagangan.
MODEL MULTINOMIAL LOGITKasus: Pilihan Investasi
(i). Deposito
(ii). Saham
(iii). Obligasi
(iv). SBI
Kasus: pilihan alat transportasi
(i) kereta api,
(ii) bus, atau kendaraan umum bukan KA
(iii) mobil pribadi.
(iv) motor
Model logistik dengan 4 kategori mempunyai tiga fungsi logit:
Fungsi logit untuk Y = 1 relatif terhadap fungsi logit untuk Y = 0
Fungsi logit untuk Y = 2 relatif terhadap fungsi logit untuk Y = 0
Fungsi logit untuk Y = 3 relatif terhadap fungsi logit untuk Y = 0
Kategori Y = 0 kita sebut sebagi kategori rujukan (reference group).
lnPr( )
Pr( )
Y x
Y x
1
0
0
3
p
pln
lnPr( )
Pr( )
Y x
Y x
2
0ln
p
p
2
0
)x0YPr(
)x3YPr(ln ln
p
p
1
0
z1 (x) = =
= 10 + 11 x1 + 12 x2 + … + 1p xp
=
= 20 + 21 x1 + 22 x2 + … + 2p xp
=
= 30 + 31 x1 + 32 x2 + … + 3p xp
z2 (x) =
z3 (x) =
lnPr( )
Pr( )
Y x
Y x
1
0ln
p
p1
e
e
z
z1
ze1
1
Ingat: model logit dikotomi, fungsi logitnya:
=
= 0 + 1 x1 + 2 x2 + … + p xp
p1 = Pr ( Y = 0x ) =
p0 + p1 = 1
z (x) =
p0 = Pr ( Y = 1x ) =
1
1 1 2 3 e e ez z z
e
e e e
z
z z z
1
1 2 31
e
e e e
z
z z z
2
1 2 31
e
e e e
z
z z z
3
1 2 31
Untuk Multinomial Logit dengan 4 kategori:
p1 = Pr ( Y = 1x ) =
p2 = Pr ( Y = 2x ) =
p3 = Pr ( Y = 3x ) =
p0 + p1 + p2 + p3 = 0
p0 = Pr ( Y = 0x ) =
Model ditaksir dengan Metode Maximum Likelihood
Ilustrasi Kasus: Pilihan Investasi
Pilihan yang ada:
1. Saham
2. Emas
3. Deposito / Tabungan
Faktor-faktor yang diduga mempengaruhinya:
pendidikan
lapangan pekerjaan
Definisi operasional:
Variabel terikat: (Referensi: Deposito/Tabungan)
1 = Saham
0 = Lainnya
1 = Emas
0 = Lainnya
Variabel bebas:
Pendidikan: DIDIK (Referensi: pendidikan tinggi)
1 = rendah
0 = Lainnya
1 = menengah
0 = Lainnya
Lapangan Pekerjaan: PEKERJA (Referensi: jasa)
1 = industri
0 = Lainnya
1 = Perdagangan
0 = Lainnya
Model:
Ln(p1/p0) = 10 + 11 DIDIK1+12 DIDIK2+ 13 PEKERJA1
+ 14 PEKERJA2
Ln(p2/p0) = 20 + 21 DIDIK1+22 DIDIK2 + 23 PEKERJA1
+ 24 PEKERJA2
Model multinomial yang didapat:
(1) Ln (p1/ p0) = 0,812 – 2,029 DIDIK1 – 1,537 PENDIDIK2
+ 413 PEKERJA1 + 0,481 PEKERJA2
(2) Ln (p2/ p0) = -1,516 + 0,241DIDIK1+ 0,396 DIDIK2
+ 1,487 PEKERJA1 + 0,537PEKERJA2
Bila pada dua persamaan diatas dimasukkan nilai 0, yang berarti
kelompok berpendidikan tinggi dan bekerja di sektor jasa-jasa,
maka akan diperoleh persamaan sebagai berikut:
Ln (p1/ p0) = 0,812
(p1/ p0) = Exp(0,812)
(p1/ p0) = 2,2524
p1 = 2,2524 p0
Berarti, peluang kelompok berpendidikan tinggi, dan bekerja
di sektor jasa-jasa untuk berinvestasi dalam bentuk saham 2,2524 kali
peluang untuk berinvestasi dengan menyimpan uang di Bank.
Dengan memasukan nilai 0 pada persamaan (2) maka persamaan menjadi:
Ln (p2/ p0) = -1,516
(p2/ p0) = Exp(-1,516)
(p2/ p0) = 0,2196
p2 = 0,2196 p0
Berbeda dengan persamaan pertama, intersep pada model ini mempunyai
tanda negatif. Berarti, peluang kelompok berpendidikan tinggi, dan bekerja
di sektor jasa-jasa untuk berinvestasi dengan membeli emas lebih rendah
dibanding peluang untuk berinvestasi dengan menyimpan uang di Bank,
yaitu sebesar 0,2196 kali.
Persamaan (1) menunjukan bahwa baik variabel Didik1 maupun Didik2
mempunyai koefisien negatif. Artinya, bahwa mereka yang berpendidikan
rendah dan menengah lebih kecil peluangnya untuk menanamkan uangnya
dalam bentuk saham dibanding mereka yang berpendidikan tinggi.
Hal ini dapat dimengerti mengingat menginvestasikan uang dalam bentuk
saham hanya populer pada sekelompok masyarakat, dan kelompok
umumnya mempunyai pendidikan tinggi.
Sedang untuk variabel pekerjaan, kedua koefisiennya bertanda positif, yang berarti mereka yang bekerja di sektor industri, dan perdagangan lebih berpeluang menanamkan uangnya dalam bentuk saham dibanding mereka yang bekerja di sektor jasa. Akan tetapi, perlu diingat bahwa perbedaan antar kategori dalam variabel lapangan pekerjaan ini tidak signifikan secara statistik. Berarti, peluang pekerja di sektor industri atau perdagangan relatif sangat kecil perbedaannya dengan mereka yang bekerja di sektor jasa.
Sedang persamaan (2) menunjukan bahwa peluang mereka yang mempunyai pendidikan rendah, dan menengah untuk menanamkan uangnya dalam bentuk emas, ternyata lebih tinggi dibanding mereka yang berpendidikan tinggi. Akan tetapi, uji Wald menunjukkan bahwa kedua variabel tersebut tidak signifikan secara statistik.
Untuk variabel Pekerja, ternyata mereka yang bekerja di sektor industri mempunyai peluang lebih besar untuk menanamkan uangnya dalam bentuk emas dibanding mereka yang bekerja di sektor jasa. Sedangkan mereka yang bekerja di sektor perdagangan juga menunjukan hal yang sama dengan yang bekerja di sektor industri, namun tidak signifikan secara statistik.
Dengan demikian dapat disimpulkan bahwa mereka yang berpendidikan
rendah atau menengah mempunyai peluang lebih tinggi untuk
menginvestasikan uangnya dalam bentuk tabungan dan atau emas.
Sedang mereka yang berpendidikan tinggi mempunyai peluang besar
untuk menginvestasikan dananya dalam bentuk saham, dan atau tabungan.
Sedang menurut pekerjaan, mereka yang bekerja di sektor industri dan
perdagangan mempunyai peluang besar untuk menginvestasikan dananya
dalam bentuk saham, dan atau emas. Dengan demikian, dapat dikatakan
bahwa mereka yang bekerja di sektor jasa lebih banyak yang
menginvestasikan dananya dengan menabung.