model logistik untuk data ordinal ( ordinal regression )

38
Model Logistik untuk Data Ordinal (Ordinal Regression) Analisis Data Kategorik Pertemuan X

Upload: aphrodite-charles

Post on 01-Jan-2016

112 views

Category:

Documents


4 download

DESCRIPTION

Model Logistik untuk Data Ordinal ( Ordinal Regression ). Analisis Data Kategorik Pertemuan X. Ordinal Regression. Menggunakan variabel ordinal Bisa mengurutkan nilainya tetapi jarak sebenarnya antar nilai tidak diketahui Model ordinal logistic untuk satu variabel bebas X: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Model Logistik untuk Data Ordinal(Ordinal Regression)

Analisis Data Kategorik

Pertemuan X

Page 2: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Ordinal Regression

• Menggunakan variabel ordinal• Bisa mengurutkan nilainya tetapi jarak sebenarnya

antar nilai tidak diketahui• Model ordinal logistic untuk satu variabel bebas X:

• Makin tinggi koefisien mengindikasikan asosiasi dengan skor yang tinggi

Page 3: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Ordinal Regression• When you see a positive coefficient for a

dichotomous factor, you know that higher scores are more likely for the first category. A negative coefficient tells you that lower scores are more likely.

• For a continuous variable, a positive coefficient tells you that as the values of the variable increase, the likelihood of larger scores increases. An association with higher scores means smaller cumulative probabilities for lower scores, since they are less likely to occur.

Page 4: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Ordinal Regression

• Setiap logit memiliki -nya sendiri (thresholds values) dengan koefisien yang sama, artinya efek dari variabel independen sama untuk fungsi logit yang berbeda (proportional odds model)

• Contoh: Survei kepuasan responden dengan pilihan jawaban sangat setuju hingga sangat tidak setuju

• Ordinal variabel sebagai dependen variabel• SPSS Ordinal Regression atau PLUM (Polytomous

Universal Model)

Page 5: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Ordinal Regression dengan SPSS

• Untuk dependent variabel, SPSS memodelkan probabilitas setiap level atau dibawahnya (bukan setiap level atau di atasnya)

• Secara otomatis, SPSS mengambil kategori terakhir sebagai reference category

• Contoh: Level awal kelas bahasa inggris (Y), dengan gender (X; boys = 0, girls = 1). LSYPE.sav

• Analyses > Regression > Ordinal

Gender LEVEL

3 4 5 6 7

Boys 967 1372 2835 1500 503

Girls 462 904 2780 2015 828

Page 6: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 7: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 8: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

We compare the final model (model with all explanatory variables) against the baseline (model without any explanatory variables) to see whether it has significantly improved the fit to the data.The statistically significant chi-square statistic (p<.0005) indicates that the Final model gives a significant improvement over the baseline intercept-only model.

Page 9: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

The Deviance (-2LL) Statistic• Deviance, ukuran seberapa banyak variasi yang tidak

dapat dijelaskan oleh model regresi logistik• Semakin tinggi nilai deviance semakin kurang akurat

modelnya

• Jika model baru lebih baik dalam menjelaskan data daripada baseline maka seharusnya ada pengurangan yang signifikan pada deviance yang bisa di uji pada distribusi chi-square (memberikan p-value)

Page 10: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Kecenderungan chi-square untuk significant pada sample berukuran besar

• Sensitive terhadap sel yang kosong • Gunakan p-value yang lebih rendah

(misalnya 0.01)• Gunakan pseudo

Page 11: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

These statistics are intended to test whether the observed data are consistent with the fitted model. We start from the

null hypothesis that the fit is good. If we do not reject this hypothesis (i.e. if the p value is large), then you conclude that the data and the model predictions are similar and

that you have a good model.

Here, the pseudo R2 values (e.g. Nagelkerke = 3.1%) indicates that gender explains a relatively small proportion of the variation

between students in their attainment.

Page 12: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Parameter estimates merupakan tabel inti dimana bisa dilihat hubungan antara variabel penjelas dengan variabel outcome

• Thresholds tidak diintepretasikan, hanya intercept titik (logit) dimana pelajar diprediksikan ke kategori yang lebih tinggi

• Odds level 6 atau di bawah level 6 (level = 6) adalah komplemen dari odds berada di level 7, level 5 atau di bawah level 5 (level = 5) adalah komplemen dari odds berada di level 6 ke atas dst

Page 13: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Girls = reference category• y = a – bx• 1/0.53= 1.88, equally 1/1.88=0.53

Proportional odds principle

Page 14: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• OR (girls as the base) = exp(-.629) = 0.53• OR (boys as the base) = exp(.629) = 1.88

This test compares the ordinal model which has one set of coefficients for all thresholds (labelled Null Hypothesis), to a model with a separate set of coefficients for each threshold (labelled General). If the general model gives a significantly better fit to the data than the ordinal (proportional odds) model (i.e. if p<.05) then we are led to reject the assumption of proportional odds.

Page 15: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Asumsi Proportional Odds (PO)

• Cumulative proportion = just the percentage• Cumulative odds = 1347/(14463-1347), odds mencapai

level 7, odds berada di level 6 atau ke atas= 4918/9545 = 0.52 atau p/(1-p)

• Cumulative logits = ln (cumulative odds)

Page 16: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Efek dari variabel penjelas adalah konsisten atau proporsional pada thresholds yang berbeda (SPSS,parallel lines assumption)

Page 17: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Remaja putri cenderung untuk memperoleh level yang lebih tinggi daripada remaja putra

Page 18: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 19: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Secara umum odds untuk remaja putri selalu lebih tinggi daripada remaja putra

• OR bervariasi pada threshold kategori yang berbeda, jika OR ini tidak berbeda secara signifikan maka kita bisa meringkas hubungan antara gender dengan level bahasa inggris dengan OR tunggal dari regresi ordinal

Page 20: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 21: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Ordinal Regression dengan Beberapa Variabel Bebas

• Sebuah study dilakukan untuk melihat faktor-faktor yang mempengaruhi seseorang untuk mendaftar sekolah ke jenjang lebih tinggi

• Seorang pelajar ditanya apakah mereka: “tidak akan mendaftar”, “tidak tahu”, dan “akan mendaftar” ke jenjang lebih tinggi. Variabel outcome memiliki tiga kategori (0,1,2)

• Dikumpulkan juga data mengenai pendidikan orang tua (apakah pendidikan terakhir orang tua adalah S1;0,1), jenis institusi pendidikan (public atau private;0,1), dan GPA. ologit.sav

Page 22: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

PLUM apply with pared public gpa

/LINK=LOGIT

/PRINT=FIT PARAMETER SUMMARY TPARALLEL

Page 23: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 24: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 25: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 26: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 27: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Odds Ratio (ln Estimate)• Threshold biasanya tidak disertakan dalam intepretasi

proportional OR• Untuk pared, setiap kenaikan satu unit pared (dari 0 ke

1), odds untuk mendaftar 2.85 kali lebih besar daripada tidak tahu dan tidak mendaftar, dengan asumsi semua variabel dalam model konstan

• Demikian juga, odds antara tidak tahu dan mendaftar 2.85 kali lebih besar daripada tidak mendaftar

• Setiap kenaikan satu unit GPA, odds tidak mendaftar dan tidak tahu 1.85 kali lebih besar daripada yang mendaftar

Page 28: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Pendidikan orang tua dan GPA memiliki asosiasi positif untuk kecenderungan mendaftar ke jenjang sekolah yang lebih tinggi

• Setiap satu unit kenaikan pada pendidikan orang tua, ekspektasi log odds akan bertambah 1.05 setiap kenaikan kategori apply yang lebih tinggi

• Setiap kenaikan satu unit GPA diharapkan kenaikan ekspektasi log odds sebesar 0.62 pada setiap kenaikan apply yang lebih tinggi

• Public tidak memberikan efek yang signifikan pada apply

Page 29: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Example:• Random sample of Vermont citizens was asked to rate

the work of criminal judges in the state. The scale was Poor (1), Only fair (2), Good (3), and Excellent (4). At the same time, they had to report whether somebody of their household had been a crime victim within the last 3 years(1=Yes, 2=No).(vermont.sav)

• Apakah orang dengan riwayat pernah menjadi korban dan orang yang tidak memiliki riwayat pernah menjadi korban memiliki pandangan yang sama mengenai penegakan keadilan?

Page 30: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

• Penambahan variabel baru: sex, age(dua kategori), pendidikan (5 kategori)

Page 31: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 32: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )
Page 33: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Regresi Logistik VS Loglinier Model

• Regresi logistik adalah model statistika yang digunakan untuk variabel dependen/respon kategorik

• Loglinier model digunakan jika paling sedikit terdapat dua variabel respon dalam tabel kontingensi. Model akan menjelaskan pola hubungan diantara sekumpulan variabel respon kategorik

Page 34: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Loglinier Model dan Regresi Logistik berbeda dalam hal:

• Distribusi dari variabel kategorik yaitu Poisson bukan binomial

• Fungsi link yaitu log, bukan logit• Prediksi merupkan estimasi dari sel yang

dihitung berdasar tabel kontingensi, bukan nilai logit dari dependen

Page 35: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Kesesuaian Model Loglinier dan Model Logit

• Model loglinier dan model logit memiliki struktur yang sama untuk asosiasi antara variabel dependen/respon dan variabel-variabel independen/penjelas

• Mengandung interaksi yang paling umum untuk hubungan-hubungan diantara variabel-variabel penjelas

Page 36: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Kesesuaian Model Loglinier dan Model Logit

• Kesesuaian antara model logit dengan model log linier pada Tabel I x J x 2, :

• Respon Y berasosiasi dengan faktor A dan B dengan efek tiap variabel sama pada tiap level dari faktor yang lain

• Model loglinier mengandung asosiasi antara &dan untuk hubungan antara faktor

• Hasil akhir model adalah (AB,AY,BY)

Page 37: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Kesesuaian Model Loglinier dan Model Logit

• Model loglinier (AB,AY,BY) menyatakan secara tidak langsung model logit dapat diperlihatkan sebagai berikut:

=

=• Dengan mengasumsikan bahwa :

Page 38: Model Logistik untuk  Data Ordinal ( Ordinal  Regression )

Kesesuaian Model Loglinier dan Model Logit

• Dengan demikian bentuk sederhana dari model logit adalah: ++