tutorial analisis diskriminan
DESCRIPTION
edTRANSCRIPT
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Analisis Diskriminan
Analisis diskriminan berguna pada siatuasi di mana kita ingin membentuk sebuah model
prediktif dari beberapa kelompok (group) berdasarkan pada karakteristik pada masing-masing
kasus. Prosedur pembentukan fungsi diskriminan (atau, pada lebih dari dua kelompok,
serangkaian set dari fungsi diskriminan) berdasarkan pada kombinasi linear dari variabel-
variabel prediktor yang memberikan pembeda terbaik dari kelompok-kelompok tersebut.
Fungsi dibentuk dari sebuah sampel pada sebuah kasus di dalam sebuah group yang telah
diketahui; fungsi lalu dapat diaplikasikan pada kasus baru dengan pengukuran pada variabel-
variabel prediktor yang tidak diketahui masuk pada kelompok mana.
Catatan: Pengelompokan variabel dapat mempunyai lebih dari dua nilai. Kode untuk
masing-masing pengelompokan variabel harus integer, akan tetapi, kita dapat
menspesifikasikan nilai maksimum dan minimum. Kasus-kasus pada nilai di luar batas tidak
termasuk pada analisis.
Sebagai contoh: Berdasarkan rata-rata, orang-orang pada daerah empat musim
mengkonsumsi kalori per hari lebih banyak dibandingkan orang yang tinggal di daerah tropis.
Peneliti ingin mengkombinasikan informasi ini pada sebuah fungsi untuk membedakan
bagaimana seorang individu dapat dibedakan dalam dua daerah. Peneliti beranggapan bahwa
informasi tentang ukuran populasi dan ekonomi juga penting. Analisis diskriminan
memungkinkan kita mengestimasi koefisien dari fungsi linear diskriminan, yang merupakan
bentuk lain dari persamaan regresi. Dengan demikian, dengan menggunakan koefisien a, b, c
dan d, persamaannya adalah:
D= a * climate + b * urban + c * populasi + d * pdb
Jika variabel-variabel dapat membedakan dua iklim tersebut, maka nilai D akan berbeda
antara daerah empat musim dan daerah tropis. Jika kita menggunakan metode stepwise, maka
kita dapat menemukan varabel apa yang tidak masuk ke dalam fungsi. Asumsi pada analisis
diskriminan
1. Prediktor tidak mempunyai korelasi yang tinggi satu dengan yang lain
2. Rata-rata dan varians pada prediktor tidak berkorelasi
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
3. Corelasi antara dua prediktor adalah konstan pada semua group
4. Nilai masing-masing prediktor harus berdistribusi normal
Contoh Kasus
Suatu saat, seorang karyawan bank ingin mengidentifikasikan karakateristik yang
mengindikasikan orang yang sering gagal membayar pinjaman (default), dan ingin
menggunakan karakteristik tersebut untuk mengidentifikasikan orang ke dalam good dan bad
dalam klasifikasi tingkat resiko kredit. Customer yang mempunyai catatan pernah gagal
(default) diberi kode 1 (Yes) dan yang belum pernah gagal diberi kode 0 (No).
Terdapat 700 data yang telah tersedia, yang terdiri dari tingkat pendidikan, lama tinggal
di alamat sekarang dan pendapatan keluarga. Berikut adalah tampilan data dengan SPSS
Kolom ed adalah tingkat pendidikan yang dikodekan dengan 1 sampai dengan 5,
address adalah lama tinggal pada alamat sekarang, income adalah pendapatan keluarga dan
default adalah catatan apakah customer pernah gagal (1) atau belum pernah gagal (0) dalam
melunasi cicilannya.
Langkah pertama adalah klik pada Analze, sorotkan mouse pada Clasify, lalu klik pada
Discriminant
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Anda akan diarahkan ke menu analisis diskriminan sebagai berikut:
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Pindahkah variabel default ke baris grouping variable dan variabel yang lain ke
Independend seperti pada gambar di atas. Setelah itu klik define range di bawah defaut
sehingga program akan mengarahkan ke menu sebagai berikut:
Masukkan nilai 0 ke minimum dan 1 ke maximum, yang artinya terdapat dua group
(kelompok) yaitu yang pernah gagal (1) dan yang belum pernah gagal (1). Klik continue
sehingga akan dikembalikkan ke menu analisis diskriminan. Lalu klik pada Statistic sehingga
akan diarahkan ke menu sebagai berikut:
Berikan tanda centang (tick mark) seperti pada gambar, lalu tekan continue, sehingga
akan dikembalikan lagi ke menu analisis diskriminan. Lalu klik Clasify sehingga akan muncul
box seperti ini:
Berikan tanda centang (tick mark) seperti pada gambar, lalu tekan continue, sehingga
akan dikembalikan lagi ke menu analisis diskriminan. Tekan OK sehingga akan keluar output,
dan tinggal diinterpretasikan.
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Analysis Case Processing Summary
Unweighted Cases N PercentValidExcluded Missing or out-of-range group codes
At least one missing discriminating variableBoth missing orout-of-range group codes and at least one missing discriminating variableTotal
Total
700
0
0
0
0700
Output pertama di atas menunjukkan adanya 700 data dan semua data telah terisi
sehingga tidak ada missing data.
Group Statistics
Previously defaulted Mean Std. DeviationValid N (listwise)
Unweighted WeightedNo Level of education
Years at current address Household income in thousands
1,65968,9458
47,1547
,904437,00062
34,22015
517517
517
517,000517,000
517,000
Yes Level of educationYears at current address Household income in thousands
1,90166,3934
41,2131
,972795,92521
43,11553
183183
183
183,000183,000
183,000
Total Level of educationYears at current addressHousehold income in thousands
1,72298,2786
45,6014
,928216,82488
36,81423
700700
700
700,000700,000
700,000
Tabel output kedua menunjukkan bahwa customer yang pernah gagal (Yes) mempunyai
rata-rata tingkat pendidikan lebih tinggi dari pada customer yang belum pernah gagal (No)
dengan rata-rata 1,9016 > 1,6596. Untuk lama tinggal, yang belum pernah gagal lebih lama
menempati alamat sekarang (8,9458 > 6,3934) dan pendapatan keluarga juga lebih tinggi
(47,1547 > 41,2131). Output di atas baru merupakan deskriptif saja dan belum dapat dijadikan
kesimpulan.
Output berikutnya adalah sebagai berikut:
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
Level of educationYears at current addressHousehold income in thousands
,987,973
,995
9,30119,402
3,533
11
1
698698
698
,002,000
,061
Tampak bahwa level of education (tingkat pendidikan) dan years at current address
(lama tinggal) adalah signifikan pada 0,05 dan pendapatan keluarga tidak signifikan, tetapi
signifikan pada 10%. Berarti tingkat pendidikan dan lama tinggal antara customer yang
pernah gagal berbeda signifikan dengan customer yang belum pernah gagal (5%). Pendapatan
keluargan tidak berbeda signifikan pada 5% tetapi signifikan pada 10%. Justifikasin
tergantung dari rancangan penelitian, apakah 5% atau 10%.
Interpretasi berikutnya adalah sebagai berikut:
Pooled Within-Groups Matricesa
Level of education
Years at current address
Household income in thousands
Covariance Level of educationYears at current addressHousehold income in thousands
,851,481
8,327
,48145,384
76,635
8,32776,635
1350,393
Correlation Level of educationYears at current addressHousehold income in thousands
1,000,077
,246
,0771,000
,310
,246,310
1,000
a. The covariance matrix has 698 degrees of freedom.
Tampak bahwa korelasi antar variabel independend relatif rendah dengan nilai tertinggi
adalah 0,310 antara lama tinggal dengan pendapatan keluarga. Hasil ini tidak menyalahi
asumsi pada analisis diskriminan. Sehingga berikutnya adalah sebagai berikut:
Log Determinants
Previously defaulted RankLog
DeterminantNoYesPooled within-groups
333
10,60710,81610,700
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Nilai log determinant yang besar menunjukkan semakin tinggi perbedaan antara group
covariance matrix di mana kolom Rank menunjukkan jumlah variabel independent, yaitu 3
buah variabel independen.
Test Results
Box's M 26,496F Approx. 4,387
df1df2 733460,1Sig. ,000
Tests null hypothesis of equal population covariance matrices.
Hasil uji Box’s M memberikan signifikansi sebesar 0,00 < 0,05 yang menunjukkan
terdapat perbedaan matriks covariance yang signifikan, selaras dengan nilai log determinant
yang menunjukkan bahwa asumsi tidak terpenuhi. Dalam contoh ini, analisis tetap digunakan
karena tidak terdapat data yang outliers. Jika terdapat data outliers, maka disarankan untuk
mentransformasikan variabel ke dalam bentuk lain, misalnya logaritma natural.
Interpretasi berikutnya adalah sebagai berikut:
Wilks' Lambda
Test of Function(s)Wilks'
Lambda Chi-square df Sig.1 ,955 32,040 3 ,000
Wilks’Lambda adalah untuk melihat kemampuan variabel independend dalam
membedakan group secara multivariate. Hasilnya adalah signifikansi sebesar 0,00 yang
menunjukkan bahwa ketiga variabel independent mampu membedakan group secara
signifikan. Seberapa besar kemampuan ketiga variabel independent dalam menjelaskan
kegagalan pembayaran adalah sebagai berikut:
Eigenvalues
Function Eigenvalue % of Variance Cumulative %CanonicalCorrelation
1 ,047a 100,0 100,0 ,212
a. First 1 canonical discriminant functions were used in the analysis.
Nilai canonical correlation mirip dengan koefisien determinasi pada analisis regresi,
sehingga dihitung sebesar 0,2122 = 0,0449 atau hanya sebesar 4,49% yang nilainya relatif
kecil.
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Untuk melihat variabel mana yang paling besar kontribusinya digunakan output
berikutnya:
Standardized Canonical Discriminant Function Coefficients
Function1
Level of educationYears at current addressHousehold income in thousands
-,653,739
,260
Tampak bahwa lama tinggal merupakan variabel yang paling besar pengaruhnya karena
mempunyai standardized yang paling tinggi. Tingkat pendidikan mempunyai nilai negatif
yang menunjukkan bahwa semakin tinggi pendidikan, kemungkinan gagal lebih tinggi dan
merupakan variabel kedua yang memberikan kontribusi setelah lama tinggal dan yang paling
rendah adalah pendapatan keluarga (dilihat nilai secara mutlak).
Output yang berikutnya adalah untuk melihat seberapa banyak prediksi yang tepat dan
seberapa banyak prediksi yang tidak tepat.
Classification Resultsa
Previously defaulted
Predicted GroupMembership
TotalNo YesOriginal Count No
Yes29960
218123
517183
% NoYes
57,832,8
42,267,2
100,0100,0
a. 60,3% of original grouped cases correctly classified.
Tampak bahwa dari 517 customer yang belum pernah gagal (No) hanya 299 yang sesuai
dengan prediksi dan 218 lainnya diprediksi kurang tepat (%7,8%). Untuk yang pernah gagal
(Yes) ketepatan prediksi adalah 672,% dan keakuratan prediksi total adalah sebesar 60,3%.
Kesimpulan secara umum adalah bahwa ketiga variabel independent mampu untuk
mengklasifikasikan customer good dan bad akan tetapi masih memerlukan variabel tambahan
yang lain karena kemampuan menjelaskan relatif rendah (4,49%) dan keakuratan prediksi
hanya 60,3%.
Materi ini dapat Anda download secara gratis di
Jika ada masukan silahkan ke
Jika Anda merasa artikel ini bermanfaat dan ingin berkontribusi terhadap
kelangsungan blog Konsultan Statistik, silahkan transfer ke rekening:
BCA KCU Gang Tengah Semarang No. 1822040807 an. Joni Kriswanto
BTN Cabang Yogyakarta 00005-01-05-042083-7 an. Joni Kriswanto
Melalui paypal dengan email account [email protected] an. Joni Kriswanto
Jika Anda memerlukan layanan olah data silahkan ke www.pascalsmart.blogspot.com
Terima kasih