tutorial analisis diskriminan

Materi ini dapat Anda download secara gratis di

Jika ada masukan silahkan ke

Analisis Diskriminan

Analisis diskriminan berguna pada siatuasi di mana kita ingin membentuk sebuah model

prediktif dari beberapa kelompok (group) berdasarkan pada karakteristik pada masing-masing

kasus. Prosedur pembentukan fungsi diskriminan (atau, pada lebih dari dua kelompok,

serangkaian set dari fungsi diskriminan) berdasarkan pada kombinasi linear dari variabel-

variabel prediktor yang memberikan pembeda terbaik dari kelompok-kelompok tersebut.

Fungsi dibentuk dari sebuah sampel pada sebuah kasus di dalam sebuah group yang telah

diketahui; fungsi lalu dapat diaplikasikan pada kasus baru dengan pengukuran pada variabel-

variabel prediktor yang tidak diketahui masuk pada kelompok mana.

Catatan: Pengelompokan variabel dapat mempunyai lebih dari dua nilai. Kode untuk

masing-masing pengelompokan variabel harus integer, akan tetapi, kita dapat

menspesifikasikan nilai maksimum dan minimum. Kasus-kasus pada nilai di luar batas tidak

termasuk pada analisis.

Sebagai contoh: Berdasarkan rata-rata, orang-orang pada daerah empat musim

mengkonsumsi kalori per hari lebih banyak dibandingkan orang yang tinggal di daerah tropis.

Peneliti ingin mengkombinasikan informasi ini pada sebuah fungsi untuk membedakan

bagaimana seorang individu dapat dibedakan dalam dua daerah. Peneliti beranggapan bahwa

informasi tentang ukuran populasi dan ekonomi juga penting. Analisis diskriminan

memungkinkan kita mengestimasi koefisien dari fungsi linear diskriminan, yang merupakan

bentuk lain dari persamaan regresi. Dengan demikian, dengan menggunakan koefisien a, b, c

dan d, persamaannya adalah:

D= a * climate + b * urban + c * populasi + d * pdb

Jika variabel-variabel dapat membedakan dua iklim tersebut, maka nilai D akan berbeda

antara daerah empat musim dan daerah tropis. Jika kita menggunakan metode stepwise, maka

kita dapat menemukan varabel apa yang tidak masuk ke dalam fungsi. Asumsi pada analisis

diskriminan

1. Prediktor tidak mempunyai korelasi yang tinggi satu dengan yang lain

2. Rata-rata dan varians pada prediktor tidak berkorelasi



3. Corelasi antara dua prediktor adalah konstan pada semua group

4. Nilai masing-masing prediktor harus berdistribusi normal

Contoh Kasus

Suatu saat, seorang karyawan bank ingin mengidentifikasikan karakateristik yang

mengindikasikan orang yang sering gagal membayar pinjaman (default), dan ingin

menggunakan karakteristik tersebut untuk mengidentifikasikan orang ke dalam good dan bad

dalam klasifikasi tingkat resiko kredit. Customer yang mempunyai catatan pernah gagal

(default) diberi kode 1 (Yes) dan yang belum pernah gagal diberi kode 0 (No).

Terdapat 700 data yang telah tersedia, yang terdiri dari tingkat pendidikan, lama tinggal

di alamat sekarang dan pendapatan keluarga. Berikut adalah tampilan data dengan SPSS

Kolom ed adalah tingkat pendidikan yang dikodekan dengan 1 sampai dengan 5,

address adalah lama tinggal pada alamat sekarang, income adalah pendapatan keluarga dan

default adalah catatan apakah customer pernah gagal (1) atau belum pernah gagal (0) dalam

melunasi cicilannya.

Langkah pertama adalah klik pada Analze, sorotkan mouse pada Clasify, lalu klik pada

Discriminant



Anda akan diarahkan ke menu analisis diskriminan sebagai berikut:



Pindahkah variabel default ke baris grouping variable dan variabel yang lain ke

Independend seperti pada gambar di atas. Setelah itu klik define range di bawah defaut

sehingga program akan mengarahkan ke menu sebagai berikut:

Masukkan nilai 0 ke minimum dan 1 ke maximum, yang artinya terdapat dua group

(kelompok) yaitu yang pernah gagal (1) dan yang belum pernah gagal (1). Klik continue

sehingga akan dikembalikkan ke menu analisis diskriminan. Lalu klik pada Statistic sehingga

akan diarahkan ke menu sebagai berikut:

Berikan tanda centang (tick mark) seperti pada gambar, lalu tekan continue, sehingga

akan dikembalikan lagi ke menu analisis diskriminan. Lalu klik Clasify sehingga akan muncul

box seperti ini:

Berikan tanda centang (tick mark) seperti pada gambar, lalu tekan continue, sehingga

akan dikembalikan lagi ke menu analisis diskriminan. Tekan OK sehingga akan keluar output,

dan tinggal diinterpretasikan.



Analysis Case Processing Summary

Unweighted Cases N PercentValidExcluded Missing or out-of-range group codes

At least one missing discriminating variableBoth missing orout-of-range group codes and at least one missing discriminating variableTotal

Total

700

0

0

0

0700

Output pertama di atas menunjukkan adanya 700 data dan semua data telah terisi

sehingga tidak ada missing data.

Group Statistics

Previously defaulted Mean Std. DeviationValid N (listwise)

Unweighted WeightedNo Level of education

Years at current address Household income in thousands

1,65968,9458

47,1547

,904437,00062

34,22015

517517

517

517,000517,000

517,000

Yes Level of educationYears at current address Household income in thousands

1,90166,3934

41,2131

,972795,92521

43,11553

183183

183

183,000183,000

183,000

Total Level of educationYears at current addressHousehold income in thousands

1,72298,2786

45,6014

,928216,82488

36,81423

700700

700

700,000700,000

700,000

Tabel output kedua menunjukkan bahwa customer yang pernah gagal (Yes) mempunyai

rata-rata tingkat pendidikan lebih tinggi dari pada customer yang belum pernah gagal (No)

dengan rata-rata 1,9016 > 1,6596. Untuk lama tinggal, yang belum pernah gagal lebih lama

menempati alamat sekarang (8,9458 > 6,3934) dan pendapatan keluarga juga lebih tinggi

(47,1547 > 41,2131). Output di atas baru merupakan deskriptif saja dan belum dapat dijadikan

kesimpulan.

Output berikutnya adalah sebagai berikut:



Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

Level of educationYears at current addressHousehold income in thousands

,987,973

,995

9,30119,402

3,533

11

1

698698

698

,002,000

,061

Tampak bahwa level of education (tingkat pendidikan) dan years at current address

(lama tinggal) adalah signifikan pada 0,05 dan pendapatan keluarga tidak signifikan, tetapi

signifikan pada 10%. Berarti tingkat pendidikan dan lama tinggal antara customer yang

pernah gagal berbeda signifikan dengan customer yang belum pernah gagal (5%). Pendapatan

keluargan tidak berbeda signifikan pada 5% tetapi signifikan pada 10%. Justifikasin

tergantung dari rancangan penelitian, apakah 5% atau 10%.

Interpretasi berikutnya adalah sebagai berikut:

Pooled Within-Groups Matricesa

Level of education

Years at current address

Household income in thousands

Covariance Level of educationYears at current addressHousehold income in thousands

,851,481

8,327

,48145,384

76,635

8,32776,635

1350,393

Correlation Level of educationYears at current addressHousehold income in thousands

1,000,077

,246

,0771,000

,310

,246,310

1,000

a. The covariance matrix has 698 degrees of freedom.

Tampak bahwa korelasi antar variabel independend relatif rendah dengan nilai tertinggi

adalah 0,310 antara lama tinggal dengan pendapatan keluarga. Hasil ini tidak menyalahi

asumsi pada analisis diskriminan. Sehingga berikutnya adalah sebagai berikut:

Log Determinants

Previously defaulted RankLog

DeterminantNoYesPooled within-groups

333

10,60710,81610,700

The ranks and natural logarithms of determinants printed are those of the group covariance matrices.



Nilai log determinant yang besar menunjukkan semakin tinggi perbedaan antara group

covariance matrix di mana kolom Rank menunjukkan jumlah variabel independent, yaitu 3

buah variabel independen.

Test Results

Box's M 26,496F Approx. 4,387

df1df2 733460,1Sig. ,000

Tests null hypothesis of equal population covariance matrices.

Hasil uji Box’s M memberikan signifikansi sebesar 0,00 < 0,05 yang menunjukkan

terdapat perbedaan matriks covariance yang signifikan, selaras dengan nilai log determinant

yang menunjukkan bahwa asumsi tidak terpenuhi. Dalam contoh ini, analisis tetap digunakan

karena tidak terdapat data yang outliers. Jika terdapat data outliers, maka disarankan untuk

mentransformasikan variabel ke dalam bentuk lain, misalnya logaritma natural.

Interpretasi berikutnya adalah sebagai berikut:

Wilks' Lambda

Test of Function(s)Wilks'

Lambda Chi-square df Sig.1 ,955 32,040 3 ,000

Wilks’Lambda adalah untuk melihat kemampuan variabel independend dalam

membedakan group secara multivariate. Hasilnya adalah signifikansi sebesar 0,00 yang

menunjukkan bahwa ketiga variabel independent mampu membedakan group secara

signifikan. Seberapa besar kemampuan ketiga variabel independent dalam menjelaskan

kegagalan pembayaran adalah sebagai berikut:

Eigenvalues

Function Eigenvalue % of Variance Cumulative %CanonicalCorrelation

1 ,047a 100,0 100,0 ,212

a. First 1 canonical discriminant functions were used in the analysis.

Nilai canonical correlation mirip dengan koefisien determinasi pada analisis regresi,

sehingga dihitung sebesar 0,2122 = 0,0449 atau hanya sebesar 4,49% yang nilainya relatif

kecil.



Untuk melihat variabel mana yang paling besar kontribusinya digunakan output

berikutnya:

Standardized Canonical Discriminant Function Coefficients

Function1

Level of educationYears at current addressHousehold income in thousands

-,653,739

,260

Tampak bahwa lama tinggal merupakan variabel yang paling besar pengaruhnya karena

mempunyai standardized yang paling tinggi. Tingkat pendidikan mempunyai nilai negatif

yang menunjukkan bahwa semakin tinggi pendidikan, kemungkinan gagal lebih tinggi dan

merupakan variabel kedua yang memberikan kontribusi setelah lama tinggal dan yang paling

rendah adalah pendapatan keluarga (dilihat nilai secara mutlak).

Output yang berikutnya adalah untuk melihat seberapa banyak prediksi yang tepat dan

seberapa banyak prediksi yang tidak tepat.

Classification Resultsa

Previously defaulted

Predicted GroupMembership

TotalNo YesOriginal Count No

Yes29960

218123

517183

% NoYes

57,832,8

42,267,2

100,0100,0

a. 60,3% of original grouped cases correctly classified.

Tampak bahwa dari 517 customer yang belum pernah gagal (No) hanya 299 yang sesuai

dengan prediksi dan 218 lainnya diprediksi kurang tepat (%7,8%). Untuk yang pernah gagal

(Yes) ketepatan prediksi adalah 672,% dan keakuratan prediksi total adalah sebesar 60,3%.

Kesimpulan secara umum adalah bahwa ketiga variabel independent mampu untuk

mengklasifikasikan customer good dan bad akan tetapi masih memerlukan variabel tambahan

yang lain karena kemampuan menjelaskan relatif rendah (4,49%) dan keakuratan prediksi

hanya 60,3%.



Jika Anda merasa artikel ini bermanfaat dan ingin berkontribusi terhadap

kelangsungan blog Konsultan Statistik, silahkan transfer ke rekening:

BCA KCU Gang Tengah Semarang No. 1822040807 an. Joni Kriswanto

BTN Cabang Yogyakarta 00005-01-05-042083-7 an. Joni Kriswanto

Melalui paypal dengan email account [email protected] an. Joni Kriswanto

Jika Anda memerlukan layanan olah data silahkan ke www.pascalsmart.blogspot.com

Terima kasih

tutorial analisis diskriminan

Documents