bab ii tinjauan pustaka - sinta.unud.ac.id bab ii.pdf · mengetahui pola angin dan kondisi cuaca di...
TRANSCRIPT
5
BAB II
TINJAUAN PUSTAKA
Hal-hal yang dipaparkan pada Bab Tinjauan Pustaka adalah penelaahan
kepustakaan yang mendasari proses perancangan dan pembuatan aplikasi meliputi data
mining, Customer Relationship Management, segmentasi pelanggan, Metode
DBSCAN, teori pengukuran jarak dan uji validitas cluster.
2.1 State of the Art
Penelitian tentang data mining untuk CRM, khususnya untuk proses segmentasi
pelanggan, serta Model RFM dan Metode DBSCAN telah beberapa kali dilakukan
sebelumnya. Ching-Hsue Cheng menggunakan teknik data mining untuk menemukan
pola dan trend dari data konsumen dalam kaitannya dengan Konsep CRM. Proses
clustering dilakukan terhadap data konsumen C-company, yaitu perusahaan yang
bergerak di bidang industri elektronik. Proses clustering didahului dengan
mendefinisikan skala dari Atribut RFM. Atribut inilah yang digunakan sebagai input
dalam proses clustering yang dilakukan dengan Algoritma K-Means (Cheng, 2009).
Luh Putu Dian Shavitri Handayani sebelumnya melakukan proses segmentasi
pelanggan menggunakan Metode Jaringan Syaraf Tiruan ART 2 dan Model RFM untuk
mengetahui pelanggan potensial pada Perusahaan Retail UD. Fenny. Proses clustering
dilakukan dengan membentuk beberapa cluster dan dicari jumlah cluster optimalnya
dengan menggunakan Indeks Validitas Silhouette. Hasil rata-rata keseluruhan nilai
indeks validitas tiap cluster mendekati 1, yang mana artinya Metode Jaringan Syaraf
Tiruan ART 2 telah dapat melakukan proses segmentasi dengan baik (Luh Putu, 2012).
Penelitian lain dilakukan oleh Zakrzewska, D. untuk menerapkan konsep data
mining dalam proses segmentasi pelanggan (customer segmentation) pada sebuah bank.
Penelitian ini membandingkan tiga algoritma clustering dalam hal high dimensionality
data with noise yaitu DBSCAN, K-Means, dan Two-phase Clustering (Zakrzewska,
2005).
6
2.2 Data Mining
Data mining secara sederhana merujuk pada ekstraksi atau pertambangan
pengetahuan dari sejumlah besar data. Data mining juga dikatakan sebagai kegiatan
menemukan pattern yang unik dari data dalam jumlah besar, data dapat disimpan
dalam database, data warehouse, atau penyimpanan informasi yang lain. Data mining
berkaitan dengan bidang ilmu-ilmu lain seperti database system, data warehousing,
statistic, machine learning, information retrieval, dan komputasi tingkat tinggi. Data
mining selain itu didukung oleh ilmu lain seperti neural network, pengenalan pola,
spatial data analysis, image database, signal processing (Han, 2006). Data mining
adalah langkah dalam KDD (Knowledge Discovery in Database) yang terdiri dari
penerapan analisis data dan penemuan algoritma untuk menghasilkan daftar pola atau
model tertentu terhadap data yang dianalisa (Fayyad, 1996). Gambar 2.1 menunjukkan
data mining sebagai bagian dari KDD.
Gambar 2.1 Hubungan KDD dengan proses data mining (Fayyad, 1996)
Data mining banyak diterapkan untuk memecahkan masalah kepentingan
intelektual, ekonomi, dan bisnis. Data mining dapat dibagi kedalam enam tugas, yaitu
sebagai berikut (Berry & Linoff, 2004):
1. Klasifikasi
Klasifikasi terdiri dari tindakan pengujian pada fitur baru dan
mengelompokkannya ke dalam salah satu dari sekumpulan kelas yang telah
diidentifikasi.
7
2. Estimasi
Estimasi berhubungan dengan nilai kontinyu, jika terdapat beberapa input data,
estimasi akan bekerja dengan nilai dari beberapa variabel kontinyu yang tidak
diketahui seperti pendapatan, tinggi atau credit card balance.
3. Prediksi
Prediksi adalah tugas yang sama seperti pada klasifikasi dan estimasi
perbedaannya prediksi mengelompokkan berdasarkan beberapa prediksi yang
berkaitan dengan waktu mendatang atau perkiraan waktu mendatang.
4. Afinitas
Tugas dari afinitas didefinisikan sebagai tindakan untuk mengelompokkan hal
mana yang akan dikelompokkan ke dalam kelompok yang sama.
5. Clustering
Tugas dalam clustering yaitu mensegmentasi populasi heterogen ke dalam sub
grup homogen atau clusters. Perbedaan dengan klasifikasi adalah pada
clustering tidak ditentukan target pengelompokkan.
6. Deskripsi dan Penentuan Profil
Sebuah deskripsi yang baik seringkali memberikan penjelasan yang baik juga
sehingga proses deskripsi dan penentuan profil ini sangat berguna untuk
mengetahui pengetahuan yang terdapat pada database yang rumit.
Tiga tugas pertama merupakan contoh data mining yang terawasi (supervised
learning), di mana tujuannya adalah untuk menemukan nilai dari variabel target
tertentu. Afinitas dan clustering adalah tugas tidak diawasi (unsupervised learning),
tujuannya adalah untuk menggungkap pengetahuan yang ada, sedangkan profiling
adalah tugas deskriptif yang mungkin akan baik diawasi atau tidak diawasi.
2.3 Profil Aston Inn Tuban
Archipelago International atau yang sebelumnya dikenal sebagai Aston
International adalah sebuah Hotel Management Chain di Asia Tenggara dan
merupakan yang terbesar di Indonesia. Aston International memasuki pasar Asia
Tenggara sejak tahun 1997 dan saat ini telah memiliki portfolio yang terdiri lebih dari
8
100 properti yang terdiri dari hotel, condotel, resort, serviced apartment dan boutique
villa resort yang mana 86 diantaranya telah beroperasi dan 100 lebih lainnya sedang
dalam proses pengembangan. Aston Inn Tuban merupakan satu dari sekian banyak
cabang Aston International yang ada di Bali (David Ling, 2012).
2.4 Customer Relationship Management (CRM)
Pelanggan adalah aset yang paling penting dari sebuah organisasi. Prospek
bisnis tanpa memuaskan pelanggan yang loyal dan mengembangkan hubungan yang
baik terhadap perusahaan adalah hal yang tidak mungkin. Perusahaan untuk itu harus
merencanakan dan menggunakan strategi yang tepat dalam pelayanan pelanggan. CRM
(Customer Relationship Management) adalah strategi untuk membangun, mengelola,
dan memperkuat hubungan perusahaan dengan pelanggan yang loyal agar dapat
tercipta hubungan yang tahan lama. CRM harus merupakan pendekatan customer-
centric berdasarkan pandangan pelanggan. Ruang lingkup penanganan pelanggan
dalam CRM harus bersifat personal karena setiap pelanggan merupakan entitas yang
unik. Upaya tersebut dilakukan untuk mengidentifikasi dan memahami perbedaan
kebutuhan, prefensi dan perilaku dari tiap pelanggan yang berbeda-beda (Tsiptsis &
Chorianopoulus, 2009).
Pengembangan bisnis dengan memusatkan pada hubungan terhadap pelanggan
merupakan perubahan yang revolusioner untuk kebanyakan perusahaan. Perusahaan
kini telah merubah tujuan dalam pemahaman pelanggan secara individual menjadi
melihat nilai yang dimiliki tiap pelanggan sehingga pihak perusahaan mengetahui
pelanggan mana yang memiliki nilai yang tinggi dan layak dijadikan investasi dan
dipertahankan dan pelanggan mana yang memiliki nilai yang rendah (Berry & Linoff,
2004).
Diperkirakan dalam riset American Management Association bahwa untuk
menarik pelanggan baru membutuhkan biaya lima kali lebih banyak dibandingkan
mempertahankan pelanggan yang telah ada. (Kotler, 1994; Peppers & Rogers, 1996)
Perusahaan dapat mempersingkat daur penjualan dan meningkatkan loyalitas
pelanggan untuk membangun hubungan yang dekat dengan pelanggan sehingga
9
kemudian dapat mendatangkan keuntungan. Penerapan CRM yang baik membantu
perusahaan tetap menjaga pelanggan yang telah ada dan menarik pelanggan baru
(Peppard, 2000).
Perusahaan harus mampu menganalisa berbagai nilai yang terdapat pada
masing-masing pelanggan dan mampu mempertahankan loyalitas pelanggan dalam
waktu yang lama untuk memberikan keuntungan yang maksimal dengan
memanfaatkan CRM sebagai strategi bisnis.
2.5 Data Mining dalam Kerangka Kerja CRM
Data mining dapat menyediakan pandangan dari segi pelanggan yang
merupakan elemen penting dalam membangun CRM yang efektif. Hal ini dapat
meningkatkan interaksi dengan pelanggan sehingga memaksimalkan tingkat kepuasan
pelanggan serta dapat memberikan keuntungan melalui analisis pada data. Hal ini dapat
mendukung manajemen pelanggan secara individual dan mengoptimalkan semua life
cycle pelanggan mulai dari akuisisi dan membentuk hubungan yang kuat untuk
mencegah pengurangan pelanggan. Bagian pemasaran berusaha untuk mendapatkan
pangsa pasar yang lebih besar dan mendapatkan pangsa pelanggan yang lebih besar.
Bagian pemasaran memiliki tanggung jawab untuk mendapatkan, mengembangkan dan
menjaga pelanggan. Aktivitas pemasaran yang dapat didukung dengan data mining
secara spesifik meliputi topik berikut (Tsiptsis & Chorianopoulos, 2009):
1. Segmentasi Pelanggan
Segmentasi pelanggan adalah proses untuk membagi pelanggan ke dalam
kelompok homogen yang unik dalam rangka pengembangan strategi pasar yang
berbeda berdasarkan karakteristiknya. Banyak perbedaan tipe yang terdapat
dalam segmentasi pelanggan berdasarkan kriteria dan atribut yang spesifik
untuk segmentasi
2. Pemasaran Langsung
Bagian pemasaran menggunakan pemasaran langsung untuk
mengkomunikasikan pesan kepada pelanggan menggunakan surat, internet, e-
mail, dan telepon (tele marketing) untuk mengarahkan pelanggan untuk
10
membeli produk yang ditawarkan. Metode tersebut secara lebih spesifik
digunakan untuk mendapatkan pelanggan yang potensial.
3. Asosiasi
Data mining dan asosiasi model dapat digunakan untuk mengidentifikasikan
hubungan antara produk yang biasanya dibeli secara bersamaan. Hal ini
digunakan untuk mengetahui produk mana yang dapat dijual secara bersamaan.
Hubungan data mining dan CRM dalam perusahaan perhotelan yaitu dapat
membantu untuk mengidentifikasi sifat pelanggan dalam bertransaksi,
mempertahankan pelanggan dan memberi kepuasan terhadap pelanggan,
meningkatkan rasio konsumsi barang, merancang transportasi barang yang baik
dan aturan pendistribusian serta mengurangi biaya bisnis (Han, 2006).
2.6 Model RFM
Model RFM membagi data kedalam tiga aspek dimensi variabel yaitu Recency
(R), Frequency (F), Monetary (M). Deskripsi lengkap dari RFM adalah sebagai berikut
(Hughes, 1994):
1. Recency adalah interval waktu antara transaksi terakhir yang dilakukan
pelanggan dengan waktu sekarang atau selama periode tertentu. Interval waktu
yang semakin dekat antara waktu terakhir melakukan transaksi dengan waktu
sekarang atau akhir periode yang ditetapkan maka semakin besar nilai dari
Recency.
2. Frequency didefinisikan sebagai jumlah kali transaksi yang dilakukan
pelanggan sampai waktu sekarang atau periode yang ditentukan. Jumlah kali
transaksi pelanggan (rutin melakukan pembelian) yang semakin banyak,
semakin tinggi nilai Frequency-nya.
3. Monetary memiliki definisi sebagai jumlah biaya yang dikeluarkan pelanggan
dalam setiap transaksi sampai waktu sekarang atau dalam periode tertentu.
Jumlah biaya yang dikeluarkan semakin banyak, maka semakin besar nilai
Monetary-nya.
11
Tsiptsis & Chorianopoulos menyatakan terdapat enam pembagian pelanggan
berdasarkan nilai RFM yang dimiliki pelanggan, yang didefinisikan secara lebih
spesifik pada Tabel 2.1
Tabel 2.1 Pembagian Pelanggan dengan Model RFM
Kelas Pelanggan Deskripsi Kelas Pelanggan
Superstar - Pelanggan dengan tingkat loyalitas paling tinggi
- Memiliki nilai (value) yang paling tinggi
- Memiliki frekuensi yang paling tinggi
- Melakukan transaksi terbesar
Golden Customer - Memiliki nilai (value) terbesar kedua
- Memiliki frekuensi tinggi
- Melakukan transaksi standar rata-rata
Typical Customer - Memiliki nilai (value) dan frekuensi standar rata-
rata
- Melakukan transaksi standar rata-rata
Occational Customer - Memiliki frekuensi terendah kedua setelah
Dormant Customer
- Memiliki recency rendah (memiliki waktu yang
lama dengan rentang waktu terakhir kunjungan)
- Melakukan pembelanjaan dalam jumlah besar
(large basket)
Everyday Shopper - Memiliki peningkatan dalam transaksi
- Melakukan pembelanjaan dalam jumlah kecil
(small basket)
- Memiliki nilai dengan skala menengah (medium)
hingga rendah (low)
Dormant Customer - Memiliki frekuensi dan nilai (value) terendah
- Memiliki waktu yang lama ketika masa terakhir
kunjungan (memiliki Recency terendah)
2.7 Analisis Cluster
2.7.1 Konsep Clustering
Teknik pengelompokkan banyak diterapkan dalam berbagai bidang seperti
kedokteran, kesehatan, psikologi, hukum, statistik, astronomi, klimatologi dan
sebagainya. Teknik pengelompokkan dalam bidang kedokteran dapat digunakan untuk
12
mengelompokkan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifat-sifat
penyakit pasien. Teknik pengelompokkan dalam bidang kesehatan dapat digunakan
untuk mengelompokkan jenis-jenis makanan berdasarkan kandungan kalori, vitamin
dan protein. Teknik pengelompokkan dalam bidang klimatologi dapat digunakan untuk
mengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayah-
wilayah yang rentan terhadap cuaca buruk (Eko Prasetyo, 2014).
Analisis cluster adalah pekerjaan mengelompokkan data (objek) yang
didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan
hubungan antara objek-objek tersebut (Tan, 2006). Tujuan dari analisis cluster adalah
agar objek-objek yang bergabung dalam sebuah kelompok merupakan objek yang
mirip atau berhubungan satu sama lain dan berbeda dengan objek dalam kelompok
yang lain. Data yang masuk pada Proses Clustering tidak mempunyai label kelas
seperti pada klasifikasi tetapi dikelompokkan berdasarkan karakteristiknya. Masing-
masing cluster setelah itu diberi label sesuai hasil karakteristik kelompok masing-
masing. Clustering karena alasan tersebut disebut juga sebagai unsupervised learning
(Eko Prasetyo, 2014).
2.7.2 Tujuan Clustering
Tujuan clustering data dapat dibedakan menjadi dua yaitu pengelompokan
untuk pemahaman dan pengelompokan untuk penggunaan. Tujuan pemahaman adalah
untuk membuat kelompok yang terbentuk dapat menangkap struktur alami data. Proses
pengelompokan dalam tujuan pemahaman biasanya hanya sebagai proses awal untuk
kemudian dilanjutkan dengan pekerjaan inti seperti peringkasan atau summarization,
pelabelan kelas pada setiap kelompok, dan sebagainya. Tujuan yang digunakan untuk
pengelompokan biasanya adalah mencari prototype kelompok yang paling
representative terhadap data dan memberikan abstraksi dari setiap objek data dalam
kelompok di mana sebuah data terletak di dalamnya (Eko Prasetyo, 2014).
13
2.7.3 Jenis-jenis Clustering
Metode yang dikembangkan oleh para ahli sudah sangat banyak. Masing-
masing metode mempunyai karakter, kelebihan dan kekurangan masing-masing.
Clustering dapat dibedakan menurut struktur kelompok, keanggotaan data dalam
kelompok dan kekompakan data dalam kelompok.
Metode Clustering menurut strukturnya dibagi menjadi dua yaitu
pengelompokan hirarki dan partitioning. Pengelompokan hirarki memiliki aturan satu
data tunggal bisa dianggap sebagai sebuah kelompok, dua atau lebih kelompok kecil
dapat bergabung menjadi satu kelompok besar dan begitu seterusnya hingga semua
data dapat bergabung menjadi satu kelompok. Metode Clustering Hirarki merupakan
satu-satunya metode yang masuk ke dalam kategori pengelompokan hirarki. Metode
Clustering Partitioning membagi set data ke dalam sejumlah kelompok yang tidak
tumpang tindih (overlap) antara satu kelompok dengan kelompok yang lain artinya
setiap data hanya menjadi anggota satu kelompok. Metode seperti K-Means dan
DBSCAN masuk dalam kategori pengelompokan partitioning.
Metode Clustering menurut keanggotaan dalam kelompok dibagi menjadi dua,
yaitu eksklusif dan tumpang-tindih. Metode tersebut termasuk kategori eksklusif jika
sebuah data hanya menjadi anggota satu kelompok dan tidak menjadi anggota
kelompok yang lain. Metode Clustering yang masuk dalam kategori ini adalah K-
Means dan DBSCAN sedangkan yang masuk kategori tumpang-tindih adalah Metode
Clustering yang membolehkan sebuah data menjadi anggota di lebih dari satu
kelompok, misalnya Fuzzy C-Means.
Metode Clustering menurut kategori kekompakan terbagi menjadi dua yaitu
komplet dan parsial. Semua data bisa dikatakan kompak menjadi satu kelompok jika
semua data bisa bergabung menjadi satu (dalam konteks penyekatan) namun jika ada
sedikit data yang tidak ikut bergabung dalam kelompok mayoritas data tersebut
dikatakan mempunyai perilaku menyimpang. Data yang menyimpang ini dikenal
dengan sebutan noise. Metode yang tangguh untuk mendeteksi noise ini adalah
DBSCAN (Eko Prasetyo, 2014).
14
2.7.4 Density-Based Spatial Clustering of Application with Noise (DBSCAN).
Density-Based Spatial Clustering of Application with Noise (DBSCAN)
merupakan sebuah Metode Clustering yang membangun area berdasarkan kepadatan
yang terkoneksi (density-connected). Setiap objek dari sebuah radius area (cluster)
harus mengandung setidaknya sejumlah minimum data. Semua objek yang tidak
termasuk di dalam cluster akan dianggap sebagai noise. Istilah yang terdapat di dalam
algoritma DBSCAN adalah sebagai berikut:
1. Minpts adalah banyak poin minimal di dalam suatu cluster
2. Eps adalah nilai untuk jarak antar poin yang menjadi dasar pembentukan
neighborhood dari suatu titik item
3. Neighborhood yang terletak di dalam suatu radius ∈ disebut ∈ - neighborhood
dari objek data
4. Jika ∈ - neighborhood dari suatu objek berisi paling sedikit suatu angka yang
minimum (Minpts dari suatu objek), objek tersebut disebut sebagai core object.
5. Directly density-reachable, titik poin dikatakan directly density-reachable dari
titik yang lain jika jarak di antara mereka tidak lebih dari nilai Epsilon (∈).
Gambar 2.2 menggambarkan kasus directly density-reachable.
Gambar 2.2 Directly Density-Reachable
Directly density-reachable merupakan pasangan simetris dari core point
walaupun begitu secara umum directly density-reachable bisa asimetris jika
mengandung satu core point dan satu border point. (Aster, M, 1996) Gambar
2.3 menggambarkan kasus asimetris.
15
Gambar 2.3 Kasus Asimetris
Directly density-reachable asimetris mungkin terjadi jika mengandung satu
core point dan satu border point.
6. Density reachable adalah dua titik yang dihubungkan oleh rantai yang hanya
terdiri dari titik-titik yang directly density-reachable dari titik sebelumnya.
Gambar 2.4 menggambarkan kasus density reachable.
Gambar 2.4 Density Reachable
Gambar 2.4 menggambarkan titik yang density reachable. Density reachable
adalah dua titik yang dihubungkan oleh rantai yang hanya terdiri dari titik-titik
yang directly density-reachable dari titik sebelumnya.
7. Density connected, dikatakan demikian jika ada sebuah objek o elemen D
sehingga p dan q keduanya density-reachable dari o dengan memperhatikan
Eps dan Minpts. Gambar 2.5 menggambarkan kasus density connected.
16
Gambar 2.5 Density Connected
Gambar 2.5 menunjukkan kasus density connected, dikatakan demikian jika ada
sebuah objek o elemen D sehingga p dan q keduanya density-reachable dari o
dengan memperhatikan Eps dan Minpts.
Berikut merupakan algoritma dari Metode DBSCAN:
1. Pilih poin p secara acak.
2. Inisialisasi nilai minpts dan eps
3. Ambil semua poin yang density reachable terhadap p.
4. Jika p adalah core point maka cluster terbentuk.
5. Jika p adalah border point, tidak ada yang merupakan hubungan density-
reachable dari p dan DBSCAN mengunjungi poin selanjutnya dari database.
6. Lanjutkan sampai semua poin telah diproses. Hasil yang didapatkan tidak
tergantung dari urutan proses yang diambil.
7. Hitung jarak, apakah masih memenuhi epsilon. Perhitungan menggunakan
Jarak Eucledian sebagai berikut:
𝐸(𝑥, 𝑦) = √∑ (𝑋𝑖 − 𝑌𝑖)2𝑛𝑖=0 ....................................................................... (2.1)
8. Jika titik yang memenuhi epsilon lebih dari Minpts maka cluster terbentuk.
9. Setelah didapat titik jarak yang paling besar, titik itu dijadikan core point.
17
Ringkasan karakteristik Metode DBSCAN dapat dipaparkan sebagai berikut
(Mumtaz, 2008):
1. DBSCAN tidak perlu mengetahui jumlah data secara sesukanya seperti pada
K-Means. Hal ini memberikan keuntungan karena umumnya bentuk dan jumlah
kelompok yang sebaiknya diberikan pada data berdimensi tinggi tidak bisa
diketahui dengan cara analisis visual data.
2. DBSCAN dapat menemukan bentuk kelompok sembarang, bahkan kelompok
berbentuk melingkar yang tidak bisa ditangani K-Means. Hal ini dapat
disesuaikan dengan menentukan nilai MinPts.
3. DBSCAN bisa mengenali derau (noise) dengan baik.
4. Metode DBSCAN hanya membutuhkan dua parameter yang kebanyakan tidak
sensitif terhadap urutan data dalam database tetapi penentuan parameter
Epsilon hanya mudah diberikan ketika melihat data spasial dua dimensi. Data
berdimensi tinggi, nilai Epsilon yang tepat sangat sulit ditentukan.
5. Metode DBSCAN hanya memberikan hasil kelompok yang baik jika
menggunakan Jarak Euclidian tetapi tidak berguna untuk data berdimensi tinggi.
6. Metode DBSCAN tidak dapat memberikan hasil yang baik untuk data yang
mempunyai kelompok kepadatan yang berbeda. Hal ini karena DBSCAN hanya
memandang proses pengelompokan berdasarkan radius epsilon sehingga ketika
ada dua kelompok atau lebih yang mempunyai kepadatan yang berbeda,
DBSCAN tidak bisa memberikan hasil yang baik.
2.8 Validasi Cluster
Evaluasi dari model yang digunakan dilakukan dengan melakukan Proses
Mining pada data set dalam periode satu tahun. Proses Clustering diuji coba dengan
berbagai nilai parameter dari Algoritma Clustering. Hasil clustering diuji tingkat
validitasnya menggunakan Indeks Validitas Silhouette untuk menentukan jumlah
cluster yang terbaik. Proses yang dilakukan dalam validasi cluster untuk menentukan
jumlah cluster optimal adalah sebagai berikut:
18
1. Tentukan jumlah jarak antara core point dengan semua titik yang berada pada
cluster yang sama
2. Hitung nilai rata-rata jarak core point dengan semua titik pada cluster yang
sama a(i) = (i = objek ke 1, 2, 3,…, n)
3. Hitung jumlah jarak antara core point dengan semua titik pada cluster yang
berbeda
4. Hitung nilai rata-rata jarak antara core point dengan semua titik pada cluster
yang berbeda b(i) = (i = cluster ke 1, 2, 3, …, n)
5. Cari nilai minimum b(i)
6. Hitung nilai Indeks Validitas Silhouette tiap titik (Si) dengan rumus
S(i) = (𝑏(𝑖)−𝑎(𝑖))
max{𝑎(𝑖),𝑏(𝑖)} ................................................................................... (2.2)
7. Hitung nilai rata-rata Indeks Validitas Silhouette dengan rumus
GSu = 1
𝑛∑ 𝑠(𝑖)𝑛𝑖=1 ........................................................................................ (2.3)
8. Cluster dengan nilai GSu tertinggi merupakan cluster optimal.