analisis perbandingan cosine normalization dan min...
TRANSCRIPT
ANALISIS PERBANDINGAN
COSINE NORMALIZATION DAN
MIN-MAX NORMALIZATION PADA PENGELOMPOKAN
TERJEMAHAN AYAT AL QURAN MENGGUNAKAN
ALGORITMA K-MEANS CLUSTERING
Skripsi
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
Oleh :
Dewinta Fenny
11150910000048
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
2019 M/1441 H
ii
ANALISIS PERBANDINGAN
COSINE NORMALIZATION DAN
MIN-MAX NORMALIZATION PADA PENGELOMPOKAN
TERJEMAHAN AYAT AL QURAN MENGGUNAKAN
ALGORITMA K-MEANS CLUSTERING
Skripsi
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
Oleh :
Dewinta Fenny
11150910000048
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
2019 M/1441 H
vi
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI
Sebagai civitas akademik UIN Syarif Hidayatullah Jakarta, saya yang bertanda
tangan di bawah ini:
Nama : Dewinta Fenny
NPM : 11150910000048
Program Studi : Teknik Informatika
Departemen : Teknik Informatika
Fakultas : Sains dan Teknologi
Jenis Karya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Islam Negeri Syarif Hidayatullah Jakarta Hak Bebas Royalti
Nonekslusif (Non-exclusive Royalty Free Right) atas karya ilmiah yang berjudul:
ANALISIS PERBANDINGAN COSINE NORMALIZATION DAN
MIN-MAX NORMALIZATION PADA PENGELOMPOKAN
TERJEMAHAN AYAT AL QURAN MENGGUNAKAN
ALGORITMA K-MEANS CLUSTERING
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti
Noneksklusif ini Univesitas Islam Negeri Syarif Hidayatullah Jakarta berhak
menyimpan, mengalihmedia/formatkan, mengelola dalam bentuk pangkalan data
(database), merawat, dan mempublikasikan tugas akhir saya selama tetap
mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilih Hak Cipta.
Demikian pernyataan ini saya buat dengan sebenarnya.
Dibuat di: Jakarta
Pada tanggal: November 2019
Yang menyatakan
(Dewinta Fenny)
NYATAAN PERSETUJUAN PUBLIKASI
vii
KATA PENGANTAR
Bismillahirrahmanirrahim...
Puji syukur penulis panjatkan kepada Allah SWT, karena atas nikmat dan
rahmat-Nya sehingga penulis dapat menyelesaikan skripsi ini. Penulisan skripsi ini
dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai gelar Sarjana
Komputer Program Studi Teknik Informatika Fakultas Sains dan Teknologi
Universitas Islam Negeri Syarif Hidayatullah Jakarta. Proses penyelesaian skripsi
ini tidak lepas dari berbagai bantuan, dukungan, saran, dan kritik yang telah
penulis dapatkan, oleh karena itu dalam kesempatan ini penulis ingin
mengucapkan terima kasih kepada:
1. Kedua Orang tua dan keluarga penulis yang selalu mendo’akan, dan
mendukung penulis dalam mengerjakan skripsi.
2. Ibu Prof. Dr. Lily Surayya Eka Putri, M. Env. Stud selaku Dekan Fakultas
Sains dan Teknologi.
3. Bapak Dr. Imam Marzuki Shofi, M. T. selaku ketua Program Studi Teknik
Informatika, serta Bapak Andrew Fiade, M.Kom. selaku sekretaris Program
Studi Teknik Informatika.
4. Bapak Dr. Imam Marzuki Shofi, M. T. selaku Dosen Pembimbing I dan Ibu
Siti Ummi Masruroh, M.Sc., selaku Dosen Pembimbing II yang telah
memberikan bimbingan, motivasi, dan arahan kepada penulis, sehingga
skripsi ini bisa selesai dengan baik.
5. Kepada teman seperjuangan Teknik Informatika angkatan 2015, khususnya
TI-B yang sudah mensupport penulis dalam menyelesaikan skripsi ini, terima
kasih atas semua kenangan dan kebersamaan selama ini. Semoga kita bisa
lebih baik lagi dan sukses di masa yang akan datang.
6. Sahabat sekaligus teman suka duka serta canda tawa bersama semasa kuliah:
Ahmad Maulana Fazri, Fahmi Alfian , Nur Rina Utami, Nadya Maharani ,
Farah Manthovani, Putri Navia Rena, Alifia Ayu Z, Intan Maryam S, Dhimas
Endira, Renaldy Irfan, Kunhadji Rahmata , Nichyta Dian dan Agung Sidang.
viii
7. Seluruh pihak yang secara langsung maupun tidak langsung membantu
penulis dalam menyelesaikan skripsi ini.
Akhir kata, penulis menyadari bahwa dalam penyajian skripsi ini masih
jauh dari sempurna. Apabila ada kebenaran dari penulisan ini maka kebenaran
tersebut datangnya dari Allah, tetapi apabila ada kesalahan dalam penulisan ini
maka kesalahan ini berasal dari penulis. Semoga skripsi ini membawa manfaat
bagi pengembangan ilmu. Penulis berharap Allah SWT berkenan membalas
segala kebaikan semua pihak yang telah membantu dan meridhai segala usaha
kita.
Jakarta, November 2019
Dewinta Fenny
11150910000048
ix
Nama : Dewinta Fenny
Program Studi : Teknik Informatika
Judul : Analisis Perbandingan Cosine Normalization dan Min-
max Normalization pada Pengelompokan Terjemahan
Ayat Al Quran Menggunakan Algoritma K-Means
Clustering
ABSTRAK
Penerapan Text Mining dalam memahami Al Quran sangat mungkin dilakukan,
karena dengan Text Mining dapat mencari kata-kata yang mewakili isi dari
dokumen sehingga dapat dilakukan analisis keterhubungan antar dokumennya.
Salah satu metode yang dapat digunakan dalam Text Mining yaitu clustering.
Algoritma K-Means merupakan salah satu metode clustering yang sering digunakan
dalam pengelompokan data. Metode Text Mining dengan menggunakan kata term
sebagai fitur akan menghasilkan dimensi vektor yang cukup besar. Selain itu pada
beberapa dataset terdapat rentang nilai yang berbeda disetiap atribut sehingga
dibutuhkan metode normalisasi untuk menyamakan rentang nilai. Penelitian ini
dilakukan dengan tahapan proses pre-processing, pembobotan data, normalisasi
data dan pengelompokan data. Pada penelitian ini dilakukan analisis perbandingan
metode normalisasi antara Cosine Normalization dan Min-max Normalization pada
pengelompokan terjemahan ayat Al Quran dengan menggunakan Algoritma K-
Means Clustering. Data sample yang digunakan pada penelitian ini adalah surah Al
Baqarah sebanyak 286 ayat. Hasil yang didapatkan berupa cluster dan analisis nilai
Silhouette Coefficient, runtime dan memory consumption. Hasil dari penelitian ini
clustering dengan metode Min-max Normmalization mendapatkan nilai Silhouette
Coefficient terbesar yaitu 0,611 pada nilai k=2 dan clustering dengan Cosine
Normalization memiliki nilai terbaik untuk runtime dan memory consumption.
Kata Kunci : Clustering, Terjemahan Ayat Al Quran, K-Means, Cosine
Normalization, Min-max Normalization.
Jumlah Pustaka : 16 buku dan 22 jurnal.
Jumlah Halaman : 115 halaman
x
Name : Dewinta Fenny
Program Studi : Teknik Informatika
Title : Comparison Analysis of Cosine Normalization and
Min-max Normalization in Clustering Translation of Al-
Quran Verses Using K-Means Clustering Algorithm
ABSTRACT
The application of mining text in the Qur'an is very possible because by mining the
text can search for words that represent the contents of the document so that it can
be analyzed the relationship between the documents. One method that can be used
in Text Mining is clustering. K-Means algorithm is one of the grouping methods
that are often used in grouping data. The Text Mining method using the term as a
feature will produce a large vector dimension. Also in some datasets, a different
value is needed in each attribute Normalization method is needed to equalize the
range of values. This research was conducted with the stages of the pre-processing
process, weighting data, normalization data and grouping data. In this study, an
analysis of the normalization method between Cosine Normalization and Min-max
Normalization in the grouping of translation of Al-Quran verses using the K-Means
Clustering Algorithm. The sample data used in this study is Surah Al Baqarah as
many as 286 verses. The results obtained consist of cluster and analysis of
Silhouette Coefficient values, runtime, and memory consumption. The results of
this study grouping with the Min-max Normalization method get the largest
silhouette coefficient value of 0.611 at k = 2 and grouping with Cosine
Normalization has the best value for runtime and memory consumption.
Keywords : Clustering, Translation of Quranic Verse, K-Means, Cosine
Normalization, Min-max Normalization.
Bibliography : 16 books and 22 journals.
Number of Pages : 115 pages
xi
DAFTAR ISI
LEMBAR PERSETUJUAN................................................................................... iii
LEMBAR PENGESAHAN ................................................................................... iii
HALAMAN PERNYATAAN ORISINALITAS .................................................... v
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI ............................. vi
KATA PENGANTAR .......................................................................................... vii
ABSTRAK ............................................................................................................. ix
ABSTRACT ............................................................................................................ x
DAFTAR ISI .......................................................................................................... xi
DAFTAR GAMBAR ............................................................................................ xv
DAFTAR TABEL ................................................................................................ xvi
BAB 1 PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 4
1.3 Batasan Masalah ....................................................................................... 4
1.4 Tujuan Penelitian ...................................................................................... 5
1.5 Manfaat Penelitian .................................................................................... 5
1.5.1 Bagi Penulis ...................................................................................... 5
1.5.2 Bagi Universitas ................................................................................ 6
1.5.3 Bagi Pembaca .................................................................................... 6
1.6 Metodologi Penelitian .............................................................................. 6
1.6.1 Metode Pengumpulan Data ............................................................... 6
1.6.2 Metode Pengembangan Sistem ......................................................... 7
1.6.3 Metode Pengambilan Keputusan....................................................... 7
1.7 Sistematika Penulisan ............................................................................... 7
BAB 2 LANDASAN TEORI .................................................................................. 9
2.1. Al Quran ................................................................................................... 9
2.2. Text Mining ............................................................................................... 9
2.3. Clustering ............................................................................................... 10
2.4. Algoritma ................................................................................................ 10
2.5. Text Preprocessing ................................................................................. 11
2.5.1. Case Folding ................................................................................... 11
xii
2.5.2. Tokenization .................................................................................... 11
2.5.3. Filtering .......................................................................................... 12
2.5.4. Stemming ......................................................................................... 12
2.6. Algoritma Nazief & Andriani ................................................................ 12
2.6.1. Tahapan Algoritma Nazief & Andriani........................................... 13
2.6.2. Alasan menggunakan Algoritma Nazief & Andriani ...................... 14
2.7. Algoritma TF-IDF .................................................................................. 14
2.8. Normalisasi ............................................................................................. 15
2.8.1. Cosine Normalization ..................................................................... 16
2.8.2. Min-max Normalization .................................................................. 16
2.9. Algoritma K-Means Clustering .............................................................. 17
2.9.1. Pengertian Algoritma K-Means Clustering ..................................... 17
2.9.2. Tahapan Algoritma K-Means Clustering ........................................ 17
2.10. Silhouette Coefficient .......................................................................... 18
2.11. Metode Perbandingan Eksponensial ................................................... 20
2.11.1. Tahapan Metode Perbandingan Eksponensial ............................. 20
2.11.2. Formulasi Perhitungan Metode Perbandingan Eksponensial ...... 20
2.11.3. Keuntungan Metode Perbandingan Eksponensial ....................... 21
2.12. Studi Pustaka....................................................................................... 21
2.13. Metode Simulasi ................................................................................. 22
2.13.1. Problem Formulation .................................................................. 22
2.13.2. Conceptual Model ....................................................................... 22
2.13.3. Input / Output Data ..................................................................... 23
2.13.4. Modelling ..................................................................................... 23
2.13.5. Simulation .................................................................................... 24
2.13.6. Verification and Validation ......................................................... 24
2.13.7. Eksperimentation ......................................................................... 24
2.13.8. Output Analysis ........................................................................... 24
2.14. Studi Literatur Sejenis ........................................................................ 25
BAB 3 METODOLOGI PENELITIAN................................................................ 30
3.1. Metode Pengumpulan Data .................................................................... 30
3.1.1. Sumber Data .................................................................................... 30
3.1.2. Studi Pustaka ................................................................................... 30
3.2. Metode Pengembangan Sistem .............................................................. 31
xiii
3.2.1. Problem Formulation ...................................................................... 31
3.2.2. Conceptual Model ........................................................................... 31
3.2.3. Input Output Data ........................................................................... 31
3.2.4. Modelling ........................................................................................ 32
3.2.5. Simulation ....................................................................................... 32
3.2.6. Verification and Validation ............................................................. 32
3.2.7. Experimentation .............................................................................. 32
3.2.8. Output Analysis ............................................................................... 33
3.3. Kerangka Berpikir .................................................................................. 33
BAB 4 IMPLEMENTASI, SIMULASI, DAN EKSPERIMEN ........................... 35
4.1. Problem Formulation ............................................................................. 35
4.2. Conceptual Model .................................................................................. 35
4.2.1. Conceptual Model Preprocessing ................................................... 36
4.2.2. Conceptual Model Algoritma K-Means Clustering dengan
menggunakan Cosine Normalization ............................................................ 41
4.2.3. Conceptual Model Algoritma K-Means Clustering dengan
menggunakan Min-max Normalization ......................................................... 44
4.3. Input/Output Data .................................................................................. 45
4.3.1. Input ................................................................................................ 45
4.3.2. Output .............................................................................................. 46
4.4. Modelling ................................................................................................ 46
4.4.1. Konstruksi Cosine Normalization pada Clustering Algoritma K-
Means 46
4.4.2. Konstruksi Min-max Normalization pada Clustering Algoritma K-
Means 59
4.5. Simulation ............................................................................................... 68
4.6. Verification and Validation .................................................................... 69
4.7. Experimentation ..................................................................................... 69
4.8. Output Analisys ...................................................................................... 69
BAB 5 HASIL DAN PEMBAHASAN................................................................. 70
5.1 Verifikasi dan Validasi (Verification and Validation) ........................... 70
5.2 Eksperimentasi (Experimentation) ......................................................... 71
5.3 Analisis Keluaran (Output Analysis) ...................................................... 72
5.3.1 Skenario 1 ....................................................................................... 72
5.3.1.1 Nilai k=2 ...................................................................................... 72
xiv
5.3.1.2 Nilai k=3 ...................................................................................... 72
5.3.1.3 Nilai k=4 ...................................................................................... 73
5.3.1.4 Nilai k=5 ...................................................................................... 74
5.3.1.5 Nilai k=6 ...................................................................................... 74
5.3.1.6 Nilai k=7 ...................................................................................... 75
5.3.1.7 Nilai k=8 ...................................................................................... 76
5.3.2 Skenario 2 ....................................................................................... 76
5.3.2.1 Nilai k=2 ...................................................................................... 76
5.3.2.2 Nilai k=3 ...................................................................................... 77
5.3.2.3 Nilai k=4 ...................................................................................... 78
5.3.2.4 Nilai k=5 ...................................................................................... 79
5.3.2.5 Nilai k=6 ...................................................................................... 79
5.3.2.6 Nilai k=7 ...................................................................................... 80
5.3.2.7 Nilai k=8 ...................................................................................... 81
5.4 Analisis Hasil Perbandingan................................................................... 81
5.4.1 Skenario 1 ....................................................................................... 82
5.4.2 Skenario 2 ....................................................................................... 84
5.5 Analisis Output dengan Metode Perbandingan Eksponensial ................ 86
BAB 6 PENUTUP ................................................................................................ 93
6.1 Kesimpulan ............................................................................................. 93
6.2 Saran ....................................................................................................... 93
DAFTAR PUSTAKA ........................................................................................... 95
LAMPIRAN .......................................................................................................... 98
xv
DAFTAR GAMBAR
Gambar 3.1 Kerangka Berfikir .............................................................................. 34 Gambar 4.1 Diagram Alur Preprocessing ............................................................. 36 Gambar 4.2 Flowchart Case Folding .................................................................... 37 Gambar 4.3 Flowchart Tokenization .................................................................... 38 Gambar 4.4 Flowchart Stopwords Removal ......................................................... 39 Gambar 4.5 Flowchart Algoritma Nazief & Andriani .......................................... 40 Gambar 4.6 Proses Skenario 1 Clustering K-Means dengan Cosine Normalization
............................................................................................................................... 41
Gambar 4.7 Proses Algoritma K-Means ............................................................... 43 Gambar 4.8 Proses Skenario 2 Clustering K-Means dengan Min-max
Normalization ........................................................................................................ 44 Gambar 4.9 Contoh Simulasi Skenario 1 .............................................................. 68 Gambar 4.10 Contoh Simulasi Skenario 2 ............................................................ 69 Gambar 5.1 Hasil Runtime Skenario 1 ................................................................. 82 Gambar 5.2 Hasil Memory Consumption Skenario 1 ........................................... 83 Gambar 5.3 Hasil Silhouette Coefficient Skenario 1 ............................................ 83 Gambar 5.4 Hasil Runtime Skenario 2 ................................................................. 85 Gambar 5.5 Hasil Memory Consumption Skenario 2 ........................................... 85 Gambar 5.6 Hasil Silhouette Coefficient Skenario 2 ............................................ 86
xvi
DAFTAR TABEL
Tabel 2.1 Studi Literatur Sejenis ........................................................................... 26 Tabel 4.1 Contoh Hasil Case Folding ................................................................... 37 Tabel 4.2 Contoh Hasil Tokenization ................................................................... 38 Tabel 4.3 Contoh Hasil Stopword Removal ......................................................... 39 Tabel 4.4 Contoh Hasil Stemming ........................................................................ 40 Tabel 4.5 Teks terjemahan ayat Al Quran ............................................................ 47 Tabel 4.6 Hasil Case folding ................................................................................. 47 Tabel 4.7 Hasil Tokenization ................................................................................ 48
Tabel 4.8 Hasil Stopword Removal ...................................................................... 49 Tabel 4.9 Hasil Stemming ..................................................................................... 49 Tabel 4.10 Hasil Perhitungan IDF ........................................................................ 50 Tabel 4.11 Hasil Perhitungan W (term weighting) ............................................... 51 Tabel 4.12 Hasil Normalisasi Cosine Normalization ............................................ 53 Tabel 4.13 Centroid Awal Skenario-1 .................................................................. 54 Tabel 4.14 Jarak dari hasil iterasi ke-1 Skenario-1 ............................................... 55 Tabel 4.15 Hasil Clustering Iterasi ke-1 Skenario-1 ............................................. 55 Tabel 4.16 Centroid Baru ke-1 Skenario-1 ........................................................... 55 Tabel 4.17 Jarak dari hasil iterasi ke-2 Skenario-1 ............................................... 56 Tabel 4.18 Hasil Clustering Iterasi ke-2 Skenario-1 ............................................. 56 Tabel 4.19 Centroid Baru ke-2 Skenario-1 ........................................................... 56 Tabel 4.20 Jarak dari hasil iterasi ke-3 Skenario-1 ............................................... 57 Tabel 4.21 Hasil Clustering Iterasi ke-3 Skenario-1 ............................................. 57
Tabel 4.22 Centroid Baru ke-3 Skenario-1 .......................................................... 57 Tabel 4.23 Hasil Akhir Clustering Skenario 1 ...................................................... 57 Tabel 4.24 Hasil perhitungan nilai a(i) Skenario-1 ............................................... 58 Tabel 4.25 Hasil perhitungan nilai d(i,C) dan b(i) Skenario-1 ............................. 58 Tabel 4.26 Hasil perhitungan nilai s(i) Skenario-1 ............................................... 59
Tabel 4.27 Hasil Perhitungan IDF ........................................................................ 60 Tabel 4.28 Hasil Perhitungan W (term weighting) ............................................... 61 Tabel 4.29 Hasil Normalisasi Min-max Normalization ........................................ 62 Tabel 4.30 Centroid Awal Skenario-2 .................................................................. 64 Tabel 4.31 Jarak dari hasil iterasi ke-1 Skenario-2 ............................................... 64
Tabel 4.32 Hasil Clustering Iterasi ke-1 Skenario-2 ............................................. 65 Tabel 4.33 Centroid Baru ke-1 Skenario-2 ........................................................... 65 Tabel 4.34 Jarak dari hasil iterasi ke-2 Skenario-2 .............................................. 65
Tabel 4.35 Hasil Clustering Iterasi ke—2 Skenario-2 .......................................... 65 Tabel 4.36 Centroid Baru ke-2 Skenario-2 ........................................................... 66 Tabel 4.37 Centroid ke-2 Skenario-2 ................................................................... 66 Tabel 4.38 Hasil Akhir Clustering Skenario-2 ...................................................... 66
Tabel 4.39 Hasil perhitungan nilai a(i) Skenario-2 ............................................... 67 Tabel 4.40 Hasil perhitungan nilai d(i,C) dan b(i) Skenario-2 ............................. 67 Tabel 4.41 Hasil perhitungan nilai s(i) Skenario-2 ............................................... 68
xvii
Tabel 5.1 Pengujian ............................................................................................... 71 Tabel 5.2 Hasil Nilai k=2 Skenario-1 ................................................................... 72 Tabel 5.3 Hasil Nilai k=3 Skenario-1 ................................................................... 72 Tabel 5.4 Hasil Nilai k=4 Skenario-1 ................................................................... 73 Tabel 5.5 Hasil Nilai k=5 Skenario-1 ................................................................... 74 Tabel 5.6 Hasil Nilai k=6 Skenario-1 ................................................................... 74 Tabel 5.7 Hasil Nilai k=7 Skenario-1 ................................................................... 75 Tabel 5.8 Hasil Nilai k=8 Skenario-1 ................................................................... 76 Tabel 5.9 Hasil Nilai k=2 Skenario-2 ................................................................... 76 Tabel 5.10 Hasil Nilai k=3 Skenario-2 ................................................................. 77 Tabel 5.11 Hasil Nilai k=4 Skenario-2 ................................................................. 78 Tabel 5.12 Hasil Nilai k=5 Skenario-2 ................................................................. 79
Tabel 5.13 Hasil Nilai k=6 Skenario-2 ................................................................. 79 Tabel 5.14 Hasil Nilai k=7 Skenario-2 ................................................................. 80 Tabel 5.15 Hasil Nilai k=8 Skenario-2 ................................................................. 81 Tabel 5.16 Hasil Perbandingan Skenario 1 ........................................................... 82 Tabel 5.17 Hasil Perbandingan Skenario 2 ........................................................... 84 Tabel 5.18 Penentuan Kriteria............................................................................... 87 Tabel 5.19 Pembobotan masing-masing kriteria ................................................... 88 Tabel 5.20 Pemberian Nilai Kriteria ..................................................................... 88 Tabel 5.21 Prioritas Keputusan ............................................................................. 91
1
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Pengetahuan menjadi hal yang penting dan utama dalam kehidupan
manusia. Bukan hanya ilmu pengetahuan umum tetapi ilmu agama juga
menjadi suatu kewajiban bagi umat muslim untuk dipelajari. Kitab suci Al
Quran tidak akan lepas dari umat islam, dikarenakan Al Quran merupakan
sumber ilmu pengetahuan yang diberikan oleh Allah SWT kepada
hambanya. Allah SWT telah menjelaskan hikmah dari diturunkannya Al
quran yaitu untuk ditadabburi dan diambil pelajarannya, sebagaimana
disebutkan dalam firman-Nya (Ukkasyah, 2018).
“Ini adalah sebuah Kitab yang Kami turunkan kepadamu penuh
dengan berkah supaya mereka metadabburi ayat-ayatnya dan supaya
orang-orang yang mempunyai pikiran (sehat) mendapat pelajaran.” (QS.
Shaad :29).
Menurut Dr. Subhi as-Salih mendefinisikan “Al Quran sebagai
kalam Allah SWT yang merupakan mukzijat yang diturunkan kepada Nabi
Muhammad SAW dan ditulis pada mushaf serta diriwayatkan dengan
mutawir, membacanya termasuk ibadah”. Sedangkan menurut
Muhammad Ali ash-Shabuni mendefinisikan “Al Quran sebagai firman
Allah SWT yang tiada tandingannya, diturunkan kepada Nabi Muhammad
SAW penutup para nabi dan rasul, dengan perantaraan Malaikat Jibril a.s,,
dan ditulis pada mushaf-mushaf yang kemudian disampaikan kepada kita
secara mutawatir, membaca dan mempelajarinya merupakan ibadah yang
dimulai dari surah al-Fatihah dan ditutup dengan surah an-Naas” (Hamid,
2016).
2
UIN Syarif Hidayatullah Jakarta
Al Quran terdiri atas banyak tema dari setiap surah yang berbeda.
Untuk mendapatkan cerminan utuh, pembaca harus melihat dan merujuk
semua bagian yang saling berhubungan (Abbas, 2009).
Penerapan text mining dalam memahami Al Quran sangat mungkin
dilakukan, karena secara komputasi, Al Quran memiliki informasi semi
terstruktur karena diatur dalam struktur nomor surat dan ayat. Ini
memudahkan pemodelan, berbeda dengan teks tidak terstruktur seperti
novel atau biografi (Ahmad et al., 2013). Pengelompokan ayat yang
memiliki kemiripan tema akan memudahkan pengguna menemukan suatu
tema dalam Al Quran.
Penelitian sebelummnya oleh (Faizin, 2018) telah
mengimplementasikan Text Mining untuk mengelompokkan terjemahan
ayat Al Quran dalam Bahasa Indonesia. Text mining, yang juga disebut
sebagai Teks Data Mining (TDM) atau Knowledge Discovery in Text
(KDT), secara khusus dikembangkan untuk proses ekstraksi informasi dari
dokumen-dokumen teks tak terstruktur (unstructured). Text mining
memiliki definisi menambang data berupa teks di mana sumber data
biasanya didapatkan dari dokumen dan tujuannya adalah untuk mencari
kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan
analisis keterhubungan antar dokumen (Yulian, 2018). Salah satu metode
yang digunakan dalam Text Mining yaitu clustering. Algoritma K-Means
adalah salah satu metode clustering yang sering digunakan dalam
pengelompokan data. Untuk menguji hasil dari clustering diperlukan juga
suatu metode yang dapat mengukur kekuatan dan kualitas sebuah cluster,
salah satu metode yang dapat digunakan adalah Metode Sillhouette
Coefficient.
Sebelumnya terdapat beberapa penelitian yang menerapkan
algoritma K-Means. Penelitian pertama yaitu yang telah disebutkan
sebelummnya oleh (Faizin, 2018) telah mengimplementasikan Text
Mining untuk mengelompokkan terjemahan ayat Al Quran dalam Bahasa
Indonesia menggunakan Algoritma K-Means Clustering menghasilkan
3
UIN Syarif Hidayatullah Jakarta
akurasi 43%. Penelitian kedua yaitu membandingkan Algoritma K-Means
dan DBSCAN pada pengelompokan data rumah kost mahasiswa
dikelurahan Tembalang Semarang mendapati hasil Algoritma K-Means
lebih unggul dari DBSCAN dengan nilai indeks silhouette 0,463
(Budiman, Safitri, & Ispriyanti, 2016).
Sebelum melakukan proses clustering ada beberapa tahapan dasar
yang harus dilakukan yaitu preprocessing dan pembobotan kata atau term
weighting. Menurut (Hudin, Fauzi, & Adinugroho, 2018) metode Text
Mining dengan menggunakan kata term sebagai fitur akan menghasilkan
dimensi vektor yang cukup besar. Selain itu pada beberapa dataset terdapat
rentang nilai yang berbeda disetiap atribut. Menurut (Domeniconi, Moro,
B, & Sartori, 2016) perhitungan dokumen dengan TF-IDF akan memiliki
nilai bobot yang berbeda tergantung dengan panjang tidaknya suatu
dokumen. Perbedaan rentang nilai pada setiap atribut menyebabkan tidak
berfungsinya atribut yang memiliki nilai jauh lebih kecil dibandingkan
dengan atribut-atribut lainnya (Nasution, Khotimah, & Chamidah, 2019).
Sehingga disarankan untuk menambahkan metode yang dapat
mereduksi ukuran dimensi yang cukup besar tersebut. Secara umum
ada dua tipe metode reduksi yang biasa digunakan antara lain
transformasi fitur dan feature selection (Hudin et al., 2018). Menurut
(Nasution et al., 2019) dan (Domeniconi et al., 2016) transformasi fitur
dengan normalisasi dapat menyamakan rentang nilai pada setiap atribut
dengan skala tertentu.
Pada penelitian sebelumnya yang dilakukan oleh (Faizin, 2018) telah
mengimplementasikan normalisasi sebagai transformasi fitur dengan
menggunakan Cosine Normalization pada pengelompokan teks
terjemahan ayat Al Quran dan menghasilkan akurasi sebesar 43% pada
nilai k=4. Selain Cosine Normalization, transformasi data dengan
normalisasi dapat dilakukan juga dengan beberapa cara, yaitu Min-
max Normalization, Z-score Normalization, Decimal Scaling, Sigmoid,
dan Softmax (Nasution et al., 2019). Penelitian sebelumnya oleh (Nasution
4
UIN Syarif Hidayatullah Jakarta
et al., 2019) telah melakukan perbandingan metode normalisasi yaitu pada
Decimal Scaling, Min-max Normalization dan Z-score Normalization
untuk klasifikasi wine menggunakan Algoritma K-NN, menghasilkan
akurasi terbaik pada metode Min-max Normalization dengan K=1 sebesar
65,92%. Penelitian sebelumnya juga telah dilakukan oleh (Jamdar,
Abraham, Khanna, & Dubey, 2015) yaitu menerapkan Min-max
Normalization sebagai feature scaling atau normalisasinya menghasilkan
rata-rata akurasi sebesar 83,40%. Dalam penelitian (Virmani, Taneja, &
Malhotra, 2015) menyatakan bahwa normalisasi dapat meningkatkan
efektifitas dari hasil yang dikeluarkan oleh sistem, terutama pada
sistem yang menggunakan jarak euclidean seperti Algoritma K-Means.
Berdasarkan uraian latar belakang yang telah dijelaskan, maka
penulis ingin melakukan sebuah penelitian membandingkan kedua metode
normalisasi tersebut dengan melakukan pengujian nilai silhouette
coefficient, runtime dan memory consumption yang berjudul “ Analisis
Perbandingan Cosine Normalization dan Min-max Normalization
pada Pengelompokan Teks Terjemahan Ayat Al Quran
Menggunakan Algoritma K-Means Clustering”.
1.2 Rumusan Masalah
Berdasarkan latar belakang sebelumnya maka dapat disimpulkan
rumusan permasalahan yang akan diangkat pada penelitian ini adalah
Bagaimana perbandingan nilai silhouette coefficient, runtime dan memory
consumption Cosine Normalization dan Min-max Normalization pada
Pengelompokan teks terjemahan ayat Al Quran dengan Algoritma K-
Means Clustering.
1.3 Batasan Masalah
Dalam penelitian ini, peneliti melakukan pembatasan masalah
terhadap masalah penelitian yang akan dilakukan, yakni:
1. Dataset yang digunakan sebagai sample pada penelitian ini adalah
Surah Al Baqarah ayat 2-286.
5
UIN Syarif Hidayatullah Jakarta
2. Nilai k yang digunakan pada Algoritma K-Means Clustering adalah k
= 2, k=3, k=4, k=5, k=6, k=7, k=8 .
3. Menggunakan Algoritma Nazief dan Andriani pada proses stemming.
4. Menggunakan Algoritma TF-IDF pada proses pembobotan kata.
5. Metode Implementasi yang digunakan dalam penelitian ini yaitu
metode simulasi.
6. Skenario yang diambil dalam simulasi berdasarkan metode normalisasi
yang dipakai.
7. Pengujian cluster dilakukan dengan menggunakan metode sillhouette
coefficient.
8. Parameter perbandingan kinerja algoritma yang digunakan, yaitu
waktu pemrosesan (runtime), memori yang digunakan untuk
pemrosesan (memory consumption) dan nilai silhouette coefficient.
9. Perbandingan (runtime) dan (memory consumption) menggunakan
metode pengambilan keputusan yaitu menggunakan Metode
Perbandingan Eksponensial.
1.4 Tujuan Penelitian
Tujuan yang ingin dicapai dalam penelitian ini adalah menganalisa
tingkat nilai silhouette coefficient, (runtime) dan (memory consumption)
dari hasil perbandingan Cosine Normalization dan Min-max
Normalization pada pengelompokan teks terjemahan ayat Al Quran
dengan Algoritma K-Means Clustering.
1.5 Manfaat Penelitian
Adapun manfaat yang didapat dari hasil penelitian ini adalah :
1.5.1 Bagi Penulis
1) Dapat menerapkan ilmu-ilmu yang telah diajarkan selama masa
perkuliahan.
2) Membandingkan teori yang telah didapat saat kuliah dengan
masalah yang sebenarnya.
6
UIN Syarif Hidayatullah Jakarta
3) Memberikan referensi untuk penulisan penelitian dengan
menggunakan algoritma yang sama.
4) Menjadi tolak ukur untuk mahasiswa untuk penelitian
selanjutnya agar lebih baik lagi dari penelitian sebelumnya.
1.5.2 Bagi Universitas
1) Mengetahui kemampun mahasiswa dalam mengusai materi
teori yang telah diperoleh pada masa kuliah ataupun materi yang
sesuai dengan program studinya.
2) Mengukur tingkat kemampuan mahasiswa dalam menerapkan
ilmu akademis maupun non-akademis di lingkungan
masyarakat.
1.5.3 Bagi Pembaca
1) Menambah wawasan pembaca mengenai Min-max
Normalization dan Algoritma K-Means Clustering, dalam
melakukan pengelompokan teks.
2) Membantu pembaca dalam menerapkan Min-max
Normalization dan Algoritma K-Means Clustering.
1.6 Metodologi Penelitian
Metode yang digunakan penulis dalam penulisan dan penelitian
dibagi menjadi tiga, yaitu metode pengumpulan data, metode
pengembangan sistem dan metode pengambilan keputusan. Berikut
penjelasan kedua metode tersebut :
1.6.1 Metode Pengumpulan Data
Metode pengumpulan data dilakukan dengan studi
kepustakaan untuk mengumpulkan data dengan mencari informasi
lewat buku, jurnal, e-book, dan sumber-sumber tertulis lainnya baik
tercetak maupun elektronik yang bertujuan untuk mendukung
sebuah penelitan.
7
UIN Syarif Hidayatullah Jakarta
1.6.2 Metode Pengembangan Sistem
Pada penelitian ini Penulis melakukan simulasi terhadap
sistem yang dibuat. Adapun langkah-langkah yang dilakukan yaitu :
1. Problem Formulation
2. Conceptual Model
3. Input Output Data
4. Modelling
5. Simulation
6. Verification and Validation
7. Experimentation
8. Output Analysis
1.6.3 Metode Pengambilan Keputusan
Penulis menggunakan metode pengambilan keputusan, yaitu
Metode Perbandingan Eksponensial yang digunakan untuk
perankingan hasil dari masing-masing metode normalisasi, sehingga
dapat diketahui metode normalisasi yang terbaik.
1.7 Sistematika Penulisan
Untuk memudahkan dalam penulisan laporan tugas akhir ini, penulis
menyusunnya ke dalam beberapa bagian. Setiap babnya terdiri dari
beberapa sub bab tersendiri. Dimana bab tersebut secara keseluruhan
saling berkaitan satu sama lain. Berikut penjelasan singkat dari masing-
masing bab:
BAB 1 PENDAHULUAN
Pada bab ini peneliti menjelaskan terkait latar belakang dari dari
sebuah permasalahan yang diangkat, tujuan penelitian, manfaat
penelitian, rumusan masalah, batasan masalah, metodologi
penelitian, dan sistematika penulisan pada tugas skripsi ini.
BAB 2 LANDASAN TEORI
8
UIN Syarif Hidayatullah Jakarta
Pada bab ini peneliti menjelaskan tentang materi-materi apa saja
yang dipakai untuk dijadikan dasar penelitian yang sedang
dilakukan.
BAB 3 METODE PENELITIAN
Pada bab ini peneliti menjelaskan tentang metode penelitian apa
yang dipakai untuk mendapatkan data dan metode untuk
pengembangan sistem yang telah dibuat serta kerangka berpikir
pembuatan tugas akhir ini.
BAB 4 IMPLEMENTASI, SIMULASI, DAN EKSPERIMEN
Pada bab ini menjelaskan tentang implementasi dari metode yang
telah digunakan untuk perancangan membangun sebuah sistem dan
tahapan proses menganalisa simulasi.
BAB 5 HASIL DAN PEMBAHASAN
Pada bab ini peneliti membahas tentang hasil yang telah didapat dari
proses simulasi yang telah dilakukan pada bab sebelumnya.
BAB 6 PENUTUP
Pada bab ini peneliti menjelaskan tentang kesimpulan dari hasil yang
telah didapat dan menjawab semua pokok permasalahan yang
dirancang serta saran-saran yang digunakan untuk penelitian lebih
lanjut.
9
BAB 2
LANDASAN TEORI
2.1. Al Quran
Al-Quran bagi kaum muslimin adalah kalam Allah SWT yang
diwahyukan kepada Nabi Muhammad SAW melalui perantaraan Jibril as
selama kurang lebih dua puluh tiga tahun. Kitab suci ini memiliki kekuatan
luar biasa yang berada di luar kemampuan seluruh makhluk Allah swT.
"Sekiranya kami turunkan Al-Qur'an ini kepada sebuah gunung, maka kamu
akan melihatnya tunduk terpecah belah karena takut kepada Allah SWT” (QS,
al-Hasyr [59]: 21).
Kandungan pesan llahi yang disampaikan oleh Nabi SAW dalam
bentuk Al Quran ini telah menjadi landasan kehidupan individual dan sosial
kaum Muslimin dalam segala aspeknya, bahkan masyarakat Muslim
mengawali eksistensinya dan telah memperoleh kekuatan hidup dengan
merespons dakwah Al Quran. Itulah sebabnya Al Quran berada di jantung
kehidupan umat Muslim. Namun tanpa pemahaman yang semestinya
terhadap Al Quran, kehidupan, pemikiran, dan kebudayaan kaum Muslimin
sangat sulit dipahami (Hamid, 2016).
2.2. Text Mining
Text mining (penambangan teks) adalah penambangan yang dilakukan
oleh komputer untuk mendapatkan sesuatu yang baru, sesuatu yang tidak
diketahui sebelumnya atau menemukan kembali informasi yang tersirat
secara implisit, yang berasal dari informasi yang di ekstrak secara otomatis
dari sumber-sumber data teks yang berbeda-beda (Feldman & Sanger, 2007).
Text mining merupakan teknik yang digunakan untuk menangani masalah
klasifikasi, pengklasteran, ekstraksi informasi dan information retrival (Berry
& Kogan, 2010).
Pada dasarnya proses kerja text mining banyak mengadopsi dari
penelitian data mining namun yang menjadi perbedaan adalah pola yang
digunakan oleh text mining diambil dari sekumpulan bahasa alami yang tidak
10
UIN Syarif Hidayatullah Jakarta
terstruktur sedangkan dalam data mining pola yang diambil dari database
yang terstruktur (Han, Kamber, & Pei, 2011). Tahap- tahap text mining secara
umum adalah text preprocessing dan seleksi fitur (Feldman & Sanger, 2007).
2.3. Clustering
Clustering atau klasterisasi adalah suatu teknik atau metode untuk
mengelompokkan data. Menurut Tan, 2006 clustering adalah sebuah proses
untuk mengelompokan data ke dalam beberapa cluster atau kelompok
sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum
dan data antar cluster memiliki kemiripan yang minimum. Clustering
merupakan proses partisi satu set objek data ke dalam himpunan bagian yang
disebut dengan cluster, Objek yang di dalam cluster memiliki kemiripan
karakteristik antar satu sama lainnya dan berbeda dengan cluster yang lain.
Partisti tidak dilakukan secara manual melainkan dengan suatu algoritma
clustering, Oleh karena itu, clustering sangat berguna dan bisa menemukan
group atau kelompok yang tidak dikenal dalam data (Irwansyah & Faisal,
2015).
Menurut (Merliana, Ernawati, & Santoso, 2015) clustering juga bisa
dikatakan suatu proses dimana mengelompokan dan membagi pola data
menjadi beberapa jumlah data set sehingga akan membentuk pola yang serupa
dan dikelompokkan pada cluster yang sama dan memisahkan diri dengan
membentuk pola yang berbeda di cluster yang berbeda.
Dapat disimpulkan clustering adalah proses untuk mengelompokan
data menjadi beberapa kelompok, dimana setiap isi kelompok memiliki pola
yang sama.
2.4. Algoritma
Beberapa definisi dari algoritma, yaitu algoritma adalah deretan
langkah-langkah komputasi yang mentransformasikan data masukan menjadi
keluaran. Algoritma adalah deretan instruksi yang jelas untuk
memecahkan persoalan, yaitu untuk memperoleh luaran yang diinginkan dari
suatu masukan dalam jumlah waktu yang terbatas (Munir & Lidya, 2016).
11
UIN Syarif Hidayatullah Jakarta
Sedangkan menurut (Sitorus, 2015) Algoritma adalah susunan langkah
penyelesaian suatu masalah secara sistematika dan logis.
Dapat disimpulkan, algoritma adalah langkah-langkah untuk
menyelesaikan masalah untuk menghasilkan suatu ouput.
2.5. Text Preprocessing
Text Preprocessing merupakan tahapan dari proses awal terhadap teks
untuk mempersiapkan teks menjadi data yang akan diolah lebih lanjut. Suatu
teks tidak dapat diproses langsung oleh algoritma pencarian, oleh karena itu
dibutuhkan preprocessing text untuk mengubah teks menjadi data numeric.
Sebuah teks yang ada harus dipisahkan, hal ini dapat dilakukan dalam
beberapa tingkatan yang berbeda. Suatu dokumen dapat di pecah menjadi
bab, sub-bab, paragraf, kalimat dan pada akhirnya menjadi potongan
kata/token. Selain itu pada tahapan ini keberadaan digit angka, huruf kapital,
atau kerakter-karakter yang lainnya dihilangkan dan dirubah (Feldman &
Sanger, 2007).
Proses preprocessing dilakukan agar data yang digunakan bersih dari
noise, memiliki dimensi yang lebih kecil, serta lebih terstruktur, sehingga
dapat diolah lebih lanjut. Tahap preprocessing memiliki beberapa proses,
yaitu case folding, stopwords removing, tokenizing, dan stemming
(Prasidhatama & Suryaningrum, 2018). Berikut ini tahapan-tahapan dari text
preprocessing :
2.5.1. Case Folding
Case Folding adalah mengubah semua huruf dalam dokumen
menjadi huruf kecil. Hanya huruf a sampai z yang diterima.
Karakter selain huruf dihilangkan dan dianggap delimiter (Salim,
2017).
2.5.2. Tokenization
Tokenization adalah proses dimana sebuah kalimat dipotong
untuk menghasilkan kata-kata yang akan digunakan untuk proses
selanjutnya (Prasidhatama & Suryaningrum, 2018).
12
UIN Syarif Hidayatullah Jakarta
2.5.3. Filtering
Filtering adalah tahap mengambil kata-kata penting dari
hasil token. Terdapat beberapa algoritma dalam filtering yaitu Stop-
list dan word-list. Algoritma stop- word merupakan algoritma yang
digunakan untuk mengeliminasi kata-kata yang tidak deskriptif.
Algoritma word-list adalah algoritma yang digunakan menyimpan
kata-kata memiliki nilai deskriptif (Salim, 2017).
2.5.4. Stemming
Stemming adalah proses untuk menggabungkan atau
memecahkan setiap varian-varian suatu kata menjadi kata dasar.
Proses stemming pada kata Bahasa Indonesia berbeda dengan
stemming bahasa Inggris. Proses stemming pada kata bahasa inggris
adalah proses untuk mengelimininasi sufiks pada kata, sementara
proses stemming bahasa Indonesia adalah proses untuk
mengeliminasi sufiks, prefiks, dan konfiks (Salim, 2017). Proses
stemming membutuhkan algoritma stemming. Algoritma stemming
adalah prosedur komputasi yang mencari asal kata dari suatu kata
dalam kalimat yang dilakukan dengan cara memisahkan masing-
masing kata dari kata dasar dan imbuhannya. Pada saat ini ada
beberapa algoritma stemming untuk Bahasa Indonesia yang telah
dikembangkan diantaranya yaitu: Algoritma Nazief dan Andriani,
Algoritma Porter, serta Algoritma Arifin dan Setiono (Novitasari,
2016).
2.6. Algoritma Nazief & Andriani
Algortima Stemming Nazief dan Andriani, Algoritma ini dibuat oleh
Boby Nazief dan Mirna Andriani dari Fakultas Ilmu Komputer Universitas
Indonesia tahun 1996, algoritma ini mengacu pada aturan morfologi Bahasa
Indonesia yang mengelompokkan imbuhan, yaitu imbuhan yang
diperbolehkan atau imbuhan yang tidak diperbolehkan. Pengelompokan ini
termasuk imbuhan di depan (awalan), imbuhan kata belakang (akhiran),
13
UIN Syarif Hidayatullah Jakarta
imbuhan kata di tengah (sisipan), dan kombinasi imbuhan pada awal dan
akhir kata (konfiks). Algoritma ini menggunakan kamus kata keterangan yang
digunakan untuk mengetahui bahwa proses stemming telah mendapatkan kata
dasar (Novitasari, 2016).
2.6.1. Tahapan Algoritma Nazief & Andriani
Berikut ini tahapan dari Algoritma Nazief & Andriani
(Nugroho, 2017).
1. Cari kata yang akan distem dalam kamus. Jika
ditemukan maka diasumsikan bahwa kata tesebut
adalah root word. Maka algoritma berhenti.
2. Inflection Suffixes(“-lah”, “-kah”, “-ku”, “- mu”, atau
“-nya”) dibuang. Jika berupa particles (“-lah”, “-
kah”, “-tah” atau “-pun”) maka langkah ini diulangi
lagi untuk menghapus Possesive Pronouns(“-ku”, “-
mu”, atau “-nya”), jika ada.
3. Hapus Derivation Suffixes(“-i”, “-an” atau “- kan”).
Jika kata ditemukan di kamus, maka algoritma
berhenti. Jika tidak maka ke langkah 3a.
a. Jika “-an” telah dihapus dan huruf terakhir
dari kata tersebut adalah “- k”, maka “-k” juga
ikut dihapus. Jika kata tersebut ditemukan
dalam kamus maka algoritma berhenti. Jika
tidak ditemukan maka lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-
kan”) dikembalikan, lanjut ke langkah 4.
4. Hapus Derivation Prefix. Jika pada langkah 3 ada
sufiks yang dihapus maka pergi ke langkah 4a, jika
tidak pergi ke langkah 4b.
a. Periksa tabel kombinasi awalan- akhiran yang
tidak diijinkan. Jika ditemukan maka
14
UIN Syarif Hidayatullah Jakarta
algoritma berhenti, jika tidak pergi ke langkah
4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian
hapus awalan. Jika root word belum juga
ditemukan lakukan langkah 5, jika sudah
maka algoritma berhenti. Catatan: jika awalan
kedua sama dengan awalan pertama algoritma
berhenti.
5. Melakukan recoding.
6. Jika semua langkah telah selesai tetapi tidak juga
berhasil maka kata awal diasumsikan sebagai root
word. Proses selesai.
2.6.2. Alasan menggunakan Algoritma Nazief & Andriani
Penulis menggunakan Algoritma Nazief & Andriani karena
menurut (Rezalina, 2016) pada penelitiannya yang membandingkan
tiga algoritma stemming bahwa algoritma Nazief & Adriani lebih
unggul dalam hal kecepatan dan akurasi dibandingkan dengan
algoritma Porter dan Arifin Setiono. Pada penelitian lain yang
dilakukan oleh (Prasidhatama & Suryaningrum, 2018) Algoritma
stemming Nazief & Adriani memiliki akurasi yang lebih tinggi
dibandingkan dengan algoritma stemming Idris.
2.7. Algoritma TF-IDF
Menurut (Melita, Amrizal, Suseno, & Dirjam, 2018), Metode Term
Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian
bobot hubungan suatu kata (term) terhadap dokumen. TF-IDF ini adalah
sebuah ukuran statistik yang digunakan untuk mengevaluasi seberapa penting
sebuah kata di dalam sebuah dokumen atau dalam sekelompok kata. Untuk
dokumen tunggal tiap kalimat dianggap sebagai dokumen. Frekuensi
kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa
penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang
15
UIN Syarif Hidayatullah Jakarta
mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot
kata semakin besar jika sering muncul dalam suatu dokumen dan semakin
kecil jika muncul dalam banyak dokumen (Melita et al., 2018).
Algoritma TF-IDF menggunakan rumus untuk menghitung bobot (W)
masing-masing dokumen terhadap kata kunci dengan rumus berikut :
Wdt = TFdt * IDFt
Dimana:
d = dokumen ke-d
t = kata ke-t dari kata kunci
W = bobot dokumen ke-d terhadap kata ke-t
TF = banyaknya kata yang dicari pada sebuah dokumen
IDF = Inversed Document Frequency
IDF = log (𝑁
𝐷𝐹)
N = total dokumen
DF = banyak dokumen yang mengandung kata yang dicari.
2.8. Normalisasi
Normalisasi adalah teknik penskalaan atau teknik pemetaan atau tahap
pra-pemrosesan (Patro & Kumar, 2015). Dengan normalisasi data dapat
diubah menjadi rentang baru dari rentang yang ada (Patro, Sahoo, Panda, &
Sahu, 2015). Sedangkan pengertian lain normalisasi merupakan proses
pengubahan data menjadi bentuk normal. Proses ini dilakukan penskalaan
terhadap data menjadi dalam rentang nilai tertentu. Normalisasi sangat
diperlukan ketika data yang ada bernilai tidak seimbang yaitu sangat besar
atau sangat kecil (Haryati, Abdillah, & Hadiana, 2016).
Normalisasi dilakukan terhadap vektor fitur dokumen untuk
menghilangkan pengaruh anggapan bahwa dokumen panjang lebih relevan
dibandingkan dokumen pendek. Dengan normalisasi ini dapat membantu
menormalkan batas nilai dengan melakukan standarisasi nilai ke dalam
interval 0 sampai dengan 1 (Amalia, 2016).
16
UIN Syarif Hidayatullah Jakarta
Dapat disimpulkan bawah normalisasi adalah proses untuk
menyederhanakan nilai data yang besar dan kecil agar seimbang dengan skala
nilai tertentu. Ada beberapa metode untuk menormalisasikan data, berikut
normalisasi yang dipakai dalam penelitian ini.
2.8.1. Cosine Normalization
Cosine Normalization adalah teknik normalisasi yang paling
umum digunakan dalam vector space model (Singhal, Buckley, &
Mitra, 2017). Cosine Normalization dihitung dengan menggunakan
kombinasi komponen tiap bobot atribut pertama, kedua dan
seterusnya. Cosine Normalization akan menjaga nilai tetap pada
rentang 0 sampai dengan 1 (Albate & Minker, 2011). Berikut
persamaan rumus Cosine Normalization :
𝑤(𝑤𝑜𝑟𝑑𝑖) =(𝑤𝑜𝑟𝑑𝑖)
√𝑤2(𝑤𝑜𝑟𝑑1) + 𝑤2(𝑤𝑜𝑟𝑑2) + ⋯ + 𝑤2(𝑤𝑜𝑟𝑑𝑛)
Dimana w adalah bobot setiap kata pada dokumen yang sama.
2.8.2. Min-max Normalization
Min-max Normalization merupakan metode normalisasi
dengan strategi linier yang mentransformasikan data dari satu
rentang nilai ke rentang nilai yang baru, sehingga menghasilkan
keseimbangan nilai perbandingan antar data saat sebelum dan
sesudah proses. Data diubah menjadi seimbang antara 0 sampai
dengan 1. Metode Min-Max Normalization merupakan salah satu
metode mengubah data yang kompleks dengan tidak
menghilangkan isi, sehingga lebih mudah diolah (Wimmer, 2018).
Berikut persamaan Min-max Normalization :
𝑋𝐼 = 𝑋 − 𝑋𝑚𝑖𝑛
𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
Dimana :
XI = Data atribut yang akan dinormalisasi.
Xmin = Nilai terkecil atribut tersebut.
17
UIN Syarif Hidayatullah Jakarta
Xmax = Nilai tertinggi atribut tersebut.
Metode normalisasi dengan Min-max Normalization akan
melakukan transformasi linier terhadap data asli sehingga
menghasilkan keseimbangan nilai perbandingan antar data saat
sebelum dan sesudah proses (Nasution et al., 2019).
2.9. Algoritma K-Means Clustering
2.9.1. Pengertian Algoritma K-Means Clustering
Algoritma K-Means Clustering merupakan salah satu metode
pengelompokan data nonhierarki (sekatan) yang berusaha
mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok.
Metode ini mempartisi data ke dalam kelompok sehingga data
berkarakteristik sama dimasukkan ke dalam satu kelompok yang
sama dan data yang berkarakteristik berbeda dikelompokkan ke
dalam kelompok yang lain. Adapun tujuan pengelompokan data ini
adalah untuk meminimalkan fungsi objektif yang diset dalam proses
pengelompokan, yang pada umumnya berusaha meminimalkan
variasi di dalam suatu kelompok dan memaksimalkan variasi antar
kelompok (Prasetyo, 2012).
2.9.2. Tahapan Algoritma K-Means Clustering
Pada penelitian (Rohmawati, Defiyanti, & Jajuli, 2015),
Sarwono mengemukakan secara lebih detail, algoritma K-Means
adalah sebagai berikut:
1. Menentukan k sebagai jumlah cluster yang ingin di
bentuk.
2. Membangkitkan nilai random untuk pusat cluster
awal (centroid) sebanyak k.
3. Menghitung jarak setiap data input terhadap masing
– masing centroid menggunakan rumus jarak
Euclidean (Euclidean Distance) hingga ditemukan
jarak yang paling dekat dari setiap data dengan
18
UIN Syarif Hidayatullah Jakarta
centroid. Berikut adalah persamaan Euclidian
Distance:
𝑑(𝑥𝑖, µ𝑗) = √∑(𝑥𝑖 − µ𝑗) 2
Dimana :
xi : data kriteria,
µj : centroid pada cluster ke-j
4. Mengklasifikasikan setiap data berdasarkan
kedekatannya dengan centroid (jarak terkecil).
5. Memperbaharui nilai centroid. Nilai centroid baru
di peroleh dari rata-rata cluster yang bersangkutan
dengan menggunakan rumus:
µ𝑗(𝑡 + 1) =1
𝑁𝑠𝑗∑ 𝑥𝑗
𝑗∈𝑆𝑗
Dimana:
µj(t+1) : centroid baru pada iterasi ke (t +1)
Nsj : banyak data pada cluster Sj.
6. Melakukan perulangan dari langkah 2 hingga 5, sampai
anggota tiap cluster tidak ada yang berubah.
Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (µj)
pada iterasi terakhir akan digunakan sebagai parameter untuk
menentukan clustering data .
2.10. Silhouette Coefficient
Silhouette Coefficient merupakan salah satu metode yang digunakan
untuk menguji kualitas dan kekuatan dari sebuah cluster. Metode silhouette
coefficient merupakan gabungan dari metode cohesion dan metode
separation. Metode cohesion sendiri merupakan suatu metode yang
digunakan untuk mengukur seberapa dekat relasi antar objek dalam satu
cluster yang sama. Sedangkan metode separation digunakan untuk mengukur
seberapa jauh sebuah cluster terpisah dengan cluster yang lain (Hudin et al.,
2018). Nilai indeks Silhouette dihitung sebagai derajat kepercayaan dalam
proses clustering pada suatu pengamatan dengan cluster yang dikatakan
19
UIN Syarif Hidayatullah Jakarta
terbentuk baik bila nilai indeks mendekati 1 dan kondisi sebaliknya jika nilai
indeks mendekatai angka -1 (Irwansyah & Faisal, 2015). Silhoutte memiliki
tiga tahap dalam perhitungannya, berikut tahap perhitungan Silhoutte
Coefficient (Hudin et al., 2018):
1. Hitung rata-rata jarak dari suatu dokumen misalkan i dengan
semua dokumen lain yang berada dalam satu cluster, dengan
menggunakan persamaan
𝑎(𝑖) = 1
[𝐴] − 1∑ 𝐽 ∈ 𝐴, 𝑗 ≠ 𝑖 𝑑(𝑖, 𝑗)
2. Kemudian Hitung rata-rata jarak dari dokumen i tersebut
dengan semua dokumen di cluster lain, dan diambil nilai
terkecilnya, dengan menggunakan persamaan
𝑑(𝑖, 𝐶) = 1
[𝐴]∑ 𝐽 ∈ 𝐶 𝑑(𝑖, 𝑗)
Dengan d (i, C) adalah jarak rata-rata dokumen i dengan
semua objek pada cluster lain C dimana A ≠ C.
𝑏(𝑖) = min 𝐶 ≠ 𝐴 𝑑(𝑖, 𝐶)
3. Kemudian menghitung nilai silhouette coefficient dengan
persamaan
𝑠(𝑖) = 𝑏(𝑖) − 𝑎(𝑖)
max (𝑎(𝑖), 𝑏(𝑖)
Berikut ini merupakan ukuran nilai silhouette menurut Kaufman dan
Rousseeuw (Kaufman & Rousseeuw, 1990). Nilai silhouette coefficient (SC):
1. 0,7 < SC <= 1 strong structure
2. 0,5 < SC <= 0,7 medium structure
3. 0,25 <SC <= 0,5 weak structure
4. SC <= 0,25 no structure
20
UIN Syarif Hidayatullah Jakarta
2.11. Metode Perbandingan Eksponensial
Metode perbandingan eksponensial (MPE) merupakan salah satu
metode pengambilan keputusan yang mengkualifikasikan pendapat
seseorang atau lebih dalam skala tertentu. Metode ini mampu menentukan
urutan prioritas alternatif keputusan dengan menggunakan beberapa kriteria
(Kriteria Majemuk) (Sari, 2018).
2.11.1. Tahapan Metode Perbandingan Eksponensial
Menurut (Pratiwi, 2016), tahapan metode perbandingan
eksponensial sebagai berikut:
1. Menyusun alternatif-alternatif keputusan yang akan dipilih
2. Menentukan kriteria atau perbandingan relatif kriteria
keputusan yang penting untuk dievaluasi dengan menggunakan
skala konversi tertentu sesuai dengan keinginan pengambil
keputusan
3. Menentukan tingkat kepentingan relatif dari setiap kriteria
keputusan atau pertimbangan kriteria. Penentuan bobot
ditetapkan pada setiap kriteria untuk menunjukkan tingkat
kepentingan suatu kriteria
4. Melakukan penilaian terhadap semua alternatif pada setiap
kriteria dalam bentuk total skor tiap alternatif.
2.11.2. Formulasi Perhitungan Metode Perbandingan Eksponensial
Formulasi perhitungan total nilai setiap pilihan keputusan
adalah sebagai berikut (Pratiwi, 2016):
Total Nilai (TNi) = ∑ (RKij)𝑇𝐾𝐾𝑗𝑚
𝑗=1
Keterangan :
TNi = Total nilai alternatif ke-i
Rkij = Derajat kepentingan relatif kriteria ke-j pada
pilihan keputusan i
21
UIN Syarif Hidayatullah Jakarta
TKKj = Derajat kepentingan kriteria keputusan ke-j; TKKj
> 0; bulat
n = Jumlah pilihan keputusan
m = Jumlah kriteria keputusan
Penentuan tingkat kepentigan kriteria dilakukan dengan
cara wawancara dengan si pengambil keputusan atau melalui
kesepakatan curah pendapat. Sedangkan penentuan skor alternatif
pada kriteria tertentu dilakukan dengan memberi nilai setiap
alternatif berdasarkan nilai kriterianya. Semakin besar nilai
alternatif semakin besar pula skor alternatif tersebut. Total skor
masing-masing alternatif keputusan akan relatif berbeda secara
nyata karena adanya fungsi eksponensial.
2.11.3. Keuntungan Metode Perbandingan Eksponensial
Metode Perbandingan Eksponensial dapat mengurangi bias
yang mungkin terjadi dalam analisis. Nilai skor yang
menggambarkan urutan prioritas menjadi besar dalam hal fungsi
eksponensial ini menyebabkan urutan prioritas alternatif keputusan
menjadi lebih nyata (Pratiwi, 2016).
2.12. Studi Pustaka
Studi kepustakaan merupakan studi terhadap kajian teoritis dan
referensi lain yang berkaitan dengan nilai, budaya dan norma yang
berkembang pada situasi sosial yang diteliti, selain itu studi kepustakaan
sangat penting dalam melakukan penelitian, hal ini dikarenakan penelitian
tidak akan lepas dari literatur-literatur ilmiah (Sugiyono, 2017). Studi
pustaka memiliki peranan penting dalam suatu penelitian. Dengan melakukan
studi pustaka, para peneliti mempunyai pengetahuan yang luas dan mendalam
tentang permasalahan yang hendak diteliti (Fitrah & Luthfiyah, 2017).
Penulis menggunakan metode studi pustaka dalam pengumpulan data
karena metode ini cocok dilakukan untuk mengumpulkan data dan informasi
sebagai bahan dasar peneliti dan acuan dalam penelitian.
22
UIN Syarif Hidayatullah Jakarta
2.13. Metode Simulasi
Menurut (Siregar, 2016) simulasi merupakan teknik penyusunan model
dari suatu keadaan nyata (sistem), kemudian dilakukan percobaan pada
model tersebut. Pada umumnya simulasi cocok bila diterapkan untuk
menganalisa interaksi masalah yang rumit dari sistem, sedangkan
penggunaan teknik analisa yang ada sangat terbatas. Simulasi juga
berguna untuk mengetahui pengaruh atau akibat suatu keputusan dalam
jangka waktu tertentu.
Menurut (Sajjad, 2010) yang dikutip dari skripsi (Hanum, Shofi, &
Masruroh, 2018) metode simulasi terdiri dari beberapa tahapan yang terdiri
dari:
2.13.1. Problem Formulation
Proses simulasi dimulai dengan masalah praktis yang
memerlukan pemecahan atau pemahaman. Sebagai contoh
sebuah perusahaan kargo ingin mencoba untuk mengembangkan
strategi baru untuk pengiriman truk, contoh lain yaitu astronom
mencoba memahami bagaimana sebuah nebula terbentuk. Pada
tahap ini kita harus memahami perilaku dari sistem, mengatur
operasi sistem sebagai objek untuk percobaan. Maka kita perlu
menganalisa berbagai solusi dengan menyelidik hasil sebelumnya
dengan masalah yang sama. Solusi yang paling diterima yang harus
dipilih.
2.13.2. Conceptual Model
Langkah ini terdiri dari deskripsi tingkat tinggi dari
struktur dan perilaku sebuah sistem dan mengidentifikasi semua
benda dengan atribut dan interface mereka. Kita juga harus
menentukan variabel state-nya, bagaimana cara mereka
berhubungan, dan mana yang penting untuk penelitian. Pada tahap
ini dinyatakan aspek-aspek kunci dari requirement. Selama definisi
model konseptual, kita perlu mengungkapkan fitur yang penting.
23
UIN Syarif Hidayatullah Jakarta
Kita juga harus mendokumentasikan informasi non-fungsional,
misalnya seperti perubahan pada masa yang akan datang,
perilaku nonintuitive atau non-formal, dan hubungan dengan
lingkungan.
2.13.3. Input / Output Data
Pada tahap ini kita mempelajari sistem untuk
mendapatkan data input dan output. Untuk melakukannya kita
harus mengumpulkan dan mengamati atribut yang telah
ditentukan pada tahap sebelumnya. Ketika entitas sistem yang
dipelajari, maka dicoba mengaitkannya dengan waktu. Isu penting
lainnya pada tahap ini adalah pemilihan ukuran sampel yang valid
secara statistik dan format data yang dapat diproses dengan
komputer. Kita harus memutuskan atribut mana yang stokastik
dan deterministik. Dalam beberapa kasus, tidak ada sumber data
yang dapat dikumpulkan (misalnya pada sistem yang belum ada).
Dalam kasus tersebut kita perlu mencoba untuk mendapatkan set
data dari sistem yang ada (jika tersedia). Pilihan lain yaitu dengan
menggunakan pendekatan stokastik untuk menyediakan data yang
diperlukan melalui generasi nomor acak.
2.13.4. Modelling
Pada tahap pemodelan, kita harus membangun
representasi yang rinci dari sistem berdasarkan model konseptual
dan input/output data yang dikumpulkan. Model ini dibangun
dengan mendefinisikan objek, atribut, dan metode menggunakan
paradigma yang dipilih. Pada tahap ini spesifikasi model dibuat,
termasuk set persamaan yang mendefinisikan perilaku dan
struktur. Setelah menyelesaikan definisi ini, kita harus
membangun struktur awal model (mungkin berkaitan sistem dan
metrik kerja).
24
UIN Syarif Hidayatullah Jakarta
2.13.5. Simulation
Pada tahap simulasi, kita harus memilih mekanisme
untuk menerapkan model (dalam banyak kasus menggunakan
komputer dan bahasa pemrograman dan alat-alat yang memadai),
dan model simulasi yang dibangun. Selama langkah ini, mungkin
perlu untuk mendefinisikan algoritma simulasi dan
menerjemahkannya ke dalam program komputer.
2.13.6. Verification and Validation
Pada tahap-tahap sebelumnya, tiga model yang berbeda
dibangun: model konseptual (spesifikasi), model sistem (desain),
dan model simulasi (executable program). Kita perlu untuk
memverifikasi dan memvalidasi model ini. Verifikasi terkait
dengan konsistensi internal antara tiga model. Validasi
difokuskan pada korespondensi antara model dan realitas: adalah
hasil simulasi yang konsisten dengan sistem yang dianalisis.
2.13.7. Eksperimentation
Kita harus menjalankan model simulasi, menyusul tujuan
yang dinyatakan pada model konseptual. Selama fase ini kita harus
mengevaluasi output dari simulator menggunakan korelasi
statistik untuk menentukan tingkat presisi untuk metrik kerja.
Fase ini dimulai dengan desain eksperimen, dengan
menggunakan teknik yang berbeda. Beberapa teknik ini meliputi
analisis sensitivitas, optimasi,dan seleksi (dibandingkan dengan
sistem alternatif).
2.13.8. Output Analysis
Pada tahap analisa keluaran, keluaran simulasi dianalisis
untuk memahami perilaku sistem. Keluaran ini digunakan untuk
mendapatkan tanggapan tentang perilaku sistem yang asli. Pada
tahap ini, alat visualisasi dapat digunakan untuk membantu proses
tersebut.
25
UIN Syarif Hidayatullah Jakarta
2.14. Studi Literatur Sejenis
Pada penelitian ini, penulis menggunakan literatur penelitian sejenis
yang sudah ada sebelumnya. Hal ini dimaksudkan untuk membandingkan
studi literatur tersebut. Berikut ini tabel literatur sejenis.
26
UIN Syarif Hidayatullah Jakarta
Tabel 2.1 Studi Literatur Sejenis
No Peneliti
(Tahun)
Judul Penelitian Algoritma Nilai k Stemming Pembobot
an
Normalisasi
Data
Pengujian Hasil
1 Muhamm
ad Sholeh
Hudin
(2018)
Implementasi
Metode Text
Mining dan K-
Means Clustering
untuk
Pengelompokan
Dokumen Skripsi
K-Means Nilai
k=2,3,4
5,6,8.
Algoritma
Stemming
Porter
TF-IDF - Pengujian
mencari
cluster terbaik
dengan
Silhoutte
Coefficient.
Nilai optimal terdapat
pada nilai k=4 dengan
nilai silhouette 0,483.
2 Ahmad
Salam
Wahid
Faizin
(2018)
Implementasi K-
Means Clustering
Pada Terjemahan
Al Quran
Berdasarkan
Keterkaitan Topik
K-Means Nilai
k=4
Algoritma
Nazief &
Andriani
TF-IDF Cosine
Normalizatio
n
Tidak
disebutkan
Peneliti menyimpulkan
bahwa penelitian
menggunakan algoritma
K-Means untuk
melakukan clustering
terjemahan ayat Al
Quran menghasilkan
akurasi 43% dengan nilai
k=4
27
UIN Syarif Hidayatullah Jakarta
3 Darnisa
Azzahra
Nasution,
Hidayah
Husnul
Khotimah
dan Nurul
Chamidah
(2019)
Perbandingan
Normalisasi Data
Untuk Klasifikasi
Wine
Menggunakan
Algoritma K-NN
K-NN K=3, 5,
7, dan
11
- - Min-max
normalizatio
n, Decimal
scaling dan
Z-score
normalizatio
n
Tidak
disebutkan
Akurasi tertinggi
metode min-max
normalization K = 1
sebesar 65,92%.
4 Adit
Jamdar,
Jessica
Abraham,
Karishma
Khanna
dan Rahul
Dubey
(2015)
Emotion Analysis
of songs based on
lyrical and audio
features
K-NN Tidak
disebutk
an
Tidak
disebutka
n
TF-IDF Min-max
normalizatio
n
Tidak
disebutkan
Menghasilkan akurasi
dengan rata-rata sebesar
83,40%.
28
UIN Syarif Hidayatullah Jakarta
5 Dewinta
Fenny
(2019)
Perbandingan
Cosine
Normalization dan
Min-max
Normalization pada
Pengelompokan
Terjemahan Ayat
Al-Quran
Menggunakan K-
Means Clustering
K-Means Nilai k =
2,3,4,5,6
,8.
Algoritma
Nazief &
Andriani
TF-IDF Cosine
Normalizatio
n dan Min-
max
Normalizatio
n
Pengujian
mencari
cluster terbaik
dengan
Silhoutte
Coefficient
dan
membandingk
an performa
dari metode
normalization.
Menemukan nilai k
terbaik untuk clustering
dan mengetahui metode
normalization yang
terbaik untuk
pengelompokan
terjemahan ayat Al
Quran.
29
UIN Syarif Hidayatullah Jakarta
Adapun perbedaan antara peneliti saat ini dengan peneliti sebelumnya
yaitu :
1. Peneliti membuat dua skenario, pertama menggunakan metode
normalisasi Cosine Normalization dan skenario ke dua
menggunakan metode normalisasi Min-max Normalization.
2. Peneliti melakukan pengujian cluster dengan menggunakan
metode silhouette coefficient.
3. Pada penelitian sebelumnya telah menggunakan nilai k = 4. Oleh
karena itu pada penelitian ini penulis menggunakan nilai k 2-8
yaitu nilai lebih kecil dan lebih besar dari nilai k = 4.
4. Peneliti menambahkan perbandingan performa dan kinerja pada
masing-masing skenario yaitu memory consumption dan runtime
sebagai pembeda dari peneliti sebelumnya.
30
BAB 3
METODOLOGI PENELITIAN
3.1. Metode Pengumpulan Data
Pada metode pengumpulan data peneliti mengumpulkan informasi yang
dibutuhkan dalam rangka mencapai tujuan penelitian. Oleh karena itu peneliti
memerlukan metode pengumpulan data guna mendukung penelitian ini.
Proses pengumpulan data sebagai berikut.
3.1.1. Sumber Data
Pada penelitian ini, penulis menggunakan sumber teks
terjemahan Al Quran dari website Tanzil.net. Penulis menggunakan
teks terjemahan Bahasa Indonesia yang diterjemahkan oleh
Indonesian Ministry of Religious Affairs (Departemen Agama
Indonesia) berasal dari http://tanzil.net/docs/resources yang sudah
didigitalisasi dalam format sql. Jumlah data yang digunakan sebagai
sample yaitu surah Al Baqarah ayat 2 – 286.
3.1.2. Studi Pustaka
Peneliti melakukan studi pustaka dengan pengumpulan
literatur-literatur yang berkaitan dengan penulisan skripsi sebagai
bahan untuk melengkapi penelitian. Pencarian literatur dilakukan di
perpustakaan dan secara online melalui internet. Literatur yang
dipakai berasal dari berbagai buku referensi, e-book, skripsi, jurnal
dan artikel yang terkait dengan penelitian ini. Studi pustaka juga
dimaksudkan untuk mencari literatur yang mempunyai persamaan
atau keterkaitan dengan penelitian yang sedang dilakukan, yaitu
penelitian yang terkait dengan pengelompokan data atau teks dengan
menggunakan Algoritma K-Means Clustering dan normalisasi data.
Hal ini dimaksudkan untuk mengevaluasi dan dijadikan bahan untuk
perbandingan agar bisa dilakukan pengembangan yang lebih baik
dari penelitian sebelumnya. Pustaka yang dijadikan acuan dapat
dilihat pada Daftar Pustaka.
31
UIN Syarif Hidayatullah Jakarta
3.2. Metode Pengembangan Sistem
Dalam penelitian ini, penulis menggunakan metode simulasi untuk
melihat perbandingan dari hasil clustering data teks terjemahan ayat Al Quran
menggunakan normalisasi data Min-max Normalization dan Cosine
Normalization pada Algoritma K-Means Clustering. Metode simulasi terdiri
dari beberapa tahapan, yaitu:
3.2.1. Problem Formulation
Pada tahap problem formulation, penulis memilih suatu
permasalahan untuk dianalisis. Penulis melakukan studi pustaka dan
studi literatur, penulis memutuskan untuk melakukan penelitian
mengenai penerapan algoritma k-means clustering dan
perbandingan penerapan norrmalisasi data dalam proses
pengelompokan terjemahan ayat Al Quran Bahasa Indonesia. Pada
penelitian sebelumnya yaitu penelitian dari (Faizin, 2018)
menggunakan Cosine Nomalization pada pengelompokan
terjemahan ayat Al Quran Bahasa Indonesia.
3.2.2. Conceptual Model
Pada tahapan ini peneliti membuat model konsep yang akan
dilakukan yaitu membahas keseluruhan penelitian ini. Konsep
pertama membuat konsep pada proses preprocessing. Kedua,
membuat konsep untuk skenario 1 yaitu menerapkan Cosine
Nomalization pada clustering Algoritma K-Means. Ketiga, membuat
konsep skenario 2 yaitu menerapkan Min-max Normalization pada
clustering Algoritma K-Means.
3.2.3. Input Output Data
Data masukan seperti kamus kata dasar KBBI, kamus
stopword dan data teks terjemahan ayat Al Quran Bahasa Indonesia
menjadi input pada penelitian ini. Data yang diambil sebagai sample
sebanyak 286 ayat. Data pada aplikasi ini diolah menggunakan
algoritma K-Means Clustering untuk menghasilkan output berupa
32
UIN Syarif Hidayatullah Jakarta
cluster dan nilai sillhoutte, runtime, dan memory consumption dari
skenario 1 dan skenario 2.
3.2.4. Modelling
Pada tahap ini penulis melakukan pemodelan dalam
membuat rancangan sistem yang akan dibuat secara manual.
Pemodelan atau skenario yang dibuat yaitu skenario penerapan
Cosine Nomalization pada algoritma K-Means Clustering dan
skenario penerapan Min-max Normalization pada algoritma K-
Means Clustering.
3.2.5. Simulation
Pada tahapan ini, sistem yang telah dibuat akan dijalankan
untuk mensimulasikan kinerja algoritma sesuai dengan konsep dan
skenario yang telah ditentukan sebelumnya. Hasil simulasi dicatat
dan kemudian akan dilakukan tahap verifikasi.
3.2.6. Verification and Validation
Pada tahapan ini peneliti melakukan verifikasi dan validasi
dari tahapan sebelumnya. Verifikasi dilakukan untuk memastikan
adanya kesalahan atau tidak yang terjadi ketika sistem dijalankan.
Validasi dilakukan untuk memastikan kesesuaian proses simulasi
yang dibuat berdasarkaan model pengkonsepan dengan formulasi
masalah yang dibuat. Jika validasi tidak terpenuhi, maka peneliti
kembali ketahap conceptual model untuk membuat model
pengkonsepan yang baru.
3.2.7. Experimentation
Pada tahapan ini, penulis melakukan eksperimentasi sesuai
dengan model yang dibuat pada saat tahapan modelling. Pada setiap
model skenario dilakukan percobaan sebanyak enam kali dengan
memasukan nilai k yang berbeda yaitu k=2, k=3, k=4, k=5, k=6, k=8
dan setiap percobaan dijalankan sebanyak lima kali.
33
UIN Syarif Hidayatullah Jakarta
3.2.8. Output Analysis
Pada tahap terakhir ini, peneliti menganalisis output simulasi
yang dilakukan pada saat eksperimentasi. Output direpresentasikan
dalam bentuk tabel yang menyatakan nilai sillhoutte, waktu
pemrosesan (runtime) dan memori yang digunakan (memory
consumption) dari masing-masing nilai k yang telah ditentukan.
3.3. Kerangka Berpikir
Dalam penyusunan skripsi ini, peneliti melakukan tahapan-tahapan
dengan mengacu pada kerangka berpikir berikut ini :
35
UIN Syarif Hidayatullah Jakarta
BAB 4
IMPLEMENTASI, SIMULASI, DAN EKSPERIMEN
4.1. Problem Formulation
Pada tahapan formulasi masalah ini, penulis melakukan identifikasi
masalah berdasarkan penelitian sebelumnya. Penelitian sebelumnya oleh
(Faizin, 2018) yaitu mengimplementasikan Algoritma K-Means Clustering
dengan menggunakan Cosine Nomalization pada pengelompokan ayat-ayat
Al Quran menghasilkan akurasi sebesar 43%.
Menurut (Hudin et al., 2018) pengelompokan teks menggunakan
metode text mining menggunakan kata atau term sebagai fitur akan
menghasilkan dimensi vektor yang cukup besar. Sehingga disarankan untuk
menambahkan suatu metode yang dapat mereduksi ukuran dimensi yang
cukup besar. Secara umum ada dua tipe metode reduksi yang biasa
digunakan antara lain transformasi fitur dan feature selection.
Setelah melakukan studi pustaka mengenai Algoritma K-Means
Clustering pada pengelompokan data teks penulis memutuskan untuk
menggunakan transformasi fitur dengan menormalisasi data menggunakan
Min-max Normalization. Peneliti akan membandingkan Cosine
Normalization dengan Min-max Normalization pada pengelompokan teks
terjemahan ayat Al Quran menggunakan Algoritma K-Means Clustering.
Peneliti menggunakan nilak k 2-8 dan membandingkan nilai silhouette
coefficient, waktu pemrosesan (runtime), memori yang digunakan
(memory consumption) dari masing-masing metode normalisasi sebagai
pembeda dengan penelitian sebelumnya. Pengujian dengan membandingkan
metode normalisasi Cosine Normalization dan Min-max Normalization, hal
ini dilakukan untuk mengetahui apakah Min-max Normalization dapat
membantu dalam pengelompokan.
4.2. Conceptual Model
Pada tahap conceptual model ini dilakukan pengkonsepan sistem yang
akan dibangun dan membahas alur keseluruhan dari penelitian ini yang
36
UIN Syarif Hidayatullah Jakarta
berkaitan dengan input, proses dan output. Berikut ini merupakan konsep
alur keseluruhan dari sistem yang dibangun oleh peneliti.
4.2.1. Conceptual Model Preprocessing
Dalam penelitian ini data terlebih dahulu diproses dengan tahapan
preprocessing. Preprocessing data dilakukan dengan menggunakan bahasa
pemrograman php. Tahapan preprocessing yang dilakukan pada penelitian
ini adalah proses case folding, tokenizing, stopwords removal dan stemming.
Algoritma stemming yang digunakan dalam penelitian ini adalah Algoritma
nazief & andriani. Berikut ini diagram alur tahapan preprocessing yang
dilakukan dalam penelitian ini :
Gambar 4.1 Diagram Alur Preprocessing
Berikut ini penjelesan dari tahapan preprocessing :
1. Pada tahap pertama preprocessing yaitu proses case folding, adalah
proses yang digunakan untuk menyamakan bentuk huruf menjadi
huruf kecil dan menghapus karakter selain huruf.
37
UIN Syarif Hidayatullah Jakarta
Gambar 4.2 Flowchart Case Folding
Berikut contoh hasil Case folding :
Tabel 4.1 Contoh Hasil Case Folding
Input output
Kitab (Al Quran) ini tidak
ada keraguan padanya;
petunjuk bagi mereka
yang bertakwa,
kitab al quran ini tidak ada keraguan
padanya petunjuk bagi mereka yang
bertakwa
2. Tahapan kedua yaitu Tokenization, adalah proses pemisahan kata-kata
dari suatu kalimat.
38
UIN Syarif Hidayatullah Jakarta
Gambar 4.3 Flowchart Tokenization
Berikut contoh hasil Tokenization :
Tabel 4.2 Contoh Hasil Tokenization
Input output
kitab al quran ini tidak
ada keraguan padanya
petunjuk bagi mereka
yang bertakwa
'kitab', 'al', 'quran', 'ini', 'tidak', 'ada',
'keraguan', 'padanya', 'petunjuk', 'bagi',
'mereka', 'yang', 'bertakwa'
3. Tahapan ketiga yaitu Stopword Removal, adalah proses penghilangan
token atau menghapus kata-kata yang dianggap tidak relevan.
39
UIN Syarif Hidayatullah Jakarta
Gambar 4.4 Flowchart Stopwords Removal
Berikut contoh hasil Stopword Removal :
Tabel 4.3 Contoh Hasil Stopword Removal
Input output
'kitab', 'al', 'quran', 'ini',
'tidak', 'ada', 'keraguan',
'padanya', 'petunjuk',
'bagi', 'mereka', 'yang',
'bertakwa'
'kitab', 'al', 'quran', 'keraguan',
'petunjuk', 'bertakwa'
4. Tahapan terakhir yaitu Stemming, adalah proses menghilangkan
imbuhan pada sebuah kata menjadi kata dasar sesuai KBBI dengan
40
UIN Syarif Hidayatullah Jakarta
menggunakan Algoritma Nazief & Andriani. Berikut adalah gambar
flowchart Algoritma Nazief & Andriani :
Gambar 4.5 Flowchart Algoritma Nazief & Andriani
Berikut contoh hasil Stemming :
Tabel 4.4 Contoh Hasil Stemming
Input output
'kitab', 'al', 'quran',
'keraguan', 'petunjuk',
'bertakwa'
'kitab', 'al', 'quran', 'ragu', 'tunjuk',
'takwa'
41
UIN Syarif Hidayatullah Jakarta
4.2.2. Conceptual Model Algoritma K-Means Clustering dengan
menggunakan Cosine Normalization
Skenario yang pertama pada penelitian ini secara alur dari analisis
pengelompokan dengan menggunakan Cosine Normalization pada
algoritma K-Means Clustering sebagai metode untuk mentransormasikan
data dapat dijelaskan pada gambar dibawah ini :
Gambar 4.6 Proses Skenario 1 Clustering K-Means dengan Cosine Normalization
Berikut penjelasan dari setiap proses saat melakukan
pengelompokan dengan Algoritma K-Means Clustering menggunakan
Cosine Normalization :
42
UIN Syarif Hidayatullah Jakarta
1. Menyiapkan dataset terjemahan ayat Al Quran dalam format
sql.
2. Melakukan proses preprocessing sesuai dengan tahapan 4.2.1
yaitu conceptual model preprocessing.
3. Melakukan pembobotan kata setelah proses preprocessing
selesai dengan menggunakan Algoritma TF-IDF.
4. Setelah mendapatkan nilai weighting maka selanjutnya data
dinormalisasikan dengan menggunakan Cosine Normalization.
5. Nilai weighting yang sudah di normalisasi dihitung totalnya,
lalu diproses menggunakan Algoritma K-Means Clustering.
Berikut alur dari Algoritma K-Means Clustering :
43
UIN Syarif Hidayatullah Jakarta
Gambar 4.7 Proses Algoritma K-Means
Penjelesan untuk proses Algoritma K-Means Clustering sudah
dijelaskan pada sub-bab 2.9.2
6. Setelah didapatkan cluster sesuai dengan nilai k yang
ditentukan, maka tahap selanjutnya adalah evaluasi cluster.
7. Evaluasi cluster dilakukan dengan menghitung nilai sillhoutte
coefficient, runtime, dan memory consumption.
44
UIN Syarif Hidayatullah Jakarta
4.2.3. Conceptual Model Algoritma K-Means Clustering dengan
menggunakan Min-max Normalization
Skenario yang kedua pada penelitian ini secara alur dari analisis
pengelompokan dengan menggunakan Min-max Normalization pada
algoritma K-Means Clustering sebagai metode untuk mentransormasikan
data dapat dijelaskan pada gambar dibawah ini :
Gambar 4.8 Proses Skenario 2 Clustering K-Means dengan Min-max Normalization
45
UIN Syarif Hidayatullah Jakarta
Berikut penjelasan dari setiap proses saat melakukan
pengelompokan dengan Algoritma K-Means Clustering menggunakan Min-
max Normalization :
1. Menyiapkan dataset terjemahan ayat Al Quran dalam format
sql.
2. Melakukan proses preprocessing sesuai dengan tahapan
4.2.1 yaitu conceptual model preprocessing.
3. Melakukan pembobotan kata setelah proses preprocessing
selesai dengan menggunakan Algoritma TF-IDF.
4. Setelah mendapatkan nilai weighting maka selanjutnya data
dinormalisasikan dengan menggunakan Min-max
Normalization.
5. Nilai weighting yang sudah di normalisasi dihitung totalnya,
lalu diproses menggunakan Algoritma K-Means Clustering.
6. Setelah didapatkan cluster sesuai dengan nilai k yang
ditentukan, maka tahap selanjutnya adalah evaluasi cluster.
7. Evaluasi cluster dilakukan dengan menghitung nilai
sillhoutte coefficient, runtime, dan memory consumption.
4.3. Input/Output Data
4.3.1. Input
Data masukan seperti kamus kata dasar KBBI, kamus stopword dan
data teks terjemahan ayat Al Quran. Data teks terjemahan ayat Al Quran
yang digunakan berbahasa Indonesia yang diterjemahkan oleh Indonesian
Ministry of Religious Affairs (Departemen Agama Indonesia) berasal dari
http://tanzil.net/docs/resources yang sudah didigitalisasi dalam format sql.
Jumlah data teks yang digunakan sebanyak 286 ayat yaitu Surah Al
Baqarah.
46
UIN Syarif Hidayatullah Jakarta
4.3.2. Output
Data keluaran atau ouput dari hasil simulasi ini adalah cluster dari
data yang sudah diproses oleh sistem dan nilai sillhoutte coefficient, waktu
pemrosesan (runtime), memori yang digunakan (memory consumption)
dari masing-masing nilai k yang dimasukan.
4.4. Modelling
Dalam modelling phase atau fase pemodelan pada penelitian ini,
dilakukan pemodelan konstruksi pengelompokan teks terjemahan ayat Al
Quran dengan menggunakan Cosine Normalization dan Min-max
Normalization sebagai metode untuk mentransformasikan data. Berikut ini
dapat dilihat pemodelan-pemodelan tersebut secara lengkap.
4.4.1. Konstruksi Cosine Normalization pada Clustering Algoritma
K-Means
Konstruksi Cosine Normalization pada pengelompokan teks
terjemahan ayat Al Quran menggunakan Algoritma K-Means, ini
merupakan skenario 1 di dalam penelitian ini. Secara keseluruhan
konstruksi pengelompokan teks terjemahan ayat Al Quran menggunakan
Cosine Normalization sebagai metode untuk mentransformasikan data pada
Algoritma K-Means dapat dijelaskan dibawah ini (konsep diambil dari sub-
bab 4.2.2 dan dapat dilihat pada gambar 4.6 ) :
1. Menyiapkan dataset terjemahan ayat Al Quran dalam format
sql.
2. Melakukan proses preprocessing sesuai dengan tahapan 4.2.1
yaitu conceptual model preprocessing. Sebagai contoh
digunakan enam ayat untuk melakukan clustering dengan
algoritma k-means. Enam ayat yang digunakan diambil secara
acak menggunakan microsoft excel.
47
UIN Syarif Hidayatullah Jakarta
Tabel 4.5 Teks terjemahan ayat Al Quran
No No Ayat Data (Terjemahan Ayat)
1 2 Kitab (Al Quran) ini tidak ada keraguan
padanya; petunjuk bagi mereka yang
bertakwa,
2 43 Dan dirikanlah shalat, tunaikanlah zakat
dan ruku?lah beserta orang-orang yang
ruku?.
3 53 Dan (ingatlah), ketika Kami berikan kepada
Musa Al Kitab (Taurat) dan keterangan
yang membedakan antara yang benar dan
yang salah, agar kamu mendapat petunjuk.
4 99 Dan sesungguhnya Kami telah menurunkan
kepadamu ayat-ayat yang jelas; dan tak ada
yang ingkar kepadanya, melainkan orang-
orang yang fasik.
5 122 Hai Bani Israil, ingatlah akan nikmat-Ku
yang telah Ku-anugerahkan kepadamu dan
Aku telah melebihkan kamu atas segala
umat.
6 242 Demikianlah Allah menerangkan
kepadamu ayat-ayat-Nya (hukum-hukum-
Nya) supaya kamu memahaminya.
Tahapan preprocessing
1) Case folding
Tabel 4.6 Hasil Case folding
No Hasil Case folding
1 kitab al quran ini tidak ada keraguan padanya petunjuk
bagi mereka yang bertakwa
48
UIN Syarif Hidayatullah Jakarta
2 dan dirikanlah shalat tunaikanlah zakat dan rukulah
beserta orang-orang yang ruku
3 dan ingatlah ketika kami berikan kepada musa al kitab
taurat dan keterangan yang membedakan antara yang
benar dan yang salah agar kamu mendapat petunjuk
4 dan sesungguhnya kami telah menurunkan kepadamu
ayat ayat yang jelas dan tak ada yang ingkar
kepadanya melainkan orang orang yang fasik
5 hai bani israil ingatlah akan nikmatku yang telah
kuanugerahkan kepadamu dan aku telah melebihkan
kamu atas segala umat
6 demikianlah allah menerangkan kepadamu ayat
ayatnya hukum hukumnya supaya kamu
memahaminya
2) Tokenization
Tabel 4.7 Hasil Tokenization
No Hasil Tokenization
1 'kitab', 'al', 'quran', 'ini', 'tidak', 'ada', 'keraguan',
'padanya', 'petunjuk', 'bagi', 'mereka', 'yang', 'bertakwa'
2 'dan', 'dirikanlah', 'shalat', 'tunaikanlah', 'zakat', 'dan',
'rukulah', 'beserta', 'orang-orang', 'yang', 'ruku'
3 'dan', 'ingatlah', 'ketika', 'kami', 'berikan', 'kepada',
'musa', 'al', 'kitab', 'taurat', 'dan', 'keterangan', 'yang',
'membedakan', 'antara', 'yang', 'benar', 'dan', 'yang',
'salah', 'agar', 'kamu', 'mendapat', 'petunjuk'
4 'dan', 'sesungguhnya', 'kami', 'telah', 'menurunkan',
'kepadamu', 'ayat-ayat', 'yang', 'jelas', 'dan', 'tak', 'ada',
'yang', 'ingkar', 'kepadanya', 'melainkan', 'orang-
orang', 'yang', 'fasik'
49
UIN Syarif Hidayatullah Jakarta
5 'hai', 'bani', 'israil', 'ingatlah', 'akan', 'nikmatku', 'yang',
'telah', 'kuanugerahkan', 'kepadamu', 'dan', 'aku',
'telah', 'melebihkan', 'kamu', 'atas', 'segala', 'umat'
6 'demikianlah', 'allah', 'menerangkan', 'kepadamu',
'ayat', 'ayat, 'nya', 'hukum', 'hukum', 'nya', 'supaya',
'kamu', 'memahaminya'
3) Stopword removal
Tabel 4.8 Hasil Stopword Removal
No Hasil Stopword removal
1 'kitab', 'al', 'quran', 'keraguan', 'petunjuk', 'bertakwa'
2 'dirikanlah', 'shalat', 'tunaikanlah', 'zakat', 'rukulah',
'beserta', 'ruku'
3 'ingatlah', 'musa', 'al', 'kitab', 'taurat', 'keterangan',
'membedakan', 'benar', 'salah', 'petunjuk'
4 'sesungguhnya', 'menurunkan', 'kepadamu', 'ayat',
'ayat', 'jelas', 'ingkar', 'fasik'
5 'hai', 'bani', 'israil', 'ingatlah', 'nikmatku',
'kuanugerahkan', 'kepadamu', 'melebihkan', 'umat'
6 ‘allah', 'menerangkan', 'kepadamu', 'ayat', 'ayat', 'nya',
'hukum', 'hukum', 'nya', 'memahaminya'
4) Stemming
Tabel 4.9 Hasil Stemming
No Hasil Stemming
1 'kitab', 'al', 'quran', 'ragu', 'tunjuk', 'takwa'
2 'diri', 'shalat', 'tunai', 'zakat', 'ruku', 'serta', 'ruku'
3 'ingat', 'musa', 'al', 'kitab', 'taurat', 'terang', 'beda',
'benar', 'salah', 'tunjuk'
50
UIN Syarif Hidayatullah Jakarta
4 'sungguh', 'turun', 'pada', 'ayat', 'ayat', 'jelas' 'ingkar',
'fasik'
5 'hai', 'bani', 'israil', 'ingat', 'nikmat', 'anugerah', 'pada',
'lebih', 'umat'
6 ‘allah', 'terang', 'pada', 'ayat', 'ayat', 'nya', 'hukum',
'hukum', 'nya', 'paham'
3. Melakukan proses pembobotan menggunakan algoritma TF-
IDF. Proses perhitungan awal yaitu menghitung IDF dengan
rumus yang dapat dilihat pada sub-bab 2.7.
Tabel 4.10 Hasil Perhitungan IDF
Kata TF DF N/D
F
IDF
A1 A2 A3 A4 A5 A6 IDF =
Log(N/D
F)
kitab 1
1
2 3 0,477
al 1
1
2 3 0,477
quran 1
1 6 0,778
ragu 1
1 6 0,778
tunjuk 1
1
2 3 0,477
takwa 1
1 6 0,778
diri
1
1 6 0,778
shalat
1
1 6 0,778
tunai
1
1 6 0,778
zakat
1
1 6 0,778
ruku
2
1 6 0,778
serta
1
1 6 0,778
jelas
1
1 6 0,778
ingat
1
1
2 3 0,477
musa
1
1 6 0,778
taurat
1
1 6 0,778
terang
1
1 2 3 0,477
beda
1
1 6 0,778
benar
1
1 6 0,778
salah
1
1 6 0,778
51
UIN Syarif Hidayatullah Jakarta
sunggu
h
1
1 6 0,778
turun
1
1 6 0,778
pada
1 1 1 3 2 0,301
ayat
2
2 2 3 0,477
ingkar
1
1 6 0,778
fasik
1
1 6 0,778
hai
1
1 6 0,778
bani
1
1 6 0,778
israil
1
1 6 0,778
nikmat
1
1 6 0,778
anuger
ah
1
1 6 0,778
lebih
1
1 6 0,778
umat
1
1 6 0,778
allah
1 1 6 0,778
nya
2 1 6 0,778
hukum
2 1 6 0,778
paham
1 1 6 0,778
Keterangan :
A = dokumen ayat terjemahan.
Seteleh mendapatkan nilai IDF, selanjutnya menghitung nilai
bobotnya (term weighting) dengan rumus yang dapat dilihat
pada sub-bab 2.7
Tabel 4.11 Hasil Perhitungan W (term weighting)
Kata W (W=TF*IDF)
A1 A2 A3 A4 A5 A6
kitab 0,477 0,000 0,477 0,000 0,000 0,000
al 0,477 0,000 0,477 0,000 0,000 0,000
quran 0,778 0,000 0,000 0,000 0,000 0,000
ragu 0,778 0,000 0,000 0,000 0,000 0,000
tunjuk 0,477 0,000 0,477 0,000 0,000 0,000
takwa 0,778 0,000 0,000 0,000 0,000 0,000
diri 0,000 0,778 0,000 0,000 0,000 0,000
shalat 0,000 0,778 0,000 0,000 0,000 0,000
tunai 0,000 0,778 0,000 0,000 0,000 0,000
zakat 0,000 0,778 0,000 0,000 0,000 0,000
ruku 0,000 1,556 0,000 0,000 0,000 0,000
52
UIN Syarif Hidayatullah Jakarta
serta 0,000 0,778 0,000 0,000 0,000 0,000
jelas 0,000 0,000 0,000 0,778 0,000 0,000
ingat 0,000 0,000 0,477 0,000 0,477 0,000
musa 0,000 0,000 0,778 0,000 0,000 0,000
taurat 0,000 0,000 0,778 0,000 0,000 0,000
terang 0,000 0,000 0,477 0,000 0,000 0,477
beda 0,000 0,000 0,778 0,000 0,000 0,000
benar 0,000 0,000 0,778 0,000 0,000 0,000
salah 0,000 0,000 0,778 0,000 0,000 0,000
sungguh 0,000 0,000 0,000 0,778 0,000 0,000
turun 0,000 0,000 0,000 0,778 0,000 0,000
pada 0,000 0,000 0,000 0,301 0,301 0,301
ayat 0,000 0,000 0,000 0,954 0,000 0,954
ingkar 0,000 0,000 0,000 0,778 0,000 0,000
fasik 0,000 0,000 0,000 0,778 0,000 0,000
hai 0,000 0,000 0,000 0,000 0,778 0,000
bani 0,000 0,000 0,000 0,000 0,778 0,000
israil 0,000 0,000 0,000 0,000 0,778 0,000
nikmat 0,000 0,000 0,000 0,000 0,778 0,000
anugerah 0,000 0,000 0,000 0,000 0,778 0,000
lebih 0,000 0,000 0,000 0,000 0,778 0,000
umat 0,000 0,000 0,000 0,000 0,778 0,000
allah 0,000 0,000 0,000 0,000 0,000 0,778
nya 0,000 0,000 0,000 0,000 0,000 1,556
hukum 0,000 0,000 0,000 0,000 0,000 1,556
paham 0,000 0,000 0,000 0,000 0,000 0,778
Nilai bobot setiap
dokumen
3,766 5,447 6,276 5,146 6,225 6,401
4. Setelah mendapatkan nilai weighting /bobot maka selanjutnya
data dinormalisasikan dengan menggunakan Cosine
Normalization. Normalisasi bobot dihitung dengan
menggunakan persamaan Cosine Normalization. Persamaan
Cosine Normalization dapat dilihat dalam sub-bab 2.8.1
Sebagai contoh normalisasi dari A1 dengan kata “kitab” dengan
hasil TF-IDF adalah 0,477.
𝑤(𝑘𝑖𝑡𝑎𝑏) =0,477
√0,4772+0,4772+0.7782+0,7782+0,4772+0,7782= 0,302
53
UIN Syarif Hidayatullah Jakarta
Maka didapatkan nilai weighting /bobot yang baru tiap
dokumen menjadi :
Tabel 4.12 Hasil Normalisasi Cosine Normalization
Kata W (Normalisasi : Cosine Normalization)
A1 A2 A3 A4 A5 A6
kitab 0,302 0,000 0,234 0,000 0,000 0,000
al 0,302 0,000 0,234 0,000 0,000 0,000
quran 0,492 0,000 0,000 0,000 0,000 0,000
ragu 0,492 0,000 0,000 0,000 0,000 0,000
tunjuk 0,302 0,000 0,234 0,000 0,000 0,000
takwa 0,492 0,000 0,000 0,000 0,000 0,000
diri 0,000 0,333 0,000 0,000 0,000 0,000
shalat 0,000 0,333 0,000 0,000 0,000 0,000
tunai 0,000 0,333 0,000 0,000 0,000 0,000
zakat 0,000 0,333 0,000 0,000 0,000 0,000
ruku 0,000 0,667 0,000 0,000 0,000 0,000
serta 0,000 0,333 0,000 0,000 0,000 0,000
jelas 0,000 0,000 0,000 0,388 0,000 0,000
ingat 0,000 0,000 0,234 0,000 0,224 0,000
musa 0,000 0,000 0,381 0,000 0,000 0,000
taurat 0,000 0,000 0,381 0,000 0,000 0,000
terang 0,000 0,000 0,234 0,000 0,000 0,177
beda 0,000 0,000 0,381 0,000 0,000 0,000
benar 0,000 0,000 0,381 0,000 0,000 0,000
salah 0,000 0,000 0,381 0,000 0,000 0,000
sungguh 0,000 0,000 0,000 0,388 0,000 0,000
turun 0,000 0,000 0,000 0,388 0,000 0,000
pada 0,000 0,000 0,000 0,150 0,141 0,112
ayat 0,000 0,000 0,000 0,475 0,000 0,354
ingkar 0,000 0,000 0,000 0,388 0,000 0,000
fasik 0,000 0,000 0,000 0,388 0,000 0,000
hai 0,000 0,000 0,000 0,000 0,365 0,000
bani 0,000 0,000 0,000 0,000 0,365 0,000
israil 0,000 0,000 0,000 0,000 0,365 0,000
nikmat 0,000 0,000 0,000 0,000 0,365 0,000
anugerah 0,000 0,000 0,000 0,000 0,365 0,000
lebih 0,000 0,000 0,000 0,000 0,365 0,000
umat 0,000 0,000 0,000 0,000 0,365 0,000
allah 0,000 0,000 0,000 0,000 0,000 0,288
54
UIN Syarif Hidayatullah Jakarta
nya 0,000 0,000 0,000 0,000 0,000 0,577
hukum 0,000 0,000 0,000 0,000 0,000 0,577
paham 0,000 0,000 0,000 0,000 0,000 0,288
Nilai bobot setiap
dokumen
2,382 2,333 3,075 2,564 2,916 2,372
5. Nilai weighting / bobot setiap dokumen kemudian diproses
menggunakan Algoritma K-Means Clustering untuk
menghasilkan cluster. Prosesnya dapat dilihat pada gambar 4.7
dan penjelasannya bisa dilihat pada sub-bab 2.9.2.
a. Menentukan nilai k. Pada penulisan penelitian ini
digunakan contoh perhitungan dengan nilai k =3.
b. Menentukan centroid awal sebanyak nilai k, yaitu
centroid awal yang dipilih secara acak atau random.
Tabel 4.13 Centroid Awal Skenario-1
Keterangan :
C = Cluster
c. Menghitung jarak dari setiap ayat ke centroid awal yang
sudah ditentukan dengan menggunakan rumus
euclidean distance. Rumus euclidean distance
sebelumnya sudah dijelaskan dalam sub-bab 2.9.2
Berikut contoh perhitungan jarak menggunakan
euclidean distance
ayat 2 pada centroid ke − 1 =
√(2,382 − 2,382)2 = 0,000
ayat 2 pada centroid ke − 2 =
√(2,382 − 2,333)2 = 0,049
ayat 2 pada centroid ke − 3 =
√(2,382 − 3,075)2 = 0,693
C1 C2 C3
2,382 2,333 3,075
55
UIN Syarif Hidayatullah Jakarta
Tabel 4.14 Jarak dari hasil iterasi ke-1 Skenario-1
d. Mengelempokan ayat yang sesuai dengan kedekatan
centroid (jarak minimum) ke dalam masing-masing
cluster.
Tabel 4.15 Hasil Clustering Iterasi ke-1 Skenario-1
e. Memperbarui nilai centroid dengan menghitung rata-
rata dari setiap cluster.
Centroid baru cluster 1 : (2,382 + 2,564 + 2,372) / 3 =
2,439
Centroid baru cluster 2 : 2,333
Centroid baru cluster 3 : (3,075 + 2,916) / 2 = 2,996
Maka dihasilkan centroid baru, yaitu :
Tabel 4.16 Centroid Baru ke-1 Skenario-1
f. Melanjutkan iterasi sampai tidak ada ayat yang
berpindah cluster dengan menghitung kembali jarak
minimum antara ayat dengan centroid baru
menggunakan euclidean distance.
Ayat ke- C1 C2 C3
2 0,000 0,049 0,693
43 0,049 0,000 0,742
53 0,693 0,742 0,000
99 0,182 0,230 0,511
122 0,534 0,583 0,159
242 0,010 0,038 0,703
C1 C2 C3
2,382 2,333 3,075
2,564 2,916
2,372
C1 C2 C3
2,439 2,333 2,996
56
UIN Syarif Hidayatullah Jakarta
Tabel 4.17 Jarak dari hasil iterasi ke-2 Skenario-1
g. Mengelempokan kembali ayat yang sesuai dengan
kedekatan centroid (jarak minimum) ke dalam masing-
masing cluster.
Tabel 4.18 Hasil Clustering Iterasi ke-2 Skenario-1
h. Memperbarui nilai centroid dengan menghitung rata-
rata dari setiap cluster.
Centroid baru cluster 1 : 2,564
Centroid baru cluster 2 : (2,382 + 2,333 + 2,372) / 3 =
2,362
Centroid baru cluster 3 : (3,075 + 2,916) / 2 = 2,996
Maka dihasilkan centroid baru, yaitu :
Tabel 4.19 Centroid Baru ke-2 Skenario-1
i. lanjutkan iterasi sampai tidak ada ayat yang berpindah
cluster dengan menghitung kembali jarak minimum
antara ayat dengan centroid baru menggunakan
euclidean distance.
Ayat ke- C1 C2 C3
2 0,057 0,049 0,614
43 0,106 0,000 0,662
53 0,636 0,742 0,079
99 0,125 0,230 0,432
122 0,477 0,583 0,079
242 0,067 0,038 0,624
C1 C2 C3
2,564 2,382 3,075
2,333 2,916
2,372
C1 C2 C3
2,564 2,362 2,996
57
UIN Syarif Hidayatullah Jakarta
Tabel 4.20 Jarak dari hasil iterasi ke-3 Skenario-1
j. Mengelempokan kembali ayat yang sesuai dengan
kedekatan centroid (jarak minimum) ke dalam masing-
masing cluster.
Tabel 4.21 Hasil Clustering Iterasi ke-3 Skenario-1
k. Nilai centroid tidak berubah setelah mendapatkan iterasi
ke-3, yaitu :
Tabel 4.22 Centroid Baru ke-3 Skenario-1
l. Karena tidak terjadi perubahan atau perpindahan
cluster lagi dari setiap ayatnya, maka iterasi dari proses
K-Means berhenti. Selesai.
6. Mendapatkan hasil proses dari pengelompokan ayat dengan
menggunakan Algoritma K-Means Clustering.
Tabel 4.23 Hasil Akhir Clustering Skenario 1
7. Setelah didapatkan cluster sesuai dengan nilai k yang
ditentukan, maka tahap selanjutnya adalah evaluasi cluster.
Ayat ke- C1 C2 C3
2 0,182 0,020 0,614
43 0,230 0,029 0,662
53 0,511 0,713 0,079
99 0,000 0,201 0,432
122 0,352 0,554 0,079
242 0,192 0,009 0,624
C1 C2 C3
2,564 2,382 3,075
2,333 2,916
2,372
C1 C2 C3
2,564 2,362 2,996
Ayat W Ayat W Ayat W
99 2,564 2 2,382 53 3,075
43 2,333 122 2,916
242 2,372
C1 C2 C3
58
UIN Syarif Hidayatullah Jakarta
Evaluasi cluster dilakukan dengan menghitung nilai sillhoutte
coefficient, memory consumption dan runtime. Berikut ini
langkah untuk menghitung nilai sillhoutte coefficient :
a. Menghitung rata-rata jarak objek dengan semua
dokumen yang berada dalam satu cluster dengan
menggunakan euclidean distance, sehingga didapatkan
nilai a(i).
Tabel 4.24 Hasil perhitungan nilai a(i) Skenario-1
b. Menghitung rata-rata jarak dari dokumen i dengan
semua dokumen di cluster lain dengan menggunakan
euclidean distance. Setelah itu diambil nilai minimum
dari nilai d (i, C) untuk mendapatkan nilai b(i). Nilai
d(i,C) yang dihasilkan akan memiliki 2 nilai
dikarenakan jumlah cluster pada contoh perhitungan ini
berjumlah 3.
Tabel 4.25 Hasil perhitungan nilai d(i,C) dan b(i) Skenario-1
c. Menghitung nilai silhouette coefficient dengan
menggunakan rumus pada sub-bab 2.10.
Berikut contoh perhitungan nilai s(99) pada ayat ke-99
a(i) Hasil
a(2) 0,020
a(43) 0,029
a(53) 0,079
a(99) 0,000
a(122) 0,079
a(242) 0,016
d(i,C) Hasil d(i,C) Hasil b(i) Hasil
d(2,1) 0,182 d(2,2) 0,614 b(2) 0,182
d(43,1) 0,230 d(43,2) 0,662 b(43) 0,230
d(53,1) 0,511 d(53,2) 0,717 b(53) 0,511
d(99,1) 0,206 d(99,2) 0,432 b(99) 0,206
d(122,1) 0,352 d(122,2) 0,559 b(122) 0,352
d(242,1) 0,192 d(242,2) 0,624 b(242) 0,192
59
UIN Syarif Hidayatullah Jakarta
𝑠(99) =0,206 − 0,000
max (0,000 ; 0,206)= 1,000
Tabel 4.26 Hasil perhitungan nilai s(i) Skenario-1
4.4.2. Konstruksi Min-max Normalization pada Clustering Algoritma
K-Means
Konstruksi Min-max Normalization pada pengelompokan teks
terjemahan ayat Al Quran menggunakan Algoritma K-Means, ini
merupakan skenario 2 di dalam penelitian ini. Secara keseluruhan
konstruksi pengelompokan teks terjemahan ayat Al Quran menggunakan
Min-max Normalization sebagai metode untuk mentransformasikan data
pada Algoritma K-Means dapat dijelaskan dibawah ini (konsep diambil
dari sub-bab 4.2.3 dan dapat dilihat pada gambar 4.7 ) :
1. Menyiapkan dataset terjemahan ayat Al Quran dalam format
sql.
2. Melakukan proses preprocessing sesuai dengan tahapan 4.2.1
yaitu conceptual model preprocessing. Sebagai contoh
digunakan enam ayat untuk melakukan clustering dengan
algoritma k-means. Enam ayat yang digunakan diambil secara
acak menggunakan microsoft excel. Ayat yang digunakan dalam
skenario ini sama dengan ayat yang digunakan pada skenario
pertama.
s(i) Hasil
s(2) 0,875
s(43) 0,865
s(53) 0,893
s(99) 1,000
s(122) 0,863
s(242) 0,905
rata-rata 0,900
60
UIN Syarif Hidayatullah Jakarta
3. Melakukan proses pembobotan menggunakan algoritma TF-
IDF. Proses perhitungan awal yaitu menghitung IDF dengan
rumus yang dapat dilihat pada rumus 2.7.
Tabel 4.27 Hasil Perhitungan IDF
Kata TF DF N/D
F
IDF
A1 A2 A3 A4 A5 A6 IDF =
Log(N/DF
)
kitab 1
1
2 3 0,477
al 1
1
2 3 0,477
quran 1
1 6 0,778
ragu 1
1 6 0,778
tunjuk 1
1
2 3 0,477
takwa 1
1 6 0,778
diri
1
1 6 0,778
shalat
1
1 6 0,778
tunai
1
1 6 0,778
zakat
1
1 6 0,778
ruku
2
1 6 0,778
serta
1
1 6 0,778
jelas
1
1 6 0,778
ingat
1
1
2 3 0,477
musa
1
1 6 0,778
taurat
1
1 6 0,778
terang
1
1 2 3 0,477
beda
1
1 6 0,778
benar
1
1 6 0,778
salah
1
1 6 0,778
sungguh
1
1 6 0,778
turun
1
1 6 0,778
pada
1 1 1 3 2 0,301
ayat
2
2 2 3 0,477
ingkar
1
1 6 0,778
fasik
1
1 6 0,778
hai
1
1 6 0,778
bani
1
1 6 0,778
israil
1
1 6 0,778
nikmat
1
1 6 0,778
anugera
h
1
1 6 0,778
61
UIN Syarif Hidayatullah Jakarta
lebih
1
1 6 0,778
umat
1
1 6 0,778
allah
1 1 6 0,778
nya
2 1 6 0,778
hukum
2 1 6 0,778
paham
1 1 6 0,778
Keterangan :
A = dokumen ayat terjemahan.
Seteleh mendapatkan nilai IDF, selanjutnya menghitung nilai
bobotnya (term weighting) dengan rumus yang dapat dilihat
pada sub-bab 2.7
Tabel 4.28 Hasil Perhitungan W (term weighting)
Kata W (W=TF*IDF)
A1 A2 A3 A4 A5 A6
kitab 0,477 0,000 0,477 0,000 0,000 0,000
al 0,477 0,000 0,477 0,000 0,000 0,000
quran 0,778 0,000 0,000 0,000 0,000 0,000
ragu 0,778 0,000 0,000 0,000 0,000 0,000
tunjuk 0,477 0,000 0,477 0,000 0,000 0,000
takwa 0,778 0,000 0,000 0,000 0,000 0,000
diri 0,000 0,778 0,000 0,000 0,000 0,000
shalat 0,000 0,778 0,000 0,000 0,000 0,000
tunai 0,000 0,778 0,000 0,000 0,000 0,000
zakat 0,000 0,778 0,000 0,000 0,000 0,000
ruku 0,000 1,556 0,000 0,000 0,000 0,000
serta 0,000 0,778 0,000 0,000 0,000 0,000
jelas 0,000 0,000 0,000 0,778 0,000 0,000
ingat 0,000 0,000 0,477 0,000 0,477 0,000
musa 0,000 0,000 0,778 0,000 0,000 0,000
taurat 0,000 0,000 0,778 0,000 0,000 0,000
terang 0,000 0,000 0,477 0,000 0,000 0,477
beda 0,000 0,000 0,778 0,000 0,000 0,000
benar 0,000 0,000 0,778 0,000 0,000 0,000
salah 0,000 0,000 0,778 0,000 0,000 0,000
sungguh 0,000 0,000 0,000 0,778 0,000 0,000
turun 0,000 0,000 0,000 0,778 0,000 0,000
pada 0,000 0,000 0,000 0,301 0,301 0,301
ayat 0,000 0,000 0,000 0,954 0,000 0,954
62
UIN Syarif Hidayatullah Jakarta
ingkar 0,000 0,000 0,000 0,778 0,000 0,000
fasik 0,000 0,000 0,000 0,778 0,000 0,000
hai 0,000 0,000 0,000 0,000 0,778 0,000
bani 0,000 0,000 0,000 0,000 0,778 0,000
israil 0,000 0,000 0,000 0,000 0,778 0,000
nikmat 0,000 0,000 0,000 0,000 0,778 0,000
anugerah 0,000 0,000 0,000 0,000 0,778 0,000
lebih 0,000 0,000 0,000 0,000 0,778 0,000
umat 0,000 0,000 0,000 0,000 0,778 0,000
allah 0,000 0,000 0,000 0,000 0,000 0,778
nya 0,000 0,000 0,000 0,000 0,000 1,556
hukum 0,000 0,000 0,000 0,000 0,000 1,556
paham 0,000 0,000 0,000 0,000 0,000 0,778
Nilai bobot setiap
dokumen
3,766 5,447 6,276 5,146 6,225 6,401
4. Setelah mendapatkan nilai weighting /bobot maka selanjutnya
data dinormalisasikan dengan menggunakan Min-max
Normalization. Normalisasi bobot dihitung dengan
menggunakan persamaan Min-max Normalization. Persamaan
Min-max Normalization dapat dilihat dalam sub-bab 2.8.2.
Sebagai contoh normalisasi dari A1 dengan kata “kitab” dengan
hasil TF-IDF adalah 0,477.
0,477 =0,477 − 0,000
0,778 − 0,000= 0,613
Maka didapatkan nilai weighting / bobot yang baru tiap
dokumen menjadi :
Tabel 4.29 Hasil Normalisasi Min-max Normalization
Kata W (Normalisasi: Min Max Normalization)
A1 A2 A3 A4 A5 A6
kitab 0,613 0,000 0,613 0,000 0,000 0,000
al 0,613 0,000 0,613 0,000 0,000 0,000
quran 1,000 0,000 0,000 0,000 0,000 0,000
ragu 1,000 0,000 0,000 0,000 0,000 0,000
tunjuk 0,613 0,000 0,613 0,000 0,000 0,000
takwa 1,000 0,000 0,000 0,000 0,000 0,000
diri 0,000 0,500 0,000 0,000 0,000 0,000
63
UIN Syarif Hidayatullah Jakarta
shalat 0,000 0,500 0,000 0,000 0,000 0,000
tunai 0,000 0,500 0,000 0,000 0,000 0,000
zakat 0,000 0,500 0,000 0,000 0,000 0,000
ruku 0,000 1,000 0,000 0,000 0,000 0,000
serta 0,000 0,500 0,000 0,000 0,000 0,000
jelas 0,000 0,000 0,000 0,815 0,000 0,000
ingat 0,000 0,000 0,613 0,000 0,613 0,000
musa 0,000 0,000 1,000 0,000 0,000 0,000
taurat 0,000 0,000 1,000 0,000 0,000 0,000
terang 0,000 0,000 0,613 0,000 0,000 0,307
beda 0,000 0,000 1,000 0,000 0,000 0,000
benar 0,000 0,000 1,000 0,000 0,000 0,000
salah 0,000 0,000 1,000 0,000 0,000 0,000
sungguh 0,000 0,000 0,000 0,815 0,000 0,000
turun 0,000 0,000 0,000 0,815 0,000 0,000
pada 0,000 0,000 0,000 0,315 0,387 0,193
ayat 0,000 0,000 0,000 1,000 0,000 0,613
ingkar 0,000 0,000 0,000 0,815 0,000 0,000
fasik 0,000 0,000 0,000 0,815 0,000 0,000
hai 0,000 0,000 0,000 0,000 1,000 0,000
bani 0,000 0,000 0,000 0,000 1,000 0,000
israil 0,000 0,000 0,000 0,000 1,000 0,000
nikmat 0,000 0,000 0,000 0,000 1,000 0,000
anugerah 0,000 0,000 0,000 0,000 1,000 0,000
lebih 0,000 0,000 0,000 0,000 1,000 0,000
umat 0,000 0,000 0,000 0,000 1,000 0,000
allah 0,000 0,000 0,000 0,000 0,000 0,500
nya 0,000 0,000 0,000 0,000 0,000 1,000
hukum 0,000 0,000 0,000 0,000 0,000 1,000
paham 0,000 0,000 0,000 0,000 0,000 0,500
Nilai bobot setiap
dokumen
4,839 3,500 8,066 5,393 8,000 4,113
5. Nilai weighting / bobot setiap dokumen kemudian diproses
menggunakan Algoritma K-Means Clustering untuk
menghasilkan cluster. Prosesnya dapat dilihat pada gambar
4.2.6. dan penjelasannya bisa dilihat pada sub-bab 2.9.2.
a. Menentukan nilai k. Pada penulisan penelitian ini
digunakan contoh perhitungan dengan nilai k =3.
64
UIN Syarif Hidayatullah Jakarta
b. Menentukan centroid awal sebanyak nilai k, yaitu
centroid awal yang dipilih secara acak atau random.
Tabel 4.30 Centroid Awal Skenario-2
Keterangan :
C = Cluster
c. Menghitung jarak dari setiap ayat ke centroid awal yang
sudah ditentukan dengan menggunakan rumus
euclidean distance. Rumus euclidean distance
sebelumnya sudah dijelaskan dalam sub-bab 2.9.2
Berikut contoh perhitungan jarak menggunakan
euclidean distance
ayat 2 pada centroid ke − 1 =
√(4,839 − 4,839)2 = 0,000
ayat 2 pada centroid ke − 2 =
√(4,839 − 3,500)2 = 1,339
ayat 2 pada centroid ke − 3 =
√(4,839 − 8,066)2 = 3,226
Tabel 4.31 Jarak dari hasil iterasi ke-1 Skenario-2
C1 C2 C3
4,839 3,500 8,066
Ayat ke- C1 C2 C3
2 0,000 1,339 3,226
43 1,339 0,000 4,566
53 3,226 4,566 0,000
99 0,553 1,893 2,673
122 3,161 4,500 0,066
242 0,726 0,613 3,953
65
UIN Syarif Hidayatullah Jakarta
d. Mengelempokan ayat yang sesuai dengan kedekatan
centroid (jarak minimum) ke dalam masing-masing
cluster.
Tabel 4.32 Hasil Clustering Iterasi ke-1 Skenario-2
e. Memperbarui nilai centroid dengan menghitung rata-
rata dari setiap cluster.
Centroid baru cluster 1 : (4,839 + 5,393) / 2 = 5,116
Centroid baru cluster 2 : (3,500 + 4,113) / 2 = 3,807
Centroid baru cluster 3 : (8,066 + 8,000) / 2 = 8,033
Maka dihasilkan centroid baru, yaitu :
Tabel 4.33 Centroid Baru ke-1 Skenario-2
f. Melanjutkan iterasi sampai tidak ada ayat yang
berpindah cluster dengan menghitung kembali jarak
minimum antara ayat dengan centroid baru
menggunakan euclidean distance.
Tabel 4.34 Jarak dari hasil iterasi ke-2 Skenario-2
g. Mengelempokan kembali ayat yang sesuai dengan
kedekatan centroid (jarak minimum) ke dalam masing-
masing cluster.
Tabel 4.35 Hasil Clustering Iterasi ke—2 Skenario-2
C1 C2 C3
4,839 3,500 8,066
5,393 4,113 8,000
C1 C2 C3
5,116 3,807 8,033
Ayat ke- C1 C2 C3
2 0,277 1,033 3,193
43 1,616 0,307 4,533
53 2,950 4,259 0,033
99 0,277 1,586 2,640
122 2,884 4,193 0,033
242 1,003 0,307 3,920
66
UIN Syarif Hidayatullah Jakarta
h. Memperbarui nilai centroid dengan menghitung rata-
rata dari setiap cluster.
Centroid baru cluster 1 : (4,839 + 5,393) / 2 = 5,116
Centroid baru cluster 2 : (3,500 + 4,113) / 2 = 3,807
Centroid baru cluster 3 : (8,066 + 8,000) / 2 = 8,033
Maka dihasilkan centroid baru, yaitu :
Tabel 4.36 Centroid Baru ke-2 Skenario-2
Lanjutkan iterasi sampai tidak ada ayat yang berpindah
cluster atau nilai centroid tidak berubah.
i. Nilai centroid tidak berubah setelah mendapatkan iterasi
ke-2, yaitu :
Tabel 4.37 Centroid ke-2 Skenario-2
j. Karena tidak terjadi perubahan atau perpindahan
cluster lagi dari setiap ayatnya, maka iterasi dari proses
K-Means berhenti. Selesai.
6. Mendapatkan hasil proses dari pengelompokan ayat dengan
menggunakan Algoritma K-Means Clustering.
Tabel 4.38 Hasil Akhir Clustering Skenario-2
7. Setelah didapatkan cluster sesuai dengan nilai k yang
ditentukan, maka tahap selanjutnya adalah evaluasi cluster.
Evaluasi cluster dilakukan dengan menghitung nilai sillhoutte
C1 C2 C3
4,839 3,500 8,066
5,393 4,113 8,000
C1 C2 C3
5,116 3,807 8,033
C1 C2 C3
5,116 3,807 8,033
Ayat W Ayat W Ayat W
2 4,839 43 3,500 53 8,066
99 5,393 242 4,113 122 8,000
C1 C2 C3
67
UIN Syarif Hidayatullah Jakarta
coefficient. Berikut ini langkah untuk menghitung nilai
sillhoutte coefficient :
a. Menghitung rata-rata jarak objek dengan semua
dokumen yang berada dalam satu cluster dengan
menggunakan euclidean distance, sehingga didapatkan
nilai a(i).
Tabel 4.39 Hasil perhitungan nilai a(i) Skenario-2
b. Menghitung rata-rata jarak dari dokumen i dengan
semua dokumen di cluster lain dengan menggunakan
euclidean distance. Setelah itu diambil nilai minimum
dari nilai d (i, C) untuk mendapatkan nilai b(i). Nilai
d(i,C) yang dihasilkan akan memiliki 2 nilai
dikarenakan jumlah cluster pada contoh perhitungan ini
berjumlah 3.
Tabel 4.40 Hasil perhitungan nilai d(i,C) dan b(i) Skenario-2
c. Menghitung nilai silhouette coefficient dengan
menggunakan rumus pada sub-bab 2.10.
Berikut contoh perhitungan nilai s(122) pada ayat ke-
122
a(i) Hasil
a(2) 0,277
a(43) 0,307
a(53) 0,033
a(99) 0,277
a(122) 0,033
a(242) 0,307
d(i,C) Hasil d(i,C) Hasil b(i) Hasil
d(2,1) 1,033 d(2,2) 3,193 b(2) 1,033
d(43,1) 1,616 d(43,2) 4,533 b(43) 1,616
d(53,1) 2,950 d(53,2) 4,259 b(53) 2,950
d(99,1) 1,586 d(99,2) 2,640 b(99) 1,586
d(122,1) 2,884 d(122,2) 4,193 b(122) 2,884
d(242,1) 1,003 d(242,2) 3,920 b(242) 1,003
68
UIN Syarif Hidayatullah Jakarta
𝑠(122) =2,884 − 0,033
max (0,033 ; 2,884)= 0,990
Tabel 4.41 Hasil perhitungan nilai s(i) Skenario-2
4.5. Simulation
Penulis memakai windows 8.1 Pro sebagai sistem operasi yang
digunakan untuk seluruh proses simulasi. Dan menggunakan notepad++
dalam proses pengkodingan. Berikut ini tahapan pembangunan server yang
penulis lakukan untuk mempersiapkan proses simulasi :
1. Melakukan instalasi appserver, dalam hal ini penulis
menggunakan XAMPP
2. Melakukan instalasi editor notepad++ yang digunakan untuk
membuat kode script
Berikut contoh simulasi yang dilakukan oleh penulis, skenario pertama
dan skenario kedua dalam sekali percobaan nilai k=3.
Gambar 4.9 Contoh Simulasi Skenario 1
s(i) Hasil
s(2) 0,743
s(43) 0,809
s(53) 0,990
s(99) 0,830
s(122) 0,990
s(242) 0,691
rata-rata 0,842
69
UIN Syarif Hidayatullah Jakarta
Gambar 4.10 Contoh Simulasi Skenario 2
4.6. Verification and Validation
Penjelasan dan pembahasan mengenai verification and validation
dijelaskan pada BAB V skripsi ini tentang hasil dan pembahasan.
4.7. Experimentation
Penjelasan dan pembahasan mengenai experimentation dijelaskan pada
BAB V skripsi ini tentang hasil dan pembahasan.
4.8. Output Analisys
Penjelasan dan pembahasan mengenai output analisys dijelaskan pada
BAB V skripsi ini tentang hasil dan pembahasan.
70
BAB 5
HASIL DAN PEMBAHASAN
5.1 Verifikasi dan Validasi (Verification and Validation)
Tahapan ini merupakan tahapan untuk melakukan verifikasi dan
validasi dari tahapan-tahap sebelumnya yaitu konseptual model, dan
model simulasi. Pada tahap ini dilakukan koreksi atau perbaikan jika
terjadi kesalahan dengan menguji apakah keseluruhan proses simulasi
telah berjalan sesuai dengan flowchart pada tahapan conceptual model.
Sedangkan validasi dilakukan dengan menguji apakah keseluruhan
proses simulasi telah sesuai dengan ketentuan-ketentuan pada tahapan
conceptual model, input output data, dan modelling. Verifikasi dilakukan
untuk memastikan bahwa setiap tahapan pada bab-bab sebelumnya saling
memiliki hubungan, dalam hal ini setiap tahapan pada bab 4 diulas kembali
untuk memastikan tiap tahap tersebut saling terkait. Verifikasi juga
memastikan bahwa input dan output sesuai dengan yang diharapkan
dimulai dari tahap problem formulation (formulasi masalah) hingga
simulation phase (simulasi).
Pengujian program merupakan pengujian yang dilakukan untuk
membandingkan hasil perhitungan dengan cara manual dengan hasil
perhitungan algoritma di sistem. Dalam pengujian nilai silhouette
coefficient hasil algoritma ini hasil yang didapat harus sama untuk
keduanya, karena perhitungan manual merupakan acuan dalam
menentukan algoritma tersebut benar. Skenario yang digunakan dalam
pengujian manual ini sebanyak enam data sample dan nilai k yang
digunakan adalah tiga.
Berdasarkan perhitungan manual pada modelling pada sub-bab 4.4.1
dan 4.4.2 dan pada saat program dijalankan hasil akhir dari clustering
sudah sesuai dengan hasil screenshoots pada sub-bab 4.5 gambar 4.9 dan
gambar 4.10.
71
UIN Syarif Hidayatullah Jakarta
Tabel 5.1 Pengujian
Metode
Normalisasi
Nilai k Nilai
Sillhoutte
(Manual)
Nilai
Sillhoutte
(Program)
Status
Sesuai
Cosine
Normalization
3 0,900 0,900 Sesuai
Min-max
Normalization
3 0,842 0,842 Sesuai
Berdasarkan tabel diatas menunjukan bahwa sistem telah sesuai
dengan perhitungan manual.
Hasil pengelompokan juga sudah divalidasi oleh Dosen TIK Islam,
Dosen Teknik Informatika, Fakultas Sains dan Teknologi, Universitas
Islam Negeri Jakarta yaitu Drs. M. Tabah Rosyadi, M.A. bahwa hasil
pengelompokan sudah baik dan untuk penentuan tema dari setiap
kelompoknya sangat memungkin diambil dari kata yang sering muncul
dari setiap pengelompokannya.
5.2 Eksperimentasi (Experimentation)
Eksperimen yang dilakukan yaitu dengan membandingkan hasil dari
simulator. Fase ini dimulai dengan desain eksperimen sesuai dengan yang
penulis susun pada tahap simulasi, dan dengan teknik tertentu berdasar
pada beberapa faktor yang menguji nilai parameter untuk melakukan
analisa pada output hasil dari proses simulasi. Pada penulisan ini
penulis membandingkan perbedaan yang terjadi jika nilai k yang ada pada
proses simulasi tersebut diubah, Penulis menggunakan parameter-
parameter, yaitu : nilai sillhoutte, runtime dan memory consumption
diujikan pada kedua skenario, yaitu Cosine Normalization dan Min-max
Normalization. Dari eksperimen tersebut dilakukan analisis outputnya
yang akan dibahas pada tahapan Output Analysis.
72
UIN Syarif Hidayatullah Jakarta
5.3 Analisis Keluaran (Output Analysis)
5.3.1 Skenario 1
5.3.1.1 Nilai k=2
Tabel 5.2 Hasil Nilai k=2 Skenario-1
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,514 0,492 0,489 0,497 0,516 0,502
Memory
Consumption
(kb)
28804 28804 28804 28804 28804 28804
Accuracy 0,572 0,572 0,572 0,572 0,572 0,572
Tabel diatas menunjukan hasil skenario 1 pada metode
normalisasi Cosine Normalization. Percobaan dilakukan sebanyak
lima kali dan diambil nilai rata-ratanya. Hasil runtime tercepat
terdapat pada percobaan tiga yaitu 0,489 s serta rata-rata
sebesar 0,502 s. Memory consumption pada percobaan ini tidak
berubah, yaitu sebesar 28804 kb dari percobaan satu sampai
percobaan lima. Sedangkan, untuk nilai dari nilai silhouette
coefficient nya sebesar 0,572.
5.3.1.2 Nilai k=3
Tabel 5.3 Hasil Nilai k=3 Skenario-1
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,497 0,639 0,496 0,514 0,513 0,532
73
UIN Syarif Hidayatullah Jakarta
Memory
Consumption
(kb)
29334 29334 29334 29334 29334 29334
Accuracy 0,548 0,548 0,548 0,548 0,548 0,548
Tabel diatas menunjukan hasil skenario 1 pada metode
normalisasi Cosine Normalization. Percobaan dilakukan sebanyak
lima kali dan diambil nilai rata-ratanya. Hasil runtime tercepat
terdapat pada percobaan tiga yaitu 0,496 s serta rata-rata sebesar
0,532 s. Memory consumption pada percobaan ini tidak
berubah, yaitu sebesar 29334 kb dari percobaan satu sampai
percobaan lima. Sedangkan, untuk nilai dari nilai silhouette
coefficient nya sebesar 0,548.
5.3.1.3 Nilai k=4
Tabel 5.4 Hasil Nilai k=4 Skenario-1
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,516 0,562 0,501 0,670 0,558 0,561
Memory
Consumption
(kb)
31156 31156 31156 31156 31156 31156
Accuracy 0,543 0,543 0,543 0,543 0,543 0,543
Tabel diatas menunjukan hasil skenario 1 pada metode
normalisasi Cosine Normalization. Percobaan dilakukan sebanyak
lima kali dan diambil nilai rata-ratanya. Hasil runtime tercepat
terdapat pada percobaan tiga yaitu 0,501 s serta rata-rata
74
UIN Syarif Hidayatullah Jakarta
sebesar 0,561 s. Memory consumption pada percobaan ini tidak
berubah, yaitu sebesar 31156 kb dari percobaan satu sampai
percobaan lima. Sedangkan, untuk nilai dari nilai silhouette
coefficient nya sebesar 0,543.
5.3.1.4 Nilai k=5
Tabel 5.5 Hasil Nilai k=5 Skenario-1
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,511 0,503 0,649 0,516 0,511 0,538
Memory
Consumption
(kb)
30178 30178 30178 30178 30178 30178
Accuracy 0,517 0,517 0,517 0,517 0,517 0,517
Tabel diatas menunjukan hasil skenario 1 pada metode
normalisasi Cosine Normalization. Percobaan dilakukan sebanyak
lima kali dan diambil nilai rata-ratanya. Hasil runtime tercepat
terdapat pada percobaan dua yaitu 0,503 s serta rata-rata
sebesar 0,538 s. Memory consumption pada percobaan ini tidak
berubah, yaitu sebesar 30178 kb dari percobaan satu sampai
percobaan lima. Sedangkan, untuk nilai dari nilai silhouette
coefficient nya sebesar 0,517.
5.3.1.5 Nilai k=6
Tabel 5.6 Hasil Nilai k=6 Skenario-1
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
75
UIN Syarif Hidayatullah Jakarta
Runtime (s) 0,526 0,501 0,505 0,516 0,624 0,534
Memory
Consumption
(kb)
29728 29728 29728 29728 29728 29728
Accuracy 0,529 0,529 0,529 0,529 0,529 0,529
Tabel diatas menunjukan hasil skenario 1 pada metode
normalisasi Cosine Normalization. Percobaan dilakukan sebanyak
lima kali dan diambil nilai rata-ratanya. Hasil runtime tercepat
terdapat pada percobaan dua yaitu 0,501 s serta rata-rata
sebesar 0,534 s. Memory consumption pada percobaan ini tidak
berubah, yaitu sebesar 29728 kb dari percobaan satu sampai
percobaan lima. Sedangkan, untuk nilai dari nilai silhouette
coefficient nya sebesar 0,529.
5.3.1.6 Nilai k=7
Tabel 5.7 Hasil Nilai k=7 Skenario-1
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,503 0,518 0,506 0,528 0,563 0,524
Memory
Consumption
(kb)
30477 30477 30477 30477 30477 30477
Silhouette
Coefficient
0,534 0,534 0,534 0,534 0,534 0,534
Tabel diatas menunjukan hasil skenario 1 pada metode
normalisasi Cosine Normalization. Percobaan dilakukan sebanyak
76
UIN Syarif Hidayatullah Jakarta
lima kali dan diambil nilai rata-ratanya. Hasil runtime tercepat
terdapat pada percobaan satu yaitu 0,503 s serta rata-rata
sebesar 0,524 s. Memory consumption pada percobaan ini tidak
berubah, yaitu sebesar 30477 kb dari percobaan satu sampai
percobaan lima. Sedangkan, untuk nilai dari nilai silhouette
coefficient nya sebesar 0,534.
5.3.1.7 Nilai k=8
Tabel 5.8 Hasil Nilai k=8 Skenario-1
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,564 0,517 0,504 0,513 0,518 0,523
Memory
Consumption
(kb)
30509 30509 30509 30509 30509 30509
Silhouette
Coefficient
0,531 0,531 0,531 0,531 0,531 0,531
Tabel diatas menunjukan hasil skenario 1 pada metode
normalisasi Cosine Normalization. Percobaan dilakukan sebanyak
lima kali dan diambil nilai rata-ratanya. Hasil runtime tercepat
terdapat pada percobaan tiga yaitu 0,504 s serta rata-rata sebesar
0,523 s. Memory consumption pada percobaan ini tidak
berubah, yaitu sebesar 30509 kb dari percobaan satu sampai
percobaan lima. Sedangkan, untuk nilai dari nilai silhouette
coefficient nya sebesar 0,531.
5.3.2 Skenario 2
5.3.2.1 Nilai k=2
Tabel 5.9 Hasil Nilai k=2 Skenario-2
77
UIN Syarif Hidayatullah Jakarta
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,585 0,514 0,520 0,593 0,516 0,546
Memory
Consumption
(kb)
28574 28574 28574 28574 28574 28574
Silhouette
Coefficient
0,611 0,611 0,611 0,611 0,611 0,611
Tabel diatas menunjukan hasil skenario 2 pada metode
normalisasi Min-max Normalization. Percobaan dilakukan
sebanyak lima kali dan diambil nilai rata-ratanya. Hasil runtime
tercepat terdapat pada percobaan satu yaitu 0,514 s serta rata-
rata sebesar 0,546 s. Memory consumption pada percobaan ini
tidak berubah, yaitu sebesar 28574 kb dari percobaan satu
sampai percobaan lima. Sedangkan, untuk nilai dari nilai
silhouette coefficient nya sebesar 0,611.
5.3.2.2 Nilai k=3
Tabel 5.10 Hasil Nilai k=3 Skenario-2
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,525 0,538 0,544 0,587 0,527 0,544
Memory
Consumption
(kb)
28640 28640 28640 28640 28640 28640
Silhouette
Coefficient
0,570 0,570 0,570 0,570 0,570 0,570
78
UIN Syarif Hidayatullah Jakarta
Tabel diatas menunjukan hasil skenario 2 pada metode
normalisasi Min-max Normalization. Percobaan dilakukan
sebanyak lima kali dan diambil nilai rata-ratanya. Hasil runtime
tercepat terdapat pada percobaan satu yaitu 0,525 s serta rata-
rata sebesar 0,543 s. Memory consumption pada percobaan ini
tidak berubah, yaitu sebesar 28640 kb dari percobaan satu
sampai percobaan lima. Sedangkan, untuk nilai dari nilai
silhouette coefficient nya sebesar 0,570.
5.3.2.3 Nilai k=4
Tabel 5.11 Hasil Nilai k=4 Skenario-2
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,529 0,617 0,537 0,596 0,527 0,561
Memory
Consumption
(kb)
30934 30934 30934 30934 30934 30934
Silhouette
Coefficient
0,551 0,551 0,551 0,551 0,551 0,551
Tabel diatas menunjukan hasil skenario 2 pada metode
normalisasi Min-max Normalization. Percobaan dilakukan
sebanyak lima kali dan diambil nilai rata-ratanya. Hasil runtime
tercepat terdapat pada percobaan lima yaitu 0,527 s serta rata-
rata sebesar 0,561 s. Memory consumption pada percobaan ini
tidak berubah, yaitu sebesar 30934 kb dari percobaan satu
sampai percobaan lima. Sedangkan, untuk nilai dari nilai
silhouette coefficient nya sebesar 0,551.
79
UIN Syarif Hidayatullah Jakarta
5.3.2.4 Nilai k=5
Tabel 5.12 Hasil Nilai k=5 Skenario-2
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,591 0,577 0,538 0,568 0,547 0,564
Memory
Consumption
(kb)
34242 34242 34242 34242 34242 34242
Silhouette
Coefficient
0,542 0,542 0,542 0,542 0,542 0,542
Tabel diatas menunjukan hasil skenario 2 pada metode
normalisasi Min-max Normalization. Percobaan dilakukan
sebanyak lima kali dan diambil nilai rata-ratanya. Hasil runtime
tercepat terdapat pada percobaan tiga yaitu 0,538 s serta rata-
rata sebesar 0,564 s. Memory consumption pada percobaan ini
tidak berubah, yaitu sebesar 34242 kb dari percobaan satu
sampai percobaan lima. Sedangkan, untuk nilai dari nilai
silhouette coefficient nya sebesar 0,542.
5.3.2.5 Nilai k=6
Tabel 5.13 Hasil Nilai k=6 Skenario-2
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,531 0,550 0,541 0,539 0,547 0,542
Memory
Consumption
(kb)
33282 33282 33282 33282 33282 33282
80
UIN Syarif Hidayatullah Jakarta
Silhouette
Coefficient
0,548 0,548 0,548 0,548 0,548 0,548
Tabel diatas menunjukan hasil skenario 2 pada metode
normalisasi Min-max Normalization. Percobaan dilakukan
sebanyak lima kali dan diambil nilai rata-ratanya. Hasil runtime
tercepat terdapat pada percobaan satu yaitu 0,531 s serta rata-
rata sebesar 0,542 s. Memory consumption pada percobaan ini
tidak berubah, yaitu sebesar 33282 kb dari percobaan satu
sampai percobaan lima. Sedangkan, untuk nilai silhouette
coefficient nya sebesar 0,548.
5.3.2.6 Nilai k=7
Tabel 5.14 Hasil Nilai k=7 Skenario-2
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,529 0,541 0,547 0,545 0,529 0,538
Memory
Consumption
(kb)
32762 32762 32762 32762 32762 32762
Silhouette
Coefficient
0,531 0,531 0,531 0,531 0,531 0,531
Tabel diatas menunjukan hasil skenario 2 pada metode
normalisasi Min-max Normalization. Percobaan dilakukan
sebanyak lima kali dan diambil nilai rata-ratanya. Hasil runtime
tercepat terdapat pada percobaan satu dan lima, yaitu 0,529 s
serta rata-rata sebesar 0,538 s. Memory consumption pada
percobaan ini tidak berubah, yaitu sebesar 32762 kb dari
percobaan satu sampai percobaan lima. Sedangkan, untuk nilai
silhouette coefficient nya sebesar 0,531.
81
UIN Syarif Hidayatullah Jakarta
5.3.2.7 Nilai k=8
Tabel 5.15 Hasil Nilai k=8 Skenario-2
Output Percobaan Ke- Rata-
Rata 1 2 3 4 5
Runtime (s) 0,587 0,551 0,535 0,539 0,571 0,557
Memory
Consumption
(kb)
32799 32799 32799 32799 32799 32799
Silhouette
Coefficient
0,514 0,514 0,514 0,514 0,514 0,514
Tabel diatas menunjukan hasil skenario 2 pada metode
normalisasi Min-max Normalization. Percobaan dilakukan
sebanyak lima kali dan diambil nilai rata-ratanya. Hasil runtime
tercepat terdapat pada percobaan tiga yaitu 0,535 s serta rata-
rata sebesar 0,557 s. Memory consumption pada percobaan ini
tidak berubah, yaitu sebesar 32799 kb dari percobaan satu
sampai percobaan lima. Sedangkan, untuk nilai silhouette
coefficient nya sebesar 0,514.
5.4 Analisis Hasil Perbandingan
Setelah setiap skenario dijalankan dan data-data output pada
setiap percobaan didapatkan, maka hasil output tersebut digunakan
untuk melakukan analisis kinerja masing-masing skenario berdasarkan
parameter runtime tercepat dengan melihat waktu terkecil serta
memperhatikan memory consumption dengan nilai-nilai terkecil dan
melihat nilai silhouette coefficient terbesar.
Output analisis kinerja dijabarkan dengan menggunakan tabel
dari setiap skenario yang sudah dilakukan sebanyak dua skenario
dengan 14 simulasi yaitu dengan memasukan nilai k = 2-8.
82
UIN Syarif Hidayatullah Jakarta
5.4.1 Skenario 1
Berikut ini rata-rata hasil dari skenario 1 pada simulasi nilai
k=2 sampai k=8. :
Tabel 5.16 Hasil Perbandingan Skenario 1
Output k=2 k=3 k=4 k=5 k=6 k=7 k=8
Runtime (s) 0,502 0,532 0,561 0,538 0,534 0,524 0,523
Memory
Consumption
(kb)
28804 29334 31156 30178 29728 30477 30509
Nilai
Silhouette
Coefficient
0,572 0,548 0,543 0,517 0,529 0,534 0,531
Pada tabel di atas menunjukkan hasil simulasi pada skenario
1 yang dilakukan terhadap nilai k=2 sampai k=8 yang diambil dari
nilai rata-ratanya.
Gambar 5.1 Hasil Runtime Skenario 1
Grafik di atas menunjukkan perbandingan nilai rata-rata
runtime untuk masing-masing nilai k. Semakin kecil nilai runtime
pada proses simulasi maka hasil ini semakin bagus. Pada hasil
skenario 1 , Nilai k=2 memiliki nilai runtime yang terbaik.
0,502
0,532
0,561
0,538 0,5340,524 0,523
0,460
0,480
0,500
0,520
0,540
0,560
0,580
Cosine Normalization
Runtime Skenario 1
k=2 k=3 k=4 k=5 k=6 k=7 k=8
83
UIN Syarif Hidayatullah Jakarta
Gambar 5.2 Hasil Memory Consumption Skenario 1
Grafik di atas menunjukkan perbandingan nilai rata-rata
memory consumption untuk masing-masing nilai k. Semakin kecil
nilai memory consumption pada proses simulasi maka hasil ini
semakin bagus. Sebab akan membutuhkan resource yang lebih
kecil. Pada hasil skenario 1 , Nilai k=2 memiliki nilai memory
consumption yang terbaik.
Gambar 5.3 Hasil Silhouette Coefficient Skenario 1
Grafik di atas menunjukkan perbandingan nilai rata-rata
nilai silhouette coefficient untuk masing-masing nilai k. Nilai nilai
silhouette coefficient merupakan suatu ukuran yang menunjukan
seberapa ketat data dikelompokan dalam cluster. Pada hasil
skenario 1 , Nilai k=2 memiliki nilai nilai silhouette coefficient
2880429334
31156
3017829728
30477 30509
27000
28000
29000
30000
31000
32000
Cosine Normalization
Memory Consumption Skenario 1
k=2 k=3 k=4 k=5 k=6 k=7 k=8
0,572
0,5480,543
0,517
0,5290,534 0,531
0,480
0,500
0,520
0,540
0,560
0,580
Cosine Normalization
Silhouette coefficient Skenario 1
k=2 k=3 k=4 k=5 k=6 k=7 k=8
84
UIN Syarif Hidayatullah Jakarta
yang terbaik. Semakin tinggi nilai k yang digunakan semakin kecil
nilai silhouette coefficient yang didapatkan. Sejalan dengan
penelitian (Hudin et al., 2018) yang melakukan penelitian pada
pengelompokan dokumen skripsi yaitu pada saat nilai k yang
digunakan semakin besar nilai nilai silhouette coefficient yang
didapatkan menurun dikarenakan merusak pengelompokan yang
seharusnya berada pada satu cluster tetapi menjadi terpisah antar
cluster.
5.4.2 Skenario 2
Berikut ini rata-rata hasil dari skenario 2 pada simulasi nilai
k=2 sampai k=8. :
Tabel 5.17 Hasil Perbandingan Skenario 2
Output k=2 k=3 k=4 k=5 k=6 k=7 k=8
Runtime (s) 0,546 0,544 0,561 0,564 0,542 0,538 0,557
Memory
Consumption
(kb)
28574 28640 30934 34242 33282 32762 32799
Nilai
Silhouette
Coefficient
0,611 0,570 0,551 0,542 0,548 0,531 0,514
Pada tabel di atas menunjukkan hasil simulasi pada skenario
2 yang dilakukan terhadap nilai k=2 sampai k=8 yang diambil dari
nilai rata-ratanya.
85
UIN Syarif Hidayatullah Jakarta
Gambar 5.4 Hasil Runtime Skenario 2
Grafik di atas menunjukkan perbandingan nilai rata-rata
runtime untuk masing-masing nilai k. Semakin kecil nilai runtime
pada proses simulasi maka hasil ini semakin bagus. Pada hasil
skenario 2 , Nilai k=7 memiliki nilai runtime yang terbaik.
Gambar 5.5 Hasil Memory Consumption Skenario 2
Grafik di atas menunjukkan perbandingan nilai rata-rata
memory consumption untuk masing-masing nilai k. Semakin kecil
nilai memory consumption pada proses simulasi maka hasil ini
semakin bagus. Sebab akan membutuhkan resource yang lebih
kecil. Pada hasil skenario 2 , Nilai k=2 memiliki nilai memory
consumption yang terbaik.
0,546 0,544
0,5610,564
0,5420,538
0,557
0,520
0,530
0,540
0,550
0,560
0,570
Min-max Normalization
Runtime Skenario 2
k=2 k=3 k=4 k=5 k=6 k=7 k=8
28574 28640
30934
3424233282 32762 32799
24000
26000
28000
30000
32000
34000
36000
Min-max Normalization
Memory Consumption Skenario 2
k=2 k=3 k=4 k=5 k=6 k=7 k=8
86
UIN Syarif Hidayatullah Jakarta
Gambar 5.6 Hasil Silhouette Coefficient Skenario 2
Grafik di atas menunjukkan perbandingan nilai rata-rata
nilai silhouette coefficient untuk masing-masing nilai k. Nilai nilai
silhouette coefficient merupakan suatu ukuran yang menunjukan
seberapa ketat data dikelompokan dalam cluster. Pada hasil
skenario 2 , Nilai k=2 memiliki nilai nilai silhouette coefficient
yang terbaik. Sama halnya seperti pada skenario pertama bahwa
hasil skenario kedua juga sejalan dengan penelitian (Hudin et al.,
2018).
5.5 Analisis Output dengan Metode Perbandingan Eksponensial
Dalam menghitung dan membandingkan proses pengelompokan
dari dua skenario tersebut sebagai berikut:
1. Menentukan alternatif
Dalam penelitian ini, parameter yang digunakan untuk
membandingkan metode normalisasi adalah runtime dan
memory consumption. Dari hasil analisis perbandingan
kecepatan (runtime) dan memori yang digunakan (memory
consumption).
2. Menentukan kriteria
Untuk dapat membandingkan kedua alternatif tersebut,
maka selanjutnya perlu dilakukan penentuan kriteria dalam
0,611
0,5700,551 0,542 0,548
0,5310,514
0,450
0,500
0,550
0,600
0,650
Min-max Normalization
Silhouette coefficient Skenario 2
k=2 k=3 k=4 k=5 k=6 k=7 k=8
87
UIN Syarif Hidayatullah Jakarta
menganalisis proses dan cara kerjanya. Untuk kriterianya
dapat dilihat pada tabel berikut :
Tabel 5.18 Penentuan Kriteria
Kriteria Keterangan
Runtime yaitu jumlah waktu
yang digunakan dalam
melakukan pengelompokan
Perhitungan waktu dihitung
pada saat tombol submit
diklik yaitu dari mulai
semua fungsi sampai selesai
Memory consumption yaitu
besar memori yang
digunakan saat melakukan
pengelompokan
Perhitungan pemakaian
memori dihitung pada saat
tombol submit diklik yaitu
dari mulai semua fungsi
sampai selesai
3. Menentukan bobot kriteria
Penentuan bobot merupakan salah satu komponen yang
sangat berpengaruh terhadap nilai analisis, untuk itu
menentukan bobot kriteria berdasarkan tingkatan pengaruh
dalam menentukan kecepatan dalam melakukan
pengelompokan. Berdasarkan penelitian sebelumnya (Hanum et
al., 2018) telah melakukan wawancara dengan narasumber
pakar dalam penentuan bobot kriteria, kecepatan eksekusi dan
konsumsi memori merupakan suatu hal yang penting dalam
suatu proses pembuatan sistem dan dapat dijadikan sebagai
perbandingan untuk menentukan performa dari setiap algoritma.
Dari hasil wawancara tersebut di dapatkan hasil rata-rata
pembobotan penilaian, runtime dan memory consumption
adalah sebesar 0,5.
88
UIN Syarif Hidayatullah Jakarta
Tabel 5.19 Pembobotan masing-masing kriteria
Kriteria Presentase
Pengaruh Kriteria
Bobot Range
(0-1)
Runtime (s) 50% 0,5
Memory
consumption (kb)
50% 0,5
4. Pemberian nilai pada setiap kriteria
Pada kriteria yang telah dibentuk harus diberikan nilai.
Nilai tersebut dapat dilihat pada contoh di bawah ini yang
dimana nilainya diambil berdasarkan analisa skenario
sebelumnya.
Tabel 5.20 Pemberian Nilai Kriteria
Alternatif Simulasi
ke-
Nilai
k
Kriteria
Runtime Memory
consumption
Cosine
Normalization
1 2 0,502 28804
2 3 0,532 29334
3 4 0,561 31156
4 5 0,538 30178
5 6 0,534 29728
6 7 0,524 30477
7 8 0,523 30509
Min-max
Normalization
1 2 0,546 28574
2 3 0,544 28640
3 4 0,561 30934
4 5 0,564 34242
5 6 0,542 33282
6 7 0,538 32762
7 8 0,557 32799
5. Menghitung nilai
Setelah semua kriteria terisi, maka proses selanjutnya adalah
melakukan perhitungan dengan menggunakan rumus dari
89
UIN Syarif Hidayatullah Jakarta
Metode Perbandingan Eksponensial (MPE). Proses
perhitungannya sebagai berikut:
a. Proses Perhitungan total nilai pada simulasi nilai k=2 :
Nilai Cosine Normalization
= (0,502)0,5 + (28804)0,5
= 0.70851 + 169.71741
= 170.42593
Nilai Min-max Normalization
= (0,546)0,5 + (28574)0,5
= 0.73891 + 169.03845
= 169.77737
b. Proses Perhitungan total nilai pada simulasi nilai k=3 :
Nilai Cosine Normalization
= (0,532)0,5 + 29334)0,5
= 0.72938 + 171.27171
= 172.00109
Nilai Min-max Normalization
= (0,544)0,5 + (28640)0,5
= 0.73756 + 169.23356
= 169.97112
c. Proses Perhitungan total nilai pada simulasi nilai k=4 :
Nilai Cosine Normalization
= (0,561)0,5 + (31156)0,5
= 0.74899 + 176.51062
= 177.25962
Nilai Min-max Normalization
= (0,561)0,5 + (30934)0,5
= 0.74899 + 175.88064
= 176.62964
d. Proses Perhitungan total nilai pada simulasi nilai k=5 :
Nilai Cosine Normalization
90
UIN Syarif Hidayatullah Jakarta
= (0,538)0,5 + (30178)0,5
= 0.73348 + 173.71816
= 174.45164
Nilai Min-max Normalization
= (0,564)0,5 + (34242)0,5
= 0.75099 + 185.04594
= 185.79693
e. Proses Perhitungan total nilai pada simulasi nilai k=6 :
Nilai Cosine Normalization
= (0,534)0,5 + (29728)0,5
= 0.73075 + 172.41809
= 173.14884
Nilai Min-max Normalization
= (0,542)0,5 + (33282)0,5
= 0.73620 + 182.43355
= 183.16975
f. Proses Perhitungan total nilai pada simulasi nilai k=7 :
Nilai Cosine Normalization
= (0,524)0,5 + (30477)0,5
= 0.72387 + 174.57663
= 175.30050
Nilai Min-max Normalization
= (0,538)0,5 + (32762)0,5
= 0.73348 + 181.00276
= 181.73624
g. Proses Perhitungan total nilai pada simulasi nilai k=8 :
Nilai Cosine Normalization
= (0,523)0,5 + (30509)0,5
= 0.72318 + 174.66826
= 175.39144
Nilai Min-max Normalization
91
UIN Syarif Hidayatullah Jakarta
= (0,557)0,5 + (32799)0,5
= 0.74632 + 181.10494
= 181.85126
h. Menghitung nilai prioritas keputusan
Total nilai Cosine Normalization
= 170.42593 + 172.00109 + 177.25962 + 174.45164 +
173.14884 + 175.30050 + 175.39144
= 1.217,97906
Total nilai Min-max Normalization
= 169.77737 + 169.97112 + 176.62964 + 185.79693 +
183.16975 + 181.73624 + 181.85126
= 1.248,93231
6. Menentukan hasil atau prioritas keputusan
Setelah diperoleh nilai akhir atau total nilai dari masing-
masing, alternatif, maka tahapan selanjutnya yang perlu
dilakukan adalah menentukan prioritas keputusan berdasarkan
nilai dari masing-masing alternatif. Hasil prioritas keputusan
dapat dilihat pada tabel dibawah ini :
Tabel 5.21 Prioritas Keputusan
Alternatif Total Nilai Ranking
Cosine
Normalization
1.217,97906 1
Min-max
Normalization
1.248,93231 2
Dari hasil perhitungan dengan menggunakan Metode
Perbandingan Eksponensial, dapat diketahui bahwa metode
normalisasi yang paling efektif dengan parameter runtime dan
memory consumption adalah Cosine Normalization.
Setiap metode normalisasi yang dipakai pada setiap
skenario ini memiliki kelebihan dan kekurangannya masing-
92
UIN Syarif Hidayatullah Jakarta
masing. Dari analisis kinerja yang telah penulis lakukan,
untuk parameter runtime, Cosine Normalization adalah metode
yang paling baik digunakan untuk nilai k yang kecil,
sedangkan Min-max Normalization adalah metode yang paling
baik digunakaan jika nilai k yang digunakan besar.
Untuk paramater memory consumption, semakin besar
nilai k yang digunakan, maka masing-masing metode
normalisasi akan membutuhkan memori yang semakin
banyak. Namun, dari hasil analisis yang telah penulis
lakukan, memory consumption terkecil adalah Min-max
Normalization.
.
93
BAB 6
PENUTUP
6.1 Kesimpulan
Hasil perbandingan metode normalisasi Cosine Normalization dan
Min-max Normalization pada pengelompokan terjemahan ayat Al Quran,
peneliti mendapatkan hasil tingkat nilai silhouette coefficient tertinggi
yaitu pada skenario kedua menggunakan Min-max Normalization pada
saat nilai k=2. Hasil perbandingan nilai silhouette coefficient menunjukan
bahwa antara Cosine Normalization dengan Min-max Normalization tidak
terlalu signifikan, sama-sama pada medium structure. Dapat disimpulkan
pada setiap metode normalisasi yang dipakai pada pengelompokan
terjemahan ayat Al Quran menggunakan Algoritma K-Means Clustering
bahwa semakin besar nilai k yang digunakan maka semakin kecil nilai
silhouette coefficientnya. Sedangkan hasil perbandingan runtime dan
memory consumption dengan menggunakan Metode Perbandingan
Eksponensial (MPE) menunjukan bahwa Cosine Normalization memiliki
nilai terbaik pada runtime dan memory consumption.
6.2 Saran
Pada penelitian saat ini peneliti menyadari bahwa masih banyak
kekurangan dan keterbatasan. Oleh karena itu, ada beberapa hal yang bisa
sarankan untuk penelitian selanjutnya agar hasilnya lebih memuaskan dan
lebih baik, yaitu:
1. Pada penelitian ini masih banyak kata yang sama muncul pada setiap
clusternya seperti kata maha, sungguh. Diharapkan penelitian
selanjutnya bisa menambahkan kata-kata tersebut kedalam kamus
stopword.
2. Penelitian ini hanya berfokus pada perbandingan metode normalisasi
dan pemilihan nilai k yang terbaik, diharapkan pada penelitian
selanjutnya dapat dibuat rancang bangun aplikasi berbasis mobile.
94
UIN Syarif Hidayatullah Jakarta
3. Pada penelitian ini hanya menampilkan kata yang sering muncul dari
setiap clusternya, diharapkan pada penelitian selanjutnya dilakukan
penentuan oleh ahli dari setiap kata yang sering muncul tersebut untuk
dijadikan tema.
4. Penelitian ini hanya menggunakan terjemahan surah Al Baqarah saja.
Diharapkan penelitian selanjutnya bisa menggunakan seluruh
terjemahan ayat Al Quran.
5. Untuk mengetahui hasil perbandingan yang lebih luas dapat
menggunakan bahasa pemrograman yang lain dengan implementasi
ke objek yang berbeda.
95
DAFTAR PUSTAKA
Abbas, N. H. (2009). Quran “Search for a Concept” Tool and Website. The
University of Leeds.
Ahmad, O., Hyder, I., Iqbal, R., Murad, M. A. A., Mustapha, A., Sharef, N. M., &
Mansoor, M. (2013). A Survey of Searching and Infomation Extraction on a
Classical Text Using Ontology-based semantics modelling: A Case of Quran.
Life Science Journal.
Albate, A., & Minker, W. (2011). Semi-Supervised and Unsupervised Machine
Learning. Wiley.
Amalia, N. A. (2016). Implementasi Support Vector Machine (SVM) Pada
Klasifikasi Laporan Skripsi. Universitas Komputer Indonesia.
Berry, M. W., & Kogan, J. (2010). Text Mining Applications and Theory. (J. Wiley,
Ed.). West Sussex.
Budiman, S. A. D., Safitri, D., & Ispriyanti, D. (2016). Perbandingan Metode K-
Keans dan Metode DBSCAN pada Pengelompokan Rumah Kost Mahasiswa
Di Kelurahan Tembalang Semarang. Jurnal Gaussian, 5, 757–762.
Domeniconi, G., Moro, G., B, R. P., & Sartori, C. (2016). A Comparison of Term
Weighting Schemes for Text Classification and Sentiment Analysis with a
Supervised Variant of tf . idf, 39–58. https://doi.org/10.1007/978-3-319-
30162-4
Faizin, A. S. W. (2018). Implementasi K-Means Clustering pada Terjemahan Al-
Qur’an Berdasarkan Keterkaitan Topik. UIN Sunan Kalijaga.
Feldman, R., & Sanger, J. (2007). The Text Mining Handbook : Advanced
Approaches in Analyzing Unstructured Data. New York: Cambridge
University Press.
Fitrah, M., & Luthfiyah. (2017). Metodologi Penelitian; Penelitian Kualitatif,
Tindakan Kelas & Studi Kasus. (Ruslan & M. M. Effendi, Eds.). Sukabumi:
CV Jejak.
Hamid, A. (2016). Pengantar Studi Al-Qur’an (1st ed.). Jakarta: Prenadamedia
Group.
Han, J., Kamber, M., & Pei, J. (2011). Data Mining : Concepts and Techniques
(Third Edition). Waltham: Morgan Kaufmann Publishers.
Hanum, N. R., Shofi, I. M., & Masruroh, S. U. (2018). Analisis Perbandingan
Kinerja Algoritma Boyer Moore, Horspoo,Dan Zhu Takaoka Pada Repositori
Hadist Bukhori Terjemahan Bahasa Indonesia. UIN Syarif Hidayatullah
Jakarta.
96
UIN Syarif Hidayatullah Jakarta
Haryati, D. F., Abdillah, G., & Hadiana, A. I. (2016). Klasifikasi Jenis Batubara
Menggunakan Jaringan Syaraf Tiruan Dengan Algoritma Backpropagatiion.
Seminar Nasional Teknologi Informasi Dan Komunikasi, 2016(Sentika), 18–
19.
Hudin, M. S., Fauzi, M. A., & Adinugroho, S. (2018). Implementasi Metode Text
Mining dan K-Means Clustering untuk Pengelompokan Dokumen Skripsi (
Studi Kasus : Universitas Brawijaya ). Pengembangan Teknologi Informasi
Dan Ilmu Komputer, 2(11), 5518–5524.
Irwansyah, E., & Faisal, M. (2015). Advanced Clustering : Teori dan Aplikasi.
Yogyakarta: Deepublish.
Jamdar, A., Abraham, J., Khanna, K., & Dubey, R. (2015). Emotion Analysis Of
Songs Based On Lyrical And Audio Features. International Journal of
Artificial Intelligence & Applications (IJAIA), 6(3).
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data. New York:
Wiley.
Melita, R., Amrizal, V., Suseno, H. B., & Dirjam, T. (2018). Penerapan Metode
Term Frequency Inverse Document Frequency (TF-IDF) Dan Cosine
Similarity Pada Sistem Temu Kembali Informasi Untuk Mengetahui Syarah
Hadist Berbasis Web (Studi Kasus: Hadist Shahih Bukhari-Muslim). UIN
Syarif Hidayatullah Jakarta.
Merliana, N. P. E., Ernawati, & Santoso, J. (2015). Analisa Penentuan Jumlah
Cluster Terbaik Pada Metode K-Means, 978–979.
Munir, R., & Lidya, L. (2016). Algoritma dan Pemrograman Dalam Bahasa
PASCAL, C, dan C++ Edisi Keenam. Informatika.
Nasution, D. A., Khotimah, H. H., & Chamidah, N. (2019). Perbandingan
Normalisasi Data Untuk Klasifikasi Wine Menggunakan Algoritma K-NN.
CESS (Journal of Computer Engineering System and Science), 4(1), 78–82.
Novitasari, D. (2016). Perbandingan Algoritma Stemming Porter Dengan Arifin
Setiono Untuk Menentukan Tingkat Ketepatan Kata Dasar, 1(2), 120–129.
Nugroho, H. T. (2017). Pengaruh Algoritma Stemming Nazief-Adriani Terhadap
Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa
Indonesia. Jurnal ULTIMA Computing, 9(1), 36–40.
https://doi.org/10.31937/sk.v9i1.572
Patro, S. G. K., & Kumar, K. (2015). Normalization : A Preprocessing Stage,
(April). https://doi.org/10.17148/IARJSET.2015.2305
Patro, S. G. K., Sahoo, P. P., Panda, I., & Sahu, K. K. (2015). Technical Analysis
on Financial Forecasting. International Journal of Computer Sciences and
Engineering, 3(1), 1–6.
Prasetyo, E. (2012). Data Mining Konsep dan Aplikasi menggunakan MATLAB. (N.
97
UIN Syarif Hidayatullah Jakarta
WK, Ed.). Gresik: CV Andi Offset.
Prasidhatama, A., & Suryaningrum, K. M. (2018). Perbandingan Algoritma Nazief
& Adriani Dengan Algoritma Idris Untuk Pencarian Kata Dasar. Jurnal
Teknologi & Manajemen Informatika, 4(1), 1–4.
Pratiwi, H. (2016). Buku Ajar Sistem Pendukung Keputusan. Bandung: Abdi
Sistematika.
Rezalina, O. (2016). Perbandingan Algoritma Stemming Nazief & Andriani, Porter
dan Arifin Setiono Untuk Dokumen Teks Bahasa Indonesia, 1–5.
Rohmawati, N., Defiyanti, S., & Jajuli, M. (2015). Implementasi Algoritma K-
Means Dalam Pengklasteran Mahasiswa Pelamar Beasiswa. Jurnal Ilmiah
Teknologi Informasi Terapan, I(2), 62–68.
Salim, M. A. (2017). Pengembangan Aplikasi Penilaian Ujian Essay Berbasis
Online Menggunakan Algoritma Nazief Dan Adriani Dengan Metode Cosine.
Jurnal IT-EDU, 2, 126–135.
Sari, F. (2018). Metode Dalam Pengambilan Keputusan. Yogyakarta: Pendidikan
Deepublish.
Singhal, A., Buckley, C., & Mitra, M. (2017). Pivoted Document Length
Normalization, 51(2).
Siregar, K. (2016). Simulasi Dan Pemodelan. Yogyakarta: Deepublish.
Sitorus, L. (2015). Algoritma dan Pemprograman. (A. Pramesta, Ed.). Yogyakarta:
CV Andi Offset.
Sugiyono. (2017). Metode Penelitian Kuantitatif, Kualitatif, dan R&D. Bandung:
Alfabeta.
Ukkasyah, S. A. (2018). Klasifikasi Kitab Tafsir Al Qur’an. Retrieved March 21,
2019, from https://muslim.or.id/36639-klasifikasi-kitab-tafsir-al-quran-
01.html
Virmani, D., Taneja, S., & Malhotra, G. (2015). Normalization based K means
Clustering Algorithm, 1–5.
Wimmer, H. (2018). Effects of Normalization Techniques on Logistic Regression
in Data Science. Proceedings of the Conference on Information Systems
Applied Research, 1–9.
Yulian, E. (2018). Text Mining dengan K-Means Clustering pada Tema LGBT
dalam Arsip Tweet Masyarakat Kota Bandung, 4(1), 53–58.
98
LAMPIRAN
I Kata yang sering muncul pada skenario 1 nilai k=2
Cluster 1 Cluster 2
allah (150)
sungguh (61)
maha (45)
iman (42)
kata (35)
ketahu (33)
kepada (29)
buat (27)
jadi (25)
nya (24)
al (23)
kitab (22)
benar (21)
kafir (21)
bagi (21)
i (20)
ingat (20)
tuhan (20)
baik (20)
tunjuk (17)
nar (16)
hai (16)
dapat (16)
takwa (16)
ku (16)
atas (16)
allah (190)
sungguh (63)
maha (50)
nya (48)
bagi (41)
tuhan (39)
kata (37)
i (35)
iman (33)
jadi (31)
hari (30)
ketahu (29)
anak (26)
buat (26)
datang (24)
dua (24)
kepada (24)
jalan (23)
manusia (22)
ister (21)
baik (21)
dapat (21)
atas (21)
dosa (20)
kafir (20)
ingat (19)
99
UIN Syarif Hidayatullah Jakarta
jalan (15)
manusia (14)
hati (13)
hukum (13)
barangsiapa (19)
hati (19)
kitab (17)
turun (17)
II Kata yang sering muncul pada skenario 2 nilai k=2
Cluster 1 Cluster 2
allah (194)
sungguh (88)
maha (53)
iman (49)
nya (44)
ketahu (43)
kata (41)
tuhan (38)
i (33)
bagi (32)
jadi (30)
kepada (29)
buat (29)
kitab (29)
kafir (28)
ingat (26)
jalan (26)
baik (25)
dapat (25)
benar (25)
al (22)
tunjuk (21)
manusia (21)
takwa (20)
allah (146)
maha (42)
sungguh (36)
kata (31)
bagi (30)
hari (28)
nya (28)
jadi (26)
iman (26)
buat (24)
kepada (24)
i (22)
tuhan (21)
ketahu (19)
atas (18)
anak (18)
dosa (18)
datang (16)
barangsiapa (16)
baik (16)
manusia (15)
dua (15)
ikan (15)
cara (15)