klasterisasi buku berbahasa indonesia
TRANSCRIPT
![Page 1: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/1.jpg)
J U R U S A N T E K N I K I N F O R M A T I K A
F A K U L T A S T E K N I K
U N I V E R S I T A S M U H A M M A D I Y A H M A L A N G
2 0 1 4
KLASTERISASI BUKU BERBAHASA INDONESIA
DENGAN MENGIMPLEMENTASIKAN METODE TEXT MINING DAN ALGORITMA
ARTIFICIAL BEE COLONY K-MEANS
Oleh: Abdurrahman
201010370311397
Dosen Pembimbing: Yufis Azhar, M.Kom
Ali S. Kholimi, S.Kom
![Page 2: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/2.jpg)
Pendahuluan
Latar Belakang
Data Minig dibagi menjadi 3 yaitu Klasifikasi, Klasterisasi dan Asosiasi.
Clustering : pengelompokkan data kedalam beberapa klas sehingga data dalam satu klas memiliki tingkat kemiripan yang maksimum dan data antar klaster memiliki kemiripan yang minimum (Theodoridis, 2006).
K-Means (KM): salah satu meode pengelompokan data nonhierarki (sekatan) yang berusaha mempartisi data yang ada kedalam dua atau lebih kelompok(Eko Prasetyo, 2012).
Terdapat kekurangan pada K-Means, yaitu pada inisial centroid awal.
Artificial Bee Colony (ABC) Karaboga (2005) suatu algoritma yang mengadopsi perilaku mencari makan dari koloni lebah madu.
![Page 3: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/3.jpg)
Pendahuluan
ABC : algoritma dengan solusi global yang memiliki kualitas yang lebih baik dibandingkan dengan GA, PSO, Differential Evolution (DE), dan Evolution Strategies (ES) (Karaboga, 2009)
Dalam penelitian ini akan diusulkan sebuah algoritma baru yaitu hibridasi antara ABC dan KM.
ABC-KM ini diharapkan mampu mengoptimalkan posisi titik pusat klaster yang mengarah pada solusi global optimal.
![Page 4: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/4.jpg)
Rumusan Masalah
Bagaimana menerapkan metode preprosesing text mining dalam kata-kata berbahasa Indonesia?
Bagaimana mentransformasi sinopsis buku menjadi sebuah data numerik?
Bagaimana menerapkan metode Term Frequency Inverse Document Frequency (TF-IDF) untuk pembobotan?
Bagaimana menerapkan aloritma Artificial Bee Colony K-Means untuk melakukan klasterisasi?
Bagaimana membandingkan hasil klaster antara algoritma Basic K-Means dengan algoritma Artificial Bee Colony K-Means?
![Page 5: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/5.jpg)
Batasan Masalah
Kata kunci yang digunakan diambil dari beberapa kata dalam sinopsis buku yang di klaster.
Sinopsis buku menggunakan kata baku dalam bahasa Indonesia sebagai data yang akan diolah.
Sample data diambil dari sinopsis pada www.gramedia.com
![Page 6: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/6.jpg)
Tujuan
Melakukan klasterisasi buku menggunakan algoritma Artificial Bee Colony K-Means.
![Page 7: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/7.jpg)
Text Mining TF-IDF
![Page 8: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/8.jpg)
K-Means (KM)
Ada 2 tipe Pengklasteran data (Tan, 2006) β’ Partisi : Klaster dibentuk dengan
membagi objek/data kedalam non-overlapping subset (klaster).
β’ Hirarki : Klaster dibentuk melalui pembentukan klaster bersarang (nested cluster) yang diimplemen-tasikan dalam bentuk tree (pohon).
K-Means : temasuk kedalam tipe partisi.
![Page 9: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/9.jpg)
Artificial Bee Colony (ABC)
ABC Dervis Karaboga (2005)
Dalam ABC, Bee Koloni dibagi 3 :
Employed bee (lebah pekerja)
Onlooker bee (lebah penunggu sarang)
Scouts (lebah penjelajah)
Posisi sumber makanan possible solution
Nilai fitness jumlah nektar
Jumlah employed bee = Jumlah lebah onlooker = Jumlah cluster
![Page 10: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/10.jpg)
ABC (Cont.)
![Page 11: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/11.jpg)
ABC-KM
![Page 12: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/12.jpg)
ABC-KM (Cont.)
Nama Keterangan
K Jumlah klaster
Limit Batas jumlah iterasi untuk abandoned food source
MCN Jumlah iterasi maksimum pada ABC
SN Jumlah solusi pada ABC
MaxGen1 Jumlah iterasi maksimum fase lebah pada ABC-KM
MaxGen2 Jumlah iterasi maksimum fase KM pada ABC-KM
MaxGenABCKM Jumlah iterasi maksimum metode ABC-KM
MaxPerulangan Jumlah perulangan uji coba
![Page 13: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/13.jpg)
Ilustrasi Menggunakan Contoh Kasus
![Page 14: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/14.jpg)
Text Mining
Case Folding
![Page 15: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/15.jpg)
Text Mining (Cont.)
Tokenizing
![Page 16: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/16.jpg)
Text Mining (Cont.)
Filtering
![Page 17: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/17.jpg)
Text Mining (Cont.)
Stemming
![Page 18: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/18.jpg)
Pembobotan TF-IDF
Menghitung frekuensi kata dari setiap dokumen (TF)
![Page 19: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/19.jpg)
Pembobotan TF-IDF (Cont.)
Membuat file index
![Page 20: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/20.jpg)
Pembobotan TF-IDF (Cont.)
Membuat model ruang vektor
![Page 21: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/21.jpg)
Pembobotan TF-IDF (Cont.)
Menghitung inverse document frequency (IDF)
πΌπ·πΉ π€πππ = ππππ‘π
ππ
πΌπ·πΉ ππππ ππππ = ππππ‘π
ππ
= πππ5
1
= 0.69897
πΆπππ‘ππ βΆ
![Page 22: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/22.jpg)
Pembobotan TF-IDF (Cont.)
Menghitung bobot dari setiap kata (TF*IDF)
π€ π€ππππ = ππΉ(π€ππππ)π(πΌπ·πΉπ)
πΆπππ‘ππ βΆ
π€ ππππ‘ππ = 0.39794π2
= 0.79588
![Page 23: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/23.jpg)
Pembobotan TF-IDF (Cont.)
Normalkan semua dokumen ke panjang unit
π€ πππππππ ππ =0.79588
02 + 02 + 02 + 02 + 02 + 02 + 02 +
02 + 02 + 02 + 02 + 0.795882+
0.698972 + 0.698972 + 02 + 02 + 02 +
02 + 02 + 0.698972 + 0.698972 +
0.698972 + 02 + 02 + 02 + 02 + 02
= 0.45377
π€ π€ππππ =π€(π€ππππ)
π€2 π€πππ1 + π€2 π€πππ2 +β―+π€
2(π€ππππ)
πΆπππ‘ππ βΆ
![Page 24: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/24.jpg)
Pembobotan TF-IDF (Cont.)
Hasil Normalisasi
![Page 25: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/25.jpg)
Pembobotan TF-IDF (Cont.)
Bobot akhir kata
![Page 26: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/26.jpg)
ABC-KM
Tentukan jumlah klaster dan inisialisasikan populasi : Dalam percobaan ini, data akan di bagi menjadi dua klas.
Pilih titik pusat awal lebah pekerja secara random : Untuk menginisialisasikan titik pusat centroid dari dokumen, maka akan dipilih secara acak yaitu dokumen 1 dan 5.
![Page 27: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/27.jpg)
ABC-KM (Cont.)
Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Pekerja).
π₯π,π, π = 1β¦ππ, π = 1β¦π·
ππ = 5
π· = 27
π = *1,2+
π = *1,2+
π = *1,2,3,4,5+
Dimana nilai dari π β π
π£ππ = π₯ππ + β ππ(π₯ππ β π₯ππ)
π£1,1 = π₯1,1 + β 1,1 π₯1,1 β π₯2,1
= 0.33333 + 0.32645 0.33333 β 0 = 0.44214
Contoh :
![Page 28: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/28.jpg)
ABC-KM (Cont.)
Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Penunggu).
ππ = π ππ π₯π π€(π₯π)π₯πππ=1
π(ππ|π₯π)π€(π₯π)ππ=1
ππ= ||π₯π β ππ||
2
π
π=1
πππ‘π=1
1 + ππ
ππ =πππ‘π
πππ‘π
πππ=1
π1 =πππ‘1
πππ‘1+ πππ‘
2+ πππ‘
3+β―+ πππ‘
27
πΆπππ‘ππ βΆ
=0.91427
24.01966
= 0.03806
![Page 29: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/29.jpg)
ABC-KM (Cont.)
Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Pengintai).
π₯ππ= π₯ππππ+ ππππ 0,1 π₯πππ₯
πβ π₯ππππ
πΆπππ‘ππ βΆ
π₯1π= π₯ππππ+ ππππ 0,1 π₯πππ₯
πβ π₯ππππ
π₯1 = 0.03315 + 0.23454 0.04163 β 0.03315
= 0.0362
![Page 30: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/30.jpg)
ABC-KM (Cont.)
Tentukan titik pusat terbaik dari seluruh lebah : Jika sumber makanan baru mempunyai netkar yang sama atau lebih baik, maka sumber makanan yang lama akan di buang, jika tidak maka sumber makanan yang lama akan tetap dipertahankan (Greedy Selection).
Update titik pusat dengan tahapan K-Means : Mengambil titik pusat dari lebah untuk dijadikan titik pusat dan dilakukan peng-update-tan sampai titik pusat tidak berubah.
![Page 31: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/31.jpg)
ABC-KM (Cont.)
Jadikan titik pusat K-Means sebagai titik pusat ABC-KM
π ππππ’πππ 1,2 =
0.03806 β 0 2 + 0.03639 β 0 2 + 0.04102 β 0 2 +
0.03757 β 0 2 + 0.04163 β 0 2 + 0.04114 β 0 2 +
0.03315 β 0 2 + 0.03939 β 0 2 + 0.04162 β 0 2 +
0.04075 β 0.46383 2 + 0.04161 β 0.46383 2 +
0.04160 β 0.26407 2 + 0.03949 β 0.26407 2 +
0.03886 β 0.46383 2 + 0.03817 β 0.46383 2 +
0.04019 β 0 2 + 0.04019 β 0 2 + 0.04019 β 0 2 +
0.04019 β 0 2 + 0.04019 β 0 2 + 0.04019 β 0 2 +
0.04019 β 0 2 + 0.04019 β 0 2 + 0.04019 β 0 2 +
0.04019 β 0 2 + 0.04019 β 0 2 + 0.04019 β 0 2
π(π₯, π¦) = |π¦π β π₯π|2
π
π=1
πΆπππ‘ππ βΆ
![Page 32: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/32.jpg)
ABC-KM (Cont.)
Tetapkan keanggotaan tiap data
Dokumen C1 C2
D1 1 0
D2 0 1
D3 1 0
D4 1 0
D5 0 1
![Page 33: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/33.jpg)
Hasil Uji Coba Sistem yang Telah di Bangun
J U R U S A N T E K N I K I N F O R M A T I K A
F A K U L T A S T E K N I K
U N I V E R S I T A S M U H A M M A D I Y A H M A L A N G
2 0 1 4
Oleh: Abdurrahman
201010370311397
Dosen Pembimbing: Yufis Azhar, M.Kom
Ali S. Kholimi, S.Kom
![Page 34: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/34.jpg)
Metode Uji Coba
Precision =ππ
ππ+πΉπ
Recall = ππ
ππ+πΉπ
F-Measure =2 π₯ ππππππ πππ π₯ π πππππ
ππππππ πππ+π πππππ
Classterication Positive Clasterication Negative
Actual Pisitive TP FN
Actual Negative FP TN
![Page 35: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/35.jpg)
Hasil Uji Coba Grafik Perbandingan Precision
79.00%
80.00%
81.00%
82.00%
83.00%
84.00%
85.00%
86.00%
87.00%
88.00%
89.00%
Percobaan 1 Percobaan 2 Percobaan 3 Percobaan 4 Percobaan 5 Rata-Rata
K-Means
ABC K-Means
![Page 36: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/36.jpg)
Hasil Uji Coba Grafik Perbandingan Recall
0%
5%
10%
15%
20%
25%
30%
35%
40%
Percobaan 1 Percobaan 2 Percobaan 3 Percobaan 4 Percobaan 5 Rata-Rata
K-Means
ABC K-Means
![Page 37: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/37.jpg)
Hasil Uji Coba Grafik Perbandingan F-measure
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
Percobaan 1 Percobaan 2 Percobaan 3 Percobaan 4 Percobaan 5 Rata-Rata
K-Means
ABC K-Means
![Page 38: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/38.jpg)
Kesimpulan
Artificial Bee Colony mampu mengatasi masalah local optimal pada algoritma Basic K-means sehingga algoritma Basic K-Means dapat keluar dari masalah tersebut dan menjadi global optimal.
Algoritma ABC-KM mamupu mengklaster lebih baik : precision ABC K-Means lebih baik 2.08%, recall ABC K-Means lebih baik 11.24% dan F-Measure ABC K-Means lebih baik 14.04%.
![Page 39: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/39.jpg)
Saran
Penentuan Jumlah Klaster Masih Manual
Klasterisasi Data Masih Statis
Tidak Adanya Metode Korelasi (Similarity)
![Page 40: Klasterisasi buku berbahasa indonesia](https://reader031.vdocuments.site/reader031/viewer/2022013102/55b02c311a28ab14568b4719/html5/thumbnails/40.jpg)
TERIMAKASIH