rancang bangun modul pengkategorian topik dan ... · dasar teori phpbb php-nlp-tools klasifikasi...

Post on 17-Mar-2019

243 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

RANCANG BANGUN MODUL PENGKATEGORIAN TOPIK DAN PENGELOMPOKKAN TOPIK DENGAN KLUSTER DARI

APLIKASI FORUM phpBB3 SECARA OTOMATIS.

ARTHUR HOLONG P.N. 5110100090

Dosen Pembimbing :Daniel Oranova Siahaan , S.Kom, M.Sc, Pd.EngNurul Fajrin Ariyani, S.Kom, M.Sc

Latar BelakangPengetahuan sangat penting bagi perekayasa untuk membantu pekerjaan.

Pengetahuan yang dimiliki oleh perekayasa jarang didokumentasikan untuk suatu perusahaan

Perekayasa yang baru dalam suatu perusahaan tidak mengetahui pengetahuan yang dimiliki oleh perekayasa yang lama

Tujuan Membangun sistem manajemen pengetahuan untuk perekayasa dengan menggunakan aplikasi forum

Rumusan Masalah1. Bagaimana sistem dapat mendapatkan pengetahuan yang terdapat pada

topik

2. Bagaimana sistem dapat mengelompokkan topik sesuai pengetahuannya

3. Bagaimana sistem dapat menemukan informasi yang relevan

4. Bagaimana membangun sistem manajemen pengetahuan untuk perekayasa

Batasan Masalah1. bahasa pemrograman menggunakan bahasa PHP.

2. aplikasi forum yang digunakan menggunakan aplikasi web template.

3. informasi yang digunakan menggunakan bahasa Inggris.

4. data uji yang digunakan berasal dari forum untuk perekayasa.

Dasar TeoriPhpbb

Php-nlp-tools

Klasifikasi

Clustering

phpBBphpBB adalah aplikasi forum yang berbasis web dan versi yang paling terakhir adalah versi 3. Aplikasi ini bersifat open source dan dapat diunduh dari situs web phpbb.com.

Aplikasi tersebut sudah menyediakan fitur-fitur dasar dari penggunaan forum seperti membuat topik.

Php-nlp-toolsSalah satu library yang menggunakan bahasa pemrograman php. Library ini dapat melakukan proses yang berhubungan dengan pemprosesan bahasa natural atau natural language process.

Library ini digunakan untuk melakukan proses klasifikasi dan clustering pada sistem.

KlasifikasiKlasifikasi adalah proses menentukan kelas terhadap suatu dokumen atau data. Pada sistem ini, proses klasifikasi digunakan untuk menentukan forum dari topik yang baru di buat.

Klasifikasi menggunakan metode Naive Bayes yang terdapat pada library php-nlp-tools.

ClusteringClustering adalah proses pengelompokkan beberapa data. Jumlah kelompok pada data dapat ditentukan oleh pengguna. Dalam sistem ini, proses clustering digunakan untuk membuat forum baru dengan menggunakan topik-topik yang sudah ada. Topik akan dikelompokkan dan jumlah kelompok dapat ditentukan oleh pengguna.

Clustering menggunakan metode K-Means yang terdapat pada library php-nlp-tools.

Arsitektur Sistem

Diagram Alir DataKonteks diagram

Pengguna Perekayasa

Pengguna Admin

Pengguna Admin(2)

Implementasi Klasifikasi Topik

Implementasi Klasifikasi Topik(2)◦ Klasifikasi dilakukan

terhadap topik baru.

◦ Proses klasifikasi dilakukan pada modul klasifikasi dan kluster

◦ Database model di dapat dari proses latih data

Latih Data◦ Menyimpan nilai-nilai

probabilitas untuk menentukan klasifikasi

◦ Data disimpan ke Database Model

Implementasi Pengelompokkan Topik

◦ Dilakukan oleh pengguna admin

◦ Proses clustering dilakukan pada modul klasifikasi dan kluster

◦ Pengguna dapat menentukan judul forum yang tepat untuk kelompok topik

◦ Jumlah cluster dapat ditentukan oleh pengguna admin

Proses Clustering◦ Proses ini terjadi pada

modul klasifikasi dan kluster

◦ Database temporary hanya untuk menampung sementara topik yang dikelompokkan sebelum ditentukan oleh admin.

Implementasi Pengelompokkan Topik(2)

Implementasi Pengelompokkan Topik(3)

Pengujian dan Evaluasi

Data Uji CobaData yang digunakan untuk uji coba diambil dari situs forum ‘phpbb.com’. Forum tersebut berdiskusi tentang aplikasi forum phpBB.

Nama Forum Jumlah Topik Jumlah PostGeneral 50 253

Modification 50 256Styles 50 234

Support 50 257Total 200 1000

Pengujian FungsionalitasID PF-0001

Nama Pengujian fitur pengkategorian topik

Tujuan Pengujian Menguji fitur untuk menampilkan topik yang dikategorikanoleh sistem

Kondisi Awal Telah dilakukan latih data sebagai dasar sistem untukmengkategorikan topik

Data Uji Data uji berupa topik yang berasal dari forum di situs webphpBB

Langkah Pengujian Pengguna mencoba memasukkan topik tanpa memilih forumterlebih dahulu

Hasil Yang Diharapkan Topik yang dimasukkan berhasil ditampilkan oleh sistem

Hasil Yang Didapat Topik yang dimasukkan berhasil ditampilkan oleh sistem.

Hasil Pengujian Berhasil

Kondisi Akhir Tampilan topik yang baru dimasukkan oleh pengguna.

Pengujian Fungsionalitas (2)ID PF-0002

Nama Pengujian fitur pengelompokkan topik

Tujuan Pengujian Menguji fitur untuk menampilkan topik yang dikelompokkanoleh sistem

Kondisi Awal Topik yang dikelompokkan sudah memiliki forum

Data Uji Data uji berupa topik yang berasal dari forum di situs web phpBB

Langkah Pengujian Pengguna mencoba meminta sistem untuk melakukanpengelompokkan topik dengan memberi masukan berupa 4kluster

Hasil Yang Diharapkan Topik yang dikelompokkan berhasil ditampilkan oleh sistemdengan forum baru, yang sebelumnya dikelompokkan olehsistem

Hasil Yang Didapat Topik yang dikelompokkan berhasil ditampilkan oleh sistemdengan forum baru, yang sebelumnya dikelompokkan olehsistem

Hasil Pengujian Berhasil

Kondisi Akhir Tampilan forum-forum baru sesuai dengan jumlah yangdiinginkan oleh pengguna

Uji Coba KlasifikasiUji coba klasifikasi menggunakan metode key fold. Metode key fold yaitu melakukan pengujian pada suatu data. Data uji dan data latih akan di acak atau setiap skenario antara data uji dan data latih berbeda dengan skenario sebelumnya.

Uji Coba Klasifikasi(2)No Skenario Akurasi %1 Skenario 1 57.502 Skenario 2 52.503 Skenario 3 72.504 Skenario 4 50.005 Skenario 5 52.506 Skenario 6 50.007 Skenario 7 55.008 Skenario 8 72.509 Skenario 9 75.00

10 Skenario 10 72.50Rata-rata 61%

Uji Coba Klasifikasi (3)

Nama Forum Prosentase hasil klasifikasi berbeda dengan data uji

General 27

Styles 25

Modification 32

Support 67

Uji Coba Klasifikasi(4)

Support General

reCAPTCHA not show goodATTACHMENTSSpambot countermeasures 2014-06-20 13-22-36.pngTop SEO ForumInternet MarketingInternet Marketing Forum

Support Modification

How to add ads this area. see attachment fileATTACHMENTSTop SEO Forum • Community Home 2014-06-20 12-53-05.pngTop SEO ForumInternet MarketingInternet Marketing Forum

Uji Coba ClusteringPerbandingan hasil clustering dengan aplikasi weka

Survey untuk mengukur nilai relevansi dari topik yang dikelompokkan.

Pertanyaan yang ditanyakan pada survey adalah :

“Apakah topik yang terdapat forum sudah dikelompokkan dengan benar berdasarkan pengetahuannya?”

Uji Coba Clustering(2)

136

40

157

2

135

39

20

5 10

20

40

60

80

100

120

140

160

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5

weka nlp tools

120

51

23

3 2 1

113

4135

5 4 20

20

40

60

80

100

120

140

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6

Weka Nlp tools

Uji Coba Clustering (3)

117

53

137 5 4 1

114

47

2013

3 2 10

20

40

60

80

100

120

140

CLUSTER 1 CLUSTER 2 CLUSTER 3 CLUSTER 4 CLUSTER 5 CLUSTER 6 CLUSTER 7

WEKA NLP Tools

Uji Coba Clustering (4)

Jawaban Survey Total Persen

Topik Tidak Terkelompok dengan benar 1 5%

Beberapa topik terkelompok dengan benar 6 30%

Sebagian besar topik terkelompok dengan benar 10 50%

Topik terkelompok dengan benar 3 15%

Total 20 100%

KesimpulanSistem dapat menentukan klasifikasi dengan akurasi tertinggi 75% didasarkan pada hasil uji coba klasifikasi topik.

Sistem dapat mengelompokkan topik-topik menjadi suatu forum. Hal ini didasarkan pada fitur pengelompokkan topik.

Sistem dapat menemukan informasi yang relevan dengan fitur pengelompokkan topik. Dengan hasil survey yang ditujukkan

Saran◦ Menambahkan modul untuk mendeteksi topik yang

mengandung pengetahuan atau tidak, hal tersebut dapat membuat sistem dapat mengolah pengetahuan menjadi lebih baik.

◦ Membuat fitur pengelompokkan topik dengan metode lainnya sehingga hasil dari pengelompokkan sesuai dengan data uji coba

Terima Kasih

Dokumen

Tokenisasi

Stop words

VSM

Contoh K-Means

◦ Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.

◦ Bangkitkan k centroid (titik pusat klaster) awal secara random.

◦ Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua objek yaitu Euclidean Distance dan kesamaan Cosine.

◦ Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya.

◦ Tentukan posisi centroid baru ( Ck ) dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama.

◦ Kembali ke langkah tiga jika posisi centroid baru dengan centroid lama tidak sama.

Langkah K-Means

Naive BayesProbabilitas dokumen terhadap kategori

𝑝 𝐶 = 𝑐𝑖 𝐷 = 𝑑𝑗 = 𝑘 𝑝 𝑤𝑘 𝐶 = 𝑐𝑖 × 𝑝 𝐶 = 𝑐𝑖𝑃 𝑊1, 𝑊2 ,𝑊3 ,…,𝑊𝑘,….,𝑊𝑛

Penentuan kategori dengan mencari nilai maksimal

𝑐∗ = argmax𝑐∈𝐶

𝑝 𝑘 𝑝(𝑤𝑘|𝑐) × 𝑝(𝑐)

Alir Diagram proses update forum baru

top related