klasifikasi supervised learning pada teks bahasa … isi.pdf · ii klasifikasi supervised learning...
TRANSCRIPT
TESIS
KLASIFIKASI SUPERVISED LEARNING
PADA TEKS BAHASA BALI DENGAN METODE
INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER
IDA BAGUS GEDE WIDNYANA PUTRA
NIM 1491761007
PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2016
ii
KLASIFIKASI SUPERVISED LEARNING
PADA TEKS BAHASA BALI DENGAN METODE
INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER
Tesis untuk Memperoleh Gelar Magister
pada Program Magister, Program Studi Teknik Elektro,
Program Pascasarjana Universitas Udayana
IDA BAGUS GEDE WIDNYANA PUTRA
NIM 1491761007
PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2016
iii
iv
Tesis Ini Telah Diuji Pada
Tanggal 15 Juli 2016
Panitia Penguji Tesis Berdasarkan SK Rektor Universitas Udayana,
Nomor : 3241/UN14.4/HK/2016, Tanggal 14 Juli 2016
Ketua : Dr. Ir. Made Sudarma, M.A.Sc
Anggota :
1. I Nyoman Satya Kumara, ST., M.Sc, PhD
2. Prof. Ir. Rukmi Sari Hartati, MT., PhD
3. NMAE Dewi Wirastuti, ST., MSc., PhD
4. Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD
v
SURAT PERNYATAAN BEBAS PLAGIAT
Nama : Ida Bagus Gede Widnyana Putra
NIM : 1491761007
Program Studi : Magister Teknik Elektro
Judul : KLASIFIKASI SUPERVISED LEARNING PADA TEKS
BAHASA BALI DENGAN METODE INFORMATION
GAIN DANNAIVE BAYES CLASSIFIER
Dengan ini menyatakan bahwa karya tulis ilmiah Tesis ini bebas plagiat. Apabila
dikemudian hari terbukti terdapat plagiat dalam karya ilmiah ini, maka saya
bersedia menerima sanksi sesuai peraturan Mendiknas RI No. 17 Tahun 2010 dan
Peraturan Perundang-undangan yang berlaku.
Denpasar, 15 Juli 2015
Yang Membuat Pernyataan
Ida Bagus Gede Widnyana Putra
vi
UCAPAN TERIMAKASIH
Puji dan syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa
atas asung kerta waranugraha-Nya, penulis dapat menyelesaikan tesis yang berjudul
“KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI
DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER”.
Dalam menyelesaikan tesis ini, penulis mendapatkan banyak bantuan, bimbingan
dan dorongan dari berbagai pihak. Maka dari itu pada kesempatan ini penulis ingin
mengucapkan terimakasih kepada :
Bapak Gubernur Bali dan Kepala BKD Provinsi Bali atas beasiswa dan
kesempatan yang diberikan untuk melanjutkan pendidikan di Program Pasca
Sarjana Universitas Udayana serta Bapak Kalaksa BPBD Provinsi Bali dan Kepala
UPT. Pusdalops PB BPBD Provinsi Bali selaku pimpinan tempat penulis bekerja
atas ijin yang diberikan untuk mengikuti pendidikan di Program Magister Teknik
Elektro, program studi Manajemen Sistem Informasi dan Komputer, Pascasarjana
Universitas Udayana.
Prof. Dr. dr. Ketut Suastika SpPD KEMD selaku Rektor Universitas
Udayana dan Prof. Dr. dr. A.A. Raka Sudewi, Sp.S(K) selaku Direktur Program
Pascasarjana Universitas Udayana atas kesempatan dan fasilitas yang diberikan
kepada penulis untuk mengikuti dan menyelesaikan pendidikan pada Program
Magister di UniversitasUdayana.
Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD selaku Ketua Program
Magister Program Studi Teknik Elektro Pascasarjana Universitas Udayana dan
dosen penguji tesis atas kesempatan dan masukan yang diberikan kepada penulis
untuk mengikuti dan menyelesaikan pendidikan pada Program Magister Teknik
Elektro Universitas Udayana.
Dr.Ir. Made Sudarma, M.A.Sc selaku dosen pembimbing I dan I Nyoman
Satya Kumara, ST.,MSc.,PhD selaku dosen pembimbing II atas bimbingan, arahan,
saran, dan dukungan selama penyusunan tesis ini serta para dosen penguji Prof. Ir.
Rukmi Sari Hartati, MT., PhD, NMAE Dewi Wirastuti, ST., MSc., PhD,Wayan
vii
Gede Ariastina, ST.,MengSc.,PhD, yang telah memberikan saran, sanggahan dan
koreksi sehingga tesis ini menjadi lebih baik serta seluruh dosen Program Magister
Teknik Elektro Universitas Udayana atas ilmu yang telah diberikan.
Orang tua terbaik Drs. Ida Bagus Antara dan Ida Ayu Gde Suwardani, S.Pd
serta istri tercinta Anak Agung Diah Pratiwi, S.Pd. yang tiada hentinya berdoa,
memberi semangat dan dukungan yang sangat besar sehingga penulis bisa
menyelesaikan pendidikan tepat waktu.
Teman-teman Magister Teknik Elektro program studi Manajemen Sistem
Informasi dan Komputer Angkatan 2014 atas kerjasama dan dukungannya serta
semua pihak yang telah membantu dalam penyusunan laporan tesis ini yang tidak
dapat disebutkan satu per satu.
Penulis menyadari bahwa penulisan tesis yang telah dibuat masih jauh dari
kesempurnaan. Oleh karena itu, penulis sangat mengharapkan kritik dan saran yang
membangun dari pembaca dan mohon maaf apabila ada kesalahan dalam penulisan
dan penyusunan tesis ini.
Penulis
viii
ABSTRAK
KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA
BALIDENGAN METODE INFORMATION GAIN DAN
NAIVE BAYES CLASSIFIER
Ketersediaan dokumen teks bahasa Bali yang meningkat jumlahnya membuat
proses pencarian informasi pada dokumen teks berbahasa Bali menjadi semakin
sulit. Mengklasifikasikanya secara manual menjadi tidak efisien mengingat
peningkatan jumlah dokumen yang semakin banyak. Pada penelitian ini
dikembangkan sebuah aplikasi yang dapat mengklasifikasikan teks bahasa Bali ke
dalam kategori yang ditentukan. Aplikasi ini menggunakan metode klasifikasi
Naive Bayes Classifier (NBC) dan metode Information Gain (IG) untuk seleksi
fitur. Aplikasi ini diuji dengan teknik cross validation. Hasilnya adalah nilai rata-
rata akurasi dari 10 fold cross validation sebesar 95,22%.
Keywords : information gain, naive bayes classifier, text mining, cross
validation
ix
ABSTRACT
KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA
BALIDENGAN METODE INFORMATION GAIN DAN
NAIVE BAYES CLASSIFIER
Increasing availability of Balinese language text documents making the
process of finding or classifying information in Balinese text documents is
becoming increasingly difficult. Manual classification is inefficient in view of the
increase in the number of Balinese written documents. On this paper, application
that can classify Balinese text into various document class is presented. The
application is developed using Naive Bayes classifier (NBC) method and feature
selection using Information Gain (IG) technique. Application is tested using cross
validation method. The resultsshows that average accuracy of 10 fold cross
validation is 95.22%.
Keywords : information gain, naive bayes classifier, text mining, cross
validation
x
DAFTAR ISI
HALAMAN JUDUL .................................................................................................. i
PERSYARATAN GELAR ........................................................................................ ii
LEMBAR PERSETUJUAN ..................................................................................... iii
PENETAPAN PANITIA PENGUJI ......................................................................... iv
SURAT PERNYATAAN BEBAS PLAGIAT ........................................................... v
UCAPAN TERIMA KASIH ..................................................................................... vi
ABSTRAK .............................................................................................................. viii
ABSTRACT .............................................................................................................. ix
DAFTAR ISI ............................................................................................................... x
DAFTAR TABEL .................................................................................................... xii
DAFTAR GAMBAR .............................................................................................. xiii
DAFTAR ISTILAH DAN SINGKATAN .............................................................. xiv
I PENDAHULUAN ............................................................................................... 1
1.1 LatarBelakang .......................................................................................... 1
1.2 RumusanMasalah ..................................................................................... 5
1.3 TujuanPenelitian ...................................................................................... 6
1.4 ManfaatPenelitian .................................................................................... 6
1.5 RuangLingkupPenelitian .......................................................................... 6
1.6 KeaslianPenelitian .................................................................................... 7
II KAJIAN PUSTAKA .......................................................................................... 10
2.1 State Of The Art Review ......................................................................... 10
2.2 Klasifikasi Dokumen .............................................................................. 13
2.3 Morfologi Bahasa Bali ........................................................................... 15
2.4 Text Mining ............................................................................................ 18
2.5 Information Retrieval ............................................................................. 20
xi
2.6 Natural Langguage Processing.............................................................. 24
2.7 Naive Bayes Classifier ........................................................................... 28
2.8 Term Weighting ...................................................................................... 30
2.9 Information Gain .................................................................................... 32
2.10 Cross Validation..................................................................................... 32
III METODELOGI PENELITIAN ........................................................................ 35
3.1 GambaranUmumSistem ......................................................................... 35
3.2 RancanganAlurPenelitian ....................................................................... 36
3.3 AlatdanBahanPenelitian ......................................................................... 45
3.4 JadwalPenelitian ..................................................................................... 45
IV HASIL DAN PEMBAHASAN ......................................................................... 47
4.1 Antar MukaSistem ................................................................................. 47
4.2 Tahap Preprocessing .............................................................................. 48
4.3 Tahap Seleksi Fitur ................................................................................ 54
4.4 Tahap Pelatihan ...................................................................................... 57
4.5 Tahap Klasifikasi ................................................................................... 61
4.6 Hasil Validasi dan Evaluasi dengan K-Fold Cross Validation .............. 63
4.7 Waktu Proses Sistem .............................................................................. 64
V KESIMPULAN DAN SARAN ......................................................................... 66
5.1 Kesimpulan ............................................................................................ 66
5.2 Saran ...................................................................................................... 67
DAFTAR PUSTAKA ............................................................................................... 68
xii
DAFTAR TABEL
Tabel 2.1 Pemetaan Keaslian Penelitian................................................................... 12
Tabel 2.2 Kemungkinan Hasil Test IR .................................................................... 23
Tabel 3.1 Ilustrasi Eksperimen 10 Fold Validation .................................................. 44
Tabel 3.2 JadwalPenelitian ....................................................................................... 46
Tabel4.1 Tahapan Proses Stemming ........................................................................ 53
Tabel4.2 Hasil Seleksi Fitur .................................................................................... 55
Tabel4.3 Hasil Perbandingan Klasifikasi dengan TFIDF dan IG ........................... 57
Tabel4.4 Hasil Percobaan Untuk Menentukan Jumlah Fitur ................................... 58
Tabel4.5 Hasil Tahap Pelatihan ............................................................................... 59
Tabel4.6 Hasil 10 Fold Cross Validation ................................................................ 63
Tabel4.7 Lama Waktu Proses Setiap Tahap ............................................................ 65
xiii
DAFTAR GAMBAR
Gambar 1.1 DiagramFishbonePenelitian ................................................................ 9
Gambar 2.1 High-level text mining functional architecture ................................. 20
Gambar 2.2 Arsitektur Dasar Sistem IR................................................................ 21
Gambar 2.3 Flowchart 10 Fold Cross Validation................................................. 34
Gambar3.1 Gambaran Umum Sistem .................................................................. 35
Gambar3.2 Alur Penelitian ................................................................................... 36
Gambar3.3 Alur Proses Processing ...................................................................... 38
Gambar 3.4 Alur Proses Pelatihan dengan Algoritma NBC ................................ 41
Gambar 3.5 Alur Proses Klasifikasi dengan Algoritma NBC .............................. 42
Gambar 3.6 Penggunaan Rumus pada Tahap Pelatihan dan Klasifikasi............... 42
Gambar 3.7 Alur Proses 10 Fold Cross Validation .............................................. 44
Gambar4.1 Antar Muka Sistem ............................................................................ 47
Gambar4.2 Dokumen Asli.................................................................................... 48
Gambar4.3 Hasil Transform Case ........................................................................ 49
Gambar4.4 Hasil Tokenization ............................................................................. 50
Gambar4.5 Hasil Filter Token (by Length) .......................................................... 51
Gambar4.6 Hasil Filter Stopwords ....................................................................... 52
Gambar4.7 Form Input Seleksi Fitur.................................................................... 54
Gambar4.8 Hasil Seleksi Fitur ............................................................................. 55
Gambar4.9 Grafik Hasil Perbandingan Klasifikasi dengan TFIDF dan IG ......... 57
Gambar4.10 Form Input Tahap Pelatihan .............................................................. 58
Gambar4.11 Grafik Perbandingan Berdasarkan Jumlah Fitur ............................... 59
Gambar4.12 Form Input Tahap Klasifikasi ........................................................... 61
Gambar4.13 Hasil Tahap Klasifikasi .................................................................... 62
Gambar4.14 Hasil Tidak Terklasifikasi ................................................................. 62
Gambar4.15 Grafik Tingkat Precision, Recal dan Akurasi pada setiap fold ......... 64
xiv
DAFTAR ISTILAH DAN SINGKATAN
CV : Cross Validation
IDF : Inverse Document Frequency
IG : Information Gain
IR : Information Retrieval
NBC : Naive Bayes Classifier
NLP : Natural Language Processing
TF : Term Frequency