plagiat merupakan tindakan tidak terpujirepository.usd.ac.id/383/2/115314079_full.pdf · 2015. 8....
TRANSCRIPT
-
i
HALAMAN JUDUL
ANALISIS SENTIMEN PADA LIRIK LAGU
MENGGUNAKAN METODE MULTINOMIAL NAÏVE BAYES
Skripsi
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh
Elsa Rika Octaviana
115314079
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2015
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
ii
HALAMAN JUDUL
ANALYSIS SENTIMENT FOR SONG LYRICS
BY USING MULTINOMIAL NAÏVE BAYES METHOD
A Final Project
Presented as Partial Fulfillment of The Requirements
To Obtain Sarjana Komputer Degree
In Informatics Engineering Study Program
By
Elsa Rika Octaviana
115314079
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2015
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
iii
HALAMAN PERSETUJUAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
iv
HALAMAN PENGESAHAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
v
HALAMAN PERSEMBAHAN
Tugas akhir ini saya persembahkan kepada:
Tuhan Yesus yang telah memberikan berkat, rahmat, perlindungan serta
arahan yang terbaik dalam hidupku.
Ayahanda dan Ibunda tercinta
Saudara dan saudari yang terkasih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
vi
PERNYATAAN KEASLIAN KARYA
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
vii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
viii
KATA PENGANTAR
Puji dan syukur penulis panjatkan atas kehadirat Tuhan Yang Maha Esa atas
berkat, rahmat serta kasih-Nya sehingga penulis dapat menyelesaikan skripsi yang
berjudul “Analisis Sentimen pada Lirik Lagu Menggunakan Metode
Multinomial Naive Bayes”.
Penulisan skripsi ini bertujuan untuk memenuhi sebagian syarat memperoleh
gelar sarjana komputer program studi S1 jurusan Teknik Informatika Universitas
Sanata Dharma. Penulis menyadari bahwa skripsi ini masih jauh dari sempurna oleh
sebab itu penulis mengharapkan kritik dan saran yang bersifat membangun dari
semua pihak demi kesempurnaan skripsi ini.
Selesainya skripsi ini tidak lepas dari peran penting berbagai pihak, sehingga
pada kesempatan ini penulis dengan segala kerendahan hati serta rasa hormat
mengucapkan terima kasih yang sebesar – besarnya kepada semua pihak yang telah
memberikan dukungan baik secara langsung maupun tidak langsung kepada
penulis dalam penyusunan skripsi ini hingga selesai, terutama kepada yang saya
hormati:
1. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku pembimbing yang sabar
memberikan pengarahan serta solusi dalam pengerjaan skripsi ini hingga
selesai.
2. Yang tersayang orang tua penulis yaitu Marlan Rikeh, S.Pd., M.Pd. dan
Frederica Ujiana, S.Pd yang selalu rela berkorban, mendoakan serta
memberikan motivasi baik dari segi moril maupun material kepada penulis
sehingga dapat terselesaikan skripsi ini dengan baik.
3. Yang terkasih saudara dan saudari yaitu Frederikus Rinaldo dan Cyintia
Septiana Rini yang telah mendoakan.
4. Yang terkasih Gersom Jalaq yang telah meluangkan waktu serta membantu
dalam penyelesaian skripsi ini dengan baik.
5. Seluruh keluarga besar yang yang telah memberikan dukungan serta motivasi
baik dari segi moril dan material sehingga penyelesaian skripsi penulis berjalan
dengan lancar.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
x
ABSTRAK
Lirik merupakan salah satu media komunikasi yang sering digunakan untuk
menyampaikan perasaan dari seseorang. Salah satunya yaitu melalui lirik lagu yang
dapat dijumpai oleh seluruh masyarakat melalui media online, buku dan lainnya.
Lirik lagu ini digunakan sebagai data yang diperoleh melalui beberapa situs
website, lirik lagu yang telah disalin akan disimpan dengan format ekstensi *.txt
agar mampu diolah oleh sistem.
Agar mempermudah dalam pemerolehan informasi data lirik lagu yang
dicari, maka dilakukan pengklasifikasian data teks. Penelitian ini bertujuan untuk
memudahkan pemilihan lagu yang baik dan tidak baik terhadap anak. Fungsi
klasifikasi pada penelitian ini dibagi dalam dua klasifikasi yaitu baik dan tidak baik.
Proses yang akan dilalui oleh data diantaranya membaca data, tokenizing,
normalization, stop word, stemming, sorting dan grouping. Sistem ini akan
menggunakan vektor ciri berupa TF (Term Frequency) yang merupakan jumlah
kemunculan suatu kata dalam sebuah dokumen.
Proses klasifikasi teks lirik lagu menggunakan algoritma Multinomial Naïve
Bayes. Harapannya adalah berdasarkan pengelompokan yang terbentuk melalui
proses klasifikasi ini, dapat diketahui lagu yang baik dan lagu yang tidak baik untuk
anak. Dengan adanya pengelompokan ini dapat membantu dalam menentukkan
lagu yang baik dan tidak baik untuk anak.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xi
ABSTRACT
A song is one of the media that is often used to express feelings for a person.
Song texts amongst other can be found by all people online, in books and in other
media. The songs used in this research were obtained from various online media
and were transcribed and saved with *.txt extension so that it can be processed
through the system.
To facilitate the collection of information on songs that were searched, the
text was classified. The purpose of this research is to facilitate the selection of songs
that are appropriate and inappropriate for children. The classification function in
this research was divided into two groups; appropriate and inappropriate songs for
children. The data processing includes reading of the data, tokenizing,
normalization, stop word, stemming, calculation of data frekuensi, sorting and
grouping. This system uses vector feature Term Frequency, meaning the number of
times a certain word appears in certain data.
The classification process of song texts used a Multinominal Naïve Bayes
algorithm. The expectation is that the grouping based on this classification will
specify which song is appropriate and which song is inappropriate for children. The
grouping will assist in deciding which songs are appropriate and inappropriate for
children.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xii
DAFTAR ISI
HALAMAN JUDUL .......................................................................................................... i
HALAMAN JUDUL ......................................................................................................... ii
HALAMAN PERSETUJUAN ........................................................................................ iii
HALAMAN PENGESAHAN ...........................................................................................iv
HALAMAN PERSEMBAHAN .......................................................................................iv
PERNYATAAN KEASLIAN KARYA ...........................................................................vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ........................................ vii
KATA PENGANTAR ..................................................................................................... viii
ABSTRAK ......................................................................................................................... x
ABSTRACT ....................................................................................................................... xi
DAFTAR ISI..................................................................................................................... xii
DAFTAR TABEL ........................................................................................................... xiv
DAFTAR GAMBAR ........................................................................................................ xv
BAB I PENDAHULUAN .................................................................................................. 1
1.1 Latar Belakang .................................................................................................. 1
1.2 Rumusan Masalah ............................................................................................ 2
1.3 Batasan Masalah ............................................................................................... 3
1.4 Tujuan Penelitian .............................................................................................. 3
1.5 Metodologi Penelitian ....................................................................................... 3
BAB II LANDASAN TEORI ........................................................................................... 5
2.1 Analisis Sentimen .............................................................................................. 5
2.2 Pemerolehan Informasi .................................................................................... 5
2.3 Indexing ............................................................................................................. 7
2.4 Porter Stemmer ................................................................................................. 9
2.4.1 Tentang Porter Stemmer .......................................................................... 9
2.4.2 Porter Stemmer Bahasa Indonesia .......................................................... 9
2.5 Klasifikasi Teks ............................................................................................... 13
2.6 Naive Bayes ...................................................................................................... 14
2.7 Multinomial Naive Bayes................................................................................ 14
2.8 Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks ...................... 16
2.9.1 Data Training .......................................................................................... 16
2.9.2 Data Testing ............................................................................................. 25
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xiii
BAB III PERANCANGAN SISTEM ............................................................................ 36
3.1 Gambaran Umum Sistem ............................................................................... 36
3.2 Teknik Analisis Data ....................................................................................... 37
3.2.1 Metode Pengumpulan Data .................................................................... 37
3.2.1 Pengolahan Data ..................................................................................... 38
3.2.2 Preprocessing Data ................................................................................. 39
3.2.3 Klasifikasi Data ....................................................................................... 40
3.3 Akurasi Data .................................................................................................... 41
BAB IV IMPLEMENTASI ............................................................................................ 43
4.1 Antarmuka Menu ............................................................................................ 43
4.2 Antarmuka Training ...................................................................................... 43
4.3 Antarmuka Testing ......................................................................................... 44
BAB V PENGUJIAN ...................................................................................................... 48
5.1 Pengujian Data ................................................................................................ 48
5.1.1 Pengujian Akurasi................................................................................... 51
5.2 Analisis Pengujian ........................................................................................... 52
BAB VI KESIMPULAN DAN SARAN ........................................................................ 60
6.1 Kesimpulan ...................................................................................................... 60
6.2 Saran ................................................................................................................ 60
DAFTAR PUSTAKA ...................................................................................................... 62
LAMPIRAN..................................................................................................................... 63
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xiv
DAFTAR TABEL
Tabel 2.1 Aturan 1 Inflection Particle. .......................................................................... 10
Tabel 2.2 Aturan 2 Inflection Possessive Pronouns. .................................................... 11
Tabel 2.3 Aturan 3 Fisrt Order of Derivational Prefixs. ............................................. 11
Tabel 2.4 Aturan 4 Second Order of Derivational Prefixs. ........................................ 12
Tabel 2.5 Aturan 5 Derivational Suffixes. ..................................................................... 12
Tabel 2.6 Aturan 6 Suku Kata dalam Bahasa Indonesia ............................................ 13
Tabel 2.7 Tokenizing Training ....................................................................................... 17
Tabel 2.8 Normalization Training ................................................................................ 18
Tabel 2.9 Stop Word Training ...................................................................................... 19
Tabel 2.10 Stemming Training ...................................................................................... 20
Tabel 2.11 Daftar Kata beserta Frekuensi Kata Training .......................................... 21
Tabel 2.12 Hasil Sorting secara Ascending Training ................................................... 22
Tabel 2.13 Hasil Grouping dengan Kata yang Sama Training ................................... 23
Tabel 2.14 Prior Probabilitas Training ......................................................................... 24
Tabel 2.15 Conditional Probabilitas Training .............................................................. 24
Tabel 2.16 Tokenizing Testing ....................................................................................... 26
Tabel 2.17 Normalization Testing.................................................................................. 27
Tabel 2.18 Stop Word Testing ....................................................................................... 28
Tabel 2.19 Stemming Testing ......................................................................................... 29
Tabel 2.20 Daftar Kata beserta Frekuensi Kata Testing ............................................. 30
Tabel 2.21 Hasil Sorting secara Ascending Testing ..................................................... 31
Tabel 2.22 Hasil Grouping dengan Kata yang Sama Testing ..................................... 32
Tabel 2.23 Prior Probabilitas Testing ........................................................................... 33
Tabel 2.24 Hasil Proses Matching antara Model dengan Data Testing ..................... 33
Tabel 2.25 Hasil Matching beserta dengan Nilai Conditional Probabilitas Testing . 34
Tabel 2.26 Hasil Perkalian Nilai Conditional Probabilitas dengan Frekuensi Kata
Testing .............................................................................................................................. 35
Tabel 2.27 Hitung Probabilitas Testing ........................................................................ 35
Tabel 3.1 Tabel Data Training dan Testing .................................................................. 38
Tabel 3.2 Tabel Confusion Matrix ................................................................................. 41
Tabel 5.1 Sebelum Diolah Sistem................................................................................... 48
Tabel 5.2 Setelah Diolah Sistem ..................................................................................... 49
Tabel 5.3 Tabel Confusion Matrix ................................................................................. 51
Tabel 5.4 Perbandingan Data Testing Terhadap Model ............................................ 54
Tabel 5.5 Batasan Frekuensi Kata................................................................................. 55
Tabel 5.6 Kata Unik Pada Tiap Kelas ........................................................................... 56
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xv
DAFTAR GAMBAR
Gambar 2.1 Model Pemerolehan Informasi (Bates, 1989). .......................................... 5
Gambar 2.2 Proses Porter Stemmer untuk Bahasa Indonesia (Tala, 2003). ............ 10
Gambar 3.1 Diagram Block Proses Klasifikasi ........................................................... 36
Gambar 4.1 Menu .......................................................................................................... 43
Gambar 4.2 Input Data ................................................................................................. 43
Gambar 4.3 Hasil Stemming ......................................................................................... 44
Gambar 4.4 Ambil File .................................................................................................. 44
Gambar 4.5 Hasil Klasifikasi ........................................................................................ 45
Gambar 4.6 Penentu Kategori Lagu ............................................................................ 45
Gambar 4.7 Akurasi Sistem .......................................................................................... 45
Gambar 4.8 Nomor Lagu .............................................................................................. 46
Gambar 4.9 Progres Sistem dan Reset ......................................................................... 46
Gambar 4.10 Isi Teks Lagu ........................................................................................... 47
Gambar 5.1 Jumlah Kata .............................................................................................. 52
Gambar 5.2 Pengujian Data Testing ............................................................................ 53
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
1
1. BAB I
PENDAHULUAN
1.1 Latar Belakang
Perkembangan teknologi yang semakin pesat membuat manusia melakukan
berbagai macam karya cipta yang baru dan inovatif. Pada dunia industri musik,
terutama pada lirik lagu yang dapat mempengaruhi terhadap perkembangan anak.
Pengawasan yang kurang dari orang tua membuat anak bebas melakukan banyak
hal baik itu bersifat hal positif maupun negatif. Tanpa disadari musik telah
mempengaruhi kehidupan sosial masyarakat khususnya untuk anak. Musik dapat
dikatakan sebagai sebuah media dalam menyampaikan pesan oleh penulis.
Dalam penelitian ini penggunaan lirik lagu sebagai acuan untuk
mengklasifikasikan lagu dalam dua kelas yaitu lagu yang baik atau tidak baik untuk
anak. Pemilihan lirik lagu sebagai acuan klasifikasi dikarenakan pada lirik lagu
terdapat kata yang mengandung suatu ungkapan perasaan atau makna tertentu yang
disampaikan oleh pembicara atau penulis untuk pendengar. Sehingga lirik lagu
dapat dijadikan sebagai salah satu acuan untuk menggali data dalam mengetahui
ketepatan akurasi dari penggunaan algoritma Naive Bayes dalam klasifikasi data
teks.
Sebelumnya pernah dilakukan penelitian mengenai oponion mining pada lirik
lagu (Shu, 2010). Penelitian tersebut adalah mengklasifikasikan lagu dengan lirik
berdasarkan kepopuleran lagu pada tahun tertentu. Pada penelitian ini
menggunakan teori Natural Language Processing. Hal berbeda pada penelitian ini,
penelitian ini pengelompokan data pada lirik lagu yang baik atau tidak baik untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
2
anak dengan menggunakan analisis sentimen terhadap hasil klasifikasi lagu yang
baik dan tidak baik. Analisis sentimen (Go & Bhayani, 2009) adalah proses
memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk
mendapatkan informasi. Analisis sentimen merupakan salah satu bagian dari
opinion mining.
Berkenaan dengan penggalian data dengan menggunakan analisis sentimen
maka digunakan metode Multinomial Naive Bayes. Klasifikasi yang akan
dilakukan dengan mengklasifikasikan data berdasarkan jumlah kemunculan kata
dalam teks lirik lagu. Kegiatan klasifikasi data pada lirik lagu ini dapat
menggunakan metode Multinomial Naive Bayes untuk mengklasifikasikan data
sehingga dapat diperoleh hasil analisis sentimen terhadap klasifikasi lagu yang baik
atau tidak baik untuk anak.
1.2 Rumusan Masalah
Berdasarkan pada latar belakang yang telah dipaparkan, perumusan masalah
akan dijabarkan sebagai berikut:
1. Bagaimana mengklasifikasikan lagu untuk analisis sentimen lagu yang baik
atau tidak baik untuk anak.
2. Bagaimana ketepatan akurasi klasifikasi data lirik lagu untuk menentukan
analisis sentimen lagu baik atau tidak untuk anak dengan menggunakan metode
Multinomial Naive Bayes.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
3
1.3 Batasan Masalah
Dalam penulisan ini batasan – batasan permasalahan yang akan dibahas yaitu:
1. Bahasa yang digunakan dalam data berupa bahasa Indonesia.
2. Klasifikasi lagu ditujukan pada anak usia 5 – 10 tahun.
1.4 Tujuan Penelitian
Tujuan penulisan ini adalah memperoleh hasil analisis sentimen
terhadap klasifikasi lagu baik atau tidak baik untuk anak dengan
menggunakan Multinomial Naive Bayes.
1.5 Metodologi Penelitian
Langkah – langkah yang digunakan untuk melakukan penelitian ini adalah
sebagai berikut:
1. Studi Pustaka
Penggunaan studi pustaka pada penelitian ini adalah untuk mencari sumber –
sumber mengenai metode Multinomial Naive Bayes untuk mengklasifikasikan
data teks.
2. Observasi
Penggunaan observasi pada penelitian adalah untuk melakukan pencarian data
teks lirik lagu dari berbagai macam situs website.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
4
3. Antarmuka
Penggunaan antarmuka pada penelitian adalah mempermudah melakukan
analisis sentimen terhadap klasifikasi lagu yang baik dan tidak baik untuk anak.
4. Pengujian
Penggunaan pengujian pada penelitian berikut adalah untuk mengukur
ketepatan akurasi klasifikasi data teks dengan menggunakan metode
Multinomial Naïve Bayes.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
5
2. BAB II
LANDASAN TEORI
2.1 Analisis Sentimen
Analisis sentimen atau opinion mining merupakan proses memahami,
mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan
informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen
dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah
masalah atau objek oleh seseorang, apakah cenderung beropini negatif atau positif.
2.2 Pemerolehan Informasi
Pemerolehan informasi atau biasa dikenal dengan Information Retrieval
mengacu pada pengambilan data terstruktur yang berisi bahasa teks alami. Data
yang dapat diolah dalam pemerolehan informasi diantaranya teks, gambar, video,
audio dan lainnya. Pemerolehan informasi fokus pada pengambilan data teks alami,
karena terdapat tekanan penting dan banyaknya data tekstual dalam internet dan
data pribadi.
DocumentDocument
RepresentationQuery
Information
Need
Matching
Gambar 2.1 Model Pemerolehan Informasi (Bates, 1989).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
6
1. Document
Document merupakan kumpulan informasi yang dibutuhkan oleh pengguna.
Pada penelitian ini data yang dimaksud adalah data teks pada lirik lagu yang
akan diklasifikasikan berdasarkan kata.
2. Document Representastion
Document representation merupakan kumpulan informasi yang telah
direpresentasikan atau diolah sesuai dengan kebutuhan yang diinginkan oleh
pengguna. Pada penelitian ini proses yang dilakukan untuk mendapatkan
document representation tersebut yaitu melalui proses indexing.
3. Query
Query merupakan proses merepresentasikan informasi yang dibutuhkan oleh
pengguna sehingga menghasilkan sebuah query. Pengertian secara umum
query merupakan interaksi antara pengguna dan komputer, sehingga
menghasilkan suatu pemahaman terhadap informasi yang dibutuhkan oleh
pengguna.
4. Information Need
Informastion need merupakan kebutuhan pengguna mengenai suatu informasi
yang belum jelas atau belum dipahami.
5. Matching
Matching merupakan sebuah proses untuk membandingkan query dengan
indexed document yang diperoleh melalui proses pencocokan. Tujuan dalam
proses matching tersebut berguna dalam menemukan data teks yang sesuai.
Hasil proses matching tersebut berupa daftar peringkat (rangking) dalam data.
Peringkat pada daftar data digunakan oleh pengguna untuk menemukan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
7
informasi yang dibutuhkan. Pada penelitian ini yang diharapkan adalah
perbandingan mengenai lagu yang akan diklasifikasikan menggunakan model
berdasarkan hasil training dengan menggunakan Multinomial Naive Bayes
sehingga hasil yang didapatkan sesuai.
2.3 Indexing
Langkah – langkah untuk membangun sebuah indeks dalam data teks menurut
Christopher dan Raghavan:
1. Tokenizing
Tokenizing merupakan proses pemisahan karakter yang muncul dalam suatu
teks
Input: Andi, mari kita berangkat sekarang Juga !
Output:
Andi mari kita berangkat sekarang juga !
Tokenizing:
Titik (.) Kurung siku ([]) Kurung kurawal ({})
Petik (“) Sign (@ _ ) Operator matematika (+ - * / = )
Titik dua (:) Kurung ( ( ) ) Karakter special ( | & ~)
Koma (,) Titik koma (;)
2. Normalization
Normalization merupakan proses menyamakan ejaan dalam sebuah teks yang
memiliki berbagai macam ejaan dengan arti atau makna yang sama. Misal, t’lah,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
8
tlah, atau Telah; pada tiga kata tersebut terdapat penulisan kata yang berbeda tetapi
memiliki makna atau arti yang sama sehingga diganti menjadi telah.
3. Stop Word
Stop word merupakan proses menghilangkan kata pada data yang tidak
memiliki arti atau makna yang mempengaruhi proses klasifikasi sehingga
mendapatkan hasil akurasi yang lebih tepat. Stop word didapat dari hasil tokenizing
dan normalization.
stop word:
abang ada adalah adik agar ah akan aku alih anak andaikan antara apabila apalagi
asalkan atas atau ayah bagai bahkan bahwa bak biar biarpun bibi cicit cucu dan
daripada demi demikian dengan di dia du engkau hanya ho hoo ialah ibarat ibu ini
ipar itu jika jikalau kakak kakek kalau kami kamu kanda karena ke kemudian
kendati kendatipun keponakan ketika la lagi lagipula laksana maka manakala
maupun melainkan menantu menjadi mereka mertua meskipun namun nenek oh
oleh om ooo pada padahal paman pun sambil sampai seakan seandainya sebab
sebagai sebagaimana sebelum sedangkan sedari sehingga sehubungan sejak sekali
sekalipun sekiranya selagi selain selama selesai semenjak sementara seolah seperti
sepupu seraya serta sesudah setelah setelah seusai sewaktu sungguh sungguhpun
supaya tanpa tante tatkala tetapi tidak umpamanya untuk walau walaupun yaitu
yakni yang
4. Stemming
Stemming merupakan proses menghilangkan kata imbuhan pada setiap kata
seperti awalan, akhiran, dan sisipan sehingga diperoleh kata dasar. Dalam proses
stemming digunakan algortima porter untuk menentukan kata dasar.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
9
5. Sorting dan Grouping
Proses sorting dan grouping akan dilakukan setelah stemming dilakukan.
Data yang diperoleh akan diurutkan mulai dari abjad a sampai dengan z.
2.4 Porter Stemmer
2.4.1 Tentang Porter Stemmer
Porter Stemmer (Porter, 2006) merupakan sebuah algoritma yang digunakan
untuk melakukan proses menghapus akhiran infeksional dan morfologi yang umum
pada kata dalam Bahasa Inggris. Terutama, penggunaan porter stemmer sebagai
proses normalisasi pada kata yang biasa digunakan pada saat membangun sebuah
pemerolehan informasi (Information retrieval).
Algoritma porter stemmer didasarkan pada ide akhiran dalam Bahasa Inggris,
secara umum terdiri dari kombinasi akhiran yang sederhana. Proses pada algoritma
porter stemmer akan melalui beberapa tahapan, simulasi proses infleksional dan
derivasional pada sebuah kata.
Pada tahapan tersebut, sebuah akhiran dihapus melalui aturan subsitusi, aturan
subsitusi menerapkan pada suatu kondisi harus terpenuhi secara keseluruhan.
Dalam suatu kondisi kata dasar yang diakhiri dengan huruf mati maupun huruf
hidup, maka panjang pada kata dasar yang telah dihasilkan disebut dengan measure.
2.4.2 Porter Stemmer Bahasa Indonesia
Dalam Bahasa Indonesia terdapat sebuah kombinasi pada struktur yaitu
infleksional dan derivasional yang sederhana. Tahap – tahap dalam porter stemmer
adalah simulasi proses pada infleksional dan derivasional dalam Bahasa Inggris
cocok pada Bahasa Indonesia.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
10
Penggunaan bahasa yang berbeda tersebut adalah sangat berbeda sehingga
terdapat aturan tersendiri pada penggunaan algoritma porter stemmer untuk Bahasa
Indonesia. Aturan untuk Bahasa Indonesia diantaranya, menghilangkan awalan,
konflik, dan peneyesuaian ejaan pada kasus, dimana pada karakter awal pada
sebuah kata dasar dapat berubah pada saat penambahan awalan dilakukan.
Remove Particle
Remove Possessive
Remove First Order Prefix
Remove Second Order Prefix Remove Suffix
Remove Suffix Remove Second Order Prefix
Word
Stem
Gambar 2.2 Proses Porter Stemmer untuk Bahasa Indonesia (Tala, 2003).
Tabel 2.1 Aturan 1 Inflection Particle.
Akhiran Replacement Measure
Conditional
Additional
Conditional
-kah NULL 2 NULL pensilkah pensil
-lah NULL 2 NULL janganlah jangan
-pun NULL 2 NULL pensilpun pensil
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
11
Tabel 2.2 Aturan 2 Inflection Possessive Pronouns.
Akhiran Replacement Measure
Conditional
Additional
Conditional
-ku NULL 2 NULL pensilku pensil
-mu NULL 2 NULL bukumu buku
-nya NULL 2 NULL pensilnya pensil
Tabel 2.3 Aturan 3 Fisrt Order of Derivational Prefixs.
Awalan Replacement Measure
Conditional
Additional
Conditional
meng- NULL 2 NULL menggali gali
meny- NULL 2 NULL menyapa apa
men- NULL 2 NULL mencuri curi
mem- NULL 2 NULL membaca baca
me- NULL 2 NULL menulis tulis
peng- NULL 2 NULL penggali gali
peny- NULL 2 NULL penyayang sayang
pen- NULL 2 NULL pencuri curi
pem- NULL 2 NULL pembawa bawa
di- NULL 2 NULL dicuri curi
ter- NULL 2 NULL tercuri curi
ke- NULL NULL kepada pada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
12
Tabel 2.4 Aturan 4 Second Order of Derivational Prefixs.
Awalan Replacement Measure
Conditional
Additional
Conditional
ber- NULL 2 NULL berlutut lutut
Bel NULL 2 NULL belajar ajar
Be NULL 2 NULL bekerja kerja
Per NULL 2 NULL perjelas jelas
pel- NULL 2 NULL pelajar ajar
pe- NULL 2 NULL penulis tulis
Tabel 2.5 Aturan 5 Derivational Suffixes.
Akhiran Replacement Measure
Conditional
Additional
Conditional
-kan NULL 2 Awalan ϵ
{ke, peng}
tuliskan tulis
carikan cari
-an NULL 2 Awalan ϵ
{di, meng,
ter}
(per)janjian janji
minuman minum
-i NULL 2 V|K…𝑐1𝑐1,
𝑐1 ≠ s, 𝑐2≠ i,
dan awalan ϵ
curangi curang
(men)jalani jalan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
13
{ber, ke,
peng}
Tabel 2.6 Aturan 6 Suku Kata dalam Bahasa Indonesia
Akhiran Replacement Measure Conditional
0 Kh, ng, ny Kh, ng, ny
1 Ma, af, nya, nga Ma, af, nya, nga
2 Maaf, kami, rumpun, kompleks Ma-af, ka-mi, rum-pun, kom-pleks
3 Mengapa, menggunung, tandai Meng-apa, meng-gu-nung, tan-da-i
2.5 Klasifikasi Teks
Banyak kebutuhan pengguna dalam berbagai macam aplikasi dalam
menggunakan pengklasifikasian teks, misalnya dalam data teks yang datanya terus
bertambah. Klasifikasi teks kata masuk pada golongan supervised dikarenakan
merupakan proses pembentukan golongan atau kelas dari data teks berdasarkan
golongan atau kelas yang sesuai dengan kebutuhan.
Klasifikasi teks merupakan suatu proses pengklasifikasian terhadap suatu
data teks dengan membagi menjadi beberapa bagian kelas yang berbeda. Proses
klasifikasi tersebut akan melalui beberapa tahapan reprocessing untuk mendapatkan
data yang dibutuhkan oleh pengguna sehingga proses klasifikasi memiliki tingkat
akurasi yang tinggi. Penggunaan klasifikasi pada teks biasanya dapat digunakan
pada beberapa data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
14
2.6 Naive Bayes
Naïve bayes (Tan & Kumar, 2006) merupakan salah satu metode yang
digunakan untuk pengklasifikasian sebuah data dengan berdasarkan teorema bayes
dengan mengasumsikan bahwa suatu data memiliki sifat tidak saling terkait antar
satu dengan yang lain atau disebut independen. Teknik penggunaan Naive Bayes
sangat sederhana dan cepat dengan penggunaan probabilistik. Untuk
memaksimalkan penggunaan dari metode Naive Bayes maka digunakan metode
Multinomial Naive Bayes.
2.7 Multinomial Naive Bayes
Multinomial Naive Bayes merupakan proses pengambilan jumlah kata yang
muncul dalam setiap dokumen, dengan mengasumsikan dokumen memiliki
beberapa kejadian dalam kata dengan panjang yang tidak tergantung dari kelasnya
dalam dokumen. Menurut (Manning, Raghavan, & Schutze, 2008), probabilitas
sebuah dokumen d berada dikelas c, kondisi berikut dapat dinyatakan dengan
rumus:
𝑃 (𝑐|𝑑) ∝ 𝑃 (𝑐) ∏ 𝑃(𝑡𝑘|𝑐)1≤𝑘≤𝑛𝑑 (1)
P(tk|c) merupakan conditional probabilitas dari kata 𝑡𝑘 yang terdapat dalam sebuah
dokumen dari kelas c.
P(c) merupakan prior probabilitas dari sebuah dokumen yang terdapat dalam kelas
c.
(t1, t2, …, tnd) merupakan token dalam dokumen d yang merupakan bagian dari
vocabulary yang digunakan sebagai klasifikasi dan merupakan jumlah token dalam
dokumen d.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
15
Untuk memperkirakan prior probability 𝑃 ̂(𝑐)dinyatakan dengan rumus:
𝑃(𝑐) = 𝑁𝑐
𝑁 (2)
𝑁𝑐 = jumlah dokumen training dalam kelas c.
𝑁 = jumlah keseluruhan dokumen training dari seluruh kelas.
Untuk perkiraan conditional probability 𝑃 ̂(𝑡|𝑐) dinyatakan dengan rumus:
𝑃(𝑡|𝑐) = 𝑇𝑐𝑡
∑ 𝑡′∈𝑉 𝑇𝑐𝑡 (3)
𝑇𝑐𝑡 = jumlah kemunculan kata t dalam sebuah dokumen training pada kelas c.
𝑇𝑐𝑡
∑ 𝑡′∈𝑉 𝑇𝑐𝑡 = jumlah total keseluruhan kata dalam dokumen training pada kelas c.
𝑡′ = jumlah total kata dalam dokumen training
Untuk menghilangkan nilai nol pada sebuah dokumen, digunakan laplace
smoothing sebagai proses penambahan nilai 1 pada setiap nilai Tct pada perhitungan
conditional probabilities dan dinyatakan dengan rumus:
𝑃(𝑡𝑃𝑡𝑘|𝑐) = 𝑇𝑐𝑡+1
∑ 𝑡′∈𝑉 𝑇𝑐𝑡 + 𝐵′ (4)
𝐵′ = total kata unik pada keseluruhan kelas dalam dokumen training
Untuk memperoleh nilai probabilitas yang tinggi dari setiap kata digunakan laplace
smoothing atau add-one, laplace smoothing digunakan agar nilai dari probabilitas
masing – masing kata dapat memenuhi syarat yaitu tidak sama dengan 0. Jika nilai
dari probabilitas kata adalah 0 maka data baik training maupun testing tidak akan
pernah cukup untuk mewakili frekuensi saat terdapat kejadian langka.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
16
2.8 Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks
2.9.1 Data Training
Data training merupakan kumpulan dokumen yang dijadikan sebuah data
percobaan untuk menghasilkan sebuah model, data yang diuji sebagai berikut:
Aku adalah anak gembala
Selalu riang serta gembira
Karena aku senang bekerja
Tak pernah malas ataupun lengah
Tralala la la la la
Tralala la la la la la la
Setiap hari ku bawa ternak
Ke padang rumput, di kaki bukit
Rumputnya hijau subur dan
banyak
Ternakku makan tak pernah
sdikit
Tralala la la la la
Tralala la la la la la la
Aku seorang Kapiten
mempunyai pedang panjang
Kalau berjalan prok-prok-prok
Aku seorang Kapiten
Akan kuingat selalu
Ade irma suryani
Waktu dipeluk dipangku ibu
Dengan segala kasih
Kini ia terbaring dipangkuan
tuhan
Senang dan bahagia hatinya
Kini ia terlena tertidur terbaring
Nyenyak dipelukan tuhannya
Baik
Isi DokumenKategori
Aku ini anak manja
kusendiri di rumah saja
tiap hari kubernyanyi
lagunya sesuka hati
Ayah ibu kaya raya
apa saja yang kuminta
semuanya tersedia
Aku makan tiga kali
maksakannya enak sekali
pakaianku tiga almari
serba mewah, warna warni
Tidak Baik
Akankah kau melihatku
Saat ku jauh
Akankah kau merasakan
Kehilanganku
Jiwaku yang telah mati
Bukan cintaku
Janjiku s'lalu abadi
Hanya milikmu
Aku pergi dan takkan kembali
Akhir dari cinta yang abadi
Akankah kau melihatku
Di akhir nanti
Jiwaku yang telah mati
Bukan cintaku
Janjiku s'lalu abadi
Hanya untukmu
Aku pergi dan takkan kembali
Air mata untuk yang abadi
Aku pergi ke alam yang suci
Akhir dari abadi cintaku
Aku pergi ke alam yang abadi
Akhir dari cinta yang abadi
Ada yang bergerak di dalam
dadaku ini
Seperti ku kenal pernah
kurasakan
Waktu aku jatuh cinta
Waktu hatiku tertarik
Rasanya pun begini
Jatuh cinta
Apakah ini sama seperti yang itu
Hatiku bergerak
Aku jatuh cinta
Dinding hatiku berlagu
Harmoni cinta menyentuh
Pipiku pun merona
Jatuh cinta
Harmoni cintaku kini datang
Nyanyikan suara hatiku
Berlagu penuh cinta
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
17
1) Tokenizing
Tabel 2.7 Tokenizing Training
Kata Tokenizing
Baik Tidak Baik Baik Tidak Baik
aku akankah aku akankah
adalah kau adalah kau
anak melihatku anak melihatku
gembala saat gembala saat
selalu ku selalu ku
riang jauh riang jauh
serta akankah serta akankah
gembira kau
gembira kau
karena merasakan karena merasakan
aku kehilanganku aku kehilanganku
senang jiwaku senang jiwaku
bekerja yang bekerja yang
tak mati tak mati
pernah bukan pernah bukan
malas cintaku malas cintaku
ataupun janjiku ataupun janjiku
lengah s'lalu lengah s'lalu
tralala abadi tralala abadi
la hanya la hanya
la milikmu la milikmu
la aku la aku
la pergi la pergi
tralala dan tralala dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
18
2) Normalization
Tabel 2.8 Normalization Training
Tokenizing Normalization
Baik Tidak Baik Baik Tidak Baik
aku akankah aku akankah
adalah kau adalah kau
anak melihatku anak melihatku
gembala saat gembala saat
selalu ku selalu ku
riang jauh riang jauh
serta akankah serta akankah
gembira kau
gembira kau
karena merasakan karena merasakan
aku kehilanganku aku kehilanganku
senang jiwaku senang jiwaku
bekerja yang bekerja yang
tak mati tak mati
pernah bukan pernah bukan
malas cintaku malas cintaku
ataupun janjiku ataupun janjiku
lengah s'lalu lengah s'lalu
tralala abadi tralala abadi
la hanya la hanya
la milikmu la milikmu
la aku la aku
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
19
3) Stop Word
Tabel 2.9 Stop Word Training
Normalization Stopword
Baik Tidak Baik Baik Tidak Baik
aku akankah gembala akankah
adalah kau selalu kau
anak melihatku riang melihatku
gembala saat gembira saat
selalu ku senang ku
riang jauh bekerja jauh
serta akankah tak akankah
gembira kau
pernah kau
karena merasakan malas merasakan
aku kehilanganku ataupun kehilanganku
senang jiwaku lengah jiwaku
bekerja yang tralala mati
tak mati tralala bukan
pernah bukan setiap cintaku
malas cintaku hari janjiku
ataupun janjiku ku s'lalu
lengah s'lalu bawa abadi
tralala abadi ternak hanya
la hanya ke milikmu
la milikmu padang pergi
la aku rumput takkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
20
4) Stemming
Tabel 2.10 Stemming Training
Stopword Stemming
Baik Tidak Baik Baik Tidak Baik
gembala akankah gembala akan
selalu kau selalu kau
riang melihatku
riang saat
gembira saat gembira ku
senang ku senang jauh
bekerja jauh kerja akan
tak akankah tak kau
pernah kau
pernah rasa
malas merasakan malas jiwa
ataupun kehilanganku atau mati
lengah jiwaku lengah bukan
tralala mati hari cinta
tralala bukan ku janji
setiap cintaku bawa lalu
hari janjiku ternak abadi
ku s'lalu ke hanya
bawa abadi padang milik
ternak hanya rumput pergi
ke milikmu kaki tak
padang pergi bukit kembali
rumput takkan rumput akhir
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
21
5) Daftar Kata beserta Frekuensi Kata
Kumpulan kata pada tabel 2.10 kemudian disusun kedalam satu kolom dan
dihitung frekuensi kata kemunculan masing – masing dokumen.
Tabel 2.11 Daftar Kata beserta Frekuensi Kata Training
Stemming Daftar Kata Beserta Frekuensi Kata
Baik Tidak Baik
gembala akan Kata
Frekuensi Kata
selalu kau Baik Tidak Baik
riang saat gembala 1 0
gembira ku selalu 1 0
senang jauh riang 1 0
kerja akan gembira 1 0
tak kau senang 1 0
pernah rasa
kerja 1 0
malas jiwa tak 1 0
atau mati pernah 1 0
lengah bukan malas 1 0
hari cinta atau 1 0
ku janji lengah 1 0
bawa lalu hari 1 0
ternak abadi ku 1 0
ke hanya bawa 1 0
padang milik ternak 1 0
rumput pergi ke 1 0
kaki tak padang 1 0
bukit kembali rumput 1 0
rumput akhir kaki 1 0
bukit 1 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
22
6) Hasil Sorting secara Ascending
Tabel 2.12 Hasil Sorting secara Ascending Training
Daftar Kata Beserta
Frekuensi Kata
Hasil Sorting Secara
Ascending
Kata
Frekuensi Kata
Kata
Frekuensi Kata
Baik Tidak Baik Baik Tidak Baik
gembala 1 0 abadi 0 1
selalu 1 0 abadi 0 1
riang 1 0 abadi 0 1
gembira 1 0 abadi 0 1
senang 1 0 abadi 0 1
kerja 1 0
abadi 0 1
tak 1 0 abadi 0 1
pernah 1 0 ade 1 0
malas 1 0 air 0 1
atau 1 0 akan 0 1
lengah 1 0 akan 0 1
hari 1 0 akan 0 1
ku 1 0 akhir 0 1
bawa 1 0 akhir 0 1
ternak 1 0 akhir 0 1
ke 1 0 akhir 0 1
padang 1 0 alam 0 1
rumput 1 0 apa 0 1
kaki 1 0 apakah 0 1
bukit 1 0 atau 1 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
23
7) Hasil Grouping dengan Kata yang Sama
Setelah proses sorting pada tabel 2.12, dapat dilihat kata yang sama sehingga
kata yang sama dapat digabungkan seperti pada tabel berikut:
Tabel 2.13 Hasil Grouping dengan Kata yang Sama Training
Hasil sorting secara
ascending
Hasil Grouping berdasarkan
kata yang sama
Kata
Frekuensi kata
Kata
Frekuensi kata
Baik Tidak Baik Baik Tidak Baik
abadi 0 1 abadi 0 7
abadi 0 1 ade 1 0
abadi 0 1 air 0 1
abadi 0 1 akan 0 3
abadi 0 1 akhir 0 4
abadi 0 1
alam 0 1
abadi 0 1 apa 0 1
ade 1 0 apakah 0 1
air 0 1 atau 1 0
akan 0 1 bahagia 1 0
akan 0 1 banyak 1 0
akan 0 1 baring 2 0
akhir 0 1 bawa 1 0
akhir 0 1 begini 0 1
akhir 0 1 bukan 0 2
akhir 0 1 bukit 1 0
alam 0 1 cinta 0 12
apa 0 1 dada 0 1
apakah 0 1 dalam 0 1
atau 1 0 dari 0 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
24
8) Prior Probabilitas
Tabel 2.14 Prior Probabilitas Training
Atribut kelas P(class)
Lagu Baik 3/6
Lagu Tidak Baik 3/6
9) Conditional Probabilitas
Tabel 2.15 Conditional Probabilitas Training
Conditional probabilitas (P(t|c) Laplace Smoothing
Kata Baik Tidak Baik
Kata Baik Tidak Baik
abadi 0 0.039106145 abadi 8.474576271 44.69273743
ade 0.008 0 ade 16.94915254 5.586592179
air 0 0.005586592 air 8.474576271 11.17318436
akan 0 0.016759777 akan 8.474576271 22.34636872
akhir 0 0.022346369 akhir 8.474576271 27.93296089
alam 0 0.005586592 alam 8.474576271 11.17318436
apa 0 0.005586592
apa 8.474576271 11.17318436
apakah 0 0.005586592 apakah 8.474576271 11.17318436
atau 0.008 0 atau 16.94915254 5.586592179
bahagia 0.008 0 bahagia 16.94915254 5.586592179
banyak 0.008 0 banyak 16.94915254 5.586592179
baring 0.017 0 baring 25.42372881 5.586592179
bawa 0.008 0 bawa 16.94915254 5.586592179
begini 0 0.005586592 begini 8.474576271 11.17318436
bukan 0 0.011173184 bukan 8.474576271 16.75977654
bukit 0.008 0 bukit 16.94915254 5.586592179
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
25
2.9.2 Data Testing
Data testing merupakan data yang digunakan sebagai uji coba terhadap
model yang terbentuk dari data training dengan data sebagai berikut:
Hati hati dengan hatiku
Karna hatiku mudah layu
Jangan kamu bermain-main
Karna kutak’ main-main
Sungguh aku bersungguh-sungguh
Cintaku ini cinta mati
Mati-matian aku
Pertahankan cintaku
Aku takkan rela...bila kau tinggalkan
Aku kan berbuat...apa saja
Untuk mendapatkan kamu lagi
Rupa rupa alasan kamu
Untuk tetap tinggalkan aku
Rupanya kamu memang
Sudah tak cinta aku
Cintamu yang berbisa
Bisa racuni aku
Bisa-bisanya kamu mau tinggalkan aku
?
Isi DokumenKategori
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
26
1) Tokenizing
Tabel 2.16 Tokenizing Testing
Kata Tokenizing
Hati Hati
hati hati
dengan dengan
hatiku hatiku
Karna
Karna
hatiku hatiku
mudah mudah
layu layu
Jangan
Jangan
kamu kamu
bermain bermain
- main
main Karna
Karna kutak’
kutak’ main
main main
- Sungguh
main aku
Sungguh bersungguh
aku sungguh
bersungguh Cintaku
- ini
sungguh cinta
Cintaku mati
ini Mati
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
27
2) Normalization
Tabel 2.17 Normalization Testing
Tokenizing Normalization
Hati hati
hati hati
dengan dengan
hatiku hatiku
Karna karna
hatiku hatiku
mudah mudah
layu layu
Jangan
jangan
kamu kamu
bermain bermain
main main
Karna karna
kutak’ kutak’
main main
main main
Sungguh sungguh
aku aku
bersungguh bersungguh
sungguh sungguh
Cintaku cintaku
ini ini
cinta cinta
mati mati
Mati mati
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
28
3) Stop Word
Tabel 2.18 Stop Word Testing
Normalization Stopword
hati hati
hati hati
dengan hatiku
hatiku karna
karna hatiku
hatiku mudah
mudah layu
layu jangan
jangan
bermain
kamu main
bermain karna
main kutak’
karna main
kutak’ main
main bersungguh
main sungguh
sungguh cintaku
aku cinta
bersungguh mati
sungguh mati
cintaku matian
ini pertahankan
cinta cintaku
mati takkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
29
4) Stemming
Tabel 2.19 Stemming Testing
Stopword Stemming
hati hati
hati hati
hatiku hati
karna hati
hatiku mudah
mudah layu
layu jangan
jangan main
bermain main
main main
karna main
kutak’ sungguh
main sungguh
main cinta
bersungguh cinta
sungguh mati
cintaku mati
cinta tahan
mati cinta
mati tak
matian rela
pertahankan bila
cintaku kau
takkan tinggal
rela kan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
30
5) Daftar Kata Beserta Frekuensi Kata
Tabel 2.20 Daftar Kata beserta Frekuensi Kata Testing
Stemming Daftar Kata Beserta Frekuensi
Kata
Hati Kata Frekuensi Kata
hati apa 1
hati bila 1
hati bisa 1
mudah bisa 1
layu bisa 1
jangan bisa 1
main buat 1
main cinta 1
main cinta 1
main cinta 1
sungguh cinta 1
sungguh cinta 1
cinta dapat 1
cinta hati 1
mati hati 1
mati hati 1
tahan hati 1
cinta jangan 1
tak kan 1
rela kau 1
bila layu 1
kau main 1
tinggal main 1
kan main 1
buat main 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
31
6) Hasil Sorting secara Ascending
Tabel 2.21 Hasil Sorting secara Ascending Testing
Daftar kata beserta frekuensi
katanya Hasil sorting secara ascending
Kata Frekuensi kata Kata Frekuensi kata
apa 1 apa 1
bila 1 bila 1
bisa 1 bisa 4
bisa 1 buat 1
bisa 1 cinta 5
bisa 1 dapat 1
buat 1 hati 4
cinta 1
jangan 1
cinta 1 kan 1
cinta 1 kau 1
cinta 1 layu 1
cinta 1 main 4
dapat 1 mati 3
hati 1 mau 1
hati 1 memang 1
hati 1 mudah 1
hati 1 rela 1
jangan 1 rupa 3
kan 1 saja 1
kau 1 sungguh 2
layu 1 tahan 1
main 1 tak 2
main 1 tetap 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
32
7) Hasil Grouping dengan Kata yang Sama
Tabel 2.22 Hasil Grouping dengan Kata yang Sama Testing
Hasil Sorting Secara Ascending Hasil Grouping Berdasarkan Kata
Yang Sama
Kata Frekuensi Kata Kata Frekuensi Kata
apa 1 apa 1
bila 1 bila 1
bisa 4 bisa 4
buat 1 buat 1
cinta 5 cinta 5
dapat 1 dapat 1
hati 4 hati 4
jangan 1
jangan 1
kan 1 kan 1
kau 1 kau 1
layu 1 layu 1
main 4 main 4
mati 3 mati 3
mau 1 mau 1
memang 1 memang 1
mudah 1 mudah 1
rela 1 rela 1
rupa 3 rupa 3
saja 1 saja 1
sungguh 2 sungguh 2
tahan 1 tahan 1
tak 2 tak 2
tetap 1 tetap 1
tinggal 3
tinggal 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
33
8) Prior Probabilitas
Tabel 2.23 Prior Probabilitas Testing
Prior Porbabilitas
Atribut Kelas P(Class)
Baik 1/2
Tidak Baik 1/2
9) Hasil Proses Matching antara Model dengan Data Testing
Tabel 2.24 Hasil Proses Matching antara Model dengan Data Testing
Hasil Proses Matching
antara Model dengan Data
Testing
Kata Frekuensi Kata
apa 1
cinta 5
hati 4
kau 1
mati 3
saja 1
tak 2
… …
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
34
10) Hasil Matching beserta dengan Nilai Conditional Probabilitas
Setelah proses hasil matching antara model beserta dengan nilai conditional
probabilitas-nya, frekuensi kata akan digabungkan dengan nilai conditional
probabilitas-nya.
Tabel 2.25 Hasil Matching beserta dengan Nilai Conditional Probabilitas
Testing
Hasil Matching beserta dengan Nilai Conditional Probabilitas-nya
kata Frekuensi kata Baik Tidak Baik
apa 1 8.474576271 11.17318436
cinta 5 8.474576271 72.62569832
hati 4 16.94915254 27.93296089
kau 1 8.474576271 22.34636872
mati 3 8.474576271 16.75977654
saja 1 8.474576271 16.75977654
tak 2 25.42372881 16.75977654
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
35
11) Hasil Perkalian Nilai Conditional Probabilitas dengan Frekuensi Kata
Tabel 2.26 Hasil Perkalian Nilai Conditional Probabilitas dengan Frekuensi
Kata Testing
Hasil Perkalian Nilai Conditional Probabilitas Dengan Frekuensi Kata
Kata Baik Tidak Baik
apa 8.474576271 11.17318436
cinta 43710.92162 2020466279
hati 82526.22002 608790.5374
kau 8.474576271 22.34636872
mati 608.6308727 4707.655467
saja 8.474576271 16.75977654
tak 646.3659868 280.8901095
Total 8.63711E+17 6.80633E+24
12) Hitung Probabilitas
Untuk menghitung nilai probabilitas dari data testing diperlukan perkalian
antara nilai prior probabilitas dengan hasil perkalian antara nilai contiditional
probabilitas dengan frekuensi kata sehingga didapat hasil sebagai berikut:
Tabel 2.27 Hitung Probabilitas Testing
Hitung probabilitas
P(Baikllagu7) 4.31855E+17
P(Tidak Baikllagu7) 3.40316E+24
Dari hasil perhitungan diatas dapat disimpulkan bahwa lagu7 kata masuk
pada klasifikasi lagu yang tidak baik untuk anak dengan nilai 3.40316E+24 yang
telah melalui proses terhadap data training.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
36
3. BAB III
PERANCANGAN SISTEM
3.1 Gambaran Umum Sistem
Sistem yang dibangun dalam penelitian ini adalah sistem pengujian akurasi
dari penggunaan metode Multinomial Naïve Bayes pada klasifikasi data teks lirik
lagu. Lirik lagu yang digunakan adalah lirik lagu dari beberapa situs website salah
satunya adalah lirik.kapanlagi.com dan liriklaguanak.com. Proses klasifikasi yang
akan dilakukan pada sistem ini menggunakan metode Multinomial Naïve Bayes
sebagai klasifikasi.
User dalam sistem ini adalah pihak yang menggunakan sistem. Data yang
digunakan dalam penelitian adalah data dengan format ekstensi *.txt yang diimport
dari direktori kemudian hasil teks akan dieksekusi kedalam proses indexing. Proses
klasifikasi tersebut dapat dilihat pada Gambar 3.1.
Data Training Tentukan Kategori Tokenazing Normalization Stop Word StemmingSorting dan
Grouping
Indexing
Hitung Prior
Porbabilitas
Hitung Conditional
ProbabilitesLaplace Smoothing
Training
Data Testing Tokenazing Normalization Stop Word StemmingSorting dan
Grouping
Indexing
Matching
Pangkatkan Nilai
Conditional
Probabilites
Hitung Probabilitas
Tiap Kelas
Testing
Hasil Klasifikasi
Model
Index
Index
Classification
Modelling
Gambar 3.1 Diagram Block Proses Klasifikasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
37
Pada Gambar 3.1 proses indexing menghasilkan kumpulan kata beserta nilai
frekuensi kata dari masing - masing yang telah diseleksi. Kumpulan kata ini akan
diolah menggunakan metode Multinomial Naïve Bayes sehingga menghasilkan
model yang digunakan untuk proses klasifikasi.
Proses klasifikasi, akan melalui proses indexing yang sama pada proses
training tanpa diketahui kelas atau kategorinya yang menghasilkan kumpulan kata.
Hasil kumpulan kata digunakan untuk proses matching agar mendapatkan daftar
kata yang sama pada kumpulan kata dan data model. Hasil proses matching
digunakan untuk melakukan klasifikasi menggunakan metode Multinomial Naïve
Bayes.
3.2 Teknik Analisis Data
3.2.1 Metode Pengumpulan Data
Data yang diperoleh merupakan data yang melalui beberapa tahapan.
Adapaun tahapan yang dilalui untuk melakukan pengumpulan data dalam penelitian
ini sebagai berikut:
1. Studi Pustaka
Penggunaan studi pustaka pada penelitian ini adalah untuk mencari sumber –
sumber mengenai metode Multinomia Naive Bayes untuk mengklasifikasikan
data teks.
2. Observasi
Penggunaan observasi pada penelitian adalah untuk melakukan pencarian
data teks lirik lagu dari berbagai macam situs website.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
38
3. Wawancara
Metode wawancara digunakan untuk pengelompokan data sebagai acuan
pemberian label terhadap data dari seorang ahli. Dalam kasus penelitian ahli
dipilih dari dosen psikologi untuk menentukan klasifikasi data yang baik dan
tidak baik untuk anak.
3.2.1 Pengolahan Data
Dalam penelitian data yang digunakan sebanyak 500. Data yang digunakan
diperoleh melalui beberapa situs website. Pembagian data dapat dilihat pada tabel
3.1 berikut:
Tabel 3.1 Tabel Data Training dan Testing
Jumlah Data
Data Training Data Testing
Klasifikasi
Lagu Baik 200 50
Lagu Tidak Baik 200 50
Total 400 100
Sebanyak 400 data sebagai data training akan melalui tahap preprocessing
untuk mendapatkan sebuah model dan 100 data sebagai data testing akan melalui
tahap preprocessing untuk mencocokan data testing dengan model untuk
mengetahui hasil klasifikasi. Sampai pada akhirnya perhitungan akurasi dengan
menggunakan confusion matrix.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
39
3.2.2 Preprocessing Data
Preprocessing akan dilalui oleh data sebelum proses klasifikasi. Proses ini
dilakukan untuk meminimalisir permasalahan yang timbul dalam data diantaranya
mengurangi jumlah kata yang tidak berarti atau tidak memiliki makna dalam data
dalam dokumen. Proses yang berlangsung pada setiap data dilakukan melalui
tahapan sebagai berikut :
1) Tokenizing
Tahapan ini, menghilangkan karakter yang tidak memiliki arti pada kumpulan
kata.
2) Normalization
Tahapan ini, mengembalikan bentuk kata dari huruf besar menjadi huruf kecil.
3) Stop Word
Tahapan ini, menghilangkan kata yang tidak memiliki arti atau tidak
mempengaruhi pemerolehan informasi.
4) Stemming
Tahapan ini, mengembalikan bentuk kata menjadi bentuk kata dasar
5) Sorting dan Grouping
Tahapan ini, mengurutkan kata dari abjad a sampai z serta menggabungkan kata
yang sama.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
40
3.2.3 Klasifikasi Data
Proses klasifikasi data yang telah melalui tahapan menghitung frekuensi kata
yang akan diklasifikasikan berdasarkan klasifikasi yang telah ditentukan.
Klasifikasi data ini menggunakan metode Multinomial Naïve Bayes, adapun
tahapan dalam proses klasifikasi data adalah sebagai berikut :
1. Menghitung Prior Probabilitas
Pada proses ini , hitung prior probabilitas pada data training dalam kelas
dengan menggunakan rumus:
𝑷(𝒄) = 𝑵𝒄𝑵
2. Menghitung Conditional Probabilitas
Pada proses ini , hitung nilai conditional probabilitas pada setiap data baik data
training atau testing dengan menggunakan rumus berikut:
𝑷(𝒕|𝒄) = 𝑻𝒄𝒕
∑ 𝒕′ ∈ 𝑽 𝑻𝒄𝒕
Untuk menghilangkan nilai nol pada sebuah dokumen, digunakan laplace
smoothing sebagai proses penambahan nilai 1 pada setiap nilai Tct pada
perhitungan conditional probabilities dan dinyatakan dengan rumus:
𝑷(𝒕𝑷𝒕𝒌|𝒄) = 𝑻𝒄𝒕 + 𝟏
∑ 𝒕′ ∈ 𝑽 𝑻𝒄𝒕 + 𝑩′
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
41
3. Hasil proses matching antara model dan data testing
Pada proses ini, untuk data testing akan dicari hasil matching melalui
pengecekan ada atau tidak kata yang dicari pada model.
4. Hasil matching beserta dengan nilai conditional probabilitas-nya
Pada proses ini, setelah proses matching antara model dan data testing maka
nilai dari kata yang sama pada data testing dan model, maka nilai dari kata
pada model akan diambil dan dimasukkan dalam data testing.
5. Hasil perkalian conditional probabilitas dengan frekuensi kata
Pada proses ini, nilai yang diperoleh dari masing – masing kata pada data
testing akan dipangkatkan sesuai dengan jumlah frekuensi kata yang dicari.
3.3 Akurasi Data
Confusion matrix (Paskianti, 2011) adalah sebuah tabel yang menyatakan
jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah
diklasifikasikan. Confusion matrix ditunjukan pada tabel berikut:
Tabel 3.2 Tabel Confusion Matrix
Kelas Prediksi
1 0
Kelas
sebenarnya
1 TP FN
0 FP TN
tp (True positive) : jumlah dokumen dari kelas 1 yang benar diklasifikasikan sebagai
kelas 1
tn (True negative) : jumlah dokumen dari kelas 0 yang benar diklasifikasikan
sebagai kelas 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
42
fp (False positive) : jumlah dokumen dari kelas 0 yang salah diklasifikasikan
sebagai kelas 1
fn(False negative) : jumlah dokumen dari kelas 1 yang salah diklasifikasikan
sebagai kelas 0
Perhitungan akurasi dinyatakan dalam persamaan berikut:
𝑨𝒌𝒖𝒓𝒂𝒔𝒊 = 𝑻𝑷 + 𝑻𝑵
𝑻𝑷 + 𝑭𝑵 + 𝑭𝑷 + 𝑻𝑵 𝒙 𝟏𝟎𝟎%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
43
4. BAB IV
IMPLEMENTASI
4.1 Antarmuka Menu
LIRIK LAGU
ANALISIS SENTIMEN
PADA LIRIK LAGU
MENGGUNAKAN METODE MULTINOMIAL NAÏVE BAYES
GAMBAR
LOGO
Lagu Baik
Lagu Tidak Baik
Total TF Lagu Baik
Total TF Lagu Tidak Baik
Jumlah Kata Unik dalam
Keseluruhan Dokumen
P(Baik|Data Testing)
P(Tidak Baik|Data Testing)
Apakah lirik dari lagu tersebut baik untuk anak ?
Nama : Elsa Rika .O.
NIM : 115314079
Tujuan pembuatan aplikasi ini adalah membantu klasifikasi data teks dengan menggunakan metode
Multinomial Naïve Bayes guna mempermudah analisis sentimen lagu yang baik atau tidak baik bagi anak
BROWSE
200
200
PROSES
0
0
0
0
%
%
GAMBAR
AKURASI
50L.Baik Test
LT.Baik Test 50
0% RESET
0%
Baik Tdk Baik
0 0
Gambar 4.1 Menu
Gambar diatas merupakan tampilan menu utama dari sistem, tampilan sistem
ini mencakup keseluruhan bagian mulai dari input data training, klasifikasi lagu
data testing sampai dengan akurasi sistem.
4.2 Antarmuka Training
Lagu Baik
Lagu Tidak Baik
Proses
Gambar 4.2 Input Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
44
Gambar diatas merupakan sebuah tampilan untuk menginputkan data yang
akan diolah. Data yang diolah merupakan data training dengan jumlah data
maksimal yang telah ditentukan. Masing – masing klasifikasi merupakan data lagu
yang tidak baik dengan jumlah data maksimal 200 data dan lagu yang tidak baik
maksimal sebanyak 200 data. Pengguna dapat memasukkan data sesuai keinginan
dengan jumlah data yang sama pada masing - masing klasifikasi tanpa melebihi
batas maksimal data pada masing – masing klasifikasi .
Total TF Lagu Baik
Total TF Lagu Tidak Baik
Jumlah Kata Unik dalam
Keseluruhan Dokumen
Gambar 4.3 Hasil Stemming
Gambar diatas merupakan panel yang digunakan untuk menampung hasil
perhitungan dari proses preprocessing data training untuk mendapatkan total nilai
frekuensi kata dari lagu yang baik, frekuensi kata dari lagu yang tidak baik serta
jumlah kata unik dalam keseluruhan dokumen lagu baik dan lagu tidak baik.
4.3 Antarmuka Testing
BROWSE
Gambar 4.4 Ambil File
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
45
Gambar diatas merupakan panel yang digunakan untuk mengambil data pada
sebuah direktori untuk melakukan pengujian satu per satu terhadap data testing .
P(Baik|Data Testing)
P(Tidak Baik|Data Testing)
%
%
Gambar 4.5 Hasil Klasifikasi
Gambar diatas merupakan panel yang digunakan untuk menampung hasil dari
proses klasifikasi data testing untuk menentukan klasifikasi dari lagu data testing
yang diuji.
Apakah lirik dari lagu tersebut baik untuk anak ?
Gambar 4.6 Penentu Kategori Lagu
Gambar diatas merupakan panel yang digunakan untuk menampilkan
klasifikasi dari data testing yang telah diolah.
AKURASI
50L.Baik Test
LT.Baik Test 50
0%
Gambar 4.7 Akurasi Sistem
Gambar diatas merupakan panel yang digunakan untuk melakukan proses
pengujian terhadap keseluruhan data testing atau sesuai dengan jumlah data yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
46
diinginkan oleh pengguna. Jumlah data testing baik pada klasifikasi lagu baik atau
lagu tidak baik harus sama.
Baik Tdk Baik
0 0
Gambar 4.8 Nomor Lagu
Gambar diatas merupakan panel yang digunakan untuk mengetahui nomor
dari lagu yang masuk klasifikasi lagu baik atau lagu tidak baik. Pada panel yang
berisi angka 0 merupakan tempat menampilkan total dari lagu yang masuk dalam
klasifikasi lagu baik dan total dari lagu yang masuk dalam kategori lagu tidak baik.
0% RESET
Gambar 4.9 Progres Sistem dan Reset
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
47
Gambar diatas merupakan sebelah kanan merupakan panel yang digunakan
untuk mengetahui progres dari sistem dan disebelah kiri merupakan panel yang
berisi button reset untuk mengembalikan sistem pada kondisi awal.
LIRIK LAGU
Gambar 4.10 Isi Teks Lagu
Gambar diatas merupakan panel yang digunakan untuk menampilkan isi dari
teks dari lagu yang dipilih oleh pengguna pada saat uji coba terhadap satu per satu
data testing.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
48
5. BAB V
PENGUJIAN
5.1 Pengujian Data
Pengujian terhadap 500 data, dengan pembagian sebanyak 250 data lagu baik
untuk anak dan 250 data lagu tidak baik untuk anak. Dari masing – masing
klasifikasi diambil 50 data lagu baik untuk anak dan 50 data lagu tidak baik untuk
anak sebagai data testing. Setelah dilakukan percobaan didapat hasil sebagai
berikut:
Sebelum diolah oleh sistem sebagai berikut:
Tabel 5.1 Sebelum Diolah Sistem
Lagu Baik
Data 1 2 3 4 5 6 7 8 9 10
Klasifikasi LB LB LB LB LB LB LB LB LB LB
Data 11 12 13 14 15 16 17 18 19 20
Klasifikasi LB LB LB LB LB LB LB LB LB LB
Data 21 22 23 24 25 26 27 28 29 30
Klasifikasi LB LB LB LB LB LB LB LB LB LB
Data 31 32 33 34 35 36 37 38 39 40
Klasifikasi LB LB LB LB LB LB LB LB LB LB
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
49
Data 41 42 43 44 45 46 47 48 49 50
Klasifikasi LB LB LB LB LB LB LB LB LB LB
Lagu Tidak Baik
Data 1 2 3 4 5 6 7 8 9 10
Klasifikasi LTB LTB LTB LTB LTB LTB LTB LTB LTB LTB
Data 11 12 13 14 15 16 17 18 19 20
Klasifikasi LTB LTB LTB LTB LTB LTB LTB LTB LTB LTB
Data 21 22 23 24 25 26 27 28 29 30
Klasifikasi LTB LTB LTB LTB LTB LTB LTB LTB LTB LTB
Data 31 32 33 34 35 36 37 38 39 40
Klasifikasi LTB LTB LTB LTB LTB LTB LTB LTB LTB LTB
Data 41 42 43 44 45 46 47 48 49 50
Klasifikasi LTB LTB LTB LTB LTB LTB LTB LTB LTB LTB
Setelah diolah oleh sistem sebagai berikut:
Tabel 5.2 Setelah Diolah Sistem
Lagu Baik
Data 1 2 3 4 5 6 7 8 9 10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
50
Klasifikasi LB LB LB LB LB LB LB LB LB LB
Data 11 12 13 14 15 16 17 18 19 20
Klasifikasi LB LB LB LB LB LB LB LB LB LB
Data 21 22 23 24 25 26 27 28 29 30
Klasifikasi LTB LB LB LB LB LB LB LB LB LB
Data 31 32 33 34 35 36 37 38 39 40
Klasifikasi LB LB LB LB LB LB LTB LB LB LB
Data 41 42 43 44 45 46 47 48 49 50
Klasifikasi LB LB LB LB LB LTB LB LB LB LB
Lagu Tidak Baik
Data 1 2 3 4 5 6 7 8 9 10
Klasifikasi LTB LTB LTB LTB LTB LTB LTB LTB LTB LTB
Data 11 12 13 14 15 16 17 18 19 20
Klasifikasi LTB LTB LTB LTB LTB LTB LTB LTB LTB LB
Data 21 22 23 24 25 26 27 28 29 30
Klasifikasi LTB LTB LTB LB LTB LTB LB LTB LTB LTB
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
51
Data 31 32 33 34 35 36 37 38 39 40
Klasifikasi LTB LTB LB LTB LB LTB LTB LTB LB LTB
Data 41 42 43 44 45 46 47 48 49 50
Klasifikasi LB LTB LB LB LTB LTB LTB LTB LB LB
LB = Lagu Baik; LTB = Lagu Tidak Baik
Dari hasil pengujian diatas yang dapat dilihat pada tabel 2.2 diatas dengan
data yang telah diklasifikasikan sebelumnya, diketahui bahwa setelah melalui tahap
pengujian, 50 data testing lagu baik diperoleh sebanyak 47 data masuk dalam
klasifikasi lagu baik dan dari 50 data testing lagu tidak baik diperoleh sebanyak 39
data masuk dalam klasifikasi lagu tidak baik untuk anak.
5.1.1 Pengujian Akurasi
Pengujian dilakukan terhadap 50 data testing lagu baik untuk anak dan 50
data testing lagu tidak baik untuk anak. Data testing yang diuji pada sistem dengan
hasil sebagai berikut:
Tabel 5.3 Tabel Confusion Matrix
Kelas Prediksi
Lagu Baik Lagu Tidak Baik
Kelas
sebenarnya
Lagu Baik 47 3
Lagu Tidak Baik 11 39
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
52
𝑨𝒌𝒖𝒓𝒂𝒔𝒊 = 𝟒𝟕 + 𝟑𝟗
𝟒𝟕 + 𝟑 + 𝟏𝟏 + 𝟑𝟗 𝒙 𝟏𝟎𝟎%
= 𝟖𝟔
𝟏𝟎𝟎 𝒙 𝟏𝟎𝟎% = 𝟖𝟔%
Dari hasil pengujian diatas dapat diketahui kemampuan sistem untuk
membantu mengklasifikasikan data teks sebesar 86%.
5.2 Analisis Pengujian
Dari tabel diatas telah diperoleh data sebanyak 47 data testing lagu baik yang
masuk dalam klasifikasi lagu baik untuk anak dan 39 data testing lagu tidak baik
yang masuk dalam klasifikasi lagu tidak baik untuk anak.
Melalui hasil pengujian diatas dapat diketahui hasil analisis sentimen
terhadap klasifikasi lagu baik dan tidak baik untuk anak sebagai berikut:
1. Jumlah kata pada masing – masing klasifikasi data training
Gambar 5.1 Jumlah Kata
Gambar diatas menunjukkan jumlah kata dari masing – masing klasifikasi.
Dari 200 data lagu baik diperoleh jumlah kata sebanyak 13535 kata dan data lagu
tidak baik diperoleh jumlah kata sebanyak 16417 kata. Dari keseluruhan data lagu
baik dan lagu tidak baik diperoleh sebanyak 3084 kata unik.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
53
2. Kegagalan dalam klasifikasi
Pengujian data yang terdapat pada lagu baik tetapi setelah diolah tidak masuk
dalam klasifikasi lagu baik seperti gambar 5.2 berikut:
Gambar 5.2 Pengujian Data Testing
Gambar 5.2 diatas menunjukkan bahwa data testing ini masuk dalam
klasifikasi lagu tidak baik untuk anak. Data testing dapat masuk ke dalam klasifikasi
lagu tidak baik dikarenakan nilai dari laplace smoothing yang terdapat pada masing
– masing klasifikasi lagu baik dan tidak baik untuk anak berbeda – beda sesuai
dengan frekuensi kata. Nilai dari laplace smoothing merupakan conditional
probabilitas yang akan dijadikan sebagai model sehingga nilai dari conditional
probabilitas pada model akan dipangkatkan sebanyak dengan frekuensi kata data
testing.
Lagu pada gambar 5.2 seharusnya masuk pada klasifikasi lagu yang baik,
dikarenakan nilai laplace smoothing dari masing – masing kata berbeda dengan
nilai laplace smoothing dari klasifikasi lagu tidak baik lebih tinggi dibandingkan
dengan nilai laplace smoothing dari klasifikasi lagu baik sehingga mendapatkan
hasil sebagai berikut:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
54
Tabel 5.4 Perbandingan Data Testing Terhadap Model
Kata
Unik
Lagu
Testing
Kata
Frequecy
Lagu
Testing
(TF)
Hasil Pengecekan dari Kata Unik Testing Terhadap Kata Unik
pada Model
Ada/Tidak
Lagu Baik
Ada/Tidak
Lagu
Tidak
Baik
(Laplace
Smoothing
(LS))
(Laplace
Smoothing
(LS))
buat 8 Ada 0.361032553 Ada 0.61535
dari 6 Ada 0.421204645 Ada 0.05128
kita 4 Ada 0.060172092 Ada 0.10256
kota 3 Ada 0.060172092 Ada 0.10256
sahabat 4 Ada 0.060172092 Ada 0.15384
semua 6 Ada 0.060172092 Ada 0.87175
sudah 4 Ada 0.180516277 Ada 0.05128
teman 4 Ada 0.060172092 Ada 0.10256
LS^TF 2.89E-04 2.06E-02
5.58E-03 1.82E-08
1.31E-05 1.11E-04
2.18E-04 1.08E-03
1.31E-05 5.60E-04
4.75E-08 4.39E-01
1.06E-03 6.91E-06
1.31E-05 1.11E-04
1.00E+00 1.00E+00
LS*Prior
Probabilitas(PP) 1.99E-35 4.19E-30
Presentase 4.75E-04 99.9995
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
55
Dari tabel 5.4 dapat diketahui bahwa kata unik yang ada dalam data testing
mulai dari kata buat, dari, kita, kota, sahabat, semua, sudah dan teman terdapat pada
klasifikasi lagu baik dan lagu tidak baik untuk anak dengan nilai laplace smoothing
yang berbeda.
Dari uji coba salah satu data testing menghasilkan klasifikasi yang tidak
sesuai dikarenakan nilai laplace smoothing dari klasifikasi lagu tidak baik terhadap
data testing memiliki nilai laplace smoothing yang lebih tinggi dibandingkan nilai
laplace smoothing dari klasifikasi lagu tidak baik.
Setiap kata unik yang terdapat pada data testing diantaranya kata buat, dari,
kita, kota, kata sahabat, kata, semua, sudah dan teman merupakan kata – kata yang
secara umum dapat digunakan tidak hanya dalam klasifikasi lagu baik melainkan
dapat digunakan pada klasifikasi lagu tidak baik karena kata – kata tersebut
merupakan kata yang bersifat umum sehingga tidak mudah dalam menentukan
klasifikasi lagu dari data testing.
3. Batasan terhadap frekuensi kata
Melalui beberapa kali percobaan dengan memberikan batasan didapatkan
hasil sebagai berikut:
Tabel 5.5 Batasan Frekuensi Kata
Percobaan Min Max Presentase Akurasi
1 1 5 58%
2 2 5 52%
3 2 10 86%
4 4 8 37%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
56
Dari tabel 5.4 diatas dapat diketahui presentase akurasi yang baik digunakan
sebagai batasan terhadap data testing adalah percobaan kedua dengan batasan
minimal 2 frekuensi kata yang digunakan dan maksimal 10 frekuensi kata yang
digunakan.
4. Kata yang ambigu
Pada penelitian ini dapat dibandingkan antara total kata unik masing - masing
klasifikasi lagu baik dan lagu tidak baik untuk anak. Contoh beberapa kata unik
pada masing - masing kelas dapat dilihat pada tabel berikut:
Tabel 5.6 Kata Unik Pada Tiap Kelas
Kata Unik Lagu Baik Kata Unik Lagu Tidak Baik
'abadi'
'abah'
'acara'
'ada'
'adik'
'adil'
'adu'
'agil'
'agung'
'air'
'aja'
'ajaib'
'ajak'
'ajal'
'ajar'
'akan'
'akhir'
'aksara'
'aku'
'alam'
'alangkah'
'album'
'abadi'
'abai'
'abis'
'abu'
'acak'
'acuh'
'ada'
'adik'
'adu'
'aduhai'
'agak'
'ahli'
'air'
'aja'
'ajak'
'ajar'
'akad'
'akal'
'akan'
'akang'
'akh'
'akhir'
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
57
'alhamdulillah'
'allah'
'alu'
'alun'
'ama'
'amat'
'ambil'
'anak'
'ancol'
'andai'
'andong'
'aneka'
'angan'
'angguk'
'angin'
'angka'
'angkasa'
'angkat'
'angsa'
'anjak'
'anjing'
'anoa'
'antara'
'antem'
'apa'
'apakah'
'api'
'arak'
'arek'
'arena'
'ari'
'aries'
'arti'
'asa'
'asal'
'asam'
'asap'
'asin'
'asing'
'akhirat'
'akhlak'
'akibat'
'aksi'
'aku'
'alam'
'alami'
'alangkah'
'alat'
'aling'
'alis'
'alur'
'aman'
'amanah'
'ambil'
'ambisi'
'amin'
'anak'
'anang'
'andai'
'aneh'
'angan'
'anggap'
'angin'
'angkasa'
'angkat'
'anjak'
'anjing'
'antar'
'antartika'
'antem'
'anti'
'anting'
'anugerah'
'apa'
'apakah'
'ape'
'apel'
'api'
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
58
'asli'
'asmara'
'asyik'
'atas'
'atau'
'atur'
'awan'
'awar'
'awas'
'ayah'
'ayam'
'ayo'
'ayun'
'bab'
'baca'
'arah'
'argumen'
'arti'
'arus'
'asa'
'asal'
'asmara'
'aspirin'
'asyik'
'atas'
'atau'
'atom'
'aura'
'awak'
'awal'
'awan'
'awas'
'ayah'
'ayam'
'ayat'
'ayem'
'ayo'
'ayu'
'ayun'
'baca'
Merah = kata berada pada klasifikasi lagu baik dan tidak baik.
Hitam = kata hanya terdapat salah satu klasifikasi lagu baik atau lagu tidak baik.
Pada tabel diatas dapat diketahui bahwa dari beberapa kata unik masing –
masing kelas ditemukan kata yang sama baik pada klasifikasi lagu baik atau
klasifikasi lagu tidak baik untuk anak. Kata – kata yang terdapat pada masing –
masing klasifikasi terdapat pula pada masing – masing klasifikasi dikarenakan kata
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
59
yang muncul merupakan kata umum yang sering digunakan tidak hanya dalam lagu
baik tetapi dapat digunakan dalam lagu tidak baik untuk anak.
5. Jumlah training seimbang
Jika data yang digunakan tidak seimbang maka akan mempengaruhi hasil
klasifikasi. Misal data training lagu baik 5 dan lagu tidak baik 3, maka kosa kata
pada lagu baik akan lebih banyak dibandingkan kosa kata lagu tidak baik sehingga
pada saat data testing diuji maka hasil cenderung lebih mengarah pada lagu baik
karena kosa kata dari lagu baik lebih banyak dibandingkan lagu tidak baik.
Sehingga data yang digunakan harus seimbang karena penelitian data yang
digunakan tidak dinormalisasikan dan hanya menggunakan jumlah frekuensi kata
dalam sebuah dokumen untuk perhitungan klasifikasi lagu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
60
6. BAB VI
KESIMPULAN DAN SARAN
6.1 Kesimpulan
Kesimpulan dapat diambil melalui hasil pengujian dan implementasi yang
telah dipaparkan di atas sebagai berikut :
1. Metode multinomial naive bayes dapat digunakan untuk mengklasifikasikan
data berupa teks.
2. Penggunaan metode Multinomial Naïve Bayes dengan melakukan proses
pengambilan jumlah kata yang muncul dalam setiap dokumen membuat hasil
dari keseluruhan data bergantung dari jumlah kata yang muncul dalam setiap
dokumen.
3. Batasan dengan term frekuensi minimal 2 dan maksimal 10 memberikan
akurasi tertinggi yaitu 86%.
4. Frekuensi kata dari sebuah dokumen memberi pengaruh yang besar dalam
klasifikasi teks karena pada penelitian ini perhitungan berdasarkan dari
jumlah frekuensi kata dalam sebuah dokumen.
6.2 Saran
Beberapa saran kiranya dapat membantu dalam meningkatkan efektifitas dari
pengklasifikasian data teks sebagai berikut :
1. Penambahan jumlah data sekiranya dapat membantu memperbanyak kosa
kata dalam data training.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
61
2. Penambahan kelas klasifikasi tidak hanya klasifikasi lagu baik dan lagu
tidak baik untuk anak.
3. Program hendaknya dikembangkan menjadi sistem informasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
62
DAFTAR PUSTAKA
Bates, Marcia J. (1989). The Design Of Browsing And Berrypicking Techniques For
The Online Search Interface. University of California.
Bing Liu. (2010). Sentiment Analysis and Subjectivity, in Handbook of Natural
Language Processing.
Go, A., Huang, L., & Bhayani, R. (2009). Twitter Sentiment Analysis. Final Project
Report, Stanford University, Department of Computer Science.
Manning, C. D., Raghavan, P., & Schutze, H. (2008). An Introduction to
Information Retrieval. Cambridge University Press.
Paskianti, Kristina. (2011). Klasifikasi Dokumen Tumbuhan Obat menggunakan
Algoritma KNN Fuzzy. Institut Pertanian Bogor.
Porter, M. (2006, January). The Porter Stemming Algorithm. Retrieved February
25, 2011, from Tartarus: http://tartarus.org/~martin/PorterStemmer/
Shu, Hanjie. (2010). Opinion Mining For Song Lyrics. Norwegian University of
Science and Technology.
Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa
Indonesia. M.Sc. Thesis, University of Amsterdam.
Tan, P. N., Steinbach, M., & Kumar, V. (2006). Introduction to Data Mining.
Pearson Education.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
http://tartarus.org/~martin/PorterStemmer/
-
63
LAMPIRAN
Source Code
main.fig
main.m
function varargout = main(varargin) % MAIN MATLAB code for main.fig % MAIN, by itself, creates a new MAIN or raises the
existing % singleton*. % % H = MAIN returns the handle to a new MAIN or the handle
to % the existing singleton*. % % MAIN('CALLBACK',hObject,eventData,handles,...) calls the
local % function named CALLBACK in MAIN.M with the given input
arguments. % % MAIN('Property','Value',...) creates a new MAIN or raises
the % existing singleton*. Starting from the left, property
value pairs are % applied to the GUI before main_OpeningFcn gets called.
An % unrecognized property name or invalid value makes
property application % stop. All inputs are passed to main_OpeningFcn via
varargin.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
64
% % *See GUI Options on GUIDE's Tools menu. Choose "GUI
allows only one % instance to run (singleton)". % % See also: GUIDE, GUIDATA, GUIHANDLES
% Edit the above text to modify the response to help main
%