implementasi metode rabin karp pada aplikasi …

13
69 ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118 Risda Novia 1 , Yunita Prastyaningsih 2 , dan Herfia Rhomadhona 3 1,2,3 Program Studi Teknologi Informasi, Jurusan Teknik Informatika, Politeknik Negeri Tanah Laut e-mail: 1 [email protected], 2 [email protected], 3 [email protected] Abstract Checking the similarity of Final Project (TA) titles can be done by building a similarity detection application and implementing methods to determine the similarity of these TA titles. The method used is the Rabin Karp method, which is a word search method that searches for a pattern in the form of a substring using the hash. The data used in this study are student data and data on the 2016-2018 academic year of the Informatics Engineering Department at Tanah Laut State Polytechnic. The results of the similarity experiment can be divided into 3 (three) parts, namely not similar, somewhat similar, and very similar. It is said to be not similar if the percentage of the equation is 0% -20% as happened in k-gram 6 to k-gram 10. While it is somewhat similar if the percentage is between 21%-55% as seen in k-gram 3, k- gram 4, and k-gram 5. For very similar categories based on the percentage above 56% seen in k-gram 1 and k-gram 2. So it can be concluded that the more or greater the value of k-grams, the smaller the percentage results obtained, on the contrary, if the smaller the value of k-grams, the higher the percentage value. KeywordsApplication of Final Project Title Similarity Check, Rabin Karp Method Abstrak Pengecekan kemiripan judul TA dapat dilakukan dengan cara membangun aplikasi deteksi kemiripan dan mengimplementasikan metode untuk mengetahui kemiripan judul TA tersebut. Metode yang digunakan adalah metode Rabin Karp yang merupakan metode pencarian kata yang mencari sebuah pola berupa substring menggunakan hash. Data yang digunakan dalam penelitian ini adalah data mahasiswa dan data judul TA tahun 2016-2018 Jurusan Teknik Informatika di Politeknik Negeri Tanah Laut. Hasil percobaan kemiripan dapat dibagi menjadi 3 (tiga) bagian yaitu tidak mirip, agak mirip dan sangat mirip. Dikatakan tidak mirip jika persentase persamaan 0%-20% seperti yang terjadi pada k-gram 6 s/d k-gram 10. Sedangkan agak mirip jika persentase berada diantara 21%-55% seperti yang terlihat pada k-gram 3, k-gram 4 dan k- gram 5. Untuk kategori sangat mirip berdasarkan persentase diatas 56% yang terlihat pada k-gram 1 dan k- gram 2. Sehingga dapat disimpulkan bahwa semakin banyak atau semakin besar nilai k-gram maka hasil persentase yang didapat semakin kecil, sebaliknya jika semakin kecil nilai k-gram maka nilai persentasenya semakin besar. Kata KunciAplikasi Pengecekan Kemiripan Judul Tugas Akhir, Metode Rabin Karp 1. Pendahuluan Politeknik Negeri Tanah Laut merupakan Perguruan Tinggi Negeri di Kabupaten Tanah Laut Provinsi Kalimantan Selatan yang lebih dikenal dengan nama Politala yang sudah mendapat IMPLEMENTASI METODE RABIN KARP PADA APLIKASI PENGECEKAN KEMIRIPAN JUDUL TUGAS AKHIR (Studi Kasus: Jurusan Teknik Informatika Politala) Implementation of The Rabin Karp Method in Final Project Title Checking Application (Case Study: Department of Informatics, Politala)

Upload: others

Post on 11-Nov-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

69

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

Risda Novia1, Yunita Prastyaningsih2, dan Herfia Rhomadhona3 1,2,3Program Studi Teknologi Informasi, Jurusan Teknik Informatika, Politeknik Negeri Tanah Laut

e-mail: [email protected], [email protected], [email protected]

Abstract

Checking the similarity of Final Project (TA) titles can be done by building a similarity detection

application and implementing methods to determine the similarity of these TA titles. The method used is the

Rabin Karp method, which is a word search method that searches for a pattern in the form of a substring using

the hash. The data used in this study are student data and data on the 2016-2018 academic year of the

Informatics Engineering Department at Tanah Laut State Polytechnic. The results of the similarity experiment

can be divided into 3 (three) parts, namely not similar, somewhat similar, and very similar. It is said to be not

similar if the percentage of the equation is 0% -20% as happened in k-gram 6 to k-gram 10. While it is

somewhat similar if the percentage is between 21%-55% as seen in k-gram 3, k- gram 4, and k-gram 5. For

very similar categories based on the percentage above 56% seen in k-gram 1 and k-gram 2. So it can be

concluded that the more or greater the value of k-grams, the smaller the percentage results obtained, on the

contrary, if the smaller the value of k-grams, the higher the percentage value.

Keywords—Application of Final Project Title Similarity Check, Rabin Karp Method

Abstrak

Pengecekan kemiripan judul TA dapat dilakukan dengan cara membangun aplikasi deteksi kemiripan

dan mengimplementasikan metode untuk mengetahui kemiripan judul TA tersebut. Metode yang digunakan

adalah metode Rabin Karp yang merupakan metode pencarian kata yang mencari sebuah pola berupa

substring menggunakan hash. Data yang digunakan dalam penelitian ini adalah data mahasiswa dan data

judul TA tahun 2016-2018 Jurusan Teknik Informatika di Politeknik Negeri Tanah Laut. Hasil percobaan

kemiripan dapat dibagi menjadi 3 (tiga) bagian yaitu tidak mirip, agak mirip dan sangat mirip. Dikatakan

tidak mirip jika persentase persamaan 0%-20% seperti yang terjadi pada k-gram 6 s/d k-gram 10. Sedangkan

agak mirip jika persentase berada diantara 21%-55% seperti yang terlihat pada k-gram 3, k-gram 4 dan k-

gram 5. Untuk kategori sangat mirip berdasarkan persentase diatas 56% yang terlihat pada k-gram 1 dan k-

gram 2. Sehingga dapat disimpulkan bahwa semakin banyak atau semakin besar nilai k-gram maka hasil

persentase yang didapat semakin kecil, sebaliknya jika semakin kecil nilai k-gram maka nilai persentasenya

semakin besar.

Kata Kunci—Aplikasi Pengecekan Kemiripan Judul Tugas Akhir, Metode Rabin Karp

1. Pendahuluan

Politeknik Negeri Tanah Laut merupakan Perguruan Tinggi Negeri di Kabupaten Tanah Laut

Provinsi Kalimantan Selatan yang lebih dikenal dengan nama Politala yang sudah mendapat

IMPLEMENTASI METODE RABIN KARP PADA APLIKASI PENGECEKAN KEMIRIPAN JUDUL TUGAS AKHIR (Studi Kasus: Jurusan Teknik Informatika Politala)

Implementation of The Rabin Karp Method in Final Project Title Checking Application

(Case Study: Department of Informatics, Politala)

Page 2: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

70

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

akreditasi B. Politeknik Negeri Tanah Laut berdiri pada tanggal 25 September 2009, Politeknik

Negeri Tanah Laut memiliki 4 jurusan yaitu Mesin Otomotif, Teknik Industri Pertanian, Menejemen

Bisnis dan Teknik Informatika. Program Studi (Prodi) Teknologi Informasi adalah salah satu Prodi

di Politeknik Negeri Tanah Laut dan Setiap tahunnya, Prodi Teknologi Informasi menyelenggarakan

Tugas Akhir sebagai persyaratan bagi mahasiswa semester akhir untuk menyelesaikan studi di

Politeknik Negeri Tanah Laut. Tugas Akhir merupakan karya ilmiah yang disusun oleh mahasiswa

berdasarkan hasil penelitian suatu masalah yang sudah dilakukan dengan bimbingan dosen

pembimbing dan Tugas Akhir juga merupakan salah satu persyaratan kelulusan mahasiswa.

Masalah yang sering terjadi pada saat mahasiswa ingin membuat Tugas Akhir yaitu kesulitan

dalam mencari judul terkadang tidak sedikit mahasiswa yang memiliki ide judul Tugas Akhir atau

judul yang mereka miliki sama dengan mahasiswa yang data judul Tugas Akhirnya sudah ada pada

tahun 2016-2018. Judul Tugas Akhir yang mahasiswa ajukan terkadang tidak disetujui pada dosen

pembimbing karena judul Tugas Akhir yang diajukan sudah pernah ada sebelumnya. Jika tidak

disetujui saat mengajukan judul Tugas Akhir mahasiswa harus mencari judul lagi dengan waktu yang

cukup singkat dan mahasiswa harus mencari tahu apakah judul yang ingin di ajukan sudah pernah

ada sebelumnya atau mungkin belum pernah di ajukan.

Pengecekan kemiripan judul Tugas Akhir dapat dilakukan dengan cara membangun aplikasi

deteksi kemiripan dan mengimplementasikan metode untuk mengetahui kemiripan judul Tugas

Akhir tersebut. Diantaranya dengan menggunakan metode Rabin Karp. Metode Rabin Karp yaitu

salah satu algoritma pencarian string yang menggunakan fungsi hashing untuk menemukan pattern

di dalam string teks. Algoritma Rabin karp memiliki beberapa karakteristik yaitu menggunakan k-

gram dan hashing [1].

Berdasarkan uraian tersebut dibangun Implementasi Metode Rabin Karp untuk Aplikasi

Pengecekan Kemiripan Judul Tugas Akhir Berbasis Web untuk membantu mahasiswa dalam

mengetahui data judul-judul Tugas Akhir yang sudah digunakan, membantu mahasiswa dalam

mencari referensi judul yang sudah terdaftarkan sebelumnya dan mahasiswa yang ingin mengajukan

dapat mengetahui apakah judul yang ingin mereka ajukan sudah pernah ada didaftarkan atau belum

dan tidak ada kemiripan judul pada saat mengajukan judul Tugas Akhir pada dosen pembimbing.

Mahasiswa diharuskan mengisi data yang diperlukan yaitu judul Tugas Akhir yang diajukan,

kemudian sistem secara otomatis akan memeriksa apakah judul yang diajukan sudah pernah ada

sebelumnya serta menghitung tingkat kemiripan jika memang sudah pernah ada. Dengan adanya

Implementasi Metode Rabin Karp pada Aplikasi Pengecekan Kemiripan Judul Tugas Akhir ini

sekumpulan judul Tugas Akhir dapat diuji apakah antar judul Tugas Akhir lainnya memiliki

kesamaan atau tidak.

Penelitian yang dilakukan oleh [2] digunakan untuk membandingkan kemiripan judul tugas akhir

yang telah ada di database dengan judul tugas akhir yang tengah diajukan oleh mahasiswa.

Sekumpulan judul dapat diuji apakah anatar judul tugas akhir memiliki kesamaan atau tidak.

Berdasarkan hasil evaluasi uji coba dapat diketahui performa hasil persentase similarity dari

algoritma Rabin karp memiliki ketergantungan dengan nilai K-gram yang diberikan hasil pengujian

akurasi diperoleh hasil rata-rata akurasi similarity adalah sebesar 63,19%.

Pada penelitian sebelumnya Algoritma Rabin Karp masih cukup layak untuk digunakan sebagai

suatu metode sederhana untuk mendeteksi kemungkinaan terjadinya plagiarisme. Algoritma Rabin

Karp memiliki keunggulan pencarian string dengan pola yang panjang. Algoritma Rabin karp dalam

sistem ini memiliki langkah - langkah text preprocessing yang terdiri case folding, tokenizing,

punctuation removal, stopword removal, dan stemming. Hasil dari text preprocessing inilah yang

akan di proses menggunakan algoritma Rabin karp. Hasil dari metode ini adalah nilai kemiripan dari

tugas-tugas mahasiswa yang dihitung menggunakan dice coefficient. Perhitungan akurasi dengan

Page 3: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

71

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

melakukan 20 perbandingan antara sistem pendeteksi plagiarisme dan software. Plagiarisme

Checker X menggunakan confusion matrix menghasilkan tingkat keakuratan sebesar 90% [3].

Dan pada penelitian Ade Mirza Surahman Dalam Markov Model nilai K-Gram yang sering

digunakan yaitu, 2-gram (bigram), 3-gram (trigram) dan seterusnya disebut K-Gram (4-gram, 5-

gram dan seterusnya). Dalam natural language processing, penggunaan K-Gram (atau lebih dikenal

dengan n-gram), proses parsing token (tokenisasi) lebih sering menggunakan 3-gram dan 4-gram,

sedangkan 2-gram digunakan dalam parsing sentence, misal dalam part-of-speech (POS).

Penggunaan 2-gram dalam tokenisasi akan menyebabkan tingkat perbandingan antar karakter akan

semakin besar [4].

2. Landasan Teori

2.1. Aplikasi

Aplikasi adalah program siap pakai yang dapat digunakan untuk menjalankan perintah-perintah

dari pengguna aplikasi tersebut dengan tujuan mendapatkan hasil yang lebih akurat sesuai dengan

tujuan pembuatan aplikasi tersebut, aplikasi mempunyai arti yaitu pemecahan masalah yang

menggunakan salah satu teknik pemrosesan data aplikasi yang biasanya berpacu pada sebuah

komputansi yang diinginkan atau diharapkan maupun pemrosesan data yang diharapkan. Pengertian

aplikasi secara umum adalah alat terapan yang difungsikan secara khusus dan terpadu sesuai

kemampuan yang dimilikinya, aplikasi merupakan suatu perangkat komputer yang siap pakai bagi

user [5].

2.2. Text Preprocessing

Dalam melakukan text mining, teks dokumen yang digunakan harus dipersiapkan terlebih

dahulu, setelah itu baru dapat digunakan untuk proses utama. Proses mempersiapkan teks dokumen

atau dataset mentah disebut juga dengan proses text preprocessing. Text Preprocessing berfungsi

untuk mengubah data teks yang tidak terstruktur atau sembarang menjadi data yang terstruktur [6].

Proses text preprocessing terdiri dari case folding, tokenizing, filtering dan stemming seperti yang

dilakukan penelitian tentang teks mining [6].

2.3. Algoritma Rabin Karp

Algoritma Rabin Karp adalah algoritma pencocokan string yang menggunakan fungsi hash

sebagai pembanding antara string yang dicari (m) dengan substring pada teks (n). Apabila hash value

keduanya sama maka akan dilakukan perbandingan sekali lagi terhadap karakter-karakternya.

Apabila hasil keduanya tidak sama, maka substring akan bergeser ke kanan. Pergeseran dilakukan

sebanyak (n-m) kali. Perhitungan nilai hash yang efisien pada saat pergeseran akan mempengaruhi

performa dari algoritma ini [7].

2.4. Hashing

Algoritma Rabin Karp menggunakan fungsi hash yang disebut dengan rolling hash untuk

menentukan apakah kata-kata yang dicocokkan sama. Rolling hash adalah sebuah fungsi hash yang

input dikelompokkan ke dalam suatu blok yang digerakkan melewati input secara keseluruhan.

Beberapa fungsi hash memungkinkan rolling hash untuk dikomputasi dengan cepat. Nilai hash yang

baru dapat dengan cepat dihitung dari nilai hash yang lama dengan cara menghilangkan nilai lama

dari kelompok hash dan menambahkan nilai baru ke dalam kelompok tersebut. Kunci dari performa

algoritma Rabin Karp adalah komputasi yang efektif dari nilai hash dari substring yang berurutan

pada teks. Algoritma Rabin Karp melakukan perhitungan nilai hash dengan memperlakukan setiap

Page 4: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

72

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

substring sebagai sebuah angka dengan basis tertentu, di mana basis yang digunakan pada umumnya

merupakan bilangan prima yang besar. Misalnya, jika substring yang ingin dicari adalah “dia” dan

basis yang digunakan adalah 101, nilai hash yang dihasilkan adalah 100 x 102 + 105 x 101 + 97 x

100 = 11147 (nilai ASCII dari „d‟ adalah 100, „i‟ adalah 105, dan nilai ASCII dari „a‟ adalah 97)

[4].

𝐻(𝑐1..𝑐𝑘) = 𝐶1 ∗ 𝑏(𝑘−1) + ⋯ + 𝐶(𝑘−1) ∗ 𝑏𝑘 + 𝐶𝑘 (1)

Keterangan:

H : substring

C : nilai asci per-karakter

b : basis

k : banyak karakter

2.5. K-Gram

K-gram adalah rangkaian terms dengan panjang k. Kebanyakan yang digunakan sebagai terms

adalah kata. K-gram merupakan sebuah metode yang diaplikasikan untuk pembangkitan kata atau

karakter. Metode k-gram ini digunakan untuk mengambil potongan-potongan karakter huruf

sejumlah k dari sebuah kata yang secara kontinuitas dibaca dari teks sumber hingga akhir dari

dokumen [8].

2.6. Perhitungan Nilai Similarity

Menghitung nilai Similarity dari dokumen fingerprint yang didapat maka digunakan Dice’s

Similarity Coeficients dengan cara menghitung nilai dari jumlah k-gram yang digunakan pada kedua

dokumen yang diuji, sedangkan dokumen fingerprint didapat dari jumlah nilai k-gram yang sama.

Nilai Similarity tersebut dapat dihitung dengan menggunakan perhitungan di bawah ini [8].

𝑆 =2𝐴

𝐴+𝐵∗ 100 (2)

Keterangan:

S : Nilai Similarity

A : Jumlah k-gram nilai hash yang sama

B : Total jumlah gram dari 2 string yang dibandingkan

C : Total jumlah gram dari 2 string yang dibandingkan

3. Metode Penelitian

Berikut tahapan yang dilakukan pada penelitian ini.

1. Identifikasi Masalah

Masalah yang sering terjadi pada saat mahasiswa ingin membuat tugas akhir yaitu kesulitannya

mencari judul penelitian dan terkadang tidak sedikit mahasiswa yang memiliki ide judul tugas

akhir atau judul yang mereka miliki sama dengan mahasiswa yang data judul tugas akhir sudah

ada pada tahun 2016-2018. Judul tugas akhir yang mahasiswa ajukan pun kadang mendapat

penolakan pada dosen pembimbing karena judul yang diajukan sudah pernah ada sebelumnya.

Jika terdapat penolakan saat mengajukan judul tugas akhir mahasiswa pun harus mencari judul

lagi dan waktu yang ditentukan pun tidak lama kemudian kesulitan dalam mengetahui apakah

judul yang ingin diajukan sudah pernah ada sebelumnya atau mungkin belum pernah diajukan.

Page 5: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

73

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

Gambar 1. Tahapan Penelitian

2. Analisis Kebutuhan

Analisa kebutuhan dalam pembuatan aplikasi berupa kebutuhan pengguna yaitu kebutuhan

freeuser, mahasiswa dan kebutuhan admin. Sedangkan untuk pengumpulan data dilakukan

dengan wawancara kepada kepada koordinator Tugas Akhir (TA). Data sekunder yang

dibutuhkan pada penelitian ini berupa judul-judul Tugas Akhir pada tahun 2016, 2017, 2018

dan 2019.

3. Desain Sistem

Desain sistem bertujuan untuk menggambarkan bagaimana suatu sistem akan menyelesaikan

beberapa permasalahan pada penelitian ini. Desain sistem yang dibuat berupa Entity

Relationship Diagram (ERD) dan Data Flow Diagram (DFD) sebagai rancangan yang

menunjukkan aliran data pada penelitian ini, sedangkan untuk rancangan tampilan yang

dirancang menggunakan mockup.

4. Pembangunan Aplikasi Menggunakan Algoritma Rabin Karp

Pembangunan aplikasi pengecekan kemiripan judul tugas akhir menggunakan metode Rabin

Karp dapat dilihat pada Gambar 2. Langkah-langkah Algoritma Rabin Karp yaitu data input

berupa judul Tugas Akhir yang kemudian akan dikenai tahapan preprocessing (alur

preprocessing dapat dilihat pada Gambar 3). Selanjutnya dilakukan proses Rabin Karp yaitu

dengan membagi teks ke dalam gram-gram yang ditentukan nilai k-gram-nya, mencari nilai

hash dengan fungsi rolling hash dari tiap gram dan mencari nilai hash yang sama antara 2 teks.

Kemudian setelah itu dilakukan proses similarity dari 2 (dua) buah teks yang dibandingkan.

Hasil dari algoritma Rabin Karp berupa nilai persentase persamaan minimal antara 2 (dua) judul

tugas akhir.

5. Pengujian

Penelitian ini dilakukan pengujian dengan membandingkan K-gram 1 sampai dengan K-gram

10 untuk setiap judul tugas akhir. Dalam pengujian tersebut akan terlihat persentase kesamaan

antar judul tugas akhir.

Page 6: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

74

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

Mulai

Memasukan Judul TA

Preprocessing

Judul TAHasil

PreocessingRabin karp

Perhitungan Similarity

Persentase hasil

pengecekan

Selesai

Gambar 2. Alur Algoritma Rabin Karp

Mulai

Input Judul

Case Folding

Tokenizing

Hasil Preproccesing

Selesai

Filtering

Mengubah huruf kapital

menjadi huruf Kecil

Tahap pemotongan string

masukkan berdasarkan

tiap kata yang

menyusunnya

Tahap mengambil kata-

kata penting dari hasil

tokenizing

Stemming

Untuk membuat suatu

kata yang memiliki

imbuhan menjadi kata

dasarnya

Gambar 3. Flowchart Preprocessing

Page 7: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

75

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

4. Hasil dan Pembahasan

4.1. Hasil Preprocessing

Dalam penelitian ini menggunakan 2 (dua) judul tugas akhir yaitu sebagai berikut:

Tabel 1. Contoh data judul

No Awal

1 Aplikasi Pendataan Desa Berbasis Web

2 Aplikasi Penjualan Kaos Berbasis Web

1. Case Folding

Hasil dari proses case folding adalah seluruh data keluhan yang masuk berubah menjadi huruf kecil.

Tabel 1. Case Folding

Awal Hasil

Aplikasi Pendataan Desa Berbasis Web aplikasi pendataan desa berbasis web

Aplikasi Penjualan Kaos Berbasis Web aplikasi penjualan kaos berbasis web

2. Tokenizing

Tahap pemotongan string masukkan berdasarkan tiap kata yang menyusunnya, tahap untuk

memotong setiap kata dalam kalimat.

Tabel 2. Tokenizing

Awal Hasil

Aplikasi Pendataan Desa Berbasis Web aplikasi || pendataan || desa || berbasis ||web

Aplikasi Penjualan Kaos Berbasis Web aplikasi || penjualan || kaos || berbasis || web

3. Filtering

Tahap mengambil kata-kata penting dari hasil tokenizing proses filtering menggunakan stopword

kata umum yang biasanya dalam jumlah besar dan dianggap tidak memiliki makna. Stopword

Removal adalah proses filtering, pemilihan kata-kata penting dari hasil token yaitu kata-kata apa saja

yang digunakan untuk mewakili dokumen [9].

Tabel 3. Filtering

Awal Hasil

Aplikasi Pendataan Desa Berbasis Web aplikasi || pendataan || desa || berbasis ||web

Aplikasi Penjualan Kaos Berbasis Web aplikasi || penjualan || kaos || berbasis || web

4. Stemming

Stemming adalah proses yang dilakukan untuk membuat suatu kata yang memiliki imbuhan menjadi

kata dasarnya.

Tabel 5. Stemming

Awal Hasil

Aplikasi Pendataan Desa Berbasis web aplikasi || data || desa || basis || web

Aplikasi Penjualan Kaos Berbasis web aplikasi || jual || kaos || basis || web

Page 8: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

76

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

Setelah melewati tahapan Preprocessing, data sudah dikatakan bersih dan siap untuk diolah. Berikut

adalah hasil tahap Preprocessing.

Tabel 6. Hasil Preprocessing

No Dokumen

1 aplikasi data desa basis web

2 aplikasi jual kaos basis web

4.2. Implementasi Rabin Karp

Berdasarkan 2 (dua) buah judul Tugas Akhir yang telah melalui tahapan preprocessing di atas,

maka sistem membagi teks dalam gram-gram tertentu dan mencari nilai hash serta menghitung

persentase persamaan yang dihasilkan dari 2 (dua) judul TA. Gambar 4 berikut merupakan tampilan

form input judul yang mana dicek kemiripannya dengan judul lain yang kemudian pengguna dapat

menentukan nilai k-gram yang diinginkan.

Gambar 4. Form Cek Judul

Gambar 5 dan 6 merupakan interface form hasil dari cek judul memasukkan 2 (dua) judul yang

diuji. Kemudian judul tersebut dilakukan proses text preprocessing yang merupakan tahap awal

memproses judul terdiri dari proses case folding yang mengubah huruf besar menjadi huruf kecil,

kemudian tokenizing tahap membuang karakter yang bukan huruf, proses filtering yang hanya

mengambil kata-kata penting, terakhir dilakukan proses stemming yang membuang kata imbuhan.

Pada Gambar 5 dan 6 juga akan ditampilkan nilai hash, fingerprint, dan persentase kesamaan antara

judul. Pada Gambar 6 ditampilkan hasil dari Algoritma Rabin Karp dengan nilai k = 2. Sedangkan

hasil ujicoba k-gram 1 sampai dengan k-gram 10 ditampilkan pada Tabel 7.

Page 9: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

77

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

Gambar 5. Tampilan pengujian k-gram

Gambar 6. Uji coba dengan k-gram = 2

4.3. Percobaan K-gram 1-10

Dilakukan percobaan k-gram dari nilai k-gram 1-10 dan didapat hasil dari judul yang diuji

dengan judul yang dibandingkan adalah seperti Tabel 7.

Tabel 7. Perbandingan K-gram

K-gram Keterangan

K-gram 1

Page 10: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

78

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

K-gram Keterangan

K-gram 2

1. K-gram 3

1. K-gram 4

1. K-gram 5

1. K-gram 6

1. K-gram 7

1.

Page 11: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

79

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

K-gram Keterangan

K-gram 8

1. K-gram 9

1. K-gram

10

1.

Berdasarkan hasil percobaan k-gram 1-10 untuk mengetahui persentase kesamaan antar judul

tugas akhir dapat dilihat pada grafik pada Gambar 7. Dari percobaan tersebut dapat dibagi menjadi

3 (tiga) bagian yaitu tidak mirip, agak mirip, dan sangat mirip. Dikatakan tidak mirip jika persentase

persamaan 0%-20% seperti yang terjadi pada k-gram 6 hingga k-gram 10. Sedangkan agak mirip

jika persentase berada diantara 21%-55% seperti yang terlihat pada k-gram 3, k-gram 4, dan k-gram

5. Untuk kategori sangat mirip berdasarkan persentase di atas 56% yang terlihat pada k-gram 1 dan

k-gram 2.

Sehingga dapat disimpulkan bahwa semakin banyak atau semakin besar nilai k-gram maka hasil

persentase yang didapat semakin kecil, sebaliknya jika semakin kecil nilai k-gram maka nilai

persentasenya semakin besar. Hal tersebut terjadi karena k-gram dilakukan untuk mengambil

potongan-potongan karakter huruf sejumlah nilai k dari sebuah teks dan dibaca dari awal teks hingga

akhir teks jadi pemotongan dilakukan sebanyak k.

Page 12: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

80

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

Gambar 7. Grafik Persentase Kesamaan Judul

5. Kesimpulan

Aplikasi pengecekkan kemiripan judul tugas akhir menggunakan Algoritma Rabin Karp

berbasis web berhasil dibuat dengan bahasa pemrograman PHP. Adapun pengujian yang dilakukan

dalam penelitian menggunakan percobaan k-gram 1 sampai k-gram 10. Dari percobaan tersebut

dapat dibagi menjadi 3 (tiga) bagian yaitu tidak mirip, agak mirip, dan sangat mirip. Dikatakan tidak

mirip jika persentase persamaan 0%-20% seperti yang terjadi pada k-gram 6 hingga k-gram 10.

Sedangkan agak mirip jika persentase berada diantara 21%-55% seperti yang terlihat pada k-gram

3, k-gram 4 dan k-gram 5. Untuk kategori sangat mirip berdasarkan persentase di atas 56% yang

terlihat pada k-gram 1 dan k-gram 2. Sehingga dapat disimpulkan bahwa semakin banyak atau

semakin besar nilai k-gram maka hasil persentase yang didapat semakin kecil, sebaliknya jika

semakin kecil nilai k-gram maka nilai persentasenya semakin besar. Hal tersebut terjadi karena K-

gram dilakukan untuk mengambil potongan-potongan karakter huruf sejumlah nilai k dari sebuah

teks dan dibaca dari awal teks hingga akhir teks jadi pemotongan dilakukan sebanyak k.

Pengembangan lebih lanjut terhadap penelitian ini dapat dikembangkan dapat membedakan

persentase saat urutan perbandingan diubah menggunakan algoritma atau metode yang lain yang

dapat mengetahui kalimat-kalimat yang mengandung plagiarisme. Dapat dikembangkan dengan

menggunakan metode yang lain seperti metode Winnowing dan metode Term Weighting dengan nilai

kemiripan yang lebih tinggi atau dengan tingkat kemiripan yang lebih sama dengan waktu

pengecekan yang lebih cepat.

DAFTAR REFERENSI

[1] A. F. &. M. Hayaty, "Implementasi Algoritma Rabin-Karp untuk Pendeteksi Plagiarisme pada

Dokumen Tugas Mahasiswa," JUITA, pp. 25-32, 2019.

[2] D. U. Cahyono, "Aplikasi Deteksi Dini Plagiarisme Judul Tugas Akhir Mahasiswa Sekolah

Tinggi Ilmu Kesehatan Yayasan RS.Islam Surabaya Dengan Algoritma Rabin-Karp," Applied

Technology and Computing Science Journal, vol. 1, pp. 1-10, 2018.

[3] A. &. M. Hayaty, "Implementasi Algoritma Rabin-Karp untuk Pendeteksi Plagiarisme pada

Dokumen Tugas Mahasiswa," JUITA, pp. 25-32, 2019.

0

10

20

30

40

50

60

70

80

90

K-gram1

K-gram2

K-gram3

K-gram4

K-gram5

K-gram6

K-gram7

K-gram8

K-gram9

K-gram10

Persentase Kesamaan Judul TA

Page 13: IMPLEMENTASI METODE RABIN KARP PADA APLIKASI …

81

ScientiCO : Computer Science and Informatics Journal Vol. 4, No. 1, (2021) E-ISSN: 2620-4118

[4] A. M. Surahman, "Perancangan Sistem Penentuan Similarity Kode Program Pada Bahasa C Dan

Pascal Menggunakan Algoritma Rabin Karp," JUSTIN, 2015.

[5] A. R. R. Hasan Abdurahman, "Aplikasi Pinjaman Pembayaran Secara Kredit Pada Bank Yudha

Bhakti," jurnal computech dan bisnis vol. 8, pp. 61-69, Desember 2014.

[6] H. Rhomadhona and J. Permadi, "Klasifikasi Berita Kriminal Menggunakan Naïve Bayes

Classifier (NBC) dengan Pengujian K-Fold Cross Validation," Jurnal Sains dan Informatika,

vol. 5, no. 2, pp. 108-117, 2019.

[7] A. H. P. &. Z. Situmorong, "Analisis Perbandingan Algoritma Rabin-Karp Dan Levenshtein

Distance Dalam Menghitung Kemiripan Teks," Jurnal Teknik Informatika Unika St. Thomas

(JTIUST), pp. 24-32, 2017.

[8] H. S. &. S. P. Doddi Aria Putra, "Implementasi Algoritma Rabin Karp untuk Membantu

Pendeteksian Plagiat pada Karya Ilmiah," Jurnal Sistem dan Teknologi Informasi (JUSTIN) ,

vol. 1, pp. 1-9, 2015.

[9] I. M. I. S. &. S. M. Muhammad Saiful Anwar, "Sistem Pencarian E-Journal Menggunakan

Metode Stopword Removal dan Stemming Berbasis Android," Konferensi Ilmiah Mahasiswa

Unissula (KIMU), pp. 58-70, 2019.