z-logo
open-access-imgOpen Access
Pemilihan Parameter Terbaik pada Algoritma Winnowing dalam Mendeteksi Tingkat Kesamaan Dokumen Bahasa Indonesia
Author(s) -
Wahyu Hidayat,
Ema Utami,
Anggit Dwi Hartanto
Publication year - 2021
Publication title -
citec (creative information technology) journal/citec journal
Language(s) - English
Resource type - Journals
eISSN - 2460-4259
pISSN - 2354-5771
DOI - 10.24076/citec.2020v7i2.256
Subject(s) - gram , jaccard index , winnowing , mathematics , combinatorics , similarity (geometry) , trigram , statistics , biology , artificial intelligence , computer science , botany , cluster analysis , genetics , bacteria , image (mathematics)
Pengidentifikasian terkait plagiarisme terhadap dokumen berbahasa Indonesia telah dilakukan di penelitian terkait, untuk pendeteksi tingkat kesamaan dokumen. Dalam penelitian tersebut telah digunakan algoritma pendeteksi kesamaan dokumen dengan metode fingerprint sseperti Algoritma Winnowing. Algoritma Winnowing memiliki perbedaan pada penggunaan parameter seperti ada yang menggunakan k-gram dan n-gram. Dari perbedaan parameter tersebut dilakukan penelitian performa dari perbandingan penggunaan parameter yang berbeda pada pemotongan string pada tahap algoritma Winnowing sehingga dapat diketahui parameter yang mempunyai tingkat performa yang paling baik. Hasil penelitian pada k-gram memiliki tingkat nilai similarity yang tinggi namun ketika nilai jumlah k semakin besar akan mengurangi tingkat nilai similarit dengan rata-rata hasil pada k = 2 sebesar 0.5299, k = 3 sebesar 0.1689, k = 5 sebesar 0.0283 dan k = 7 sebesar 0.0095. Penerapan pemotongan string n-gram pada unigram memiliki rata-rata tingkat similarity sebesar 0.0683, bigram 0.003, pada trigram dan four-gram sebesar 0.000. Pada perbandingan kecepatan pemrosesan waktu k-gram dan n-gram tidak terlihat perbedaan yang signifikan dan keduanya mendominasi selama 6 detik.Kata Kunci—Algoritma Winnowing, Jaccard Similarity, Fingerprint, K-gram, N-gramIdentification related to plagiarism of Indonesian language documents has been carried out in related research, such as for the purpose of detecting the level of similarity documents. In this research, algorithm similarity detection algorithms have been used, especially with the fingerprint method wich Winnowing algorithm. Winnowing algorithm using parameters such as those using k-gram and n-gram. From these different parameters, a study of the performance of the comparison the use of different parameters in the string cutting at the Winnowing algorithm stage can be found out which parameter has the best level of performance. The results of research on k-gram have a high level of similarity value, but when the value of the number of k gets bigger it will reduce the level of similarity values with an average result at k = 2 of 0.5299, k = 3 of 0.1689, k = 5 of 0.0283 and k = 7 in the amount of 0.0095. The application of cutting n-gram strings on unigram has an average similarity level of 0.0683, bigram 0.003, on trigrams and four-grams of 0.000. In the comparison of the processing speed of k-gram and n-gram time, there was no significant difference, and both dominated for 6 seconds. Keywords— Winnowing algorithm, Jaccard Similarity, Fingerprint, K-gram, N-gram

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here