z-logo
open-access-imgOpen Access
Kluster Bag of Word Menggunakan Weka
Author(s) -
Tari Mardiana,
Rudy Dwi Nyoto
Publication year - 2015
Publication title -
jepin (jurnal edukasi dan penelitian informatika)
Language(s) - English
Resource type - Journals
eISSN - 2548-9364
pISSN - 2460-0741
DOI - 10.26418/jp.v1i1.10145
Subject(s) - computer science , humanities , artificial intelligence , philosophy
Dalam bidang pengolahan bahasa alami dan sistem temu balik informasi, representasi sebuah data teks sangat penting untuk mendukung proses analisis data statistik di dalamnya. Data teks dengan bentuk tidak terstruktur dapat direpresentasikan secara sederhana menggunakan sekumpulan set kata yang disebut bag-of-words dan belum memiliki label atau kelas tertentu. Data unsupervised atau objek-objek yang belum memiliki label dapat dikelompokan menggunakan klustering berdasarkan kemiripan satu objek dengan objek lain. Artikel ini membahas perbandingan hasil pengelompokan unsupervised data menggunakan algoritma kluster yang tersedia pada tools Weka, yaitu SimpleKMeans, X-Means, dan Farthest First. SimpleKMeans dan XMeans digunakan untuk mengolah dataset dan mengelompokan berdasarkan jumlah kluster tetap yang digunakan, sedangkan Farthest First akan meletakan semua pusat kluster pada titik terjauh dari pusat kluster yang sudah ada untuk mengelompokan data. Dataset berasal dari UCI machine learning dengan menggunakan 3 koleksi data, yaitu Enron Email, NIPS Proceedings, dan Daily Kos Blog entries. Performa dataset diuji dengan berbagai masukan parameter yang berbeda meliputi jumlah kluster hingga evaluasi sum squared error (SSE), serta iterasi selama proses pengolahan data. Hasil penelitian diharapkan dapat dijadikan acuan untuk menentukan algoritma dan parameter yang sesuai untuk melakukan pengelompokan data yang tidak memiliki label. 

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here