Kluster Bag of Word Menggunakan Weka | Zendy

Tari Mardiana | Zendy; Rudy Dwi Nyoto | Zendy

AI Assistant Blog Pricing

Home ZAIA Blog

Open Access

Kluster Bag of Word Menggunakan Weka

Author(s) -

Tari Mardiana,

Rudy Dwi Nyoto

Publication year - 2015

Publication title -

jurnal edukasi dan penelitian informatika (jepin)

Language(s) - English

Resource type - Journals

eISSN - 2548-9364

pISSN - 2460-0741

DOI - 10.26418/jp.v1i1.10145

Subject(s) - computer science , humanities , artificial intelligence , philosophy

Dalam bidang pengolahan bahasa alami dan sistem temu balik informasi, representasi sebuah data teks sangat penting untuk mendukung proses analisis data statistik di dalamnya. Data teks dengan bentuk tidak terstruktur dapat direpresentasikan secara sederhana menggunakan sekumpulan set kata yang disebut bag-of-words dan belum memiliki label atau kelas tertentu. Data unsupervised atau objek-objek yang belum memiliki label dapat dikelompokan menggunakan klustering berdasarkan kemiripan satu objek dengan objek lain. Artikel ini membahas perbandingan hasil pengelompokan unsupervised data menggunakan algoritma kluster yang tersedia pada tools Weka, yaitu SimpleKMeans, X-Means, dan Farthest First. SimpleKMeans dan XMeans digunakan untuk mengolah dataset dan mengelompokan berdasarkan jumlah kluster tetap yang digunakan, sedangkan Farthest First akan meletakan semua pusat kluster pada titik terjauh dari pusat kluster yang sudah ada untuk mengelompokan data. Dataset berasal dari UCI machine learning dengan menggunakan 3 koleksi data, yaitu Enron Email, NIPS Proceedings, dan Daily Kos Blog entries. Performa dataset diuji dengan berbagai masukan parameter yang berbeda meliputi jumlah kluster hingga evaluasi sum squared error (SSE), serta iterasi selama proses pengolahan data. Hasil penelitian diharapkan dapat dijadikan acuan untuk menentukan algoritma dan parameter yang sesuai untuk melakukan pengelompokan data yang tidak memiliki label.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.

Having issues? You can contact us here

Accelerating Research