
Pendekatan Resampling Data Untuk Menangani Masalah Ketidakseimbangan Kelas
Author(s) -
Yosua Alberth Sir,
Agus H H Soepranoto
Publication year - 2022
Publication title -
jurnal komputer dan informatika/jurnal komputer and informatika
Language(s) - English
Resource type - Journals
eISSN - 2654-4091
pISSN - 2337-7631
DOI - 10.35508/jicon.v10i1.6554
Subject(s) - resampling , oversampling , mathematics , computer science , statistics , bandwidth (computing) , computer network
Masalah ketidakseimbangan kelas dalam bidang pembelajaran mesin adalah masalah yang muncul karena adanya perbedaan jumlah instance yang signifikan antara kelas minoritas dengan kelas mayoritas. Perbedaan rasio instance ini membuat classifier mengambil keputusan yang keliru pada saat klasifikasi yaitu cenderung lebih memilih kelas mayoritas serta mengabaikan kelas minoritas. Untuk menangani masalah tersebut kami menggunakan pendekatan resampling data. Pendekatan resampling yang dimaksud adalah penggunaan 6 jenis teknik resampling data yang populer, yaitu: (i) random oversampling (ROS), (ii) random undersampling (RUS), (iii) synthetic minority oversampling technique (SMOTE), (iv) adaptive synthetic sampling (ADASYN), (v) SMOTETomek, dan (vi) SMOTEENN untuk membuat rasio jumlah instance dari 15 jenis dataset menjadi seimbang. Selanjutnya dataset yang sudah seimbang diklasifikasi menggunakan algoritma random forest. Metrik yang digunakan sebagai alat ukur kinerja adalah geometric mean (G-Mean). Untuk membandingkan kinerja dari 6 jenis teknik resampling data maka nilai-nilai G-Mean ini diuji menggunakan uji statistik nonparametrik Friedman, dan jika hipotesis nol ditolak maka dilanjutkan dengan melakukan uji statistik Post Hoc Nemenyi. Berdasarkan pada nilai mean of ranks, teknik resampling yang paling baik adalah SMOTEENN (1,700), ADASYN (2,767), RUS (3,333), SMOTETomek (3,867), SMOTE (4,000), ROS (5,333).