Open Access
Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes
Author(s) -
Eko Saputro,
Didi Rosiyadi
Publication year - 2022
Publication title -
bianglala informatika (e-journal)
Language(s) - English
Resource type - Journals
ISSN - 2338-9761
DOI - 10.31294/bi.v10i1.11739
Subject(s) - mathematics , statistics , artificial intelligence , computer science
Penyakit diabetes merupakan salah satu penyakit yang mematikan dan jumlah penderita setiap tahunnya meningkat. Upaya pencegahan dan pengendalian diabetes ini sebaiknya dilakukan melalui edukasi deteksi dini sebagai identifikasi awal individu. Jumlah data penderita diabetes melitus yang banyak dan perlu dilakukan seleksi fitur-fitur pada dataset. Penggunaan teknik machine learning dapat memberikan kemudahan dalam melakukan pemodelan tetapi juga terdapat beberapa permasalahan. Penggunaan algoritma yang tidak sesuai akan menurunkan tingkat akurasi dari klasifikasi. Permasalahan yang lain yaitu apabila dataset yang digunakan merupakan dataset dengan distribusi kelas yang tidak seimbang. Untuk mengatasi permasalahan tersebut dengan menerapkan teknik pendekatan level data dengan menerapkan metode resampling serta membandingkan beberapa metode algoritma seperti Algoritma C4.5, Naive Bayes, K-Nearest Neightbour, Support Vector Machine, Neural Network dan Random Forest. Hasil kinerja yang diperoleh menunjukan bahwa model pengklasifikasi Random Over-Under Sampling Random Forest memiliki nilai accuracy yang lebih tinggi dibandingkan dengan beberapa model lainnya dengan nilai accuracy sebesar 0,9808 atau 98,08% yang dan nilai AUC sebesar 0.9809 atau 98,09%. Pada pengujian dataset asli juga menghasilkan akurasi yang tinggi dengan nilai akurasi yaitu 0,9923 atau 99,23% dan nilai AUC 0,9919. Maka dapat disimpulkan bahwa Algoritma tersebut memiliki performa terbaik dan dapat digunakan untuk menyelesaikan masalah pada klasifikasi penentuan penyakit diabetes.Kata Kunci: Klasifikasi diabetes, Random Over-Under Sampling, Random ForestDiabetes is one of the deadly diseases. The number of sufferers is increasing every year. Efforts to prevent and control diabetes should be carried out through early detection as an individual early. The amount of data for people with diabetes mellitus is large and it is necessary to select features in the dataset. The use of machine learning techniques can provide convenience in modeling but there are also some problems. Inappropriate use will reduce the accuracy of the classification. Another problem is if the data set used is a data set with an unbalanced class distribution. To overcome this problem by applying a data level approach by applying the resampling method and comparing several algorithm methods such as the C4.5 Algorithm, Naive Bayes, K-Nearest Neighbor, Support Vector Machine, Neural Network and Random Forest. The results obtained indicate that the classifier of the Random Over-Under Sampling Random Forest model has a higher accuracy value compared to several other models with an accuracy value of 0.9808 or 98.08% and an AUC value of 0.9809 or 98.09%. In testing the original dataset, the quality of accuracy is also high with an accuracy value of 0.9923 or 99.23% and an AUC value of 0.9919. So it can be said that the algorithm has the best performance and can be used to solve problems in various diabetes diseases.Keywords: Diabetes classification, Random Over-Under Sampling, Random Forest