z-logo
open-access-imgOpen Access
Perbandingan Performa Model Data Mining untuk Prediksi Dropout Mahasiwa
Author(s) -
Muchamad Taufiq Anwar,
Denny Rianditha Arief Permana
Publication year - 2021
Publication title -
jurnal teknologi dan manajemen/jurnal teknologi and manajemen
Language(s) - English
Resource type - Journals
eISSN - 2808-9995
pISSN - 1693-2285
DOI - 10.52330/jtm.v19i2.34
Subject(s) - artificial intelligence , mathematics , quadratic classifier , machine learning , statistics , pattern recognition (psychology) , computer science , support vector machine
Penentuan teknik/model data mining yang tepat pada sebuah kasus sangat penting untuk mendapatkan model yang baik (tingkat akurat tinggi dan kesesuaiannya dengan masalah yang dipecahkan). Penelitian ini bertujuan untuk membandingkan performa teknik data mining untuk diterapkan pada kasus prediksi dropout mahasiswa. Perbandingan performa dilakukan menggunakan library PyCaret pada Python untuk melakukan pemodelan menggunakan 14 model / teknik data mining yaitu: Extreme Gradient Boosting, Ada Boost Classifier, Light Gradient Boosting Machine, Random Forest Classifier, Gradient Boosting Classifier, Extra Trees Classifier, Decision Tree Classifier, K Neighbors Classifier, Naive Bayes, Ridge Classifier, Linear Discriminant Analysis, Logistic Regression, SVM - Linear Kernel, dan Quadratic Discriminant Analysis. Metrik evaluasi performa model yang digunakan yaitu Accuracy, AUC, Recall, Precision, F1, Kappa, dan MCC (Matthews correlation coefficient). Hasil eksperimen menunjukkan bahwa kasus prediksi dropout mahasiswa lebih tepat jika dimodelkan dengan model berbasis ensemble learner dan pohon keputusan dengan akurasi mencapai 99%. Pohon keputusan memiliki keunggulan dibandingkan model lain seperti SVM - Linear Kernel dan Quadratic Discriminant Analysis karena ia dapat dengan lebih detil dalam memisahkan data ke dalam kedua kelas target. Setelah dilakukan penyesuaian atribut, pembuangan data dengan missing values, dan parameter tuning, didapatkan hasil akurasi yang mirip dari berbagai model yaitu sebesar 87%. Perbedaan akurasi antar model menjadi sangat kecil di saat atribut data yang digunakan sedikit.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here