Abstract:
Diabetes merupakan salah satu penyakit yang paling berbahaya yang berada di
urutan ketiga paling mematikan di Indonesia setelah stroke dan jantung. Banyak
cara untuk mendeteksi penyakit ini lebih dini, salah satunya adalah dengan
melakukan klasifikasi dengan menggunakan machine learning. Pada penelitian ini,
menggunakan teknik Interquartile Range untuk melakukan deteksi data outlier
pada suatu dataset kemudian teknik SMOTE untuk melakukan oversampling data.
Data yang digunakan adalah Pima Indian Diabetes yang memiliki jumlah kelas
positif sebanyak 268 data dan kelas negatif sebanyak 500 data. Penelitian dilakukan
dengan membandingkan model K-Nearest Neighbors dengan dan tanpa
oversampling pada data outlier berserta penerapan oversampling pada keseluruhan
data untuk melihat model yang lebih baik dalam mengklasifikasikan diabetes. Dari
perbandingan tersebut, diperoleh hasil bahwa model KNN + IQR-SMOTE
merupakan model yang terbaik dari semua model berdasarkan dengan performa f1-
score sebesar 68,04%.