Abstract:
Klasifikasi data dengan distribusi kelas yang tidak seimbang (imbalance class) menjadi kelemahan bagi beberapa algoritma klasifikasi. Klasifikasi dengan distribusi kelas yang tidak seimbang (imbalnce class) sering ditemui pada diagnosis penyakit misalnya pada penyakit diabetes. Tujuan dari penelitian ini adalah untuk mengetahui proses klasifikasi penyakit diabetes menggunakan Naive Bayes dengan Synthetic Minority Oversampling Technique (SMOTE) dan menganalisa performa kinerja dari Naive Bayes dengan SMOTE. SMOTE merupakan metode yang dapat menangani ketidakseimbangan kelas (imbalance class) pada sekelompok data. Model yang digunakan dalam penelitian ini ada dua yaitu klasifikasi Naive Bayes (model pertama) dan klasifikasi Naive Bayes dengan SMOTE (model kedua). Proses klasifikasi Naive Bayes diawali dengan membaca data training kemudian menghitung nilai mean dan standar deviasi, lalu menghitung nilai Likelihood Naive Bayes nya menggunakan fungsi densitas gauss. Sedangkan proses klasifikasi Naive Bayes dengan SMOTE diawali dengan sintetis data terlebih dahulu kemudian dilanjutkan dengan proses Naive Bayes sebelumnya. Dari hasil pengujian didapatkan model pertama menghasilkan nilai AUC sebesar 0,871 sedangkan model kedua menghasilkan nilai AUC sebesar 0,980. Kedua nilai AUC tersebut diuji dengan Paired Sample t-Test untuk melihat perbedaan kinerja model sebelum dan sesudah diterapkan metode SMOTE, menghasilkan p-value sebesar 0,003 artinya terdapat perbedaan antara model pertama dan model kedua dikarenakan nilai p-value < 0,05 (95% kepercayaan). Sehingga model terbaik untuk klasifikasi data Pima Indians Diabetes menggunakan model kedua yaitu klasifikasi Naive Bayes dengan SMOTE.