Abstract:
Pada saat melakukan survei data penghilangan nilai atau tidak lengkapnya data
dapat terjadi, sehingga metode analisis yang tersedia hanya dapat bekerja dengan data
lengkap. Pada penelitian ini melakukan penghilangan nilai dengan jumlah proporsi
penghilangan yaitu 10%, 20?n 30%. Tujuan dari penelitian ini yaitu untuk
mengetahui hasil akurasi dari imputasi data hilang dengan K-NNI menggunakan
klasifikasi Random Forest dan klasifikasi Random Forest tanpa imputasi. Metode
penelitian dilakukan dengan Dataset publik Pima Indian Diabetes lalu dengan data
yang lengkap dilakukan pengosongan data menggunakan MCAR (Missing Completely
At Random). Kemudian, dilakukan 2 model yaitu yang pertama imputasi data hilang
dengan K-NNI dan klasifikasikan dengan Random Forest. Kedua, klasifikasi Random
Forest tanpa imputasi. Berdasarkan dari hasil akurasi K-NNI menggunakan klasifikasi
Random Forest didapatkan akurasi terbaik pada penghilangan nilai sebanyak 10?n
nilai K = 6 yaitu sebesar 82,17?ngan presisi 76,71%, recall 70,00?n f1-Score
73,20%. Kemudiann untuk hasil akurasi dari klasifikasi Random Forest tanpa imputasi
didapatkan pada penghilangan nilai 10% sebesar 80,00?ngan presisi 64,52%,
recall 68,97?n f1-Score 66,67%. Namun, pada pengujian missing data tanpa
imputasi K-NNI menggunakan klasifikasi Random Forest memperoleh hasil yang
tidak lebih baik dari hasil akurasi K-NNI menggunakan klasifikasi Random Forest.