Abstract:
Prediksi cacat software sering digunakan dalam proses pengujian perangkat lunak untuk membantu meminimalisir biaya, waktu dan sumber daya dalam pengembangan perangkat lunak. Prediksi cacat software biasanya juga digunakan dalam penelitian untuk mencari tahu tentang performa dari sebuah model prediksi dengan menggunakan berbagai macam dataset metrik software, seperti NASA MDP. Namun, permasalahan yang ada pada dataset metrik software adalah adanya redudansi data, korelasi, dan fitur yang tidak relevan, sehingga perlu dilakukan seleksi fitur untuk menangani redudansi data dan fitur yang tidak relevan tersebut. Pada penelitian ini melakukan kombinasi seleksi fitur untuk mendapatkan fitur-fitur yang dianggap penting dengan menggunakan pendekatan multi-interseksi dari beberapa perangkingan fitur, yaitu Information Gain, ReliefF, dan Chi Square. Setiap perangkingan fitur memiliki fitur yang dianggap penting, yaitu fitur yang memiliki nilai bobot lebih besar sama dengan nilai median. Fitur yang dianggap penting dari masing-masing perangkingan tersebut digabungkan dengan menggunakan teknik multi-interseksi dan mendapatkan subset fitur yang baru. Subset fitur baru digunakan dalam klasifikasi menggunakan algoritma Naive Bayes. Proses seleksi fitur dan klasifikasi ini dilakukan dalam Stratified 10-Fold Cross Validation. Hasil AUC yang diperoleh dari masing-masing dataset D’’ NASA MDP adalah CM1 sebesar 0,6405, JM1 sebesar 0,6221, KC1 sebesar 0,6531, KC3 sebesar 0,6380, MC1 sebesar 0,6416, MC2 sebesar 0,6207, MW1 sebesar 0,7075, PC1 sebesar 0,6575, PC2 sebesar 0,6307, PC3 sebesar 0,7218, PC4 sebesar 0,7883, dan PC5 sebesar 0,6346. Sedangkan dataset yang mengalami meningkatan AUC jika dibandingkan klasifikasi tanpa seleksi fitur adalah KC3, PC1, PC3, dan PC5.