Abstract:
Data teks tidak dapat diproses langsung oleh algoritma pembelajaran mesin karena
masih berupa data tidak terstruktur, sehingga perlu terlebih dahulu diubah menjadi data
terstruktur melalui proses yang disebut ekstraksi fitur agar selanjutnya dapat dilakukan
klasifikasi. Masih belum ada penelitian yang mencoba mengetahui pengaruh dari
perubahan jumlah dataset yang digunakan pada tahap ekstraksi fitur tersebut terhadap
hasil akurasi dari klasifikasi data. Oleh karena itu, perlu diketahui berapa besar
pengaruh variasi jumlah data terhadap ekstraksi fitur dalam melakukan klasifikasi
data. Evaluasi performa ekstraksi fitur dilakukan dengan menggunakan COVID-19
Indonesian Tweet Dataset. Variasi jumlah data yang digunakan adalah 400 data, 800
data, 1600 data, dan 3200 data. Penelitian ini menggunakan algoritma ekstraksi fitur
N-Gram yaitu Unigram, Bigram, dan Trigram serta Word2Vec dengan algoritma
klasifikasi Naïve Bayes Classifier. Algoritma klasifikasi membagi dataset tersebut
menjadi dua kelas, yaitu positif dan negatif. Hasil penelitian menunjukkan hasil
akurasi yang didapatkan tidak selalu bertambah seiring dengan bertambahnya jumlah
data yang digunakan. Nilai akurasi tertinggi diperoleh ekstraksi fitur Unigram dengan
menggunakan 3200 data yaitu sebesar 78.75%. Bigram dan Trigram juga memperoleh
hasil akurasi tertinggi di 3200 data, sedangkan Word2Vec meraih hasil akurasi
tertinggi di 800 data. Penelitian ini membuktikan bahwa variasi jumlah data yang lebih
besar belum bisa menjamin bahwa nilai akurasi yang didapatkan akan lebih baik.