Abstract:
Banyak model analisis sentimen yang tersedia berasal dari penelitian-penelitian sebelumnya yang memiliki cakupan yang spesifik pada topik atau produk tertentu. Cakupan yang spesifik merujuk pada dataset yang dibuat untuk tujuan tertentu, seperti misalnya untuk mengenali sentimen pada produk makanan atau pada
politikus tertentu. Dataset yang spesifik juga dapat menghasilkan bias pada hasil analisis sentimen yang dilakukan karena cakupan yang terbatas hanya pada topik atau produk tertentu. Dengan melakukan analisis sentimen pada dataset dengan tidak terfokus pada topik tertentu, maka dapat mengidentifikasi pola perilaku atau opini umum di kalangan masyarakat. Natural Language Processing dapat digunakan untuk melakukan text classification. BERT, MBERT, dan IndoBERT merupakan salah satu pre-trained model yang dapat melakukan proses NLP. Dataset yang digunakan berasal dari berbagai sumber plaform media sosial dengan jumlah total 12.760 data. Model IndoBERT memberikan performa model yang terbaik menggunakan konfigurasi rasio pembagian data sebanyak 90:10, untuk nilai 90?ta (11,484 data) digunakan untuk proses training dan validasi, serta 10?ta (1.276 data) digunakan untuk proses testing, 5 epoch dan batch size 16 mendapatkan hasil terbaik dengan nilai tingkat akurasi sebesar 92,71%, f1-score sebesar 89,82%, recall sebesar 89,02%, dan presisi sebesar 90,86%. Performa yang didapatkan lebih baik dibandingkan dengan model BERT dan MBERT dalam berbagai konfigurasi. model IndoBERT mampu mengklasifikasikan dengan benar sebanyak 1183 data dari total 1276 data uji.
Kata kunci: Analisis Sentimen, BERT, IndoBERT, MBERT, NLP