Abstract:
Covid-19 merupakan jenis penyakit yang disebabkan oleh virus Corona yang muncul pada akhir tahun 2019 di Wuhan kemudian diumumkan pertama kali kasus Covid-19 di Indonesia pada Maret 2020. Selama pandemi ini, media sosial, khususnya twitter, telah menjadi salah satu platform yang paling banyak digunakan untuk berbagi informasi tentang Covid-19. Twitter merupakan salah satu wadah yang digunakan masyarakat untuk dapat saling berbagi informasi mengenai tanda-tanda maupun dampak dari virus Covid-19. Twitter menjadi platform populer untuk berbagi informasi tentang Covid-19, termasuk laporan mandiri dari individu yang mengalami gejala Covid-19 atau telah terinfeksi virus. Model pre-trained Bidirectional Encoder Representations from Transformers (BERT) merupakan model yang sedang popular di kalangan peneliti. Pada penelitian ini pesan gejala Covid-19 dari sosial media dianalisis menggunakan pre-trained model BERT dan IndoBERT. Diperoleh hasil akurasi BERT dengan dataset asli (tanpa preprocessing) sebesar 81,5%, akurasi BERT dengan dataset hasil preprocessing sebesar 82,0%, dan IndoBERT menggunakan dataset asli (tanpa preprocessing) akurasi sebesar 89,5%, serta IndoBERT menggunakan dataset hasil preprocessing akurasi sebesar 94,0%. Kata kunci: Klasifikasi Teks, Gejala Covid-19, Twitter, BERT, IndoBERT