Abstract:
Indonesia menjadi salah satu negara dengan penggunaan media sosial tertinggi di
era modern ini. Banyaknya jumlah pengguna media sosial di Indonesia
menyebabkan banyaknya kasus ujaran kebencian yang terjadi di Indonesia.
Kementerian Komunikasi dan Informatika Republik Indonesia telah menangani
3.640 kasus ujaran kebencian berbasis SARA di ruang digital sejak tahun 2018
hingga 26 April 2021. Keragaman demografis Indonesia sebagai negara kepulauan
dengan 1.340 suku bangsa dan 718 bahasa daerah memperkaya gaya komunikasi
pengguna media sosial dengan ekspresi budaya, logat, dan bahasa yang beragam.
Namun, media sosial tidak memiliki aturan penggunaan bahasa yang digunakan,
sehingga memungkinkan pengguna untuk menggunakan bahasa daerah. Hal ini
menjadi tantangan tersendiri dalam mendeteksi ujaran kebencian karena
terbatasnya sumber daya untuk bahasa daerah. Banyaknya ujaran kebencian yang
menyebar di media sosial membutuhkan adanya deteksi ujaran kebencian dengan
mengklasifikasikan unggahan yang mengandung konten tersebut. Klasifikasi
ujaran kebencian secara manual membutuhkan biaya yang besar dan tidak akurat.
Oleh karena itu, metode deteksi otomatis diperlukan untuk mengatasi masalah ini.
Ensemble method adalah metode menggabungkan beberapa model kemudian
menggabungkannya untuk menghasilkan akurasi yang lebih baik. Ensemble method
dengan performa terbaik dalam penelitian ini menggunakan ekstraksi fitur N-gram
dengan pengklasifikasi Support Vector Machine, Naïve Bayes, dan Decision Tree
yang digabungkan menggunakan metode soft voting dengan data dibagi ke dalam
rasio 80:20. Ensemble method mencapai akurasi 85,70%, presisi 85,99%, recall
85,70%, dan f1-score 85,64%.