EVALUASI PERFORMA EKSTRAKSI FITUR BERBASIS N-GRAM DAN WORD2VEC PADA DATA TWITTER ANALISIS SENTIMEN COVID-19

Mohammad Ryan Fadhillah

Repo MHS
→
S1 - Skripsi
→
Fakultas Matematika dan Ilmu Pengetahuan Alam
→
S1 - Ilmu Komputer
→
View Item

dc.contributor.author	Mohammad Ryan Fadhillah
dc.date.accessioned	2023-09-21T10:24:19Z
dc.date.available	2023-09-21T10:24:19Z
dc.identifier.uri	https://repo-mhs.ulm.ac.id//handle/123456789/41911
dc.description.abstract	Data teks tidak dapat diproses langsung oleh algoritma pembelajaran mesin karena masih berupa data tidak terstruktur, sehingga perlu terlebih dahulu diubah menjadi data terstruktur melalui proses yang disebut ekstraksi fitur agar selanjutnya dapat dilakukan klasifikasi. Masih belum ada penelitian yang mencoba mengetahui pengaruh dari perubahan jumlah dataset yang digunakan pada tahap ekstraksi fitur tersebut terhadap hasil akurasi dari klasifikasi data. Oleh karena itu, perlu diketahui berapa besar pengaruh variasi jumlah data terhadap ekstraksi fitur dalam melakukan klasifikasi data. Evaluasi performa ekstraksi fitur dilakukan dengan menggunakan COVID-19 Indonesian Tweet Dataset. Variasi jumlah data yang digunakan adalah 400 data, 800 data, 1600 data, dan 3200 data. Penelitian ini menggunakan algoritma ekstraksi fitur N-Gram yaitu Unigram, Bigram, dan Trigram serta Word2Vec dengan algoritma klasifikasi Naïve Bayes Classifier. Algoritma klasifikasi membagi dataset tersebut menjadi dua kelas, yaitu positif dan negatif. Hasil penelitian menunjukkan hasil akurasi yang didapatkan tidak selalu bertambah seiring dengan bertambahnya jumlah data yang digunakan. Nilai akurasi tertinggi diperoleh ekstraksi fitur Unigram dengan menggunakan 3200 data yaitu sebesar 78.75%. Bigram dan Trigram juga memperoleh hasil akurasi tertinggi di 3200 data, sedangkan Word2Vec meraih hasil akurasi tertinggi di 800 data. Penelitian ini membuktikan bahwa variasi jumlah data yang lebih besar belum bisa menjamin bahwa nilai akurasi yang didapatkan akan lebih baik.
dc.title	EVALUASI PERFORMA EKSTRAKSI FITUR BERBASIS N-GRAM DAN WORD2VEC PADA DATA TWITTER ANALISIS SENTIMEN COVID-19