Abstract:
SMS (Short Message Service) tidak saja dipergunakan untuk mengirimkan pesan
kepada orang yang sudah dikenal, melainkan juga dapat dipergunakan untuk
mengirim pesan kepada orang yang tidak dikenali untuk melakukan kejahatan seperti
penipuan. Hal tersebut berarti juga bahwa banyak pengguna sering menerima SMS
yang tidak dikehendaki atau istiliahkan sebagai spam. Oleh karena itu perlu adanya
tahapan untuk dapat dilakukan penyaringan SMS spam salah satunya dengan cara
mengklasifikasi SMS spam. Pada penelitian ini, dilakukan klasifikasi spam SMS
menggunakan Support Vector Machine dan ekstraksi fitur Average Base Word2vec
dengan pengelompokkan kata menggunakan Part Of Speech Tagging. Penelitiaan ini
melakukan 3 percobaan, percobaan 1 menggunakan ekstraksi fitur Average Base
Word2vec, percobaan 2 menggunakan ekstraksi fitur Average Base Word2vec dan
pengelompokkan kata POS Tagging, dan percobaan 3 menggunakan pergabungan
hasil ekstraksi fitur dari percobaan 1 dan 2. Pada ketiga percobaan tersebut
menggunakan korpus data SMS, artikel Wikipedia, dan pergabungan data SMS dan
artikel Wikipedia pada pembuatan model Word2vec. Akurasi tertinggi dihasilkan
oleh korpus pergabungan data SMS dan artikel Wikipedia pada percobaan 2 dengan
akurasi sebesar 94,18%. Dibandingkan dengan percobaan 1 dengan akurasi 94,03?n pada percobaan 3 dengan akurasi sebesar 93,73%.
Kata Kunci: SMS spam, Support Vector Machine, Klasifikasi, Text Mining, Word
Embedding, Word2Vec, ekstraksi fitur, POS tagging.