Main Article Content

Abstract

Pesan singkat atau yang biasa disebut dengan SMS (Short Message Service) adalah pesan elektronik dengan memanfaatkan teknologi mengirim dan menerima pesan pada sebuah device atau smartphone. Saat ini penyeberan penerimaan pesan singkat sulit dikendalikan, dari nomor yang tidak dikenal. Pesan singkat dapat digolongkan menjadi beberapa kelas yaitu, pesan singkat normal, pesan singkat promo, dan pesan singkat penipuan. Karena banyaknya pesan singkat yang masuk, maka penilitian ini melakukan klasifikasi Penyalahgunaan pesan singkat menggunakan algoritma naïve bayes dengan PySpark. Tujuan dari penelitian ini adalah untuk membedakan atau mengklasifikasikan pesan singkat normal, promo, dan penipuan. Dataset pada penelitian ini menggunakan data berbahasa indonesia dengan jumlah 1143 data. Dari hasil pengujian berdasarkan metode yang diusulkan yaitu Algoritma naïve bayes mendapatkan nilai akurasi precision 94%, recall 92%, f1-score 93% dan accuracy sebesar 94%.

Keywords

Klasifikasi Naive Bayes Penyalahgunaan Pesan Singkat Machine Learning PySpark

Article Details

References

  1. [1] Devinta Nurul F, Niken A.S., Ahmad Y. 2020. Perbandingan Algoritma Naïve Bayes, SVM, Dan Decision Tree untuk Klasifikasi Penyalahgunaan pesan singkat. JUSIM (Jurnal Sistem Informasi Musirawas), Vol 05 No 02 Desember 2020. https://doi.org/10.32767/jusim.v5i02.956
  2. [2] Mariohengki, Mochamad. 2020. Klasifikasi Algoritma Naïve Bayes dan SVM Berbasis PSO Dalam Memprediksi Spam Email Pada Hotline-Sapto. Paradigma. Vol. 22 No 1, Maret 2020. https://doi.org/10.31294/p.v21i2
  3. [3] Reviantika, Ferin. 2021. Analisis Klasifikasi Penyalahgunaan pesan singkat Menggunakan Logistic Regression. Vol 04 -No 03eISSN : 2622-8254 Hal :155 -160
  4. [4] Setiyono, A., & Pardede, H. 2019. KLASIFIKASI PENYALAHGUNAAN PESAN SINGKAT MENGGUNAKAN SUPPORT VECTOR MACHINE. Jurnal Pilar Nusa Mandiri, 15(2), 275-280. https://doi.org/10.33480/pilar.v15i2.693
  5. [5] P. M. Prihatini, I. K. G. Darma Putra, I. A. Dwi Giriantari, and M. Sudarma, “Fuzzy-Gibbs Latent Dirichlet Allocation Model for Feature Extraction on Indonesian Documents,” Contemporary Engineering Sciences (CES), vol. 10, no. 9, pp. 403–421, 2017.
  6. [6] Komang. N. W., dkk. 2018. Seleksi Fitur Bobot Kata dengan Metode TF-IDF untuk Ringkasan Bahasa Indonesia. Merpati. Vol. 6, No. 2.
  7. [7] Marta, T., Yuridis, E., Butar, B., & Fauzi, M. A. 2019. Penentuan Rating Review Film menggunakan Metode Multinomial Naïve Bayes Classifier dengan Feature Selection berbasis Chi-Square dan Galavotti-Sebastiani-Simi Coefficient. Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya, 3(1), 447–453
  8. [8] Dragut, E., Fang, F., Sistla, P., Yu, C., & Meng, W. (2009). Stop Word and Related Problems in Web Interface Integration. VLDB Endowment.
  9. [9] L. Mohan, J. Pant, P. Suyal, and A. Kumar, “Support Vector Machine Accuracy Improvement with Classification,” Proc. - 2020 12th Int. Conf. Comput. Intell. Commun. Networks, CICN 2020, pp. 477–481, 2020, doi: 10.1109/CICN49253.2020.9242572.
  10. [10] N. Cristianini and J. Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Method. Cambridge University Press, 2000.