PENDETEKSIAN BAHASA KASAR (ABUSIVE LANGUAGE) DAN UJARAN KEBENCIAN (HATE SPEECH) DARI KOMENTAR DI JEJARING SOSIAL

Luh Putu Ary Sri Tjahyanti

Abstract

Bahasa kasar merupakan ekspresi yang berisi kata-kata kasar atau frase kasar atau kotor baik dalam konteks lelucon, pelecehan seks vulgar atau mengutuk seseorang. Namun bahasa kasar sering mengarah ke ujaran kebencian yang penyebarannya dilarang di ruang publik seperti jejaring sosial. Jejaring sosial yang digunakan dalam penelitian ini adalah Twitterkarena data tweets-nya dapat diambil melalui Twitter API dan Tweepy Library. Ujaran kebencian dapat ditentukan berdasarkan tingkatan, target, dan kategori. Artikel ini membahas klasifikasi teks multi-label menggunakan algoritma klasifikasi sepertiNaïve Bayes (NB), Support Vector Machine (SVM), dan Random Forest Decision Tree (RFDT). Ekstraksi fitur yang digunakan untuk klasifikasi adalah fitur frekuensi istilah seperti kata n-gram dan hurufn-gram. Penelitian ini melakukan dua skenario dengan jenis label yang berbeda untuk menemukan akurasi tertinggi yang mungkin dapat dicapai oleh pengklasifikasi. Pada skenario pertama, NB dengan fitur kata unigram + bigrams memberikan hasil terbaik dengan 71,15% dari F1– Score.Sedangkan untuk skenario kedua, terlihat bahwa NB dengan kata unigram memberikan hasil terbaik dengan 87,26% dari F1– Score.

Full Text:

PDF

Refbacks

  • There are currently no refbacks.