Satu Dekade Opinion Mining di Media Sosial — Teknik dan Metode (Bagian 1)

Syahroni Wahyu Iriananda
6 min readAug 25, 2023

--

Mengingat survei sistematis ini berfokus pada pendekatan penambangan opini yang menggunakan layanan jejaring sosial dan microblogging, kami mengidentifikasi platform media sosial yang digunakan dalam studi-studi dalam tinjauan ini.

Secara total, terdapat sebanyak 469 studi dievaluasi yang antara lain

  • 66 studi dari ACM
  • 155 studi dari IEEE Xplore
  • 32 studi dari ScienceDirect
  • 182 studi dari SpringerLink
  • 34 dari sumber lainnya.

Jumlah tersebut tidak termasuk makalah penelitian yang tidak memiliki akses penuh, survey dan makalah tugas.

Tujuan utamanya dari penelitian ini aadalah untuk mengidentifikasi teknik yang digunakan dalam proses analisis pendapat pada data sosial. Oleh karena itu, teknik-teknik tersebut dikategorikan dalam pendekatan-pendekatan berikut:

  • Lexicon (Lx),
  • Machine Learning (ML),
  • Deep Learning (DL),
  • Statistical (St),
  • Probabilistic (Pr),
  • Fuzziness (Fz),
  • Rule (Rl),
  • Graph (Gr),
  • Ontology (On),
  • Hybrid (Hy) — kombinasi dari lebih dari satu teknik,
  • Manual (Mn), dan
  • Lainnya (Ot).

Tabel berikut ini menyediakan statistik tahunan untuk semua pendekatan yang diadopsi.

Tabel Jumlah Artikel dan Teknik atau Pendekatan yang digunakan

Dari studi yang dianalisis, sebanyak 88 studi mengembangkan dan menggunakan lebih dari 1 teknik dalam studi mereka masing-masing. Teknik-teknik ini mencakup yang awalnya digunakan dalam pendekatan mereka dan/atau yang digunakan untuk tujuan perbandingan/baseline/eksperimen.

Khususnya, dari 88 studi ini, 65 studi menggunakan 2 teknik masing-masing, 17 studi menggunakan 3 teknik, 4 studi menggunakan 4 teknik, dan 2 studi menggunakan 5 teknik, yang totalnya mencapai 584 teknik yang digunakan dalam semua studi (termasuk studi yang menggunakan 1 teknik).

Hasilnya menunjukkan bahwa pendekatan hibrida adalah yang paling populer, dengan lebih dari setengah dari studi mengadopsi pendekatan seperti ini. Ini diikuti oleh teknik Machine Learning dan Lexicon, yang biasanya dipilih untuk melakukan berbagai bentuk analisis pendapat.

Pendekatan Leksikon (Lexicon Based)

Secara keseluruhan, sebanyak 94 studi unik mengadopsi pendekatan berbasis leksikon untuk melakukan bentuk SOM, yang menghasilkan total 96 teknik yang berbeda.

Sebagian besar leksikon yang digunakan berkaitan khusus dengan pendapat dan sudah dikenal dengan baik dalam domain ini, sedangkan yang lain yang tidak terkait juga masih dapat digunakan untuk melakukan analisis pendapat.

Tabel Jumlah Artikel dan Leksikon yang digunakan

Tabel tersebut menunjukkan jumlah leksikon (baris dan kolom pertama berjudul 1–8) yang digunakan oleh studi berbasis leksikon (baris kedua). Kolom yang berjudul “Lainnya/NA” merujuk pada leksikon umum lainnya, yang tidak mencantumkan leksikon umum yang disebutkan dalam studi seperti kamus akronim, kata penguat, kata yang meredam intensitas, kata-kata penyangkal, dan bahasa gaul internet, dan/atau studi yang tidak memberikan informasi tentang leksikon yang tepat yang digunakan.

Sebagian besar studi berbasis leksikon menggunakan satu atau dua leksikon, di mana total 144 leksikon mutakhir (55 leksikon unik) digunakan secara keseluruhan. Berikut adalah enam leksikon teratas berdasarkan penggunaan:

  1. SentiWordNet (Baccianella et al. 2010) — digunakan dalam 22 studi.
  2. Hu dan Liu (Hu dan Liu 2004) — digunakan dalam 12 studi.
  3. AFINN (Årup Nielsen 2011) dan SentiStrengthFootnote 45 (Thelwall et al. 2012) — digunakan dalam 9 studi.
  4. MPQA — Subjectivity (Wilson et al. 2005) — digunakan dalam 8 studi.
  5. HowNet Sentiment Analysis Word Library (HowNetSenti) — digunakan dalam 6 studi.
  6. NRC Word-Emotion Association Lexicon (juga dikenal sebagai NRC Emotion Lexicon atau EmoLex) (Mohammad dan Turney 2010, 2013), WordNet (Miller 1995), dan Wikipedia (daftar emotikon) — digunakan dalam 5 studi.

Selain leksikon yang disebutkan di atas, terdapat 19 studi menggunakan leksikon yang mereka buat sebagai bagian dari pekerjaan mereka atau secara khusus difokuskan pada pembuatan leksikon SOM, seperti :

  • (Årup Nielsen 2011) yang menciptakan daftar kata AFINN untuk analisis sentimen dalam mikroblog
  • (Javed et al. 2014) yang membangun leksikon sentimen dwibahasa untuk bahasa Inggris dan Roman Urdu
  • (Santarcangelo et al. 2015) pencipta tesaurus sentimen Italia pertama,
  • (Wu et al. 2016) untuk analisis sentimen bahasa Cina
  • (Bandhakavi et al. 2016) untuk analisis sentimen di Twitter.

Leksikon-leksikon ini bervariasi mulai dari yang paling mudah yaitu :

  • leksikon berfokus pada media sosial (Tian et al. 2015; Ghiassi dan Lee 2018; Pollacci et al. 2017),
  • leksikon sentimen dan/atau emotikon (Jurek et al. 2014; Molina-González et al. 2014; Khuc et al. 2012; Ranjan et al. 2018; Vo et al. 2017; Feng et al. 2015; Wang dan Wu 2015; Zhou et al. 2014)
  • perluasan dari leksikon mutakhir yang sudah ada (Li et al. 2016; Pandarachalil et al. 2015; Andriotis et al. 2014),
  • memperluas HowNetSenti (Li et al. 2016) dengan kata-kata yang dikumpulkan secara manual dari internet,
  • membangun leksikon sentimen (Pandarachalil et al. 2015) dari SenticNet(Cambria et al. 2020) dan SentiWordNet untuk kata-kata slang dan akronim.

Pendekatan Machine Learning

Sebanyak 121 studi mengadopsi pendekatan berbasis pembelajaran mesin untuk melakukan bentuk SOM, di mana digunakan beberapa algoritma terawasi (supervised machine learning) dan tidak terawasi (unsupervised machine learning).

Tabel di bawah ini menyajikan jumlah algoritma pembelajaran mesin (baris pertama dan kolom yang berjudul 1–7) yang digunakan oleh studi berbasis pembelajaran mesin (baris kedua). Kolom yang berjudul “NA” mengacu pada studi yang tidak memberikan informasi tentang algoritma yang tepat digunakan.

Statistik Jumlah Artikel dan Algortima ML yang digunakan

Sementara itu secara keseluruhan, terdapat 239 algoritma pembelajaran mesin yang digunakan (tidak berbeda) pada 117 studi (karena 4 studi tidak memberikan informasi apa pun), dengan 235 algoritma berjenis terawasi dan 4 algoritma tidak terawasi.

Penting untuk dicatat bahwa angka ini tidak termasuk algoritma yang diusulkan oleh penulis masing-masing untuk terawasi/semi-terawasi/tidak terawasi, yang akan dibahas di bawah ini.

Statistik jumlah artikel dan jumlah Algoritma yang digunakan

Tabel tersebut menyajikan pembagian dari 235 algoritma unsupervised machine learning (tidak berbeda) yang digunakan dalam studi-studi ini.

Naive Bayes

Algoritma NB dan SVM jelas menjadi yang paling populer dalam domain ini, terutama untuk klasifikasi teks. Mengenai NB, penting untuk dicatat bahwa 20 dari 75 studi menggunakan model Multinomial NB (MNB), yang biasanya digunakan untuk hitungan diskrit yaitu jumlah kali sebuah kata atau token muncul dalam sebuah dokumen. Studi lainnya, sebanyak 55, menggunakan model Multi-variate Bernoulli NB (MBNB), yang didasarkan pada data biner, di mana setiap token dalam vektor fitur suatu dokumen diklasifikasikan dengan nilai 0 atau 1.

Support Vector Machine (SVM)

Mengenai SVM, metode ini memeriksa data yang diberikan dan mengelompokkannya menjadi dua kategori (klasifikasi biner). Jika klasifikasi multi-kelas diperlukan, algoritma Support Vector Classification (SVC), NuSVC, atau LinearSVC biasanya diterapkan, di mana pendekatan “satu-lawan-satu” diterapkan untuk SVC dan NuSVC, sementara strategi multi-kelas “satu-lawan-yang-lain” diterapkan untuk LinearSVC.

Regresi Logistik

Teknik statistik Regresi Logistik (Logistics Regression/LoR) juga banyak digunakan dalam pembelajaran mesin untuk masalah klasifikasi biner. Secara total, 16 studi dari yang dianalisis menggunakan algoritma ini.

Decision Tree

Pembelajaran pohon keputusan (Decision Tree, DT) juga banyak digunakan, yang menggunakan model DT untuk masalah klasifikasi dan regresi. Ada berbagai algoritma dalam pembangunan DT, dengan 2 studi menggunakan C4.5 (Quinlan 1993) — sebuah pengembangan dari algoritma Iterative Dichotomiser 3 (ID3) milik Quinlan, digunakan untuk tujuan klasifikasi, 3 studi menggunakan J48, sebuah DT C4.5 sederhana untuk klasifikasi (implementasi Weka), 2 menggunakan Pohon Hoeffding (Hulten et al. 2001), dan 8 menggunakan algoritma dasar ID3.

Maximum Entropy (MaxEnt)

MaxEnt, digunakan oleh 12 studi, adalah klasifikasi probabilistik yang juga digunakan untuk masalah klasifikasi teks, seperti analisis sentimen.

Lebih spesifiknya, ini adalah generalisasi dari Regresi Logistik untuk skenario multi-kelas (Yu et al. 2011).

Random Forest (RF)

RF digunakan dalam 9 studi, di mana algoritma pembelajaran terawasi ini — yang dapat digunakan untuk tugas klasifikasi dan regresi — membuat hutan (kumpulan dari DT) dan membuatnya agak acak.

KNN

Selain itu, 7 studi menggunakan algoritma KNN, salah satu algoritma klasifikasi paling sederhana di mana tidak diperlukan pembelajaran, karena struktur model ditentukan dari seluruh kumpulan data.

SentiStrength

Algoritma SentiStrength, digunakan oleh 5 studi (Gonçalves et al. 2013; Lu et al. 2015; Baecchi et al. 2016; Yan et al. 2017; Zhang et al. 2018), dapat digunakan dalam kasus terawasi dan tidak terawasi, karena para penulis mengembangkan versi untuk setiap kasus pembelajaran.

Conditional Random Fields, digunakan oleh 4 studi (Pak dan Paroubek 2010; Zhang et al. 2014; Wang et al. 2016; Hao et al. 2017), adalah jenis klasifikasi diskriminatif yang memodelkan batas keputusan di antara kelas-kelas yang berbeda.

Linear Regression (LiR) juga digunakan oleh 4 studi (Bollen et al. 2011; Pavel e al. 2017; Adibi et al. 2018; Xiaomei et al. 2018).

Selain itu, 3 studi masing-masing menggunakan algoritma optimasi SANT (Ou et al. 2014; Lu 2015; Xiaomei et al. 2018) dan Stochastic Gradient Decent (SGD) (Bifet and Frank 2010; Juneja and Ojha 2017; Sánchez-Holgado and Arcila-Calderón 2018), dengan yang pertama sebagian besar digunakan untuk tujuan perbandingan dengan pendekatan yang diajukan oleh penulis masing-masing.

Sumber

https://link.springer.com/article/10.1007/s10462-021-10030-2

--

--