Pemodelan Bahasa untuk Large Language Model (LLM) Bahasa Indonesia: Evaluasi Bias dan Representasi Budaya dalam Dataset Pelatihan

Authors

  • Fitriani Putri Universitas Wijaya Kusuma Surabaya Author
  • Galih Permadi Universitas Wijaya Kusuma Surabaya Author

DOI:

https://doi.org/10.64365/murabah.v2i1.235

Keywords:

Linguistik Komputasi, Large Language Model (LLM), Bahasa Indonesia, Bias AI; Etika Kecerdasan Buatan

Abstract

Pengembangan Large Language Model (LLM) untuk bahasa Indonesia menghadapi tantangan unik, terutama terkait kualitas, bias, dan representasi budaya dalam dataset pelatihan skala besar. Penelitian ini bertujuan untuk memodelkan dan mengevaluasi bias serta representasi budaya dalam kumpulan data teks yang digunakan untuk melatih LLM Bahasa Indonesia. Dengan pendekatan linguistik komputasi dan analisis korpus, penelitian ini akan mengumpulkan dan menganalisis dataset pelatihan dari sumber utama seperti berita daring, media sosial, sastra digital, dan teks resmi. Fokus evaluasi meliputi identifikasi bias demografis (gender, suku, agama), bias geografis (representasi Jawa vs luar Jawa), dan bias sosioekonomi yang tertanam dalam data. Selain itu, penelitian akan mengkaji sejauh mana elemen budaya Indonesia seperti nilai gotong royong, kesantunan berbahasa (unggah-ungguh), dan kearifan lokal terwakili atau terdistorsi. Hasil penelitian diharapkan dapat memetakan spektrum bias sistemik dalam dataset dan mengusulkan kerangka kerja pemodelan bahasa yang lebih etis dan representatif. Kontribusi penelitian ini adalah penyediaan panduan praktis untuk pengembangan LLM Bahasa Indonesia yang lebih adil, mengurangi risiko stereotip berbahaya, dan memastikan agar kecerdasan buatan buatan Indonesia mencerminkan keragaman budaya bangsanya secara lebih autentik.

Published

2026-02-27