Pemodelan Bahasa untuk Large Language Model (LLM) Bahasa Indonesia: Evaluasi Bias dan Representasi Budaya dalam Dataset Pelatihan
DOI:
https://doi.org/10.64365/murabah.v2i1.235Keywords:
Linguistik Komputasi, Large Language Model (LLM), Bahasa Indonesia, Bias AI; Etika Kecerdasan BuatanAbstract
Pengembangan Large Language Model (LLM) untuk bahasa Indonesia menghadapi tantangan unik, terutama terkait kualitas, bias, dan representasi budaya dalam dataset pelatihan skala besar. Penelitian ini bertujuan untuk memodelkan dan mengevaluasi bias serta representasi budaya dalam kumpulan data teks yang digunakan untuk melatih LLM Bahasa Indonesia. Dengan pendekatan linguistik komputasi dan analisis korpus, penelitian ini akan mengumpulkan dan menganalisis dataset pelatihan dari sumber utama seperti berita daring, media sosial, sastra digital, dan teks resmi. Fokus evaluasi meliputi identifikasi bias demografis (gender, suku, agama), bias geografis (representasi Jawa vs luar Jawa), dan bias sosioekonomi yang tertanam dalam data. Selain itu, penelitian akan mengkaji sejauh mana elemen budaya Indonesia seperti nilai gotong royong, kesantunan berbahasa (unggah-ungguh), dan kearifan lokal terwakili atau terdistorsi. Hasil penelitian diharapkan dapat memetakan spektrum bias sistemik dalam dataset dan mengusulkan kerangka kerja pemodelan bahasa yang lebih etis dan representatif. Kontribusi penelitian ini adalah penyediaan panduan praktis untuk pengembangan LLM Bahasa Indonesia yang lebih adil, mengurangi risiko stereotip berbahaya, dan memastikan agar kecerdasan buatan buatan Indonesia mencerminkan keragaman budaya bangsanya secara lebih autentik.
Published
Issue
Section
License
Copyright (c) 2026 MUARA BAHASA : Jurnal Ilmiah Ilmu Bahasa & Komunikasi

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.



