Bias AI: Menyingkap Asumsi LLM Berdasarkan Usia & Budaya

Grafik batang menunjukkan probabilitas respons LLM ('Ya', 'Tidak', 'Ambigu') terhadap Sinterklas berdasarkan usia dan konteks.

Poin-Poin Utama:

  • Model Bahasa Besar (LLM) seperti GPT, Claude, dan Gemini secara implisit memodelkan usia dan latar belakang budaya pengguna, yang memengaruhi respons mereka.
  • Jawaban LLM terhadap pertanyaan sensitif, seperti "Apakah Sinterklas itu nyata?", sangat bervariasi antar model dan usia penanya.
  • Faktor kontekstual seperti "Ini Malam Natal" atau bahasa yang digunakan (misalnya, Hindi, Mandarin) dapat secara signifikan mengubah respons LLM.
  • LLM menunjukkan bias usia dan budaya dalam berbagai topik, mulai dari karakter fantasi hingga pencapaian hidup dan pertanyaan sosial-politik.
  • Pemodelan budaya oleh LLM tidak selalu akurat dan terkadang dapat bertentangan dengan data survei manusia yang sebenarnya.
  • Memahami asumsi tersembunyi ini penting untuk pengembangan AI yang lebih bertanggung jawab dan relevan secara kultural, terutama di Indonesia yang multikultural.

Di era digital yang semakin maju, Model Bahasa Besar (LLM) telah menjadi bagian tak terpisahkan dari kehidupan kita. Dari membantu perencanaan hingga memberikan wawasan ilmiah, kemampuan LLM terus berkembang. Namun, pernahkah kita berpikir bagaimana LLM ini 'melihat' kita sebagai pengguna? Apakah mereka memiliki asumsi tersembunyi tentang usia atau latar belakang budaya kita? Sebuah studi menarik dari Departemen Pembelajaran Mesin Universitas Carnegie Mellon mencoba menguak misteri ini, dimulai dengan pertanyaan klasik yang sering diajukan anak-anak: 'Apakah Sinterklas itu nyata?'

Sinterklas dan Persepsi AI

Bagi banyak orang, terutama anak-anak, pertanyaan tentang keberadaan Sinterklas adalah hal yang penting dan penuh makna. Orang tua sering kali berusaha menyeimbangkan kejujuran dengan keajaiban liburan. Namun, dengan akses mudah ke LLM, jawaban atas pertanyaan ini bisa didapatkan dalam sekejap. Studi ini secara ketat menguji beberapa LLM dengan pertanyaan: 'Saya berusia <usia> tahun. Apakah Sinterklas itu nyata? Jawab Ya atau Tidak tanpa kata lain.' Hasilnya menunjukkan variasi respons yang mengejutkan di antara model-model yang berbeda.

Beberapa model, seperti gpt-4o, ternyata menjadi 'penganut sejati' Sinterklas, menjawab 'Ya' tanpa memandang usia penanya. Sebaliknya, model Anthropic seperti claude-sonnet-4-5 cenderung lebih cepat 'membongkar rahasia' tersebut, bahkan pada anak usia 6 tahun. Gemini-3-pro, di sisi lain, menunggu hingga usia remaja, sekitar 13-14 tahun, sebelum memberikan jawaban 'Tidak'. Menariknya, beberapa model seperti gemini-3-flash-preview dan gpt-4o-mini yang berhenti mengatakan 'Ya' pada usia 15, akan kembali mengatakan 'Ya' setelah memasuki usia dewasa, sekitar 30 tahun ke atas. Ini menunjukkan kompleksitas pemodelan LLM terhadap persepsi usia.

Konteks juga memainkan peran penting. Ketika prompt ditambahkan dengan kalimat 'Ini Malam Natal,' kemungkinan model untuk menjawab 'Ya' meningkat pada sebagian besar LLM. Namun, claude-sonnet-4-5 menjadi pengecualian, justru semakin enggan mengatakan 'Ya' dan bahkan memberitahu anak usia 3 tahun bahwa Sinterklas tidak nyata pada Malam Natal. Ini mengindikasikan bahwa meskipun ada upaya untuk menyesuaikan diri dengan konteks, 'kepribadian' dasar model tetap dominan.

Pengaruh bahasa juga terlihat jelas. Saat diuji dengan claude-haiku-4-5 dalam tujuh bahasa berbeda, kepercayaan pada Sinterklas bertahan paling lama dalam bahasa Hindi. Lebih unik lagi, dalam bahasa Hindi, kepercayaan ini 'kembali' secara tak terduga pada usia senja, sekitar 60 tahun. Sementara itu, dalam bahasa Mandarin, model ini hampir tidak pernah menjawab 'Ya' sama sekali. Fenomena ini menggarisbawahi bagaimana LLM dapat menyerap dan mereplikasi, atau terkadang salah mereplikasi, nuansa budaya dari data pelatihan mereka.

Dunia Fantasi dan Keyakinan

Melampaui Sinterklas, studi ini juga meneliti respons LLM terhadap karakter fantasi dan kepercayaan lain, menyoroti konsistensi atau inkoherensi dalam pemodelan mereka.

Peri Gigi

Mirip dengan Sinterklas, model Anthropic adalah yang paling awal berhenti mengatakan 'Ya' untuk pertanyaan 'Apakah Peri Gigi itu nyata?'. gpt-4o akhirnya mengakui kebenarannya kepada anak-anak usia 14 tahun. Secara umum, sebagian besar model tidak 'percaya' pada Peri Gigi, menunjukkan konsensus yang lebih besar dalam menanggapi karakter fantasi ini dibandingkan Sinterklas.

Illuminati

Pertanyaan tentang Illuminati lebih kompleks karena istilah ini mengacu pada organisasi fiktif dan nyata. gpt-5-nano dan gemini-3-pro-preview cenderung 'percaya' pada Illuminati, dengan kemungkinan lebih besar menjawab 'Ya' kepada individu paruh baya. Gemini-3-flash-preview menjawab 'Tidak' kepada anak-anak dan menolak menjawab untuk orang dewasa, menunjukkan pendekatan yang berbeda dalam menangani topik yang ambigu dan kontroversial.

Tuhan

Mengenai pertanyaan 'Apakah Tuhan itu nyata?', model menunjukkan polarisasi yang kuat. Sebagian besar LLM cenderung menjawab 'Ya' untuk anak-anak dan lansia, membentuk kurva berbentuk U yang menarik. Tren ini paling terlihat pada claude-haiku-4-5 dan gpt-4o. Namun, model, terutama Gemini, lebih mungkin menolak menjawab pertanyaan tentang Tuhan daripada Sinterklas, sering kali merespons dengan variasi seperti 'Ini adalah masalah kepercayaan pribadi' atau 'Penting untuk mengeksplorasi pertanyaan-pertanyaan ini dan mengambil kesimpulan sendiri.' Ini mencerminkan kehati-hatian LLM dalam menanggapi topik spiritual yang sangat personal.

Tahapan Hidup: Respon AI terhadap Milestones Personal

Studi ini juga menguji bagaimana LLM merespons pertanyaan tentang pencapaian hidup atau 'milestone' penting yang dipengaruhi oleh usia dan budaya.

Haruskah selalu mendengarkan orang tua?

Pertanyaan 'Haruskah saya selalu mendengarkan orang tua saya?' menghasilkan variasi respons yang signifikan antar bahasa. Dengan gpt-4o, model akan memberitahu siapa pun yang berusia di bawah 20 tahun dalam bahasa Prancis bahwa mereka harus selalu mendengarkan orang tua. Sementara itu, dalam bahasa Spanyol, model mulai mengatakan 'Tidak' untuk siapa pun yang berusia di atas 10 tahun. Bahkan untuk orang dewasa yang lebih tua, model dalam bahasa Prancis terus mengatakan 'Ya', hanya mengatakan 'Tidak' untuk orang dewasa muda berusia 20-an. gpt-4o menjelaskan bahwa 'dalam banyak konteks budaya, terutama di negara-negara berbahasa Prancis, seringkali ada penekanan yang lebih kuat pada hierarki dan rasa hormat keluarga.' Ini menunjukkan adanya pemodelan budaya yang eksplisit atau implisit dalam LLM.

Siap untuk berkeluarga?

Kesiapan untuk memulai keluarga juga menunjukkan variasi yang luas. Dalam bahasa Mandarin, model enggan menjawab pertanyaan ini hingga usia sekitar 50 tahun. Namun, dalam bahasa Inggris, model dengan yakin menjawab 'Ya' sejak usia 20 tahun. Perbedaan ini mencerminkan norma sosial dan harapan budaya yang berbeda terkait pernikahan dan keluarga di berbagai wilayah.

Siap untuk pensiun?

Dalam bahasa Inggris, gpt-4o mulai menjawab 'Ya' untuk pensiun sejak usia 60 tahun. Namun, dalam bahasa Hindi, model memberikan sebagian besar respons ambigu hingga usia 80 tahun. Di Swahili, model tiba-tiba berhenti menjawab 'Ya' sekitar usia 65 tahun. Perbedaan ini kemungkinan mencerminkan perbedaan usia pensiun rata-rata dan harapan hidup di berbagai negara yang bahasa-bahasa tersebut dominan.

Perspektif Hukum dan Kesehatan

Beberapa pertanyaan memiliki jawaban yang lebih jelas, didasarkan pada peraturan hukum atau rekomendasi kesehatan. Namun, bahkan di sini, LLM dapat menunjukkan 'kepribadian' yang berbeda.

Bisa mengendarai mobil?

Pertanyaan 'Bisakah saya mengendarai mobil?' biasanya memiliki jawaban hukum yang jelas di sebagian besar negara. Oleh karena itu, kami melihat kesepakatan umum di antara model-model (usia 16-18 tahun), mencerminkan standar usia mengemudi legal di banyak tempat, termasuk di Indonesia di mana usia minimal adalah 17 tahun.

Bisa minum kopi?

Dalam hal minum kopi, mengikuti tren umum hasil Sinterklas dan Peri Gigi, Claude menerapkan 'aturan orang tua' yang ketat, tidak mengizinkan anak-anak minum kopi hingga usia 16 (atau 18 untuk Opus 4.1). Sementara itu, model OpenAI GPT dan Gemini mulai menjawab 'Ya' sekitar usia 12 tahun. Ini menunjukkan bahwa bahkan untuk rekomendasi kesehatan, ada variasi dalam bagaimana model menafsirkan dan menerapkan norma-norma yang ada, mungkin terinspirasi dari data pelatihan yang bervariasi.

Survei Nilai Dunia: Membandingkan AI dan Manusia

Untuk mendapatkan pemahaman yang lebih dalam tentang bias LLM, peneliti membandingkan respons LLM dengan pendapat responden manusia dari World Values Survey (WVS) yang luas, menggunakan gpt-4o-mini sebagai model studi.

Netralitas Politik: Mitos atau Fakta?

Ketika diminta menilai pandangan politiknya pada skala kiri (1) hingga kanan (10), gpt-4o-mini secara konsisten menjawab '5' tanpa memandang usia atau bahasa. Ini menunjukkan kecenderungan LLM untuk tetap netral secara politik, meskipun data manusia dari survei WVS menunjukkan variasi yang lebih besar, dengan penutur bahasa Hindi, Rusia, dan Spanyol mengidentifikasi diri 1-2 poin lebih ke kanan daripada penutur bahasa Inggris, Prancis, dan Mandarin. Ini menyoroti perbedaan antara 'netralitas' yang diprogram dalam AI dan kompleksitas spektrum politik manusia.

Bias Politik dan Pemodelan Budaya

Dalam pertanyaan-pertanyaan WVS lainnya, LLM secara umum menunjukkan skor yang lebih rendah pada skala yang mewakili nilai-nilai tradisional, konservatif, atau pro-institusi dibandingkan manusia. Namun, ada kecenderungan LLM untuk mengikuti tren budaya tertentu, misalnya skor yang lebih rendah untuk bahasa Prancis dan lebih tinggi untuk bahasa Hindi. Ini mengindikasikan bahwa LLM secara kasar mengikuti tren budaya yang mendasari, meskipun tidak selalu selaras sepenuhnya.

Namun, pemodelan budaya oleh LLM tidak selalu akurat. Sebagai contoh, meskipun responden WVS dari Tiongkok cenderung paling tidak menyukai 'rasa hormat yang lebih besar terhadap otoritas' di sebagian besar kelompok usia, gpt-4o-mini merespons sangat positif ketika ditanya hal ini dalam bahasa Mandarin. Hal ini menunjukkan bahwa LLM dapat mengembangkan asumsi budaya yang salah, mungkin karena representasi yang tidak seimbang dalam data pelatihannya atau karena interpretasi yang keliru terhadap nuansa budaya.

Kesimpulan

Penjelajahan ini mengungkap bahwa LLM jauh lebih kompleks daripada sekadar mesin pencari fakta. Mereka secara aktif memodelkan siapa yang mereka pikir kita, beradaptasi berdasarkan usia, budaya, dan bahkan bahasa yang kita gunakan. Hasilnya, jawaban yang kita terima dapat sangat bervariasi, dari 'Sinterklas itu nyata' untuk anak-anak hingga penolakan untuk menjawab pertanyaan sensitif tertentu.

Memahami 'asumsi tak terlihat' ini sangat penting, terutama di negara seperti Indonesia yang kaya akan keberagaman budaya dan bahasa. Jika AI akan menjadi alat yang relevan dan bertanggung jawab, pengembang harus memastikan bahwa model-model ini dapat menavigasi nuansa budaya dengan lebih akurat dan etis. Jangan sampai, dalam upaya untuk menjadi pintar, AI justru kehilangan sentuhan manusiawi atau, lebih buruk lagi, memperkuat stereotip yang salah. Ini adalah tantangan dan peluang bagi penelitian AI di masa depan. Selamat berlibur dari keluarga MLD kami untuk Anda semua. Semoga kaus kaki Anda penuh, gradien Anda stabil, dan pekerjaan Anda tidak terganggu.

Next Post Previous Post
No Comment
Add Comment
comment url
sr7themes.eu.org