Peringkat LLM di Platform Tidak Selalu Akurat, Studi MIT Ungkap

Ilustrasi grafik peringkat LLM yang bergeser drastis akibat penghapusan data kecil, menyoroti masalah keandalan platform evaluasi AI.
Key Points:
  • Platform peringkat Model Bahasa Besar (LLM) rentan terhadap bias dan ketidakstabilan data.
  • Penelitian MIT menunjukkan bahwa bahkan sedikit interaksi pengguna (hanya beberapa suara) dapat secara signifikan mengubah peringkat teratas LLM.
  • Peneliti mengembangkan metode efisien untuk mengidentifikasi "suara" yang paling berpengaruh, memungkinkan pengguna untuk memeriksa data yang mungkin bias.
  • Temuan ini menggarisbawahi perlunya strategi evaluasi yang lebih ketat dan pengumpulan umpan balik yang lebih detail dari pengguna.
  • Perusahaan di Indonesia perlu ekstra hati-hati dalam mengandalkan platform peringkat LLM untuk pengambilan keputusan bisnis yang berdampak besar.

Dalam lanskap teknologi yang terus berkembang pesat, Model Bahasa Besar (LLM) telah menjadi tulang punggung bagi banyak inovasi, mulai dari meringkas laporan penjualan hingga menyaring pertanyaan pelanggan. Di Indonesia, semakin banyak perusahaan yang melirik potensi LLM untuk meningkatkan efisiensi operasional dan daya saing. Namun, dengan ratusan LLM unik dan puluhan variasi model yang masing-masing menawarkan kinerja sedikit berbeda, memilih model yang tepat bisa menjadi tugas yang membingungkan.

Untuk membantu perusahaan mempersempit pilihan, banyak yang mengandalkan platform peringkat LLM. Platform ini mengumpulkan umpan balik pengguna tentang interaksi model untuk menyusun peringkat berdasarkan kinerja LLM pada tugas-batas tertentu. Sekilas, ini tampak seperti solusi yang ideal dan efisien.

Namun, sebuah studi terbaru dari para peneliti MIT mengungkapkan sisi lain yang mengejutkan: platform peringkat LLM ini ternyata bisa sangat tidak dapat diandalkan. Penelitian mereka menunjukkan bahwa hanya segelintir interaksi pengguna saja dapat memutarbalikkan hasil, menyesatkan seseorang untuk percaya bahwa satu LLM adalah pilihan yang ideal, padahal kenyataannya mungkin tidak demikian. Bahkan, menghilangkan sebagian kecil dari data crowdsourced dapat secara drastis mengubah model mana yang menduduki peringkat teratas.

Peringkat LLM: Antara Harapan dan Realita

Mayoritas platform peringkat LLM yang populer beroperasi dengan cara yang relatif sederhana. Mereka meminta pengguna untuk mengajukan kueri ke dua model dan kemudian memilih LLM mana yang memberikan respons yang lebih baik. Hasil dari "pertandingan" ini kemudian digabungkan untuk menghasilkan peringkat yang menunjukkan LLM mana yang berkinerja terbaik dalam tugas-tugas tertentu, seperti pengkodean atau pemahaman visual.

Ketika sebuah perusahaan, baik di Jakarta maupun di luar Jawa, memilih LLM yang berkinerja tinggi, mereka tentu berharap bahwa peringkat teratas model tersebut dapat digeneralisasi. Artinya, model tersebut diharapkan dapat mengungguli model lain dalam aplikasi serupa dengan set data baru, meskipun tidak persis sama.

Sensitivitas Data yang Mengejutkan

Para peneliti MIT sebelumnya telah mempelajari generalisasi dalam bidang statistik dan ekonomi. Pekerjaan tersebut mengungkapkan kasus-kasus tertentu di mana menjatuhkan persentase kecil data dapat mengubah hasil model, menunjukkan bahwa kesimpulan studi tersebut mungkin tidak berlaku di luar pengaturan yang sempit. Mereka ingin melihat apakah analisis yang sama dapat diterapkan pada platform peringkat LLM.

Apa yang ditemukan sangat mengejutkan. Ketika menerapkan teknik mereka pada platform peringkat populer, para peneliti terperanjat melihat betapa sedikitnya titik data yang perlu mereka hilangkan untuk menyebabkan perubahan signifikan pada LLM teratas. Dalam satu contoh, hanya dengan menghapus dua suara dari lebih dari 57.000 suara – angka yang sangat kecil yaitu 0,0035 persen – sudah cukup untuk mengubah model mana yang menduduki peringkat teratas. Ini seperti hanya dua orang dari seluruh penduduk sebuah kecamatan kecil di Indonesia yang mengubah hasil pemilihan umum. Implikasinya jelas, keputusan penting bisa sangat rentan terhadap data yang sangat kecil.

Sebuah platform peringkat lain, yang menggunakan anotator ahli dan prompt berkualitas lebih tinggi, ternyata lebih tangguh. Di sini, menghapus 83 dari 2.575 evaluasi (sekitar 3 persen) membalikkan model teratas. Meskipun lebih robust, angka ini masih menunjukkan tingkat sensitivitas yang patut diwaspadai.

Mengapa Ranking LLM Begitu Rapuh?

Pemeriksaan lebih lanjut oleh para peneliti mengungkapkan bahwa banyak suara yang sangat berpengaruh mungkin merupakan hasil dari kesalahan pengguna. Tamara Broderick, seorang profesor di MIT dan penulis senior studi ini, menjelaskan bahwa dalam beberapa kasus, ada jawaban yang jelas mengenai LLM mana yang berkinerja lebih baik, tetapi pengguna justru memilih model yang lain. "Kami tidak pernah bisa tahu apa yang ada di pikiran pengguna saat itu, tetapi mungkin mereka salah klik atau tidak memperhatikan, atau mereka jujur tidak tahu mana yang lebih baik," kata Broderick. "Pelajaran besar di sini adalah Anda tidak ingin kebisingan, kesalahan pengguna, atau beberapa outlier menentukan mana LLM peringkat teratas."

Masalahnya terletak pada bagaimana "suara" pengguna diagregasikan dan dipercaya sebagai representasi akurat dari kinerja model. Jika peringkat teratas LLM hanya bergantung pada dua atau tiga umpan balik pengguna dari puluhan ribu, maka asumsi bahwa LLM peringkat teratas akan secara konsisten mengungguli semua LLM lain saat diterapkan menjadi sangat lemah. Ini menimbulkan pertanyaan serius bagi perusahaan yang menginvestasikan sumber daya besar berdasarkan rekomendasi dari platform semacam itu.

Menguji Keandalan Peringkat dengan Metode Inovatif

Menghitung fenomena "data-dropping" secara manual jelas mustahil. Misalnya, satu peringkat yang mereka evaluasi memiliki lebih dari 57.000 suara. Menguji penurunan data sebesar 0,1 persen berarti menghapus setiap subset dari 57 suara dari 57.000, yang menghasilkan lebih dari 10^194 subset – jumlah yang jauh melampaui kemampuan komputasi saat ini.

Untuk mengatasi tantangan ini, para peneliti mengembangkan metode perkiraan yang efisien, berdasarkan pekerjaan mereka sebelumnya, dan mengadaptasinya agar sesuai dengan sistem peringkat LLM. Metode ini dirancang untuk mengidentifikasi suara-suara individual yang paling bertanggung jawab dalam mengacaukan hasil, sehingga pengguna dapat memeriksa suara-suara berpengaruh ini. "Meskipun kami memiliki teori untuk membuktikan perkiraan bekerja di bawah asumsi tertentu, pengguna tidak perlu mempercayai itu," kata Broderick. "Metode kami memberi tahu pengguna titik data bermasalah pada akhirnya, sehingga mereka cukup menghapus titik data tersebut, menjalankan kembali analisis, dan memeriksa apakah ada perubahan dalam peringkat."

Teknik evaluasi ini memungkinkan perusahaan untuk menguji platform peringkat dan menentukan apakah mereka rentan terhadap masalah ini, tanpa harus melakukan perhitungan yang tidak praktis.

Langkah ke Depan: Menuju Peringkat LLM yang Lebih Robust

Studi ini tidak hanya menyoroti masalah tetapi juga menawarkan harapan. Meskipun tidak berfokus pada mitigasi dalam studi ini, para peneliti memberikan saran yang dapat meningkatkan kekokohan platform ini. Salah satu saran utama adalah mengumpulkan umpan balik yang lebih rinci dari pengguna, seperti tingkat kepercayaan pada setiap suara. Informasi yang lebih kaya ini dapat membantu mengurangi masalah yang disebabkan oleh data yang sensitif.

Selain itu, platform peringkat dapat mempertimbangkan untuk menggunakan mediator manusia untuk menilai respons crowdsourced, menambahkan lapisan verifikasi yang dapat menyaring kesalahan pengguna atau outlier. Bagi para peneliti, mereka ingin terus menjelajahi generalisasi dalam konteks lain dan mengembangkan metode perkiraan yang lebih baik yang dapat menangkap lebih banyak contoh non-kekokohan.

Studi ini adalah peringatan penting bagi perusahaan dan pengambil keputusan di Indonesia yang mengandalkan peringkat LLM. Mengingat potensi dampak yang luas dan biaya yang mungkin timbul dari pemilihan LLM yang salah, sangat penting untuk pendekatan yang lebih kritis. Evaluasi yang lebih mendalam, pemahaman tentang batasan platform peringkat, dan mungkin uji coba internal yang lebih ketat, adalah langkah-langkah yang bijaksana untuk memastikan bahwa investasi dalam teknologi AI benar-benar membawa manfaat yang diharapkan.

Next Post Previous Post
No Comment
Add Comment
comment url
sr7themes.eu.org