Bahaya Metrik Agregat ML: Model AI Gagal di Lingkungan Baru
- Model machine learning yang menunjukkan performa terbaik di satu lingkungan data, bisa menjadi yang terburuk saat diterapkan pada sebagian besar data di lingkungan baru.
- Metrik evaluasi agregat (rata-rata) seringkali menyembunyikan kegagalan signifikan pada sub-populasi data, sehingga memberikan gambaran palsu tentang keandalan model.
- Korelasi palsu (spurious correlations) yang sulit dideteksi menjadi penyebab utama kegagalan model ini, terutama dalam konteks medis dan deteksi konten sensitif.
- Pengujian dan validasi ulang model sangat krusial setiap kali model AI diterapkan di lingkungan atau set data yang berbeda.
- Algoritma OODSelect membantu mengidentifikasi sub-populasi rentan di mana model cenderung gagal, mendorong pengembangan AI yang lebih robust dan adil.
Dalam era transformasi digital yang pesat ini, penggunaan machine learning (ML) atau kecerdasan buatan (AI) semakin merambah berbagai sektor di Indonesia, mulai dari layanan kesehatan, keuangan, hingga e-commerce. Namun, sebuah penelitian dari peneliti MIT mengangkat isu krusial yang patut menjadi perhatian serius: keandalan model ML bisa sangat meragukan ketika diterapkan pada data yang berbeda dari data pelatihannya, meskipun metrik agregat menunjukkan performa yang cemerlang. Ini menimbulkan pertanyaan besar tentang pentingnya pengujian yang lebih ketat setiap kali model AI diimplementasikan di lingkungan baru.
Mengapa Metrik Agregat Menyesatkan?
Para peneliti MIT menemukan bukti nyata bahwa model ML, meskipun dilatih dengan data dalam jumlah besar dan dianggap sebagai model "terbaik" berdasarkan performa rata-rata, bisa menjadi "model terburuk" bagi 6 hingga 75 persen dari data baru di lingkungan yang berbeda. Marzyeh Ghassemi, seorang profesor di Departemen Teknik Elektro dan Ilmu Komputer (EECS) MIT, menekankan bahwa di lingkungan baru, performa rata-rata yang tinggi dapat menyembunyikan kegagalan model yang signifikan.
Ambil contoh kasus model yang dilatih untuk mendiagnosis penyakit melalui citra X-ray dada di sebuah rumah sakit di Indonesia. Model ini mungkin menunjukkan akurasi yang sangat tinggi di rumah sakit tersebut. Namun, ketika diterapkan di rumah sakit lain yang mungkin memiliki peralatan, prosedur pencitraan, atau karakteristik pasien yang sedikit berbeda, model yang sama ini bisa jadi sangat buruk. Penelitian menunjukkan bahwa model yang paling baik di rumah sakit pertama, justru menjadi yang terburuk bagi hingga 75 persen pasien di rumah sakit kedua. Performa rata-rata yang tampak bagus di rumah sakit kedua ini, sesungguhnya menutupi kegagalan model pada sebagian besar populasi pasien.
Bahaya Korelasi Palsu yang Tersembunyi
Temuan ini menunjukkan bahwa korelasi palsu (spurious correlations) adalah masalah yang jauh lebih persisten dari yang diperkirakan. Korelasi palsu terjadi ketika sistem ML mengaitkan fitur yang sebenarnya tidak relevan dengan hasil tertentu. Contoh sederhananya adalah ketika sistem ML mengidentifikasi foto sapi di pantai sebagai orca hanya karena latar belakangnya adalah pantai, yang sering dikaitkan dengan orca oleh model tersebut.
Dalam konteks yang lebih kompleks, seperti diagnosis medis atau deteksi ujaran kebencian, korelasi palsu ini jauh lebih sulit dideteksi. Misalnya, model diagnosis X-ray mungkin belajar mengaitkan tanda air (watermark) atau format pencitraan spesifik dari satu rumah sakit di Jakarta dengan kondisi patologi tertentu. Ketika model ini digunakan di rumah sakit di Surabaya yang tidak menggunakan tanda atau format serupa, model mungkin gagal mendeteksi kondisi yang sama, karena korelasi yang dipelajari tidak relevan di lingkungan baru.
Penelitian sebelumnya dari kelompok Ghassemi juga menyoroti bagaimana model dapat secara keliru mengorelasikan faktor-faktor seperti usia, jenis kelamin, dan ras dengan temuan medis. Jika sebuah model dilatih dengan lebih banyak X-ray dada dari pasien lansia yang menderita pneumonia, dan kurang "melihat" X-ray dari pasien yang lebih muda, model tersebut bisa saja memprediksi bahwa hanya pasien lansia yang menderita pneumonia. Ini adalah bentuk bias yang berbahaya dan tidak diinginkan.
Olawale Salaudeen, seorang postdoc MIT dan penulis utama makalah, menjelaskan bahwa model cenderung menggunakan apa pun yang berkorelasi dalam data untuk membuat keputusan. "Korelasi tersebut mungkin tidak selalu kuat atau relevan di lingkungan yang berbeda, membuat prediksi model tidak dapat diandalkan," ujarnya. Korelasi palsu ini secara langsung berkontribusi pada risiko pengambilan keputusan yang bias. Dalam makalah konferensi NeurIPS, peneliti menunjukkan bahwa model X-ray dada yang secara keseluruhan meningkatkan performa diagnosis, justru memiliki performa lebih buruk pada pasien dengan kondisi pleura atau cardiomediastinum yang membesar (pembesaran jantung atau rongga dada bagian tengah).
Dari Akurasi di Laboratorium ke Realitas Lapangan
Selama ini, asumsi umum di kalangan peneliti dan praktisi adalah bahwa model yang diurutkan dari yang terbaik hingga terburuk berdasarkan performa di satu lingkungan, akan mempertahankan urutan performa yang sama di lingkungan baru. Konsep ini dikenal sebagai "accuracy-on-the-line". Namun, penelitian MIT ini secara meyakinkan menunjukkan bahwa asumsi tersebut seringkali keliru. Mereka berhasil mendemonstrasikan banyak contoh di mana model dengan performa terbaik di satu pengaturan justru menjadi yang terburuk di pengaturan lainnya.
Untuk mengatasi masalah ini, Salaudeen mengembangkan algoritma yang disebut OODSelect. Secara sederhana, OODSelect bekerja dengan melatih ribuan model menggunakan data "in-distribution" (data dari lingkungan pertama) dan menghitung akurasi masing-masing. Kemudian, model-model ini diterapkan pada data dari lingkungan kedua. Jika model yang memiliki akurasi tertinggi pada data lingkungan pertama ternyata salah dalam memprediksi sebagian besar contoh di lingkungan kedua, ini mengidentifikasi subset atau sub-populasi yang bermasalah. Salaudeen juga menekankan bahaya statistik agregat untuk evaluasi, yang dapat mengaburkan informasi penting tentang performa model pada tingkat yang lebih granular.
Dalam proses penelitian mereka, para peneliti secara cermat memisahkan "contoh yang paling salah dihitung" agar tidak mencampuradukkan korelasi palsu dalam dataset dengan situasi yang memang sulit diklasifikasikan secara intrinsik. Kode dan subset data yang diidentifikasi oleh peneliti telah dirilis dalam makalah NeurIPS, diharapkan dapat menjadi fondasi untuk penelitian lebih lanjut.
Menuju Evaluasi Model yang Lebih Andal
Bagi rumah sakit atau organisasi di Indonesia yang mengimplementasikan model machine learning, identifikasi subset data di mana model berkinerja buruk adalah langkah penting untuk meningkatkan model agar sesuai dengan tugas dan lingkungan spesifiknya. Para peneliti merekomendasikan agar studi dan implementasi mendatang mengadopsi OODSelect. Pendekatan ini diharapkan dapat menyoroti target evaluasi dan merancang metode untuk meningkatkan performa model secara lebih konsisten dan dapat diandalkan.
"Kami berharap kode dan subset OODSelect yang dirilis menjadi batu loncatan," tulis para peneliti, "menuju benchmark dan model yang mampu menghadapi efek merugikan dari korelasi palsu." Dengan memahami dan mengatasi keterbatasan metrik agregat, serta aktif mencari korelasi palsu pada tingkat yang lebih granular, kita dapat membangun sistem AI yang tidak hanya cerdas, tetapi juga adil, robust, dan benar-benar dapat dipercaya di berbagai konteks aplikasi di Indonesia dan dunia.