Risiko Memorization AI: Studi MIT Soroti Privasi Pasien di Era Digital

AI menganalisis rekam medis digital, menunjukkan potensi memorization data pasien dan risiko serius terhadap privasi di sektor kesehatan.

Key Points:

  • Kecanggihan AI dalam sektor kesehatan membawa risiko baru terhadap privasi data pasien.
  • Penelitian MIT menunjukkan model AI yang dilatih dengan rekam medis elektronik (EHR) yang sudah di-anonimkan pun bisa "mengingat" informasi spesifik pasien.
  • Pentingnya pengujian yang ketat dan kontekstual untuk mencegah kebocoran data sensitif yang dapat membahayakan privasi pasien.
  • Digitalisasi rekam medis di Indonesia juga menghadapi ancaman kebocoran data, mirip dengan insiden global.
  • Pasien dengan kondisi medis yang unik sangat rentan terhadap identifikasi ulang, menuntut perlindungan data yang lebih tinggi.

Memori AI dan Tantangan Privasi Pasien di Era Digital

Privasi pasien merupakan landasan utama dalam praktik medis yang telah dijunjung tinggi selama berabad-abad. Sumpah Hipokrates, sebagai salah satu teks etika medis tertua di dunia, secara tegas menyatakan pentingnya menjaga kerahasiaan informasi pasien. Prinsip ini memastikan bahwa pasien dapat mempercayakan informasi sensitif kepada dokter mereka tanpa kekhawatiran, sebuah nilai yang sangat relevan di Indonesia, di mana hubungan kepercayaan antara pasien dan tenaga medis adalah inti pelayanan kesehatan.

Namun, di tengah gelombang digitalisasi dan pesatnya perkembangan teknologi kecerdasan buatan (AI), konsep privasi ini dihadapkan pada tantangan baru. Algoritma yang "lapar data" dan ancaman serangan siber kini membuat privasi semakin langka. Dalam konteks medis, di mana kerahasiaan tetap menjadi pilar utama, muncul pertanyaan besar: bagaimana menjaga kepercayaan pasien ketika data mereka diolah oleh sistem AI yang semakin canggih?

Studi MIT: Mengungkap Risiko Memorization pada Model AI Kesehatan

Sebuah penelitian penting yang dipimpin oleh para ilmuwan MIT telah menyoroti aspek krusial ini. Mereka menyelidiki bagaimana model AI, meskipun telah dilatih menggunakan Rekam Medis Elektronik (EHR) yang sudah di-de-identifikasi—artinya informasi pribadi telah dihilangkan—masih berpotensi "mengingat" informasi spesifik pasien. Temuan ini, yang baru-baru ini dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural (NeurIPS) tahun 2025, menggarisbawahi perlunya kerangka pengujian yang ketat. Tujuannya adalah untuk memastikan bahwa permintaan atau 'prompt' yang ditargetkan tidak dapat secara tidak sengaja mengungkapkan data pribadi, sekaligus menekankan bahwa evaluasi kebocoran harus dilakukan dalam konteks perawatan kesehatan yang sebenarnya untuk menilai sejauh mana privasi pasien terancam.

Pada dasarnya, model AI 'fondasi' yang dilatih dengan EHR seharusnya mampu melakukan generalisasi pengetahuan, artinya mereka belajar dari banyak catatan pasien untuk membuat prediksi yang lebih akurat. Namun, fenomena "memorization" terjadi ketika model tersebut justru mengambil informasi dari satu catatan pasien saja untuk menghasilkan output, yang secara potensial melanggar privasi pasien. Perlu dicatat bahwa model fondasi memang sudah dikenal rentan terhadap kebocoran data, yang menambah urgensi penelitian ini.

"Pengetahuan dalam model berkapasitas tinggi ini bisa menjadi sumber daya bagi banyak komunitas, tetapi penyerang yang memiliki niat buruk dapat meminta model untuk mengekstrak informasi dari data pelatihan," ujar Sana Tonekaboni, seorang peneliti postdoctoral di Eric and Wendy Schmidt Center di Broad Institute of MIT and Harvard, sekaligus penulis pertama makalah tersebut. Mengingat risiko bahwa model fondasi juga dapat menghafal data pribadi, ia menekankan, "Pekerjaan ini adalah langkah menuju memastikan adanya langkah-langkah evaluasi praktis yang dapat diambil komunitas kami sebelum merilis model."

Untuk meneliti potensi risiko yang bisa ditimbulkan oleh model fondasi EHR dalam dunia medis, Tonekaboni mendekati Profesor Madya MIT, Marzyeh Ghassemi. Beliau adalah peneliti utama di Abdul Latif Jameel Clinic for Machine Learning in Health (Jameel Clinic) dan anggota Computer Science and Artificial Intelligence Lab. Ghassemi, yang juga seorang fakultas di Departemen Teknik Elektro dan Ilmu Komputer serta Institut Teknik dan Ilmu Medis MIT, menjalankan Healthy ML Group yang berfokus pada pembelajaran mesin yang kuat dalam kesehatan.

Mengukur Risiko: Seberapa Banyak Informasi yang Dibutuhkan Penyerang?

Pertanyaan krusial lainnya adalah: seberapa banyak informasi yang dibutuhkan oleh pihak yang tidak bertanggung jawab untuk membongkar data sensitif, dan apa risiko yang terkait dengan informasi yang bocor tersebut? Untuk menjawabnya, tim peneliti mengembangkan serangkaian tes yang diharapkan menjadi dasar bagi evaluasi privasi di masa depan. Tes-tes ini dirancang untuk mengukur berbagai jenis ketidakpastian dan menilai risiko praktisnya terhadap pasien dengan mengukur berbagai tingkatan kemungkinan serangan.

"Kami benar-benar berusaha menekankan kepraktisan di sini; jika seorang penyerang harus mengetahui tanggal dan nilai selusin tes laboratorium dari rekam medis Anda untuk mengekstrak informasi, maka risiko bahayanya sangat kecil. Jika saya sudah memiliki akses ke tingkat data sumber yang terlindungi tersebut, mengapa saya harus menyerang model fondasi besar untuk mendapatkan lebih banyak lagi?" kata Ghassemi, menyoroti pentingnya evaluasi realistis terhadap tingkat kerentanan.

Ancaman Nyata Pelanggaran Data Medis di Indonesia

Dengan digitalisasi rekam medis yang tak terhindarkan, pelanggaran data telah menjadi lebih umum di seluruh dunia, termasuk potensi ancaman yang meningkat di Indonesia. Dalam dua tahun terakhir, misalnya, Departemen Kesehatan dan Layanan Kemanusiaan AS telah mencatat 747 pelanggaran data informasi kesehatan yang memengaruhi lebih dari 500 individu, dengan mayoritas dikategorikan sebagai insiden peretasan/TI. Tren serupa bisa terjadi di Indonesia jika sistem perlindungan data tidak diperkuat secara memadai.

Pasien dengan kondisi medis yang unik atau langka secara khusus lebih rentan, mengingat betapa mudahnya mereka untuk diidentifikasi. "Bahkan dengan data yang sudah di-de-identifikasi, itu tergantung pada jenis informasi apa yang Anda bocorkan tentang individu tersebut," kata Tonekaboni. "Setelah Anda mengidentifikasi mereka, Anda akan tahu lebih banyak lagi," ujarnya, menekankan risiko identifikasi ulang.

Membedakan Generalisasi Model dari Memorization Tingkat Pasien

Dalam pengujian terstruktur mereka, para peneliti menemukan bahwa semakin banyak informasi yang dimiliki penyerang tentang pasien tertentu, semakin besar kemungkinan model AI untuk membocorkan informasi. Mereka berhasil menunjukkan cara membedakan kasus generalisasi model dari memorization pada tingkat pasien, yang sangat krusial untuk menilai risiko privasi dengan benar dan tepat.

Dampak dan Tingkatan Kebocoran Informasi

Makalah ini juga menegaskan bahwa tidak semua kebocoran memiliki tingkat bahaya yang sama. Misalnya, model yang mengungkapkan usia atau demografi pasien dapat dikategorikan sebagai kebocoran yang lebih "lunak" dibandingkan dengan model yang mengungkapkan informasi yang jauh lebih sensitif, seperti diagnosis HIV atau riwayat penyalahgunaan alkohol. Pemahaman ini penting untuk memprioritaskan tindakan perlindungan.

Para peneliti mencatat bahwa pasien dengan kondisi unik membutuhkan perlindungan yang lebih tinggi karena kemudahan mereka untuk diidentifikasi. "Bahkan dengan data yang sudah di-de-identifikasi, itu sangat tergantung pada jenis informasi apa yang Anda bocorkan tentang individu tersebut," jelas Tonekaboni. Ke depannya, para peneliti berencana untuk mengembangkan pekerjaan ini menjadi lebih interdisipliner, dengan melibatkan klinisi, pakar privasi, serta pakar hukum untuk pendekatan yang komprehensif.

"Ada alasan mengapa data kesehatan kita bersifat pribadi," kata Tonekaboni. "Tidak ada alasan bagi orang lain untuk mengetahuinya," tutupnya, mengingatkan kembali esensi privasi medis.

Dukungan dan Kolaborasi Penelitian

Penelitian penting ini didukung oleh berbagai lembaga terkemuka, termasuk Eric and Wendy Schmidt Center di Broad Institute of MIT and Harvard, Wallenberg AI, Knut and Alice Wallenberg Foundation, U.S. National Science Foundation (NSF), Gordon and Betty Moore Foundation, Google Research Scholar award, dan AI2050 Program di Schmidt Sciences. Sumber daya yang digunakan dalam persiapan penelitian ini sebagian disediakan oleh Provinsi Ontario, Pemerintah Kanada melalui CIFAR, dan perusahaan-perusahaan yang mensponsori Vector Institute. Dukungan ini menunjukkan kolaborasi global dalam mengatasi tantangan privasi di era AI kesehatan.

Next Post Previous Post
No Comment
Add Comment
comment url
sr7themes.eu.org