DisCIPL: AI Kecil Unggul di Penalaran Kompleks, Lebih Hemat

Admin

Des 12, 2025

Visualisasi inovatif model bahasa kecil berkolaborasi di bawah arahan model bahasa besar, menunjukkan efisiensi AI dalam tugas penalaran kompleks.

Key Points:

DisCIPL memungkinkan model bahasa kecil (small LMs) memecahkan tugas penalaran kompleks dengan presisi tinggi.
Pendekatan kolaboratif ini melibatkan LLM sebagai "perencana" dan LMs kecil sebagai "pelaksana," meningkatkan efisiensi.
Menghasilkan penghematan biaya operasional hingga 80.2% dan penalaran yang lebih singkat dibandingkan sistem AI terkemuka.
Potensi besar untuk aplikasi AI yang lebih hemat energi dan dapat diskalakan, relevan untuk pengembangan teknologi di Indonesia.

Seiring dengan pesatnya kemajuan model bahasa (LMs) dalam beragam tugas, seperti pembuatan gambar atau menjawab pertanyaan trivia, mungkin kita berasumsi bahwa kemampuan penalaran sekompleks manusia akan segera tercapai. Namun, pada kenyataannya, masih ada jurang yang lebar antara kapasitas penalaran kita dan AI, terutama dalam menyelesaikan tugas-tugas yang memerlukan pemikiran kompleks. Bayangkan saja AI mencoba bermain Sudoku, sebuah teka-teki logika yang mengharuskan pengisian angka tanpa duplikasi dalam baris, kolom, dan blok 3x3. Kebanyakan AI saat ini akan kesulitan, entah gagal mengisi kotak atau melakukannya dengan sangat tidak efisien, meskipun mereka cukup mahir untuk memverifikasi apakah solusi kita sudah benar.

Masalah ini tidak hanya terbatas pada teka-teki. Baik itu merancang molekul atau menulis pembuktian matematis, sistem AI seringkali kesulitan menanggapi permintaan terbuka yang memiliki aturan ketat untuk diikuti. Model bahasa lebih cakap dalam menjelaskan cara mendekati tantangan ini daripada mencoba menyelesaikannya sendiri. Pemecahan masalah secara langsung memerlukan AI untuk mempertimbangkan berbagai opsi sambil tetap mematuhi batasan-batasan yang ada. Model bahasa kecil (small LMs) umumnya tidak dapat melakukan ini secara andal. Sementara itu, model bahasa besar (LLMs) kadang bisa, terutama jika mereka dioptimalkan untuk tugas penalaran, tetapi mereka memerlukan waktu respons yang lebih lama dan menghabiskan daya komputasi yang sangat besar. Ini menjadi tantangan signifikan, terutama di negara berkembang seperti Indonesia yang terus berupaya mengadopsi teknologi AI namun juga dihadapkan pada keterbatasan infrastruktur dan biaya energi.

DisCIPL: Revolusi AI Kolaboratif dari MIT

Kondisi inilah yang mendorong para peneliti dari Computer Science and Artificial Intelligence Laboratory (CSAIL) MIT untuk mengembangkan pendekatan kolaboratif yang inovatif. Mereka menciptakan metode di mana sebuah LLM berperan sebagai "perencana" utama, yang kemudian membagi tugas-tugas pelaksanaan strategi tersebut di antara model-model bahasa yang lebih kecil. Kerangka kerja mereka, yang dinamai "Distributional Constraints by Inference Programming with Language Models" atau disingkat "DisCIPL", berhasil membantu model bahasa kecil untuk memberikan respons yang lebih akurat dibandingkan LLM terkemuka seperti GPT-4o milik OpenAI. Bahkan, presisi DisCIPL mendekati sistem penalaran papan atas seperti o1, namun dengan efisiensi yang jauh lebih baik. DisCIPL memungkinkan model besar untuk mengarahkan model "pengikut" yang lebih kecil menuju respons yang tepat saat membuat berbagai hal, mulai dari ringkasan teks, daftar belanja dengan anggaran tertentu, hingga rencana perjalanan.

Cara Kerja DisCIPL: Orkestrasi Cerdas AI

Mekanisme internal DisCIPL dapat dianalogikan seperti menyewa sebuah perusahaan untuk pekerjaan tertentu. Anda memberikan permintaan kepada model "bos" (LLM perencana), dan ia akan mempertimbangkan dengan cermat bagaimana proyek tersebut harus dilaksanakan. Selanjutnya, LLM ini menyampaikan instruksi dan pedoman secara jelas kepada model-model yang lebih kecil. Model bos juga bertugas mengoreksi output dari model-model pengikut jika diperlukan — misalnya, mengganti frasa yang tidak sesuai dalam sebuah puisi dengan opsi yang lebih baik dari model lain. Pendekatan ini secara fundamental mengubah cara kita memandang kemampuan dan kolaborasi AI, membuka peluang baru untuk pengembangan AI yang lebih terstruktur dan efisien yang sangat relevan bagi pengembangan ekosistem digital di Indonesia.

LLaMPPL: Bahasa Pemrograman untuk Komunikasi AI

LLM berkomunikasi dengan model pengikutnya menggunakan bahasa yang mereka semua pahami, yaitu bahasa pemrograman untuk mengontrol model bahasa yang disebut "LLaMPPL." Dikembangkan oleh Probabilistic Computing Project MIT pada tahun 2023, program ini memungkinkan pengguna untuk mengkodekan aturan-aturan spesifik yang dapat mengarahkan model menuju hasil yang diinginkan. Sebagai contoh, LLaMPPL dapat digunakan untuk menghasilkan kode bebas kesalahan dengan menggabungkan aturan-aturan bahasa pemrograman tertentu ke dalam instruksinya. Arahan seperti "tulis delapan baris puisi di mana setiap baris memiliki tepat delapan kata" dienkode dalam LLaMPPL, mengarahkan model-model kecil untuk berkontribusi pada bagian-bagian yang berbeda dari jawaban tersebut. Ini adalah kunci bagaimana DisCIPL dapat memastikan kepatuhan terhadap batasan-batasan ketat yang seringkali menjadi sandungan bagi AI.

Keunggulan DisCIPL: Lebih Cepat, Lebih Murah, Lebih Baik

Gabriel Grand, mahasiswa PhD MIT dan penulis utama makalah yang mempresentasikan karya ini, menjelaskan bahwa DisCIPL memungkinkan model bahasa untuk saling membimbing menuju respons terbaik, yang pada gilirannya meningkatkan efisiensi keseluruhan mereka. "Kami berupaya meningkatkan efisiensi inferensi model bahasa, terutama pada banyak aplikasi modern yang melibatkan pembuatan output dengan batasan," tambah Grand. "Model bahasa mengonsumsi lebih banyak energi seiring dengan peningkatan penggunaannya, yang berarti kita memerlukan model yang dapat memberikan jawaban akurat sambil menggunakan daya komputasi minimal. Hal ini krusial mengingat pertumbuhan penggunaan AI di Indonesia yang membutuhkan solusi berkelanjutan."

Alane Suhr, Asisten Profesor Universitas California di Berkeley, yang tidak terlibat dalam penelitian ini, juga menyatakan kekagumannya. "Sangat menarik melihat alternatif baru untuk inferensi model bahasa standar," katanya. "Karya ini mengundang pendekatan baru terhadap pemodelan bahasa dan LLM yang secara signifikan mengurangi latensi inferensi melalui paralelisasi, membutuhkan parameter yang jauh lebih sedikit daripada LLM saat ini, dan bahkan meningkatkan kinerja tugas dibandingkan inferensi serial standar. Karya ini juga menyajikan peluang untuk mengeksplorasi transparansi, interpretasi, dan kontrol output model, yang masih menjadi masalah besar dalam penerapan teknologi ini, khususnya di era digital Indonesia yang terus berkembang."

Kisah Sukses "Underdog": Model Kecil yang Berdaya

Mungkin Anda berpikir bahwa LLM skala besar selalu "lebih baik" dalam menangani permintaan kompleks daripada model yang lebih kecil, baik dari segi akurasi maupun efisiensi. Namun, DisCIPL menyajikan argumen yang mengejutkan: jika Anda dapat menggabungkan kekuatan model yang lebih kecil, Anda mungkin akan melihat peningkatan efisiensi dengan hasil yang sebanding. Ini merupakan kabar baik bagi banyak pengembang dan perusahaan rintisan di Indonesia yang mungkin memiliki sumber daya komputasi yang terbatas, memungkinkan mereka untuk bersaing dalam pengembangan dan implementasi AI tanpa harus mengeluarkan investasi besar.

Para peneliti mencatat bahwa, secara teori, Anda dapat menggabungkan lusinan model bahasa untuk bekerja sama dalam kerangka DisCIPL, tanpa memandang ukurannya. Dalam eksperimen penulisan dan penalaran, mereka menggunakan GPT-4o sebagai "planner LM" atau model perencana, salah satu model yang membantu ChatGPT menghasilkan respons. GPT-4o menyusun rencana untuk beberapa model "Llama-3.2-1B" (sistem yang lebih kecil yang dikembangkan oleh Meta), di mana model-model Llama tersebut mengisi setiap kata (atau token) dari respons.

Pendekatan kolektif ini berkompetisi melawan tiga pendekatan sebanding lainnya: baseline hanya pengikut yang ditenagai oleh Llama-3.2-1B, GPT-4o yang bekerja sendiri, dan sistem penalaran o1 yang terkemuka di industri yang membantu ChatGPT memecahkan pertanyaan yang lebih kompleks, seperti permintaan pengkodean dan masalah matematika. Hasilnya menunjukkan DisCIPL pertama kali menunjukkan kemampuan untuk menulis kalimat dan paragraf yang mengikuti aturan eksplisit. Model-model tersebut diberi prompt yang sangat spesifik — misalnya, menulis kalimat yang memiliki tepat 18 kata, di mana kata keempat harus "Glasgow," kata kedelapan harus "di", dan kata ke-11 harus "dan." Sistem ini sangat mahir dalam menangani permintaan ini, menghasilkan output yang koheren sambil mencapai akurasi dan koherensi yang mirip dengan o1.

Efisiensi Luar Biasa dan Penghematan Biaya

Eksperimen ini juga mengungkapkan bahwa komponen kunci DisCIPL jauh lebih murah daripada sistem canggih lainnya. Misalnya, sementara model penalaran yang ada seperti o1 dari OpenAI melakukan penalaran dalam teks, DisCIPL "bernalar" dengan menulis kode Python, yang jauh lebih ringkas. Dalam praktiknya, para peneliti menemukan bahwa DisCIPL menghasilkan penalaran 40.1 persen lebih singkat dan penghematan biaya 80.2 persen dibandingkan o1. Penghematan ini sangat signifikan dan dapat menjadi game-changer untuk adopsi AI di pasar yang sensitif biaya seperti Indonesia, di mana optimalisasi anggaran adalah kunci.

Peningkatan efisiensi DisCIPL sebagian besar berasal dari penggunaan model Llama kecil sebagai pengikut, yang 1.000 hingga 10.000 kali lebih murah per token daripada model penalaran sebanding. Ini berarti DisCIPL lebih "skalabel" — para peneliti dapat menjalankan puluhan model Llama secara paralel dengan biaya yang jauh lebih rendah. Ini adalah keuntungan besar bagi perusahaan rintisan dan lembaga penelitian di Indonesia yang ingin memanfaatkan AI tanpa harus mengeluarkan investasi besar pada infrastruktur komputasi, mendorong inovasi yang lebih merata.

Temuan mengejutkan lainnya, menurut para peneliti CSAIL, adalah sistem mereka juga berkinerja baik dibandingkan o1 pada tugas-tugas dunia nyata, seperti membuat daftar bahan makanan, merencanakan rencana perjalanan, dan menulis proposal hibah dengan batasan kata. Sementara itu, GPT-4o kesulitan dengan permintaan ini, dan pada tes penulisan, seringkali tidak dapat menempatkan kata kunci di bagian kalimat yang benar. Baseline hanya pengikut pada dasarnya berada di posisi terakhir di seluruh papan, karena kesulitan dalam mengikuti instruksi.

Jacob Andreas, profesor rekanan teknik elektro dan ilmu komputer MIT dan peneliti utama CSAIL, menyatakan, "Apa yang paling saya anggap menarik dari makalah ini adalah fakta bahwa kita sekarang dapat menggunakan model bahasa untuk secara otomatis memformalkan generasi teks itu sendiri, memungkinkan jenis keuntungan efisiensi dan jaminan yang sama yang telah kita lihat di domain lain." Ini menunjukkan potensi besar untuk aplikasi di berbagai sektor di Indonesia, dari pendidikan hingga industri.

Masa Depan AI yang Lebih Cerdas dan Efisien

Di masa depan, para peneliti berencana untuk memperluas kerangka kerja ini menjadi pendekatan yang lebih rekursif, di mana model yang sama dapat digunakan sebagai pemimpin dan pengikut. Grand menambahkan bahwa DisCIPL dapat diperluas ke tugas penalaran matematis, di mana jawabannya lebih sulit diverifikasi. Mereka juga bermaksud untuk menguji sistem pada kemampuannya untuk memenuhi preferensi pengguna yang tidak terlalu kaku, sebagai lawan dari mengikuti batasan keras yang tidak dapat digariskan dalam kode secara eksplisit. Memikirkan lebih besar lagi, tim berharap untuk menggunakan model sebesar mungkin yang tersedia, meskipun mereka mencatat bahwa eksperimen semacam itu mahal secara komputasi. Inovasi ini akan membuka jalan bagi pengembangan AI yang lebih adaptif dan relevan dengan kebutuhan pasar Indonesia.

Grand dan Andreas menulis makalah ini bersama peneliti utama CSAIL dan Profesor MIT Joshua Tenenbaum, serta Ilmuwan Peneliti Utama Departemen Otak dan Ilmu Kognitif MIT Vikash Mansinghka dan Asisten Profesor Universitas Yale Alex Lew SM ’20 PhD ’25. Para peneliti CSAIL mempresentasikan karya ini pada Konferensi Pemodelan Bahasa pada bulan Oktober dan lokakarya IVADO “Deploying Autonomous Agents: Lessons, Risks and Real-World Impact” pada bulan November.

Karya mereka didukung, sebagian, oleh MIT Quest for Intelligence, Siegel Family Foundation, MIT-IBM Watson AI Lab, Sloan Research Fellowship, Intel, Air Force Office of Scientific Research, Defense Advanced Research Projects Agency, Office of Naval Research, dan National Science Foundation. Penelitian ini tidak hanya menjanjikan inovasi global, tetapi juga membuka jalan bagi ekosistem AI yang lebih inklusif dan berkelanjutan di Indonesia, dengan fokus pada efisiensi dan aksesibilitas, mempercepat transformasi digital nasional.