Verlog: Kerangka Kerja RL Multi-Giliran untuk Agen LLM di Tugas Jangka Panjang

Dunia kecerdasan buatan terus berkembang pesat, dan salah satu area paling menarik adalah pengembangan agen Large Language Model (LLM) yang mampu melakukan tugas-tugas kompleks. Namun, melatih agen-agen ini untuk menyelesaikan tugas-tugas yang membutuhkan banyak langkah dan interaksi jangka panjang masih menjadi tantangan besar. Di sinilah Verlog hadir sebagai solusi inovatif.

Verlog merupakan sebuah kerangka kerja pembelajaran penguatan (Reinforcement Learning/RL) multi-giliran yang dirancang khusus untuk agen LLM dalam menyelesaikan tugas-tugas dengan horizon waktu yang panjang dan durasi episode yang sangat bervariasi. Membangun di atas kerangka kerja yang sudah ada seperti VeRL dan BALROG, serta mengikuti prinsip desain dari pytorch-a2c-ppo-acktr-gail, Verlog memperkenalkan optimisasi khusus untuk pelatihan yang stabil dan efisien, bahkan ketika episode berlangsung dari interaksi singkat hingga ratusan giliran.

Sementara kerangka kerja sebelumnya seperti VeRL dan RAGEN efektif menangani tugas dengan sekitar 10 giliran, dan verl-agent mampu mencapai hingga 50 giliran, Verlog dirancang untuk beroperasi di lingkungan dengan lebih dari 400 giliran. Kapabilitas ini menjadikannya sangat cocok untuk pengambilan keputusan jangka panjang yang kompleks. Kemampuan unik ini telah divalidasi di berbagai domain yang menantang seperti BabyAI, BabaIsAI, dan Crafter. Di Crafter, misalnya, panjang episode berkisar antara 70 hingga 400 langkah dengan rata-rata sekitar 190. Dalam domain-domain yang menantang ini, Verlog secara konsisten mencapai kinerja yang kuat langsung tanpa penyesuaian yang rumit.

Fitur Utama Verlog

Verlog mengintegrasikan beberapa fitur kunci untuk mengatasi tantangan tugas agen LLM jangka panjang:

Abstraksi Tingkat Giliran (Turn-Level Abstraction): Untuk menangani episode yang sangat panjang, Verlog memperlakukan setiap giliran sebagai sampel pelatihan independen. Pendekatan ini menghilangkan kebutuhan untuk mengkodekan seluruh lintasan ke dalam satu jendela konteks, memungkinkan arsitektur memori yang modular dan dapat disesuaikan. Ini berarti agen dapat fokus pada keputusan saat ini tanpa membebani memorinya dengan seluruh riwayat interaksi.
Pembentukan Batch Giliran Tetap (Fixed-Turn Batching): Untuk mengatasi variasi tinggi dalam panjang episode di berbagai lingkungan, Verlog menggunakan pembentukan batch giliran tetap. Setiap batch pelatihan berisi sejumlah giliran yang tetap. Untuk episode yang tidak lengkap, Verlog mengganti hadiah akhir dengan estimasi fungsi nilai sebagai sinyal pengawasan, memastikan pelatihan yang konsisten.
Disesuaikan untuk RL Multi-Giliran: Untuk mengatasi tantangan unik RL multi-giliran, Verlog memperkenalkan serangkaian teknik yang ditargetkan seperti Dual Discounting GAE dan Critic Pre-training. Teknik-teknik ini, dikombinasikan dengan hiperparameter yang disetel dengan cermat, memastikan pembelajaran yang efisien dan stabil, bahkan dalam skenario yang paling menantang.

Hasil Utama yang Mengesankan

Verlog dievaluasi pada tiga benchmark menantang yang menyoroti berbagai aspek RL multi-giliran jangka panjang:

Crafter: Episode berkisar dari 70 hingga lebih dari 400 langkah, dengan variasi panjang yang sangat tinggi. Hadiahnya langka, seringkali hanya muncul setiap sekitar 20 langkah.
BabyAI dan BabaIsAI: Episode lebih pendek (hingga sekitar 100–128 langkah), tetapi hadiah hanya diberikan di akhir lintasan, membuat penugasan kredit (credit assignment) sangat menantang.

Domain-domain ini sangat sulit karena kombinasi horizon yang panjang, sinyal hadiah yang langka, dan panjang episode yang sangat bervariasi. Verlog menunjukkan kemampuannya untuk melatih dengan andal di bawah kondisi ini.

Semua eksperimen menggunakan PPO dengan model Qwen2.5-Instruct (3B atau 7B tergantung pada domain). Untuk Crafter, model Qwen2.5-7B-Instruct dilatih pada 8xH100 (82 GB) GPU selama sekitar 36 jam. Untuk BabyAI dan BabaIsAI, model Qwen2.5-3B-Instruct digunakan, dilatih pada 4xA40 (48 GB) GPU selama sekitar 24 jam. Di ketiga domain, Verlog menunjukkan kemampuannya untuk melatih secara andal di bawah horizon yang panjang, hadiah yang langka, dan panjang episode yang bervariasi, menunjukkan bahwa kerangka kerja ini dapat diskalakan secara alami dari tugas multi-giliran pendek hingga sangat panjang.

Laporan Teknis Singkat

Model dan Prompt

Verlog menggunakan varian Instruct dari Qwen-2.5 (Qwen-2.5-3B/7B-Instruct) karena integrasi yang mulus dengan BALROG dan kemampuan untuk menggunakan prompt benchmark dengan modifikasi minimal. Mekanisme memori Verlog hanya menyertakan N+1 giliran terbaru, di mana setiap giliran diperlakukan sebagai titik data pelatihan individual. Hasil awal menunjukkan bahwa untuk model Qwen 3B, kinerja memuncak pada N=1 atau N=2 dan menurun seiring peningkatan N, mungkin karena kapasitas model yang terbatas dalam menangani konteks yang sangat panjang. Tantangan unik yang diamati termasuk peniruan pola penalaran sebelumnya dan halusinasi multi-giliran, di mana model kesulitan membedakan antara tindakan yang direncanakan dan tindakan aktual.

Lingkungan

Verlog menggunakan lingkungan permainan abstrak yang meminimalkan kebutuhan rekayasa prompt. Strategi untuk meningkatkan rasio tindakan yang valid mencakup translasi tindakan yang dikodekan secara keras untuk memetakan tindakan umum yang tidak valid ke tindakan yang valid, serta mengganti tindakan tidak valid dengan tindakan default. Ini memastikan agen menghasilkan tindakan yang valid lebih dari 95% dari waktu. Sistem hadiah bersifat berbasis aturan, dengan skema hadiah biner tingkat lintasan untuk BabyAI dan BabaIsAI (1 untuk keberhasilan, 0 untuk kegagalan), dan hadiah lingkungan asli untuk Crafter. Namun, diamati bahwa model cenderung memperkuat keterampilan yang sudah ada daripada mempelajari keterampilan baru. Lingkungan batch mendukung rollout asinkron, dengan setiap ukuran batch pelatihan dihitung sebagai n_env (jumlah lingkungan paralel) dikalikan e_len (panjang episode per rollout).

Algoritma

Verlog memperkenalkan Dual Discounting GAE yang memisahkan diskon tingkat token dan tingkat langkah untuk lebih mendorong agen menyelesaikan tugas dengan lebih sedikit langkah lingkungan. Selain itu, Estimasi Fungsi Nilai dioptimalkan, di mana nilai token pertama dari setiap giliran diberi bobot lebih tinggi saat melatih jaringan kritikus. Critic Warmup dilakukan sebelum fine-tuning aktor untuk memastikan estimasi fungsi nilai yang stabil. Terakhir, menambahkan istilah KL-Divergence dalam hadiah membantu menstabilkan pelatihan, mencegah kebijakan menyimpang terlalu cepat. Sebuah mode kegagalan menarik yang disebut Action Hacking diamati, di mana agen belajar mengeksploitasi hadiah yang mudah diakses dengan hanya memodifikasi tindakan akhir tanpa meningkatkan penalaran dasarnya.

Kesimpulan dan Arah Penelitian Masa Depan

Verlog telah berhasil mengatasi beberapa tantangan rekayasa inti dalam membangun agen LLM untuk tugas-tugas multi-giliran jangka panjang. Ini termasuk penanganan riwayat interaksi yang panjang melalui mekanisme memori dan abstraksi tingkat giliran, stabilisasi pelatihan pada hadiah yang langka dengan dual-discounting GAE dan critic pre-training, pengelolaan panjang lintasan yang bervariasi melalui fixed-turn batching dan estimasi nilai bootstrapped, peningkatan validitas tindakan melalui rekayasa prompt yang ditargetkan, serta mitigasi kegagalan kebijakan dengan regularisasi KL, sekaligus mengidentifikasi mode kegagalan baru seperti action hacking.

Ke depannya, Verlog menyediakan fondasi yang kuat untuk mengeksplorasi masalah penelitian inti dalam pembelajaran penguatan berbasis LLM. Ini mencakup desain memori yang lebih baik untuk generalisasi di tugas-tugas yang dapat diobservasi sebagian, strategi eksplorasi yang mendorong perolehan keterampilan baru, desain mekanisme yang mempromosikan keragaman perilaku, peningkatan stabilitas dan kualitas representasi kritikus, dan investigasi cara untuk lebih baik menggunakan lintasan informatif dari rollout asinkron yang beragam tanpa mendestabilisasi pembelajaran. Dengan mengatasi tantangan-tantangan ini, Verlog memposisikan dirinya sebagai platform penelitian yang fleksibel untuk memajukan RL agen LLM jangka panjang.