Menjelajahi Batasan Ilmiah Kecerdasan Buatan Agen (Agentic AI)

Scientific frontiers of agentic AI

Bahasa yang mungkin digunakan agen AI, berbagi konteks tanpa mengorbankan privasi, memodelkan negosiasi agen, dan memahami kebijakan umum pengguna adalah beberapa pertanyaan ilmiah terbuka yang perlu ditangani oleh para peneliti di bidang AI agen.

Oleh:

Rasanya kita baru saja menyerap perkembangan pesat dan adopsi teknologi AI generatif seperti model bahasa besar (LLM) sebelum fenomena berikutnya sudah tiba, yaitu Agentic AI. LLM yang berdiri sendiri dapat dianggap sebagai chatbot dalam "kotak pasir" (sandbox), di mana kotak pasir adalah metafora untuk ruang bermain yang aman dan terkandung dengan interaksi terbatas dengan dunia luar. Sebaliknya, visi Agentic AI adalah masa depan yang dekat (atau sudah ada?) di mana LLM menjadi mesin dasar untuk sistem kompleks yang memiliki akses ke sumber daya eksternal yang kaya seperti aplikasi dan layanan konsumen, media sosial, sistem perbankan dan pembayaran — pada prinsipnya, apa pun yang dapat Anda jangkau di Internet. Sebuah impian industri AI selama beberapa dekade, agen dari Agentic AI adalah asisten pribadi cerdas yang mengetahui tujuan dan preferensi Anda dan yang Anda percaya untuk bertindak atas nama Anda di dunia nyata, sama seperti Anda mempercayai asisten manusia.

Sebagai contoh, dalam rangka mengatur rencana perjalanan, asisten AI agen pribadi saya akan mengetahui preferensi saya (baik profesional maupun rekreasi) untuk penerbangan dan maskapai, penginapan, penyewaan mobil, makan, dan aktivitas. Ia akan mengetahui kalender saya dan dengan demikian dapat menjadwalkan sekitar komitmen lain. Ia akan mengetahui nomor frequent-flier dan akun perhotelan saya dan dapat memesan serta membayar rencana perjalanan atas nama saya. Yang terpenting, ia tidak hanya akan mengotomatiskan tugas-tugas ini tetapi melakukannya dengan cerdas dan intuitif, membuat keputusan yang jelas secara sepihak dan diam-diam tetapi memastikan untuk memeriksa dengan saya setiap kali muncul ambiguitas atau nuansa (seperti apakah tiket teater dalam perjalanan bisnis ke New York harus dibebankan ke kartu kredit pribadi atau kantor saya).

Bagi orang dalam AI, perkembangan dari AI generatif ke AI agen memang menarik tetapi juga alami. Hanya dalam beberapa tahun, kita telah beralih dari chatbot yang mengesankan tetapi hanya sekadar canggih dengan berbagai kekurangan yang dapat diidentifikasi, menjadi sistem kaya fitur yang menunjukkan kemampuan mirip manusia tidak hanya dalam pembuatan bahasa dan gambar tetapi juga dalam pengkodean, penalaran matematis, optimisasi, perencanaan alur kerja, dan banyak area lainnya. Peningkatan keterampilan dan keandalan LLM inti secara alami telah menyebabkan industri bergerak ke atas, ke dunia di mana LLM itu sendiri memudar ke latar belakang dan menjadi jenis sistem operasi cerdas baru di mana segala macam fungsionalitas yang kuat dapat dibangun. Sama seperti PC atau Mac Anda yang dengan mulus menangani banyak detail yang sebagian besar pengguna tidak (ingin) ketahui — seperti bagaimana dan di mana di hard drive Anda menyimpan dan menemukan file, detail jaringan untuk terhubung ke server web jarak jauh, dan detail sistem operasi berbutir halus lainnya — sistem agen berusaha untuk mengabstraksikan detail-detail yang rumit dan membosankan dari banyak tugas tingkat tinggi yang, saat ini, kita semua lakukan sendiri.

Meskipun visi menyeluruh dari Agentic AI sudah relatif jelas, ada beberapa pertanyaan ilmiah dan teknis mendasar tentang teknologi yang jawabannya — atau bahkan perumusan yang tepat — tidak pasti (tetapi menarik!). Kita akan mengeksplorasi beberapa di antaranya di sini.

Apa Bahasa yang Akan Digunakan Agen?

Sejarah teknologi komputasi menunjukkan kemajuan yang stabil menuju sistem dan perangkat yang semakin ramah, mudah diakses, dan intuitif bagi pengguna manusia. Contohnya termasuk penggantian bertahap monitor teletype yang kaku dan mantra baris perintah yang tidak jelas oleh antarmuka pengguna grafis dengan metafora desktop dan folder, serta evolusi dari protokol transfer file jaringan tingkat rendah ke kemudahan web yang mulus. Dan AI generatif itu sendiri juga telah membuat tugas-tugas yang sebelumnya terspesialisasi seperti pengkodean dapat diakses oleh basis pengguna yang jauh lebih luas. Dengan kata lain, teknologi modern berpusat pada manusia, dirancang untuk digunakan dan dikonsumsi oleh orang biasa dengan sedikit atau tanpa pelatihan khusus.

Namun kini teknologi dan sistem yang sama ini juga perlu dinavigasi oleh AI agen, dan meskipun LLM mahir dengan bahasa manusia, itu mungkin bukan mode komunikasi dan pemahaman yang paling alami bagi mereka. Dengan demikian, migrasi paralel ke bahasa asli AI generatif mungkin akan datang.

Apa bahasa asli itu? Ketika AI generatif mengonsumsi sepotong konten — apakah itu perintah pengguna, dokumen, atau gambar — ia menerjemahkannya ke dalam representasi internal yang lebih nyaman untuk pemrosesan dan manipulasi selanjutnya. Dalam AI modern, jaringan saraf biasanya menerjemahkan setiap input ke dalam apa yang dikenal sebagai ruang embedding, yang dapat dianggap sebagai peta fisik di mana item dengan makna serupa ditempatkan dekat satu sama lain, dan item dengan makna yang tidak terkait ditempatkan berjauhan. Embedding adalah abstraksi yang memberikan kekuatan dan generalisasi yang besar, dalam bentuk kemampuan untuk merepresentasikan bukan konten asli literal (seperti urutan kata yang panjang) tetapi sesuatu yang lebih dekat ke makna dasarnya. Harga untuk abstraksi ini adalah hilangnya detail dan informasi.

Oleh karena itu, bahasa inheren AI generatif (dan karenanya agen) bukanlah kalimat dan gambar yang kita kenal, tetapi embedding-nya. Jelas, kita akan terus berharap AI agen berkomunikasi dengan manusia dalam bahasa dan gambar biasa. Namun tidak ada alasan bagi komunikasi agen-ke-agen untuk berlangsung dalam bahasa manusia; akan lebih alami jika itu terjadi dalam bahasa embedding asli dari jaringan saraf yang mendasarinya. Agen pribadi saya, yang mengerjakan rencana liburan, dapat menyerap materi seperti penerbangan, hotel, dan foto liburan sebelumnya untuk memahami minat dan preferensi saya. Tetapi untuk mengomunikasikan preferensi tersebut kepada agen lain — katakanlah, agen yang mengumpulkan detail hotel, harga, dan ketersediaan — itu tidak akan memberikan materi sumber mentah; selain sangat tidak efisien dan berlebihan, itu dapat menimbulkan masalah privasi. Sebaliknya, agen saya akan meringkas preferensi saya sebagai suatu titik, atau mungkin banyak titik, dalam ruang embedding.

Dengan penalaran serupa, kita juga dapat mengharapkan perkembangan bertahap dari Web agen yang dimaksudkan untuk navigasi oleh AI, di mana teks dan gambar di situs web telah diterjemahkan sebelumnya ke dalam embedding yang tidak dapat dibaca oleh manusia tetapi jauh lebih efisien daripada mengharuskan agen untuk melakukan terjemahan ini sendiri setiap kali berkunjung. Semua di atas mengandaikan bahwa ruang embedding dibagikan dan distandarisasi di seluruh sistem AI generatif dan agen. Ini tidak benar saat ini, tetapi kebutuhan akan standarisasi, setidaknya dalam beberapa bentuk, dapat menjadi bidang penelitian penting.

Menjaga Segala Sesuatu dalam Konteks

Bahkan pengguna LLM biasa pun mungkin menyadari gagasan konteks, yang secara informal adalah apa dan seberapa banyak yang diingat dan dipahami LLM tentang interaksi terbarunya, dan biasanya diukur dengan jumlah kata atau token yang diingat. Ada metafora yang tepat dengan kognisi manusia, dalam arti bahwa konteks dapat dianggap sebagai memori kerja LLM. Dan seperti memori kerja kita sendiri, itu bisa selektif dan tidak sempurna.

Beberapa kemajuan utama dalam teknologi LLM telah terjadi di sekitar peningkatan konteks: LLM sekarang dapat mengingat dan memahami lebih banyak konteks dan memanfaatkan konteks tersebut untuk menyesuaikan respons mereka dengan akurasi dan kecanggihan yang lebih besar. Jendela memori kerja yang lebih besar ini sangat penting untuk banyak tugas yang ingin kita terapkan pada Agentic AI, seperti meminta LLM membaca dan memahami seluruh basis kode proyek pengembangan perangkat lunak yang besar, atau semua dokumen yang relevan dengan kasus hukum yang kompleks, dan kemudian dapat bernalar tentang isinya.

Bagaimana konteks dan batasannya akan memengaruhi Agentic AI? Jika embedding adalah bahasa LLM, dan konteks adalah ekspresi memori kerja LLM dalam bahasa itu, keputusan desain yang krusial dalam interaksi agen-agen adalah seberapa banyak konteks yang akan dibagikan. Berbagi terlalu sedikit akan menghambat fungsionalitas dan efisiensi dialog agen; berbagi terlalu banyak akan menghasilkan kerumitan yang tidak perlu dan potensi masalah privasi (sama seperti dalam interaksi manusia-ke-manusia). Ini adalah topik ilmiah yang relatif belum tersentuh, dan para peneliti baru mulai mempertimbangkan pertanyaan seperti apa yang dapat direkayasa balik tentang data mentah yang hanya diberikan embedding-nya. Pemahaman yang berprinsip tentang kerentanan privasi embedding dan cara mitigasinya (mungkin melalui teknik seperti privasi diferensial) kemungkinan akan menjadi area penelitian penting di masa depan.

Tawar-menawar Agen

Sejauh ini, kita telah banyak berbicara tentang dialog antaragen tetapi telah memperlakukan percakapan ini secara umum, seolah-olah kita berbicara tentang dua manusia dalam lingkungan kolaboratif. Namun akan ada kategori interaksi penting yang perlu lebih terstruktur dan formal, dengan hasil yang dapat diidentifikasi yang berkomitmen oleh semua pihak. Negosiasi, tawar-menawar, dan interaksi strategis lainnya adalah contoh utama.

Tentu saja, saya ingin agen pribadi saya, ketika memesan hotel dan penerbangan untuk perjalanan saya, mendapatkan harga terbaik dan kondisi lainnya (jenis dan pemandangan kamar, lokasi kursi penerbangan, dan sebagainya). Agen yang mengumpulkan hotel dan penerbangan juga akan lebih memilih saya membayar lebih daripada kurang, atas nama klien dan pengguna mereka sendiri. Agar agen saya bertindak demi kepentingan saya dalam pengaturan ini, saya perlu menentukan setidaknya beberapa batasan luas pada preferensi saya dan kesediaan untuk membayarnya, dan tidak dalam istilah yang tidak jelas.

Tentu saja, fondasi matematika dan ilmiah negosiasi dan tawar-menawar telah dipelajari dengan baik selama beberapa dekade oleh para teoritikus game, mikroekonom, dan komunitas penelitian terkait. Namun mengingat observasi kita tentang kemampuan kognitif seperti manusia dan kekurangan LLM, mungkin titik awal yang lebih relevan untuk negosiasi agen adalah bidang ekonomi perilaku. Alih-alih bertanya apa yang seharusnya terjadi ketika agen yang sepenuhnya rasional berinteraksi, ekonomi perilaku bertanya apa yang memang terjadi ketika agen manusia yang sebenarnya berinteraksi secara strategis. Dan ini seringkali sangat berbeda, dengan cara yang menarik, dari apa yang akan dilakukan agen yang sepenuhnya rasional.

Misalnya, pertimbangkan contoh kanonik teori game perilaku yang dikenal sebagai ultimatum game. Dalam game ini, ada $10 untuk dibagi antara dua pemain, Alice dan Bob. Alice pertama-tama mengajukan pembagian apa pun yang ia suka. Bob kemudian menerima proposal Alice, di mana kedua belah pihak mendapatkan bagian yang diusulkan, atau menolak proposal Alice, di mana setiap pihak tidak menerima apa pun. Analisis keseimbangan adalah langsung: Alice, menjadi sepenuhnya rasional dan mengetahui bahwa Bob juga, mengusulkan jumlah bukan nol terkecil kepada Bob, yaitu satu sen. Bob, menjadi sepenuhnya rasional, akan lebih memilih menerima satu sen daripada tidak sama sekali, jadi ia menerimanya. Namun, pada kenyataannya, ketika manusia bermain, mereka jarang bertindak secara murni rasional; tawaran cenderung terkonsentrasi antara $3 hingga $5, dan tawaran yang lebih rendah sering ditolak karena persepsi ketidakadilan. Penelitian awal telah menunjukkan bahwa LLM hampir persis mereplikasi perilaku manusia dalam ultimatum game, serta temuan ekonomi perilaku klasik lainnya. Setelah kita memahami perilaku Agentic AI dalam pengaturan strategis, kita dapat beralih untuk membentuk perilaku tersebut dengan cara yang diinginkan. Kita mengantisipasi proliferasi penelitian tentang topik-topik seperti ini, karena tawar-menawar agen menjadi hal biasa dan komponen penting dari apa yang kita delegasikan kepada asisten AI kita.

Tantangan Abadi Akal Sehat

Saya akan menutup dengan beberapa pemikiran tentang topik yang telah membingungkan AI sejak awal dan akan terus demikian di era agen, meskipun dengan cara yang baru dan lebih personal. Ini adalah topik yang fundamental sekaligus sulit untuk didefinisikan: akal sehat.

Dengan akal sehat, kita berarti hal-hal yang jelas, yang akan diketahui oleh setiap manusia dengan pengalaman yang cukup di dunia tanpa diberi tahu secara eksplisit. Misalnya, bayangkan segelas air di atas meja. Kita semua akan setuju bahwa jika kita memindahkan gelas ke kiri atau kanan di atas meja, itu masih segelas air. Tetapi jika kita membalikkannya, itu masih gelas di atas meja, tetapi bukan lagi segelas air (dan juga berantakan yang harus dibersihkan). Sangat tidak mungkin salah satu dari kita pernah didudukkan dan menjalani narasi ini, dan juga kemungkinan besar Anda belum pernah secara sengaja mempertimbangkan fakta-fakta seperti itu sebelumnya. Tetapi kita semua tahu dan menyetujuinya.

Mencari cara untuk menanamkan model dan sistem AI dengan akal sehat telah menjadi prioritas penelitian AI selama beberapa dekade. Sebelum munculnya pembelajaran mesin skala besar modern, ada upaya seperti proyek Cyc (untuk ensiklopedia), sebagian di antaranya dikhususkan untuk secara manual membangun basis data fakta akal sehat seperti yang kita bahas tentang gelas, meja, dan air. Akhirnya, Internet konsumen menghasilkan cukup banyak data bahasa dan visual sehingga banyak fakta akal sehat umum seperti itu dapat dipelajari atau disimpulkan.

Tetapi dalam Agentic AI, kita berharap perwakilan kita memahami tidak hanya fakta akal sehat generik dari jenis yang telah kita diskusikan tetapi juga akal sehat yang khusus untuk preferensi kita sendiri — hal-hal yang akan masuk akal bagi sebagian besar orang jika saja mereka memahami konteks dan perspektif kita. Di sini, pendekatan pembelajaran mesin murni kemungkinan tidak akan cukup. Tidak akan ada cukup data untuk mempelajari dari awal versi akal sehat subyektif saya.

Misalnya, pertimbangkan perilaku atau kebijakan Anda sendiri mengenai membiarkan pintu terbuka atau tertutup, terkunci atau tidak terkunci. Jika Anda seperti saya, kebijakan ini bisa sangat bernuansa, meskipun saya mengikutinya tanpa berpikir setiap saat. Terkadang kita mungkin berbagi kata sandi dengan keluarga atau teman untuk sumber daya yang kurang kritis dan sensitif privasi seperti Netflix atau Spotify, tetapi kita tidak akan melakukan hal yang sama untuk rekening bank dan catatan medis. Keadaan di mana saya mempercayai agen saya sendiri atau agen lain dengan sumber daya yang perlu bersifat pribadi dan aman akan setidaknya sama kompleksnya dengan yang berkaitan dengan penutupan dan penguncian pintu. Kesulitan utamanya bukan pada memiliki bahasa atau formalisme yang tepat untuk menentukan kebijakan tersebut, melainkan pada membantu orang mengartikulasikan dan menerjemahkan akal sehat subyektif mereka ke dalam kerangka kerja ini sejak awal.

Kesimpulan

Era Agentic AI masih dalam masa-masa awal, tetapi kita tidak boleh menganggap itu berarti kita memiliki periode pengembangan dan adopsi yang panjang dan lambat di depan kita. Kita hanya perlu melihat lintasan teknologi AI generatif yang mendasarinya — dari hampir tidak dikenal di luar lingkaran penelitian baru-baru ini pada awal 2022 hingga sekarang menjadi inovasi ilmiah terpenting abad ini sejauh ini. Dan memang, sudah ada penggunaan luas dari apa yang dapat kita anggap sebagai sistem agen awal, seperti agen pengkodean terbaru.

Jauh melampaui pelengkapan otomatis awal untuk alat Python beberapa tahun yang lalu, agen semacam itu sekarang melakukan lebih banyak lagi — menulis kode yang berfungsi dari perintah dan deskripsi bahasa alami, mengakses sumber daya dan kumpulan data eksternal, secara proaktif merancang eksperimen dan memvisualisasikan hasilnya, dan yang terpenting (terutama bagi programmer pemula seperti saya), menangani kompleksitas pengaturan lingkungan, instalasi paket perangkat lunak dan dependensi, dan sejenisnya dengan mulus. Meskipun kecepatan di mana AI generatif telah meresap ke dalam industri dan masyarakat luas, landasan ilmiahnya sudah ada sejak beberapa dekade, mungkin sejak kelahiran AI tetapi tentu tidak lebih lambat dari pengembangan teori dan praktik jaringan saraf pada tahun 1980-an. Agentic AI — dibangun di atas fondasi generatif ini, tetapi cukup berbeda dalam ambisi dan tantangannya — tidak memiliki substrat ilmiah yang mendalam untuk dibangun secara sistematis. Semuanya adalah wilayah yang cukup baru. Saya telah mencoba mengantisipasi beberapa tantangan yang lebih mendasar di sini, dan saya mungkin salah separuhnya. Untuk memparafrasekan raja toko serba ada Philadelphia, John Wanamaker, saya hanya tidak tahu yang mana separuhnya — belum.

Post a Comment

Previous Post Next Post