Pipeline yang Bocor: Ketika 76 Persen Agen AI Gagal Mencapai Produksi

Ada ironi yang terlalu on the nose bahkan untuk sebuah paper yang ditulis oleh seorang site reliability engineer yang kelelahan: semakin canggih sistem yang kita bangun untuk mengotomatiskan keputusan, semakin banyak titik kegagalan yang kita sisipkan ke dalam critical path infrastruktur. Dalam istilah infrastruktur, ini adalah overprovisioning kompleksitas — menambahkan middleware ke dalam pipeline yang sebenarnya tidak membutuhkannya, lalu heran ketika latensi dan error rate justru naik secara bersamaan.

Sebuah analisis yang dirilis oleh tim riset independen pada awal 2026 mencatat bahwa dari 847 deployment agen AI di perusahaan enterprise, 76 persen mengalami kegagalan kritis dalam 90 hari pertama. Empat puluh tiga persen ditinggalkan sama sekali setelah enam bulan. Hanya 18 persen yang berhasil memenuhi janji awal mereka. Angka-angka ini, yang dikutip oleh Forbes dan TechCrunch dalam liputan terpisah, bukanlah kegagalan teknis — setidaknya tidak dalam layer yang biasa kita curigai.

Arsitektur Kepercayaan yang Salah Letak

Kegagalan pertama, dan yang paling sistemik, bukanlah kegagalan model — melainkan kegagalan dalam memahami agen AI sebagai entitas yang membutuhkan konteks, bukan sekadar endpoint. Banyak organisasi memperlakukan agen AI seperti microservice yang bisa dideploy dengan CI/CD pipeline biasa: push ke registry, spin up di container orchestration, dan selesai.

Dalam arsitektur sistem, ini adalah kesalahan klasifikasi resource allocation yang fatal. Agen AI bukanlah fungsi deterministik yang menghasilkan output yang sama untuk input yang sama. Mereka adalah stateful processes yang berinteraksi dengan lingkungan yang berubah setiap siklus inferensi. Sebuah agen yang dirancang untuk menangani customer support di sesi pertama mungkin bekerja sempurna. Di sesi ke-47, ketika konteks telah melebihi context window dan conversation history telah mengalami drift yang tak terdeteksi, agen tersebut mulai mengambil keputusan yang tidak masuk akal — dan tidak ada monitoring stack yang cukup canggih untuk menangkap subtle hallucination sebelum ia mencapai production database.

Di ruang operasional yang terbatas — baca: perusahaan teknologi di Indonesia dengan tim MLOps yang terdiri dari tiga orang yang juga merangkap sebagai backend engineer dan DevOps — kegagalan jenis ini menjadi kritis secara eksponensial. Tidak ada redundancy untuk fallback. Tidak ada circuit breaker yang dirancang khusus untuk mendeteksi ketika sebuah agen mulai “berhalusinasi” dalam bahasa Indonesia yang dicampur dengan istilah teknis Inggris. Yang ada hanyalah dashboard standar yang mengukur uptime, bukan sanity.

Surface Area Serangan dari TCO yang Tidak Terdefinisi

Kegagalan kedua adalah total cost of ownership (TCO) yang tidak pernah dihitung dengan benar. Dalam bahasa yang lebih jujur: perusahaan menghitung biaya API inference, melupakan biaya context caching, mengabaikan biaya re-ranking dan embedding, dan tidak memasukkan sama sekali biaya human-in-the-loop untuk memvalidasi output agen.

Gartner memproyeksikan bahwa pada akhir 2026, 40 persen aplikasi enterprise akan menyertakan agen AI. Namun proyeksi yang sama juga mencatat bahwa biaya operasional per agen, ketika dihitung secara all-in, mencapai 3 hingga 8 kali lipat dari perkiraan awal. Ini bukan soal harga token inference yang turun — mereka memang turun, sekitar 60 persen dari harga 2024. Ini soal cost of inference yang bersifat compounding: setiap agen membutuhkan logging, monitoring, retrieval-augmented generation (RAG) pipeline, feedback loop, dan rollback mechanism. Setiap komponen menambah biaya. Tidak ada yang berbicara tentang biaya ini dalam board meeting.

Dalam lokalitas terbatas, efeknya lebih brutal. Perusahaan startup di Indonesia yang menginvestasikan 30-40 persen dari funding round mereka ke dalam inisiatif agen AI — karena tren, bukan karena kebutuhan — biasanya berakhir dengan burn rate yang tidak terkendali dan agen yang lebih sering idle daripada produktif. Satu founder yang saya wawancarai (secara anonim, karena topik ini terlalu memalukan untuk diakui publik) menggambarkan situasinya sebagai “memiliki 50 intern yang pintar tapi tidak punya supervisor yang cukup untuk memastikan mereka tidak saling menjatuhkan production database.”

Asymmetric Scaling dan Ekonomi Unit

Kegagalan ketiga adalah — dalam istilah yang paling tidak populer — ketidakmampuan untuk scale down. Arsitektur agen AI yang umum digunakan saat ini dirancang untuk scale up: tambah agen untuk menangani beban, horizontal pod autoscaling, load balancing antar instance. Tapi hampir tidak ada yang merancang shutdown mechanism yang efisien.

Ketika agen AI tidak dibutuhkan — di luar jam kerja, di akhir pekan, saat libur nasional — mereka tetap berjalan. Mereka tetap mempertahankan context cache di memori. Mereka tetap memanggil LLM backend untuk health check internal. Mereka tetap menghasilkan log dalam volume yang tidak proporsional dengan nilai yang mereka hasilkan. Dalam arsitektur cloud native, ini adalah resource leak yang diam-diam menguras budget.

Di Amerika atau Eropa, idle cost sebesar beberapa ribu dolar per bulan mungkin dianggap sebagai noise. Di Indonesia, di mana margin operasional lebih tipis dan funding lebih sulit diraih, angka yang sama bisa berarti gaji dua junior engineer — atau, dalam konteks yang lebih absurd, cloud bill yang melebihi revenue aktual yang dihasilkan oleh agen tersebut.

Cascading Failure dari Middleware yang Tidak Dipercaya

Kegagalan keempat, dan yang paling jarang dibahas, adalah kegagalan integration testing yang tidak pernah benar-benar komprehensif. Agen AI tidak beroperasi dalam vacuum. Mereka mengambil data dari database, mengirim permintaan ke API eksternal, memperbarui spreadsheet, mengirim email, memposting ke Slack. Setiap integration point adalah titik potensi kegagalan.

Permasalahannya: integration test untuk agen AI tidak bisa direduksi menjadi mocking sederhana terhadap HTTP response. Sebuah agen yang mengolah output dari agen lain, yang kemudian diumpankan ke dalam RAG pipeline, yang kemudian digunakan untuk mengambil keputusan — ini adalah dependency graph yang secara fundamental tidak dapat diprediksi. Satu perubahan kecil di struktur data API eksternal bisa memicu cascading failure di seluruh agent mesh yang membutuhkan waktu tiga minggu untuk dilacak dan dua hari untuk diperbaiki. Bloomberg melaporkan bahwa 62 persen kegagalan agen AI yang terlacak pada Q1 2026 disebabkan oleh integration drift — perubahan di sistem eksternal yang tidak terdokumentasi dan tidak terdeteksi oleh monitoring konvensional.

Separation of Concerns dalam Ekonomi Perhatian

Di balik semua angka ini, ada pola yang lebih dalam. Kegagalan agen AI sebagian besar bukanlah kegagalan dari teknologi AI itu sendiri, melainkan kegagalan dari organisasi yang mendistribusikan sumber daya, kepercayaan, dan tanggung jawab secara tidak merata. Dalam istilah yang lebih sederhana: kita memberikan otonomi kepada sistem yang belum kita pahami batasannya, lalu kita kaget ketika batasan tersebut ditemukan melalui kegagalan yang mahal.

Respon industri terhadap angka 76 persen ini menarik. Alih-alih mengurangi kompleksitas, vendor agen AI justru menambahkan lebih banyak middleware — guardrail frameworks, observability agents, safety classifiers, fallback orchestrator — yang masing-masing memiliki inference cost-nya sendiri. Solusi untuk overhead adalah lebih banyak overhead. Ini adalah fork bomb dalam dunia software architecture: kita memanggil proses baru untuk mengelola proses yang sudah tidak terkendali, tanpa menyadari bahwa kita sedang mengonsumsi file descriptor yang terbatas.

Di Jakarta, dalam sebuah co-working space di daerah Sudirman, seorang CTO dari startup Series A baru saja menonaktifkan semua agen AI yang ia deploy tiga bulan lalu. “Kami kembali ke rule-based system sederhana,” katanya. “Lebih lambat, tidak sexy, tapi tidak ada agen yang tiba-tiba memesan 400 server instance di cloud karena prompt injection yang tidak terdeteksi.” Ia tertawa saat mengatakannya, tapi ada getaran di tawanya — getaran yang hanya bisa dihasilkan oleh seseorang yang baru saja menyadari bahwa solusi yang ia jual kepada investor sebagai “masa depan” ternyata adalah masa lalu yang dikemas ulang dengan API key baru.

Log ditutup di sini. Agen tetap berjalan di suatu tempat, menghabiskan token dan menghasilkan log yang tidak akan pernah dibaca, sementara kita menghitung ulang TCO sambil berharap pipeline ini tidak bocor lebih parah dari yang kita kira. Rollback selalu menjadi opsi, tapi ego — tidak seperti container — tidak bisa dengan mudah dihentikan dan di-redeploy.