Overprovisioning Inferensi: Ekonomi Unit dan Kepanikan Skalabilitas

Ada ironi yang terlalu rapi untuk sebuah case study ekonomi infrastruktur: semakin tinggi investasi yang dialokasikan ke suatu sektor, semakin sedikit ruang tersisa untuk inovasi aktual di dalamnya. Laporan BCG AI Radar 2026 mencatat bahwa perusahaan di seluruh dunia berencana menggandakan belanja AI — dari 0,8% menjadi sekitar 1,7% dari pendapatan. Angka yang tampak optimis jika dibaca dari permukaan, namun menyerupai fork bomb jika dirunut ke bawah. Sebab dalam arsitektur sistem, menambah resource allocation tanpa merestrukturisasi pipeline hanyalah resep untuk cascading failure yang lebih mahal.

BCG melaporkan bahwa 94% perusahaan berencana terus berinvestasi di AI meskipun tidak melihat return langsung. Ini menarik — bukan karena angkanya, melainkan karena apa yang direpresentasikannya: sebuah keputusan kolektif untuk mengalokasikan anggaran berdasarkan FOMO (fear of missing out) alih-alih cost-benefit analysis yang sober. Dalam istilah infrastruktur, ini seperti melakukan vertical pod autoscaling tanpa pernah memeriksa apakah workload yang dijalankan layak untuk diskalakan.

Para CEO — demikian laporan BCG — kini mengambil alih langsung keputusan investasi AI. Artinya, middleware manajemen menengah yang biasanya berfungsi sebagai buffer antara ambisi dan realitas operasional telah dilewati. Ketika eksekutif puncak memutuskan alokasi GPU tanpa berkonsultasi dengan tim infrastruktur yang paham total cost of ownership, yang terjadi bukanlah akselerasi melainkan overprovisioning harapan.

Cost of Inference sebagai Pipeline Utama

Semua orang berbicara tentang biaya training model — scaling laws, klaster GPU ribuan unit, konsumsi listrik yang menyamai kota kecil. Namun yang perlahan membebani ekosistem startup AI bukanlah training cost, melainkan inference cost. Setiap API call ke model yang sudah di-deploy mengonsumsi siklus komputasi yang harganya tidak pernah turun linear dengan volume. Cost of inference adalah leaky abstraction yang membuat banyak startup AI terjebak dalam paradoks: semakin sukses mereka menarik pengguna, semakin cepat mereka bangkrut membayar tagihan komputasi.

Sejumlah analis memproyeksikan bahwa 99% startup AI saat ini tidak akan bertahan hingga 2027 — dan penyebab utamanya bukanlah persaingan produk, melainkan unit economics yang tidak pernah masuk akal sejak awal. Dalam arsitektur sistem, ini disebut denial-of-service terhadap diri sendiri: kamu membangun pipeline yang secara aktif menghancurkan resource pool-mu sendiri.

Asymmetric Scaling: Ekonomi Unit dan Lokalitas Terbatas

BCG mungkin mencatat kenaikan belanja AI secara global, tetapi distribusinya sangat timpang. Di lokalitas terbatas seperti Indonesia, cost of inference tidak hanya lebih tinggi secara relatif terhadap pendapatan (karena infrastruktur cloud regional masih premium), tetapi juga lebih sulit dioptimalkan karena keterbatasan akses ke hardware spesifik. Ketika startup di Silicon Valley bisa memilih antara GPU NVIDIA H200, TPU Google, atau inference-optimized instance dari tiga penyedia cloud besar, startup Indonesia pada umumnya bergantung pada general-purpose instance dengan overhead yang tidak pernah dihitung dalam pitch deck mereka.

Harvard Business Review mencatat bahwa total cost of ownership untuk menjalankan inference workload di pasar berkembang bisa 30-40% lebih tinggi dibanding di region utama AWS — sebelum memperhitungkan biaya data transfer dan latency yang tak terhindarkan. Angka ini nyaris tidak pernah muncul dalam laporan investasi yang optimis.

Container Orchestration untuk Ambisi yang Tak Terdefinisi

Metafora yang paling akurat untuk kondisi industri AI saat ini adalah: sekelompok container orchestration yang berjalan dengan resource request yang diisi angka sembarang. Setiap perusahaan memasang request sebesar mungkin — berlomba mengumumkan AI transformation, agentic AI, LLM integration — tanpa pernah menghitung resource limit yang realistis. Kubernetes dalam kehidupan nyata akan menolak deployment seperti ini. Pasar tidak memiliki admission controller.

Yang membedakan era ini dari gelembung teknologi sebelumnya adalah capital expenditure-nya bersifat sunk cost yang sangat konkret. Bukan office space atau employee headcount, melainkan compute time di GPU yang bisa diukur per menit dalam dolar. Burn rate startup AI bukan lagi gaji karyawan — melainkan API key yang terus menyala 24/7.

Deprovisioning sebagai Keterampilan yang Hilang

Satu hal yang jarang dibahas dalam AI investment surge ini adalah kemampuan untuk deprovision — untuk secara sadar mematikan workload yang tidak cost-effective. Dalam FinOps tradisional, rightsizing adalah praktik standar. Dalam ekosistem AI saat ini, baik startup maupun korporasi besar cenderung membiarkan inference endpoint tetap hidup bahkan ketika tidak digunakan, karena shutting down dianggap sebagai sinyal kemunduran.

Bloomberg melaporkan bahwa beberapa unicorn AI menghabiskan 60-70% dari funding mereka untuk biaya komputasi — sebuah rasio yang mencengangkan jika dibandingkan dengan software startup tradisional yang biasanya mengalokasikan 10-15% untuk infrastruktur. Separation of concerns antara produk dan infrastruktur telah runtuh: produk adalah infrastruktur, dan infrastruktur memiliki price tag yang eksponensial.

Log berakhir di sini. Investasi naik dua kali lipat, namun signal-to-noise ratio anggaran tidak pernah serendah ini. Yang dibutuhkan bukanlah lebih banyak modal, melainkan admission controller untuk ambisi.

Overprovisioning Inferensi: Ekonomi Unit dan Kepanikan Skalabilitas

Arsitektur Kepanikan Modal

Cost of Inference sebagai Pipeline Utama

Asymmetric Scaling: Ekonomi Unit dan Lokalitas Terbatas

Container Orchestration untuk Ambisi yang Tak Terdefinisi

Deprovisioning sebagai Keterampilan yang Hilang