vLLM AI Spend Control for SMB Agent Workflows

Track, cap, and forecast LLM costs across all your agents powered by self‑hosted vLLM models, without slowing down responses.

vllm cost-control nestjs langfuse helicone agent-budget llm-cost-tracking nextjs

The problem

Small businesses running agents on self‑hosted vLLM struggle to see aggregated LLM spend per customer, team, or use case. Without built‑in budgeting, a runaway prompt or misconfigured agent can balloon compute costs before anyone notices.

Built from

Intro

This recipe adds cost-aware budget enforcement to any self-hosted vLLM agent workflow. You’ll build a Next.js API layer that intercepts every call to your vLLM server, runs it through a budget controller with soft and hard caps per user or tenant, records spend in an in-memory store, and exports cost telemetry to Langfuse and Helicone. By the end, a chat endpoint will reject requests when budgets are exhausted and emit cost traces to your observability stack — all without slowing down responses.

The tutorial is designed for developers who run their own LLM inference and want per-scope budget limits without signing up for a managed proxy or rewriting their agent code.

Prerequisites

Node.js 22+ and pnpm 10 installed
A running vLLM server (or access to one — the code defaults to http://localhost:8000/v1)
Optional: Langfuse account (for cost trace export) and Helicone API key (for usage logging)
Familiarity with TypeScript and Next.js App Router basics

Step 1: Scaffold the project and install dependencies

Create a new Next.js project with the App Router and install the exact dependency versions this recipe needs.

terminal

npx create-next-app@latest vllm-spend-control --typescript --app --src-dir --no-tailwind --eslint --import-alias

Example artifact

A complete, working implementation of this recipe — downloadable as a zip or browsable file by file. Generated by our build pipeline; tested with full coverage before publishing.

Download example (zip)Browse files

161 kB·56 tests·92.2% coverage·vitest passing

SHA-2568fe6d8c522590de7c341bac92685de4b1de78d6a1f07c2bcdaf896802c4e392e

Book a conversation All solutions

Comments

Loading comments…

// src/services/cost-tracking.service.ts import { BudgetController } from "@reaatech/agent-budget-engine"; import { PricingEngine } from "@reaatech/agent-budget-pricing"; import { BudgetScope } from "@reaatech/agent-budget-types"; export class CostTrackingService { private controller: BudgetController; private pricing: PricingEngine; constructor(controller: BudgetController, pricing: PricingEngine) { this.controller = controller; this.pricing = pricing; } preflightCheck(input: { scopeType: BudgetScope; scopeKey: string; model: string; estimatedInputTokens: number; }): { allowed: boolean; suggestedModel?: string; disabledTools?: string[] } { const estimate = this.pricing.estimateCost(input.model, input.estimatedInputTokens); const check = this.controller.check({ scopeType: input.scopeType, scopeKey: input.scopeKey, estimatedCost: estimate, modelId: input.model, tools: [], }); return { allowed: check.allowed, suggestedModel: check.suggestedModel, disabledTools: check.disabledTools, }; } recordCall(result: { requestId: string; scopeType: BudgetScope; scopeKey: string; model: string; provider: string; inputTokens: number; outputTokens: number; }): number { const computedCost = this.pricing.computeCost(result.inputTokens, result.outputTokens, result.model); this.controller.record({ requestId: result.requestId, scopeType: result.scopeType, scopeKey: result.scopeKey, cost: computedCost, inputTokens: result.inputTokens, outputTokens: result.outputTokens, modelId: result.model, provider: result.provider, timestamp: new Date(), }); return computedCost; } getState( scopeType: BudgetScope, scopeKey: string, ): { spent: number; remaining: number; limit: number; status: string } { const state = this.controller.getState(scopeType, scopeKey); const budget = this.controller.getBudget(scopeType, scopeKey); return { spent: state?.spent ?? 0, remaining: state?.remaining ?? 0, limit: budget?.limit ?? 0, status: state?.state ?? "unknown", }; } }

// src/interceptors/cost.interceptor.ts import { nanoid } from "nanoid"; import { BudgetScope } from "@reaatech/agent-budget-types"; import { CostTrackingService } from "../services/cost-tracking.service.js"; import { TelemetryService } from "../modules/telemetry/telemetry.service.js"; import { callVllm } from "../services/vllm-client.js"; import { BudgetExceededError, CostReport } from "../lib/types.js"; export async function interceptVllmCall( input: { model: string; messages: Array<{ role: "user" | "assistant" | "system"; content: string }>; scopeType?: string; scopeKey?: string; }, costTracking: CostTrackingService, telemetry: TelemetryService, ): Promise<{ content: string; usage: { inputTokens: number; outputTokens: number }; costUsd: number; requestId: string; }> { const requestId = nanoid(); const scopeType = BudgetScope.User; const scopeKey = input.scopeKey ?? "default"; const preflight = costTracking.preflightCheck({ scopeType, scopeKey, model: input.model, estimatedInputTokens: 1000, }); if (!preflight.allowed) { const state = costTracking.getState(scopeType, scopeKey); throw new BudgetExceededError({ message: "budget exceeded", status: 402, scopeType, scopeKey, remaining: state.remaining, limit: state.limit, }); } const actualModel = (preflight.suggestedModel && preflight.suggestedModel !== input.model) ? preflight.suggestedModel : input.model; const vllmResult = await callVllm({ model: actualModel, messages: input.messages, }); const actualCost = costTracking.recordCall({ requestId, scopeType, scopeKey, model: actualModel, provider: "vllm", inputTokens: vllmResult.usage.inputTokens, outputTokens: vllmResult.usage.outputTokens, }); const costReport: CostReport = { requestId, scopeType, scopeKey, provider: "vllm", model: actualModel, inputTokens: vllmResult.usage.inputTokens, outputTokens: vllmResult.usage.outputTokens, costUsd: actualCost, timestamp: new Date(), }; telemetry.emitCost(costReport).catch((err: unknown) => { console.error("Fire-and-forget telemetry failed:", err); }); return { content: vllmResult.content, usage: vllmResult.usage, costUsd: actualCost, requestId, }; }

// app/api/chat/route.ts import { NextRequest, NextResponse } from "next/server"; import { z } from "zod"; import { interceptVllmCall } from "../../../src/interceptors/cost.interceptor.js"; import { createSpendStore } from "../../../src/modules/budget/spend-store.service.js"; import { createPricingEngine } from "../../../src/modules/budget/pricing.service.js"; import { createBudgetController } from "../../../src/modules/budget/budget.service.js"; import { CostTrackingService } from "../../../src/services/cost-tracking.service.js"; import { createLangfuseClient } from "../../../src/modules/telemetry/langfuse.service.js"; import { TelemetryService } from "../../../src/modules/telemetry/telemetry.service.js"; import { BudgetExceededError } from "../../../src/lib/types.js"; const spendStore = createSpendStore(); const pricing = createPricingEngine(); const budgetController = createBudgetController(spendStore, pricing); const costTracking = new CostTrackingService(budgetController, pricing); const langfuse = createLangfuseClient(); const telemetry = new TelemetryService(langfuse); const chatSchema = z.object({ model: z.string().optional(), messages: z.array(z.object({ role: z.enum(["user", "assistant", "system"]), content: z.string(), })).min(1), scopeType: z.string().optional(), scopeKey: z.string().optional(), }); export async function POST(req: NextRequest) { let body: unknown; try { body = await req.json(); } catch { return NextResponse.json({ error: "bad_request", message: "Malformed JSON body" }, { status: 400 }); } const parsed = chatSchema.safeParse(body); if (!parsed.success) { return NextResponse.json({ error: "bad_request", details: z.treeifyError(parsed.error) }, { status: 400 }); } const { model, messages, scopeType, scopeKey } = parsed.data; try { const result = await interceptVllmCall( { model: model ?? "mistral-7b-instruct", messages, scopeType, scopeKey, }, costTracking, telemetry, ); return NextResponse.json(result); } catch (err) { if (err instanceof BudgetExceededError) { return NextResponse.json({ error: "budget_exceeded", message: err.message }, { status: 402 }); } throw err; } }

// app/api/budget/route.ts import { z } from "zod"; import { type NextRequest, NextResponse } from "next/server"; import { createSpendStore } from "../../../src/modules/budget/spend-store.service.js"; import { createPricingEngine } from "../../../src/modules/budget/pricing.service.js"; import { createBudgetController, getScopeSpendState } from "../../../src/modules/budget/budget.service.js"; import { BudgetScope } from "@reaatech/agent-budget-types"; const scopeEnumMap: Record<string, BudgetScope> = { Task: BudgetScope.Task, User: BudgetScope.User, Session: BudgetScope.Session, Org: BudgetScope.Org, task: BudgetScope.Task, user: BudgetScope.User, session: BudgetScope.Session, org: BudgetScope.Org, }; const spendStore = createSpendStore(); const pricing = createPricingEngine(); const controller = createBudgetController(spendStore, pricing); export function GET(req: NextRequest) { const scopeTypeRaw = req.nextUrl.searchParams.get("scopeType"); const scopeKey = req.nextUrl.searchParams.get("scopeKey"); if (!scopeTypeRaw || !scopeKey) { return NextResponse.json({ error: "bad_request", message: "scopeType and scopeKey query parameters are required" }, { status: 400 }); } const scopeType = scopeEnumMap[scopeTypeRaw]; const result = getScopeSpendState(controller, scopeType, scopeKey); return NextResponse.json(result); } const defineBudgetSchema = z.object({ scopeType: z.string(), scopeKey: z.string(), limit: z.number(), policy: z.object({ softCap: z.number(), hardCap: z.number() }).optional(), }); const deleteBudgetSchema = z.object({ scopeType: z.string(), scopeKey: z.string(), }); export async function POST(req: NextRequest) { let body: unknown; try { body = await req.json(); } catch { return NextResponse.json({ error: "bad_request", message: "Malformed JSON body" }, { status: 400 }); } const parsed = defineBudgetSchema.safeParse(body); if (!parsed.success) { return NextResponse.json({ error: "bad_request", details: parsed.error }, { status: 400 }); } const { scopeType, scopeKey, limit, policy } = parsed.data; const scopeTypeEnum = scopeEnumMap[scopeType]; controller.defineBudget({ scopeType: scopeTypeEnum, scopeKey, limit, policy: policy ?? { softCap: 0.8, hardCap: 1.0 }, }); return NextResponse.json({ defined: true }); } export async function DELETE(req: NextRequest) { let body: unknown; try { body = await req.json(); } catch { return NextResponse.json({ error: "bad_request", message: "Malformed JSON body" }, { status: 400 }); } const parsed = deleteBudgetSchema.safeParse(body); if (!parsed.success) { return NextResponse.json({ error: "bad_request", details: parsed.error }, { status: 400 }); } const { scopeType, scopeKey } = parsed.data; const scopeTypeEnum = scopeEnumMap[scopeType]; controller.undefineBudget(scopeTypeEnum, scopeKey); return NextResponse.json({ removed: true }); }

vLLM AI Spend Control for SMB Agent Workflows

The problem

Built from

Intro

Prerequisites

Step 1: Scaffold the project and install dependencies

Example artifact

Comments

Intro

Prerequisites

Step 1: Scaffold the project and install dependencies

Step 2: Configure environment variables and Next.js

Step 3: Create shared types

Step 4: Build the vLLM client

Step 5: Build the budget infrastructure

Spend store

Pricing engine

Budget controller

Step 6: Create the cost tracking service

Step 7: Create the cost interceptor

Step 8: Create the telemetry services

Langfuse service

Helicone service

Telemetry service (aggregator)

Step 9: Wire up instrumentation and route handlers

Instrumentation

Chat route handler

Budget management route handler

Health check route

Step 10: Write tests and verify

Next steps