Agent Feedback Loop for Automated Fine-Tune Dataset Generation

Collect agent decisions and user corrections to build a dataset for model fine-tuning.

agent-feedback-loop fine-tuning dataset-generation nextjs nestjs typescript knowledge-agent llm-observability

The problem

A boutique marketing agency uses an AI agent to generate ad copy. The agent often misses the brand voice, requiring manual edits. The agency wants to capture these corrections and use them to fine-tune a smaller, cheaper model that better matches their style. They need a system that logs agent outputs, captures user feedback (accept/reject/edit), and periodically exports a clean dataset for fine-tuning. This reduces reliance on expensive API calls and improves quality over time.

Built from

Intro

In this tutorial you’ll build an agent feedback loop that logs AI-generated ad copy, captures user corrections (accept, reject, or edit), and exports a clean fine-tuning dataset. You’ll wire up six REAA (Recording, Evaluation, and Analysis for Agents) packages — trace recording, SDK interception, evaluation harnesses, and a replay CLI — into a Next.js 16 App Router project with a PostgreSQL database via Drizzle ORM. By the end, you’ll have a running API that lets a marketing team improve their AI agent over time by collecting real human feedback.

Prerequisites

Node.js >= 22 (check with node --version)
pnpm 10.0.0 (install with corepack enable && corepack prepare pnpm@10.0.0 --activate)
PostgreSQL running locally or a remote connection string
An OpenAI API key (the provider-agnostic wrapper uses @ai-sdk/openai by default)
A Langfuse account (free tier at langfuse.com) for LLM observability — you’ll need public key, secret key, and base URL
Familiarity with TypeScript, Next.js App Router route handlers, and basic SQL concepts

Step 1: Scaffold the project

Create a new Next.js 16 App Router project. The create-next-app CLI generates the shell — package.json, tsconfig.json, config files, and the app/ directory with a default layout and page.

terminal

npx create-next-app@latest agent-feedback-loop --typescript --app

Example artifact

A complete, working implementation of this recipe — downloadable as a zip or browsable file by file. Generated by our build pipeline; tested with full coverage before publishing.

Download example (zip)Browse files

185 kB·113 tests·98.2% coverage·vitest passing

SHA-2560dd9ae90525b57dff843705996599fe31365a08d8eea4424d85a76fe540f90b4

Book a conversation All solutions

Comments

Loading comments…

Intro

Prerequisites

Node.js >= 22 (check with node --version)
pnpm 10.0.0 (install with corepack enable && corepack prepare pnpm@10.0.0 --activate)
PostgreSQL running locally or a remote connection string
An OpenAI API key (the provider-agnostic wrapper uses @ai-sdk/openai by default)
A Langfuse account (free tier at langfuse.com) for LLM observability — you’ll need public key, secret key, and base URL
Familiarity with TypeScript, Next.js App Router route handlers, and basic SQL concepts

Step 1: Scaffold the project

Create a new Next.js 16 App Router project. The create-next-app CLI generates the shell — package.json, tsconfig.json, config files, and the app/ directory with a default layout and page.

terminal

npx create-next-app@latest agent-feedback-loop --typescript --app

import { pgTable, uuid, text, integer, timestamp, } from "drizzle-orm/pg-core"; export const agentRuns = pgTable("agent_runs", { id: uuid("id").defaultRandom().primaryKey(), sessionId: text("session_id").notNull(), prompt: text("prompt").notNull(), output: text("output"), modelUsed: text("model_used").notNull(), inputTokens: integer("input_tokens"), outputTokens: integer("output_tokens"), durationMs: integer("duration_ms"), tracePath: text("trace_path"), status: text("status").notNull().default("pending"), createdAt: timestamp("created_at", { withTimezone: true }).defaultNow(), }); export const feedback = pgTable("feedback", { id: uuid("id").defaultRandom().primaryKey(), agentRunId: uuid("agent_run_id") .notNull() .references(() => agentRuns.id, { onDelete: "cascade" }), decision: text("decision").notNull(), correctedOutput: text("corrected_output"), userNotes: text("user_notes"), createdAt: timestamp("created_at", { withTimezone: true }).defaultNow(), }); export const fineTuneDatasets = pgTable("fine_tune_datasets", { id: uuid("id").defaultRandom().primaryKey(), name: text("name").notNull(), description: text("description"), status: text("status").notNull().default("draft"), recordCount: integer("record_count").default(0), exportFormat: text("export_format").default("jsonl"), createdAt: timestamp("created_at", { withTimezone: true }).defaultNow(), updatedAt: timestamp("updated_at", { withTimezone: true }).defaultNow(), }); export const datasetExamples = pgTable("dataset_examples", { id: uuid("id").defaultRandom().primaryKey(), datasetId: uuid("dataset_id") .notNull() .references(() => fineTuneDatasets.id, { onDelete: "cascade" }), agentRunId: uuid("agent_run_id") .notNull() .references(() => agentRuns.id), feedbackId: uuid("feedback_id") .notNull() .references(() => feedback.id), prompt: text("prompt").notNull(), acceptedOutput: text("accepted_output").notNull(), pairType: text("pair_type").notNull().default("correction"), createdAt: timestamp("created_at", { withTimezone: true }).defaultNow(), });

import { RecordingEngine, LocalFileStorage, TraceSerializer, FrameworkAdapterRegistry, type RecordingSession, } from "@reaatech/agent-replay-core"; import type { SpanKind, Event, CaptureContext } from "@reaatech/agent-replay-shared"; import { langchainStateAdapter, langgraphStateAdapter, } from "@reaatech/agent-replay-integrations"; const adapterRegistry = new FrameworkAdapterRegistry(); adapterRegistry.register(langchainStateAdapter); adapterRegistry.register(langgraphStateAdapter); export class RecordingSessionManager { private engine: RecordingEngine; private storage: LocalFileStorage; constructor(traceDir?: string) { this.engine = new RecordingEngine(); this.storage = new LocalFileStorage(traceDir ?? process.env.TRACE_DIR ?? "./traces"); } startSession(name: string, tags?: string[]): RecordingSession { return this.engine.startRecording({ name, tags: tags ?? [] }); } async stopSession(session: RecordingSession): Promise<string> { const trace = this.engine.stopRecording(session); const traceId = `trace-${String(Date.now())}`; const dir = process.env.TRACE_DIR ?? "./traces"; const tracePath = `${dir}/${traceId}.artrace.json`; const serializer = new TraceSerializer(); await serializer.serialize(trace, tracePath); await this.storage.save(trace); return tracePath; } } export class TraceRecorder { private engine: RecordingEngine; constructor(engine: RecordingEngine) { this.engine = engine; } startSpan(name: string, kind: SpanKind): string { return this.engine.startSpan(name, kind); } endSpan(spanId: string, status?: "ok" | "error"): void { this.engine.endSpan(spanId, status); } captureEvent(event: Event, context: CaptureContext): void { this.engine.captureEvent(event, context); } recordAgentCall(spanId: string, requestData: object, responseData: object): void { const now = Date.now(); this.engine.captureEvent( { timestamp: now, type: "request", name: "llm-request", attributes: {}, data: requestData }, { spanId } ); this.engine.captureEvent( { timestamp: now, type: "response", name: "llm-response", attributes: {}, data: responseData }, { spanId } ); } } export function createRecordingService(config?: { traceDir?: string }) { const engine = new RecordingEngine(); return { sessionManager: new RecordingSessionManager(config?.traceDir), traceRecorder: new TraceRecorder(engine), }; }

import { eq, desc, inArray } from "drizzle-orm"; import { type db as DrizzleDb } from "./drizzle"; import { feedback as feedbackTable, agentRuns } from "./schema"; import { type FeedbackInput, type FeedbackRecord } from "./types"; import { ValidationError, NotFoundError } from "./errors"; export class FeedbackManager { constructor(private db: typeof DrizzleDb) {} async recordFeedback(input: FeedbackInput): Promise<FeedbackRecord> { const run = await this.db .select() .from(agentRuns) .where(eq(agentRuns.id, input.agentRunId)) .limit(1); if (run.length === 0) { throw new NotFoundError(`Agent run ${input.agentRunId} not found`); } if (!["accept", "reject", "edit"].includes(input.decision)) { throw new ValidationError( `Invalid decision: ${input.decision}. Must be one of: accept, reject, edit` ); } if (input.decision === "edit" && !input.correctedOutput) { throw new ValidationError("correctedOutput is required for edit decisions"); } const createdId = crypto.randomUUID(); const now = new Date(); await this.db.insert(feedbackTable).values({ id: createdId, agentRunId: input.agentRunId, decision: input.decision, correctedOutput: input.correctedOutput, userNotes: input.userNotes, }); return { id: createdId, agentRunId: input.agentRunId, decision: input.decision, correctedOutput: input.correctedOutput, userNotes: input.userNotes, createdAt: now, }; } async getFeedbackForRun(agentRunId: string): Promise<FeedbackRecord[]> { const rows = await this.db .select() .from(feedbackTable) .where(eq(feedbackTable.agentRunId, agentRunId)) .orderBy(desc(feedbackTable.createdAt)); return rows.map((row) => ({ id: row.id, agentRunId: row.agentRunId, decision: row.decision as "accept" | "reject" | "edit", correctedOutput: row.correctedOutput ?? undefined, userNotes: row.userNotes ?? undefined, createdAt: row.createdAt ?? new Date(), })); } async getAcceptedExamples(options?: { limit?: number }): Promise< Array<{ prompt: string; output: string; correctedOutput?: string; decision: string; }> > { const rows = await this.db .select({ prompt: agentRuns.prompt, output: agentRuns.output, correctedOutput: feedbackTable.correctedOutput, decision: feedbackTable.decision, }) .from(feedbackTable) .innerJoin(agentRuns, eq(feedbackTable.agentRunId, agentRuns.id)) .where(inArray(feedbackTable.decision, ["accept", "edit"])) .orderBy(desc(feedbackTable.createdAt)) .limit(options?.limit ?? 100); return rows.map((row) => ({ prompt: row.prompt, output: row.output ?? "", correctedOutput: row.correctedOutput ?? undefined, decision: row.decision, })); } }

import { compareAgainstGolden, quickCreateGolden, } from "@reaatech/agent-eval-harness-golden"; import { SuiteRunner, parseConfig, createResultsAggregator, RunComparator, } from "@reaatech/agent-eval-harness-suite"; import { replay } from "@reaatech/agent-replay-cli"; import { type EvaluateOptions, type EvaluationResult } from "./types"; export class AgentEvaluationService { createGoldenFromTrace( tracePath: string, description: string, tags: string[] ): Promise<unknown> { const trajectory = { id: tracePath, steps: [] }; return Promise.resolve(quickCreateGolden(trajectory as never, description, tags)); } evaluateAgainstGolden( golden: unknown, candidate: unknown, options?: EvaluateOptions ): EvaluationResult { const result = compareAgainstGolden(golden as never, candidate as never, { similarityThreshold: options?.similarityThreshold, }); return { similarity: result.similarity, regressions: result.regressions.length, passes: result.passesThreshold, details: result.diffSummary, }; } replayTrace( tracePath: string, mode: "stubbed" | "live" | "partial" | "diff" ): Promise<void> { return Promise.resolve(replay({ tracePath, mode } as never)); } runSuite(configYaml: string): Promise<unknown> { const config = parseConfig(configYaml); const runner = new SuiteRunner(config as never); return Promise.resolve(runner.run([] as never, {} as never)); } exportReport( runResult: unknown, format: "json" | "markdown" ): Promise<string> { const config = parseConfig("metrics: []\njudge_model: default\n"); const aggregator = createResultsAggregator(config); return Promise.resolve(aggregator.export(runResult as never, format)); } compareRuns( baseline: unknown, candidate: unknown ): Promise<unknown> { const comparator = new RunComparator(); return Promise.resolve(comparator.compare(baseline as never, candidate as never)); } }

import { type NextRequest, NextResponse } from "next/server"; import { z } from "zod"; import { generate } from "../../../../src/lib/provider"; import { AdCopyAgent } from "../../../../src/services/agent-service"; import { RecordingSessionManager, TraceRecorder } from "../../../../src/services/recording-service"; import { RecordingEngine } from "@reaatech/agent-replay-core"; import { db } from "../../../../src/services/drizzle"; import { traceAgentCall, flushObservability } from "../../../../src/lib/observability"; import { ValidationError } from "../../../../src/services/errors"; const generateRequestSchema = z.object({ prompt: z.string().min(1, "Prompt is required"), brandVoice: z.string().optional(), tone: z.string().optional(), sessionId: z.string().optional(), }); const recordingEngine = new RecordingEngine(); const agentSessionManager = new RecordingSessionManager(); const agentTraceRecorder = new TraceRecorder(recordingEngine); const agent = new AdCopyAgent({ generate, sessionManager: agentSessionManager, traceRecorder: agentTraceRecorder, traceAgentCall: async (...args: Parameters<typeof traceAgentCall>) => { traceAgentCall(...args); await flushObservability(); }, db, }); export async function POST(req: NextRequest): Promise<NextResponse> { try { const body: unknown = await req.json(); const parsed = generateRequestSchema.safeParse(body); if (!parsed.success) { const messages = parsed.error.issues.map((e: { message: string }) => e.message).join(", "); return NextResponse.json({ error: messages }, { status: 400 }); } const result = await agent.generateAdCopy(parsed.data); return NextResponse.json({ data: result }, { status: 200 }); } catch (error: unknown) { if (error instanceof ValidationError) { return NextResponse.json({ error: error.message }, { status: 400 }); } const message = error instanceof Error ? error.message : "Internal server error"; return NextResponse.json({ error: message }, { status: 500 }); } }

Agent Feedback Loop for Automated Fine-Tune Dataset Generation

The problem

Built from

Intro

Prerequisites

Step 1: Scaffold the project

Example artifact

Comments

Intro

Prerequisites

Step 1: Scaffold the project

Step 2: Install all dependencies

Step 3: Set up environment variables

Step 4: Create the database schema and connection

Step 5: Define shared types

Step 6: Create the provider-agnostic LLM module

Step 7: Wire up Langfuse observability

Step 8: Build the recording service

Step 9: Build the agent service

Step 10: Build the feedback service

Step 11: Build the dataset export service

Step 12: Build the evaluation service

Step 13: Create the API routes

Step 14: Create the source entry point

Step 15: Run the tests

Step 16: Try the full flow

Next steps