Resolutietijd gehalveerd: de nieuwe standaard van AI-agenten

Door Matthieu Pesesse

Rakuten’s ervaring met Codex laat zien wat veel teams snel zullen meemaken: de Mean Time To Resolution (MTTR) is net met 50 % gedaald. Wat vroeger twee volle dagen kostte, levert nu binnen 24 uur op. Het verschil? Een agent die CI-logs leest, een fix opstelt, tests schrijft en direct naar de patch-branch pusht.

Echte winst is Time-to-Value, niet pure snelheid

De bedoeling is om de kloof tussen ‘bug gemeld’ en ‘klant ziet herstel’ te verdwijnen. Rakuten doet dat door de agent:

logs uit de APM-monitor automatisch te laten ophalen en een incidentticket aan te maken;
een hotfix-branch te laten maken, testdekking te draaien en de build-koppeling direct in de pull-request te plaatsen;
alleen menselijke review te vragen als de dekking onder 95 % zakt of als infrastructuur-wijzigende code wordt geschreven.

Risico’s: kosten en toezicht

Efficiëntie heeft prijs—hogere token-vragen—maar minder context-switches en minder kapotte builds compenseren de extra kosten ruimschoots. Laat de agent het incident-levenscyclus overnemen, niet meehelpen met feature-overkill.

Het herbruikbare-tools-patroon

Om van eenmalige heldendaad naar een reproduceerbaar systeem te komen laat de Nemo-toolkit het volgende patroon zien:

Formuleer het doel in gewoon Nederlands, bijv. "los elke dagelijkse hotfix binnen 4 uur op en maak het de volgende keer zelf-dienend."
De agent genereert dynamisch de minimale toolbox (log-parsers, mock-data, rollback-scripts).
Elke gegenereerde component komt in een gedeelde bibliotheek, zodat tweede, derde en verdere incidenten exact dezelfde tooling hergebruiken en amper overdracht nodig hebben.

Het resultaat: de eerste fix is nog een iteratie, maar opvolgers zijn bijna 100 % autonoom.

Lichtgewicht beveiligde runtime

Gecontaineerde agent-omgeving

OpenAI’s Responses API biedt nu ingebouwde isolatie:
responses.create({ model: "o3", instructions: "strict sandbox", tools: ["shell", "file_ops"] })
Waarom het uitmaakt: elke agent draait in een frisse VM waarvan de disk na afloop altijd wordt gewist, zodat aanvallen via shell-history uitgesloten zijn.

Menselijke guardrail-regels

In tegenstelling tot copilots die slechts suggesties doen, kunnen agents deployen. Voeg deze eisen toe:

confidence > 0,92 om kleine diffs automatisch te mergen;
verplicht on-call-review als diff > 50 lijnen óf infrastructuur aanraakt (K8s, Terraform);
automatische rollback als hetzelfde alarm binnen 30 minuten terugkomt na release.

Stappenplan voor een vliegende start

Kies een herhalend incident (betalingsuitval, rate-limit-error, cache-flush).
Schrijf de metric: "zichtbaar herstel voor klant binnen 4 uur."
Richt één sandbox-agent in:
- read-only git clone;
- enkel benoemde environment-variabelen voor geheimen (geen dot-env toegang);
- schrijfbare werk-map /tmp/agent altijd verwijderd na afloop.
Voer A/B uit: vergelijk MTTR en aantal regressie-incidenten vóór en ná adoptie van de agent.

Onder de streep is de winst niet „AI schrijft code”, maar het doodtijd-gebied wegsnijden tussen detectie, triage, review en release.

Bronnen

Rakuten fixes issues twice as fast with Codex (OpenAI News)
Build an Agent That Thinks Like a Data Scientist: How We Hit #1 on DABStep with Reusable Tool Generation (Hugging Face)
From model to agent: Equipping the Responses API with a computer environment (OpenAI News)

Dit artikel maakt deel uit van de Neurolinks AI & Automation blog.

Lees in het: English | Frans