Rakuten’s ervaring met Codex laat zien wat veel teams snel zullen meemaken: de Mean Time To Resolution (MTTR) is net met 50 % gedaald. Wat vroeger twee volle dagen kostte, levert nu binnen 24 uur op. Het verschil? Een agent die CI-logs leest, een fix opstelt, tests schrijft en direct naar de patch-branch pusht.
Echte winst is Time-to-Value, niet pure snelheid
De bedoeling is om de kloof tussen ‘bug gemeld’ en ‘klant ziet herstel’ te verdwijnen. Rakuten doet dat door de agent:
- logs uit de APM-monitor automatisch te laten ophalen en een incidentticket aan te maken;
- een hotfix-branch te laten maken, testdekking te draaien en de build-koppeling direct in de pull-request te plaatsen;
- alleen menselijke review te vragen als de dekking onder 95 % zakt of als infrastructuur-wijzigende code wordt geschreven.
Risico’s: kosten en toezicht
Efficiëntie heeft prijs—hogere token-vragen—maar minder context-switches en minder kapotte builds compenseren de extra kosten ruimschoots. Laat de agent het incident-levenscyclus overnemen, niet meehelpen met feature-overkill.
Het herbruikbare-tools-patroon
Om van eenmalige heldendaad naar een reproduceerbaar systeem te komen laat de Nemo-toolkit het volgende patroon zien:
- Formuleer het doel in gewoon Nederlands, bijv. "los elke dagelijkse hotfix binnen 4 uur op en maak het de volgende keer zelf-dienend."
- De agent genereert dynamisch de minimale toolbox (log-parsers, mock-data, rollback-scripts).
- Elke gegenereerde component komt in een gedeelde bibliotheek, zodat tweede, derde en verdere incidenten exact dezelfde tooling hergebruiken en amper overdracht nodig hebben.
Het resultaat: de eerste fix is nog een iteratie, maar opvolgers zijn bijna 100 % autonoom.
Lichtgewicht beveiligde runtime
Gecontaineerde agent-omgeving
OpenAI’s Responses API biedt nu ingebouwde isolatie:
responses.create({ model: "o3", instructions: "strict sandbox", tools: ["shell", "file_ops"] })
Waarom het uitmaakt: elke agent draait in een frisse VM waarvan de disk na afloop altijd wordt gewist, zodat aanvallen via shell-history uitgesloten zijn.
Menselijke guardrail-regels
In tegenstelling tot copilots die slechts suggesties doen, kunnen agents deployen. Voeg deze eisen toe:
- confidence > 0,92 om kleine diffs automatisch te mergen;
- verplicht on-call-review als diff > 50 lijnen óf infrastructuur aanraakt (K8s, Terraform);
- automatische rollback als hetzelfde alarm binnen 30 minuten terugkomt na release.
Stappenplan voor een vliegende start
- Kies een herhalend incident (betalingsuitval, rate-limit-error, cache-flush).
- Schrijf de metric: "zichtbaar herstel voor klant binnen 4 uur."
- Richt één sandbox-agent in:
- read-only git clone;
- enkel benoemde environment-variabelen voor geheimen (geen dot-env toegang);
- schrijfbare werk-map
/tmp/agent altijd verwijderd na afloop.
- Voer A/B uit: vergelijk MTTR en aantal regressie-incidenten vóór en ná adoptie van de agent.
Onder de streep is de winst niet „AI schrijft code”, maar het doodtijd-gebied wegsnijden tussen detectie, triage, review en release.
Bronnen
Dit artikel maakt deel uit van de Neurolinks AI & Automation blog.
Lees in het: English | Frans