Gedragsdrift bij AI-modellen: het signaal dat enterprise-teams nog niet lezen

Door Matthieu Pesesse

TL;DR. Op 29 en 30 april 2026 publiceerde OpenAI een post-mortem over de goblin outputs van GPT-5 en actualiseerde Anthropic zijn Responsible Scaling Policy. Het patroon is niet toevallig: foundation models driften na de uitrol. Organisaties die hun governance bevriezen bij go-live, nemen risico's die onzichtbaar blijven.

Een terugkerend patroon: modelgedrag staat niet vast bij de uitrol

Twee grote publicaties in 48 uur. OpenAI documenteert hoe onvoorspelbare persoonlijkheidstrekken — de zogenaamde goblins — na de uitrol opdoken in GPT-5: een gedetailleerde tijdlijn, een geïdentificeerde oorzaak, correcties toegepast in post-productie. Tegelijkertijd publiceert Anthropic een update van zijn Responsible Scaling Policy, waarbij de engagementen worden bijgestuurd naarmate de werkelijke capaciteiten van de modellen zichtbaar worden.

Het signaal is structureel: het gedrag van foundation models is niet statisch. Het past zich voortdurend aan onder invloed van menselijke versterkingslussen (RLHF), opeenvolgende updates en grootschalige uitrol. Governancekaders die op één moment worden opgesteld, dekken niet wat het model zes maanden later doet.

Drie gedocumenteerde gevallen die het patroon illustreren

GPT-5 en de goblins

Op 29 april 2026 publiceerde OpenAI een analyse van hoe onvoorspelbare persoonlijkheidstrekken zich in GPT-5 verspreidden. Volgens die publicatie zijn deze quirks ontstaan uit positieve versterkingssignalen die onverwacht gedrag versterkten. De diagnose en correcties kwamen na de uitrol — een reëel analytisch werk, een resoluut reactieve houding.

De Responsible Scaling Policy-update van Anthropic

Gepubliceerd op dezelfde dag, 29 april 2026, toont de RSP-update van Anthropic dat zelfs de meest geformaliseerde veiligheidskaders in de sector continu worden herzien — niet vóór de uitrol, maar terwijl de capaciteiten van het model de initiële verwachtingen overtreffen. Een statisch governancebeleid loopt structureel achter op het model dat het beweert te regelen.

Hoe mensen Claude werkelijk gebruiken voor persoonlijk advies

Op 30 april 2026 publiceerde Anthropic een studie over hoe mensen Claude vragen om persoonlijk advies. Wat die studie onthult: de werkelijke gebruikspatronen wijken systematisch af van wat de ontwerpers hadden verwacht. Het model beantwoordt behoeften die niemand volledig had voorzien — wat bevestigt dat de initiële aannames over verwacht gedrag structureel ontoereikend zijn.

De diepere oorzaak: gedragsemergentie die statische governance niet kan bijhouden

Grote taalmodellen genereren emergent gedrag — configuraties die niet expliciet zijn geprogrammeerd, maar voortvloeien uit de interactie van trainingsdata, menselijke feedbacklussen en grootschalige uitrol. Wat het goblins-geval illustreert, per de publicatie van OpenAI van 29 april 2026, is dat gedragstrekken niet-lineair kunnen worden versterkt door ogenschijnlijk onschuldige signalen.

Een tweede factor: governancebeleid wordt opgesteld op basis van de op dat moment bekende capaciteiten. Zodra het model evolueert — door een update, een verschuiving in gebruikscontext of een opschaling — verliezen de initiële aannames hun geldigheid. De RSP-update van Anthropic van 29 april 2026 bewijst dat zelfs een toonaangevend lab zijn eigen zekerheden in de loop van het proces moet herzien.

Drie hefbomen om van reactief naar continue monitoring te gaan

Behandel elke modelupdate als een nieuwe softwareversie. Definieer gedocumenteerde gedragsregressietests — voor en na de migratie. Wat het model vóór een update antwoordde, is nadien niet gegarandeerd. Softwarekwalificatieprocessen zijn hier even strikt van toepassing.
Stel gedragsbaselines vast vóór de uitrol. Identificeer de meest kritieke prompts voor uw bedrijf en documenteer de verwachte antwoorden. Die baseline wordt de referentie voor continue monitoring — en het vertrekpunt om elke drift te detecteren.
Lees governance-publicaties van leveranciers als vroegtijdige waarschuwingssignalen. De RSP-update van Anthropic en de goblins-post-mortem van OpenAI zijn geen geïsoleerde crisiscommunicaties: het zijn indicatoren van wat uw eigen interne monitoringsystemen al zouden moeten kunnen detecteren.

Weet uw organisatie wat haar AI-model vandaag werkelijk doet — niet bij de uitrol, maar nu?

Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.

Bronnen

Where the goblins came from (OpenAI News)
Responsible Scaling Policy Updates (Anthropic)
How people ask Claude for personal guidance (Anthropic)

Dit artikel maakt deel uit van de Neurolinks AI & Automation blog.

Lees in het: English | Frans