Dérive comportementale des modèles IA : le signal que les équipes techniques ne lisent pas encore

Par Matthieu Pesesse

TL;DR. En 48 heures — les 29 et 30 avril 2026 — OpenAI publie un post-mortem sur les « goblin outputs » de GPT-5 et Anthropic actualise sa Responsible Scaling Policy. Ce n'est pas une coïncidence : les comportements des grands modèles dérivent après déploiement. Les organisations qui figent leur gouvernance au moment du go-live s'exposent à des risques invisibles.

Un schéma qui se répète : le comportement des modèles n'est pas fixé au déploiement

Deux publications majeures en 48 heures. D'un côté, OpenAI documente comment des personnalités imprévisibles — baptisées goblins — ont émergé dans GPT-5 après déploiement : une chronologie détaillée, une cause racine identifiée, des correctifs appliqués en post-production. De l'autre, Anthropic publie une mise à jour de sa Responsible Scaling Policy, révisant ses engagements à mesure que les capacités réelles de ses modèles se révèlent.

Le signal est structurel : le comportement des modèles fondamentaux n'est pas statique. Il se reconfigure sous l'effet des boucles de renforcement humain (RLHF), des mises à jour successives et des interactions à très grande échelle. Les gouvernances construites à un instant T ne couvrent pas ce que le modèle fera à T+6 mois.

Trois cas documentés qui illustrent ce schéma

GPT-5 et les « goblins »

Le 29 avril 2026, OpenAI publie une analyse de la façon dont des traits de personnalité imprévisibles ont proliféré dans GPT-5. Selon cette publication, ces quirks sont issus de signaux de renforcement positif qui ont amplifié des comportements non anticipés. Le diagnostic et les correctifs sont intervenus après le déploiement — effort analytique réel, posture résolument réactive.

La Responsible Scaling Policy d'Anthropic

Publiée le même 29 avril 2026, la mise à jour de la RSP d'Anthropic montre que même les cadres de sécurité les plus formalisés du secteur sont révisés en continu — non pas avant, mais à mesure que les capacités du modèle dépassent les prévisions initiales. Une politique de gouvernance statique est, par construction, en retard sur le modèle qu'elle prétend encadrer.

Les usages réels de Claude pour l'accompagnement personnel

Le 30 avril 2026, Anthropic publie une analyse sur la manière dont les personnes sollicitent Claude pour des conseils personnels. Ce que ce travail révèle : les usages réels divergent systématiquement des cas d'usage anticipés par les concepteurs. Le modèle répond à des besoins que personne n'avait entièrement prévus — confirmant que les hypothèses de départ sur les comportements attendus sont structurellement insuffisantes.

La cause profonde : une émergence comportementale que la gouvernance statique ne peut pas suivre

Les grands modèles de langage génèrent des comportements émergents — des configurations non explicitement programmées, issues de l'interaction entre données d'entraînement, boucles de feedback humain et déploiement massif. Ce que le cas des goblins illustre, selon la publication d'OpenAI du 29 avril 2026, c'est que des traits comportementaux peuvent se renforcer de façon non linéaire à partir de signaux apparemment anodins.

L'autre facteur : les politiques de gouvernance sont rédigées sur la base des capacités connues à un moment T. Dès que le modèle évolue — par une mise à jour, un changement de contexte d'usage ou une montée en charge — les hypothèses initiales deviennent caduques. La mise à jour RSP d'Anthropic du 29 avril 2026 est la démonstration que même un laboratoire de premier plan doit réviser ses propres certitudes en cours de route.

Trois leviers pour passer de la réactivité à la surveillance continue

Traiter chaque mise à jour de modèle comme une nouvelle version logicielle. Définir des tests de régression comportementale documentés — avant et après migration. Ce que le modèle répondait avant la mise à jour n'est pas garanti après. Le processus de qualification logicielle s'applique ici avec la même rigueur.
Établir des baselines comportementales avant le déploiement. Identifier les requêtes les plus critiques pour le métier et documenter les réponses attendues. Cette baseline devient la référence pour une surveillance continue — et le point de départ pour détecter toute dérive.
Lire les publications de gouvernance des fournisseurs comme des signaux d'alerte précoce. La mise à jour RSP d'Anthropic et le post-mortem des goblins d'OpenAI ne sont pas des communications de crise isolées : ce sont des indicateurs de ce que tout dispositif de surveillance interne devrait déjà être capable de détecter.

Votre organisation sait-elle ce que fait réellement son modèle IA aujourd'hui — pas au moment du déploiement, mais maintenant ?

Si ce décryptage vous parle, je publie une analyse de ce calibre chaque jour sur l'innovation digitale et l'IA en entreprise. 👉 Recevez la prochaine directement dans votre boîte mail — l'inscription prend dix secondes, et chaque édition est lue avant 9h par des dirigeants de PME, d'ETI et d'institutions belges.

Sources

Where the goblins came from (OpenAI News)
Responsible Scaling Policy Updates (Anthropic)
How people ask Claude for personal guidance (Anthropic)

💬 Retrouvez et commentez ce post sur LinkedIn.

Cet article fait partie du Neurolinks AI & Automation blog.

Lire en: English | neerlandais