TL;DR. ITBench-AA — het eerste enterprise IT-agentbenchmark, gepubliceerd op 27 mei 2026 door IBM Research en Artificial Analysis — toont Claude Opus 4.7 op 47% en GPT-5.5 op 46% voor echte Kubernetes SRE-taken. Geen enkel model haalt de 50%. De kosten per taak lopen uiteen van $0,14 tot $5,38: kostprijs en uitvoeringsefficiëntie wegen even zwaar als score bij modelselectie.
Context: een benchmark die een herevaluatie afdwingt
Op 27 mei 2026 publiceren IBM Research en Artificial Analysis ITBench-AA op Hugging Face — het eerste benchmark specifiek ontworpen om AI-agenten te evalueren op enterprise-niveau IT-operaties. Het corpus bevat 59 SRE-taken (Site Reliability Engineering) gericht op Kubernetes-incidentdiagnose: infrastructuurstoringen, applicatiefouten, uitputting van resourcequota's, mislukte deployments en netwerkpartitionering.
De scoring is streng, conform de gepubliceerde methodologie: een agent moet de minimale set onafhankelijke rootcauses identificeren. Eén rootcause missen geeft een score van 0,0; een fout-positief opnemen verlaagt de precisie. Dit kader maakt het resultaat moeilijk te negeren — geen enkel frontier- of open-weight-model in het veld haalt 50%.
Waar Claude de leiding neemt — en zijn voornaamste beperking
Volgens het ITBench-AA-leaderboard scoort Claude Opus 4.7 in de modus Adaptive Reasoning, Max Effort 47% — het hoogste gepubliceerde resultaat. Dat is 1 punt boven GPT-5.5, 7 punten boven Gemini 3.5 Flash en 17 punten boven Gemini 3.1 Pro Preview.
De voornaamste beperking staat in hetzelfde benchmark gedocumenteerd: Claude Opus 4.7 is het duurste model op het leaderboard, op $5,38 per taak. Voor een SRE-team dat wekelijks honderden incidenten verwerkt, is die eenheidskosten een architecturale variabele, geen factureringskwestie.
Waar GPT-5.5, Gemini en open-weight-modellen standhouden
GPT-5.5 op xhigh scoort 46% — 1 punt onder Claude — maar met een uitvoeringsefficiëntie die het benchmark expliciet blootlegt: gemiddeld 31 beurten per taak. Gemini 3.1 Pro Preview verbruikt daarentegen 83 beurten voor slechts 30%. Dat is 2,7 keer meer beurten voor 16 punten minder nauwkeurigheid — een kloof die zich vertaalt in API-kosten en realtimelatentie, niet alleen in statistieken.
Gemini 3.5 Flash stabiliseert op 40% voor $1,70 per taak — een beduidend betere kosten-scoreverhouding dan Gemini 3.1 Pro op $2,23 voor 30%. Qwen3.7 Max haalt 42% en situeert zich tussen de twee dominante frontiermodellen.
In het open-weight-segment bereikt GLM-5.1 (Reasoning) 40% voor $1,23 per taak. DeepSeek V4 Pro (Reasoning) scoort 38%. Gemma 4 31B (Reasoning) sluit het open-weight-klassement af op 37% voor $0,14 per taak — 38 keer goedkoper dan Claude Opus 4.7, volgens de gepubliceerde data van IBM Research en Artificial Analysis. Opvallend: Gemma 4 31B presteert beter dan Gemini 3.1 Pro Preview op zowel score (37% tegen 30%) als kosten ($0,14 tegen $2,23 per taak).
Prijsimplicaties en operationele gevolgen
Het kostenverschil tussen het best scorende en het goedkoopste model op het leaderboard bedraagt 38x ($5,38 tegen $0,14), conform de gepubliceerde data. Voor organisaties die SRE-diagnoses op schaal automatiseren, maakt die kloof de aanname van één frontiermodel voor alle IT-agenttaken economisch onhoudbaar.
Het aantal beurten is een tweede kostenas dat modelvergelijkingen doorgaans overslaan. Een agent met gemiddeld 83 beurten per taak introduceert latentie die structureel onverenigbaar is met realtime SRE-alerting. Het gemiddelde van 31 beurten van GPT-5.5 levert een operationeel voordeel op dat het scoreverschil van 1 punt ten opzichte van Claude niet vangt. Uitvoeringstempo is een zelfstandige prestatiedimensie.
Wat dit betekent voor een multi-modelarchitectuur
De gecombineerde lezing van scores, kosten en beurten wijst op een functionele segmentatie. Hoog-kritieke, laagfrequente incidenten — netwerkpartitionering, beveiligingsdiagnoses, complexe deploymentfouten — rechtvaardigen Claude Opus 4.7 of GPT-5.5 ondanks hun kostprijs. Hoog-volume, routinematige SRE-taken — quotabewaking, terugkerende alerting, standaard applicatiediagnoses — kunnen worden gerouteerd naar Gemma 4 31B of GLM-5.1, met een kosten-performantieverhouding die in het benchmark zelf is gedocumenteerd.
Een enkelvoudige modelarchitectuur voor het volledige enterprise IT-agentdomein is op basis van deze cijfers niet langer verdedigbaar. Routering op basis van incidentkritiekheid en -type wordt een eersteklas architectuurbeslissing, niet een optimalisatie voor later.
Drie hefbomen om deze week te activeren
- Raadpleeg het ITBench-AA-leaderboard op artificialanalysis.ai vóór elke modelbeslissing voor agentische IT-toepassingen — score, kosten per taak en beurtenaantal zijn publiek en direct vergelijkbaar.
- Meet het beurtenaantal in huidige SRE-agentdeployments, niet alleen het slagingspercentage. Een verschil van 2,7x in beurten tussen modellen vertaalt zich in reële API-kosten en latentie in productie.
- Voer een Gemma 4 31B-piloot uit op hoog-volume SRE-taken alvorens automatisch een frontierabonnement te verlengen: bij $0,14 per taak is het financiële risico van het experiment laag, en de referentiedata om het te beoordelen zijn beschikbaar in het benchmark.
Als het best beschikbare model meer dan de helft van de autonome IT-diagnoses mislukt, waar ligt dan de niet-onderhandelbare grens met menselijk toezicht?
Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.