What does Matthieu Pesesse do?

Matthieu Pesesse is an independent consultant, providing four service lines: AI Automation & Agent Systems, IT Workplace & Infrastructure, Project Management & Service Delivery, and Tech Advisory. The practice is based in Brussels, Belgium and serves clients across the European Union in English, French, and Dutch.

What is Matthieu Pesesse's background?

Matthieu Pesesse has 25+ years of professional experience across telecom (Proximus), media (Clear Channel, where he raised digital network availability from 75% to 99%), public institutions (European Commission), enterprise IT (Etex Group, with 100% Smart Workplace migration), and healthcare (Anicura, sole IT support for 18 veterinary clinics). He won the European Podcast Award 2009 for Best Business Podcast and holds ITIL V3, Agile Scrum, Microsoft 365, and CrowdStrike Falcon certifications.

What does an engagement with Matthieu Pesesse cost?

Engagement pricing depends on scope. Typical entry points are an AI Discovery Workshop from EUR 2,500, a focused pilot from EUR 8,000-15,000, and ongoing retainers from EUR 4,500/month. Fixed-scope projects are quoted after a Discovery call. Travel within Belgium is included; travel outside Belgium is invoiced at cost.

Who does Matthieu Pesesse typically work with?

Matthieu Pesesse typically works with SMEs and mid-market enterprises (50-2,000 employees) operating in Belgium or across the European Union, in regulated or multilingual environments where AI adoption, IT workplace modernization, or digital transformation is a strategic priority. Engagements range from one-off advisory to multi-month delivery.

What technology stack does Matthieu Pesesse build on?

For AI Automation: OpenClaw multi-agent orchestration, OpenAI and Anthropic APIs, NVIDIA NIM for on-premises GPU inference, Docker, and Nginx. For IT Workplace: Microsoft 365, Microsoft Intune, CrowdStrike Falcon, Zscaler, and Datto. The stack is selected for production reliability rather than novelty.

How long does a typical engagement take?

An AI Discovery Workshop runs 1 to 2 weeks. A pilot or proof-of-concept typically runs 6 to 12 weeks. Workplace modernization or service delivery engagements run 3 to 12 months depending on scope. Tech Advisory retainers are open-ended monthly engagements.

In which languages does Matthieu Pesesse operate?

Matthieu Pesesse operates natively in English, French, and Dutch. This trilingual capability is uncommon among Belgian technology consultancies and matters in Belgium's three-community business landscape (Wallonia, Flanders, Brussels) and for European Union institutions.

ITBench-AA: Claude leidt met 47%, GPT-5.5 volgt met 46% — en geen enkel model haalt de helft

TL;DR. ITBench-AA — het eerste enterprise IT-agentbenchmark, gepubliceerd op 27 mei 2026 door IBM Research en Artificial Analysis — toont Claude Opus 4.7 op 47% en GPT-5.5 op 46% voor echte Kubernetes SRE-taken. Geen enkel model haalt de 50%. De kosten per taak lopen uiteen van $0,14 tot $5,38: kostprijs en uitvoeringsefficiëntie wegen even zwaar als score bij modelselectie.

Context: een benchmark die een herevaluatie afdwingt

Op 27 mei 2026 publiceren IBM Research en Artificial Analysis ITBench-AA op Hugging Face — het eerste benchmark specifiek ontworpen om AI-agenten te evalueren op enterprise-niveau IT-operaties. Het corpus bevat 59 SRE-taken (Site Reliability Engineering) gericht op Kubernetes-incidentdiagnose: infrastructuurstoringen, applicatiefouten, uitputting van resourcequota's, mislukte deployments en netwerkpartitionering.

De scoring is streng, conform de gepubliceerde methodologie: een agent moet de minimale set onafhankelijke rootcauses identificeren. Eén rootcause missen geeft een score van 0,0; een fout-positief opnemen verlaagt de precisie. Dit kader maakt het resultaat moeilijk te negeren — geen enkel frontier- of open-weight-model in het veld haalt 50%.

Waar Claude de leiding neemt — en zijn voornaamste beperking

Volgens het ITBench-AA-leaderboard scoort Claude Opus 4.7 in de modus Adaptive Reasoning, Max Effort 47% — het hoogste gepubliceerde resultaat. Dat is 1 punt boven GPT-5.5, 7 punten boven Gemini 3.5 Flash en 17 punten boven Gemini 3.1 Pro Preview.

De voornaamste beperking staat in hetzelfde benchmark gedocumenteerd: Claude Opus 4.7 is het duurste model op het leaderboard, op $5,38 per taak. Voor een SRE-team dat wekelijks honderden incidenten verwerkt, is die eenheidskosten een architecturale variabele, geen factureringskwestie.

Waar GPT-5.5, Gemini en open-weight-modellen standhouden

GPT-5.5 op xhigh scoort 46% — 1 punt onder Claude — maar met een uitvoeringsefficiëntie die het benchmark expliciet blootlegt: gemiddeld 31 beurten per taak. Gemini 3.1 Pro Preview verbruikt daarentegen 83 beurten voor slechts 30%. Dat is 2,7 keer meer beurten voor 16 punten minder nauwkeurigheid — een kloof die zich vertaalt in API-kosten en realtimelatentie, niet alleen in statistieken.

Gemini 3.5 Flash stabiliseert op 40% voor $1,70 per taak — een beduidend betere kosten-scoreverhouding dan Gemini 3.1 Pro op $2,23 voor 30%. Qwen3.7 Max haalt 42% en situeert zich tussen de twee dominante frontiermodellen.

In het open-weight-segment bereikt GLM-5.1 (Reasoning) 40% voor $1,23 per taak. DeepSeek V4 Pro (Reasoning) scoort 38%. Gemma 4 31B (Reasoning) sluit het open-weight-klassement af op 37% voor $0,14 per taak — 38 keer goedkoper dan Claude Opus 4.7, volgens de gepubliceerde data van IBM Research en Artificial Analysis. Opvallend: Gemma 4 31B presteert beter dan Gemini 3.1 Pro Preview op zowel score (37% tegen 30%) als kosten ($0,14 tegen $2,23 per taak).

Prijsimplicaties en operationele gevolgen

Het kostenverschil tussen het best scorende en het goedkoopste model op het leaderboard bedraagt 38x ($5,38 tegen $0,14), conform de gepubliceerde data. Voor organisaties die SRE-diagnoses op schaal automatiseren, maakt die kloof de aanname van één frontiermodel voor alle IT-agenttaken economisch onhoudbaar.

Het aantal beurten is een tweede kostenas dat modelvergelijkingen doorgaans overslaan. Een agent met gemiddeld 83 beurten per taak introduceert latentie die structureel onverenigbaar is met realtime SRE-alerting. Het gemiddelde van 31 beurten van GPT-5.5 levert een operationeel voordeel op dat het scoreverschil van 1 punt ten opzichte van Claude niet vangt. Uitvoeringstempo is een zelfstandige prestatiedimensie.

Wat dit betekent voor een multi-modelarchitectuur

De gecombineerde lezing van scores, kosten en beurten wijst op een functionele segmentatie. Hoog-kritieke, laagfrequente incidenten — netwerkpartitionering, beveiligingsdiagnoses, complexe deploymentfouten — rechtvaardigen Claude Opus 4.7 of GPT-5.5 ondanks hun kostprijs. Hoog-volume, routinematige SRE-taken — quotabewaking, terugkerende alerting, standaard applicatiediagnoses — kunnen worden gerouteerd naar Gemma 4 31B of GLM-5.1, met een kosten-performantieverhouding die in het benchmark zelf is gedocumenteerd.

Een enkelvoudige modelarchitectuur voor het volledige enterprise IT-agentdomein is op basis van deze cijfers niet langer verdedigbaar. Routering op basis van incidentkritiekheid en -type wordt een eersteklas architectuurbeslissing, niet een optimalisatie voor later.

Drie hefbomen om deze week te activeren

Raadpleeg het ITBench-AA-leaderboard op artificialanalysis.ai vóór elke modelbeslissing voor agentische IT-toepassingen — score, kosten per taak en beurtenaantal zijn publiek en direct vergelijkbaar.
Meet het beurtenaantal in huidige SRE-agentdeployments, niet alleen het slagingspercentage. Een verschil van 2,7x in beurten tussen modellen vertaalt zich in reële API-kosten en latentie in productie.
Voer een Gemma 4 31B-piloot uit op hoog-volume SRE-taken alvorens automatisch een frontierabonnement te verlengen: bij $0,14 per taak is het financiële risico van het experiment laag, en de referentiedata om het te beoordelen zijn beschikbaar in het benchmark.

Als het best beschikbare model meer dan de helft van de autonome IT-diagnoses mislukt, waar ligt dan de niet-onderhandelbare grens met menselijk toezicht?

Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.