What does Neurolinks do?

Neurolinks is the consulting brand of Matthieu Pesesse, providing four service lines: AI Automation & Agent Systems, IT Workplace & Infrastructure, Project Management & Service Delivery, and Tech Advisory. The practice is based in Brussels, Belgium and serves clients across the European Union in English, French, and Dutch.

What is Matthieu Pesesse's background?

Matthieu Pesesse has 25+ years of professional experience across telecom (Proximus), media (Clear Channel, where he raised digital network availability from 75% to 99%), public institutions (European Commission), enterprise IT (Etex Group, with 100% Smart Workplace migration), and healthcare (Anicura, sole IT support for 18 veterinary clinics). He won the European Podcast Award 2009 for Best Business Podcast and holds ITIL V3, Agile Scrum, Microsoft 365, and CrowdStrike Falcon certifications.

What does an engagement with Neurolinks cost?

Engagement pricing depends on scope. Typical entry points are an AI Discovery Workshop from EUR 2,500, a focused pilot from EUR 8,000-15,000, and ongoing retainers from EUR 4,500/month. Fixed-scope projects are quoted after a Discovery call. Travel within Belgium is included; travel outside Belgium is invoiced at cost.

Who does Neurolinks typically work with?

Neurolinks typically works with SMEs and mid-market enterprises (50-2,000 employees) operating in Belgium or across the European Union, in regulated or multilingual environments where AI adoption, IT workplace modernization, or digital transformation is a strategic priority. Engagements range from one-off advisory to multi-month delivery.

What technology stack does Neurolinks build on?

For AI Automation: OpenClaw multi-agent orchestration, OpenAI and Anthropic APIs, NVIDIA NIM for on-premises GPU inference, Docker, and Nginx. For IT Workplace: Microsoft 365, Microsoft Intune, CrowdStrike Falcon, Zscaler, and Datto. The stack is selected for production reliability rather than novelty.

How long does a typical engagement take?

An AI Discovery Workshop runs 1 to 2 weeks. A pilot or proof-of-concept typically runs 6 to 12 weeks. Workplace modernization or service delivery engagements run 3 to 12 months depending on scope. Tech Advisory retainers are open-ended monthly engagements.

In which languages does Neurolinks operate?

Neurolinks operates natively in English, French, and Dutch. This trilingual capability is uncommon among Belgian technology consultancies and matters in Belgium's three-community business landscape (Wallonia, Flanders, Brussels) and for European Union institutions.

Gespecialiseerd, frontier of diffusie: de aankoopmatrix die enterprise-architecten nog missen

TL;DR. Een gespecialiseerd model van 3 miljard parameters scoort hoger dan Claude Opus 4.6 op een OCR-benchmark — 0,911 tegenover 0,833 volgens Dharma-AI — en kost 52 keer minder per miljoen verwerkte pagina's. Nemotron-Labs Diffusion haalt 6,4× de doorvoersnelheid van een standaard autorégressief model op B200-hardware, aldus NVIDIA. Drie modelcategorieën, drie onderscheiden selectiecriteria: domeinfit, kosten en doorvoer.

Een aankooplogica van drie jaar staat onder druk

Sinds 2023 rustte de dominante heuristiek in enterprise AI-aankopen op één principe: het grootste beschikbare model is de veiligste keuze. De redenering was verdedigbaar — frontier-modellen absorbeerden onverwachte randgevallen, vermeden de blinde vlekken van voortijdige specialisatie en externaliseerden het onderhoudsrisico.

Twee technische publicaties, drie dagen na elkaar verschenen op Hugging Face, verschuiven dat kader. Op 22 mei 2026 publiceerde Dharma-AI een vergelijkende benchmark op een corpus Braziliaans-Portugese juridische en administratieve OCR-documenten, waarbij een gespecialiseerd model van 3 miljard parameters werd afgezet tegen de toonaangevende frontier-modellen. Op 23 mei publiceerde NVIDIA de Nemotron-Labs Diffusion-familie, met een op blokken gebaseerde generatiemodus die 6,4× de snelheid van een standaard autorégressief model haalt. Beide publicaties delen een gemeenschappelijke ondertoon: modelgrootte is niet de enige concurrentieas voor enterprise. Er zijn er nog twee — de distributionele afstemming op de inzetdomein en de inferentiedoorvoer.

Waar gespecialiseerde modellen de leiding nemen

Op de Dharma-AI-benchmark — gedrukte, handgeschreven en administratieve documenten in het Braziliaans-Portugees — behaalt Dharma-OCR 3B een composietscore van 0,911. Claude Opus 4.6 komt uit op 0,833, Gemini 3.1 Pro op 0,820, GPT-5.4 op 0,750, GPT-4o op 0,635 en Amazon Textract op 0,618, aldus dezelfde publicatie. Het verschil tussen de eerste en tweede plaats bedraagt 7,8 procentpunten.

De kosten zijn het doorslaggevende argument bij grote volumes. Dharma-OCR 3B kost 52 keer minder dan Claude Opus 4.6 per miljoen verwerkte pagina's, volgens dezelfde bron.

Productiestabiliteit is de derde differentiator. Op het tekstdegeneratiepercentage — een kritieke metric in geautomatiseerde pipelines waar modellen incoherente of repetitieve uitvoer produceren — noteert Nanonets-OCR2 3B 0,20%, tegenover 1,41% voor Qwen2.5-VL-3B bij algemeen gebruik, aldus Dharma-AI. De verhouding is 7 op 1. olmOCR-2 7B, een andere OCR-specialist, haalt 0,40% — beduidend lager dan het general-purpose model van vergelijkbare omvang.

De structurele logica achter deze resultaten wordt door Dharma-AI expliciet gemaakt: specialisatie componeert over niveaus. Bij 7 miljard parameters verbetert de overstap van general-purpose naar een generieke OCR-specialist de kwaliteit met 2,3% en halveert het degeneratiepercentage. Bij 3 miljard parameters bereikt de kwaliteitswinst 16% en daalt het degeneratiepercentage met een factor zeven, aldus dezelfde publicatie.

Waar frontier- en diffusiemodellen standhouwen

Frontier-modellen: veelzijdigheid als structureel voordeel

De Dharma-AI-publicatie is expliciet over de reikwijdte: de resultaten gelden voor één goed gemeten domein. Bij multi-domein taken, complexe redenering over variabele perimeters of use cases waarvan de contouren bij aanschaf nog niet vastliggen, behouden frontier-modellen een operationeel voordeel dat specialisten niet kunnen repliceren. Een model dat 0,833 scoort op Portugese OCR kan 0,95 behalen op een ander domein — of het enige model zijn dat een onverwacht verzoek aankan. Dharma-AI pleit niet voor de obsoletie van frontier-modellen; het argument is dat hun dominantie niet universeel is.

Nemotron-Labs Diffusion: doorvoer als infrastructuurdifferentiator

De Nemotron-Labs-familie — 3B, 8B, 14B — introduceert drie onderscheiden generatiemodi, aldus NVIDIA. Standaard autorégressieve modus. Blokgebaseerde diffusiemodus, die 2,6× meer tokens per forward pass genereert. Self-speculation-modus, die diffusie als concept-generatie gebruikt en autorégressieve verificatie als eindcheck, met een snelheidswinst van 6,4× en circa 865 tokens per seconde op B200-hardware, aldus de NVIDIA-publicatie.

Het structurele technische punt: deze doorvoerwinst is lossless bij temperatuur nul. De uitvoer is identiek aan de autorégressieve modus — geen benadering, geen kwaliteitsverlies. Nemotron-Labs Diffusion 8B toont bovendien 1,2% hogere gemiddelde nauwkeurigheid dan Qwen3 8B, aldus dezelfde bron. Op benchmarks voor algemene redenering behouden frontier-modellen hun voordeel — Nemotron-Labs Diffusion is gepositioneerd als inferentie-engine voor workloads met latentie- of volumebeperkingen, niet als frontier-uitdager.

Kosten- en operationele implicaties

Drie kosten- en infrastructuurprofielen tekenen zich af, zonder dat de categorieën elkaar uitsluiten:

Gespecialiseerde modellen: zeer lage marginale kosten per verzoek (52× gedocumenteerde kostenbesparing op OCR, aldus Dharma-AI). Initiële kosten: domeindata-annotatie, fine-tuning, validatie. Het break-evenpunt hangt af van het volume homogene verzoeken en de annotatiekosten van de organisatie.
Frontier-modellen via API: geen eigen infrastructuur, geen fine-tuning. Gebruik-gebaseerde facturering. Hoge kosten bij groot volume, maar onderhoud en updates geëxternaliseerd. Relevant voor taken met lage frequentie of variabele scope.
On-premises diffusiemodellen: een doorvoerwinst van 6,4× vrijt inferentieslots op bestaande infrastructuur, aldus NVIDIA. De kritieke variabele is hardwarecompatibiliteit — de self-speculation-modus is gedocumenteerd op B200 — en de implementatieoverhead van de autorégressieve verificatielaag.

Wat dit betekent voor een multi-model-architectuur

De Hugging Face-publicatie over agentteminologie van 25 mei 2026 biedt een bruikbaar operationeel kader: een agent is een model gecombineerd met een harness. Het harness is de uitvoeringslaag — modelaanroepen, gereedschapsafhandeling, stopvoorwaarden. Het scaffold is de gedragslaag — systeemprompts, gereedschapsbeschrijvingen, contextbeheer. De directe implicatie: hetzelfde model in twee verschillende harnesses produceert twee onderscheiden agentgedragingen, aldus die publicatie.

Dit onderscheid wordt beslissend in een multi-model-architectuur. Als het harness correct geabstraheerd is van de modelleverancier, kan een gespecialiseerd model een frontier-model vervangen op een gedefinieerde taak zonder de downstream-pipeline te wijzigen. Omgekeerd: als het harness strak gekoppeld is aan één leverancier, draagt elke modelkeuze een verborgen migratiekost die per-token-prijsvergelijkingen niet vastleggen.

Een coherente multi-model-architectuur rust op drie lagen: een gespecialiseerd model voor hoge-volume, goed gedefinieerde taken; een frontier-model voor uitzonderingen en multi-domein taken; een geoptimaliseerde inferentie-engine voor latentiegevoelige componenten. De harness-laag is wat deze segmentatie operationeel maakt zonder volledige herbouw bij elke leverancierswissel.

Drie hefbomen om deze week in te zetten

Identificeer een deeldomein met hoog volume in uw huidige pipeline. Als een frontier-model meer dan 100.000 homogene verzoeken per maand verwerkt op een definieerbaar domein — extractie, classificatie, OCR — bereken dan de huidige kost en de geprojecteerde kost met een gespecialiseerd model van 3B tot 7B parameters. Het 52×-verschil gedocumenteerd door Dharma-AI is een orde van grootte om de business case te kalibreren.
Breng uw doorvoerknelpunten in kaart. Als uw pipeline latentie- of doorvoerbeperkingen heeft, test de diffusiemodus van Nemotron-Labs op een representatieve workload. De 6,4×-winst gepubliceerd door NVIDIA is specifiek voor de self-speculation-modus op B200-hardware — verifieer de toepasbaarheid op uw infrastructuur vóór enig engagement.
Controleer de overdraagbaarheid van uw harness. Vóór elke modelbeslissing, verifieer dat uw uitvoeringslaag geabstraheerd is van de modelleverancier. Als dat niet het geval is, omvat de werkelijke kost van elke modelarbitrage een migratiekost die onzichtbaar blijft in de tariefvergelijking.

Is modelgrootte nog steeds uw eerste evaluatiecriterium?

Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.

Bronnen

Specialization Beats Scale: A Strategic Variable Most AI Procurement Decisions Overlook (Hugging Face)
Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models (Hugging Face)
Harness, Scaffold, and the AI Agent Terms Worth Getting Right (Hugging Face)