Open-weight RAG-stack: waarom de embedding- en rerankinglagen verschoven zijn vóór de agenten

TL;DR. Drie open-weight publicaties in de week van 18 mei 2026 — de Ettin Reranker-familie, Granite Embedding Multilingual R2 en IBM Research's Open Agent Leaderboard — trekken een duidelijke grens: de embedding- en rerankinglagen van enterprise RAG behoren nu toe aan open-weight modellen onder 311M parameters, terwijl agentorkestratie nog steeds 18 tot 29 procentpunten achterblijft op frontier closed-source modellen, aldus het leaderboard.

Wat er veranderd is in de opbouw van RAG-stacks

Tussen 14 en 19 mei 2026 publiceerden drie onafhankelijke partijen resultaten die de opbouwlogica van enterprise informatierecuperatiepijplijnen fundamenteel hertekenen. IBM lanceerde Granite Embedding Multilingual R2 met een contextvenster van 32.768 tokens — tegenover 512 tokens bij generatie R1. Tom Aarsen publiceerde de Ettin-familie, zes rerankers onder Apache 2.0-licentie van 17,6M tot 1,04B parameters, gedestilleerd uit een 1,54B-parametermodel als leerkracht. IBM Research lanceerde tegelijkertijd het Open Agent Leaderboard, dat volledige agentsystemen evalueert — telkens als combinatie van model én agentarchitectuur — op zes benchmarks zonder benchmarkspecifieke afstemming, aldus de officiële aankondiging van IBM Research.

Samen dwingen deze drie publicaties tot een laag-voor-laag herziening van de stack. De vraag is niet langer welk generalistisch model te kiezen: het is welke architectuur te componeren.

Waar open-weight wint: embeddings en reranking

Granite Embedding R2: lange context als onderscheidend kenmerk

Het 97M-r2-model behaalt 60,3 op de MTEB meertalige retrievaltaak (18 talen), tegenover 52,7 voor multilingual-e5-base met 278M parameters — een winst van +7,6 punten met driemaal minder parameters, aldus de gepubliceerde gegevens van IBM. Op LongEmbed neemt het 311M-r2-model de eerste plaats in met 71,7, voor harrier-oss-v1-270m (64,9) en Granite 278M-R1 (37,7) — een generationeel verschil van +34 punten binnen dezelfde modelfamilie. De doorvoersnelheid op H100 bedraagt circa 1.800 documenten per seconde voor het 311M-r2-model, 5,5 keer sneller dan jina-embeddings-v5-text-nano, aldus de gepubliceerde metingen van IBM.

Het generatiebreekpunt is herleidbaar tot één variabele: 512 tokens context bij R1, 32.768 bij R2. Contracten, meerpagina's tellende regelgevingsrapporten en juridische dossiers die voorheen het contextvenster overschreden, passen nu in één doorloop — zonder kunstmatige segmentering.

Ettin Reranker: efficiëntie als kernargument

De Ettin-familie keert de gebruikelijke balans tussen grootte en prestaties in reranking om. Op MTEB NDCG@10 scoort ettin-32m (32,8M parameters) 0,5779 tegenover 0,5526 voor bge-reranker-v2-m3 met 568M parameters — een verschil van +0,025 bij 17 keer minder parameters, aldus de gepubliceerde resultaten. Het ettin-1b-model (1B parameters) bereikt 0,6114, vrijwel identiek aan het leerkrachtmodel mxbai-rerank-large-v2 (1,54B parameters, score 0,6115), terwijl het 54% lichter is en 2,40 keer sneller op H100. De ModernBERT-architectuur met unpadded attention levert een doorvoerversnelling van 8,26 keer voor het 1B-model ten opzichte van de fp32+SDPA-baseline, aldus de gepubliceerde metingen — een cijfer dat de infrastructuurkostenberekening bij hoge volumes fundamenteel wijzigt.

Waar closed-source modellen standhouden: agentorkestratie

Het Open Agent Leaderboard van IBM Research, gepubliceerd op 18 mei 2026, introduceert een structurerende maatstaf: de geteste open-weight modellen — DeepSeek V3.2 en Kimi K2.5, toegevoegd na de lancering — blijven gemiddeld 18 tot 29 procentpunten achter op frontier closed-source modellen over zes benchmarks, aldus het leaderboard. Dit verschil meet niet één geïsoleerde taak: het meet het volledige systeem (model plus orkestratie plus tools) zonder benchmarkspecifieke optimalisatie, op complexe taken zoals SWE-Bench Verified, BrowseComp+, AppWorld en de tau2-Bench-omgevingen voor Airline, Retail en Telecom.

De operationele nuance is belangrijk: hetzelfde model gekoppeld aan verschillende agentarchitecturen levert andere kwaliteit en andere kosten op, aldus IBM Research. Architectuur telt — maar compenseert nog niet het capaciteitsverschil tussen open-weight en frontier op complexe taken. Eén bevinding nuanceert dit beeld in de andere richting: in meerdere gevallen evenaarden of overtroffen generalistische agents zonder benchmarkspecifieke afstemming systemen die specifiek voor die taken waren gebouwd, aldus dezelfde bron.

Tarieven en operationele implicaties

De drie modelfamilies zijn gepubliceerd onder Apache 2.0-licentie. Voor technische teams opent dit on-premise of private-cloud implementatie zonder kosten per aanvraag op de embedding- en rerankinglagen. De agentorkestratielaag, indien gebouwd op closed frontier-modellen, behoudt een gebruiksgebonden kostprijs.

Het Open Agent Leaderboard introduceert een variabele die zelden wordt gekwantificeerd in modelvergelijkingen: de kost van mislukte runs. Mislukte uitvoeringen kosten 20 tot 54% meer dan geslaagde, aldus de gepubliceerde gegevens van IBM Research. Een agentstack die regelmatig faalt op complexe taken is niet alleen minder performant — ze is structureel duurder om te exploiteren. Tool shortlisting verbeterde de prestaties op elk getest model en converteerde falende configuraties naar haalbare configuraties, aldus dezelfde bron.

Wat dit betekent voor een multi-modelarchitectuur

De kaart die zich in mei 2026 aftekent, wijst op een drietrapsarchitectuur:

Embeddinglaag: open-weight (Granite 97M-r2 of 311M-r2) voor meertalige corpora, lange documenten en codebases — on-premise implementatie haalbaar onder Apache 2.0, met een 64-voudige contextuitbreiding ten opzichte van de vorige generatie.
Rerankinglaag: open-weight (Ettin 32M tot 400M afhankelijk van latentiebeperkingen) voor hoge-volumepijplijnen — de kwaliteit-tot-parameterverhouding overtreft momenteel vorige-generatiealternatieven op MTEB-benchmarks.
Agentorkestratielaag: closed frontier-modellen voor complexe taken — zolang het verschil van 18 tot 29 procentpunten gedocumenteerd blijft op referentiebenchmarks.

Deze segmentering is niet theoretisch. Het Open Agent Leaderboard toont aan dat modelkeuze de dominante factor blijft, maar dat agentarchitectuur een meetbaar verschil begint te maken. Investeren in de orkestratielaag — toolselectie, routing, foutafhandeling — is rendabel ongeacht het gekozen model.

Drie hefbomen om deze week te activeren

Bepaal de werkelijke contextlengte van uw corpora: als uw documenten meer dan 4.096 tokens beslaan (contracten, rapporten, regelgevingsdossiers), elimineert migratie naar Granite R2 (32.768 tokens context) kunstmatige segmentering en verbetert het mechanisch de retrievalprecisie op lange passages.
Vergelijk uw huidige reranker met de Ettin-familie: zet uw huidige NDCG@10-score naast de gepubliceerde MTEB-scores van Ettin. Ettin-150m (0,5994) overtreft Qwen3-Reranker-0.6B (0,5940) bij viermaal minder parameters — als uw pijplijn een vorige-generatiemodel gebruikt, is de winst onmiddellijk zonder architectuurwijziging.
Kwantificeer de kost van mislukte agentuitvoeringen: vóór elke open-weight versus closed-arbitrage op de orkestratielaag, meet het huidige mislukkingspercentage en de bijbehorende meerkosten op uw huidige taken. Het cijfer van 20 tot 54% meerkosten per mislukte uitvoering, gedocumenteerd door IBM Research, is een bruikbaar vergelijkingsgetal vanaf deze week.

Welke laag van uw RAG-pijplijn vertoont de grootste kloof tussen de gemeten prestaties en de werkelijke kosten — embeddings, reranking, of agentorkestratie?

Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.

Bronnen

Introducing the Ettin Reranker Family (Hugging Face)
The Open Agent Leaderboard (Hugging Face)
Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality (Hugging Face)