Terug naar insightsDeepSeekHugging FaceNVIDIA

Granite 4.1, Nemotron Omni en DeepSeek-V4: drie open-weight modellen die niet om hetzelfde enterprise-segment strijden

13 mei 2026
18 min
Granite 4.1, Nemotron Omni en DeepSeek-V4: drie open-weight modellen die niet om hetzelfde enterprise-segment strijden
TL;DR. Granite 4.1-8B overtreft zijn voorganger van 32 miljard parameters op vrijwel alle benchmarks, aldus IBM. Nemotron 3 Nano Omni haalt 7,4 keer de doorvoer op multi-documenttaken, aldus NVIDIA. DeepSeek-V4-Pro-Max bereikt 80,6% op SWE-Verified — twee tienden onder Claude Opus 4.6-Max. Drie open-weight modellen in twee weken: de vraag is niet langer welk model, maar waar elk model thuishoort in de stack.

Wat er net is veranderd in het open-weight landschap

Tussen eind april en begin mei 2026 publiceerden drie afzonderlijke teams op Hugging Face technische artikelen over drie verschillende open-weight basismodellen: IBM met Granite 4.1, NVIDIA met Nemotron 3 Nano Omni en DeepSeek met V4. Geen van deze modellen richt zich op hetzelfde functionele domein. Dit gecomprimeerde publicatietempo dwingt tot een herziening van bestaande modelselectiekaders.

De open-weight markt organiseerde zich tot nu toe rond generieke modelfamilies — het beste model binnen een bepaalde parameteromvang. Wat deze drie publicaties onthullen, is een segmentatie per use case: gestructureerde efficiëntie en meertaligheid voor Granite, native multimodaliteit voor Nemotron, en langeafstandsredeneren voor agenten voor DeepSeek-V4. Eén standaardmodel dekt niet langer alle drie assen tegelijk zonder significante compromissen.

Waar DeepSeek-V4 een nieuw agentisch referentiepunt zet

DeepSeek-V4 bestaat in twee varianten volgens de Hugging Face-blogpost van eind april 2026: V4-Pro (1,6 biljoen totale parameters, 49 miljard actief) en V4-Flash (284 miljard totaal, 13 miljard actief). Beide hebben een contextvenster van één miljoen tokens. De gelaagde aandachtscompressie-architectuur — afwisselend CSA- en HCA-lagen — reduceert de KV-cache tot circa 2% van het standaard GQA-niveau en verlaagt de inferentie-FLOPs tot 27% ten opzichte van DeepSeek-V3.2, aldus diezelfde blog.

Op agentbenchmarks zijn de cijfers concreet. V4-Pro-Max haalt 80,6% op SWE-Verified, tegenover 80,8% voor Claude Opus 4.6-Max aldus de DeepSeek-blog. Op MCPAtlas Public scoort het 73,6 (Opus 4.6-Max: 73,8). Op een interne R&D-codeerbenchmark vermeld in het artikel behaalt V4-Pro-Max een slaagpercentage van 67%, voor Claude Sonnet 4.5 (47%) en iets achter Opus 4.5 (70%). In de ontwikkelaarsbevraging gedocumenteerd in de blog gaf 52% van de respondenten aan dat het model hun primaire coderingsmodel zou kunnen vervangen; 39% neigde in die richting.

De functie voor intercalered redeneren — die redeneersporen bewaart over opeenvolgende toolaanroepen — is expliciet gebouwd voor meerstapse agentworkflows. Deze functie ontbreekt in Granite 4.1. De Think Max-modus, voor taken die maximale redeneerdiepte vereisen, vereist minimaal 384.000 beschikbare contexttokens, aldus DeepSeek.

Waar Granite 4.1 en Nemotron Omni stand houden

IBM Granite 4.1: gestructureerde efficiëntie en meertalige workflows

Het bepalende resultaat uit de IBM-publicatie is dit: volgens de Hugging Face-blog van IBM overtreft of evenaart Granite 4.1-8B instruct het vorige Granite 4.0-H-Small — een MoE-model van 32 miljard parameters totaal met 9 miljard actief — op alle belangrijke benchmarks, waaronder IFEval, AlpacaEval 2.0, MMLU-Pro, GSM8K en ArenaHard. Een model vier keer kleiner dat zijn grotere voorganger overtreft.

De gepubliceerde cijfers zijn nauwkeurig. Op gestructureerde toolaanroepen (BFCL v3) behaalt Granite 4.1-8B instruct 68,27 punten; het 30B-model haalt 73,68. Op GSM8K (wiskundig redeneren) scoort het 8B-model 92,49%, het 30B-model 94,16%. Op HumanEval (codegeneratie) behaalt het 8B-model 87,20%. De RLHF-trainingsfase leverde een gemiddelde winst van +18,9 punten op Alpaca-Eval, aldus IBM. Het contextvenster reikt tot 512.000 tokens voor de 8B- en 30B-varianten. FP8-kwantisering vermindert het GPU-geheugen en de schijfopslag met circa 50%, eveneens aldus IBM. De licentie is Apache 2.0. Twaalf talen worden native ondersteund.

Dit profiel — compact, voorspelbaar in latentie (geen uitgebreide redeneerketens), geheugenefficiënt — richt zich direct op RAG-pipelines, sectorspecifieke assistenten en gestructureerde generatieworkflows met beperkte GPU-budgetten. Het ontbreken van een uitgebreide redeneermode is een operationeel voordeel voor realtime use cases: de latentie blijft stabiel en de inferentiekosten zijn voorspelbaar.

NVIDIA Nemotron 3 Nano Omni: native multimodaliteit als eigen domein

Nemotron 3 Nano Omni 30B-A3B is gebouwd op een hybride Mamba-Transformer-MoE-architectuur met 23 selectieve toestandsruimtelagen, 23 MoE-lagen met 128 experts en top-6-routing, en 6 gegroepeerde aandachtslagen, aldus de NVIDIA-blog op Hugging Face. Het model verwerkt tekst, beeld, video en audio native in één forward pass — zonder tussenschakeling van een transcriptiepipeline.

De gemeten voordelen op document-audio-videotaken zijn concreet. VoiceBench: 89,4. Video-MME: 72,2. DailyOmni (gelijktijdig begrip van video en audio): 74,1. MMLongBench-Doc (lange documenten): 57,5. OSWorld (GUI-gestuurde computergebruik door een agent): 47,4. Voor multi-documentworkloads is de doorvoer 7,4 keer hoger dan bij vergeleken alternatieven aldus NVIDIA; voor video 9,2 keer. Het model verwerkt audiosessies van meer dan vijf uur en documenten van meer dan 100 pagina's in native context.

Granite 4.1 is niet ontworpen voor deze dimensies. Voor teams die opgenomen gesprekken, lange PDF-contracten, videovergaderingen of industriële videostromen verwerken, opent Nemotron Omni een functioneel domein dat voor tekst-only architecturen ontoegankelijk blijft.

Prijs- en operationele implicaties

Alle drie de modellen zijn open-weight en vrij toegankelijk op Hugging Face. De kostenstructuur verschuift daarmee naar inferentie-infrastructuur, niet naar licenties. Granite 4.1 is gepubliceerd onder Apache 2.0 — geen commerciële beperking voor on-premise inzet. DeepSeek-V4 is beschikbaar als open source op Hugging Face aldus de blog. Nemotron 3 Nano Omni is beschikbaar in BF16, FP8 en NVFP4 aldus NVIDIA.

Wat geheugenvoetafdruk betreft: Granite 4.1-8B in FP8 vermindert het GPU-geheugen met circa 50% aldus IBM — een cijfer dat zich rechtstreeks vertaalt naar kosten per token op continue inzet. Nemotron 3 Nano Omni in BF16 vereist circa 30 GB VRAM; de NVFP4-variant reduceert het model tot circa 18 miljard effectieve parameters aldus NVIDIA. DeepSeek-V4-Flash, met 13 miljard actieve parameters op 284 miljard totaal, maakt inferentie op mid-range GPU-hardware mogelijk ondanks de schijnbare omvang van het volledige model.

De latentieprofielen lopen uiteen per use case: Granite 4.1 is ontworpen zonder uitgebreide redeneerketens — stabiele, voorspelbare latentie. DeepSeek-V4 in Think Max-modus verbruikt minimaal 384.000 contexttokens aldus de DeepSeek-blog — een randvoorwaarde die expliciet moet worden ingepland voor realtime- of hoogdoorvoertoepassingen.

Wat dit betekent voor een multi-modelarchitectuur

De samenloop van deze drie publicaties in twee weken weerspiegelt een structurele dynamiek: de open-weight markt segmenteert per functionele use case, niet per modelomvang. Teams die al hun behoeften met één generalistisch model willen afdekken, stapelen toenemende compromissen op — in geheugen, latentie, redeneerdiepte of ondersteunde modaliteiten.

Een pragmatische multi-modelarchitectuur voor 2026 onderscheidt drie afzonderlijke lagen:

  • Gestructureerde en meertalige laag (RAG, documentgeneratie, toolaanroepen, sectorassistenten): Granite 4.1-8B of 30B onder Apache 2.0, in FP8 voor maximale GPU-dichtheid.
  • Multimodale laag (lange audio, video, rijke PDF's, GUI-gestuurde agenten): Nemotron 3 Nano Omni 30B-A3B, ingezet in NVFP4 om de geheugenvoetafdruk te beperken.
  • Langereafstandsagentische laag (codeagenten, meerstapse workflows, analyse over één miljoen tokens): DeepSeek-V4-Flash voor kostenefficiëntie, V4-Pro voor maximale redeneerdiepte.

Deze segmentatie is niet theoretisch — ze wordt gedicteerd door gepubliceerde benchmarks. Nemotron Omni claimt geen score op BFCL v3. Granite 4.1 verwerkt geen vijf uur audio. DeepSeek-V4 is niet ontworpen voor goedkope meertalige generatie op beperkte GPU-budgetten. Elk model presteert het beste in zijn eigen domein precies omdat het de andere domeinen niet heeft geprobeerd te bestrijken.

Drie hefbomen om deze week te activeren

  1. Breng de invoermodaliteiten in kaart van uw huidige workflows — alleen tekst, PDF, audio, video, GUI — om te bepalen of Nemotron Omni in scope komt vóór enige infrastructuurtest begint.
  2. Test Granite 4.1-8B instruct in FP8 op uw bestaande gestructureerde use cases (toolaanroepen, JSON-generatie, meertalige RAG) en vergelijk latentie en GPU-geheugenkosten met het model dat momenteel in productie is.
  3. Evalueer DeepSeek-V4-Flash op een interne codeer- of agentbenchmark: met 80,6% op SWE-Verified bevindt het model zich in de frontierklasse voor die use case tegen open-weight kosten — de infrastructuurafweging verdient een directe meting.

Welk van deze drie domeinen ontbreekt het meest in uw huidige stack?

Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.

Bronnen

Deel dit artikel

Klaar om samen iets geweldigs te creëren?

Laten we bespreken hoe ik u kan helpen uw visie tot leven te brengen door strategisch design dat tastbare resultaten levert voor uw bedrijf.

Granite 4.1, Nemotron Omni en DeepSeek-V4: drie open-weight modellen die niet om hetzelfde enterprise-segment strijden | Matthieu Pesesse