TL;DR. Tussen 1 en 4 juni 2026 publiceerden NVIDIA, JetBrains en H Company elk een open model op Hugging Face — Nemotron 3.5 Content Safety (96,5% F1 op meertalige veiligheid), Mellum2 (2x+ snellere inferentie via MoE) en Holo3.1 (79,3% op AndroidWorld). Drie enterprise-lagen, geen enkel model claimt het volledige spectrum. Die segmentatie is het signaal.
Eén week, drie lanceringen: waarom de segmentatie het echte signaal is
In de week van 2 juni 2026 verschenen drie afzonderlijke open modellen op Hugging Face, elk gericht op een ander kwetsbaar punt in enterprise AI-implementaties. JetBrains lanceerde Mellum2 op 1 juni — een Mixture-of-Experts-architectuur van 12 miljard parameters die slechts 2,5 miljard per token activeert, volgens de officiële JetBrains-aankondiging op Hugging Face. H Company volgde op 2 juni met Holo3.1, een computer-use agentfamilie in vier formaten (van 0,8 tot 35 miljard parameters), gebouwd voor multi-omgeving automatisering. NVIDIA sloot de reeks op 4 juni af met Nemotron 3.5 Content Safety — een multimodaal veiligheidsclassificatiemodel van 4 miljard parameters dat werkt op één GPU van 8 GB, met expliciete dekking voor 12 talen en circa 140 talen in zero-shot modus, volgens de officiële NVIDIA-publicatie op Hugging Face.
Afzonderlijk zijn dit productaankondigingen. Samen genomen markeren ze een structurele verschuiving: specialisatie, niet generalisatie, wordt de dominante open-modelstrategie voor enterprise AI.
Zijn open gespecialiseerde modellen klaar om frontier-API's te vervangen in enterprise-omgevingen?
Niet als directe vervangers — maar als structurele componenten van een gelaagde architectuur. Elk van de drie modellen richt zich op een laag waar frontier-API's te zwaar gedimensioneerd, te kostbaar of onvoldoende auditeerbaar zijn voor gereguleerde sectoren.
Waar Nemotron 3.5 Content Safety wint: de compliance- en contentveiligeheidslaag
Op meertalige veiligheidsclassificatie behaalt Nemotron 3.5 Content Safety een F1 van 96,5% op de meertalige Aegis-benchmark over 12 talen, en 88,8% op RTP-LX, volgens de officiële NVIDIA-aankondiging. Het model gemiddelt circa 85% over zeven multimodale benchmarks waaronder VLGuard, MM-SafetyBench, PolyGuard, XSafety, MultiJail, Dynaguardrail en CoSA.
Twee operationele onderscheidende kenmerken vallen op. Ten eerste is de end-to-end latentie 3 keer lager dan vergelijkbare multimodale veiligheidsmodellen, aldus dezelfde bron. Ten tweede verbruikt de THINK-modus — die auditeerbare redenatiestappen genereert — 50% minder tokens dan alternatieve safety-modellen met redenering, waardoor compliance-audittrajecten op schaal haalbaar worden. Aangepaste beleidsinjection op inferentietijdstip — waarmee domeinspecifieke definities van overtredingen mogelijk zijn — is een concrete troef voor gereguleerde sectoren zoals financiële diensten, gezondheidszorg en kinderonderwijs.
Met 4 miljard parameters draait het model op een GPU van 8 GB onder de NVIDIA Open Model License voor onderzoeks- en commercieel gebruik.
Waar Mellum2 en Holo3.1 stand houden
Mellum2: de orkestratie- en inferentiesnelheidslaag
JetBrains ontwierp Mellum2 als componentmodel, niet als monolithisch model. De MoE-architectuur van 12 miljard parameters activeert slechts 2,5 miljard per token, waarmee de officiële JetBrains-aankondiging spreekt van meer dan 2x snellere inferentie dan vergelijkbare modellen. Gedocumenteerde toepassingen — routering, RAG-pipeline naverwerking, sub-agent planning en IDE-geïntegreerde codecompletie — positioneren het als lichtgewicht ruggengraat van een groter multi-modelsysteem, niet als zelfstandige assistent.
De Apache 2.0-licentie verlaagt de drempel voor commercieel self-hosting — direct relevant voor organisaties die met eigendomscode of gevoelige interne data werken.
Holo3.1: de computer-use en lokale automatiseringslaag
H Company bouwde Holo3.1 om software-interfaces te bedienen zoals een menselijke operator dat zou doen. De 35B-A3B-variant behaalt 79,3% op de AndroidWorld mobiele automatiseringsbenchmark, tegenover 67% voor de vorige generatie, volgens de officiële H Company-aankondiging. De varianten van 4B en 9B bereiken 72% op dezelfde benchmark, tegenover 58% eerder. Op interne benchmarks voor e-commerce, bedrijfssoftware en samenwerkingstools toont Holo3.1 een verbetering van 25% ten opzichte van zijn voorganger.
Het belangrijkste operationele onderscheid is lokale uitvoering. Holo3.1-modellen zijn beschikbaar in gekwantiseerde formaten — FP8, NVFP4 W4A16, Q4 GGUF — voor consumentenhardware op Windows, macOS en Apple Silicon. Het NVFP4-formaat levert 1,74 keer de doorvoer van BF16, aldus de officiële aankondiging, met een samengestelde verbetering van circa 2 keer end-to-end gecombineerd met agent harness-optimalisaties. Voor organisaties met strikte vereisten voor dataresidentie is een volledig lokale computer-use pipeline — zonder extern API-aanroep — nu technisch toegankelijk.
Prijs- en operationele implicaties
Alle drie de modellen zijn open en self-hostable, met verschillende licentievoorwaarden. Mellum2 heeft Apache 2.0 — de minst restrictieve licentie, geschikt voor commerciële productontwikkeling. Nemotron 3.5 valt onder de NVIDIA Open Model License voor onderzoeks- en commercieel gebruik. De licentievoorwaarden van Holo3.1 zijn gepubliceerd in de Hugging Face-collectie van H Company; enterprise teams dienen deze te verifiëren voor hun specifieke implementatiecontext vóór productie-inzet.
Het kostenargument voor open gespecialiseerde modellen is het sterkst bij hoge doorvoer. Een veiligheidsclassificator met 3 keer lagere latentie dan alternatieven, of een orkestratiemiddel dat slechts 2,5 miljard parameters per inferentieaanroep activeert, verandert de eenheidseconomie van AI-gemedieerde processen bij miljoenen aanroepen per dag.
Wat dit betekent voor een multi-modelarchitectuur
De drie lanceringen convergeren naar één architectureel signaal: de enterprise AI-stack wordt een pipeline van gespecialiseerde modellen, elk verantwoordelijk voor de laag waarvoor het geoptimaliseerd is, in plaats van één frontier-model dat alles beheert. Nemotron 3.5 Content Safety staat op de veiligheids- en compliancepoort. Mellum2 bezet de routerings-, samenvattings- en sub-agent planningslaag. Holo3.1 neemt de interface-automatiseringslaag — de buitenste uitvoeringslaag die rechtstreeks software aanraakt.
Het samenstellen van deze lagen vereist expliciete beslissingen over overdrachtsprotocollen, latentiebudgetten en auditeerbehoeften op elke grens. Het is niet eenvoudiger dan één API — maar voor organisaties met regelgevingsbeperkingen, dataresidentievereisten of hoogvolume workloads is de afweging steeds vaker de complexiteit waard.
Drie hefbomen om deze week te activeren
- Breng uw AI-stack in kaart over de drie lagen. Identificeer welke huidige processen veiligheidsclassificatie, code-orkestratie of interface-automatisering omvatten. Documenteer waar een gespecialiseerd open model een bestaande frontier-API-aanroep kan vervangen of aanvullen.
- Voer een latentie- en kostenaudit uit op uw contentbeveiligingspipeline. Als inhoudsmoderatie of beleidshandhaving vandaag door een frontier-model wordt afgehandeld, test dan Nemotron 3.5 Content Safety — begin met de 8GB GPU-configuratie en de THINK-modus voor elke compliance-relevante uitvoer.
- Prototypeer een lokale computer-use workflow met Holo3.1. Download de gekwantiseerde variant van 4B of 9B en test deze op één repetitieve software-interactie in uw omgeving. De 72% op AndroidWorld en de verbetering van 25% op bedrijfssoftware zijn een vertrekpunt — uw specifieke omgeving bepaalt de werkelijke bruikbaarheid.
Welke laag van uw stack wordt nog steeds beheerd door een frontier-API die een gespecialiseerd open model efficiënter zou kunnen afhandelen?
Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.