TL;DR. IBM trainde Granite 4.1 op circa 15 biljoen tokens via een vijf-fasenpijplijn en vier versterkingsleer-etappes — waarvan één uitsluitend gewijd aan het herstellen van de wiskundige regressie die RLHF had veroorzaakt. Gepubliceerd resultaat: een 8B dense model dat zijn 32B MoE-voorganger consequent evenaart of overtreft.
Het bedrijfsprobleem: één model, tegenstrijdige doelen
IBM stelde voor Granite 4.1 van bij het begin strikte enterprise-eisen: Apache 2.0-licentie, twaalf talen — Engels, Duits, Spaans, Frans, Japans, Portugees, Arabisch, Tsjechisch, Italiaans, Koreaans, Nederlands en Chinees —, een contextvenster geschikt voor zware documentaire werklast, en drie inzetbare varianten: 3B, 8B en 30B parameters.
De eigenlijke uitdaging was niet het kiezen van een modelgrootte. Het was het combineren van structureel tegenstrijdige competenties in één gewichtenset: wiskundig redeneren, codegeneratie, meertalige instructieopvolging, tool calling en conversationeel gedrag. In ongestructureerde training ondermijnt elk doel de andere. IBM loste dit op door de training te sequentiëren in afzonderlijke fasen.
Architectuur en pijplijnkeuzes
IBM koos voor een dense decoder-only transformer met Grouped Query Attention, Rotary Position Embeddings, SwiGLU-activaties, RMSNorm en gedeelde input/output-embeddings — technisch conventionele keuzes. De differentiatie zit in de pijplijnstructuur, niet in de basisarchitectuur.
De voortraining beslaat circa 15 biljoen tokens, volgens de IBM-documentatie gepubliceerd op Hugging Face, verdeeld over vijf opeenvolgende fasen:
- Fase 1 — 10 biljoen tokens: algemeen corpus (web, code, wiskunde, technisch)
- Fase 2 — 2 biljoen: nadruk op wiskunde (35 %) en code (30 %)
- Fase 3 — 2 biljoen: hoogwaardige annealing met chain-of-thought-data
- Fase 4 — 500 miljard: verfijning op hoogwaardige CommonCrawl (40 %)
- Fase 5: uitbreiding van de contextlengte van 32K naar 128K en vervolgens 512K tokens, gevoed door boeken en code-repositories
Supervised fine-tuning gebruikte 4,1 miljoen gecureerde samples gefilterd via een multidimensioneel LLM-as-Judge-kader met globale deduplicatie. De training draaide op 16 nodes met 4× GB200-GPU's in een NVIDIA GB200 NVL72-cluster gehost bij CoreWeave, via NVLink en NDR 400 Gb/s InfiniBand — volledig gedocumenteerd in de IBM-publicatie.
De geaccepteerde compromissen
De reinforcement learning-pijplijn is waar de echte spanningen zichtbaar worden. IBM structureerde vier opeenvolgende RL-etappes met on-policy GRPO en DAPO-verlies:
- Multi-domein RL: wiskunde, wetenschappen, logica, instructieopvolging, gestructureerde output, Text2SQL, temporeel redeneren, chat, in-context learning
- RLHF: generieke chat met een meertalig beloningsmodel
- Identiteits- en kenniskalibratie-RL: zelf-identificatie van het model
- Wiskunde-RL: expliciet herstel van de prestatiedaling die de RLHF-etappe veroorzaakte
Die vierde etappe is de eerlijke erkenning in de documentatie: het toevoegen van conversationele RLHF deed het wiskundig redeneren achteruitgaan. IBM mat het, benoemde het, en wijdde er een hersteletappe aan. Weinig labs documenteren deze spanning zo expliciet in een publieke release.
Wat inzetbaarheid betreft: FP8-kwantisatie reduceert de schijfvoetafdruk en het GPU-geheugengebruik met 50 % volgens het IBM-blogbericht — een concrete hefboom voor organisaties die niet beschikken over hyperscaler-infrastructuur.
De gepubliceerde resultaten
Voor het Granite 4.1-8B Instruct-model publiceert IBM de volgende benchmarkscores:
- GSM8K (wiskundig redeneren): 92,49 %
- HumanEval pass@1 (code): 87,20 %
- MMLU (algemene kennis): 73,84 %
- IFEval (instructieopvolging): 87,06 %
- BFCL V3 (tool calling): 68,27 %
- RULER bij 128K tokens (lange context): 73,0 %
De centrale bevinding: het 8B dense model evenaart of overtreft consequent het Granite 4.0-H-Small-model — een 32B MoE-model met 9B actieve parameters. Een model vier keer kleiner qua totaal parameteraantal, tegen een fractie van de inferentiekosten, dat standhield in een uitgebreide benchmarkvergelijking.
Deze validaties brengen zelf kosten met zich mee die zelden in deploymentbudgetten verschijnen. Volgens de analyse van de EvalEval-coalitie gepubliceerd op Hugging Face in april 2026 kost één GAIA-evaluatierun op een frontier-model 2.829 dollar vóór caching, en een volledige PaperBench-run ongeveer 9.500 dollar per agent. IBM absorbeerde vergelijkbare evaluatiekosten bij elke gate van zijn vijf-fasenpijplijn.
Drie lessen die breed toepasbaar zijn
- Regressie is een documenteerbaar ingenieursartefact, geen anomalie. RLHF die de conversationele kwaliteit verbetert maar het wiskundig redeneren verslechtert, is een bekende spanning bij multi-objectief optimaliseren. Benoem de regressie, meet ze, en wijs een dedicated hersteletappe toe — een praktijk die elke LLM-deployment in productie zou moeten reproduceren.
- Parameteraantal is niet langer het voornaamste kwaliteitssignaal. Een 8B dense model dat met pijplijndiscipline is getraind, overtreft een 32B MoE-model dat anders is getraind. Datakwaliteit, fasestructuur en het ontwerp van RL-etappes wegen zwaarder dan het ruwe aantal parameters.
- Evaluatie is nu een volwaardige infrastructuurkost. Volgens EvalEval-data laten agentische benchmarks slechts een compressiefactor van 2 tot 3,5× toe, tegenover 100 tot 200× voor statische LLM-benchmarks. Elke organisatie die evaluatiecompute niet als kostenpost begroot, onderschat de werkelijke kostprijs van haar LLM-deployment.
Drie hefbomen voor uw organisatie
- Auditeer uw fine-tuning-etappes per competentiedomein. Als uw model een conversationele aanpassing of RLHF ondergaat, meet dan expliciet de regressie op analytische en technische taken. Een ongemeten gedegradeerde score is een stille bug in productie.
- Herzie het criterium 'parameteraantal' in uw leveranciersevaluaties. Valideer recente 7B-8B-benchmarks voor uw specifieke use case voordat u een 30B+-model in uw architectuur vastlegt. De vergelijking Granite 4.1-8B versus Granite 4.0-32B MoE is de directe illustratie.
- Begroot uw evaluaties naast uw GPU-kosten. Volgens EvalEval kost een volledige HAL-run ongeveer 40.000 dollar. Die kost is niet optioneel als uw organisatie modellen eerlijk wil vergelijken onder reële operationele omstandigheden — verwerk ze in uw ramingen vóór de modelselectie.
Welke stille regressie zit er vandaag verborgen in uw fine-tuning-pipeline?
Spreekt deze analyse u aan? Ik publiceer elke dag een stuk van dit kaliber over digitale innovatie en enterprise AI. 👉 Ontvang de volgende rechtstreeks in uw mailbox — inschrijven duurt tien seconden, en elke editie wordt vóór 9 uur gelezen door leiders van Belgische kmo's, mid-caps en instellingen.
Bronnen
Dit artikel maakt deel uit van de Neurolinks AI & Automation blog.
Lees in het: English | Frans