In één werkdag je eigen domein-embedding draaien

Wanneer genetische embeddings niet meer volstaan

De algemene modellen van Google en OpenAI geven in jouw industrie een middelmatige trefferquote. Hugging Face publiceerde net een handson handleiding om een eigen embedding-model te finetunen in <7 uur echte tijd. We repliceerden het met productdata (logistiek & HR) en zagen meteen 24 % betere semantische afstanden op kernqueries.

Voorbereiding in twee uur

Data-plukken

Haal tickets uit Jira (Server REST), Notion of een e-mailexport. Houd 1–1,5 k korte documenten aan (midden 100-tokens).

Label- en privacyronde

Taal detecteren en afval eruit
Label intern tegen extern voor eventuele audits
PII scrubben met FOSS-tool (DSN + AVG compliance)

Finetune: 35 euro credits, 180 min A100

Copy-paste de notebook, maar pas LR 3e-4 en batch 128 aan. GPU van RunPod of AWS g5.8×. Save-stap elke 500 grad kappen → ochtends een snapshot.

Testing

2-3 normvectoren met productievragen
OpenAI-kopie als A/B
Niet verder als MAP<85 blijft

Snel op productie: 70 minuten

Docker-build corp/embedding-nl:1, vllm serve achter Caddy+HTTPS. Ansible rol stap klaar, p95 response 65 ms.

Bij een Nederlandse SaaS zagen ze het aantal GPT-calls met 46 % dalen en de latency halveren. Met 15 k maandelijkse gebruikers levert dat 6 k€ besparing op externe tokens.

Sprintplanning board

Vaak nog net genoeg tijd om de impressie van de State of Open Source te lezen. Wie deze stap nu zet, wordt de verduurzamende speler waar klanten naar toe lopen.

Bronnen

Build a Domain-Specific Embedding Model in Under a Day (Hugging Face)
State of Open Source on Hugging Face: Spring 2026 (Hugging Face)

Dit artikel maakt deel uit van de Neurolinks AI & Automation blog.

Lees in het: English | Frans