Wanneer genetische embeddings niet meer volstaan
De algemene modellen van Google en OpenAI geven in jouw industrie een middelmatige trefferquote. Hugging Face publiceerde net een handson handleiding om een eigen embedding-model te finetunen in <7 uur echte tijd. We repliceerden het met productdata (logistiek & HR) en zagen meteen 24 % betere semantische afstanden op kernqueries.
Voorbereiding in twee uur
Data-plukken
Haal tickets uit Jira (Server REST), Notion of een e-mailexport. Houd 1–1,5 k korte documenten aan (midden 100-tokens).
Label- en privacyronde
- Taal detecteren en afval eruit
- Label
intern tegen extern voor eventuele audits - PII scrubben met FOSS-tool (DSN + AVG compliance)
Finetune: 35 euro credits, 180 min A100
Copy-paste de notebook, maar pas LR 3e-4 en batch 128 aan. GPU van RunPod of AWS g5.8×. Save-stap elke 500 grad kappen → ochtends een snapshot.
Testing
- 2-3 normvectoren met productievragen
- OpenAI-kopie als A/B
- Niet verder als MAP<85 blijft
Snel op productie: 70 minuten
Docker-build corp/embedding-nl:1, vllm serve achter Caddy+HTTPS. Ansible rol stap klaar, p95 response 65 ms.
Bij een Nederlandse SaaS zagen ze het aantal GPT-calls met 46 % dalen en de latency halveren. Met 15 k maandelijkse gebruikers levert dat 6 k€ besparing op externe tokens.
Sprintplanning board
Vaak nog net genoeg tijd om de impressie van de State of Open Source te lezen. Wie deze stap nu zet, wordt de verduurzamende speler waar klanten naar toe lopen.
Bronnen
Dit artikel maakt deel uit van de Neurolinks AI & Automation blog.
Lees in het: English | Frans