BRANCHE

Vendor lock-in in het LLM-tijdperk — en het gateway-patroon dat het losser maakt

25 mei 20262 min lezen

Lock-in zit zelden in de modelgewichten. Het zit in het API-oppervlak, de prompts en de ops-lijm. Zo werden OpenAI-compatibele gateways het standaardantwoord — en wat ze niet oplossen.

Van taalmodel wisselen klinkt makkelijk: verander de modelnaam. In de praktijk ontdekken teams dat hun lock-in overal zit behalve in de gewichten.

Waar lock-in werkelijk zit

Het zit in het API-oppervlak waartegen je integreerde, de prompts die je op het gedrag van één model afstemde, de SDK en de tool- en function-call-schema’s, en de operationele lijm — logging, retries, rate limits — die aan één leverancier vastzit. Niets daarvan verhuist mee als je een modelnaam wisselt.

Hoe de API van één bedrijf de lingua franca werd

De ontgrendeling was een toevalstreffer van adoptie. OpenAI’s Chat Completions API, uitgebracht in 2023, werd het formaat dat iedereen kloonde. Eind 2024 was Google’s Gemini bereikbaar vanuit de OpenAI-bibliotheek, bracht Anthropic een OpenAI-compatibele laag uit, voegde AWS Bedrock een OpenAI-compatibel endpoint toe, en open-weight servers zoals vLLM serveren dezelfde routes. Eén integratie kan nu vele providers bedienen door alleen een base-URL en een sleutel te wijzigen.

Wat een gateway toevoegt

Een LLM-gateway maakt van die compatibiliteit hefboomkracht. Hij staat tussen je apps en vele providers achter één (meestal OpenAI-compatibele) API en voegt routing, automatische fallback, caching, rate limiting, budgetten per team, uniforme logging en kostenobservability toe, plus één plek om beleid af te dwingen. Zelfs teams met één provider nemen er een om louter centraal sleutelbeheer en kostentoerekening — tegen 2025 hadden analisten AI-gateways van optioneel gereedschap naar standaardinfrastructuur herpositioneerd.

Wat het niet oplost

Wees eerlijk over de grenzen. “OpenAI-compatibel” is een de-facto standaard, geen feature-pariteit — Anthropics eigen documentatie merkt op dat hun compatibiliteitslaag functies zoals prompt caching laat vallen en bedoeld is voor testen en migratie, niet als productievervanger. Een gateway verplaatst lock-in ook eerder dan dat hij die verwijdert: je bent nu afhankelijk van de gateway, je prompts zijn mogelijk nog modelafgestemd, en de laag voegt een hop toe en een plek waar data passeert. De winst is een lagere overstapdrempel, niet nul.

Portabiliteit is een configuratiewijziging, geen herschrijving — als je er vroeg op ontwerpt.

Dat is de inzet achter het bouwen van onze eigen gateway, Qevron: standaardiseer de interface één keer, behoud de optie om te verhuizen, en zet je eigen modellen ervoor zodat het meest gevoelige verkeer je controle nooit hoeft te verlaten.

Alle artikelen