PRODUCT

Voice agents die echt de telefoon opnemen: een kijk in Calleague

1 juni 20262 min lezen

Echte telefonie, een realtime spraak-naar-tekst → LLM → tekst-naar-spraak-pijplijn en productie-RAG — wat er nodig is om een AI-voice agent een natuurlijk gesprek te laten voeren, en hoe Calleague daarvoor is gebouwd.

Een demo-spraakbot en een inzetbare telefoonagent zijn verschillende beesten. Het verschil is latentie, onderbouwing, en de weinig glamoureuze realiteit van echte telefonie.

De grens van één seconde

Mensen laten ongeveer 200 milliseconden tussen gespreksbeurten — een cijfer uit taaloverstijgend onderzoek gepubliceerd in PNAS. Geen telefoonagent haalt dat, maar het bepaalt het instinct: over een echte lijn wil je het antwoord binnen ongeveer een seconde terug, tegen een natuurlijk “mond-tot-oor”-budget van rond de 1,1 seconde. Mis je dat, dan praten bellers door de agent heen of hangen ze op.

Hoe Calleague het budget haalt

De truc is overlap, niet rauwe snelheid. Calleague streamt realtime spraak-naar-tekst naar het model, streamt de tokens van het model naar tekst-naar-spraak, en begint te spreken voordat je helemaal klaar bent — een gecascadeerde pijplijn in plaats van een sequentiële. De cascade behoudt ook controle: we kunnen opgehaalde feiten en guardrails injecteren bij de modelstap, wat een enkel end-to-end spraak-naar-spraak-model niet kan.

Echte telefonie, geen webwidget

Calleague spreekt SIP, dus het haakt in op het openbare telefoonnet en je bestaande PBX of contactcenter voor zowel inkomende supportlijnen als uitgaande campagnes, en verwerkt smalbandige gespreksaudio en toetstonen (DTMF). Het draait een visuele workfloweditor over een multi-model-gateway, met desktop- en insluitbare oppervlakken.

Onderbouwing is het nauwkeurigheidsverhaal

Een agent is zo goed als wat hij ophaalt. Calleague gebruikt productie-RAG — hybride retrieval die trefwoord (BM25) en vectorzoeken combineert, en daarna de shortlist herrangschikt met een cross-encoder vóór het antwoord. Trefwoordzoeken doet ertoe omdat bellers exact de tokens hardop uitspreken die embeddings missen: ordernummers, SKU’s, foutcodes. Onderbouwen met bronvermeldingen vermindert hallucinatie; het elimineert die niet — daarom is de retrievalkwaliteit het product.

Waar het draait

Omdat belleraudio en transcripties gevoelig zijn, doet het implementatiemodel er net zoveel toe als de functies. Calleague draait on-prem of als SaaS, en houdt audio binnen je perimeter waar dataresidentie en AVG-verplichtingen dat eisen.

Stem is het moeilijkst te faken oppervlak en het makkelijkst te voelen. Calleague is zo gebouwd dat het gesprek menselijk aanvoelt en de data van jou blijft.

Alle artikelen