OpenAI 工程博客:大规模低延迟语音的门道

OpenAI 发了一篇工程向文章,讲它如何在大规模并发下把语音对话的延迟压到自然对话的水平,细节对做实时应用的人很有参考价值。

技术上的硬骨头

语音对话的及格线很苛刻:人类对话的停顿容忍度在几百毫秒量级,超过一秒就觉得对方反应迟钝。文章拆解了延迟的各个来源,音频传输、语音活动检测、模型推理、语音合成,每一段都得抠。值得注意的方向是端到端语音模型替代「转文字、想、再转语音」的三段式管线,省掉中间环节既降延迟也保留了语气信息。再叠加流式处理和推理基础设施的调度优化,才把整条链路压进体感自然的范围。

为什么值得读

抛开宣传成分,这类工程博客的价值在于透露了真实的成本结构:低延迟语音吃的是和文本完全不同的资源,长连接、实时调度、为峰值预留的容量,每一项都贵。这解释了语音功能的定价为什么普遍偏高,也提示了创业公司的机会和陷阱,做一个演示级的语音应用很容易,把延迟和成本同时压住才是壁垒。做语音交互产品的团队,这篇值得对照自家架构读一遍。

via: Hacker News