OpenAI 工程博客：大规模低延迟语音的门道

AI资讯编辑部1个月前

OpenAI 发了一篇工程向文章，讲它如何在大规模并发下把语音对话的延迟压到自然对话的水平，细节对做实时应用的人很有参考价值。

技术上的硬骨头

语音对话的及格线很苛刻：人类对话的停顿容忍度在几百毫秒量级，超过一秒就觉得对方反应迟钝。文章拆解了延迟的各个来源，音频传输、语音活动检测、模型推理、语音合成，每一段都得抠。值得注意的方向是端到端语音模型替代「转文字、想、再转语音」的三段式管线，省掉中间环节既降延迟也保留了语气信息。再叠加流式处理和推理基础设施的调度优化，才把整条链路压进体感自然的范围。

为什么值得读

抛开宣传成分，这类工程博客的价值在于透露了真实的成本结构：低延迟语音吃的是和文本完全不同的资源，长连接、实时调度、为峰值预留的容量，每一项都贵。这解释了语音功能的定价为什么普遍偏高，也提示了创业公司的机会和陷阱，做一个演示级的语音应用很容易，把延迟和成本同时压住才是壁垒。做语音交互产品的团队，这篇值得对照自家架构读一遍。

via: Hacker News