OpenAI计划一季度发布新一代音频模型

　　1月2日消息，据科技媒体SiliconANGLE报道，OpenAI计划在今年第一季度推出一款全新的音频模型，旨在彻底重新定义机器与人类之间的语音交互体验。

　　尽管OpenAI此前已经在GPT-4o中展示了令人印象深刻的高级语音模式（Advanced Voice Mode），但即将发布的这款新模型据称在架构上进行了更深层的优化。

　　新模型预计将具备更低的端到端延迟，能够实现几乎无感知的实时打断与对话，同时在情感理解与表达上达到了新的高度。这意味着，AI不仅能听懂用户说了什么，还能敏锐地捕捉到用户语调中的犹豫、兴奋或愤怒，并用带有相应情感色彩的语气进行回应，从而通过图灵测试的语音版。

　　在过去的一年里，Google凭借其Gemini Live功能在安卓生态中迅速普及了自然语言对话，而像ElevenLabs这样的垂直领域独角兽则在语音合成（TTS）和声音克隆API市场占据了大量份额。

　　OpenAI急需一款具有统治力的音频基座模型，不仅为了服务C端用户，更为了向开发者提供更强大的API，以夺回在企业级语音服务（如智能客服、实时翻译）市场的主导权。

　　这款音频模型也被视为OpenAI构建下一代“AI代理”（Agent）战略的重要入口。随着AI从单纯的聊天机器人进化为能够代替人类执行任务的智能体，语音正在取代键盘成为最高效的指令输入方式。

　　如果OpenAI的新模型能够实现极高的准确率和极低的能耗，它极有可能成为未来可穿戴设备和智能家居系统的默认“听觉中枢”。目前，OpenAI方面尚未对具体发布日期和技术细节置评，但市场普遍预期，这将在未来几个月内引发新一轮的语音AI技术竞赛。（鞭牛士、AI普瑞斯编译）