OpenAI计划一季度发布新一代音频模型

Commenti · 9 Visualizzazioni

1月2日消息,据科技媒体SiliconANGLE报道,OpenAI计划在今年第一季度推出一款全新的音频模型,旨在彻底重新定义机器与人类之间的语音交互体验。 尽管OpenAI此前已经在GPT-4o中展示了令人印象深刻的高级语音模式(Advanced Vo

  1月2日消息,据科技媒体SiliconANGLE报道,OpenAI计划在今年第一季度推出一款全新的音频模型,旨在彻底重新定义机器与人类之间的语音交互体验。

  尽管OpenAI此前已经在GPT-4o中展示了令人印象深刻的高级语音模式(Advanced Voice Mode),但即将发布的这款新模型据称在架构上进行了更深层的优化。

  新模型预计将具备更低的端到端延迟,能够实现几乎无感知的实时打断与对话,同时在情感理解与表达上达到了新的高度。这意味着,AI不仅能听懂用户说了什么,还能敏锐地捕捉到用户语调中的犹豫、兴奋或愤怒,并用带有相应情感色彩的语气进行回应,从而通过图灵测试的语音版。

  在过去的一年里,Google凭借其Gemini Live功能在安卓生态中迅速普及了自然语言对话,而像ElevenLabs这样的垂直领域独角兽则在语音合成(TTS)和声音克隆API市场占据了大量份额。

  OpenAI急需一款具有统治力的音频基座模型,不仅为了服务C端用户,更为了向开发者提供更强大的API,以夺回在企业级语音服务(如智能客服、实时翻译)市场的主导权。

  这款音频模型也被视为OpenAI构建下一代“AI代理”(Agent)战略的重要入口。随着AI从单纯的聊天机器人进化为能够代替人类执行任务的智能体,语音正在取代键盘成为最高效的指令输入方式。

  如果OpenAI的新模型能够实现极高的准确率和极低的能耗,它极有可能成为未来可穿戴设备和智能家居系统的默认“听觉中枢”。目前,OpenAI方面尚未对具体发布日期和技术细节置评,但市场普遍预期,这将在未来几个月内引发新一轮的语音AI技术竞赛。(鞭牛士、AI普瑞斯编译)

Commenti
会员免费服务:时刻音乐 时刻云盘 时刻工具箱 时刻标签 时刻工具