OpenAI 与微软推出新语音模型

作者: CBISMB

责任编辑: 邹大斌

来源: ISMB

时间: 2025-08-29 09:13

关键字: OpenAI,语音大模型,AI

浏览: 320

点赞: 14

收藏: 14

OpenAI 和微软公司今天推出了两款专门优化用于生成语音的人工智能模型。

OpenAI 的新算法名为 gpt-realtime,被描述为其功能最强大的语音模型。与该公司此前推出的同类产品相比,该 AI 能生成听起来更自然的语音,并且能够在一句话的中途改变语调和语言。

据 OpenAI 介绍,gpt-realtime 特别擅长遵循指令。这使得在应用程序中使用该模型的开发者可以针对特定任务对其进行定制。例如,一个正在开发技术支持助手的软件团队,可以指示 gpt-realtime 在某些提示响应中引用知识库文章。

将该模型应用于技术支持场景的开发者还可以使用一项新的图像上传工具。利用此功能,客户服务聊天机器人可以允许用户上传他们希望排查故障的应用程序的截图。OpenAI 也预见客户会将此功能用于其他一系列任务。

开发者可以通过 OpenAI Realtime API 访问 gpt-realtime。这是一个应用程序编程接口,允许客户与 ChatGPT 开发商的语音和多模态模型进行交互。作为此次产品更新的一部分,OpenAI 已将该 API 推向全面可用(general availability),并增加了多项新功能。

OpenAI 的研究人员在一篇博客文章中详细说明:“现在,你可以在不同的 Realtime API 会话中保存并重复使用提示(prompt)——这些提示包括开发者消息、工具、变量以及示例的用户/助手消息。”

微软在 gpt-realtime 发布的同时推出的语音 AI 模型名为 MAI-Voice-1。该模型最初将集成于微软的 Copilot 助手中。据该公司介绍,该模型支持的功能包括让助手能够总结天气预报等更新信息,以及将文本生成播客。

微软表示,MAI-Voice-1 是业内硬件效率最高的语音模型之一。它可以在不到一秒钟的时间内,仅使用一块GPU生成一分钟的音频。不过,微软并未提供更多信息,例如测量该模型单芯片性能时使用的是哪款 GPU。

该公司还分享了另一款今天发布的新 AI 模型 MAI-1-preview 的更多细节。该模型的训练使用了 15,000 块英伟达公司(Nvidia Corp.)的 H100 加速器。H100 是英伟达在 2022 年推出时的旗舰级数据中心显卡。

与微软的新语音模型类似,MAI-1-preview 也针对效率进行了优化。神经网络在处理提示时通常会激活其所有参数(即配置设置)。而 MAI-1-preview 采用了“专家混合”(MOE)架构,使其仅激活部分参数,从而显著减少了硬件资源的消耗。

MAI-1-preview 在发布时仅通过 API 向少数测试者开放。它将在未来几周内逐步向微软 Copilot 用户推出。

该公司暗示,计划在未来几个月内推出 MAI-1-preview 的改进版本。这款即将推出的模型将使用 GB200 集群进行训练。每个 GB200 系统集成了 72 块英伟达最新的、最先进的数据中心 GPU——Blackwell B200 芯片,以及 36 块中央处理器(CPU)。

微软人工智能部门的研究人员在一篇博客文章中写道:“我们不仅会在此领域继续追求更进一步的突破,而且相信,协调一系列服务于不同用户意图和使用场景的专用模型,将释放巨大的价值。”

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。