OpenAI 发布语音模型 GPT-realtim,可用于开发语音智能体

作者: CBISMB

责任编辑: 宋慧

来源: ISMB

时间: 2025-09-02 12:02

关键字: OpenAI,ChatGPT,AI,智能体,语音大模型

浏览: 174

点赞: 8

收藏: 10

据OpenAI官方消息,OpenAI正式发布语音模型GPT-Realtime,并对Realtime API进行全面升级,将其从测试阶段推进至正式生产环境。此次更新旨在助力企业和开发者打造更可靠、适用于实际生产的语音智能体。

GPT-Realtime是OpenAI迄今最先进的语音转语音模型,采用端到端Speech-to-Speech架构,无需文本转换步骤,可直接处理和生成语音。相比前代版本,它在处理复杂指令时更加精准,生成的语音更自然、富有表现力,能捕捉如笑声等非语言信号,支持对话中途语言切换,还可根据需求调整语音语气,如模拟“带法国口音的友好语调”。此外,模型新增“Cedar”和“Marin”两种语音,并优化了现有的8种语音效果。在性能基准测试中,GPT-Realtime表现卓越,在Big Bench Audio基准测试中准确率从65.6%跃升至82.8%,MultiChallenge基准测试从20.6%提升至30.5%,ComplexFuncBench基准测试从49.7%提高到66.5%。

Realtime API此次更新支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫,开发者可通过SIP与远程媒体控制协议(MCP)服务器连接外部工具与服务。同时,API新增可复用提示词功能,开发者能保存不同场景下的配置与工具设置,提升开发效率。并且,API具备检测问题内容的能力,可自动终止违反平台政策的会话。针对欧盟用户,提供数据本地化存储选项,并制定特殊隐私规则以符合当地数据保护法规。价格方面,GPT-Realtime使用成本降低20%,音频输入token每百万个32美元,音频输出token每百万个64美元,缓存输入token每百万个0.40美元 。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。