OpenAI正式发布全新语音模型GPT-realtime,这是一款专为语音AI智能体设计的多模态模型,具备生成高度自然流畅语音的能力,可精准复现人类丰富的语调变化、情感表达及语速节奏。该模型支持图像理解,并能将视觉信息与语音或文本对话无缝融合,广泛适用于客服、教育、金融、医疗等场景中的语音智能体构建。GPT-realtime采用端到端的音频处理架构,直接对音频输入进行解析并生成回应,大幅降低响应延迟。此次更新推出了两种全新风格的语音——Marin与Cedar,同时对原有8种语音音色完成了全面优化...
openai 正式发布全新语音模型 gpt-realtime,这是一款专为语音ai智能体设计的多模态模型,具备生成高度自然流畅语音的能力,可精准复现人类丰富的语调变化、情感表达及语速节奏。该模型支持图像理解,并能将视觉信息与语音或文本对话无缝融合,广泛适用于客服、教育、金融、医疗等场景中的语音智能体构建。
GPT-realtime 采用端到端的音频处理架构,直接对音频输入进行解析并生成回应,大幅降低响应延迟。此次更新推出了两种全新风格的语音——Marin 与 Cedar,同时对原有8种语音音色完成了全面优化升级。
据 OpenAI 介绍,该模型展现出更强的理解能力,尤其在母语语音识别方面表现更优。它能够识别非语言信号(如笑声)、实现句中语码切换,并根据情境调整语气风格(例如“简洁专业”或“亲切体贴”)。
内部测试显示,GPT-realtime 在识别多种语言(包括西班牙语、中文、日语和法语)中的字母数字序列(如电话号码、车辆识别码等)任务中,准确率显著提升。在 Big Bench Audio 基准测试中,其推理能力得分达到 82.8%,远高于2025年12月发布的前一版本(6

5.6%)。
在衡量指令遵循能力的 MultiChallenge 音频基准测试中,gpt-realtime 得分为 30.5%,相较上一代模型的 20.6% 实现了明显进步。
此外,GPT-realtime 增强了函数调用功能,新增对图像输入的支持,使得对话可基于视觉内容展开。多项API改进也让集成更加便捷,为开发者提供了更高的灵活性与可扩展性。
值得一提的是,本次模型的研发团队中包括两位95后华人研究员 Beichen Li 和 Liyu Chen。其中,Beichen Li 毕业于麻省理工学院(MIT),主要研究方向聚焦于计算机图形学与机器学习的交叉领域。
相关推荐:
免费的信息收集软件,让你的工作事半功倍!,ai用直线工具话直角
SEO优化资讯:如何让你的网站脱颖而出,成为搜索引擎的宠儿
教你如何通过发红包就可以赚钱的网赚项目操作思路!
单页网站怎么做排名,有什么优势吗?
SEO优化关键词软件,助力网站流量增长的必备工具
ChatGPT一经发布,便受到了用户的狂热追捧,引爆人工智能热潮,ai ai舞蹈完整教程
ChatGPT4在线网页版:智能交流的新纪元,错层阴影ai
2个超级暴利非常赚钱的网络淘金项目操作思路分享!
SEO属于什么专业的?解析SEO专业与未来发展趋势,北京ai行业公司
SEO也成搜索引擎优化:开启数字营销新纪元
ChatGPTWindows版本下载:让AI助力您的工作和生活,pc端免费ai写作
SEO与推广:提升品牌影响力的关键策略
AI免费试用不需要登录:体验智能科技的魅力,轻松开启未来,对象ai回复
SEO优化什么意思?彻底解读SEO的核心价值与操作技巧
gptchat中文网是哪个国家的?深度解析其背后的全球布局与发展,腾讯ai模式啥意思
AI人工智能文章生成平台,释放创作无限可能
SEO么?让你的品牌从此登顶搜索引擎,流量暴增的秘密武器!
ChatGPT免登录无限次数网页,畅享人工智能全新体验
怎么用AI生成文章免费版,高效创作从此开始!
释放智慧潜能,AI助手OpenAI助你跨越未来,电影Ai男主
Chat3.5免费版登录入口:让AI助手成为你生活的一部分,罐体ai
360关键:打造全方位安全保护,守护您的数字世界,ai活跃指标
ChatcraftPro下载:让你的聊天机器人更智能,体验前所未有的互动乐趣,用ai写作文代码怎么写
揭开“好的AI软件”背后的秘密:让生活和工作更智能的利器
SEO优化价格:让您的企业在竞争激烈的市场中脱颖而出,elsa ai
打造内容创作新高度:文章扩写AI的革命性优势
chatai写作免费一键生成,轻松解决写作难题!,ai字体亮度
AI人工智能:开发与应用的必备软件推荐
免费体验AI生成作文,轻松应对写作难题!,ai2012ai
AI一键生成文章,写作新境界