欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

AI语音生成提速40%!苹果公布PCG技术

作者:冷炫風刃 | 点击: | 来源:冷炫風刃
0402
2026
今日,据外媒9to5Mac消息,苹果公司携手特拉维夫大学共同推出一项名为「原则性粗粒度」(PCG)的新型语音合成技术,目标直指AI文本转语音(TTS)领域长期存在的推理速度瓶颈。传统TTS系统普遍采用自回归建模方式,逐帧预测声学token,且严格要求与预设序列完全一致。这种“零容差”机制虽保障了理论精度,却极大拖慢生成节奏——即便预测结果在听觉层面几无差别,仅因微小偏差也会被判定为失败。为突破该限制,研究团队创新性地依据人类听觉感知特性,将语义等价或听感相近的声学token聚类整合,构建出多个「...

今日,据外媒9to5mac消息,苹果公司携手特拉维夫大学共同推出一项名为「原则性粗粒度」(pcg)的新型语音合成技术,目标直指ai文本转语音(tts)领域长期存在的推理速度瓶颈。

传统TTS系统普遍采用自回归建模方式,逐帧预测声学token,且严格要求与预设序列完全一致。这种“零容差”机制虽保障了理论精度,却极大拖慢生成节奏——即便预测结果在听觉层面几无差别,仅因微小偏差也会被判定为失败。

为突破该限制,研究团队创新性地依据人类听觉感知特性,将语义等价或听感相近的声学token聚类整合,构建出多个「声学相似组」。验证逻辑由此发生根本转变:不再苛求token精准落点,而是判断其是否归属目标相似组内,即由“单点匹配”升级为“区间接纳”,大幅增强系统鲁棒性。

在工程实现上,PCG引入「投机解码」双模型协同范式:前端由轻量级小模型高速产出候选token序列,后端则交由大模型进行相似组归属判别。该设计既延续了小模型的低延迟优势,又依托大模型确保输出符合听觉保真标准。

实测数据显示,该方案可将端到端语音生成速率提升约40%,主观自然度评分为4.09(满分为5分)。

在极端扰动测试中,当高达91.4%的原始token被随机替换为同组内其他成员时,词错误率仅上升0.007,说话人身

份相似度下降0.027,人耳几乎无法分辨变化。

值得注意的是,PCG属于纯推理层优化方案,无需对已有TTS模型进行任何重训练;仅需额外加载约37MB的相似组索引数据,即可完成部署,兼具高兼容性与极低落地门槛。

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询