24 Aug 2025 2 min read 人工智能 (AI)

NVIDIA Riva TTS模型革新语音合成：多语言、零样本克隆与安全前瞻

NVIDIA Riva推出了三款先进的文本到语音（TTS）模型：Magpie TTS Multilingual、Magpie TTS Zeroshot 和 Magpie TTS Flow，旨在革新实时语音合成技术。这些模型基于Transformer架构，支持多语言，并引入了创新的偏好对齐框架与分类器无关引导（CFG）技术，显著提升了语音生成的自然度、准确性及说话人一致性，即使在数据量有限的情况下也能实现卓越的零样本语音克隆。

Magpie TTS Multilingual和Zeroshot模型采用流式编码器-解码器Transformer，后者通过5秒音频样本即可实现高质量语音克隆，适用于AI语音助手、数字人及实时电话交互等场景。Magpie TTS Flow模型则集成了HuBERT离散语音单元，优化了文本-语音对齐，适用于录音室配音和播客旁白，同样支持语音克隆，并能通过语言ID输入实现多语言能力。

NVIDIA与Pindrop等公司合作，将安全和可信赖AI置于优先地位，共同应对合成语音带来的潜在风险，如深度伪造和身份欺诈。通过与行业领先的深度伪造检测公司合作，为安全的合成语音部署设定标准，确保AI技术的负责任发展。

订阅情报

推荐情报

DJI Mic 3：音频录制小型化与智能化新标杆

AI助理April：从通勤痛点到YC加速，重塑工作与生活的时间价值

忙碌的 the beaver：计算复杂性极限的探寻之旅

L1回归以太坊：Celo与Lisk的战略迁移，重塑Layer-2生态格局

比特币矿企TeraWulf牵手谷歌，200兆瓦算力托管开启AI时代新篇章