2 min read

NVIDIA Riva TTS模型革新语音合成:多语言、零样本克隆与安全前瞻

NVIDIA Riva推出了三款先进的文本到语音(TTS)模型:Magpie TTS Multilingual、Magpie TTS Zeroshot 和 Magpie TTS Flow,旨在革新实时语音合成技术。这些模型基于Transformer架构,支持多语言,并引入了创新的偏好对齐框架与分类器无关引导(CFG)技术,显著提升了语音生成的自然度、准确性及说话人一致性,即使在数据量有限的情况下也能实现卓越的零样本语音克隆。

Magpie TTS Multilingual和Zeroshot模型采用流式编码器-解码器Transformer,后者通过5秒音频样本即可实现高质量语音克隆,适用于AI语音助手、数字人及实时电话交互等场景。Magpie TTS Flow模型则集成了HuBERT离散语音单元,优化了文本-语音对齐,适用于录音室配音和播客旁白,同样支持语音克隆,并能通过语言ID输入实现多语言能力。

NVIDIA与Pindrop等公司合作,将安全和可信赖AI置于优先地位,共同应对合成语音带来的潜在风险,如深度伪造和身份欺诈。通过与行业领先的深度伪造检测公司合作,为安全的合成语音部署设定标准,确保AI技术的负责任发展。

Enhancing Multilingual Human-Like Speech and Voice Cloning with NVIDIA Riva TTS | NVIDIA Technical Blog
While speech AI is used to build digital assistants and voice agents, its impact extends far beyond these applications. Core technologies like text-to-speech (TTS) and automatic speech recognition…
订阅情报