2 min read

NVIDIA释放多语言语音AI潜能:Granary数据集与新模型赋能欧洲语言生态

NVIDIA通过发布Granary数据集和Canary-1b-v2、Parakeet-tdt-0.6b-v3模型,显著降低了开发多语言语音AI的门槛。Granary作为一项包含约百万小时音频的开源多语言语音数据集,尤其解决了欧洲地区数据稀疏语言(如克罗地亚语、爱沙尼亚语、马耳他语)的AI训练难题。

Canary-1b-v2模型在Granary数据集上训练,实现了对25种欧洲语言的高质量语音识别和翻译,并在Hugging Face多语言语音识别准确性排行榜上名列前茅。Parakeet-tdt-0.6b-v3模型则专为实时或大批量转录优化,其吞吐量在Hugging Face排行榜上居于首位。这些工具的发布,将加速多语言聊天机器人、客户服务语音助手及近实时翻译等规模化AI应用的开发与部署。

NVIDIA利用NeMo Speech Data Processor工具链,通过创新的数据处理流程,将未标记音频转化为高质量结构化数据,有效减少了对昂贵人工标注的依赖。该方法展示出仅需一半的Granary训练数据即可达到目标准确率,预示着更高效、更具包容性的语音技术发展方向。通过开源方法论和模型,NVIDIA赋能全球开发者加速语音AI创新。

Now We’re Talking: NVIDIA Releases Open Dataset, Models for Multilingual Speech AI
The new Granary dataset was used to train high-accuracy and high-throughput speech AI models for audio transcription and translation.
订阅情报