21 Aug 2025 2 min read 人工智能 (AI)

NVIDIA释放多语言语音AI潜能：Granary数据集与新模型赋能欧洲语言生态

NVIDIA通过发布Granary数据集和Canary-1b-v2、Parakeet-tdt-0.6b-v3模型，显著降低了开发多语言语音AI的门槛。Granary作为一项包含约百万小时音频的开源多语言语音数据集，尤其解决了欧洲地区数据稀疏语言（如克罗地亚语、爱沙尼亚语、马耳他语）的AI训练难题。

Canary-1b-v2模型在Granary数据集上训练，实现了对25种欧洲语言的高质量语音识别和翻译，并在Hugging Face多语言语音识别准确性排行榜上名列前茅。Parakeet-tdt-0.6b-v3模型则专为实时或大批量转录优化，其吞吐量在Hugging Face排行榜上居于首位。这些工具的发布，将加速多语言聊天机器人、客户服务语音助手及近实时翻译等规模化AI应用的开发与部署。

NVIDIA利用NeMo Speech Data Processor工具链，通过创新的数据处理流程，将未标记音频转化为高质量结构化数据，有效减少了对昂贵人工标注的依赖。该方法展示出仅需一半的Granary训练数据即可达到目标准确率，预示着更高效、更具包容性的语音技术发展方向。通过开源方法论和模型，NVIDIA赋能全球开发者加速语音AI创新。

订阅情报

推荐情报

ElevenLabs：AI音频全栈突破，重塑语音交互未来

量子计算：从市场热捧到技术瓶颈的洞察

NVIDIA Run:ai GPU内存交换技术：平衡LLM推理成本与响应速度

Claude AI洞察：2025年末XRP、Memecore、TRUMP币价预测与市场趋势分析

Anthropic融资130亿，估值达1830亿，AI独角兽加速商业化