NVIDIA Streaming Sortformer:实时多说话人识别迎来突破,赋能语音交互新范式
NVIDIA推出了开源、生产级的说话人分离模型 Streaming Sortformer,旨在解决实时语音转录中的核心难题:识别发言人身份。该模型专为低延迟、多说话人场景设计,可集成至NVIDIA NeMo和NVIDIA Riva工作流。它实现了帧级别的说话人区分,提供精准的时间戳,能稳定追踪2-4名说话人,同时保证极低的延迟,并支持高效的GPU推理。
Streaming Sortformer的核心优势在于其创新的“到达顺序说话人缓存”(AOSC)机制。该机制通过处理音频的重叠小块,并利用内存缓冲区追踪先前检测到的说话人,确保在整个音频流中持续、准确地识别同一说话人。这种架构使其能够高效地处理实时多说话人场景,如会议记录、联络中心质检、语音助手交互、媒体内容标注及合规审计等。
虽然模型目前针对英语进行了优化,但在普通话会议数据和多语言测试中均表现出良好性能,预示着其跨语言应用的潜力。NVIDIA的基准测试显示,Streaming Sortformer在低延迟设置下优于现有在线说话人追踪方法。未来的发展方向包括支持更多说话人数量、提升在复杂声学条件和多语言环境下的性能,并与Riva及NeMo Agentic/Voicebot流水线进行深度整合。
Identify Speakers in Meetings, Calls, and Voice Apps in Real-Time with NVIDIA Streaming Sortformer | NVIDIA Technical Blog
In every meeting, call, crowded room, or voice-enabled app, technology has a core question: who is speaking, and when? For decades, answering that question in real-time transcription was almost…

网友讨论