12 Sep 2025 1 min read 人工智能

Google Meet实时语音翻译：AI大模型驱动的跨语言沟通革命

Google Meet的音频工程团队在AI大模型技术的推动下，实现了突破性的实时语音翻译功能。该团队与Google DeepMind合作，将语音翻译的延迟从传统多步骤流程的10-20秒大幅缩减至2-3秒，使得跨语言的即时对话成为可能。

此次技术飞跃的核心在于“one-shot”翻译模型，它能够接收音频输入并几乎立即输出翻译后的音频，显著提升了沟通的自然流畅度。这一进展汇聚了Pixel、Cloud、Chrome等多个部门的工程师，共同致力于优化用户体验。

尽管面临口音、背景噪音和网络条件等挑战，Meet与DeepMind团队通过反复测试和调整，不断打磨模型。对于德语等语法和习语结构差异较大的语言，优化工作尤为复杂。目前，该模型在处理字面翻译和细微语境方面仍有提升空间，但未来将通过集成更先进的LLMs来解决，以更精准地捕捉语气和反讽等语言特质。

此项技术不仅提升了Google Meet的实用性，也为跨国界、跨语言的协作与交流树立了新的行业标杆，预示着AI在打破语言障碍方面的巨大潜力。

订阅情报

美国国家科学基金会（NSF）研究资助削减案：法院驳回初步禁令，科学界面临不确定性