2 min read

NVIDIA Cosmos Reason:重塑机器人智能的物理AI推理引擎

NVIDIA在GTC 2025上发布了Cosmos Reason,一款专为物理AI和机器人领域设计的开源、高度可定制的视觉语言模型(VLM)。该模型赋予机器人和视觉AI代理通过结合先验知识、物理理解及常识进行推理的能力,从而实现对真实世界的理解与互动。

Cosmos Reason通过视觉编码器和投影仪将视频转化为可处理的Token,并与文本提示融合后输入核心模型。该模型采用LLM模块与链式思考(Chain-of-Thought)推理技术,能够逐步分析并生成详细、符合逻辑的响应,从而在无需人类标注的情况下理解世界动态。通过监督微调(SFT)和强化学习(RL)的结合,Cosmos Reason在物理AI任务上的性能提升了超过15%,在机器人和自动驾驶领域的关键基准测试中平均得分达到65.7。

开发者可从Hugging Face下载模型检查点,并在GitHub获取推理脚本和训练后代码。Cosmos Reason支持不同分辨率和帧率的视频输入,并可通过文本提示(包括使用prompt upsampler优化后的提示)指导模型进行推理。该模型在NVIDIA GPU上表现最佳,支持从边缘到云端的各种NVIDIA硬件平台,如NVIDIA DGX Cloud上的H100和Blackwell GB200 NVL72 GPU。

Maximize Robotics Performance by Post-Training NVIDIA Cosmos Reason | NVIDIA Technical Blog
First unveiled at NVIDIA GTC 2025, NVIDIA Cosmos Reason is an open and fully customizable reasoning vision language model (VLM) for physical AI and robotics. The VLM enables robots and vision AI…
订阅情报