3 min read

NVIDIA Cosmos:解锁物理AI的数据瓶颈,驱动智能体新纪元

NVIDIA发布Cosmos平台,旨在解决物理AI系统发展中日益严峻的数据集标注难题。该平台的核心是世界基础模型(WFMs),能够模拟、预测并推理现实世界动态,为机器人、自动驾驶等领域提供关键数据支持。

Cosmos平台包含Cosmos Predict、Cosmos Transfer和Cosmos Reason三种模型。Cosmos Predict可根据文本、图像或视频生成逼真的未来世界状态视频,加速合成数据生成(SDG)。其应用包括用于自动驾驶的Single2MultiView(从单视角生成多视角数据)和Cosmos-Drive-Dreams(生成多样化驾驶场景),以及用于人形机器人训练的GR00T-Dreams(生成轨迹数据)。DiffusionRenderer则利用Cosmos Predict优化了视频的重新照明能力,提升了场景编辑的效率和可控性。Cosmos Predict2通过引入Neighborhood Attention(NATTEN)技术,在NVIDIA H100和B200等GPU上实现了2至2.5倍的视频生成推理加速。

Cosmos Transfer专注于可控的合成数据生成,支持分割图、深度图、激光雷达点云等多种控制输入,并结合文本提示生成具有多样视觉特征的场景,以增强数据多样性,提升模拟到现实(sim-to-real)的迁移效果。其改进版“Edge model distillation”通过模型蒸馏,将原本需要70个步骤生成的视频压缩至一步完成,显著降低了计算成本,为边缘设备部署提供了可能。

Cosmos Reason作为专注于物理AI推理的世界基础模型,能够理解物理常识并进行长链式思考,从而做出合理的决策。它可作为SDG过程中的“评论家”,通过理解动作序列和现实约束来精炼高质量训练数据。该模型通过监督微调(SFT)和强化学习(RL)进行训练,例如在robovqa数据集上微调可提升其在机器人视觉问答任务上的表现。

NVIDIA Cosmos平台及其模型代表了物理AI数据生成与优化的新范式,通过强大的生成能力和高效的推理加速,为加速机器人和自动驾驶技术的研发奠定了坚实基础,预示着一个更智能、更具适应性的物理AI新时代的到来。

R²D²: Boost Robot Training with World Foundation Models and Workflows from NVIDIA Research | NVIDIA Technical Blog
As physical AI systems advance, the demand for richly labeled datasets is accelerating beyond what we can manually capture in the real world. World foundation models (WFMs), which are generative AI…
订阅情报