NVIDIA Cosmos:解锁物理AI的数据瓶颈,驱动智能体新纪元
NVIDIA发布Cosmos平台,旨在解决物理AI系统发展中日益严峻的数据集标注难题。该平台的核心是世界基础模型(WFMs),能够模拟、预测并推理现实世界动态,为机器人、自动驾驶等领域提供关键数据支持。
Cosmos平台包含Cosmos Predict、Cosmos Transfer和Cosmos Reason三种模型。Cosmos Predict可根据文本、图像或视频生成逼真的未来世界状态视频,加速合成数据生成(SDG)。其应用包括用于自动驾驶的Single2MultiView(从单视角生成多视角数据)和Cosmos-Drive-Dreams(生成多样化驾驶场景),以及用于人形机器人训练的GR00T-Dreams(生成轨迹数据)。DiffusionRenderer则利用Cosmos Predict优化了视频的重新照明能力,提升了场景编辑的效率和可控性。Cosmos Predict2通过引入Neighborhood Attention(NATTEN)技术,在NVIDIA H100和B200等GPU上实现了2至2.5倍的视频生成推理加速。
Cosmos Transfer专注于可控的合成数据生成,支持分割图、深度图、激光雷达点云等多种控制输入,并结合文本提示生成具有多样视觉特征的场景,以增强数据多样性,提升模拟到现实(sim-to-real)的迁移效果。其改进版“Edge model distillation”通过模型蒸馏,将原本需要70个步骤生成的视频压缩至一步完成,显著降低了计算成本,为边缘设备部署提供了可能。
Cosmos Reason作为专注于物理AI推理的世界基础模型,能够理解物理常识并进行长链式思考,从而做出合理的决策。它可作为SDG过程中的“评论家”,通过理解动作序列和现实约束来精炼高质量训练数据。该模型通过监督微调(SFT)和强化学习(RL)进行训练,例如在robovqa数据集上微调可提升其在机器人视觉问答任务上的表现。
NVIDIA Cosmos平台及其模型代表了物理AI数据生成与优化的新范式,通过强大的生成能力和高效的推理加速,为加速机器人和自动驾驶技术的研发奠定了坚实基础,预示着一个更智能、更具适应性的物理AI新时代的到来。

网友讨论