4 min read

NVIDIA AI 安全配方:解锁自主 AI 的信任与合规新维度

大型语言模型(LLMs)驱动的自主系统日益普及,企业对其灵活性和低推理成本趋之若鹜。然而,这种自主性的提升伴随着显著的风险,包括目标不一致、提示注入、意外行为以及人类监督的减少,这使得部署强大的安全措施成为当务之急。此外,动态变化的监管环境加剧了责任风险。信任问题则带来幻觉、数据泄露和不当模型响应等未知风险,可能损害组织的安全性、隐私、信任和合规性目标。为应对这些挑战,NVIDIA 推出了“AI 安全配方”,通过其开放数据集、评估技术和训练后策略,强化了 AI 生命周期的每个阶段。在推理阶段,NVIDIA NeMo Guardrails 有效解决了对抗性提示、提示注入攻击和合规性违规等新兴风险。这一整体方法使策略管理者、首席信息安全官(CISO)、首席信息官(CIO)及 AI 研究人员能够主动管理安全威胁,强制执行企业策略,并负责任地扩展自主 AI 应用。

自主工作流之所以需要安全配方,是因为先进的开源模型并非总是符合公司的安全策略,且不断变化的环境带来的风险可能超越了传统安全防护(如内容过滤器和基准测试)的能力。NVIDIA 的 AI 安全配方提供了一个企业级框架,实现对 AI 系统的构建、部署和运行,确保其可信赖并符合内部策略及外部监管要求。其关键优势包括:通过评估测试和衡量业务策略与风险阈值;提供端到端的 AI 安全软件栈,覆盖 AI 全生命周期;提供可信赖的、符合法规的数据集用于安全训练;以及通过系统性技术缓解风险,涵盖内容审核、抵御越狱和提示注入攻击等安全维度。

NVIDIA 的 AI 安全配方在构建、部署和运行阶段均提供防护。构建阶段,模型评估和对齐至关重要,以确保模型输出符合企业特定目标、安全、信任、用户隐私期望和法规标准。NVIDIA 提供 NeMo 框架模型评估工具,结合 Nemotron Content Safety Dataset v2 和 WildGuardMix Dataset 等,严格筛选有害输出。Garak LLM 漏洞扫描器则用于探测安全漏洞,抵御对抗性提示和越狱尝试。NeMo 框架 RL 支持通过监督微调(SFT)和强化学习(RL)进行训练后优化,并提供开源数据集以构建透明可靠的 AI 系统。训练后,会生成详尽的安全与安全报告,确保模型符合企业策略和标准。部署前,需对任务特定准确性进行再评估。部署后,通过 NeMo Guardrails 提供持续、可编程的安全防护,以应对推理运行时出现的风险,例如 Llama 3.1 Nemoguard 8B Content Safety NIM 防止偏见或有毒输出,Llama 3.1 Nemoguard 8B Topic Control NIM 确保交互在批准的业务或合规领域内,Nemoguard Jailbreak Detect NIM 则防御绕过模型安全措施的恶意提示工程。

通过 NVIDIA AI 安全配方,内容安全性能从基线开源模型的 88% 提升至 94%,产品安全性从 56% 提升至 63%,均在不牺牲准确性的前提下实现了显著改进。该配方已助力 Active Fence、Cisco AI Defense、CrowdStrike Falcon Cloud Security 和 Trend Micro 等领先的 AI 安全公司,将其集成到各自的产品和解决方案中,以更安全、合规的方式部署和运行自主 AI 系统。

Safeguard Agentic AI Systems with the NVIDIA Safety Recipe | NVIDIA Technical Blog
As large language models (LLMs) power more agentic systems capable of performing autonomous actions, tool use, and reasoning, enterprises are drawn to their flexibility and low inference costs.
订阅情报