NVIDIA AI 安全配方:解锁自主 AI 的信任与合规新维度
大型语言模型(LLMs)驱动的自主系统日益普及,企业对其灵活性和低推理成本趋之若鹜。然而,这种自主性的提升伴随着显著的风险,包括目标不一致、提示注入、意外行为以及人类监督的减少,这使得部署强大的安全措施成为当务之急。此外,动态变化的监管环境加剧了责任风险。信任问题则带来幻觉、数据泄露和不当模型响应等未知风险,可能损害组织的安全性、隐私、信任和合规性目标。为应对这些挑战,NVIDIA 推出了“AI 安全配方”,通过其开放数据集、评估技术和训练后策略,强化了 AI 生命周期的每个阶段。在推理阶段,NVIDIA NeMo Guardrails 有效解决了对抗性提示、提示注入攻击和合规性违规等新兴风险。这一整体方法使策略管理者、首席信息安全官(CISO)、首席信息官(CIO)及 AI 研究人员能够主动管理安全威胁,强制执行企业策略,并负责任地扩展自主 AI 应用。
自主工作流之所以需要安全配方,是因为先进的开源模型并非总是符合公司的安全策略,且不断变化的环境带来的风险可能超越了传统安全防护(如内容过滤器和基准测试)的能力。NVIDIA 的 AI 安全配方提供了一个企业级框架,实现对 AI 系统的构建、部署和运行,确保其可信赖并符合内部策略及外部监管要求。其关键优势包括:通过评估测试和衡量业务策略与风险阈值;提供端到端的 AI 安全软件栈,覆盖 AI 全生命周期;提供可信赖的、符合法规的数据集用于安全训练;以及通过系统性技术缓解风险,涵盖内容审核、抵御越狱和提示注入攻击等安全维度。
NVIDIA 的 AI 安全配方在构建、部署和运行阶段均提供防护。构建阶段,模型评估和对齐至关重要,以确保模型输出符合企业特定目标、安全、信任、用户隐私期望和法规标准。NVIDIA 提供 NeMo 框架模型评估工具,结合 Nemotron Content Safety Dataset v2 和 WildGuardMix Dataset 等,严格筛选有害输出。Garak LLM 漏洞扫描器则用于探测安全漏洞,抵御对抗性提示和越狱尝试。NeMo 框架 RL 支持通过监督微调(SFT)和强化学习(RL)进行训练后优化,并提供开源数据集以构建透明可靠的 AI 系统。训练后,会生成详尽的安全与安全报告,确保模型符合企业策略和标准。部署前,需对任务特定准确性进行再评估。部署后,通过 NeMo Guardrails 提供持续、可编程的安全防护,以应对推理运行时出现的风险,例如 Llama 3.1 Nemoguard 8B Content Safety NIM 防止偏见或有毒输出,Llama 3.1 Nemoguard 8B Topic Control NIM 确保交互在批准的业务或合规领域内,Nemoguard Jailbreak Detect NIM 则防御绕过模型安全措施的恶意提示工程。
通过 NVIDIA AI 安全配方,内容安全性能从基线开源模型的 88% 提升至 94%,产品安全性从 56% 提升至 63%,均在不牺牲准确性的前提下实现了显著改进。该配方已助力 Active Fence、Cisco AI Defense、CrowdStrike Falcon Cloud Security 和 Trend Micro 等领先的 AI 安全公司,将其集成到各自的产品和解决方案中,以更安全、合规的方式部署和运行自主 AI 系统。

网友讨论