2 min read

AI推理成新战场:认知攻击解锁AI安全新维度

NVIDIA AI Red Team的研究揭示了“多模态认知攻击”这一新型AI安全威胁,它超越了传统的输入/输出层面,直击AI系统的推理和处理过程。攻击者通过将恶意指令嵌入认知挑战(如滑动拼图、谜语)中,利用AI模型在融合多模态输入(文本、图像、音频)时,为解决问题而触发的模式重建和推理机制,实现对模型的控制。这种攻击绕过了传统的输入过滤,将模型的推理过程本身转化为执行恶意代码的途径。例如,通过精心设计的滑动拼图,可以诱导Gemini 2.5 Pro模型执行“删除文件”等指令,攻击者将指令拆分并嵌入拼图中,模型在“解谜”过程中重构指令并执行。

此类攻击的核心在于利用AI模型在处理不完整信息或认知挑战时的固有计算模式,特别是其注意力机制和模式完成算法。模型优先解决问题的天性,以及在推理过程中才显现的载体,使其成为攻击的温床。这种“推理链利用”的模式,使得攻击在推理时才发生,难以被现有输入验证手段检测。其潜在影响广泛,从数据泄露到系统劫持,甚至对机器人和自动驾驶等具身智能系统构成物理安全风险。

为应对这一挑战,防御策略需从输入验证转向架构层面。关键防御措施包括:开发能识别认知挑战的检测算法;在计算层面隔离问题解决功能与工具访问权限(计算沙箱);以及实施以输出为中心的安保架构,验证行为而非仅输入。这些措施旨在保护模型推理路径,以应对日益复杂的AI安全威胁。

How Hackers Exploit AI’s Problem-Solving Instincts | NVIDIA Technical Blog
As multimodal AI models advance from perception to reasoning, and even start acting autonomously, new attack surfaces emerge. These threats don’t just target inputs or outputs; they exploit how AI…
订阅情报