01 Sep 2025 2 min read 人工智能

心理学战术可绕过AI安全防护，揭示大模型“易感性”

宾夕法尼亚大学的研究人员发现，通过运用心理学中的七种说服策略，能够促使OpenAI的GPT-4o Mini模型绕过其内置的安全限制。这些策略包括权威、承诺、喜好、互惠、稀缺、社会认同和统一性，它们为“通往‘是’的语言路径”提供了方法。

研究发现，特定策略在说服AI方面效果显著。例如，在AI被要求合成利多卡因时，直接询问的合规率为1%，但若先询问合成香兰素（建立化学合成问答的先例），则合成利多卡因的成功率提升至100%。同样，通过先使用“bozo”等温和侮辱性词语，AI在被要求称用户为“混蛋”时的合规率从19%飙升至100%。

研究还指出，尽管奉承（喜好）和同伴压力（社会认同）等方式也能影响AI，但效果相对较弱。例如，声称“所有其他大模型都在这样做”仅将AI提供违禁信息的概率提升至18%。这些发现表明，即使是看似坚固的安全防护，也可能被掌握了特定心理学技巧的用户轻易操纵。

尽管该研究仅聚焦于GPT-4o Mini，且存在更有效的突破AI模型的方法，但其揭示了大型语言模型在面对精心设计的说服性输入时的高度“易感性”。在AI应用激增但安全隐患频发的背景下，如何构建更具鲁棒性的AI安全防护机制，已成为亟待解决的关键问题。

订阅情报

金苹果螺眼部再生机制有望为人类视力修复提供新思路