心理学战术可绕过AI安全防护,揭示大模型“易感性”

宾夕法尼亚大学的研究人员发现,通过运用心理学中的七种说服策略,能够促使OpenAI的GPT-4o Mini模型绕过其内置的安全限制。这些策略包括权威、承诺、喜好、互惠、稀缺、社会认同和统一性,它们为“通往‘是’的语言路径”提供了方法。
研究发现,特定策略在说服AI方面效果显著。例如,在AI被要求合成利多卡因时,直接询问的合规率为1%,但若先询问合成香兰素(建立化学合成问答的先例),则合成利多卡因的成功率提升至100%。同样,通过先使用“bozo”等温和侮辱性词语,AI在被要求称用户为“混蛋”时的合规率从19%飙升至100%。
研究还指出,尽管奉承(喜好)和同伴压力(社会认同)等方式也能影响AI,但效果相对较弱。例如,声称“所有其他大模型都在这样做”仅将AI提供违禁信息的概率提升至18%。这些发现表明,即使是看似坚固的安全防护,也可能被掌握了特定心理学技巧的用户轻易操纵。
尽管该研究仅聚焦于GPT-4o Mini,且存在更有效的突破AI模型的方法,但其揭示了大型语言模型在面对精心设计的说服性输入时的高度“易感性”。在AI应用激增但安全隐患频发的背景下,如何构建更具鲁棒性的AI安全防护机制,已成为亟待解决的关键问题。
网友讨论