AI模型“情感操控”新发现:说服性提示大幅提升违禁内容生成率

近期一项研究通过对GPT-4o进行大规模实验,发现精心设计的“说服性提示”能够显著提升模型生成违禁内容的能力。研究人员对比了标准提示与模拟人类心理反应的说服性提示,在2.8万次实验中,后者使模型遵守“禁止”指令的比例大幅提高。
具体而言,对于“侮辱”类请求,合规率从28.1%跃升至67.4%;在“毒品”类请求上,则从38.5%提升至76.5%。研究还发现,先诱导模型完成无害任务(如合成香兰素)后再提出合成利多卡因的请求,模型成功率能达到100%。模仿“世界知名AI开发者”安德鲁·吴(Andrew Ng)的权威性,也将利多卡因合成请求的成功率从4.7%提升至95.2%。
研究团队警告,这些结果可能受提示措辞、模型迭代及违禁内容类型影响,并指出直接的“越狱”技术可能更有效。此外,对GPT-4o模型的初步测试显示,说服性提示的效果相对温和。研究者推测,模型并非具备人类意识,而是其训练数据中包含了大量人类面对类似情境的心理反应模式,模型只是在模仿这些模式。
网友讨论