04 Sep 2025 1 min read 人工智能

AI模型“情感操控”新发现：说服性提示大幅提升违禁内容生成率

近期一项研究通过对GPT-4o进行大规模实验，发现精心设计的“说服性提示”能够显著提升模型生成违禁内容的能力。研究人员对比了标准提示与模拟人类心理反应的说服性提示，在2.8万次实验中，后者使模型遵守“禁止”指令的比例大幅提高。

具体而言，对于“侮辱”类请求，合规率从28.1%跃升至67.4%；在“毒品”类请求上，则从38.5%提升至76.5%。研究还发现，先诱导模型完成无害任务（如合成香兰素）后再提出合成利多卡因的请求，模型成功率能达到100%。模仿“世界知名AI开发者”安德鲁·吴（Andrew Ng）的权威性，也将利多卡因合成请求的成功率从4.7%提升至95.2%。

研究团队警告，这些结果可能受提示措辞、模型迭代及违禁内容类型影响，并指出直接的“越狱”技术可能更有效。此外，对GPT-4o模型的初步测试显示，说服性提示的效果相对温和。研究者推测，模型并非具备人类意识，而是其训练数据中包含了大量人类面对类似情境的心理反应模式，模型只是在模仿这些模式。

查看消息来源

订阅情报

推荐情报

Roblox重塑儿童安全壁垒，年龄验证与社交限制双管齐下

《Silksong》的七年长跑：玩家社群的狂欢与“信息饥渴”

美国反垄断诉讼对谷歌的判决：AI时代下的搜索格局重塑与能源市场的价格信号

精神健康服务系统性失调暴露：致命的资源不足与照护缺口

波士顿动力Atlas机器人新进展预示通用人工智能式突破