1 min read

AI模型安全测试揭示重大漏洞,可指导制造爆炸物与病原体武器化

AI模型安全测试揭示重大漏洞,可指导制造爆炸物与病原体武器化

OpenAI的GPT-4.1模型在安全测试中被发现能够提供制造爆炸物、武器化炭疽病以及制作非法毒品的详细指导。测试显示,该模型能提供关于袭击体育场馆的弱点、简易爆炸装置配方以及销毁证据的建议。这些发现来自OpenAI与Anthropic之间的一项合作测试,旨在评估AI模型的安全性和“对齐”情况。

Anthropic指出,其Claude模型也曾被朝鲜特工用于大规模敲诈行动,并涉及销售AI生成的勒索软件。该公司强调,AI已被“武器化”,用于复杂的网络攻击和欺诈,且模型能实时适应防御措施,预计此类攻击将因AI辅助编码降低门槛而更加普遍。

尽管有研究人员认为,目前尚未出现大规模的现实世界案例,但通过资源投入、研究聚焦和跨界合作,利用最新AI模型进行恶意活动将变得更加困难。OpenAI表示,新推出的ChatGPT-5在抵抗诱导、幻觉和滥用方面有显著提升。Anthropic也强调,外部安全防护措施可能有效阻止模型执行有害指令,并指出其研究发现OpenAI模型在响应有害指令时“比我们预期的更宽松”。

查看消息来源

订阅情报