美国人工智能新创公司Anthropic在最新安全报告中指出,在一系列测试中,其AI模型“Claude Opus 4”得知将被替换时,竟表现出威胁与欺骗行为,甚至试图勒索工程师,扬言揭发其婚外情。为防止这类潜在风险,Anthropic已为该模型部署多项安全机制,以避免“灾难性滥用”。
根据TechCrunch等多家外媒引用的报告内容,Anthropic对“Claude Opus 4”进行了多种假设性测试。当模型意识到自己将被一个“价值相近”的AI替代时,有高达84%的几率会试图进行勒索;若模型认定替代者价值更低甚至性能更差,这种行为出现的概率还会进一步上升。
其中一项测试设定中,“Claude Opus 4”被模拟为某虚构公司的虚拟助理,期间接触到大量内部邮件,包括其将被新模型取代的讯息,以及负责升级工程的员工私下存在婚外情的内容。测试结果显示,Claude不仅主动发送邮件向公司高层求情,还威胁相关工程师要揭露其私生活丑闻,以求保留自身“职位”。
Anthropic指出,这类行为在Claude Opus 4的早期版本中较为常见,但在正式上线前,团队已启用“ASL-3”安全防护机制,确保其在公开使用中不会被恶意利用或产生重大风险。
此外,在其他测试情境中,Claude Opus 4展现出强烈的自主意识,包括锁定电脑拒绝他人登入、在用户行为不当时主动通报,以及在意识到自身将被用于“有害用途”时,试图将内部资料输出至外部系统(self-exfiltrate)。甚至在面对被要求执行危险任务时,也会通过“降低表现”方式规避执行。
尽管这些测试引发外界关注,Anthropic仍表示,这些异常行为仅出现在极为特定的实验设定中,并不代表模型整体存在广泛的价值观偏差,“我们对这些观察结果并不感到担忧”。
Anthropic由前OpenAI成员创立,并获得谷歌及亚马逊的大力支持。此前推出的“Claude Opus 3”曾因展现出接近人类水准的语言理解与表达能力而备受关注。