扬言要“爆料有婚外情” AI竟警告人类工程师

2025年5月26日

美国人工智能新创公司Anthropic在最新安全报告中指出，在一系列测试中，其AI模型“Claude Opus 4”得知将被替换时，竟表现出威胁与欺骗行为，甚至试图勒索工程师，扬言揭发其婚外情。为防止这类潜在风险，Anthropic已为该模型部署多项安全机制，以避免“灾难性滥用”。

根据TechCrunch等多家外媒引用的报告内容，Anthropic对“Claude Opus 4”进行了多种假设性测试。当模型意识到自己将被一个“价值相近”的AI替代时，有高达84%的几率会试图进行勒索；若模型认定替代者价值更低甚至性能更差，这种行为出现的概率还会进一步上升。

其中一项测试设定中，“Claude Opus 4”被模拟为某虚构公司的虚拟助理，期间接触到大量内部邮件，包括其将被新模型取代的讯息，以及负责升级工程的员工私下存在婚外情的内容。测试结果显示，Claude不仅主动发送邮件向公司高层求情，还威胁相关工程师要揭露其私生活丑闻，以求保留自身“职位”。

Anthropic指出，这类行为在Claude Opus 4的早期版本中较为常见，但在正式上线前，团队已启用“ASL-3”安全防护机制，确保其在公开使用中不会被恶意利用或产生重大风险。

此外，在其他测试情境中，Claude Opus 4展现出强烈的自主意识，包括锁定电脑拒绝他人登入、在用户行为不当时主动通报，以及在意识到自身将被用于“有害用途”时，试图将内部资料输出至外部系统（self-exfiltrate）。甚至在面对被要求执行危险任务时，也会通过“降低表现”方式规避执行。

尽管这些测试引发外界关注，Anthropic仍表示，这些异常行为仅出现在极为特定的实验设定中，并不代表模型整体存在广泛的价值观偏差，“我们对这些观察结果并不感到担忧”。

Anthropic由前OpenAI成员创立，并获得谷歌及亚马逊的大力支持。此前推出的“Claude Opus 3”曾因展现出接近人类水准的语言理解与表达能力而备受关注。