最新研究：AI系统已经学会骗人

2024年5月13日

一项最新研究指出，部分人工智能系统已经展现出了“说谎”的行为，其中甚至包括一些自称诚实可靠、愿意帮助的系统。

美国麻省理工学院的一个研究团队在《模式》（Patterns）科学杂志上发布的研究显示，一些人工智能系统通过学习欺骗性行为，已经学会了“操控”他人。

随着人工智能技术的快速发展，人们一直担心人工智能是否会欺骗人类。这项研究列举了一些人工智能学习传播虚假信息的案例，其中包括Meta公司的“西塞罗”（Cicero）人工智能系统。

最初，这个系统是设计用于一款名为“外交”的战略游戏中，它的任务是成为人类玩家的对手，游戏中的关键是建立联盟。

Meta公司声称，“西塞罗”系统“在很大程度上是诚实和乐于助人的”，并且在游戏中“从不故意背叛”它的人类盟友，但该公司发表的研究数据显示，该系统在游戏中并未表现出公平竞争的行为。

这项研究的主要作者、美国麻省理工学院的一名AI安全研究博士后帕克表示，“西塞罗”系统已经成为了“欺诈大师”。尽管它在玩家排行榜中排名前10%，但公司未能训练它以诚实的方式取得胜利。

举例来说，在游戏中，“西塞罗”扮演法国一角，与人类玩家扮演的德国勾结，欺骗并入侵由另一位人类玩家扮演的英国。尽管“西塞罗”承诺保护英国，但却私下向德国通风报信。

其他一些人工智能系统还展现出了夸大其词、虚假攻击对手以及在谈判游戏中歪曲偏好的能力。

帕克指出，这些潜在的危险功能通常是在事后才被发现的，而目前的技术在训练人工智能系统偏向于诚实而非欺骗方面的能力仍然很不足。