人工智能系统越来越擅长欺骗我们

人工智能系统越来越擅长欺骗我们

但我们认为的欺骗是人工智能不假思索地实现了我们为其设定的目标。

一波人工智能系统以未经明确训练的方式“欺骗”人类,为人类行为提供不真实的解释,或向人类用户隐瞒真相并误导他们以实现战略目的。 

根据今天发表在《模式》 杂志上的一篇总结先前研究的评论论文,这个问题突显了人工智能的控制有多困难,以及这些系统的工作方式是不可预测的。

谈论欺骗人类可能表明这些模型有意图。他们不知道。但人工智能模型会不假思索地找到解决障碍的方法,以实现赋予它们的目标。有时这些变通办法会违背用户的期望并让人感觉具有欺骗性。

人工智能系统学会欺骗的一个领域是在它们经过训练以获胜的游戏环境中——特别是当这些游戏涉及必须采取战略行动时。

2022 年 11 月,Meta 宣布创建了Cicero,这是一种能够在《外交》在线版本中击败人类的人工智能,《外交》是一款流行的军事战略游戏,玩家可以在其中谈判联盟,争夺欧洲的控制权。

Meta 的研究人员表示,他们已经根据其数据集的“真实”子集对西塞罗进行了培训,使其在很大程度上诚实且乐于助人,并且它“绝不会为了成功而故意背刺”其盟友。但这篇新论文的作者声称事实恰恰相反:西塞罗违反了协议,完全撒谎,并进行了有预谋的欺骗。作者表示,尽管该公司确实试图训练西塞罗诚实行事,但它未能实现这一目标,这表明人工智能系统仍然可以意外地学会欺骗。 

Meta既没有证实也没有否认研究人员关于西塞罗表现出欺骗行为的说法,但一位发言人表示,这纯粹是一个研究项目,该模型只是为了玩外交而建立的。他们说:“我们以非商业许可的方式发布了该项目的成果,这符合我们对开放科学的长期承诺。” “Meta 定期分享我们的研究结果以对其进行验证,并使其他人能够负责任地利用我们的进步。我们没有计划在我们的产品中使用这项研究或其知识。” 

但这并不是唯一一个人工智能“欺骗”人类玩家获胜的游戏。 

AlphaStar是 DeepMind 为玩电子游戏《星际争霸 II》而开发的人工智能,它非常擅长采取旨在欺骗对手的动作(称为佯攻),以至于击败了 99.8% 的人类玩家。在其他地方,另一个名为Pluribus的元系统非常成功地学会了在扑克游戏中虚张声势,以至于研究人员决定不发布其代码,因为担心它可能会破坏在线扑克社区。 

除了游戏之外,研究人员还列出了人工智能欺骗行为的其他例子。 OpenAI 最新的大型语言模型 GPT-4 在一次测试中提出了谎言,在测试中,它被提示说服人类为其解决验证码。该系统还在一次模拟演习中涉足内幕交易,在模拟演习中,它被告知要冒充受压股票交易员的身份,尽管从未被明确指示这样做。

事实上,人工智能模型有可能在没有任何指示的情况下以欺骗性的方式行事,这一事实似乎令人担忧。但这主要源于最先进的机器学习模型的“黑匣子”问题:不可能确切地说出它们如何或为何产生这样的结果,或者它们是否总是会表现出这种行为参与该项目的麻省理工学院研究人工智能存在安全的博士后彼得·S·帕克(Peter S. Park)表示,展望未来。 

“仅仅因为你的人工智能在测试环境中具有某些行为或倾向,并不意味着如果它被释放到野外,同样的教训也会成立,”他说。 “没有简单的方法可以解决这个问题——如果你想了解人工智能在部署到野外后会做什么,那么你只需将它部署到野外即可。”

我们将人工智能模型拟人化的倾向影响了我们测试这些系统的方式以及我们对其功能的看法。毕竟,通过旨在衡量人类创造力的测试并不意味着人工智能模型实际上具有创造力。剑桥大学人工智能研究员哈利·劳 (Harry Law) 表示,监管机构和人工智能公司必须仔细权衡该技术造成危害的可能性与其对社会的潜在利益,并明确区分模型能做什么和不能做什么。他没有参与这项研究。“这些都是非常棘手的问题,”他说。

他说,从根本上来说,目前不可能训练出一个在所有可能的情况下都无法欺骗的人工智能模型。此外,潜在的欺骗行为是众多问题之一——此外还有放大偏见和错误信息的倾向——在人工智能模型被信任执行现实世界任务之前需要解决这些问题。 

“这是一项很好的研究,表明欺骗是可能的,”劳说。 “下一步将尝试进一步弄清楚风险状况是什么,以及欺骗行为可能造成的危害有多大可能发生,以及以何种方式发生。”