大型语言模型并不像人类那样拥有心智理论——但它们在旨在测量人类心智理论的任务中表现得越来越好。
人类是复杂的生物。我们的交流方式是多层次的,心理学家设计了多种测试来衡量我们从彼此互动中推断意义和理解的能力。
人工智能模型在这些测试中变得越来越好。今天发表在《自然人类行为》杂志上的新研究发现,一些大型语言模型(LLM)在执行旨在测试跟踪人们心理状态的能力的任务时,其表现与人类一样好,在某些情况下甚至比人类更好,这被称为“理论”头脑。”
这并不意味着人工智能系统实际上能够了解我们的感受。但它确实表明,这些模型在旨在评估心理学家认为人类独有的能力的实验中表现得越来越好。为了更多地了解法学硕士在这些任务中成功和失败背后的过程,研究人员希望应用他们用来测试人类心理理论的相同系统方法。
从理论上讲,人工智能模型模仿人类的能力越好,它们在与我们的互动中就越有用、越有同理心。 OpenAI 和谷歌上周都宣布推出增强型人工智能助手; GPT-4o和Astra旨在提供比其前身更流畅、更自然的响应。但我们必须避免陷入相信他们的能力与人类相似的陷阱,即使它们看起来是这样。
参与这项研究的汉堡-埃彭多夫大学医学中心神经科学教授克里斯蒂娜·贝奇奥 (Cristina Becchio) 表示:“我们有一种自然的倾向,将精神状态、心智和意向性归因于没有心智的实体。” “将心理理论归因于大型语言模型的风险是存在的。”
随着人们对这项技术的希望和担忧日益加剧,现在是时候就它能做什么和不能做什么达成一致了。
心智理论是情感和社交智力的标志,它使我们能够推断他人的意图,并与他人互动和产生同理心。大多数儿童在 3 至 5 岁之间掌握此类技能。
研究人员测试了两个大型语言模型系列:OpenAI 的 GPT-3.5 和GPT-4以及 Meta 的Llama的三个版本,测试的任务旨在测试人类心理理论,包括识别错误信念、识别失礼行为以及理解什么是错误的行为。是隐含的而不是直接说出来的。他们还测试了 1,907 名人类参与者,以比较各组分数。
研究团队进行了五种类型的测试。第一种是暗示任务,旨在衡量一个人通过间接评论推断他人真实意图的能力。第二种是错误信念任务,评估一个人是否能够推断出其他人可能会合理地相信他们碰巧知道的事情并非如此。另一项测试衡量识别某人何时犯错的能力,而第四项测试包括讲述奇怪的故事,其中主角做了一些不寻常的事情,以评估一个人是否能解释所说和所想之间的对比。他们还包括一项测试,看看人们是否能理解讽刺。
AI 模型在单独的聊天中对每个测试进行 15 次,以便它们能够独立处理每个请求,并以与人类相同的方式对它们的响应进行评分。研究人员随后对人类志愿者进行了测试,并对两组分数进行了比较。
在涉及间接请求、误导和错误信念的任务中,两个版本的 GPT 的表现均达到或有时高于人类平均水平,而 GPT-4 在讽刺、暗示和奇怪故事测试中的表现优于人类。 Llama 2 的三个模型的表现低于人类平均水平。
然而,Llama 2(测试的三个元模型中最大的一个)在识别失礼场景方面表现优于人类,而 GPT 始终提供错误的响应。作者认为,这是由于 GPT 普遍不愿就观点得出结论,因为模型很大程度上回答说没有足够的信息让他们以某种方式回答。
“当然,这些模型并没有展示人类的心理理论,”他说。 “但我们确实表明,这里有能力对人物或人们的思想进行心智推论和推理。”
卡内基梅隆大学助理教授 Maarten Sap(未参与这项研究)表示,法学硕士之所以表现如此出色,原因之一是这些心理测试已经非常完善,因此很可能被纳入他们的训练数据中。“必须承认,当你对孩子进行错误信念测试时,他们可能从未见过这种测试,但语言模型可能见过,”他说。
归根结底,我们仍然不了解 LLM 的工作原理。哈佛大学认知科学家 Tomer Ullman(未参与该项目)表示,这类研究有助于深化我们对这类模型能做什么和不能做什么的理解。但在设置此类 LLM 测试时,重要的是要牢记我们真正衡量的是什么。如果 AI 在旨在衡量心智理论的测试中胜过人类,这并不意味着 AI 具有心智理论。Ullman表示:
“我并不是反对基准测试,但我和一些人担心,我们使用基准测试的方式已经走到了尽头。不管这个东西是如何学会通过基准测试的,我认为它的方式并不像人类。”
发表评论