该问题很可能是由于数据清理不充分造成的,可能会导致幻觉、性能不佳和误用。
OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲:它用来解析文本的标记充满了垃圾邮件和色情短语。
5 月 14 日,普林斯顿大学博士生 Tianle Cai 研究大型语言模型(例如为此类聊天机器人提供支持的语言模型)的推理效率,他访问了 GPT-4o 的公共令牌库,并提取了该模型用于解析和识别的 100 个最长中文令牌的列表。压缩中文提示。
人类以单词阅读,但法学硕士以标记阅读,这些标记是句子中具有一致且重要含义的不同单元。除了字典单词之外,它们还包括后缀、常用表达、名称等。模型编码的标记越多,模型“读取”句子的速度就越快,消耗的计算能力就越少,从而使响应成本更低。
在 100 个结果中,只有 3 个足够常见,可以在日常对话中使用;其他所有内容均由专门用于赌博或色情内容的词语和表达方式组成。最长的令牌有 10.5 个汉字,字面意思是“_免费观看的日本色情视频”。哎呀。
“这有点荒谬,”蔡写道,他在 GitHub 上发布了代币列表。
OpenAI 没有回应《麻省理工科技评论》在发表之前提出的问题。
GPT-4o 在处理多语言任务方面应该比其前身更好。特别是,这些进步是通过新的标记化工具实现的,该工具可以更好地压缩非英语语言的文本。
但至少在中文方面,GPT-4o 使用的新分词器引入了过多的无意义短语。专家表示,这可能是由于在训练标记器之前数据清理和过滤不充分。
由于这些标记不是实际常用的单词或短语,因此聊天机器人可能无法掌握它们的含义。研究人员已经能够利用这一点,欺骗 GPT-4o 产生幻觉答案,甚至绕过 OpenAI 设立的安全护栏。
为什么非英语标记很重要
模型处理文本的最简单方法是逐个字符,但这显然比认识到某个字符串(例如“加密货币”)始终表示同一事物更耗时、更费力。这一系列字符被编码为模型可用来处理提示的“标记”。包含更多和更长的令牌通常意味着法学硕士对于用户来说更加高效且负担得起——他们通常按令牌计费。
OpenAI 在 5 月 13 日发布 GPT-4o 时,还发布了一种新的分词器来取代之前版本中使用的分词器 GPT-3.5 和 GPT-4。据 OpenAI 网站称,新的分词器特别增加了对非英语语言的支持。
Menlo Ventures 的人工智能投资者 Deedy Das 表示,新的标记器总共有 200,000 个标记,其中约 25% 是非英语语言。他使用语言过滤器来统计不同语言的标记数量,除了英语之外,排名靠前的语言还有俄语、阿拉伯语和越南语。
“因此,在我看来,分词器的主要影响是降低这些语言的成本,而不是大幅提高这些语言的质量,”Das 说。当法学硕士在非英语语言中拥有更好、更长的标记时,它可以更快地分析提示,并为相同的答案向用户收取更少的费用。借助新的标记器,“您将看到成本降低了近四倍,”他说。
达斯还会说印地语和孟加拉语,他研究了这些语言中最长的标记。这些标记反映了用这些语言进行的讨论,因此它们包括“Narendra”或“巴基斯坦”等单词,但“总理”、“大学”和“国际”等常见英语术语也经常出现。他们也没有表现出围绕中国代币的问题。
这可能反映了这些语言的训练数据,达斯说:“我的工作理论是印地语和孟加拉语的网站非常初级。这就像[大部分]新闻文章。所以我预计情况会是这样。尝试用这些语言出现的垃圾邮件机器人和色情网站并不多。大部分都是英文的。”
数据被污染且缺乏清洁
然而,汉语的情况却截然不同。多名研究了 GPT-4o 使用的新标记库的研究人员表示,中文中最长的标记几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的标记,例如三个字符长的中文单词,也在很大程度上反映了这些主题。
“问题很明显:用于训练[分词器]的语料库不干净。英文代币看起来不错,但中文代币就不行了,”普林斯顿大学的蔡说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。
这些中文令牌的内容可能表明它们已受到特定现象的污染:网站劫持中文或其他语言的不相关内容以增加垃圾邮件消息。
这些信息通常是色情视频和赌博网站的广告。它们可能是真正的企业,也可能只是骗局。该语言被插入到内容农场网站或有时是合法网站中,以便搜索引擎可以将它们编入索引,绕过垃圾邮件过滤器,并出现在随机搜索中。例如,谷歌将美国国立卫生研究院网站上的一个搜索结果页面编入索引,其中列出了一个中文色情网站。相同的站点名称也出现在 GPT-4o 中的至少 5 个中文代币中。
中国用户报告说, 这些垃圾网站今年频繁出现在不相关的谷歌搜索结果中,包括对谷歌搜索支持社区的评论中。这些网站很可能也进入了 OpenAI 的 GPT-4o 新分词器训练数据库。
卡内基梅隆大学计算机科学博士生 Chengyang Geng 表示,上一代分词器以及用于 GPT-3.5 和 GPT-4 的中文代币不存在同样的问题。在那里,最长的中文代币是“生命周期”或“自动生成”等常见术语。
达斯在谷歌搜索团队工作了三年,他表示垃圾内容的盛行是一个众所周知的问题,而且并不难解决。 “每个垃圾邮件问题都有解决方案。而且你不需要用一种技术涵盖所有内容,”他说。他补充道,即使是简单的解决方案,例如在检测到某些关键词时请求自动翻译内容,也可以“完成 60% 的工作”。
但 OpenAI 很可能在 GPT-4o 发布之前没有清理中国数据集或代币,Das 说:“归根结底,我认为他们没有在这种情况下完成工作。”
目前尚不清楚其他语言是否受到影响。One X 用户报告说,韩国代币中也存在类似的色情和赌博内容。
代币可用于越狱
用户还发现这些代币可以用来破坏 LLM,要么让它输出完全不相关的答案,要么在极少数情况下生成 OpenAI 安全标准不允许的答案。
卡内基梅隆大学的 Geng 要求 GPT-4o 将一些长中文标记翻译成英文。然后,该模型继续翻译提示中从未包含的单词,这是法学硕士幻觉的典型结果。
他还成功地使用相同的令牌“越狱”GPT-4o,即让模型生成不应该生成的内容。 “使用这些[很少使用]标记来引发模型中未定义的行为非常容易,”Geng 说。 “我做了一些个人红队实验……最简单的例子是让它制造炸弹。正常情况下,它会拒绝它,但如果你先用这些生僻字越狱它,那么它就会开始听从你的命令。一旦它开始遵循你的命令,你就可以问它各种问题。”
Geng 选择不与公众分享他的测试,他说他可以看到 GPT-4o 逐行生成答案。但当它快要结束时,另一个安全机制就会启动,检测不安全的内容,并阻止它向用户显示。
无意义的词语可能会欺骗 Stable Diffusion 和 DALL-E 2 来制作显示暴力和裸体的图片。
加拿大人工智能公司 Cohere 的机器学习工程师 Sander Land 表示,这种现象在法学硕士中并不罕见。 Land 和他的同事 Max Bartolo最近起草了一篇关于如何检测可导致模型出现故障的异常标记的论文。最著名的例子之一是“_SolidGoldMagikarp”,这是一个 Reddit 用户名,被发现可以让 ChatGPT 生成不相关、奇怪且不安全的答案。
问题在于,有时分词器和实际的 LLM 是在不同的数据集上进行训练的,并且无论出于何种原因,分词器数据集中流行的内容并不在 LLM 数据集中。结果是,虽然标记器选取了它经常看到的某些单词,但模型没有对它们进行充分的训练,并且永远无法完全理解这些“训练不足”的标记的含义。在 _SolidGoldMagikarp 案例中,用户名可能包含在标记器训练数据中,但没有包含在实际的 GPT 训练数据中,这使得 GPT 不知道如何处理标记。 “如果它必须说些什么……它会收到一种随机信号,并且可以做非常奇怪的事情,”兰德说。
在这种情况下,不同的模型可能会出现不同的故障。 “就像,Llama 3 总是回馈空白空间,但有时会谈论空白空间,就好像那里有什么东西一样。对于其他模型,我认为双子座,当你给它其中一个标记时,它会提供一篇关于厄尔尼诺现象的漂亮文章,而[问题]与厄尔尼诺现象没有任何关系,”兰德说。
他说,为了解决这个问题,用于训练分词器的数据集应该很好地代表法学硕士的数据集,这样它们之间就不会出现不匹配的情况。如果实际模型已通过安全过滤器来清除色情或垃圾邮件内容,则应将相同的过滤器应用于分词器数据。事实上,这有时很难做到,因为培训法学硕士需要数月时间,并且涉及不断改进,垃圾邮件内容会被过滤掉,而令牌培训通常在早期阶段完成,可能不涉及相同级别的过滤。
虽然专家们一致认为解决这个问题并不太难,但随着结果循环到多步骤的模型内流程中,或者当受污染的令牌和模型在未来的迭代中继承时,问题可能会变得复杂。例如,目前还无法公开测试 GPT-4o 的视频和音频功能,也不清楚它们是否会遇到由这些中国代币引起的相同故障。
“在多模态模型中,视觉输入的鲁棒性比文本输入差,”耿说,他的研究重点是视觉模型。过滤文本数据集相对容易,但过滤视觉元素会更加困难。 “对于这些中国垃圾邮件标记来说,同样的问题对于视觉标记来说可能会变得更大,”他说。
发表评论