由于中国互联网的运作方式,寻找高质量的数据集很困难。
这个故事首次出现在《麻省理工学院技术评论》有关中国技术的时事通讯《中国报告》中。 注册后 每周二都会在您的收件箱中收到它。
上周发布的 GPT-4o 是一种新的人工智能“全能模型”,可以使用语音、文本或视频进行交互,这对 OpenAI 来说应该是一个重要时刻。但仅仅几天后,公司就感觉遇到了大麻烦。从安全团队大部分成员辞职,到斯嘉丽·约翰逊指责该公司在未经模特同意的情况下复制了她的声音,该公司现在处于损害控制模式。
此外,OpenAI 在 GPT-4o 上还犯了另一个错误:它用来训练分词器(一种帮助模型更有效地解析和处理文本的工具)的数据受到了中国垃圾网站的污染。结果,该模型的中文分词库中充斥着与色情和赌博相关的短语。这可能会加剧人工智能模型常见的一些问题:幻觉、性能不佳和误用。
在几位研究人员和人工智能行业内部人士指出这个问题后,我于周五写了这篇文章。他们查看了 GPT-4o 的公共令牌库,该库已使用新模型进行了重大更新,以提高对非英语语言的支持,发现模型中 100 个最长的中文令牌中有 90 多个来自垃圾邮件网站。这些短语包括“_免费观看日本色情视频”、“北京赛车投注”和“中国福利彩票天天中奖”。
任何读过中文的人都可以立即发现这个令牌列表的问题。由于网上成人内容的流行,一些此类短语不可避免地会被纳入训练数据集中,但它们是否能占到用于训练模型的中文语言的 90%?这很令人担忧。
“作为一名中国人,看到这样的事情真是令人尴尬。难道中文数据的质量就是这样吗?是因为数据清洗不充分,还是语言本身就是这样?”卡内基梅隆大学计算机科学博士生耿正阳说。
从 OpenAI 为 GPT-4o 选择的 token 中得出关于某种语言或文化的结论可能很诱人。毕竟,这些 token 是从各自语言中常见且重要的短语中选择出来的。香港的一位名叫 Henry Luo 的研究人员发表了一篇有趣的博客文章,他查询了各种不同语言中最长的 GPT-4o token,发现它们似乎有不同的主题。虽然俄语中的 token 反映了有关政府和公共机构的语言,但日语中的 token 有很多不同的方式来表达“谢谢”。
相关故事
我们将详细分析您错过的内容以及人工智能行业的下一步发展。
但我认为这并没有反映文化或国家之间的差异,而是更多地解释了哪些类型的训练数据可以在线轻松获得,以及 OpenAI 爬行以输入 GPT-4o 的网站。
在我发表这篇文章后,加州大学圣地亚哥分校政治学教授史宗瀚在X网站上评论道:“当你试图不去关注中国国家媒体的内容时,你就会得到这样的结果。”
这是关于训练大型语言模型讲中文的两个最大问题的半个笑话,半个严肃的观点:网上现成的数据要么反映了“官方”认可的谈论中国的方式,要么反映了无处不在的垃圾邮件内容。真实的对话。
事实上,在 GPT-4o 中为数不多的既不是色情内容也不是赌博内容的长中文标记中,有两个是“中国特色社会主义”和“中华人民共和国”。这些短语的存在表明,训练数据的很大一部分实际上来自中国国家媒体的文章,其中正式的长表达非常常见。
OpenAI 一直以来都对其用于训练模型的数据守口如瓶,而且它可能永远不会告诉我们其中文训练数据库中有多少是国家媒体,有多少是垃圾信息。(OpenAI 没有回应《麻省理工技术评论》周五提出的详细问题。)
但这并不是唯一一家面临这个问题的公司。中国境内从事人工智能行业的人士一致认为,缺乏用于培训法学硕士的高质量中文文本数据集。原因之一是中国互联网曾经并且在很大程度上仍然被腾讯和字节跳动等大公司瓜分。他们拥有大部分社交平台,并且不会与竞争对手或第三方共享数据来培训法学硕士。
事实上,这也是为什么包括谷歌在内的搜索引擎在中文搜索方面有点糟糕的原因。由于微信内容只能在微信上搜索,而抖音上的内容也只能在抖音上搜索,因此第三方搜索引擎无法访问这些数据,更不用说法学硕士了。但这些是真正的人类对话发生的平台,而不是一些不断试图吸引您进入在线赌博的垃圾邮件网站。
缺乏高质量的训练数据是一个比未能过滤掉 GPT-4o 令牌训练数据中的色情内容和一般废话更大的问题。如果没有现有的数据集,人工智能公司就必须投入大量工作来识别、获取和管理自己的数据集,并过滤掉不适当或有偏见的内容。
OpenAI 似乎并没有这么做,公平地说,考虑到中国人无论如何都无法使用其人工智能模型,这也是有道理的。
尽管如此,仍有许多居住在中国境外的人希望使用中文的人工智能服务。他们应该得到像任何其他语言的使用者一样正常工作的产品。
发表评论