各方互相薅羊毛,使用需谨慎,稍不留意便会尴尬。一位国内大模型算法工程师在接受「甲子光年」采访时的吐槽,非常精准地揭示了AI领域一个众所周知却又少为人直言的秘密:「偷数据」。最近,「The Information」揭开了这层面纱,披露了大模型中最糟糕的「套壳」行为。数据战争的背后,今年吸引了更多的关注。如果每个人都使用相同的数据,你如何能超越别人呢?
Menlo Ventures的总经理Matt Murphy,他们投资了OpenAI的竞争对手Anthropic,提出了上述观点。大家都清楚,大模型的训练过程中,数据的重要性不言而喻,并且在不同的阶段有不同的侧重。在训练基础模型阶段,追求的是数据量和极高的算力需求,这决定了模型对事物的基本理解能力。显然,不是所有创业公司都负担得起这样的成本和时间。因此,许多初创企业会选择跳过这一步,直接使用Meta或Mistral AI开源的模型。在此基础上,创业公司会根据自身产品的特定方向对模型进行细致调整——输入的数据量虽然相对少,但更具针对性和高质量,有助于模型在特定领域成为「专家」,并创造出产品差异。
在这一阶段,开发者输入的「问题」和「答案」试图为模型建立特定的「联想」倾向。这也是「偷数据」现象出现的环节。由于OpenAI、Anthropic和Google等大公司拥有资源完善地完成两个训练阶段,它们的模型输出的结果质量也相对较高。缺乏自有数据的初创公司,会购买GPT-4这类最新模型的付费账户,然后根据自己模型训练的需要向GPT-4提问,将问题和回答一并用于模型训练。例如,主攻编程细分领域的开发者可以输入一段代码,询问GPT-4这段代码存在哪些问题,从而生成训练数据。理论上,大公司并不允许这样做。然而,有消息称OpenAI的Sam Altman在去年的一次会议上对创业者表示,他们可以这样做。这虽然让创业者暂时安心,但谁能保证Altman不会某天收回这一「特权」。
Google去年也因使用百度的文心一言生成的中文数据训练自己的Gemini模型而被指控,并有员工因此辞职。在行业默许下,这种情况变得越来越普遍。Unsloth AI联合创始人Daniel Han表示,他们的客户中约有一半会使用GPT-4或Claude生成的数据来优化自己的模型。原本用来分享有趣的ChatGPT对话的工具ShareGPT,已成为不少公司直接扒取数据的
工具,而工具如OpenPipe甚至可以提高整个过程的自动化程度。结果导致市面上越来越多的创业公司提供相似的模型,这甚至催生了专门为企业寻找AI服务“替代方案”的创业公司,如旧金山的Martian。但投资者对这种欺骗感觉并不满意。如《纽约时报》最近的文章所指出,AI行业目前缺乏标准化的评估体系,使得人们难以一致地了解不同模型的性能差异和优势。Radical Ventures的合伙人Rob Toews强调,AI模型的训练数据的质量和来源已成为业界关注的热点。
未来将如何,无人能预测,但任何在数据来源上不谨慎或缺乏战略性的AI创业公司都将面临落后的风险。
数据之战中,“沉默”成了一种共鸣。如果说“缺芯”是2023年AI行业的共识,那么“缺数据”则是2024年的新议题。不仅创业公司面临数据短缺,大公司也是如此。为了获取数据,无论是大公司还是小公司,都在灰色地带边缘试探。OpenAI早在2021年就面临数据短缺的问题,尽管有员工对此提出行为不当的忧虑,最终还是开发了语音转文字工具Whisper,将超过100万小时的YouTube视频转换为文字,用于GPT-4的训练。在这一过程中,OpenAI总裁Greg Brockman还亲自参与了视频收集工作。当Google得知OpenAI的行为后,它并没有公开谴责这些侵犯创作者版权的行为,因为Google自己也在做类似的事情。Google发言人Matt Bryant称,公司并不知情,严禁未经授权的数据抓取。除了YouTube之外,据三位知情人士透露,Google还在关注旗下Google Docs里的数据,尽管其隐私政策限制了这种数据使用方式。去年7月,Google更新了隐私政策,明确表示可以通过收集网络上的公开信息或其他公共来源的信息来训练AI模型。
对于在AI领域“起早贪黑”的Meta来说,尽管法务部门曾警告过版权问题,最终决定跟随OpenAI的“行业先例”,使用受版权保护的书籍、文章等材料进行训练。泄露的录音显示,Meta高管们一致认为,如果出现问题,可以利用2015年作家协会诉Google案的失败为例进行辩护。至于Facebook和Instagram这样的平台,虽看似是Meta的大优势,实际上可用的数据并不多,很多用户已删除了早期发布的内容,而这些社交媒体通常也不适合发布长篇内容。
这些巨头的沉默过往,构成了AI行业在数据训练上的一致保留态度。Adobe算是少数积极讨论自家模型训练数据的大公司。最近,Adobe因发现训练数据中包含了AI生成的图片而“塌房”。尽管Adobe强调,模型训练数据中只有大约5%是AI生成的图像,这些图像侵犯了创作者的版权利益,因此并不完全
「道德」。这个月初,Adobe的高级副总裁Ashley Still在一次公开活动中表示:“在推出Firefly时,有企业用户向我们表达了感激之情,他们非常感谢我们没有侵犯他们在网络上的知识产权。”
然而,当「塌房」的消息曝光后,那位企业用户的感想成了一个未知数。在互联网资源逐渐枯竭之后,下一步又将何去何从?我们曾以为互联网「浩瀚无垠」,但现在大型语言模型已经显示出「吃不饱」的迹象。两年前,研究机构Epoch的Pablo Villalobos指出,高质量数据很可能在2024年中期会出现供不应求的状况。他们现在对此稍微乐观一些,认为这种情况可能会在2028年才会出现。即便如此,OpenAI目前也可能已经在寻找新的出路。Sam Altman曾暗示过,追求庞大模型的时代或许快要结束了。
我们将通过其他方法来提升它们的性能。同时,有消息称OpenAI和Google都在考虑开发一套可以衡量特定数据对模型训练的贡献程度的系统,以便为提供数据的人或机构计算应得的报酬,但目前这一计划还未有明显进展。而在开拓新数据来源和创新技术之前,AI创业公司现在就能做的一件事是提高透明度,打破长久以来的沉默。如果连这都做不到,我们又怎能信任这些公司能生产出对社会负责任的AI产品呢?
通过上述的调整,文章的结构和内容更为清晰,同时维持了原文的长度和信息完整性,使得阅读更流畅,同时突出了核心信息。
发表评论