科技行业对于开源人工智能的含义无法达成一致。这是一个问题。

科技行业对于开源人工智能的含义无法达成一致。这是一个问题。

一时间,“开源”成为人工智能圈子的最新流行词。 Meta 承诺创建开源通用人工智能。埃隆·马斯克 (Elon Musk) 正在起诉 OpenAI 缺乏开源人工智能模型。

与此同时,越来越多的技术领导者和公司正在将自己定位为开源冠军。 

但有一个根本问题——没有人能够就“开源人工智能”的含义达成一致。 

从表面上看,开源人工智能预示着一个任何人都可以参与该技术开发的未来。这可以加速创新,提高透明度,并让用户更好地控制可能很快重塑我们生活的许多方面的系统。但到底是什么?是什么让人工智能模型开源,又是什么让它失去资格?

这些答案可能会对这项技术的未来产生重大影响。在科技行业确定一个定义之前,强大的公司可以轻松地改变这个概念以满足自己的需求,并且它可能成为巩固当今领先企业主导地位的工具。

加入这场争论的是开源倡议组织 (OSI),它自封为开源的仲裁者。该非营利组织成立于 1998 年,是开源定义的保管者,这是一套被广泛接受的规则,用于确定某个软件是否可以被视为开源。 

现在,该组织已经召集了一个由 70 名研究人员、律师、政策制定者、活动人士以及来自 Meta、谷歌和亚马逊等大型科技公司的代表组成的团队,以提出开源人工智能的工作定义。 

然而,开源社区是一个大帐篷,涵盖了从黑客活动分子到财富 500 强公司的所有事物。 OSI 执行董事 Stefano Maffulli 表示,虽然人们在总体原则上达成了广泛共识,但越来越明显的是,问题在于细节。由于需要考虑如此多的相互竞争的利益,找到一个既能满足所有人的需求,又能确保最大的公司能够合作的解决方案并不是一件容易的事。

模糊标准

缺乏明确的定义并没有阻止科技公司采用这个术语。

去年 7 月,Meta 推出了 Llama 2 模型,将其称为开源模型,可免费使用,并且拥有公开发布人工智能技术的记录。 Meta 负责人工智能、开源和许可事务的副总法律顾问 Jonathan Torres 表示:“我们支持 OSI 定义开源 AI 的努力,并期待继续参与他们的流程,以造福全世界的开源社区。”告诉我们。 

这与竞争对手 OpenAI 形成鲜明对比,后者多年来以安全问题为由,分享的有关其领先模型的细节逐渐减少。一位发言人表示:“只有在仔细权衡了收益和风险(包括滥用和加速)后,我们才会开源强大的人工智能模型。” 

Stability AI 和 Aleph Alpha 等其他领先的人工智能公司也发布了开源模型,Hugging Face 拥有大量免费的人工智能模型库。

虽然谷歌对其最强大的模型(如 Gemini 和 PaLM 2)采取了更加锁定的方法,但上个月发布的 Gemma 模型可以免费访问,并且旨在与 Llama 2 正面交锋,尽管该公司将它们描述为“开放”而不是“开源”。  

但对于这些模型是否真的可以被描述为开源,存在相当大的分歧。首先,Llama 2 和 Gemma 都附带了限制用户可以使用模型执行的操作的许可证。这是对开源原则的诅咒:开源定义的关键条款之一禁止基于用例施加任何限制。

即使对于不具备这些条件的模型,标准也是模糊的。开源的概念旨在确保开发人员可以不受限制地使用、研究、修改和共享软件。但马富利表示,人工智能的工作方式截然不同,而且关键概念并不能完美地从软件转化为人工智能。

最大的障碍之一是当今人工智能模型中的成分数量庞大。 Maffulli 说,修改一个软件所需的只是底层源代码。但根据您的目标,涉足人工智能模型可能需要访问经过训练的模型、其训练数据、用于预处理此数据的代码、管理训练过程的代码、模型的底层架构或许多其他内容,更微妙的细节。

有意义地研究和修改模型需要哪些成分仍然有待解释。 “我们已经确定了我们希望能够行使哪些基本自由或基本权利,”马富利说。 “如何行使这些权利的机制尚不清楚。”

Maffulli 表示,如果人工智能社区想要获得与软件开发人员从开源中获得的同样的好处,那么解决这场争论至关重要。开源是建立在对该术语含义的广泛共识的基础上的。 “拥有一个被大部分行业尊重和采用的[定义]可以提供清晰度,”他说。 “随着清晰度的提高,合规成本会降低,摩擦会减少,共识也会减少。”

到目前为止,最大的症结是数据。所有主要的人工智能公司都只是发布了预训练的模型,而没有训练它们的数据集。马富利说,对于那些推动对开源人工智能进行更严格定义的人来说,这严重限制了修改和研究模型的努力,自动取消了它们作为开源的资格。

马富利说,其他人认为,数据的简单描述通常足以探索模型,并且您不一定需要从头开始重新训练来进行修改。预训练模型通常通过称为微调的过程进行调整,其中它们在较小的、通常特定于应用程序的数据集上进行部分重新训练。

开源人工智能公司 Ainekko 的首席执行官兼 Apache 软件基金会法律事务副总裁、参与 OSI 流程的Roman Shaposhnik表示,Meta 的 Llama 2 就是一个很好的例子。虽然 Meta 仅发布了预训练模型,但蓬勃发展的开发者社区一直在下载和改编它,并分享他们的修改。

“人们在各种项目中使用它。它周围有一个完整的生态系统,”他说。 “因此,我们必须给它起个名字。是半开的吗?是半开着的吗?”

非营利组织 Open Future 的研究主管 Zuzanna Warso 表示,虽然在技术上可以在没有原始训练数据的情况下修改模型,但限制对关键成分的访问并不真正符合开源精神。 OSI 的讨论。在不知道模型训练的信息是什么的情况下是否可以真正行使研究模型的自由也存在争议。

“这是整个过程的关键组成部分,”她说。 “如果我们关心开放性,我们也应该关心数据的开放性。”

鱼与熊掌兼得

重要的是要理解为什么自称为开源冠军的​​公司不愿意交出培训数据。 Warso 表示,获取高质量训练数据是人工智能研究的主要瓶颈,也是大公司渴望维持的竞争优势。

与此同时,开源带来了许多好处,这些公司希望看到这些好处转化为人工智能。沃索表示,从表面上看,“开源”一词对很多人来说都具有积极的含义,因此参与所谓的“公开清洗”可以轻松获得公关胜利。

它还会对他们的利润产生重大影响。哈佛商学院的经济学家最近发现,开源软件允许公司在高质量的自由软件之上构建产品而不是自己编写产品,从而为公司节省了近 9 万亿美元的开发成本。

Warso 表示,对于较大的公司来说,开源他们的软件,以便其他开发人员可以重用和修改它,可以帮助围绕他们的产品建立一个强大的生态系统。典型的例子是谷歌开源其Android移动操作系统,巩固了其在智能手机革命核心的主导地位。 Meta 的马克·扎克伯格在财报电话会议上明确表达了这一动机,他表示:“开源软件通常会成为行业标准,当公司使用我们的堆栈进行标准化构建时,就会更容易将新的创新集成到我们的产品中。”

沃索表示,至关重要的是,开源人工智能似乎在某些地方可能会受到有利的监管待遇,他指出欧盟新通过的人工智能法案,该法案免除了某些开源项目的一些更严格的要求。

Warso 表示,综上所述,很明显为什么共享预训练模型但限制对构建模型所需数据的访问具有良好的商业意义。但她补充道,这确实带有公司试图鱼与熊掌兼得的味道。如果该战略有助于巩固大型科技公司已经占据的主导地位,那么很难看出这与开源​​的基本精神有何契合。

“我们将开放视为挑战权力集中的工具之一,”沃索说。 “如果这个定义应该有助于挑战这些权力的集中,那么数据问题就变得更加重要。”

沙波什尼克认为妥协是可能的。用于训练最大模型的大量数据已经来自维基百科或 Common Crawl 等开放存储库,它们从网络上抓取数据并免费共享。他说,公司可以简单地共享用于训练模型的开放资源,从而可以重新创建合理的近似值,使人们能够研究和理解模型。

不过,非营利性人工智能研究组织 EleutherAI 的政策和道德负责人 Aviya Skowron 表示,从互联网上抓取的艺术或写作培训是否侵犯创作者的财产权这一问题尚不明确,可能会导致法律上的复杂化。该组织也参与了 OSI 流程。 。这使得开发人员对公开他们的数据持谨慎态度。

巴黎理工学院计算机科学教授 Stefano Zacchiroli 也为 OSI 定义做出了贡献,他认识到实用主义的必要性。他个人的观点是,模型训练数据的完整描述是被描述为开源的最低限度,但他认识到,开源人工智能的更严格定义可能没有广泛的吸引力。

最终,社区需要决定它想要实现的目标,Zacchiroli 说:“你是否只是跟随市场的发展方向,这样他们就不会本质上采用‘开源人工智能’这个术语,或者你是否试图推动市场更加开放并为用户提供更多自由?”

开源有什么意义?

AI Now Institute 联合执行主任 Sarah Myers West 表示,开源 AI 的定义究竟能在多大程度上创造公平的竞争环境,这一点值得商榷。她与人合着了一篇于 2023 年 8 月发表的论文,揭露了许多开源人工智能项目缺乏开放性。但它也强调,无论模型多么开放,训练尖端人工智能所需的大量数据和计算能力都会为较小的参与者带来更深的结构性障碍。

迈尔斯·韦斯特认为,人们希望通过人工智能开源实现什么目标也缺乏明确性。 “是安全,是进行学术研究的能力,还是试图促进更大的竞争?”她问。 “我们需要更准确地了解目标是什么,以及开放系统如何改变对这一目标的追求。”

OSI 似乎热衷于避免这些对话。定义草案提到自治和透明度是主要好处,但当被要求解释为什么 OSI 重视这些概念时,马富利提出异议。该文件还包含一个标记为“超出范围的问题”的部分,明确表示该定义不会涉及有关“道德、可信或负责任”人工智能的问题。

Maffulli 表示,从历史上看,开源社区一直致力于实现软件的无摩擦共享,并避免陷入关于软件用途的争论。 “这不是我们的工作,”他说。

但沃索表示,无论人们在过去几十年里多么努力,这些问题都不能被忽视。她补充说,技术是中立的以及道德等话题“超出范围”的想法是一个神话。她怀疑这是一个神话,需要坚持这一神话,以防止开源社区的松散联盟破裂。 “我认为人们意识到这不是真实的[神话],但我们需要它才能向前发展,”沃索说。

除了 OSI 之外,其他人也采取了不同的方法。 2022 年,一组研究人员推出了Responsible AI 许可证(RAIL),该许可证与开源许可证类似,但包含可以限制特定用例的条款。共同创建该许可证的人工智能研究人员丹麦承包商表示,其目标是让开发人员阻止他们的工作被用于他们认为不适当或不道德的事情。

“作为一名研究人员,我讨厌我的东西被以有害的方式使用,”他说。他并不孤单:他和同事最近对人工智能初创公司 Hugging Face 的流行模型托管平台进行的一项分析发现,28% 的模型使用 RAIL。 

谷歌授予其 Gemma 的许可证也遵循类似的方法。该公司在最近的一篇博客文章中表示,其使用条款列出了各种被认为“有害”的禁止使用案例,这反映了其“致力于负责任地开发人工智能”。艾伦人工智能研究所也制定了自己的开放许可协议。其ImpACT 许可证根据模型和数据的潜在风险限制其重新分发。

开源软件管理公司 Tidelift 的联合创始人兼法律负责人Luis Villa表示,鉴于人工智能与传统软件的不同,不同程度的开放性实验是不可避免的,而且可能对该领域有利。但他担心,相互不兼容的“开放式”许可证的激增可能会破坏使开源如此成功的无摩擦协作,从而减缓人工智能的创新,降低透明度,并使较小的参与者更难在彼此的基础上发展。工作。

最终,维拉认为社区需要围绕单一标准联合起来,否则行业将简单地忽略它并自行决定“开放”的含义。不过,他并不羡慕 OSI 的工作。当它提出开源软件定义时,它有充足的时间并且很少受到外界审查。如今,人工智能已成为大企业和监管机构关注的焦点。

但如果开源社区无法很快确定一个定义,其他人就会提出一个适合自己需求的定义。 “他们将填补这个真空,”维拉说。 “马克·扎克伯格将告诉我们他所认为的‘开放’意味着什么,而且他有一个非常大的扩音器。”