[博客翻译]根据OSI的新定义,开源AI必须公开其训练数据


原文地址:https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama


开源倡议组织 (OSI) 已发布其关于“开放”人工智能的官方定义,这为与像Meta这样的科技巨头之间的冲突埋下了伏笔——这些巨头的模型并不符合新规则。

OSI长期以来一直设定行业标准,定义什么是开源软件,但AI系统包含了一些不受传统许可涵盖的元素,如模型训练数据。现在,要使一个AI系统被认为是真正开源的,它必须提供:

  • 访问用于训练AI的数据细节,以便其他人可以理解和重现
  • 构建和运行AI的完整代码
  • 训练过程中使用的设置和权重,这些有助于AI生成其结果

这一定义直接挑战了Meta的Llama,后者被广泛宣传为最大的开源AI模型。虽然Llama可以公开下载和使用,但它对商业用途有限制(用于拥有超过7亿用户的应用程序),并且不提供训练数据的访问权限,这使得它未达到OSI的自由使用、修改和共享的标准。

Meta发言人Faith Eischen告诉《The Verge》,尽管“我们在许多方面都同意我们的合作伙伴OSI”,但公司不认同这一定义。“没有单一的开源AI定义,因为之前的开源定义无法涵盖当今快速发展的AI模型的复杂性。”

Eischen补充说:“无论技术定义如何,我们将继续与OSI和其他行业组织合作,负责任地使AI更加普及和免费。”

3.png

过去25年,OSI对开源软件的定义被开发者广泛接受,他们希望在彼此的工作基础上进行开发,而不必担心诉讼或许可陷阱。现在,随着AI重塑格局,科技巨头面临一个关键选择:要么接受这些既定原则,要么拒绝。Linux基金会也最近尝试定义“开源AI”,这表明围绕传统开源价值观如何适应AI时代的问题,正引发越来越多的争论。

“现在我们有了一个完善的定义,或许我们可以更坚决地反对那些‘虚假开放’的公司,它们声称自己的工作是开源的,但实际上并非如此。”独立研究员兼开源多工具Datasette的创建者Simon Willison告诉《The Verge》。

Hugging Face首席执行官Clément Delangue称OSI的定义“在塑造有关AI开放性的对话中大有帮助,尤其是在训练数据的重要角色方面。”

OSI执行董事Stefano Maffulli表示,该定义的制定历时两年,咨询了全球专家,并通过协作过程进行了细致的完善。这包括与来自学术界的机器学习和自然语言处理专家、哲学家、Creative Commons世界的内容创作者等合作。

尽管Meta以安全问题作为限制访问其训练数据的理由,但批评者看到了一个更简单的动机:最小化其法律责任并保护其竞争优势。许多AI模型几乎肯定是在受版权保护的材料上训练的;今年4月,《纽约时报》报道称,Meta内部承认其训练数据中存在受版权保护的内容,“因为我们无法避免收集这些内容。”针对Meta、OpenAI、Perplexity、Anthropic等公司的侵权诉讼层出不穷。但在少数例外情况(如Stable Diffusion公开其训练数据)下,原告目前必须依赖间接证据来证明其作品已被抓取。

与此同时,Maffulli看到了开源历史的重演。“Meta正在提出与1990年代微软相同的论点,当时微软认为开源对其商业模式构成了威胁。”Maffulli告诉《The Verge》。他回忆起Meta告诉他关于其在Llama上的高强度投资,问他“你认为谁能够做同样的事情?”Maffulli看到了熟悉的模式:一家科技巨头利用成本和复杂性来为其技术的封闭性辩护。“我们回到了早期的日子,”他说。

“这是他们的秘密配方,”Maffulli谈到训练数据时说。“这是宝贵的知识产权。”