[博客翻译]根据OSI的新定义，开源AI必须公开其训练数据

开源倡议组织 (OSI) 已发布其关于“开放”人工智能的官方定义，这为与像Meta这样的科技巨头之间的冲突埋下了伏笔——这些巨头的模型并不符合新规则。

OSI长期以来一直设定行业标准，定义什么是开源软件，但AI系统包含了一些不受传统许可涵盖的元素，如模型训练数据。现在，要使一个AI系统被认为是真正开源的，它必须提供：

访问用于训练AI的数据细节，以便其他人可以理解和重现
构建和运行AI的完整代码
训练过程中使用的设置和权重，这些有助于AI生成其结果

这一定义直接挑战了Meta的Llama，后者被广泛宣传为最大的开源AI模型。虽然Llama可以公开下载和使用，但它对商业用途有限制（用于拥有超过7亿用户的应用程序），并且不提供训练数据的访问权限，这使得它未达到OSI的自由使用、修改和共享的标准。

Meta发言人Faith Eischen告诉《The Verge》，尽管“我们在许多方面都同意我们的合作伙伴OSI”，但公司不认同这一定义。“没有单一的开源AI定义，因为之前的开源定义无法涵盖当今快速发展的AI模型的复杂性。”

Eischen补充说：“无论技术定义如何，我们将继续与OSI和其他行业组织合作，负责任地使AI更加普及和免费。”

过去25年，OSI对开源软件的定义被开发者广泛接受，他们希望在彼此的工作基础上进行开发，而不必担心诉讼或许可陷阱。现在，随着AI重塑格局，科技巨头面临一个关键选择：要么接受这些既定原则，要么拒绝。Linux基金会也最近尝试定义“开源AI”，这表明围绕传统开源价值观如何适应AI时代的问题，正引发越来越多的争论。

“现在我们有了一个完善的定义，或许我们可以更坚决地反对那些‘虚假开放’的公司，它们声称自己的工作是开源的，但实际上并非如此。”独立研究员兼开源多工具Datasette的创建者Simon Willison告诉《The Verge》。

Hugging Face首席执行官Clément Delangue称OSI的定义“在塑造有关AI开放性的对话中大有帮助，尤其是在训练数据的重要角色方面。”

OSI执行董事Stefano Maffulli表示，该定义的制定历时两年，咨询了全球专家，并通过协作过程进行了细致的完善。这包括与来自学术界的机器学习和自然语言处理专家、哲学家、Creative Commons世界的内容创作者等合作。

尽管Meta以安全问题作为限制访问其训练数据的理由，但批评者看到了一个更简单的动机：最小化其法律责任并保护其竞争优势。许多AI模型几乎肯定是在受版权保护的材料上训练的；今年4月，《纽约时报》报道称，Meta内部承认其训练数据中存在受版权保护的内容，“因为我们无法避免收集这些内容。”针对Meta、OpenAI、Perplexity、Anthropic等公司的侵权诉讼层出不穷。但在少数例外情况（如Stable Diffusion公开其训练数据）下，原告目前必须依赖间接证据来证明其作品已被抓取。

与此同时，Maffulli看到了开源历史的重演。“Meta正在提出与1990年代微软相同的论点，当时微软认为开源对其商业模式构成了威胁。”Maffulli告诉《The Verge》。他回忆起Meta告诉他关于其在Llama上的高强度投资，问他“你认为谁能够做同样的事情？”Maffulli看到了熟悉的模式：一家科技巨头利用成本和复杂性来为其技术的封闭性辩护。“我们回到了早期的日子，”他说。

“这是他们的秘密配方，”Maffulli谈到训练数据时说。“这是宝贵的知识产权。”

[博客翻译]根据OSI的新定义，开源AI必须公开其训练数据

原文地址：https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama