[博客翻译]根据OSI的新定义,开源AI必须公开其训练数据


原文地址:https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama


开源倡议组织 (OSI) 已发布其关于“开放”人工智能的官方定义,这为与像Meta这样的科技巨头之间的冲突埋下了伏笔——这些巨头的模型并不符合新规则。

OSI长期以来一直设定行业标准,定义什么是开源软件,但AI系统包含了一些不受传统许可涵盖的元素,如模型训练数据。现在,要使一个AI系统被认为是真正开源的,它必须提供:

  • 访问用于训练AI的数据细节,以便其他人可以理解和重现
  • 构建和运行AI的完整代码
  • 训练过程中使用的设置和权重,这些有助于AI生成其结果

这一定义直接挑战了Meta的Llama,后者被广泛宣传为最大的开源AI模型。虽然Llama可以公开下载和使用,但它对商业用途有限制(用于拥有超过7亿用户的应用程序),并且不提供训练数据的访问权限,这使得它未达到OSI的自由使用、修改和共享的标准。

Meta发言人Faith Eischen告诉《The Verge》,尽管“我们在许多方面都同意我们的合作伙伴OSI”,但公司不认同这一定义。“没有单一的开源AI定义,因为之前的开源定义无法涵盖当今快速发展的AI模型的复杂性。”

Eischen补充说:“无论技术定义如何,我们将继续与OSI和其他行业组织合作,负责任地使AI更加普及和免费。”

3.png

过去25年,OSI对开源软件的定义被开发者广泛接受,他们希望在彼此的工作基础上进行开发,而不必担心诉讼或许可陷阱。现在,随着AI重塑格局,科技巨头面临一个关键选择:要么接受这些既定原则,要么拒绝。Linux基金会也最近尝试定义“开源AI”,这表明围绕传统开源价值观如何适应AI时代的问题,正引发越来越多的争论。

“现在我们有了一个完善的定义,或许我们可以更坚决地反对那些‘虚假开放’的公司,它们声称自己的工作是开源的,但实际上并非如此。”独立研究员兼开源多工具Datasette的创建者Simon Willison告诉《The Verge》。

Hugging Face首席执行官Clément Delangue称OSI的定义“在塑造