开源倡议组织 (OSI) 已发布其关于“开放”人工智能的官方定义,这为与像Meta这样的科技巨头之间的冲突埋下了伏笔——这些巨头的模型并不符合新规则。
OSI长期以来一直设定行业标准,定义什么是开源软件,但AI系统包含了一些不受传统许可涵盖的元素,如模型训练数据。现在,要使一个AI系统被认为是真正开源的,它必须提供:
- 访问用于训练AI的数据细节,以便其他人可以理解和重现
- 构建和运行AI的完整代码
- 训练过程中使用的设置和权重,这些有助于AI生成其结果
这一定义直接挑战了Meta的Llama,后者被广泛宣传为最大的开源AI模型。虽然Llama可以公开下载和使用,但它对商业用途有限制(用于拥有超过7亿用户的应用程序),并且不提供训练数据的访问权限,这使得它未达到OSI的自由使用、修改和共享的标准。
Meta发言人Faith Eischen告诉《The Verge》,尽管“我们在许多方面都同意我们的合作伙伴OSI”,但公司不认同这一定义。“没有单一的开源AI定义,因为之前的开源定义无法涵盖当今快速发展的AI模型的复杂性。”
Eischen补充说:“无论技术定义如何,我们将继续与OSI和其他行业组织合作,负责任地使AI更加普及和免费。”
过去25年,OSI对开源软件的定义被开发者广泛接受,他们希望在彼此的工作基础上进行开发,而不必担心诉讼或许可陷阱。现在,随着AI重塑格局,科技巨头面临一个关键选择:要么接受这些既定原则,要么拒绝。Linux基金会也最近尝试定义“开源AI”,这表明围绕传统开源价值观如何适应AI时代的问题,正引发越来越多的争论。
“现在我们有了一个完善的定义,或许我们可以更坚决地反对那些‘虚假开放’的公司,它们声称自己的工作是开源的,但实际上并非如此。”独立研究员兼开源多工具Datasette的创建者Simon Willison告诉《The Verge》。
Hugging Face首席执行官Clément Delangue称OSI的定义“在塑造