[博客翻译]OpenAI对NTIA关于开放模型权重的评论


原文地址:https://openai.com/global-affairs/openai-s-comment-to-the-ntia-on-open-model-weights


OpenAI认为,广泛开发和使用人工智能可以提升人们的生活并开启更美好的未来。进步依赖于创新和市场竞争。在这些大原则的框架下,人们可以通过多种途径推进人工智能的潜力。OpenAI是首批面临如何分配超凡能力基础模型益处的AI开发者之一,我们首先提供这段历史背景来帮助NTIA的审议。

2019年,我们创造了GPT-2,它具备生成连贯文本段落的新能力,我们面临的问题是如何部署它。一方面,模型似乎很有用;另一方面,我们不确定它是否可用于恶意目的,比如生成钓鱼邮件。我们选择了“分阶段发布”的策略。当时我们写道:“分阶段发布是指随着时间推移逐步发布一系列模型。我们分阶段发布GPT-2的目的是让人们有时间评估这些模型的特性、讨论它们的社会影响,并在每个阶段后评估释放的影响。”当我们没有观察到明显的滥用迹象后,这给了我们信心公开发布完整模型权重。

2020年,我们创造了GPT-3,它在所有基准测试上都远超先前的语言模型,再次面临发布问题。这次我们决定通过首个产品——OpenAI API(一个允许开发者基于我们的技术构建应用的软件开发接口)来发布它。当时我们这样解释新发布策略的原因:“商业化技术有助于我们资助持续的AI研究、安全和政策工作”,并且“API模型让我们能更轻松地应对技术滥用。由于难以预测模型的下游应用场景,通过API和逐步扩大访问权限比公开源代码模型更安全,因为这样可以防止有害应用的出现。”多年来的API发布为GPT-3级别模型的安全性和滥用模式提供了教训。

自那以后,我们继续支持并相信开源AI生态系统的潜力,包括公开发布一些最先进的模型(如CLIP和Whisper)的权重,并为其他AI开发者开发开源基础设施(如Triton GPU编程语言)。公开的权重发布带来了诸多益处,包括促进学术界研究AI模型的内部结构、让用户能在本地设备上运行模型,以及支持用户根据需要对模型进行创造性修改。许多AI公司出于品牌、招聘和吸引开发者生态系统的考虑,选择大力投资公开模型权重的发布。

同时,我们通过API和像ChatGPT这样的产品来发布旗舰AI模型的策略,让我们能够继续研究并缓解初始发布后发现的风险,这在模型权重本身公开的情况下往往难以做到。比如,我们最近与微软合作,检测、研究并阻止了滥用我们GPT-3.5-Turbo和GPT-4模型的多个国家网络威胁行为者,这些行为者利用它们进行网络攻击活动。如果这些前沿模型的权重广泛发布,我们很难阻止这些威胁者在自己的硬件上部署模型,从而避免与原始开发者接触。这种方法让我们能够广泛分发AI的好处,包括通过广泛可用的免费和低成本服务。

这些经历让我们相信,公开权重发布和基于API或产品的发布都是实现有益人工智能的工具。我们认为,最好的美国AI生态系统将包括两者。

无论是在产品发布还是权重发布中,我们不断看到“迭代部署”的巨大益处:逐步将越来越强大的AI带给人们,让他们用它改善生活,并帮助社会适应新技术。正如我们在2023年所说:“我们努力在部署前预防可预见的风险,但无论研究得多深入,我们都无法预测所有有益的使用方式或滥用方式。这就是为什么我们相信从实际使用中学习是创建和随时间逐步发布更安全AI系统的关键部分。”

随着AI模型变得更强大,部署或发布的益处和风险也越来越大,我们越来越需要在决定何时以及如何部署模型时变得更为精细。特别是当AI能力对公共安全或国家安全产生重大影响时,这一点尤为重要。更先进的AI系统可能带来的“灾难性”风险的未来存在性是不确定的,学界对风险出现的可能性和时间表存在争议。我们目前没有足够的证据来排除它们,也不能确定它们是否迫在眉睫。作为推动AI能力前沿的开发者,我们认为构建这项技术风险的科学(包括收集与这些风险相关的证据)是我们工作的一部分。

为了以实证驱动的方式应对这些不确定性,OpenAI公开推出了我们的准备框架,这是一种基于科学的方法,持续评估并减轻我们AI模型可能带来的任何灾难性风险。准备框架定义了我们如何在包括网络安全、自主操作、个性化劝说和CBRN(化学、生物、放射性与核)威胁在内的多个高风险领域评估模型的能力水平。有关该框架在行动中的一个例子,是我们最近的研究,测试了GPT-4在生物威胁创建中的能力,结论是它没有显著的边际风险。

根据这些评估,我们为每个类别(低、中、高、关键)的模型风险进行评级。至关重要的是,在我们的准备框架下,除非我们能够将“高”或“关键”风险级别的系统风险降至最多“中”水平,否则我们将不会部署那些在我们分类中的风险级别为“高”或“关键”的AI系统(并且鉴于其风险水平,我们也不会训练“关键”级别系统)。准备框架至关重要,因为它允许我们构建并广泛分享越来越强大AI的好处,同时为可能存在的灾难性风险尽早做好准备。

我们相信人们和企业应根据自己的选择参与AI——包括开发或使用反映他们价值观和愿景的AI——以实现AI的益处。同时,应安全地构建和使用高度能力的AI系统,并适当地缓解发现的灾难性风险。这些利益有时会有所冲突,需要以具体案例的方式谨慎管理,以实现对社会的最佳结果。

对于需要大量资源(数亿美元以上)创建的高能力基础模型,我们认为AI开发者应该评估其模型可能带来的灾难性风险,并在发现风险较高时,在部署或发布前采取适当的缓解措施。这在风险管理与创新之间找到了恰当的平衡:这些模型预期将具有最大的能力,而评估的成本仅是开发成本的一小部分。无论模型权重是否打算广泛发布或通过API,这样的评估都是有意义的。

在资源需求较低的模型端,利益平衡有所不同。根据当前的证据,这些模型似乎不太可能引发灾难性风险,即使随着微调和模型修改技术的进步也是如此。然而,灾难性风险的评估可能需要花费小规模训练运行预算的大部分,这可能会对创新和竞争产生抑制作用。我们不认为这些模型需要进行灾难性风险评估,因为保护开发者创新新AI能力的多样性并促进思想和产品市场的繁荣具有巨大价值,而且科学表明这些模型的风险相对较低。

像准备框架这样的评估协议是评估任何类型模型发布前风险的有用工具。对于公开权重发布来说,有一些特定的考虑因素:

  1. 测试条件理想情况下应反映下游行为者可能对模型进行的各种修改方式。开放模型的一个重要特性是,下游行为者可以修改模型以扩展其初始能力并适应特定应用。然而,这也意味着恶意方可能增强模型的有害能力。因此,严格评估公开权重发布风险应包括测试恶意方可能合理增强模型的多种方式,包括微调。OpenAI已经在我们的准备框架中(如在我们的生物风险评估中)进行了一些修改测试。
  2. 对于开放模型开发者来说,可能无法依赖系统级安全措施来减少模型滥用的风险,因为安全措施通常会被恶意下游用户通过获取模型权重而移除。目前,由于我们当前最强大的模型风险较低,这种差异影响有限。但如果未来模型被科学确定为公开发布时存在严重风险,那么降低公开权重发布风险的路径可能依赖于增强模型被发布的外部环境的韧性。

社会对AI滥用的韧性需求超越了任何单一组织的发布决策。随着人工智能算法的持续进步和计算资源的广泛获取(包括对美国关注国家),初期只有少数行为者可以接触到的前沿AI能力最终将广泛扩散。美国及全球各国都有机会投资并领导减缓滥用后果的措施,以确保结果尽可能正面。

例如,增强对AI加速的网络攻击风险的抵抗力可能包括为关键基础设施提供商提供早期访问这些AI模型,以便它们可以用于改善网络安全(就像我们作为OpenAI网络安全赠款计划资助的早期项目)。增强对AI加速的生物威胁创造风险的抵抗力可能涉及与AI无关的解决方案,比如改进核苷酸合成筛查机制(如14110号行政命令所要求的),或者改善公共卫生系统对新病原体爆发的筛查和识别能力。如果一个AI模型被严格证明对公共安全或国家安全构成严重威胁,开发者在广泛发布前提高公众对该新能力的认识(比如通知基础设施提供商或限制API部署)也至关重要,这可以为急需的韧性努力创造时间和动力。这与网络安全领域的“负责任披露”规范类似,安全研究人员会暂时封锁他们发现的漏洞发布,以便给防御者时间修补系统,同时不阻碍进一步的安全研究。