[博客翻译]生成型人工智能何时符合合理使用的条件?


原文地址:http://suchir.net/fair_use.html


虽然生成模型很少产生与其训练输入实质上相似的输出,但训练生成模型的过程涉及复制受版权保护的数据。如果这些复制未经授权,这可能被视为版权侵权,这取决于模型的具体使用是否符合“合理使用”。由于合理使用是根据具体情况进行判断的,因此无法对生成式AI何时符合合理使用做出广泛声明。相反,我将为ChatGPT对其训练数据的使用提供具体的分析,但同一基本模板也适用于许多其他生成式AI产品。

ChatGPT

合理使用在1976年《版权法》第107节中定义,以下是我逐字引用的内容:


尽管有第106节和第106A节的规定,出于批评、评论、新闻报道、教学(包括课堂使用的多份副本)、学术研究或研究等目的,以复制副本或录音等形式或其他该节规定的方式使用受版权保护的作品的行为属于合理使用,不构成版权侵权。在确定任何特定情况下使用作品是否属于合理使用时,应考虑以下因素——

  1. 使用的目的和性质,包括其是否具有商业性质或用于非营利教育目的;
  2. 受版权保护作品的性质;
  3. 使用的部分与整个版权作品的比例及其重要性;
  4. 使用对版权作品潜在市场或价值的影响。

作品未发表这一事实本身不应阻碍合理使用的认定,但必须在考虑上述所有因素后才能作出认定。


合理使用是一个平衡测试,需要权衡所有四个因素。实际上,第(4)项和第(1)项往往最为重要,因此我将首先讨论这两项。第(2)项通常最不重要,稍后我简要讨论。第(3)项较为技术,难以全面回答,因此最后讨论。

第(4)项:使用对版权作品潜在市场或价值的影响。

ChatGPT训练数据的市场价值影响会因来源而异,且ChatGPT的训练数据并不公开,因此我们不能直接回答这个问题。然而,一些研究试图量化这种情况可能是什么样的。例如,《生成式AI对在线知识社区的影响》发现,ChatGPT发布后,Stack Overflow的流量下降了约12%:

他们还发现在ChatGPT发布后,每个话题的提问数量有所下降:

最后他们发现,在ChatGPT发布后,提问者的平均账户年龄呈上升趋势,表明新成员要么没有加入,要么离开了社区:

这些影响不会普遍出现——同一项研究没有发现Reddit网站活动类似下降——但Stack Overflow不太可能是唯一受到ChatGPT发布影响的网站。例如,作业帮助网站Chegg在其报告称ChatGPT对其增长产生负面影响后,股价下跌了40%。这并不意味着ChatGPT是使用Stack Overflow或Chegg的数据进行训练的,或者市场效应对Stack Overflow和Chegg是坏事——但很明显,ChatGPT对其训练数据可能产生市场效应。

像OpenAI和Google这样的模型开发者已经签署了多项数据许可协议,以训练他们的模型使用受版权保护的数据:例如与Stack OverflowReddit美联社新闻集团等。如果使用这些数据是“合理使用”,那么签署这些协议的原因就不清楚了,但这不重要。鉴于数据许可市场的存在,未经类似许可协议就使用受版权保护的数据也是一种市场损害,因为它剥夺了版权所有者的收入来源。

第(1)项:使用的目的和性质,包括其是否具有商业性质或用于非营利教育目的;

从受版权保护的作品中摘取内容并损害其市场价值并不总是排除合理使用。例如,书评者可以在评论中引用书籍的段落,即使他们的评论可能会损害原书的市场价值,引用仍可能被视为合理使用。这是因为评论的目的与基础书籍不同,因此不会替代或与之竞争。

这种区分——替换性和非替换性使用——实际上是1841年Folsom v. Marsh案中“合理使用”的起源。在这起案件中,被告复制了乔治·华盛顿传记的一部分,以制作自己的版本。法院裁定:

[书评者可以大量引用原作品,前提是其真正目的是为了合理和公正的批评。另一方面,如果他这样引用作品的最重要部分,并非为了评论,而是为了取代原作品的使用,替代原作品,这样的使用在法律上将被视为盗版。]

在许多最近的案例中,第(1)项通常从“转换性”角度进行考虑——例如,第二巡回法庭在Authors Guild v. Google一案中关于Google Books的裁决认为:

Google未经授权数字化受版权保护的作品、创建搜索功能以及展示作品片段的行为是非侵权的合理使用。复制的目的具有高度转换性,公共显示的文本是有限的,透露的信息不构成对受保护原作的显著市场替代。

最高法院在2023年的案件“安迪·沃霍尔视觉艺术基金会诉戈德史密斯”中明确了“转换性”的重要性,指出这一点应“仅在确定使用目的是否与原作不同所必需的范围内考虑”,并指出第一个因素是“对使用情况的客观调查,即用户如何处理原作”。他们指出,“第一个因素涉及替代问题——版权的大敌”,并总结如下:

总之,第一个合理使用因素考虑的是使用版权作品是否有进一步的目的或不同的性质,这是一个程度的问题,且这种差异必须与使用的商业性质相平衡。如果原作和二次使用具有相同或高度相似的目的,并且二次使用具有商业性质,那么在没有其他复制理由的情况下,第一个因素可能不利于合理使用。

ChatGPT 是一个商业产品,因此最初的疑问可能是:ChatGPT 是否与其训练数据有类似的目的?

实际上,对于像 ChatGPT 这样广泛的产品,或者整个互联网的“目的”,很难进行推理。一个更好的框架是:ChatGPT 的市场损害是否来自它生成的替代品与原作竞争?还是间接影响,比如书评对书籍的影响?

我认为,ChatGPT 的市场损害主要来自它生成的替代品这一观点是很明显的。例如,如果我们有一个编程问题“为什么在浮点算术中 0.1 + 0.2 = 0.30000000000000004?”我们可以通过询问 ChatGPT 获得左侧的回答,而不是在 Stack Overflow 上搜索右侧的答案:

这些答案虽然不完全相似,但它们服务于相同的基木目的。这种使用引起的市场损害可以通过减少 Stack Overflow 的网站流量来衡量。

这是一个完全替代的例子,但实际上替代是一个程度的问题。例如,以下所有问题的现有答案也可以回答我们的原始问题,具体取决于我们愿意投入多少独立思考:

  1. “为什么在浮点算术中 0.2 + 0.4 = 0.60000000000000008?”
  2. “十进制数在浮点中是如何表示的?”
  3. “浮点数是如何工作的?”

因素(2):版权作品的性质

版权作品的性质——无论是受版权高度保护的创造性作品,还是受版权轻度保护的纪实作品——在互联网上会有很大的差异。但互联网上的大多数数据在某种程度上都受到版权保护,因此因素(2)不太可能强烈支持“合理使用”。实际上,这个因素通常是最不重要的。

因素(3):相对于整个版权作品所使用的部分的数量和实质性

对因素(3)有两种解读:

  1. 模型的输入是版权数据的完整副本,因此“使用的数量”是整个版权作品。这将不利于“合理使用”。
  2. 模型的输出几乎不是版权数据的副本,因此“使用的数量”几乎为零。这可能会支持“合理使用”。

但第二种解读并不完全正确,因为版权的目的是保护作者的创意选择(否则,通过微调版权作品就能轻易绕过)。拼贴艺术就是一个简单的例子:拼贴艺术家不会获得他们所使用的底层作品的版权保护,但他们将获得其对这些作品安排所做的创意选择的版权保护。

同样,尽管典型的小说作者不会发明新词,但他们仍然会因其对现有词汇组合所做的选择获得版权保护。小说中的每个单词都是一个选择——即从一系列可能的结果中选择一个结果——所有这些选择的总和受到版权保护。我们可以使用信息论量化地研究这些选择。

单个选择的度量单位是信息位,代表一个二元选择。分布的平均信息量是该分布的熵,以位为单位(香农首次估计典型英文文本的熵大约在每字符0.6到1.3位之间)。两个分布之间的共享信息量是它们的互信息(MI),可以表示为:

其中, 是随机变量, 的边缘熵,而 是给定 的条件熵。如果 是原作,而 是对它的转换,则互信息 表示从 创建 所提取的信息量。特别对于因素(3),我们关注的是相对于原作信息量的互信息。我们可以称之为相对互信息(RMI),并定义为:

直观地看,如果下面的红圈代表原作中包含的信息,而蓝圈代表新作品中包含的信息,那么相对互信息将是交集区域相对于红圈面积的比例:

在生成式人工智能的背景下,我们对RMI感兴趣,其中表示一个可能的训练数据集,而表示模型输出的集合,则代表从生成模型中进行训练和采样的过程:

实际上,通常很容易估计——即训练好的生成模型的输出熵。然而,估计——即所有可能的训练数据集上的模型输出的边缘熵——将会是不可行的。估计——即训练分布的真实熵——虽然困难,但仍然是可能的。

我们可以假设。这个假设可能是合理的,因为完全拟合其训练分布的生成模型将具有,同样适用于过拟合并记忆其数据点的生成模型。欠拟合的生成模型可能会引入额外的噪声,这可能导致。当时,我们可以从下界来限制RMI:

这个下界的直觉是,低熵的模型输出更有可能包含来自模型训练数据的信息。在极端情况下,这是重复问题,即模型确定性地输出其训练数据的一部分。但即使是非确定性的样本也可能使用一定程度的训练数据信息——这些信息只是在整个样本中混合在一起而不是直接复制。

需要注意的是,模型输出的熵并不一定低于真实熵,但在实践中,模型开发人员往往会选择有利于低熵输出的训练和部署程序。主要原因在于高熵输出涉及更多的随机性,这可能导致它们不连贯或包含幻觉。

我会列出一些减少熵的训练和部署程序,尽管这不是一个详尽的列表:


训练期间的数据重复

常见的做法是在模型训练过程中多次展示特定的数据点。这并不总是有问题的,但如果过度使用,模型最终会记住该数据点,并在部署时重复它。

我们可以从微调GPT-2的一个简单例子中看到这一点,使用的是莎士比亚作品的一部分数据集。下图中的颜色表示每个令牌的熵;红色文本更随机,绿色文本更确定。

当模型在每个数据点上训练一次后,其对提示“First Citizen:”的完成是高熵且新颖的,尽管不连贯。但在每个数据点上训练十次后,它最终记住了《科利奥兰》的开头部分,并在被提示时重复输出。

在五次重复的情况下,模型的行为介于重复和创造性生成之间——其输出中某些部分是新颖的,某些部分是记忆的,这两者在其输出中混合在一起。如果英文文本的真实熵约为每字符0.95比特,我们会说这些输出中大约对应于训练数据集中的信息。


强化学习

ChatGPT产生低熵输出的主要原因是它使用了强化学习——特别是来自人类反馈的强化学习(RLHF)。RLHF倾向于减少模型熵,因为它的主要目标之一是减少幻觉率,而幻觉通常是由采样过程中的随机性引起的。零熵的模型可以很容易地实现零幻觉率,尽管它基本上是作为其训练数据集的检索数据库,而不是生成模型。

下面是几个询问ChatGPT的例子及其每个令牌的熵:

如果,我们估计这些输出中有73%到94%对应于训练数据集中的信息。如果RLHF使得,这可能是高估,但仍存在一个明显的经验相关性,即熵与从训练数据中使用的信数量之间的关系。例如,即使不知道其训练数据集,也很容易看出ChatGPT生成的笑话都是记忆下来的,因为它们几乎都是确定性产生的。


这是一篇关于训练数据集中多少受版权保护的信息进入模型输出的粗略分析,其精确量化是一个开放的研究问题。但总的来说,这个问题并不简单,因此即使是更宽松地解释第(3)个因素也不会明显支持合理使用。

合理使用

四个因素似乎都不支持ChatGPT对其训练数据的合理使用。也就是说,这里提出的论据并不仅限于ChatGPT,类似的论据也可以扩展应用于许多其他领域的生成式AI产品。