虽然生成模型很少产生与其训练输入实质上相似的输出,但训练生成模型的过程涉及复制受版权保护的数据。如果这些复制未经授权,这可能被视为版权侵权,这取决于模型的具体使用是否符合“合理使用”。由于合理使用是根据具体情况进行判断的,因此无法对生成式AI何时符合合理使用做出广泛声明。相反,我将为ChatGPT对其训练数据的使用提供具体的分析,但同一基本模板也适用于许多其他生成式AI产品。
ChatGPT
合理使用在1976年《版权法》第107节中定义,以下是我逐字引用的内容:
尽管有第106节和第106A节的规定,出于批评、评论、新闻报道、教学(包括课堂使用的多份副本)、学术研究或研究等目的,以复制副本或录音等形式或其他该节规定的方式使用受版权保护的作品的行为属于合理使用,不构成版权侵权。在确定任何特定情况下使用作品是否属于合理使用时,应考虑以下因素——
- 使用的目的和性质,包括其是否具有商业性质或用于非营利教育目的;
- 受版权保护作品的性质;
- 使用的部分与整个版权作品的比例及其重要性;
- 使用对版权作品潜在市场或价值的影响。
作品未发表这一事实本身不应阻碍合理使用的认定,但必须在考虑上述所有因素后才能作出认定。
合理使用是一个平衡测试,需要权衡所有四个因素。实际上,第(4)项和第(1)项往往最为重要,因此我将首先讨论这两项。第(2)项通常最不重要,稍后我简要讨论。第(3)项较为技术,难以全面回答,因此最后讨论。
第(4)项:使用对版权作品潜在市场或价值的影响。
ChatGPT训练数据的市场价值影响会因来源而异,且ChatGPT的训练数据并不公开,因此我们不能直接回答这个问题。然而,一些研究试图量化这种情况可能是什么样的。例如,《生成式AI对在线知识社区的影响》发现,ChatGPT发布后,Stack Overflow的流量下降了约12%:
他们还发现在ChatGPT发布后,每个话题的提问数量有所下降:
最后他们发现,在ChatGPT发布后,提问者的平均账户年龄呈上升趋势,表明新成员要么没有加入,要么离开了社区:
这些影响不会普遍出现——同一项研究没有发现Reddit网站活动类似下降——但Stack Overflow不太可能是唯一受到ChatGPT发布影响的网站。例如,作业帮助网站Chegg在其报告称ChatGPT对其增长产生负面影响后,股价下跌了40%。这并不意味着ChatGPT是使用Stack Overflow或Chegg的数据进行训练的,或者市场效应对Stack Overflow和Chegg是坏事——但很明显,ChatGPT对其训练数据可能产生市场效应。
像OpenAI和Google这样的模型开发者已经签署了多项数据许可协议,以训练他们的模型使用受版权保护的数据:例如与Stack Overflow,Reddit,美联社,新闻集团等。如果使用这些数据是“合理使用”,那么签署这些协议的原因就不清楚了,但这不重要。鉴于数据许可市场的存在,未经类似许可协议就使用受版权保护的数据也是一种市场损害,因为它剥夺了版权所有者的收入来源。
第(1)项:使用的目的和性质,包括其是否具有商业性质或用于非营利教育目的;
从受版权保护的作品中摘取内容并损害其市场价值并不总是排除合理使用。例如,书评者可以在评论中引用书籍的段落,即使他们的评论可能会损害原书的市场价值,引用仍可能被视为合理使用。这是因为评论的目的与基础书籍不同,因此不会替代或与之竞争。
这种区分——替换性和非替换性使用——实际上是1841年Folsom v. Marsh案中“合理使用”的起源。在这起案件中,被告复制了乔治·华盛顿传记的一部分,以制作自己的版本。法院裁定:
[书评者可以大量引用原作品,前提是其真正目的是为了合理和公正的批评。另一方面,如果他这样引用作品的最重要部分,并非为了评论,而是为了取代原作品的使用,替代原作品,这样的使用在法律上将被视为盗版。]
在许多最近的案例中,第(1)项通常从“转换性”角度进行考虑——例如,第二巡回法庭在Authors Guild v. Google一案中关于Google Books的裁决认为:
Google未经授权数字化受版权保护的作品、创建搜索功能以及展示作品片段的行为是非侵权的合理使用。复制的目的具有高度转换性,公共显示的文本是有限的,透露的信息不构成对受保护原作的显著市场替代。
最高法院在2023年的案件“安迪·沃霍尔视觉艺术基金会诉戈德史密斯”中明确了“转换性”的重要性,指出这一点应“仅在确定使用目的是否与原作不同所必需的范围内考虑”,并指出第一个因素是“对使用情况的客观调查,即用户如何处理原作”。他们指出,“第一个因素涉及替代问题——版权的大敌”,并总结如下:
总之,第一个合理使用因素考虑的是使用版权作品是否有进一步的目的或不同的性质,这是一个程度的问题,且这种差异必须与使用的商业性质相平衡。如果原作和二次使用具有相同或高度相似的目的,并且二次使用具有商业性质,那么在没有其他复制理由的情况下,第一个因素可能不利于合理使用。
ChatGPT 是一个商业产品,因此最初的疑问可能是:ChatGPT 是否与其训练数据有类似的目的?
实际上,对于像 ChatGPT 这样广泛的产品,或者整个互联网的“目的”,很难进行推理。一个更好的框架是:ChatGPT 的市场损害是否来自它生成的替代品与原作竞争?还是间接影响,比如书评对书籍的影响?
我认为,ChatGPT 的市场损害主要来自它生成的替代品这一观点是很明显的。例如,如果我们有一个编程问题“为什么在浮点算术中 0.1 + 0.2 = 0.30000000000000004?”我们可以通过询问 ChatGPT 获得左侧的回答,而不是在 Stack Overflow 上搜索右侧的答案:
这些答案虽然不完全相似,但它们服务于相同的基木目的。这种使用引起的市场损害可以通过减少 Stack Overflow 的网站流量来衡量。
这是一个完全替代的例子,但实际上替代是一个程度的问题。例如,以下所有问题的现有答案也可以回答我们的原始问题,具体取决于我们愿意投入多少独立思考:
- “为什么在浮点算术中 0.2 + 0.4 = 0.60000000000000008?”
- “十进制数在浮点中是如何表示的?”
- “浮点数是如何工作的?”
因素(2):版权作品的性质
版权作品的性质——无论是受版权高度保护的创造性作品,还是受版权轻度保护的纪实作品——在互联网上会有很大的差异。但互联网上的大多数数据在某种程度上都受到版权保护,因此因素(2)不太可能强烈支持“合理使用”。实际上,这个因素通常是最不重要的。
因素(3):相对于整个版权作品所使用的部分的数量和实质性
对因素(3)有两种解读:
- 模型的输入是版权数据的完整副本,因此“使用的数量”是整个版权作品。这将不利于“合理使用”。
- 模型的输出几乎不是版权数据的副本,因此“使用的数量”几乎为零。这可能会支持“合理使用”。
但第二种解读并不完全正确,因为版权的目的是保护作者的创意选择(否则,通过微调版权作品就能轻易绕过)。拼贴艺术就是一个简单的例子:拼贴艺术家不会获得他们所使用的底层作品的版权保护,但他们将获得其对这些作品安排所做的创意选择的版权保护。
同样,尽管典型的小说作者不会发明新词,但他们仍然会因其对现有词汇组合所做的选择获得版权保护。小说中的每个单词都是一个选择——即从一系列可能的结果中选择一个结果——所有这些选择的总和受到版权保护。我们可以使用信息论量化地研究这些选择。
单个选择的度量单位是信息位,代表一个二元选择。分布的平均信息量是该分布的熵,以位为单位(香农首次估计典型英文文本的熵大约在每字符0.6到1.3位之间)。两个分布之间的共享信息量是它们的互信息(MI),可以表示为:
其中, 和 是随机变量, 是 的边缘熵,而 是给定 时 的条件熵。如果 是原作,而 ![](http://aiqia