[博客翻译]Automattic公司计划出售数据以训练生成模型


原文地址:https://werd.io/2024/platforms-are-selling-your-work-to-ai-vendors-with-impunity


数据交易在即,Automattic与OpenAI及Midjourney接洽

据404媒体报道,Automattic公司正计划将其旗下平台的数据出售给Midjourney和OpenAI,用于训练生成型模型。虽然我们审查的文件中并未详述每个平台向每家公司提供的具体数据类型,但404媒体查阅的内部通信显示,Automattic与OpenAI及Midjourney的交易即将达成。

Automattic旗下的不同部门随后进行了澄清。特别是,WordPress的高级在线服务,如为主要新闻机构提供支持的WordPress VIP服务,似乎不会将用户数据出售给人工智能平台。

GettyImages-1439425791-1.webp

这似乎直接印证了我关于平台与用户关系重定义的观点。看来,Automattic旗下托管平台的免费版本默认会出售用户数据,而高级版本则不会。

Reddit在上周宣布了类似的交易,总计通过内容交易获得了2.03亿美元的收入。WordPress支撑着超过40%的网络内容,按照这些数字,这可能为公司带来可观的收益。尽管其中很多是自托管的开源项目,而不是由Automattic支持的网站,但一旦考虑到Jetpack和Akismet插件,这个数字就变得模糊起来。

从平台的角度看,人工智能公司似乎是天赐之财。它们拥有对数以千万计用户内容的开放许可,这些内容往往可以追溯到多年前 — 现在,由于人工智能供应商需要合法、结构化的内容来进行训练 — 这些内容的真实市场价值飙升。我不会感到惊讶,如果新兴的社交平台是专门为了出售数据给人工智能供应商而设计的数据模型。最终,“出售数据”成为一直被宣称的商业模式。

出版商对此可能不太热心也不足为奇,尽管与Axel Springer和美联社的交易已经公之于众。OpenAI向新闻公司提供的内容交易通常每笔最高达500万美元。但社交平台并不是以内容本身进行交易:它们之所以能够扩展业务,是因为它们为其他人的帖子建立了传输渠道。它们的核心价值在于软件和庞大、活跃的用户群。相反,出版商的核心价值确实在于他们生产的文章、艺术作品、音频、图像和视频;精心报道的新闻、不可扩展的艺术以及围绕这些内容逐渐形成的慢燃社区。出版业并不具备可扩展性。对这些作品的权利不应轻易放弃。平台和人工智能供应商之间的激励措施或多或少是一致的;出版商和人工智能供应商之间的激励措施则不然。

我认为博客作者和社交视频制作者也不应轻易放弃这些权利。他们可能不是拥有大量作品的出版公司,但他们所产出的内容的完整性仍然至关重要。

对于WordPress用户来说,这有点像是一场诱饵和转换。

虽然作家们可能在使用WordPress这样的免费托管版出版平台,但他们保留着作品的道德权利:根据保护文学和艺术作品的伯尔尼公约,一个国际版权法协议,道德权利是“声称作品的作者身份,以及反对任何对该作品的歪曲、毁损或其他修改,或任何其他贬低行为,这些行为可能损害其荣誉或声誉的权利”。

WordPress的托管版本在其服务条款中包含了关于所有权的这样一句话:我们不拥有您的内容,您保留在您发布到网站上的内容中所拥有的所有权利。

因此,一个理性的人可能会推断他们的内容不会被许可给人工智能供应商。然而,事情似乎并非如此。

那么现在怎么办?

如果每个平台越来越有可能随着时间的推移将用户数据出售给人工智能平台,唯一的反对方式是开始使用自托管的独立网站平台。

但是,每个公共网站也可能直接被人工智能供应商抓取,有时即使它们使用了几十年来用于防止搜索引擎机器人索引未授权内容的机器人排除协议(Robots Exclusion Protocol)也是如此。大型平台可以因违反内容许可而提起诉讼,但个别出版商不太可能有这样的手段 — 除非他们联合起来,形成一个可以代表他们利益的集体组织。

如果每个公共网站越来越有可能随着时间的推移被人工智能供应商抓取,唯一的反对方式是挫败抓取者。这可以通过电子方式完成,但这是开源平台与资金充裕的人工智能供应商之间的军备竞赛。联合起来,集体组织可能更有效;争取能够真正追究供应商责任的监管措施将更为有效。

现在是出版商、作家、艺术家、音乐家,以及所有以文化工作为生(或为自己)的人开始团结起来、反抗的时候了。独立网站的权利和像《纽约时报》这样有资金提起诉讼的组织的权利同样重要。而且,真正的,立法者是时候注意到这些供应商及其平台同伙的不可信、剥削行为了。