[博客翻译]Automattic公司计划出售数据以训练生成模型


原文地址:https://werd.io/2024/platforms-are-selling-your-work-to-ai-vendors-with-impunity


数据交易在即,Automattic与OpenAI及Midjourney接洽

据404媒体报道,Automattic公司正计划将其旗下平台的数据出售给Midjourney和OpenAI,用于训练生成型模型。虽然我们审查的文件中并未详述每个平台向每家公司提供的具体数据类型,但404媒体查阅的内部通信显示,Automattic与OpenAI及Midjourney的交易即将达成。

Automattic旗下的不同部门随后进行了澄清。特别是,WordPress的高级在线服务,如为主要新闻机构提供支持的WordPress VIP服务,似乎不会将用户数据出售给人工智能平台。

GettyImages-1439425791-1.webp

这似乎直接印证了我关于平台与用户关系重定义的观点。看来,Automattic旗下托管平台的免费版本默认会出售用户数据,而高级版本则不会。

Reddit在上周宣布了类似的交易,总计通过内容交易获得了2.03亿美元的收入。WordPress支撑着超过40%的网络内容,按照这些数字,这可能为公司带来可观的收益。尽管其中很多是自托管的开源项目,而不是由Automattic支持的网站,但一旦考虑到Jetpack和Akismet插件,这个数字就变得模糊起来。

从平台的角度看,人工智能公司似乎是天赐之财。它们拥有对数以千万计用户内容的开放许可,这些内容往往可以追溯到多年前 — 现在,由于人工智能供应商需要合法、结构化的内容来进行训练 — 这些内容的真实市场价值飙升。我不会感到惊讶,如果新兴的社交平台是专门为了出售数据给人工智能供应商而设计的数据模型。最终,“出售数据”成为一直被宣称的商业模式。

出版商对此可能不太热心也不足为奇,尽管与Axel Springer和美联社的交易已经公之于众。OpenAI向新闻公司提供的内容交易通常每笔最高达500万美元。但社交平台并不是以内容本身进行交易:它们之所以能够扩展业务,是因为它们为其他人的帖子建立了传输渠道。它们的核心价值在于软件和庞大、活跃的用户群。相反,出版商的核心价值确实在于他们生产的文章、艺术作品、音频、图像和视频;精心报道的新闻、不可扩展的艺术以及围绕这些内容逐渐形成的慢燃社区。出版业并不具备可扩展性。对这些作品的权利不应轻易放弃。平台和人工智能供应商之间的激励措施或多或少是一致的;出版商和人工智能供应商之间的激励措施则不然。

我认为博客作者和社交视频制作者也不应轻易放弃这些权利。他们可能不是拥有大量作品的出版公司,但他们所产出的内容的完整性