为了训练Claude,Anthropic下载盗版、扫描并销毁了数百万本图书

12333社保查询网www.sz12333.net.cn 2026-02-15来源:人力资源和社会保障局

  本文仅在今日头条发布,谢绝转载

  文 | 段小草(自由撰稿人)

  导读:一场15亿美元的和解,撕下了“负责任的 AI”的遮羞布。Anthropic买到的不是图书版权,而是对过去盗版罪责的赦免。尽管法官裁定使用书籍训练 AI 属于“合理使用”,但这次,AI 的原罪不是抄袭,而是傲慢。

  2024 年 8 月,有三位作家和记者发起了集体诉讼,指控 Anthropic 在未经许可、未支付报酬的情况下,使用了他们作品的盗版版本来训练 Claude 模型。

  去年 6 月,美国加州北区联邦法院法官 William Alsup 判决 Anthropic “使用受版权保护的书籍来训练其大语言模型”、“将合法购买的纸质书扫描成数字副本用于内部研究”属于“合理使用”;但“从盗版网站下载数百万本书籍并将其永久存储在其中央数据库中”,属于“侵权”。

  然后,Anthropic 同意支付 15 亿美元和作者们达成和解。这个数字看上去惊人,但对于当时估值 1830 亿美元,如今 3500 亿美元的头部 AI 实验来说,可以看作花钱买数据的“合规成本”。

  本以为事情已经结束了,但最近,法庭公布了一些文件,让我们有机会看清这些标榜“安全、合乎伦理”的 AI 企业,内部运作的真实面貌。

  其中最令人震惊是一个代号为“巴拿马计划”的秘密项目。文件中赤裸裸地写道“巴拿马计划是我们毁灭性扫描世界上所有书籍的努力……我们不希望外界知道我们正在做这件事。”

  所谓毁灭性扫描,指的就是 Anthropic 花费数千万美元,从各种渠道大量采购实体书后,用切割机切掉书籍,再用告诉扫描仪将纸质书转化为电子数据。最后,那些被“肢解”后的、不再有价值的书本,被当作废品送去回收公司。

  法庭文件披露,Anthropic 巴拿马计划中用于存放书籍的仓库

  这种物理层面的彻底销毁,是一种对知识载体本身的真正漠视,说明在这些“科技精英”严重,书籍的价值仅仅是其中可供提取的“数据”。这暴露出许多生成式 AI 行业狂飙突进背后掩盖的问题。

高质量数据饥渴症:为何非书不可?

  要解释 Anthropic 为何不惜背负骂名也要铤而走险,就必须理解大模型对高质量数据的极度饥渴。

  公众普遍认为,AI 模型是在“互联网”上训练的。这没有错,AI 需要了解网络上的信息。

  但互联网上的内容,充斥着大量低质量的“喷子言论”,以及重复、错误和毫无逻辑的文本。如果只用这些数据投喂,训练出的模型,其语言能力和逻辑推理能力的上限是显而易见的。

  Anthropic 的一位联合创始人在内部文件中一针见血地指出,用书籍训练 AI,可以教会模型“如何写得好”。

  书籍,特别是经过专业编辑、校对和出版的非虚构类和虚构类作品,代表了人类语言运用、逻辑构建和知识结构的最高水平。它们是结构化、高信噪比、经过验证的优质数据源。

  对于追求模型能力突破的 AI 公司来说,书籍一定是不可或缺的“AI 主粮”。

  Meta 的内部邮件也显示,获取一个庞大的数字图书库,对于在 AI 竞争中保持优势是“至关重要的”。

  这就形成了一个悖论:AI 想要模仿和学习人类最高水平的智慧,但其创造者们却试图用最低成本、最粗暴的方式去获取这些智慧的结晶。

  这些公司认为与成千上万的作者和出版商逐一谈判授权,在实践中是不可行的,会严重拖慢他们的开发速度。于是,他们选择了最简单的做法——盗版。

  本次涉及的盗版书网站

  Anthropic 的联合创始人 Ben Mann 早在 2021 年就亲自从影子图书馆 LibGen 下载了大量书籍。当 2022 年一个新的盗版网站“海盗图书馆镜像”上线时,Ben 兴奋地在公司内部转发链接,并附言:“来得正是时候!!!”。

  这种心态在 Meta 内部同样普遍。有工程师在内部沟通中写道:“用公司的笔记本电脑玩BT下载感觉不太对劲”。另一封邮件则显示,在将使用 LibGen 的风险“上报给 MZ”(一个明显的指向 CEO 马克·扎克伯格的缩写)之后,这项操作得到了批准。

  为了掩盖行踪,他们甚至讨论使用亚马逊的服务器而不是 Facebook 自己的服务器进行下载,以“避免被追踪回公司”。

  一份法庭文件中披露的两位 Meta 员工对话摘录

  这说明,盗版侵权并不是公司个别员工的违规操作,而是一场自上而下、被默许甚至被批准的、全行业范围内的系统性侵权。

  他们深知其中的法律和公关风险,但为了在激烈的军备竞赛中抢占先机,他们选择了赌一把。

  这种“先上车后补票”,甚至“上车再说,被抓了再赔钱”的思维,是过去几十年科技行业野蛮生长的惯性延续。

分裂的判决:一场为 AI 划定边界的法律博弈

  当版权诉讼的浪潮袭来时,AI 公司们不约而同地举起了“合理使用”这面挡箭牌。

  而美国加州北区联邦法院法官 William Alsup 对 Anthropic 案的判决,堪称是 AI 版权领域的里程碑事件。

  这个判决的核心,是一次精妙的“切割”。法官没有一刀切地支持或否定 AI 公司,而是将它们的行为链条拆解开来,分别定性。

  首先,对于最核心的“训练”行为,法官站在了 AI 公司一边。

  他认为,AI 模型使用受版权保护的作品进行训练,其目的不是复制或取代原作,而是学习写作的模式、风格和结构,以“创造出一些截然不同的东西”。这个过程具有“极高的变革性”,因此属于合理使用。

  这相当于给 AI 行业的“学习”行为开了绿灯,让所有 AI 公司都松了一口气。

  其次,对于“巴拿马计划”中购买实体书并扫描的行为,法官也认定为合理使用。他认为这仅仅是“格式转换”。既然 Anthropic 已经合法购买了这些书,将它们从实体变为数字,主要是为了方便内部研究,并没有增加副本数量或对外分发,因此也可以接受。

  然而,判决最严厉的部分,直指 AI 公司的“原罪”——获取和存储盗版数据。法官明确指出,为了建立一个通用研究图书馆而盗版书籍,其本身就是侵权,它直接取代了本应付费购买的市场。他驳斥了 AI 公司试图用“最终用途的变革性”来掩盖“上游侵权行为”的论点,并掷地有声地写道:“《版权法》中没有为 AI 公司开辟的例外条款。”

  这个判决的意义极其深远。

  它实际上为“合理使用”在AI时代的适用,划定了一条关键的界限,并传递了一个清晰的信号:你可以为了学习而“阅读”(训练),但你不能把“偷来”的书永远放在你的书架上(存储)。

  这场判决迫使 Anthropic 不得不坐到谈判桌前,掏出 15 亿美元寻求和解。否则,一旦进入损害赔偿的审判阶段,面对数百万本书籍的侵权指控,其面临的法定赔偿可能是数百甚至数千亿美元的天文数字。

“纳普斯特时刻”之后:AI 产业的新牌局

  许多人将此次和解称为 AI 行业的“纳普斯特时刻”(Napster Moment)。本世纪初,音乐共享服务 Napster 因大规模侵权被判关闭,但这并没有杀死数字音乐,反而催生了 iTunes 和 Spotify 等正版商业模式,重塑了整个音乐产业。

  相似地,Anthropic 的这次天价和解,也不会杀死生成式 AI,但它将深刻地改变游戏规则。

  第一,数据来源的“原罪”将无处遁形。

  判决和和解协议都明确了一点:数据的获取方式至关重要。AI 公司再也无法以“技术创新”为名,对训练数据的来源视而不见。使用盗版、来源不明的数据集,将面临巨大的法律和财务风险。这将倒逼整个行业进行数据供应链的合规性审查和清理。

  第二,“先买后用”的授权模式将成为主流。

  既然“先偷后用,被抓再赔”的路径被证明代价高昂,那么“先买后用”就成了最安全、最合规的选择。可以预见,AI 公司在数据上的投入将大幅增加。与出版商、新闻机构、图片库、音乐公司等内容所有者的合作将成为常态。一个全新的、围绕 AI 训练数据授权的庞大市场正在形成。内容创作者们,第一次真正拥有了与 AI 巨头们议价的筹码。

  第三,诉讼焦点将从“怎么用”转向“从哪来”。

  既然法官裁定训练行为属于“合理使用”,那么未来的诉讼焦点将更多聚焦于侵权证据:如何证明数据来源合法,是否非法保留了副本?

  第四,巨头与创业公司之间的“数据鸿沟”可能加剧。

  像 Anthropic、Google、微软这样财力雄厚的巨头,有能力支付高昂的和解金或授权费,从而建立起合规的数据壁垒。而对于中小创业公司和开源社区来说,获取高质量、大规模、合规的训练数据将变得更加困难和昂贵。

  这在无形中提高了 AI 领域的创新门-槛,可能会进一步巩固巨头的领先地位。

结语

  我去看了看,这场 15 亿美元的和解,每本书大概能拿到 3000 美元,一些出版书比较多的作者,可以一次性拿到不错的赔偿。

  每本书大约能拿到 3000 美元赔偿

  但这笔钱本身,已经不是最重要的了。重要的是,这堂价值 15 亿美元的版权课,给全球所有 AI 从业者敲响的警钟。

  技术的发展,终究不能建立在对他人权利的践踏之上。你可以用前人的智慧去创造未来,但首先,你需要对这些智慧给予应有的尊重,至少,是合法的获取。

  生成式 AI 的“狂野西部”时代正在落幕,一个更加注重规则、合规和商业平衡的新阶段已经到来。

本文标题:为了训练Claude,Anthropic下载盗版、扫描并销毁了数百万本图书本文网址:https://www.sz12333.net.cn/zhzx/kexue/70214.html 编辑:12333社保查询网

本站是社保查询公益性网站链接,数据来自各地人力资源和社会保障局,具体内容以官网为准。
定期更新查询链接数据 苏ICP备17010502号-11