12333社保查询网

手机社保查询　|　加入收藏

首页 > 综合资讯 > 科学 >

为了训练Claude，Anthropic下载盗版、扫描并销毁了数百万本图书

12333社保查询网www.sz12333.net.cn 2026-02-15来源：人力资源和社会保障局

　　本文仅在今日头条发布，谢绝转载

　　文 | 段小草（自由撰稿人）

　　导读：一场15亿美元的和解，撕下了“负责任的 AI”的遮羞布。Anthropic买到的不是图书版权，而是对过去盗版罪责的赦免。尽管法官裁定使用书籍训练 AI 属于“合理使用”，但这次，AI 的原罪不是抄袭，而是傲慢。

　　2024 年 8 月，有三位作家和记者发起了集体诉讼，指控 Anthropic 在未经许可、未支付报酬的情况下，使用了他们作品的盗版版本来训练 Claude 模型。

　　去年 6 月，美国加州北区联邦法院法官 William Alsup 判决 Anthropic “使用受版权保护的书籍来训练其大语言模型”、“将合法购买的纸质书扫描成数字副本用于内部研究”属于“合理使用”；但“从盗版网站下载数百万本书籍并将其永久存储在其中央数据库中”，属于“侵权”。

　　然后，Anthropic 同意支付 15 亿美元和作者们达成和解。这个数字看上去惊人，但对于当时估值 1830 亿美元，如今 3500 亿美元的头部 AI 实验来说，可以看作花钱买数据的“合规成本”。

　　本以为事情已经结束了，但最近，法庭公布了一些文件，让我们有机会看清这些标榜“安全、合乎伦理”的 AI 企业，内部运作的真实面貌。

　　其中最令人震惊是一个代号为“巴拿马计划”的秘密项目。文件中赤裸裸地写道“巴拿马计划是我们毁灭性扫描世界上所有书籍的努力……我们不希望外界知道我们正在做这件事。”

　　所谓毁灭性扫描，指的就是 Anthropic 花费数千万美元，从各种渠道大量采购实体书后，用切割机切掉书籍，再用告诉扫描仪将纸质书转化为电子数据。最后，那些被“肢解”后的、不再有价值的书本，被当作废品送去回收公司。

　　法庭文件披露，Anthropic 巴拿马计划中用于存放书籍的仓库

　　这种物理层面的彻底销毁，是一种对知识载体本身的真正漠视，说明在这些“科技精英”严重，书籍的价值仅仅是其中可供提取的“数据”。这暴露出许多生成式 AI 行业狂飙突进背后掩盖的问题。

高质量数据饥渴症：为何非书不可？

　　要解释 Anthropic 为何不惜背负骂名也要铤而走险，就必须理解大模型对高质量数据的极度饥渴。

　　公众普遍认为，AI 模型是在“互联网”上训练的。这没有错，AI 需要了解网络上的信息。

　　但互联网上的内容，充斥着大量低质量的“喷子言论”，以及重复、错误和毫无逻辑的文本。如果只用这些数据投喂，训练出的模型，其语言能力和逻辑推理能力的上限是显而易见的。

　　Anthropic 的一位联合创始人在内部文件中一针见血地指出，用书籍训练 AI，可以教会模型“如何写得好”。

　　书籍，特别是经过专业编辑、校对和出版的非虚构类和虚构类作品，代表了人类语言运用、逻辑构建和知识结构的最高水平。它们是结构化、高信噪比、经过验证的优质数据源。

　　对于追求模型能力突破的 AI 公司来说，书籍一定是不可或缺的“AI 主粮”。

　　Meta 的内部邮件也显示，获取一个庞大的数字图书库，对于在 AI 竞争中保持优势是“至关重要的”。

　　这就形成了一个悖论：AI 想要模仿和学习人类最高水平的智慧，但其创造者们却试图用最低成本、最粗暴的方式去获取这些智慧的结晶。

　　这些公司认为与成千上万的作者和出版商逐一谈判授权，在实践中是不可行的，会严重拖慢他们的开发速度。于是，他们选择了最简单的做法——盗版。

　　本次涉及的盗版书网站

　　Anthropic 的联合创始人 Ben Mann 早在 2021 年就亲自从影子图书馆 LibGen 下载了大量书籍。当 2022 年一个新的盗版网站“海盗图书馆镜像”上线时，Ben 兴奋地在公司内部转发链接，并附言：“来得正是时候！！！”。

　　这种心态在 Meta 内部同样普遍。有工程师在内部沟通中写道：“用公司的笔记本电脑玩BT下载感觉不太对劲”。另一封邮件则显示，在将使用 LibGen 的风险“上报给 MZ”（一个明显的指向 CEO 马克·扎克伯格的缩写）之后，这项操作得到了批准。

　　为了掩盖行踪，他们甚至讨论使用亚马逊的服务器而不是 Facebook 自己的服务器进行下载，以“避免被追踪回公司”。

　　一份法庭文件中披露的两位 Meta 员工对话摘录

　　这说明，盗版侵权并不是公司个别员工的违规操作，而是一场自上而下、被默许甚至被批准的、全行业范围内的系统性侵权。

　　他们深知其中的法律和公关风险，但为了在激烈的军备竞赛中抢占先机，他们选择了赌一把。

　　这种“先上车后补票”，甚至“上车再说，被抓了再赔钱”的思维，是过去几十年科技行业野蛮生长的惯性延续。

分裂的判决：一场为 AI 划定边界的法律博弈

　　当版权诉讼的浪潮袭来时，AI 公司们不约而同地举起了“合理使用”这面挡箭牌。

　　而美国加州北区联邦法院法官 William Alsup 对 Anthropic 案的判决，堪称是 AI 版权领域的里程碑事件。

　　这个判决的核心，是一次精妙的“切割”。法官没有一刀切地支持或否定 AI 公司，而是将它们的行为链条拆解开来，分别定性。

　　首先，对于最核心的“训练”行为，法官站在了 AI 公司一边。

　　他认为，AI 模型使用受版权保护的作品进行训练，其目的不是复制或取代原作，而是学习写作的模式、风格和结构，以“创造出一些截然不同的东西”。这个过程具有“极高的变革性”，因此属于合理使用。

　　这相当于给 AI 行业的“学习”行为开了绿灯，让所有 AI 公司都松了一口气。

　　其次，对于“巴拿马计划”中购买实体书并扫描的行为，法官也认定为合理使用。他认为这仅仅是“格式转换”。既然 Anthropic 已经合法购买了这些书，将它们从实体变为数字，主要是为了方便内部研究，并没有增加副本数量或对外分发，因此也可以接受。

　　然而，判决最严厉的部分，直指 AI 公司的“原罪”——获取和存储盗版数据。法官明确指出，为了建立一个通用研究图书馆而盗版书籍，其本身就是侵权，它直接取代了本应付费购买的市场。他驳斥了 AI 公司试图用“最终用途的变革性”来掩盖“上游侵权行为”的论点，并掷地有声地写道：“《版权法》中没有为 AI 公司开辟的例外条款。”

　　这个判决的意义极其深远。

　　它实际上为“合理使用”在AI时代的适用，划定了一条关键的界限，并传递了一个清晰的信号：你可以为了学习而“阅读”（训练），但你不能把“偷来”的书永远放在你的书架上（存储）。

　　这场判决迫使 Anthropic 不得不坐到谈判桌前，掏出 15 亿美元寻求和解。否则，一旦进入损害赔偿的审判阶段，面对数百万本书籍的侵权指控，其面临的法定赔偿可能是数百甚至数千亿美元的天文数字。

“纳普斯特时刻”之后：AI 产业的新牌局

　　许多人将此次和解称为 AI 行业的“纳普斯特时刻”（Napster Moment）。本世纪初，音乐共享服务 Napster 因大规模侵权被判关闭，但这并没有杀死数字音乐，反而催生了 iTunes 和 Spotify 等正版商业模式，重塑了整个音乐产业。

　　相似地，Anthropic 的这次天价和解，也不会杀死生成式 AI，但它将深刻地改变游戏规则。

　　第一，数据来源的“原罪”将无处遁形。

　　判决和和解协议都明确了一点：数据的获取方式至关重要。AI 公司再也无法以“技术创新”为名，对训练数据的来源视而不见。使用盗版、来源不明的数据集，将面临巨大的法律和财务风险。这将倒逼整个行业进行数据供应链的合规性审查和清理。

　　第二，“先买后用”的授权模式将成为主流。

　　既然“先偷后用，被抓再赔”的路径被证明代价高昂，那么“先买后用”就成了最安全、最合规的选择。可以预见，AI 公司在数据上的投入将大幅增加。与出版商、新闻机构、图片库、音乐公司等内容所有者的合作将成为常态。一个全新的、围绕 AI 训练数据授权的庞大市场正在形成。内容创作者们，第一次真正拥有了与 AI 巨头们议价的筹码。

　　第三，诉讼焦点将从“怎么用”转向“从哪来”。

　　既然法官裁定训练行为属于“合理使用”，那么未来的诉讼焦点将更多聚焦于侵权证据：如何证明数据来源合法，是否非法保留了副本？

　　第四，巨头与创业公司之间的“数据鸿沟”可能加剧。

　　像 Anthropic、Google、微软这样财力雄厚的巨头，有能力支付高昂的和解金或授权费，从而建立起合规的数据壁垒。而对于中小创业公司和开源社区来说，获取高质量、大规模、合规的训练数据将变得更加困难和昂贵。

　　这在无形中提高了 AI 领域的创新门-槛，可能会进一步巩固巨头的领先地位。

结语

　　我去看了看，这场 15 亿美元的和解，每本书大概能拿到 3000 美元，一些出版书比较多的作者，可以一次性拿到不错的赔偿。

　　每本书大约能拿到 3000 美元赔偿

　　但这笔钱本身，已经不是最重要的了。重要的是，这堂价值 15 亿美元的版权课，给全球所有 AI 从业者敲响的警钟。

　　技术的发展，终究不能建立在对他人权利的践踏之上。你可以用前人的智慧去创造未来，但首先，你需要对这些智慧给予应有的尊重，至少，是合法的获取。

　　生成式 AI 的“狂野西部”时代正在落幕，一个更加注重规则、合规和商业平衡的新阶段已经到来。

本文标题：为了训练Claude，Anthropic下载盗版、扫描并销毁了数百万本图书本文网址：https://www.sz12333.net.cn/zhzx/kexue/70214.html　编辑：12333社保查询网

12333社保查询网

为了训练Claude，Anthropic下载盗版、扫描并销毁了数百万本图书

相关信息

推荐