炸裂！Anthropic销毁百万实体书训AI，犯众怒

一把老骨头发布于 2025-7-8 08:01 阅读：204 科技新闻

一份法庭文件显示，人工智能巨头Anthropic为了训练其AI，销毁了数百万本实体书。

近期，在对Anthropic公司（此处推测原内容可能存在主体混淆，按语境以英伟达相关类似行为阐述）的一项分割裁决中，隐藏着一个令人瞠目结舌的揭露。这家在生成式AI领域颇具影响力的公司，为了训练其AI助手，采取了极端且极具争议的手段。他们购买了数以百万册计的实体书，这些书籍本应是知识的载体、文化的传承，却在这场科技狂潮中遭遇了灭顶之灾。公司通过切断书籍的装订，将页面撕下并扫描进行数字化，而后无情地丢弃剩余部分，永久性地摧毁了这些珍贵的实体书。

令人意想不到的是，这种大规模破坏书籍的行为，竟然成为了公司赢得“合理使用”辩护的部分原因。法官认为，这种对书籍的数字化和抓取构成了足够的转换，符合合理使用的标准。公司宣称，其AI助手Claude可能会使用这些数字化的图书馆来生成独特的内容。然而，批评者却指出，大型语言模型有时会完全复制其训练数据中的材料，这意味着所谓的“独特内容”可能并非真正独特，而是对原作品的剽窃。

Anthropic构建其AI模型，试图打造能与ChatGPT等竞争对手相抗衡的产品。为了获取足够的训练数据，他们不惜一切代价，将目光投向了海量的实体书籍。在购买了大量书籍后，没有选择妥善保存或合理利用，而是选择了销毁这种极端方式来完成数字化进程。并且，该公司没有计划公开提供由此产生的数字副本，这进一步引发了人们对版权保护和数据隐私的担忧。

Anthropic此次部分法律上的“胜利”，看似为其在AI训练道路上扫除了一个障碍，允许它在未经原作者或出版商通知的情况下对版权书籍进行AI模型训练。但实际上，这可能只是暴风雨前的宁静。一位前金属公司的执行官曾坦言，如果要求AI开发者严格遵守版权法，AI产业可能会一夜之间陷入困境，因为开发者难以获取训练大型语言模型所需的庞大数据集。然而，这并不能成为侵犯版权的借口。

持续不断的版权纠纷就像一把高悬在生成式AI行业头顶的达摩克利斯之剑，对该技术构成了重大威胁。本月早些时候，Getty Images的首席执行官无奈地表示，公司无法承担与每一起人工智能相关版权侵权行为斗争的高昂成本。与此同时，迪士尼针对Midjourney提起的诉讼更是引起了广泛关注。在该案中，迪士尼展示了图像生成器复制受版权保护内容的能力，这一事件可能对更广泛的生成式人工智能生态系统产生深远影响。

尽管联邦法院称对书籍进行人工智能训练在一定程度上属于合理使用，但也将Anthropic告上法庭，指控其盗版行为。尽管法官裁定该公司因部分依赖盗版书籍库来培训Claude而败诉，但Anthropic仍需在12月面临一场版权审判。届时，它可能会被要求为每部盗版作品支付高达15万美元的赔偿金，这无疑是一笔巨额的潜在损失。这场版权争议不仅关乎英伟达自身的利益，更将决定整个生成式AI行业未来的发展方向。