Meta深陷版权泥潭：盗取81.7 TB影子图书馆数据涉嫌非法训练AI

一把老骨头发布于 2025-2-15 08:03 阅读：541 科技新闻

Meta Platforms, Inc. 正面临一场严峻的版权侵权诉讼，据原告指控，该公司利用影子图书馆中的81.7 TB盗版书籍来训练其Llama AI模型。这一案件在美国加州北区地方法院提起，指控Meta非法使用来自Z-Library和LibGen等来源的受版权保护材料，尽管内部对于此类行为的合法性和道德性表达了担忧。

由畅销书作家理查德·卡德里（Richard Kadrey）等人领导的原告提出了一项动议，反对审前发现裁决，他们认为这限制了收集针对Meta的关键证据的能力。在最新披露的超过2000份文件中，包含了员工对使用盗版材料进行AI培训的确凿承认。这些文件揭示了Meta员工对使用LibGen这样的数据库作为“盗版”内容来源的担忧，并且表明关于使用这些材料的决定被上报给了CEO马克·扎克伯格。

根据原告的说法，Meta不仅继续下载和共享影子图书馆的数据，还试图掩盖其行径。据报道，从2024年4月开始，Meta秘密地通过种子下载方式获取了至少81.7 TB的数据，其中35.7 TB来自Z-Library和LibGen。这些数据包含数千万份用于训练Llama模型的版权作品，规模之大远超以往涉及知识产权盗窃的案例。

原告要求法院重新审查关键证人的证词，并希望访问Meta的种子日志以及同行共享记录，以证明盗版材料的下载量和再分发情况。此外，他们声称即将发布的Llama 4和5版本所用的数据集与案件相关，应当予以公开。如果原告胜诉，此案可能会为科技行业设定一个重要的先例，即公司在机器学习模型中使用未经授权的内容需承担责任。

AI Llama Meta