«

Meta深陷版权泥潭:盗取81.7 TB影子图书馆数据涉嫌非法训练AI

一把老骨头 发布于 阅读:272 科技新闻


Meta Platforms, Inc. 正面临一场严峻的版权侵权诉讼,据原告指控,该公司利用影子图书馆中的81.7 TB盗版书籍来训练其Llama AI模型。这一案件在美国加州北区地方法院提起,指控Meta非法使用来自Z-Library和LibGen等来源的受版权保护材料,尽管内部对于此类行为的合法性和道德性表达了担忧。

由畅销书作家理查德·卡德里(Richard Kadrey)等人领导的原告提出了一项动议,反对审前发现裁决,他们认为这限制了收集针对Meta的关键证据的能力。在最新披露的超过2000份文件中,包含了员工对使用盗版材料进行AI培训的确凿承认。这些文件揭示了Meta员工对使用LibGen这样的数据库作为“盗版”内容来源的担忧,并且表明关于使用这些材料的决定被上报给了CEO马克·扎克伯格。

根据原告的说法,Meta不仅继续下载和共享影子图书馆的数据,还试图掩盖其行径。据报道,从2024年4月开始,Meta秘密地通过种子下载方式获取了至少81.7 TB的数据,其中35.7 TB来自Z-Library和LibGen。这些数据包含数千万份用于训练Llama模型的版权作品,规模之大远超以往涉及知识产权盗窃的案例。

原告要求法院重新审查关键证人的证词,并希望访问Meta的种子日志以及同行共享记录,以证明盗版材料的下载量和再分发情况。此外,他们声称即将发布的Llama 4和5版本所用的数据集与案件相关,应当予以公开。如果原告胜诉,此案可能会为科技行业设定一个重要的先例,即公司在机器学习模型中使用未经授权的内容需承担责任。

AI Llama Meta