在人工智能引发的版权风暴中,学术出版界也正式下场。近日,旗下拥有《柳叶刀》、《细胞》等刊物的科学出版巨头爱思唯尔(Elsevier)与其它四家出版社联合起诉Meta公司及其CEO马克·扎克伯格,指控其在开发AI大模型过程中,未经授权复制和使用大量受版权保护的书籍、教材和学术论文。

这是大型科学出版商首次就AI训练数据问题起诉科技公司。其他起诉者包括阿歇特出版集团(Hachette)、麦克米伦(Macmillan)、圣智学习(Cengage Learning)、麦格劳·希尔(McGraw Hill)四家出版集团以及一名畅销书作家斯科特·图罗(Scott Turow)。

这些原告指控Meta在开发“Llama”AI大语言模型时,进行了“历史上最严重的版权侵权行为之一”。起诉书中指出,为了在AI军备竞赛中抢占先机,Meta不仅使用了包含数十亿网页的网络抓取数据集,还从Sci-Hub、LibGen等备受争议的盗版网站上下载并传播了数百万本受版权保护的书籍和付费学术期刊文章。此外,Meta还被指控删除了作品中的版权声明与作者信息,以掩盖数据来源。

原告方披露的Meta内部邮件显示,Meta曾考虑过与出版商签署合法的授权协议,但在扎克伯格的主导下,公司最终放弃了谈判,转而直接使用盗版数据库。尽管内部员工曾对其中的法律和伦理风险提出过明确担忧,相关计划依然被强行推进。

《自然》杂志在今天的一篇报道中指出,对于AI公司而言,学术文献和研究论文作为高质量的语料,能够极大提升大模型在科学领域的准确性。然而,学术界对此的态度却颇为微妙。有研究人员认为,许多学者其实并不排斥自己的论文被用于训练AI,他们更在意的是生成式AI在输出时是否剽窃了作者的写作风格,或者无法提供正确的引用信息。

与此同时,科学出版商在这场博弈中正展现出双重姿态——一方面在法庭上强硬维权,另一方面又在私下与科技巨头达成利润丰厚的数据许可协议。《自然》援引一名研究者的观点指出,这种限于出版商与大型AI公司之间的独家交易,可能会进一步垄断数据资源,导致致力于构建开源模型的开发者和独立科研人员难以获取高质量的论文。

面对出版商的猛烈攻势,Meta发言人予以否认,并表示将积极应对诉讼。Meta的核心辩护理由依然是美国版权法中的“合理使用”原则,强调使用受版权保护的材料训练AI属于“变革性创新”。

近年来,围绕AI模型训练的法律争议已成为科技界的常态。2025年,AI公司Anthropic就曾为平息作家的集体版权诉讼,同意支付高达15亿美元达成和解。

Meta在2025年6月与作家理查德·卡德雷等人的官司中获得阶段性胜利。当时美国法院裁定,由于原告未能充分证明AI生成的内容对原创作品市场造成了实质性损害,因此Meta的训练行为暂落入“合理使用”的范畴。但判决也强调,强调若未来能证明AI对原创市场形成替代效应,侵权诉求依然成立。