扎克伯格批准Meta使用“盗版”书籍训练AI模型,作者称

马克·扎克伯格批准Meta使用“盗版”版本的受版权保护书籍来训练公司的人造智能模型,一组作者在美国法庭的文件中声称。


根据内部Meta通讯,该文件声称社交网络公司的首席执行官支持使用LibGen数据集,这是一种庞大的在线书籍档案,尽管公司的AI执行团队曾警告这是一个“我们知道是盗版”的数据集。内部信息表示,使用包含盗版材料的数据库可能会削弱Facebook和Instagram所有者与监管机构的谈判。“媒体报道表明,我们使用了一个我们知道是盗版的数据集,例如LibGen,可能会损害我们与监管机构的谈判地位。” 伊隆·马斯克表示,AI训练的人类数据“已被耗尽”。

美国作家塔-尼希·科茨、喜剧演员莎拉·西尔弗曼以及其他起诉Meta的作者在加州联邦法院提交的诉状中做出了上述指控。这些作者在2023年起诉Meta,称该社交媒体公司未经许可地使用他们的书籍来训练Llama,这是为其聊天机器人提供动力的大型语言模型。Library Genesis,或称LibGen,是一种起源于俄罗斯的“影子图书馆”,声称包含数百万部小说、非虚构书籍和科学杂志文章。去年,一家纽约联邦法院命令LibGen的匿名操作者向一组出版商支付3000万美元(约2440万英镑)的版权侵权赔偿。

在生成性AI工具(如ChatGPT聊天机器人)开发过程中,使用受版权保护的内容进行AI模型训练已成为法律斗争的前线,创意专业人士和出版商警告称,未经允许使用他们的作品正在危及他们的生计和商业模式。诉状引用了一份备忘录,上面有马克·扎克伯格的首字母,指出“在升级到MZ之后”,Meta的AI团队“已获批准使用LibGen”。文件还引用了内部通讯,称Meta工程师讨论了访问和审查LibGen数据,但由于“从[Meta拥有的]企业笔记本电脑进行‘torrenting’(点对点文件共享)感觉不太妥当”,他们犹豫着启动这个过程。

美国地区法官文斯·查布里亚去年驳回了作者们的主张,认为Meta的AI模型生成的文本没有侵犯作者的版权,也认为Meta非法剥离了他们书籍的版权管理信息(CMI),即有关作品的信息,包括标题、作者姓名和版权拥有者。然而,法官允许原告修改其主张。

这一周,作家们争辩称,证据增强了他们的侵权主张,并证实了复兴其CMI案件和添加新计算机欺诈指控的合理性。查布里亚在周四的听证会上表示,他会允许作家提交修订后的投诉,但对欺诈和CMI主张的优点表示怀疑。Meta已被联系以获取评论。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

扎克伯格批准Meta使用“盗版”书籍训练AI模型,作者称

https://www.gptnb.com/2025/01/11/2025-01-10-auto1-Q8yPkf/

作者

ByteAILab

发布于

2025-01-11

更新于

2025-03-21

许可协议