2023年加州北区联邦法院William Alsup法官对Anthropic公司版权诉讼案的裁决,堪称生成式AI发展史上的里程碑事件。这起案件的核心争议点在于:AI公司使用受版权保护的书籍训练大语言模型(如Claude)是否构成合理使用(fair use)?同时,通过盗版渠道获取训练数据的行为又该如何定性?
案件起源于多位作家对Anthropic的集体诉讼,指控其训练数据中包含了他们的版权作品。法官在长达48页的判决书中,首次系统性地将AI训练过程拆解为三个独立的法律行为进行分析:
合法购买实体书并数字化:Anthropic曾耗资数百万美元购买实体书籍,经扫描后建立数字图书馆。法官认定这种"格式转换"属于合理使用范畴,因为本质上只是改变了内容载体形式,并未创造新的衍生作品。
使用版权材料训练AI模型:法院认为这种行为具有"转化性使用"(transformative use)特征,符合美国版权法第107条规定的合理使用原则。关键判定依据是模型输出并非原始作品的简单重组,而是通过学习语言模式生成全新内容。
通过盗版网站获取电子书:法官严厉批评了Anthropic从Books3、LibGen等盗版平台下载700余万本电子书的行为,明确指出这属于版权侵权,与企业规模或技术先进性无关。
提示:合理使用原则的"四要素测试"包括:(1)使用的目的和性质;(2)版权作品的性质;(3)使用部分的数量和实质性;(4)对原作品市场的影响。
法官采用经典的合理使用四要素分析法,得出AI训练属于合理使用的结论:
转化性目的:类比人类阅读学习过程,LLM通过分析文本统计规律来掌握语言能力,而非复制具体表达。判决书特别指出:"Claude模型不会输出逐字复制内容,甚至不会模仿特定作者的写作风格"。
作品性质考量:虽然涉案书籍多为创造性作品(小说、散文等),但法院认为AI学习的是语言通用模式,不针对特定作品的独创性表达。
使用量级评估:尽管使用了完整作品,但关键在于模型并未保留作品副本,而是提取抽象特征。这区别于传统意义上的"全部复制"。
市场影响测试:没有证据显示AI训练影响了原作品销售,反而可能扩大作品影响力。法官特别强调:"技术进步的公共利益应被优先考虑"。
与训练行为的合法性认定形成鲜明对比,法官对Anthropic的盗版数据获取行为进行了严厉谴责:
明知故犯的主观恶意:内部邮件显示公司高管清楚Books3等平台的盗版性质,仍系统性下载196,640本图书作为"种子数据集"。
合法替代方案存在:Anthropic自身就拥有通过正规渠道采购的百万级图书数据库,证明盗版并非必要选择。
商业规模效应:700万本的庞大规模使得法定赔偿下限就达5.25亿美元(按每本750美元计算),实际赔偿可能更高。
数据获取策略重构:
版权合规体系建设:
mermaid复制graph TD
A[数据源评估] --> B{是否受版权保护?}
B -->|是| C[获取合法授权]
B -->|否| D[验证公共领域状态]
C --> E[记录授权链条]
D --> F[保存验证证据]
改为文字描述:
企业应建立完整的数据治理流程:首先评估数据源版权状态,对受保护内容必须获取合法授权;对声称的公共领域材料需保存验证证据;所有数据处理环节需保留完整的授权链条记录。
技术架构调整建议:
新型授权模式探索:
维权策略优化:
尽管本案作出了突破性裁决,仍有多个关键问题悬而未决:
模型输出的版权归属:
国际司法协调难题:
技术发展带来的新挑战:
在实际操作中,建议AI研发团队采取以下风险控制措施:
这个判例揭示了一个根本性矛盾:技术迭代需要海量数据喂养,而传统版权体系设计初衷是限制复制行为。在后续发展中,可能需要建立新型的知识产权交易市场,通过技术手段实现:
最终平衡点或许在于构建"数据共生生态",让创作者能通过AI应用获得合理回报,同时保持技术创新的活力。这需要法律、技术和商业模式的协同进化。