AI训练数据的合法性边界:Westlaw诉Ross Intelligence案解读 | xxxAI训练数据的合法性边界:Westlaw诉Ross Intelligence案解读 – xxx
菜单

AI训练数据的合法性边界:Westlaw诉Ross Intelligence案解读

四月 7, 2024 - 安全内参

Ross Intelligence(罗斯智能公司)曾经是享誉全球的法律人工智能科创企业引领者,如今却在版权纠纷之下而被迫停业。在人工智能技术日益成熟的今天,汤森路透对罗斯智能公司的诉讼案件,不仅是一场关于版权法界限的法律较量,也是有关创新与传统版权保护如何共存的一次深刻探讨。本案件围绕汤森路透指控罗斯智能公司“非法复制其法律数据库内容以训练人工智能系统”这一行为展开,讨论公平使用原则、版权法适用性以及技术创新与知识产权保护之间的平衡问题。本案的主审法官——比巴斯法官面对以上难题不得不将此案交由陪审团裁决,也意味着这些法律界与科技界都高度关注的复杂争议需要更深入的审理和公众的理解。

本案不仅对法律专业人士提出了挑战,也对科技行业的未来发展方向提出了一系列重要的问题:在快速发展的人工智能领域,如何界定数据的使用权界限?公平使用原则在新技术面前如何适应?这些问题的探讨,不仅关乎一场诉讼的胜负,更影响到创新与版权保护的未来走向。对于跟踪最新科技趋势和法律发展的人士来说,这是一个不容错过的案例,它将为我们提供一个了解和思考技术创新与知识产权法律冲突与解决之道的宝贵机会。

案件事实概括

Ross Intelligence(罗斯智能公司,以下简称Ross)试图利用机器学习原理创建一个有关法律的“自然语言搜索引擎”人工智能系统(用户输入问题,搜索引擎会从司法意见中自动整理出引文)。Ross向汤森路透集团申请使用Westlaw[1]的法律材料来进行机器学习的训练。但汤森路透不允许用户使用Westlaw开发竞争平台,未授权Ross使用Westlaw平台。于是Ross聘请了LegalEase Solutions(一家第三方法律研究公司,以下简称LegalEase)。LegalEase利用Westlaw创建包含法律问题和答案的备忘录,其中法律问题的受众大多设定为执业律师,问题的答案则直接引用司法意见。最终,LegalEase生成了含有大约25,000套问答集的批量备忘录。每个备忘录都包含一个问题和四到六个答案,并对每个答案的相关性进行评价。随后,LegalEase生成的备忘录经过复制后传输给Ross,后者将其转换为可用于机器学习训练的数据——首先将书面语言编码为数字数据,然后通过“Featurizer”工具对这些数据进行各种数学计算。

本案的核心源于LegalEase所创建的“批量备忘录项目”。汤森路透表示,备忘录项目中的问题基本上都是在Westlaw已经创建的的法律标题后简单地加上问号。其中25,000份备忘录都是复制而来,但它仅对2,830份进行即决判决。因为它认为LegalEase复制这2,830份备忘录是无可争议的,就连Ross自己的专家也承认了这一点。Ross辩称,备忘录中的问题与Westlaw上的标题有一定相似性,但不是直接抄袭了它们,而是在其基础上提出了自己的问题。

除了批量备忘录项目外,LegalEase还为Ross提供了另外两项相关服务。首先,LegalEase从Westlaw的密钥号码系统中向Ross发送了一份含有91个法律主题的列表。Ross承认,在创建自己备忘录的38个主题时,它“考虑了”这些主题,这些主题用于实验性的“分类器项目”,但它最终放弃了该项目。其次,LegalEase还向Ross发送了500条司法意见,包括Westlaw的标题、关键数字和其他注释。

在本案中,汤森路透认为Ross侵犯了其对Westlaw的版权,并提出版权索赔。Ross的抗辩有两点,第一,Ross对Westlaw的版权的范围和有效性提出质疑;第二,Ross认为其利用Westlaw的案例进行机器学习,开发人工智能法律平台是对Westlaw的合理使用。

侵权版权的讨论

如若认定Ross侵犯版权,必须认定Ross的行为满足了侵犯版权索赔的三个要素:有效版权的所有权、实际复制和实质的相似性。

2.1有效版权的所有权存在争议

2.1.1汇编版权

Ross认为Westlaw只有一个版权注册,此处Ross认为的版权注册即是一种汇编版权,汇编的内容包括数十万个标题和关键数字。而其仅仅复制其中的几千个不构成对汇编整体的版权侵权。

但以往的判例显示,“注册人将材料命名为汇编的事实本身并不意味着组成材料也不受版权保护”。当汇编的作者通过自己的原始文字呈现事实时,其他人可以复制出版物中的基本事实,但不能复制用于呈现这些事实的确切词语。因此,汇编作品的版权会延伸到该汇编内容中受版权保护的部分,并且可以对该汇编中的所有受保护的组成部分提起诉讼。这似乎对Ross的抗辩产生了极大的不利。

其实,在以往的判例中,也有汇编注册的版权被削弱的情况发生。如Ross引用的一起案例中,原告利用自己的确切选择和安排进行了法律汇编,但其仅仅在组织和选择州法律形式方面拥有汇编版权——而其汇编的基础条目,即州法律属于公共领域,不能受到版权法的保护。这似乎强调了汇编版权不能保护纯粹的公共领域的文件内容,而只能保护汇编人进行汇编所作出的创造性贡献。然而,对于文件的“检索、选择、组织、安排”是否都能体现出劳动人的智力成果,还有待商榷。

在本案中,双方就Westlaw在汇编过程中,“重新安排”和“组织不可保护的基础作品的方式”是否构成“超过最低限度的贡献”存在争议。汤森路透声称,员工为了更新和维护Westlaw的汇编系统,做出了很多创造性的组织决策,以确保该系统在其竞争对手中是独一无二的。但Ross回答说,Westlaw的汇编系统不是原创的,相关的大多数组织决策都是由一个计算机程序做出的,所创建的法律主题在很大程度上模仿了“作为法学院课程教授的常见教义主题”。尽管汤森路透的注册版权可以保护其密钥号码系统,但陪审团需要结合其对系统编排方式的原创性,来决定它是否真的受到保护,以及这种保护的延伸程度。

2.1.2单独的标题版权

如果不从整个Westlaw汇编的层面,而从Westlaw中的每个独立的标题的层面考虑版权问题,那么必须将汤森路透在标题中的版权与Ross所抗辩的汇编版权区分开来。如果标题只是汤森路透撰写的原创短篇书面作品,它们就有可能获得独立的个人版权保护。其版权的强度取决于标题与司法意见的重叠程度。如果标题只是复制了司法意见,那么它就没有版权。但如果它在复制了司法意见的基础上同时又加以更改,且超越了“微不足道”的程度,那么Westlaw拥有有效的版权。

Ross对汤森路透制定标题的方式,以及这些标题与受版权保护的作品的相似性提出了质疑。汤森路透指出,其标题是其律师所编辑的观点的原始陈述——总结最重要的案件事实,突出关键问题等。然而,Ross提供的证据表明,汤森路透自己的协议载明,标题必须“遵循或密切反映司法意见的语言”——这对标题的原创性留下了真正的事实争议。这一事实将产生两种后果:它既影响了汤森路透版权的力量和程度,也影响了Ross是复制了Westlaw的标题还是公共领域的司法意见本身。

2.2“实际复制”的要件业已满足

汤森路透必须证明Ross(或LegalEase)“实际复制”了其受版权保护的作品。实际复制的重点是被告是否确实使用了受版权保护的作品来创作自己的作品。如果Ross独立创建自己的作品,那么无论相似性如何,都没有发生侵权行为。

在程序上,有两种方法可以判断实际复制。第一,汤森路透可以提供直接证据证明Ross使用了Westlaw进行创作;第二,它可以提供间接证据,证明Ross(或LegalEase)可以访问受版权保护的作品,并且他们的作品具有“复制上的相似性”。

汤森路透同时运用了以上两种方式进行了证明。对于直接复制,汤森路透证明LegalEase已经承认复制了部分标题。至于间接证据,LegalEase一直都可以访问Westlaw,包括标题注释的访问。即便汤姆森路透的作品与Ross的作品之间的相似性可能不是很大,但理智的陪审团一定会考虑这些相似性有可能证明存在着某些复制行为。即使Ross认为任何抄袭在整个汇编过程中都是微不足道的,但这并不属于“实际复制”的抗辩理由。

2.3实质性相似难以判断

实质性相似是指,作为一个普通的观察者,除非他有意发现两部作品的不同之处,否则会倾向于忽视这些不同,并认为两部作品的审美形式是相同的。直白地说,一个普通人会认为两部作品基本上是一样的。

本案在实质性相似性的认定方面出现了一些问题。首先,“批量备忘录 ”可能看起来与汤森路透的标题相似,因为它们有一个共同的基本来源:不受版权保护的司法意见。但若想进一步确定实质性相似,就必须确定Ross的作品与汤森路透受保护的表达方式实质相似,而不仅仅是与司法意见相似。而且,在本案中,双方产品的普通消费者都是律师。因此在本案中应该考虑到律师可能注意到的而非专业人士可能注意不到的差异。

汤森路透辩称,Ross的专家“已经承认”了两者作品上的相似性。Ross的专家汇编了 25,000 多条批量备忘录问题。然后,他们将每个问题与最相似的 Westlaw 标题配对,并将每个标题与最相似的司法意见段落配对。接下来以 1 到 5 的评分标准对两方面进行评分:问题与标题之间的相似度,以及标题与司法意见段落之间的相似度。汤森路透所说的 “承认”是指在比对的过程中,有 2830 个问题被评为与 1927 年后的标题密切匹配,但这些标题与司法意见文本却并没有完美匹配。(1927年之前创作的版权作品属于公有领域,不受保护)。

但是,汤森路透确定这2830个问题中的1623个复制这些标题的批量备忘录,并引用了标题出现的案例——但这还不够精确,因为汤森路透没有明确地指明这些问题具体复制了Westlaw的哪些标题。在另外1019个问题中,Ross的专家称,虽然每个问题都与标题高度重合,并且标题与司法意见文本并不完全相同,但汤森路透的报告也没有指出标题与司法意见文本的相似性完全来自汤森路透受保护的表达。此外,Ross还辩称要么司法意见文本与标题相同,要么司法意见文本与批量备忘录问题更相似,而不是标题与问题更相似,即Ross和汤森路透的工作之间的相似性源于无版权保护的司法意见,而不是汤森路透的原始表达。综上,对于这1623个问题,仍然要交给陪审团来审判其是否构成“实质性相似”。

最后,Ross对其余 188 个问题没有异议。尽管实质性相似通常是一个严密的事实问题,但法官不会逐一审查这 188 个问题并为Ross提出论据。这些标题注释中的每一条都与其相关的“批量备忘录”问题大体相似。但如上所述,这种复制是否构成侵权取决于这些标题注释是否是受版权法保护的表达。而这取决于陪审团仍然必须做出的事实判断。此外,要从 Ross 处获得赔偿,汤森路透至少要在责任理论中的其中一项上获胜,并击败 Ross 的合理使用抗辩。

侵权责任理论也需经过审判

3.1直接责任须由陪审团认定

Ross在其服务器上托管了批量备忘录的副本,将内容复制到其机器学习的“门户”中。同时将另一个副本传输到另一台服务器,该服务器能够帮助员工在计算机上创建更多副本,然后通过将部分副本复制到另一个文档中来处理和标记它们。但是不管怎样,简单地在服务器上托管副本就已经构成了复制。

汤森路透认为,Ross通过复制LegalEase建立的批量备忘录侵犯了 Westlaw 的复制权。如果汤森路透要想在直接责任上胜诉,LegalEase的批量备忘录必须是对其受保护表达的未经授权的复制。因为复制非复制品并不构成版权侵权。而批量备忘录是否复制了受保护的表达取决于陪审团必须做出的事实判断。

3.2共同责任须由陪审团认定

为了让Ross承担责任,汤森路透必须证明Ross(1)知道LegalEase侵权;(2)在实质上促成或者诱导了该侵权行为的发生。

汤森路透有确凿证据表明Ross知道 LegalEase 在使用 Westlaw。但如前所述,仅仅知道、甚至鼓励使用 Westlaw 是不够的。因为仅仅使用该服务并不构成侵权。此外,Ross也有证据表明它并不知道 LegalEase 正在侵权,也从未明确指示 LegalEase 使用 Westlaw。汤森路透没有提供足够的证据证明 Ross 知道 LegalEase 的侵权行为并对其起到了实质性的作用。

汤森路透试图通过论证LegalEase违反了Westlaw许可证,同时Ross知道这一点来证明Ross的共同责任。一旦LegalEase违反了许可证,它在Westlaw上所做的一切都是侵犯版权。因此,Ross对LegalEase违规行为的明知表明了Ross对侵犯版权的明知。

法官认为,汤森路透的这个论点混淆了许可证和版权侵权之间的关系。在许多版权案件中,许可被用作一种辩护手段。在涉及许可抗辩的案件中,一方声称自己侵权,另一方声称自己获得了许可。但如果声称获得许可的一方在使用过程中超出了许可范围,则可能要承担侵权责任。尽管如此,版权所有者的权利必须受到超出许可范围的具体活动的侵犯,否则版权所有者必须将违反许可的行为作为违反合同进行诉讼(即违约行为)。在本案中,对于LegalEase和Ross所称的复制行为不受许可保护这一点,并不存在真正的争议。问题在于他们的行为是否构成对汤森路透版权保护的侵犯。而违反许可问题与证明Ross对LegalEase的侵权行为负有共同责任无关。

3.3替代责任须由陪审团认定

对于替代责任,汤森路透必须证明Ross(1)有权力和能力监督或控制侵权活动;以及(2)在此类活动中拥有直接的经济利益。

汤森路透的证词称,Ross决定了LegalEase的行为。但Ross反驳称LegalEase的活动保密性非常强,它抵制Ross在微观层面上的管理。因此,Ross是否具有控制LegalEase侵权活动的“实际能力”仍然是陪审团需要解决的有争议的事实问题。

关于合理使用的讨论

判断一个行为是否是合理使用需要同时考量以下四个要素:(1)使用的目的和性质;(2)受版权保护的作品的性质;(3)使用受版权保护的作品相关部分的数量和实质性;以及(4)使用受版权保护的作品对受版权保护的作品潜在市场的影响。

4.1使用的目的和性质与商业性和变革性有关,但无法仅凭商业性就否认合理使用。

商业使用(产品具有商业性)不利于认定合理使用,而转换性使用(产品具有变革性)则有利于认定合理使用。“商业性”是直截了当的:它考量使用是否以营利为目的;“变革性”则是间接性的,它需要衡量新的作品是否传播了与原作不同的新内容或扩大原作的效用,从而实现版权促进公众知识的总体目标。

Ross的做法以及其产品的用途无疑是商业性的。它的目标之一就是与Westlaw平台竞争。汤森路透认为这种商业用途完全违背了合理使用的初衷。为了支持这一观点,汤森路透援引了最高法院最近在Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith, 143 S. Ct. 1258 (2023)案中的判决。在该案中,法院主要通过强调其商业性质来判定相关使用不公平。但其他法官拒绝过度解读一项判决,尤其是目前法院承认“变革性的影响可能会超过商业性”的情况下。

汤森路透对变革性的描述并没有考虑更多的因素——Westlaw是一个综合法律的法律研究平台;Ross利用Westlaw建立了一个同样综合法律的法律研究平台——仅此而已。

与此相比,Ross的抗辩更加细致入微。Westlaw的标题和关键数字注释了用户的意见。Ross希望建立一个“避免人为中间材料”的搜索引擎,这意味着用户只需输入查询的内容,无需点击也不需要进行注释就能获得司法意见书中的回应性引文。尽管 Ross 的人工智能和 Westlaw 法律平台都可以回答法律问题,但 Ross 说它不仅借鉴了 Westlaw 的标题,而且还增加了实质的改动。首先,它在其数据库中接收批量备忘录。然后,它将普通语言条目转换为数字数据。接下来,它将这些数据输入其机器学习算法,用以教授人工智能有关法律语言的知识。这样做的目的是让人工智能能够识别并掌握问答对的模式。然后,人工智能就能利用这些模式找到答案。它不仅能回答输入的确切问题,还能预见用户可能提出的各种法律问题。

Ross说,关于“中间复制”的判例最恰当地反映了其用途。在这些案例中,使用者复制材料是为了发现某些不受保护的信息,或者是开发全新产品的一个小步骤。因此,尽管使用了复制材料作为输入,但最终的产出具有转化性。在 Sega Enterprises Ltd. v. Accolade, Inc., 977 F.2d 1510 (9th Cir. 1992) 案中,被告复制了世嘉公司受版权保护的软件。但它这样做只是为了弄清使游戏与世嘉游戏机兼容的功能要求。同样,在Sony Computer Entertainment Inc. v. Connectix Corp., 203 F.3d 596 (9th Cir. 2000)案中,被告使用索尼软件的副本进行反向工程,并创建了一个新的游戏平台,用户可以在该平台上玩那些专门为索尼游戏系统设计的游戏。法院认为被告的行为构成合理使用,因为被告创造了“一种全新的产品,尽管其用途和功能与索尼的系统相似”,而且“最终产品本身并不包含侵权材料”。最高法院积极引用了这些中间复制的案例。特别是在“根据快速的技术变革调整合理使用理论……”的背景下,一个行为会被认为是合理使用的空间就更大了。

汤森路透称,ROSS所援引的中间复制的案例并不恰当。在这些案件中,复制者试图“研究功能性或创造兼容性”,而在本案中,Ross 只是试图“训练其人工智能”。“复制 Westlaw律师编辑的创造性决定的内容”仅仅是因为它想复制这些决定,进一步说,汤森路透认为Ross只是将标题翻译成了数字数据,而这种翻译是典型的衍生作品。

Ross表示,其人工智能研究标题注释和司法意见引文只是为了分析并学习司法文书的语言模式,而不是复制Westlaw的表达方式。因此,“翻译”只是更广泛的转换性使用中的一个小步骤。如果Ross公司对其活动的描述是准确的,那么它将人类语言翻译成计算机可以理解的东西,是试图开发一种“全新的”(尽管是竞争性的)产品过程中的一个步骤——一种可以在回答自然语言问题时产生高度相关的司法意见引文的搜索工具。这也意味着Ross的最终产品不会包含或输出侵权材料。它的生产活动与其援引的判例中的行为高度相似,这属于转化性中间复制。

因此,中间复制的判例法是否会支持Ross的使用具有转化性,取决于Ross行为的确切性质。如果Ross的人工智能只是研究了标题中的语言模式,从而学会了如何生成司法意见引文,那么这就属于转化性中间复制。但如果汤森路透的观点是正确的,即Ross利用未经转换的标题注释文本,让其人工智能复制并再现Westlaw的律师所做的创造性起草工作,那么Ross与世嘉和索尼等案件的比较就不恰当了。这是一个重要的事实问题,需要由陪审团来决定。

4.2受版权保护的作品的性质有利于合理使用的认定。

版权作品的性质如果接近“预期版权保护的核心”,就会得到更多的保护。但如果其涉及“信息性”的作品而非更具“创造性”的作品时,合理使用的范围更大。因此,法官仍要考虑作品本身的创造性、想象力和原创性。

本案法官认为,关键数字系统远非版权的核心。即使该系统涉及如何组织材料的创造性决定,并且是一种原创性的组织方法,它也仅仅是一种挑选、组合或者安排“信息”材料的方法。因此,与文学作品或视觉艺术等传统上受保护的材料相比,该系统本质上所涉及的创造性或原创性表达要少得多,“想象力”也要差得多。Westlaw的每个独立的标题或许更接近版权保护的核心,但仍然不是特别接近。法律普遍认为,传播事实作品比传播虚构或幻想作品更有必要。尽管Westlaw的律师们可能会创造性地选择归纳哪些法律要点、如何归纳以及在何处附加标题注释,但这些编辑是有限制的。一般来说,标题注释会标出最突出的法律要点,与意见书的语言基本一致并置于段落开头。这种方法类似于新闻报道,虽然新闻报道受到保护,但也要与不受保护的基本事实谨慎区分开来。

因此,对这一因素的分析与关于汤森路透版权的有效性和强度的大部分讨论相关。这在很大程度上取决于陪审团必须决定的事实问题。但值得一提的是,在法律实践中,“受保护版权作品的性质”在确定合理使用争议方面很少发挥重要作用。

4.3复制的数量和实质性取决于Ross制造的人工智能怎样输出答案。

法官认为,在确定复制量时,对“争议作品”的定义很重要。如果我们将其定义在每条标题注释的层面上,那么据称约有 25,000 条标题注释完成了复制。然而,如果我们将其定义在汇编的层面上,尽管标题注释很可能代表了 Westlaw 表达的“核心内容”,但复制的数量并不多;对“使用”的界定也很重要,因为一旦被复制的内容是原作品创造性表达的核心,即使是少量的复制也可能超出合理使用的范围。反之,如果复制的材料几乎没有捕捉到材料的创造性表达,“大量复制”仍然可以是合理使用。另外,如果复制的数量与实效性的、具有变革性的目的相关联,那么“实质性”因素通常会对合理使用有利。尤其是在复制件不向公众披露的情况下,即使是逐字的复制也会被视为合理使用。

本案法官认为应该在Westlaw的每个标题的层面上进行“实质性”判断。如前所述,汇编注册也涵盖单个可受版权保护的材料,那么每条标题注释当然受到汇编版权的保护。每条标题注释的核心是其原创性表达,而非其与司法意见书摘要部分的联系。因此,如果Ross的人工智能按其所说的方式工作,很可能是合理使用,因为它不是单纯复制原始表达,而是产生了自己的观点。换个角度说,如果他几乎没有传达原作的原始意义,那么就不能说Ross的工作具有法规第三个因素所指的“实质性”意义。

4.4Ross的人工智能对市场的影响涉及公共利益并且有待于考察

在考虑使用是否对原作的价值或其潜在市场产生了“有意义或重大的影响”时,不仅要考虑对原作的损害,还要考虑对衍生作品市场的损害。在评估市场影响时,法院必须特别注意技术作品是如何创作和传播的实际情况,因此“变革性”也是这一因素的组成部分——复制行为越是为了达到与原件不同的目的,复制品就越不可能成为令人满意的原件替代品,其对潜在市场的威胁也就越不显著。

在本案中,汤森路透声称有三个潜在市场,但归结起来只有两个:Westlaw 本身作为法律研究平台的市场以及汤森路透公司的数据市场。汤森路透称,Ross一直以来的计划都是创建Westlaw的替代品。它还说这个计划奏效了,因为Ross的一些客户取消了他们对Westlaw的订阅。至于汤森路透公司的数据市场,即目前传统的许可市场和一个新兴的人工智能数据训练市场,汤森路透认为,由于Ross通过LegalEase获得了Westlaw的内容,因此汤森路透失去了传统的许可收入。它还表示,Westlaw的训练数据存在潜在市场——这一点从Ross为了训练数据 向LegalEase支付了超过一百万美元就可以看出。而Ross的复制行为将损害这一新兴市场。

法官认为,尽管Ross和汤森路透都在法律研究平台市场上竞争。但仅凭这一点并不能揭示Ross的人工智能产品是否可以替代Westlaw。Ross 的使用可能是变革性的,它创造了一个全新的研究平台,并且与 Westlaw 的用途不同。如果是这样,它就不是市场的替代品。Ross 还辩称,汤森路透从未参与、也永远不会参与其数据训练的市场。这说明两者的市场以及潜在的受众都不同。

最后,双方就公共利益进行了激烈的辩论。Ross的研究平台可能会以更低的成本提高法律的可及性。或者,它可能只是降低了汤森路透或者类似实体今后创建类似标题注释内容的积极性。

决定保护创作者还是保护复制者更符合公众利益是一件危险的事情,也是一个让法院感到不安的问题。版权制度试图通过保护两者来鼓励创造性表达。在这里,我们遇到了一些激烈争论的问题:允许使用那些受版权保护的材料训练人工智能是否符合公众利益?如果任何一种人工智能的价值都可能体现在传统因素上,那它的变革性有多强?公众能否免费使用?它是否会吞噬其他创造者的市场,从而挫伤他们的积极性?因此,潜在的利益和风险都是巨大的,对人工智能的利益进行独立评估的标准尚不能确立。在此基础上法官仍然认为,每一方都对裁决人工智能会带来的公共利益做出了合理而有力的解释。因此,必须由陪审团决定合理使用的最终结论。

合同侵权的讨论

汤森路透的第二个主张是对合同的侵权干涉。它说,Ross诱导LegalEase违反了三项合同条款,(1)使用Westlaw构建竞争产品,(2)使用机器人抓取Westlaw内容,以及(3)共享密码。

5.1第一项合同索赔因为“联邦版权法优先于州索赔”而被抢占[2]

在此处,汤森路透辩称,Ross通过雇用 LegalEase 制作批量备忘录并发获取其他材料,诱使 LegalEase 违反了合同约定。汤森路透并没有对这一条款所涵盖的材料属于版权范围提出异议。但它认为所涉及的权利是不同的。

本案法官并不赞同汤森路透的观点,他认为汤森路透提出的第一个侵权干涉索赔落入了版权优先权的认定方法中。汤森路透提出合同索赔的要旨与其提出的版权索赔相同。而合同条款本身确保了同等的权利——例如《版权法》规定的销售权、再许可权、发行权、转让权和展示权等。虽然汤森路透的合同条款是以竞争为出发点,但其关注的是一种潜在的竞争威胁——复制。这种威胁属于联邦法律的管辖范围。因此,《版权法》优先于第一项申诉。

5.2其余的两项侵权干涉索赔没有被抢占,但认定仍有部分争议。

汤森路透提出的反机器人条款和密码共享条款不等同于《版权法》第 106 条规定的权利。虽然使用机器人进行内容抓取可能会大量地复制材料(基于复制本身造成的损害提出的索赔将被排除在外),但是,基于“机器人抓取”而提出的索赔则与该“机器人抓取的目的”无关。也就是说,仅仅引入恶意软件的行为并不必然侵犯第 106 条规定的任何权利。例如,一个网站可能会因为想要防范被复制的风险而禁止共享密码,但限制访问网站本身是一种单独的手段。无论密码保护背后的材料是否受版权保护,创建者都可以通过一些措施来保护那些客户需要付费才能了解到的材料。因此,汤森路透的第二项和第三项侵权干扰诉讼请求没有被排除。

汤森路透必须证明五个要素:(1) LegalEase 和 Westlaw 之间存在合同,(2) Ross 知道合同及其条款,(3) Ross 的故意行为是导致违约的重要因素,(4) Ross 没有正当理由,以及 (5) 违约行为损害了汤森路透的利益。

对于第二个要素,大量记录证据表明,Ross 至少对 Westlaw 的合同惯例有所了解——Ross 曾试图与 Westlaw 签订合同。一位投资者向Ross公司发送了一份 Westlaw 条款和条件的副本。Ross公司的一名高管冒充个人从业者查看使用条款。并且,在一些电子邮件往来中,Ross公司的高管讨论了合同的具体条款。

Ross对这些证据的时间线提出质疑,称汤森路透的大部分证据都是在Ross与 LegalEase 打交道之后提供的。它还说,虽然它看到了 Westlaw 提供给它的合同,但从未看到过 Westlaw 与 LegalEase 签订的合同。Ross认为,Westlaw 的协议可以是因人而异的,而且它只看到了加拿大的协议,而不是美国的协议。汤森路透则反驳说,这些协议实质上是一样的,并且是公开披露的,很少甚至从未更改过。

总之,这些证据加在一起,是否能够证明Ross已经了解反机器人和密码共享条款的实质内容,还需要陪审团加以界定。

对于第三个要素,虽然Ross命令LegalEase制作批量备忘录(它可能知道LegalEase正在使用Westlaw),但仍然没有清晰的证据表明Ross知道LegalEase正在使用机器人或共享密码进行违规或具有实施违规行为的打算。正如在讨论间接责任时所解释的那样,双方都有证据表明Ross的参与、控制和知情的程度不同。

对于第四个要素,根据汤森路透的说法,Ross 首先寻求 Westlaw 的许可,但当这种遵守规则的做法失败后,它通过雇用 LegalEase 来绕过汤森路透的条款。然而,这种钻空子的做法并不一定会违反法律。Ross的行为是否具有正当理由在很大程度上取决于它是如何行事的——这是第二个和第三个要素所争议的问题。

至于第五个要素,汤森路透称,在 LegalEase 使用机器人和共享密码时,它损失了订阅费用。如果 LegalEase 没有机器人的帮助或多名员工共享一个账户,它将不得不购买更多的订阅,或在更长的时间内保持订阅状态。也就是说,不但Westlaw 在 LegalEase 复制其标题时没有获得应有的报酬,并且利用机器人和共享密码使这种复制行为更有效、更便宜,从而剥夺了其他人订阅 Westlaw 而产生的费用。Ross并没有对这一要素提出异议,只是认为汤森路透在此案中的损失赔偿与其版权侵权索赔的损失赔偿产生了竟合。

汤森路透必须证明五个要素:(1) LegalEase 和 Westlaw 之间存在合同,(2) Ross 知道合同及其条款,(3) Ross 的故意行为是导致违约的重要因素,(4) Ross 没有正当理由,以及 (5) 违约行为损害了汤森路透的权益。

Ross提出的其他抗辩

Ross还提出了其他几项抗辩,但都不成立。首先,它不再提出第一修正案或首次销售的抗辩。其次,它提出了诉讼时效问题,但诉讼时效不适用于版权索赔。

关于“同意、放弃、不容反悔、默许和许可”的抗辩,Ross指出 Westlaw 使用条款中的公平使用条款。该条款只是提出了公平使用的问题,并没有提供独立的抗辩理由。

此外,Ross 指控另一人侵权行为,称这不是 LegalEase 造成损害的“实质性因素”。但这一论点又与它对侵权干扰索赔要件的论点相同。而且,它没有专门为这一抗辩提供证据。

最后,Ross声称,Westlaw的标题与公法相同而缺乏所有权。但汤森路透已经提供了其注册信息,而且其表达的范围在侵权和合理使用的诉求中也得到了充分的探讨。事实上,“缺乏所有权”是否是一种肯定性抗辩尚存疑问——它可能与侵权索赔的第一要素(有效版权的所有权)有关。

总结

汤森路透指控Ross直接或通过 LegalEase 间接复制了 Westlaw 受保护的内容。Ross几乎对汤森路透的所有说法都提出了异议。但法官的职责并不是整理证据和理清这些混乱的事实——这是陪审团在庭审中的职责。因此,除少数例外情况外,法官驳回Ross和汤森路透的简易判决动议。

与此同时,汤森路透与Ross的纠纷也反映了人工智能时代的几个问题:

7.1数据本身是否能够通过注册获得版权?

目前,数据本身尚不可注册版权,版权通常适用于原创的表达形式,例如文学作品、音乐作品和艺术品等,而不适用于事实、数据或简单的事实陈述。数据本身可以被认为是事实的集合,通常不具备独创性和创造性,因此不符合获得版权保护的条件。

但是,如果借助一些有形的载体将数据实体化,那么实体化的作品可以注册版权。例如,在本案中,Westlaw法律平台储备了大量的司法判决,这些司法判决可以被看作公共的数据。Westlaw利用这些公共数据独立地创建了标题注释,这些标题注释可以受到版权法的保护。

数据集则是与数据不同的另一种保护对象,如果数据集中包含了创造性的选择、排列或表达,可能存在一些独创性,这部分具体内容可能会受到版权保护。此外,如果使用了独特的算法或创造性的方法来生成数据,这些算法或方法本身可能会受到知识产权的保护,但这通常是与数据、数据集本身不同的保护范畴。

7.2人工智能训练数据的行为能否构成合理使用?

合理使用的原则是在使用他人作品时的一个法律概念,即允许在一定范围内使用他人的作品而无需获得授权,通常是为了教育、评论、新闻报道等非商业性目的而使用。如前文所述,在美国的《版权法》中,判断一个行为是否是合理使用需要同时考量以下四个要素:(1)使用的目的和性质;(2)受版权保护的作品的性质;(3)使用受版权保护的作品相关部分的数量和实质性;以及(4)使用受版权保护的作品对受版权保护的作品潜在市场的影响。

在如今这个科技迅猛发展的时代,判断使用目的和性质时,行为的“商业性”在认定合理使用中占有的比重已经被极大的削弱了——行为的“变革性”往往会影响最终合理使用的成立与否。因此,人工智能训练数据的行为若是产生一个新产品的转化性中间复制行为,即试图开发一种“全新的”(尽管是竞争性的)产品过程中的一个步骤,而新产品具有与被复制品所完全不同的功能,那么这种训练数据的行为将会被认定为合理使用。

“合理使用”的判定也必将与公共利益有关。在综合考虑使用对原作价值或潜在市场造成的“有意义或重大的影响”时,不仅需关注对原作的潜在损害,还要充分考虑对衍生作品市场可能带来的影响。在评估市场影响时,法院应特别关注技术作品的实际创作和传播方式,以确定使用受版权保护的材料来训练人工智能是否符合公众利益。考量“利用人工智能训练数据”的具体行为时,需要平衡人工智能的创新推动与版权保护的需求,确保在技术发展中维护公正和创作者的权益;更需要平衡市场价值与公共利益的需求,确保版权制度中“为了公众利益的提升”这一核心价值。

7.3法律对人工智能的适应性何在?

汤森路透诉罗斯智能公司的案件为我们提供了一个深入探讨法律对人工智能(AI)适应性的绝佳案例。本案触及了版权法与技术创新之间的冲突,特别是在AI技术迅速发展的背景下,法律体系如何应对和适应这些新兴技术带来的挑战。在汤森路透与罗斯智能公司的争议中,公平使用原则的适用性成了一个关键点。AI技术的特殊性在于,它需要消化和分析大量数据以学习和提升。但也由此引发了一个问题:将大量受版权保护的文本用于AI训练,是否能够在公平使用的框架内被合理化?这不仅要求法官和法律界重新审视公平使用原则的传统界定,还需要他们考虑到AI作为一种新兴技术的特殊需求和社会价值。此案可能推动公平使用原则向更加灵活和现代化的方向发展,以容纳技术创新的需求。

AI的发展对数据的依赖凸显了数据使用权的问题。在本案中,如何界定罗斯智能公司对汤森路透资源数据库的使用是否合法,触及到了数据使用权与知识产权保护的平衡问题。这不仅是关于版权法的问题,还涉及更广泛的知识产权法,包括商业秘密和目前讨论最热的数据权利。法律需要适应这种新形势,明确数据的法律地位及其在AI技术中的使用范围,确保在促进技术创新的同时,也能有效保护数据创造者和版权所有者的利益。

不仅如此,本案体现了一个令人纠结但却不得不亟待解决的问题——在技术创新和版权保护之间找到新的平衡点。随着AI和机器学习技术的快速发展,传统的版权保护模式可能无法完全适用。法律和政策制定者可能需要考虑如何修改现有法律,或者创造新的法律框架在保护原创内容不被非法利用的基础上支持技术创新。也许,基于AI技术的不断成熟以及其他科学技术的更新换代,版权法应当对某些内容进行修订,引入新的例外条款,或者建立专门针对AI技术使用的法律原则和法律规范。

总之,AI技术的快速发展要求法律体系能够及时更新以适应新技术带来的挑战。汤森路透与罗斯智能公司之间的争议凸显了现有法律与技术进步之间可能存在的鸿沟,法律专业人士、立法者和科技行业人士需要共同努力,确保法律既能保护公司和个人的权益,又能促进科技创新和社会进步。

[1] Westlaw是由汤森路透集团旗下美国West出版公司于1975年开发的综合性法律、法规、图书、期刊、新闻和公司信息平台。

[2]如果(1)材料属于版权主体并且(2)索赔的严重性等同于根据联邦版权法可执行的受版权保护作品的专有权利之一,则州法律索赔被《版权法》抢占。

撰稿 | 王惠安,清华大学智能法治研究院实习生

选题&指导 | 刘云

编辑 | 沈廖佳

注:本公众号原创文章的著作权均归属于清华大学智能法治研究院,需转载者请在本公众号后台留言或者发送申请至computational_law@tsinghua.edu.cn,申请需注明拟转载公众号/网站名称、主理者基本信息、拟转载的文章标题等基本信息。

声明:本文来自清华大学智能法治研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。


Notice: Undefined variable: canUpdate in /var/www/html/wordpress/wp-content/plugins/wp-autopost-pro/wp-autopost-function.php on line 51