人工智能能让人们的生活更高效、更具娱乐性以及更多产,但也有潜在的弊端。
从版权角度看,人工智能带来了一些有趣的问题。例如,人工智能创建的内容是否可以获得版权?人工智能是否可以不受限制地对受版权保护的作品进行训练?
作者起诉OpenAI
一些作者认为,不应该允许大型语言模型训练集使用他们在网上遇到的每一段文字。在今年6月提起的诉讼中,图书作者保罗.特伦布莱(Paul Tremblay)和莫娜.阿瓦德(Mona Awad)指控美国人工智能公司OpenAI直接和间接侵犯版权等。
不久之后,作家/喜剧演员莎拉.西尔弗曼(Sarah Silverman)与作家克里斯托弗.戈登(Christopher Golden)和理查德.卡德雷(Richard Kadrey)一起提起诉讼,指控OpenAI将书籍用作训练数据。诉状称,OpenAI未经许可使用了来自盗版网站的数据集。
诉状提到了有争议的Books2和Books3数据集,据信这些数据集来自LibGen、Z-Library、Sci-Hub和Bibliotik等影子图书馆。
这些网站汇集的书籍还可以通过BT系统批量获取。作者写道:“长期以来,人工智能训练界一直对这些明目张胆的非法影子图书馆感兴趣……”
OpenAI请求法院驳回指控
近日,OpenAI回应了这些指控,要求驳回大部分诉讼主张。这些指控包括版权间接侵权、违反《数字千年版权法案》、不正当竞争、疏忽和不当得利。
OpenAI向法院表示:“这些诉讼理由都没有提出可行的救济请求,因为这里所质疑的法律理论实际上都没有谴责ChatGPT、支持ChatGPT的语言模型或用于创建这些模型的流程。”
“从一开始就将这些主张从诉讼中删除是非常重要的,这样这些案件就不会在法律责任理论不成立的情况下进入证据开示阶段及以后的阶段。”
批量驳回
目前,唯一能够胜诉的指控是直接侵犯版权,但OpenAI希望在稍后阶段驳回这一指控。
合理使用
作者们的版权侵权主张是以版权法为依据的。OpenAI并不否认版权在其中的作用,但指出这些诉状采取了强硬的立场,忽略了合理使用等豁免条款。
OpenAI称:“然而,这些诉求误解了版权的范围,没有考虑到限制和例外(包括合理使用),而这些限制和例外恰恰为创新留出了空间,比如现在处于人工智能前沿的大型语言模型。”
OpenAI指出,在起草《美国宪法》时,其创作者将版权法视为促进科学和实用艺术进步的工具。在这种情况下,人工智能被视为有用的进步,它对大量版权文本的使用可以被视为“合理”。
OpenAI写道:“许多法院已经应用合理使用原则来实现这一平衡,即承认创新者以变革的方式使用受版权保护的材料并不违反版权法。”
衍生品?
作者显然有不同的看法。他们认为,OpenAI语言模型的每一个输出都是侵犯版权的衍生作品。这些衍生品是在未获得权利人许可的情况下生成的。
OpenAI认为这一结论太过分了。该组织指出,根据作者的理论,大型语言模型的所有输出本质上都是侵犯版权的。虽然这可能是作者们所希望的结论,但却会严重阻碍人工智能的创新。
这家人工智能公司指出,法院之前已经驳回了对衍生一词过于宽泛的解释,此案也应如此。
根据起诉书,ChatGPT的每一个输出——从对问题的简单回答到美国总统的名字,再到描述荷马史诗《伊利亚特》情节、主题和意义的段落——都必然是原告书籍的侵权“衍生作品”。
OpenAI补充道:“更糟糕的是,这些输出中的每一个都是训练语料库中包含的数百万其他单个作品的侵权衍生作品——无论输出与训练作品之间是否有任何相似之处。这不是版权法的运作方式。”
基于上述理由和各种论据,OpenAI要求法院驳回除直接版权侵权之外的所有诉讼主张。(编译自torrentfreak.com)