OpenAI从4个方面进行了回应:
1. 我们正在与新闻机构合作,共同探索新的合作机会
在我们的技术设计过程中,我们致力于支持新闻机构。我们已经与众多新闻机构以及行业领先组织如新闻/媒体联盟进行了会谈,共同探索合作机遇,讨论他们的关切,并提供相应的解决方案。我们的目标是学习、普及知识、倾听反馈,并根据这些反馈做出调整。
我们旨在支持一个健康的新闻生态系统,成为一个值得信赖的合作伙伴,创造互利共赢的机遇。为此,我们已经与多家新闻机构建立了合作关系,以实现以下目标:
部署我们的产品以辅助记者和编辑,帮助他们处理如分析大量公共记录和翻译报道等耗时任务。
通过在额外的历史性、非公开内容上进行训练,增进我们的 AI 模型对世界的了解。
在 ChatGPT 中展示带有归属的实时内容,为新闻出版商提供与读者建立联系的新途径。
我们与美联社、阿克塞尔·施普林格、美国新闻项目和NYU的初步合作,展现了我们的合作方法和愿景。
我们的这些早期合作伙伴关系,不仅有助于新闻行业的发展,也展示了我们在技术创新方面的承诺,以及对支持新闻自由和信息传播的坚定立场。
2. 虽然利用公共互联网材料训练 AI 模型属于合理使用,但我们提供退出机制,因为这是负责任的做法
根据长期而广泛接受的先例,利用公开可获得的互联网材料来训练人工智能模型被视为合理使用。我们认为这个原则对创作者公平,对创新者是必需的,同时对美国的竞争力至关重要。
将 AI 模型的训练视为合理使用的原则得到了广泛的支持,包括学术界、图书馆协会、民间社会团体、初创企业、领先的美国公司、创作者、作者等,他们最近向美国版权办公室提交了意见。其他地区和国家,如欧洲联盟、日本、新加坡 和以色列也制定了允许在版权内容上训练模型的法律,这对 AI 的创新、发展和投资大有裨益。
尽管如此,法律权利对我们来说并不如做一个良好公民那样重要。我们在 AI 行业中率先提供了一个简单的退出流程,供出版商选择(例如《纽约时报》在 2023 年 8 月选择使用),以防止我们的工具访问他们的网站。
3. 我们正致力于消除“信息原样输出(Regurgitation)”这一罕见的错误
注:”Regurgitation” 指的是 AI 模型在生成输出时重复其在训练数据中已经接触过的信息或内容。这通常被视为一种错误或失败,因为理想中的 AI 应该能够产生新颖的、基于理解和推理的回答,而不是简单地复制和重复它在训练过程中所遇到的具体信息。这种现象在模型训练过程中遇到重复或过度代表的数据时更为常见。
我们设计并训练了模型,目的是让它们学习概念,进而能够应用这些概念解决新问题。
记忆问题是学习过程中较为罕见的一个弊端,我们正在努力改进。这个问题在特定内容在训练数据中重复出现时尤为明显,例如同一内容在多个公共网站上出现。因此,我们采取了措施来减少不经意的记忆,并防止模型输出中的内容重复。我们也期望用户能负责任地使用我们的技术;故意引导模型重复输出信息是不恰当的,这违反了我们的使用条款。
就像人类通过广泛学习来解决新问题一样,我们希望我们的 AI 模型能观察到世界各地的信息,包括来自不同语言、文化和行业的知识。由于模型是基于人类知识的大量集合进行学习,任何一个特定领域,比如新闻,都只是训练数据中的一小部分。同样,任何单一的数据来源,如《纽约时报》,对于模型的整体学习目标来说也不是特别关键。
4. 纽约时报并未全面报道真相
我们与纽约时报的对话在 12 月 19 日的最后一次沟通中似乎还在顺利进行。谈判主要围绕 ChatGPT 实时展示新闻内容并标明来源的高价值合作,纽约时报将通过这种新方式与现有及潜在读者建立联系,而我们的用户也能够接触到他们的报道。我们曾向纽约时报明确表示,他们的内容像其他单一来源一样,并没有对我们现有模型的训练产生重大影响,对未来的训练也不会有显著贡献。然而,我们在阅读纽约时报的报道时才得知他们于 12 月 27 日对我们提起诉讼,这让我们感到意外和失望。
在此期间,纽约时报曾提到发现一些内容被重复引用,但他们一直拒绝提供任何具体案例,尽管我们已承诺调查并解决任何相关问题。我们一直严肃对待这一问题,例如在 7 月份,我们得知 ChatGPT 功能可能意外复制实时新闻内容后,我们立即关闭了该功能。
有趣的是,纽约时报所指的重复内容似乎来自多年前的文章,这些文章已在多个 第三方-网站 上广为流传。看来他们故意设置特定的提示语,常包含文章的长篇摘录,以引诱我们的模型进行复述。即便在使用这样的提示语下,我们的模型通常不会如纽约时报所言那样反应,这表明他们可能是指导模型复述或从众多尝试中挑选示例。