0°

对话开发者:ChatGPT 发布的幕后故事

  当 OpenAI 在 2022 年 11 月下旬静悄悄地推出 ChatGPT 时,这家总部位于旧金山的人工智能公司几乎没对这次发布抱有什么期望。理所当然地,OpenAI 内部也没有人为 ChatGPT 病毒式的大规模爆发做好准备。发布之后,效果出奇地好,该公司不得不努力维护服务,来尽量满足用户无穷无尽的访问请求。

  在 OpenAI 从事政策工作的 Sandhini Agarwal 说,ChatGPT 在内部被视为“研究结果的一个预览”:用两年前技术的更完善版本制作的一个阶段性产品。该产品的主要目的是,试图通过收集公众的反馈来消除产品的一些缺陷。“我们不想把它当作一个巨大的基础性的进步来过度营销,” OpenAI 的科学家Liam Fedus 说,他参与了 ChatGPT 的制作。

  为了了解聊天机器人背后的内幕——它是如何制作的,OpenAI 自发布以来是如何更新它的,以及它的制作者对它的成功有何看法——我采访了四个人,他们帮助构建了有史以来最受欢迎的互联网应用程序之一。除了 Agarwal 和 Fedus 之外,我还与 OpenAI 的联合创始人 John Schulman 和OpenAI 协调团队的负责人 Jan Leike 进行了交谈,该团队致力于解决使 AI 做用户希望它做的事情(不要做无关的事)的问题。

  PS:国内用户可以在这里体验类ChatGPT的AI对话服务:《免费体验类ChatGPT的AI问答服务》

  我得到的感觉是,OpenAI 仍然对其“研究预览”的成功感到困惑,但已经抓住机会推动这项技术向前发展,观察数百万人如何使用它,并试图解决最糟糕的问题。

  自十一月以来,OpenAI已经多次更新了ChatGPT。研究人员正在使用一种称为对抗训练的技术来阻止ChatGPT被用户诱导做坏事(称为越狱)。这项工作让多个聊天机器人相互对抗:一个聊天机器人扮演对手,并通过生成文本来攻击另一个聊天机器人,迫使它克服通常的限制来产生不需要的响应。成功的攻击被添加到 ChatGPT 的训练数据中,希望它学会忽略它们。

  OpenAI 还与微软签署了一项价值数十亿美元的协议,并宣布与全球管理咨询公司贝恩(Bain)结盟,该公司计划在包括可口可乐在内的客户营销活动中使用 OpenAI 的生成AI模型。在 OpenAI 之外,关于 ChatGPT 的热议引发了围绕大型语言模型的又一次淘金热,世界各地的公司和投资者都加入了行动。

  在短短三个月内,ChatGPT 已经成了所有人的关注对象。ChatGPT 从何而来?OpenAI 采取了哪些措施来确保它准备好发布?他们接下来要去哪里,要做什么?

  为了长度和清晰度,以下内容已经过编辑。国内用户可以在这里体验类ChatGPT的AI对话服务:《免费体验类ChatGPT的AI问答服务》

  扬·雷克:老实说,它爆发得太快了。我们很惊讶,我们一直在努力去理解发生了什么。

  约翰·舒尔曼:在发布后的几天里,我经常查看Twitter,有一个疯狂的时期,提要充满了ChatGPT截图。我期望它对人们来说是直观的,我期望它获得追随者,但我没想到它会达到这种主流流行的程度。

  桑迪尼·阿加瓦尔:我认为对我们所有人来说,有这么多人开始使用它,绝对是一个惊喜。我们在这些模型上工作得太多了,以至于我们忘记了它们有时会让外界感到惊讶。

  利亚姆·费杜斯:我们绝对惊讶于它的反响。之前已经有太多关于通用聊天机器人的尝试,我知道大家已经有点不相信通用聊天机器人能够很智能了,都觉得这类产品是人工智障。然而,我们的内部测试版给了我们信心,我们的产品确实有一些人们可能真正喜欢的东西。

  扬·雷克:我很想更好地了解是什么推动了这一切——是什么推动了病毒式传播。就像,老实说,我们不明白。不知道。

  团队的部分困惑来自于这样一个事实,即 ChatGPT 内部的大部分技术都不是新的。ChatGPT 是 GPT-3.5 的微调版本,GPT-3.5 是 OpenAI 在聊天机器人之前几个月发布的一系列大型语言模型。GPT-3.2020 本身是 GPT-3 的更新版本,于 2020 年发布。该公司在其网站上将这些模型作为应用程序编程接口或API提供,这使其他软件开发人员可以轻松地将模型插入自己的代码中。OpenAI 还在 2022 年 1 月发布了之前微调的 GPT-3.5 版本,称为 InstructGPT。但这些以前版本的技术都没有如此走红。

  利亚姆·费杜斯:ChatGPT 模型是从与 InstructGPT 相同的语言模型进行微调的,我们使用类似的方法来对其进行微调。我们添加了一些对话数据,并对训练过程进行了一些调整。所以我们不想把它作为一个重大的基本面进步来过度推销。事实证明,对话数据对ChatGPT产生了巨大的积极影响。

  约翰·舒尔曼:根据标准基准测试,原始技术功能实际上在模型之间没有实质性差异,但 ChatGPT 更易于访问和使用。

  扬·雷克:从某种意义上说,您可以将 ChatGPT 理解为我们已经使用了一段时间的 AI 系统的一个版本。它不是一个从根本上比我们以前的模型更强的一个模型。在 ChatGPT 问世之前,相同的基本模型已经在 API 上可用了将近一年。从另一种意义上说,我们让它更符合人类想要用它做的事情。它在对话中与您交谈,在聊天界面中可以轻松访问,它试图提供帮助。这是惊人的进步,我认为这就是人们正在意识到的。

  约翰·舒尔曼:它更容易推断意图。用户可以通过反复提问获得他们想要的东西。

  ChatGPT 的训练方式与 InstructGPT 非常相似,使用了一种称为人类反馈强化学习(RLHF)的技术。这是 ChatGPT 的秘诀。基本思想是采用一个大型语言模型,倾向于吐出它想要的任何东西——在本例中为 GPT-3.5——并通过教它人类用户实际喜欢什么样的响应来调整它。

  扬·雷克:我们让一大群人阅读 ChatGPT 提示和响应,然后说一个响应是否比另一个响应更可取。然后,所有这些数据都合并到一个训练运行中。其中大部分与我们对 InstructGPT 所做的相同。你希望它是有帮助的,你希望它是真实的,你希望它是——你知道的——无毒的。还有一些事情是专门用于产生对话和成为助手的:比如,如果用户的查询不清楚,它应该提出后续问题。它还应该澄清它是一个人工智能系统。它不应该假设它没有的身份,它不应该声称拥有它不具备的能力,当用户要求它做它不应该做的任务时,它必须写一条拒绝消息。这次训练中脱颖而出的一句话是“作为OpenAI训练的语言模型……”它没有明确地写在代码里,但这是人类评分者认为最重要的一句话。

  桑迪尼·阿加瓦尔:是的,我认为这就是发生的事情。人类评分员必须对模型的几个标准纬度进行排名打分,例如真实性。但他们也会选择一些符合他们自己内心标准的做法,比如让机器人不要假装自己是某一个事实上并不是的角色。

  由于 ChatGPT 是使用与 OpenAI 以前相同的技术构建的,因此该团队在准备向公众发布此模型时没有做任何不同的事情。他们觉得他们为以前的模型设定的标准已经足够了。

  桑迪尼·阿加瓦尔:当我们准备发布时,我们并没有认为这个模型是一个全新的风险。GPT-3.5 已经出现在世界上,我们知道它已经足够安全了。通过 ChatGPT 对人类偏好的训练,该模型只是自动学习拒绝行为,拒绝很多请求。

  扬·雷克:我们确实为 ChatGPT 做了一些额外的“红队”训练,OpenAI的每个人都坐下来试图打破模型。我们有外部团体在做同样的事情。我们还与值得信赖的用户进行了抢先体验计划,他们提供了反馈。

  桑迪尼·阿加瓦尔:我们确实发现它生成了某些不需要的输出,但它们都是 GPT-3.5 也生成的东西。因此,就风险而言,作为研究预览 – 因为这是它最初的意图 – 感觉很好。

  约翰·舒尔曼: 你不能等到你的系统完美再发布它。几个月来,我们对早期版本进行了beta测试,beta测试人员对该产品的印象很好。我们最关心的是事实性,因为模型喜欢捏造东西。但是 InstructGPT 和其他大型语言模型已经存在,所以我们认为只要 ChatGPT 在事实性和其他安全问题上比那些更好,它应该就可以了。根据我们有限的评估,在发布之前,我们确认这些模型确实比其他模型更真实和安全,因此我们决定继续发布。

  自 ChatGPT 推出以来,OpenAI 一直在关注人们如何使用它,第一次看到一个大型语言模型在交到数千万用户手中时的表现,这些用户可能希望测试它的极限并发现它的缺陷。该团队试图找到 ChatGPT 可以产生的最大问题的例子 – 从关于上帝对强奸犯牧师的爱的歌曲到窃取信用卡号的恶意软件代码 – 并使用它们来改善该模型的未来版本。

  桑迪尼·阿加瓦尔:我们还有很多后续步骤。我绝对认为 ChatGPT 的病毒式传播已经让许多我们知道存在的问题真正浮出水面并变得至关重要——我们希望尽快解决的问题。就像,我们知道模型仍然非常有偏见。是的,ChatGPT 非常擅长拒绝不良请求,但它也很容易被特殊的提示引导,使其不会拒绝我们希望它拒绝的内容。

  利亚姆·费杜斯: 看到用户多样化和创造性的应用程序令人兴奋,但我们始终专注于需要改进的领域。我们认为,通过部署、获取反馈和改进的迭代过程,我们可以生产出最一致、最有能力的技术。随着我们技术的发展,新问题不可避免地会出现。

  桑迪尼·阿加瓦尔:在发布后的几周内,我们研究了人们发现的一些最可怕的例子,以及人们看到的最糟糕的事情。我们评估了他们每个人遇到的情况,并讨论了我们应该如何解决它。

  扬·雷克:有些极端例子会在Twitter上风靡一时,我们看到后都悄悄修复了。

  桑迪尼·阿加瓦尔:我们发现的很多事情都是越狱,这绝对是我们需要解决的问题。但是,由于用户必须尝试很复杂的方法才能让模型说出不好的话,所以这些情况也不都是模型的缺陷,或者对我们来说是意外的事情。不过,这是我们现在正在积极努力的事情。当我们发现越狱时,我们会将它们添加到我们的训练和测试数据中。我们看到的所有数据都反馈到未来的模型中。

  扬·雷克:每当我们有一个更好的模型时,我们都想把它拿出来测试它。我们非常乐观地认为,一些有针对性的对抗训练可以大大改善越狱的情况。目前尚不清楚这些问题是否会完全消失,但我们认为我们可以使许多越狱变得更加困难。同样,这并不是说我们在发布之前不知道越狱是可能的。我认为一旦部署了这些系统,就很难真正预测它们的真正安全问题。因此,我们非常重视监控人们使用该系统的目的,看看会发生什么,然后对此做出反应。这并不是说,当我们预测到安全问题时,我们不应该主动缓解它们。但是,是的,很难预见当系统进入现实世界时实际发生的一切。

  一月份,微软发布了Bing Chat,这是一个搜索聊天机器人,许多人认为它是OpenAI 官方未宣布的 GPT-4 的一个版本。(OpenAI 说:“必应由微软专门为搜索定制的下一代模型提供支持。它结合了 ChatGPT 和 GPT-3.5 的优势。)对拥有数十亿美元声誉的科技巨头使用的聊天机器人进行保护,这给那些负责构建底层模型的人带来了新的挑战。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论