0°

如何看待 OpenAI Q* 谣言

  11 月 22 日,就在 OpenAI 决定解雇(后又重新聘用)CEO Sam Altman 的几天之后,技术媒体 The Information 报道称 OpenAI 取得了一项重大技术突破,使其能够“开发出更强大的 AI 模型”。新模型被命名为 Q*(音为「Q star」),“具备解决全新数学问题的能力。”

  路透社也发表了类似的报道,但细节同样含糊不清。

  两篇报道都将这项突破与董事会解雇 Altman 的决策联系起来。路透社在报道中指出,几名 OpenAI 员工向董事会发函,“警告称这项强大的 AI 发现可能对人类构成威胁。”然而,“路透社未能拿到这封信的副本”,随后的报道也没有继续将 Altman 下台与 Q*一事联系起来。

  The Information 指出,今年早些时候,OpenAI 开发出“能够解决基本数学问题的系统,攻克了这一对现有 AI 模型来说颇为艰巨的任务。”路透社则表示 Q*“具备小学生水平的数学计算能力。”

  为了避免妄下结论,我们又花了几天时间搜集相关内容。OpenAI 确实没有公布 Q*项目的详细信息,但发表了两篇关于其解决小学数学问题的论文。在 OpenAI 之外,不少研究人员(包括 Google DeepMind 的研究人员)也一直在这方面开展探索。

  我个人怀疑 Q*正是指向通用人工智能(AGI)的关键技术突破。虽然不一定会对人类构成威胁,但这可能标志着迈向具有一般推理能力的 AI 的重要一步。

  在本文中,我们将一同了解 AI 研究领域的这一重大事件,并解释专为数学问题设计的分步推理技术如何发挥关键作用。

  分步推理的力量

  我们首先考虑以下数学问题:

  John 给了 Susan 五个苹果,之后又给了她六个。之后 Susan 吃掉其中三个,又给了 Charlie 三个苹果。她把剩下的苹果给了 Bob,Bob 吃掉一个。接下来,Bob 把手中半数苹果给了 Charlie。John 给了 Charlie 七个苹果,Charlie 将手中三分之二的苹果给了 Susan,最后 Susan 又把其中四个还给了 Charlie。问,现在 Charlie 还剩几个苹果?

  大家可以先试着自己算算。

  其实我们都在小学阶段学过简单的加减乘除,所以看到问题里说“John 给了 Susan 五个苹果,之后又给了她六个”,就知道这时候 Susan 有 11 个苹果。

  但对于更复杂的问题,那人类在尝试解决时就需要借助笔算或者心算了。比如在此问题中,先有 5+6=11,之后是 11-3=8,接着 8-3=5,以此类推。通过一步步思考,我们最终会得到正确答案:8。

  同样的技巧也适用于大语言模型。在 2022 年 1 月发表的著名论文中,谷歌研究人员指出,如果大语言模型能按照提示词分步进行推理,就会产生更好的结果。以下是论文中的一份关键图表:

  这篇论文的发表时间还早于“零样本”提示技术,因此研究人员通过给出示例答案的方式来提示模型。在左图中,系统会提示模型直接给出最终答案,但结果是划的。而在右侧,系统会一步步提示模型并最终推理出正确答案。谷歌研究人员将这项技术称为“思维链提示法”,且至今仍被广泛应用。

  对于大语言模型来说,“五”和“六”这样的数字只是 token,跟“这”、“那”或者“猫”没什么区别。这些模型之所以能把大写数字转换成 5+6=11,是因为这个 token 序列曾经在训练数据中出现过。但大模型的训练数据中可能并不包含长计算示例,比如((5+6-3-3-1)/2+3+7)/3+4=8,所以如果要求模型直接给出计算结果,那它就很可能搞不清状况并生成错误答案。

  或者用另一种思路来解释,大语言模型没有可用于记忆中间结果(例如 5+6=11)的外部“临时空间”。而思维链推理使得大模型能够有效使用自己的输出作为暂时记忆空间,从而将复杂问题拆分成更多步骤——每个步骤都可能与模型训练数据中的示例相匹配。

  解决更复杂的数学难题

  在谷歌发表关于思维链提示法论文的几个月前,OpenAI 曾经推出一套包含 8500 道小学数学应用题的 GSM8K 数据集,以及一篇描述问题解法新技术的论文。OpenAI 没有让模型逐一给出答案,而是要求其一次性给出 100 个思路答案,再通过名为验证器的另一套模型对各个答案进行评分。在这 100 条回复中,系统将只返回评分最高的答案。

  乍看起来,训练验证器模型也需要大费周章,难度不啻于训练大语言模型来生成正确答案。但从 OpenAI 的测试结果来看,情况并非如此。OpenAI 发现只需小型生成器与小型验证器的组合,就能提供与单独使用超大生成器模型(参数是前者的 30 倍)相当的结果。

  2023 年 5 月的一篇论文介绍了 OpenAI 在该领域的最新研究情况。OpenAI 已经跨越小学数学,开始研究更具挑战性的 MATH 数据集。OpenAI 现在不再让验证器对完整答案打分,而是训练验证器具体评估各个步骤,具体参见论文给出的下图:

  每一步都有一个绿色笑脸符号,代表该步骤处于正确的思路之上,直到最后一步模型得出“x=7”,这时打出的是红色的皱眉符号。

  文章得出的结论是,在推理过程中的各个步骤上都使用验证器,其结果比直接验证最终答案更好。

  这种逐步验证方法的最大缺点,就是更难实现自动化。MATH 训练数据集中包含每个问题的正确答案,因此很容易自动检查模型是否得出了正确的结论。但 OpenAI 未能找到更好的方法来自动验证中间步骤。于是,该公司只能聘请了一些审查员,为 7.5 万个解题思路的共 80 万个计算步骤提供反馈。

  求解路漫漫

  需要注意的是,GSMK8K 和 MATH 数据集中的问题至少还可以通过分步方式简单解决。但在实际应用中,相当一部分数学问题根本无法拆解,例如:

  你正在筹划一场分五张餐桌、每桌三位客人的婚宴。

  Alice 不想跟 Bethany、Ellen 或者 Kimmie 一起坐。

  Bethany 不想跟 Margaret 一起坐。

  Chuck 不想跟 Nancy 一起坐。

  Fiona 不想跟 Henry 或者 Chuck 一起坐。

  Jason 不想跟 Bethany 或 Donald 一起坐。

  Grant 不想跟 Ingrid、Nancy 或 Olivia 一起坐。

  Henry 不想跟 Olivia、Louise 或 Margaret 一起坐。

  Louise 不想跟 Margaret 或 Olivia 一起坐。

  要如何安排客人座位,才能充分满足他们的要求?

  在把这样的提示词输入 GPT_4 时,它开始分步进行问题推理:

  餐桌 1:Alice、Chcuk 和 Donald。

  餐桌 2:Bethany、Fiona 和 Ellen。

  餐桌 3:Jason、Grant 和 Ingrid。

  但到第四张餐桌时,它就卡住了。这时候 Henry、Margaret 和 Louise 还没有入座,他们彼此都不想坐在一起,但接下来只剩两张桌子可以安排。

  在这个问题中,我们不知道 GPT-4 具体错在哪个具体步骤上。它在前三张桌子的安排上完全满足规则,但这些前期选择也导致余下的客人没办法正确入座。

  这就是计算机科学家们所说的 NP 难题,即不存在通用算法以线性方式加以解决。唯一的办法就是尝试一种可能的安排,看看是否符合要求,如果不行则推倒重来。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论