0°

ChatGPT真实参数只有200亿,首次被微软曝光!网友惊:要开源了?

  标题:揭秘模型界的新革命:规模与智能之辩近期,在人工智能的领域内,一股关于大型模型参数规模的讨论潮流迅速卷起。源自微软的一篇论文不经意间公开了一个令人震惊的秘密:ChatGPT,这个领先全球的AI模型,背后的参数量竟然仅有200亿,与业界的普遍猜测大相径庭。这一发现不仅引发了科技爱好者的广泛关注,更在业内掀起了轩然大波。

  不久前,一张在论文中几乎不起眼的统计图变成了热门话题,因为它透露了这一“天机”。国内外的读者群体一时间难以置信,纷纷质疑这是否是笔误。在科技社区和网络论坛上,用户们开始了热烈的讨论,猜测OpenAI紧张开源可能与此有关。也有声音认为这可能是OpenAI有意为之,为未来可能的开源行动铺路。

  这场讨论并不是无的放矢。几天前,就有细心的用户在GitHub Copilot的API中发现了可能属于GPT-4新型号的线索,带有2023年3月更新的知识标签。这再次激发了人们对OpenAI即将采取行动的预期。

  让我们回到那篇激起波澜的论文。这不仅仅是一次泄密事件,这篇论文本身同样颇具价值。它是业界首个将扩散模型应用于代码生成的研究,提出了一种名为CODEFUSION的编码-解码架构。这个模型不仅仅在代码生成方面展现出新的可能性,还在某些方面与拥有远多于其参数量的GPT-3.5-turbo相媲美。

  CODEFUSION的设计是为了解决一个核心问题:如果只能在最后一行代码进行修改,那么需要重新写多少次才能完成一个函数?这个问题揭示了自然语言生成代码的自回归模型的一个局限性——它们不太能重新考虑已生成的tokens。CODEFUSION通过其编码器、解码器、去噪器和分类头部的独特设计,将自然语言输入转化为连续的表示形式,并将其输入扩散模型,使用高斯噪声进行反复的迭代去噪,从而生成语法正确的代码。

  微软的研究人员通过将CODEFUSION在Python、Bash和Excel条件格式化规则三种语言任务上进行评估,证明了其仅用7500万参数规模就能达到接近200亿参数GPT-3.5-turbo的性能,且生成的代码更为多样化。与此同样,相较于传统的纯文本生成diffusion模型,CODEFUSION在生成语法正确的代码方面表现更佳;与自动回归模型比较,它能生成更多样化的候选代码。

  CODEFUSION与当前最先进的自回归系统相比,在生成代码的准确性上表现相当,甚至在前3名和前5名的准确率方面因为平衡了多样性与质量而表现更优。原本这只是一项常规的性能比较研究,却意外地引发了广泛关注。

  在讨论的深处,也有人提出阴谋论:这或许是OpenAI有意为之的前奏,为了引导大众关注和接受即将到来的大模型开源动作。事实上,大模型的竞争已经非常激烈,早在今年5月,就有报道透露OpenAI准备开源新的大型语言模型。更早在今年2月,福布斯就曾报道过ChatGPT仅拥有200亿参数的消息,但当时并没有引起太多人的注意。

  在人工智能的世界中,参数的规模一直是衡量模型能力的一个重要指标。不过,微软的这一发现似乎在提醒我们:在智能和效率的追求中,更大并不总是意味着更好。这一点从CODEFUSION的表现中得到了印证,它通过更精致的架构设计和算法优化,实现了在代码生成任务上的突破性进展。

  尽管这篇文章的发现似乎是偶然的,但它无疑为人工智能的未来掀开了新的一页。随着对大型模型的认知和应用不断深入,我们或许可以期待在不久的将来,这场关于规模与智能的辩论能够给我们带来更多的启示和进步。

  模型参数规模的意义:随着微软的发现,人工智能界对于模型参数规模的重要性再次受到关注。我们可以进一步讨论模型参数规模与智能表现之间的关系,以及更小规模的模型是否可以在某些任务中超越庞大的大模型。

  新型CODEFUSION模型的前景:CODEFUSION作为一种新型的代码生成模型,表现出了非常令人印象深刻的性能,尤其是在规模相对较小的情况下。我们可以深入探讨CODEFUSION的应用前景,它可能如何改变软件开发领域,以及是否会成为未来代码生成的主要模型之一。

  开源大型模型的趋势:随着微软可能揭示OpenAI的开源计划,我们可以探讨开源大型模型的趋势和影响。这可能会引领更多的研究机构和公司加入开源大型模型的行列,以推动人工智能领域的共享和合作。

  开源大型模型的趋势:随着微软可能揭示OpenAI的开源计划,我们可以探讨开源大型模型的趋势和影响。这可能会引领更多的研究机构和公司加入开源大型模型的行列,以推动人工智能领域的共享和合作。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论