「通用人工智能是未来十到二十年国际科技竞争的战略制高点,其影响力相当于信息技术领域的『原子弹』。」3 月 4 日,在全国政协会议上,北京通用人工智能研究院院长朱松纯在一份提案中建议,要将发展通用人工智能提升到当代「两弹一星」的高度,抢占全球科技与产业发展制高点。
过去很长一段时间里,通用人工智能对于大多数 AI 学者来说是个遥不可及的目标,最近 ChatGPT 的出现却让人感觉:通用人工智能似乎已近在眼前。
ChatGPT 可以胜任各种任务,如搜索问答、文本生成甚至代码生成等,完全超越了人们印象中的 AI 智能助手。在使用者看来,它不仅能分辨出提问者的真实诉求,还拥有出乎预料的博识程度。
但在 ChatGPT 引发的全球技术竞赛中,我们剩下的时间可能不多了:上周三,OpenAI 开放了 ChatGPT API,开发者现在可以通过程序接口将 ChatGPT 和 Whisper 模型的能力集成到自身应用中。过不了多久,我们就能在各种常用 App 上见到「史上最强 AI」的强大能力了。
ChatGPT 的突破改变了人们对于 AI 的观感,而且技术还在不断进步。OpenAI 首席执行官 Sam Altman 提出了新的「摩尔定律」:宇宙中的智能每 18 个月翻一倍。
可见现在业界对于 AI 技术发展速度多有信心。
眼见 OpenAI 和微软的一路领先,国内外科技公司陆续宣布了构建 ChatGPT 类模型的计划,人工智能生成内容(AIGC)领域也进入了一轮爆发式的增长。
目前,国内科技公司正在加速追赶,一批具有商用潜质的类 ChatGPT 技术正逐渐浮出水面。
处于前排的追赶者
ChatGPT 是一个量变引起质变的过程:自 2017 年谷歌提出 transformer 架构以来,人们找到了通过充分利用算力实现 AI 性能提升的方法。2018 年起,OpenAI 先后迭代推出了 GPT-1、GPT-2、GPT-3 和 InstructGPT,而 ChatGPT 是基于最新版本 InstructGPT(GPT-3.5)的改进。
图源:https://lifearchitect.ai/chatgpt/
在 GPT 系列的发展过程中,「炼大模型」逐渐成为了人们提升 AI 性能的重要方式。短短几年,AI 模型的参数量已经从最初的数亿扩张到千亿,甚至万亿规模。
由于 AI 大模型的复杂程度,要想复制 ChatGPT 的成功,意味着技术团队必须要有足够的技术积淀,能动用大量数据和基础设施。在追赶的竞赛中,国内可能很难出现像 OpenAI 这样背靠巨头,「拥有无限资金」的创业公司。重任落到了大厂肩上。
从参数规模来看,国内科技公司的实验室里已经诞生过能够比肩最新版 GPT 体量的语言大模型。根据目前的消息,百度、阿里、腾讯等科技大厂,也已经纷纷官宣进入 ChatGPT 风口。
百度是最早针对 ChatGPT 做出明确表态的公司之一,在人工智能技术四层架构中的全栈布局是其应战的底气。2021 年底,百度曾共同发布了全球首个知识增强千亿大模型「鹏城 – 百度・文心」,模型参数达 2600 亿,是当时全球最大中文单体模型,在 60 多项任务上取得了最好效果。
在微软与谷歌争夺 ChatGPT 搜索首发的同时,百度也官宣了将在 3 月 16 日推出类 ChatGPT 产品「文心一言」。
阿里巴巴则通过技术优势实现了参数规模的量级提升。2021 年 6 月,阿里的多模态大模型 M6 参数规模已经突破 10 万亿,规模远超谷歌、微软,成为全球最大的 AI 预训练模型。
阿里旗下的达摩院在大模型等 ChatGPT 所需底层技术上拥有强大技术能力。此前有消息透露,阿里版 ChatGPT 正在研发中,将和钉钉深度结合。
在提升参数量,并通过架构创新提高计算效率之外,人们也在探索 NLP 大模型的多任务统一能力。2021 年以来,国内 AI 科技公司纷纷转向大模型 + 行业 knowhow,致力于在已有大模型基础上搭建配套工具和平台,降低大模型产业化门槛。
腾讯在大模型领域上一直较为低调,在去年 4 月才首次对外披露了混元 AI 大模型的研发进展。混元完整覆盖 NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业 / 领域模型。在去年 12 月,腾讯混元推出了国内首个低成本、可落地的 NLP 万亿大模型,并再次登顶自然语言理解任务榜单 CLUE。
今年 2 月底,腾讯针对类 ChatGPT 对话式产品已成立「混元助手(HunyuanAide)」项目组,将联合腾讯内部多方团队构建大参数语言模型,目标是「通过性能稳定的强化学习算法训练,完善腾讯智能助手工具,打造腾讯智能大助手,并能成为国内的业界标杆」。
在这些大厂之外,还有一个科技领域的重量级玩家总是受人期待,却仍未见出手。对于「华为在类似 ChatGPT 方向上的计划」,有计算产品线相关负责人仅表示,华为 2020 年开始在大模型开始有布局,2021 年基于昇腾 AI 与鹏城实验室联合发布了鹏程・盘古大模型,是业界首个千亿级生成和理解中文 NLP 大模型。
盘古模型在预训练阶段学习了 40TB 中文文本数据,并通过行业数据的样本调优提升了模型在场景中的应用性能,在 16 个下游任务中性能指标优于业界 SOTA 模型。在应用方向上,盘古支持丰富的应用场景,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。
从技术实践、人才合作到落地应用,从国内一众大厂的表态中我们不难看出,ChatGPT 的竞争中,国内在很多领域上拥有相应的实力。
但这并不是全部,造大模型还有算力这个绕不过去的槛。
跨过算力门槛
人工智能先驱 Richard Sutton 在 2019 年曾发表过一篇著名的文章《苦涩的教训》(The Bitter Lesson),其中一句话说道:「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。」
这是一个颇具争议的观点,但他的预见在 2020 年的 GPT-3 上获得了验证,并随着去年 11 月出世的 ChatGPT 再次引发了广泛讨论。在过去几年中,大量研究者和机构在大模型这个方向上进行探索,并收获了成效,但随着模型体量的急剧膨胀,人们已开始面临大模型「算不起」的问题。
根据 OpenAI 自己的测算,自 2012 年起,全球头部 AI 模型训练算力需求每 3 到 4 个月翻一番,每年先进的模型训练所需算力增长幅度高达 10 倍。