焦点:凭借AIGC爆款应用ChatGPT,Open AI强势出圈
2022年11月30日,由OpenAI开发的聊天机器人ChatGPT推出并席卷了整个行业,短短5天,注册用户数就超过100万,仅 两个月月活用户数已经破亿。2023年1月,全球每天约有1300万独立访问者使用ChatGPT。ChatGPT拥有强大的语言理解 和文本生成能力,能够很好地支持聊天对话、代码撰写、文案创作等任务。
与之前的AI聊天机器人相比,ChatGPT能够理解上下文并给出合理的回复,对话连续性大幅提升,可以称为人工智能发 展史上的划时代产品。凭借着ChatGPT的成功,Open AI成为全球AI行业关注的焦点。
OPEN AI:GPT模型技术领先,ChatGPT发布引发变革
AIGC(AI Generated Content)是人工智能生成内容,也称为生成式AI,涉及无监督和半监督学习算法,能够使计算机用先前创建的内 容(诸如文本、音频、视频、图像和代码等)来生成新的内容,以此响应用户输入的提示语。
OPEN AI是全球领先的AIGC公司。OPEN AI成立于2015年,其最初定位为“非盈利性研究机构”,2018年,OPAN AI发布了GPT-1模型, 2019年,公司改制为“有上限的盈利性机构”,并于同年发布GPT-2模型;2022年3月,OPAN AI发布InstructGPT模型;2022年11月, OPEN AI发布ChatGPT。此外,公司还拥有自然语言转图片的应用DELL E2。
OPEN AI:微软持续提供资金、算力和生态支持,助力成就爆款
微软高度重视人工智能领域,在资金投入、计算资源、应用开发等方面与OPEN AI形成了密切的合作关系,两者优势互补、合作共赢。资金投入:2019年,微软向OPEN AI投资10亿美元;2021年,微软再次向OPEN AI投资,数额未披露;2023年1月,微软宣布将通过一 项花费数年、数十亿美金的投资深化与OPEN AI的合作,根据美国财富杂志信息,该投资可能高达100亿美元。 计算资源:微软Azure是OPEN AI的独家云供应商,且微软将加大在超级计算机方面的投资以支持OPEN AI的发展,同时OPEN AI也可以 反哺增强微软Azure的AI能力,两者能够很好的合作共赢。 应用开发:2月8日,微软推出基于OPEN AI模型的Edge浏览器和Bing搜索引擎,且微软表示未来所有产品将全线整合ChatGPT,包括 Office三件套、Azure云服务、企业定制版产品等。
百度:文心大模型国内全面领先,有望打造成国产ChatGPT
百度在大模型领域拥有较强的技术实力和平台积累,其文心大模型总体位于行业前列。2019年3月,百度首次发布预训练模型ERNIE 1.0,之后针对大模型的技术创新与产业应用持续发力,目前已经实陆续实现了一定程度的突破:2021年,百度发布最新版大模型 ERNIE 3.0;2022年,百度发布鹏城-百度文心大模型,其参数规模达到2600亿,较GPT-3参数量高50%;2023年2月,百度宣布其最新 的大模型“文心一言”将于三月份完成内测,并面向公众开放。 根据IDC对国内大模型市场的评估,百度文心大模型在产品能力、应用能力、生态能力等方面处于全面领先的业界地位。
百度:创新性引入大规模知识,文心大模型性能大幅提升
百度文心大模型拥有NLP、CV、跨模态、生物计算等大模型组合,具有产业级和知识增强两大特点。文心大模型源于产业、服务于产 业,可以满足真实场景中的诸多应用需求,真正发挥大模型驱动AI规模化应用的产业价值;文心大模型在海量文本数据的基础上引入 大规模知识图谱,促进了结构化知识和无结构化文本之间的融合与共享,模型能力大幅提升。 2021年百度发布了ERNIE3.0模型,首次在百亿级预训练中引入了大规模知识,模型学习效率和可解释性大幅增强。框架方面,ERNIE 3.0模型框架分为“通用表示” 和“任务表示”两层,同时具备语言理解和语言生成两种功能;性能方面,ERNIE 3.0刷新了54个中 文NLP任务基准,且其英文模型在复杂语言理解任务评测中超过了人类水平0.8个百分点。
百度:“文心一言”生态建设取得进展,具备商用拓展潜力
文心NLP大模型面向语言理解、语言生成等场景,具备超强的语言理解、对话生成、文学创作等能力。文心NLP模型将大数据预训练与 多源丰富知识相结合,通过持续学习,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化。 “文心一言(英文名:ERNIE Bot)”是百度基于文心大模型技术推出的生成式对话产品。2023年2月7日,百度宣布将于2023年3月份 发布“文心一言”,目前已经有大量下游客户参与文心一言的生态建设,行业覆盖面广泛,包括新闻、传媒、互联网、家装、汽车、 金融等,其中新闻传媒业积极性最高,反映出“文心一言”这类AIGC产品将给媒体创作类行业带来巨大影响。在2023 AI+工业互联网 高峰论坛上,百度智能云宣布“文心一言”将通过百度智能云对外提供服务,率先在内容和信息相关的行业和场景落地。
变革:AIGC与人更为神似,模型和数据是主要助力
改变:AIGC实现了从分析预测到生成创造的跨越,AI开始更像人
AIGC为人工智能技术带来技术变革。相比于之前的分析式AI,AIGC不再局限于分析已有数据的规律,而是实现了从分析内容到创造生 成新内容的跨越,让AI更像人。事实上,早在2014年,随着一种深度学习架构生成对抗网络(GAN)的出现,生成式AI就开始流行。 但近年来,生成式AI在模型、数据、算力都大幅度提升和改进,行业进入爆发期,其中模型的演进影响最为深远。
突破|模型:预训练大模型Transformer助力,AIGC实现里程碑式飞跃
预训练大模型为生成式AI带来里程碑式飞跃。2017年Transformer架构的出现改善了循环神经网络(RNN)的局限性,标志性特征是采用 了self-attention机制,可为输入数据的各部分分配不同权重,支持GPT-3和LaMDA等大型语言模型(LLM)。Transformer模型可并行训 练,使GPU性能改善所带来的模型训练效果显著提升,同时可以通过不断增加模型参数量以及预训练使用的数据量来提升模型性能。
大模型(又称基础模型)可经过海量、多样化数据(通常无标注文本)的预训练,再针对广泛的下游任务进行微调或适应。针对不同 的任务和应用场景,只需要将大模型迁移学习到下游任务即可实现,避免了传统NLP技术需要从头开始训练下游任务的痛点。
突破|模型:Transformer衍生出三类模型,打下生成式AI算法的基础
深度神经网络结构升级引发AIGC技术开发新范式,各类预训练模型层出不穷,可用于NLP(诸如GTP-3)、CV(诸如Florence)或多模态 领域(诸如Stable Diffusion) 。 以Transformer架构为基础衍生出的典型预训练语言模型大致可以分为三类:1)Encoder模型(以BERT为代表):又称自编码模型,适 用于内容理解任务,例如需要理解输入语义的任务,例如情感分析;2)Decoder模型(以GPT为代表):又称自回归模型,适用于生成 式任务,例如文本生成;3)Encoder-Decoder模型(以T5为代表):又称 Seq2Seq模型,通常用于需要内容理解和生成的任务,例如 翻译。
突破|模型:GPT系列大模型演进和应用较快,最终掀起AIGC热潮
Transformer三条路线中,GPT模型进展较快:2018年,由OpenAI提出的生成式预训练模型GPT诞生,提出了半监督学习方法,即通过 “预训练+微调”的方式让模型通过大量无标注数据学习,从而缓解人工标注数据有限的问题;2019年,GPT-2去除finetune,参数量增 加,采用zero-shot(零样本)学习,模型的泛化能力提升;2020年,GPT-3采用few-shot(小样本),并将训练参数又提升两个数量级, 模型准确率和性能再次提升;2022年,InstructGPT在GPT-3基础上采用奖励机制,通过人为标注和强化学习的方法提升模型输出结果的 真实性、无害性和有用性,13亿参数版本实现了比1750亿参数版本GPT-3更好的模型性能。
突破|数据集:数据量、多样性、数据质量是关键要素
语料库的数据量、多样性、数据质量成为训练数据集的关键要素。GPT使用了包含7000本书的BookCorpus数据集;GPT-2则收集了更加广 泛、数量更多的语料组成数据集,包含800万篇Reddit上高赞的文章网页,大小为40GB,Reddit上的数据会包括各个领域,所以既保证 了数据质量、数量又保证了数据的多样性; GPT-3则采用了5种语料库(5000亿tokens),大小增至45TB;InstructGPT的预训练和GPT3 相同,但用标注数据和提示语进行了微调和优化,OPENAI雇佣了40名标注人员(labeler)且进行了培训,通过指示学习构建训练样本 来训练奖励模型,最后通过奖励模型的打分排序来指导强化学习模型的训练。
市场:大模型需要大算力,推动AI服务器市场增长
算力:ChatGPT是基于InstructGPT模型,大幅扩大数据量级而得到
ChatGPT模型训练结合了监督学习和强化学习,具体的训练方法分为三步:1)收集数据集并进行人工标注,输入到GPT-3.5模型中进 行GPT-3.5模型微调,训练输出一个监督模型(SFT);2)收集SFT模型生成的多输出比较数据集,对诸多答案进行排序打分(人工标 注),训练输出一个奖励模型(RM);3)利用RM模型作为奖励函数,通过PPO算法对SFT模型进行强化学习,持续迭代生成模型,此 过程无需人工标注。
算力:大模型的实现需要十分强大的算力来支持训练过程和推理过程
大模型的实现需要十分强大的算力来支持训练过程和推理过程。根据OPENAI数据,训练GPT-3 175B的模型,需要的算 力高达3640 PF-days(即以1PetaFLOP/s的效率要跑3640天)。2018年以来,大模型的参数量级已达到数千亿参数的 量级规模,对算力的需求将呈现指数级增长。
算力:AI芯片的性能提升成为决定大模型从理论实践到大规模应用的关键要素
根据《COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING》研究结果,大模型时代,算力翻倍的需求时间 是9.9个月。AI芯片的性能提升成为决定大模型从理论实践到大规模应用的关键要素。 在供给端,AI芯片厂商推出了性能越来越强的新产品来应对人工智能发展的算力需求。以英伟达为例,2020年,英 伟达推出了A100 GPU芯片,相比上一代V100 GPU芯片,A100 GPU芯片性能大幅提升。针对大模型,A100 GPU芯片相 比V100 GPU芯片可提供高达3倍的训练速度。
算力:ChatGPT的训练成本和推理成本高昂
在训练端:据报道,2020年,微软宣布与OpenAI合作,建成了一台超级计算机,专门用来在Azure公有云上训练超大规模的人工智能模型。这台为OpenAI开 发的超级计算机拥有超过28.5万个CPU核心,拥有超过1万个GPU(V100 GPU芯片)。以此规格,如果自建IDC,以A100 GPU芯片替代V100 GPU芯片,依照 A100和V100的性能换算,需要约3000个A100 GPU芯片。根据英伟达网站信息,NVIDIA DGX A100服务器搭载8块A100芯片,估算需要375台NVIDIA DGX A100 服务器,每台NVIDIA DGX A100服务器的价格为19.9万美元,则自建IDC的训练服务器的算力成本为7462.5万美元。若在云端训练,据Lambda Labs首席科学 官Chuan li介绍,拥有1750亿个参数的GPT-3单次训练成本达到460万美元。
应用:行业将逐步回归理性,能否突破需要看B端
AIGC将逐步回归理性,未来2-3年重点培育应用和教育市场
未来2-3年是AIGC走向成熟的关键时期。类似于计算机视觉等相对成熟的技术,AIGC在经历了近期的炒作热潮结束之后,预计行业将经 历一段下沉期,市场趋向理性。AIGC则需要加快开始教育和融入市场,培育产品和应用。如果能够像计算机视觉一样,找到合适的商 业化场景,行业后续将逐步得到市场认可,并持续做大;如果不能,这项技术也可能持续停留在低谷期,甚至被市场淘汰。
ChatGPT的快速推进,标志着AIGC在C端有着巨大潜力,但B端、G端相关产品应该将是公司的主要收入来源。C端看,主要是来自于内容 生成等工具性的需求,一般都是轻应用,尝鲜之后的付费意愿值得观察,主流的产品收费模式将是SaaS应用订阅;B端看,是含金量最 大的市场,需要将技术转化成工具和解决方案,为企业和行业赋能,收费模式可能包括项目定制+后续订阅收入。
国内AIGC垂直应用起步较晚,文本、图像等领域都还是蓝海赛道
相较美国市场,国内AIGC在相对成熟的赛道上参与者也不是很多,这和之前的预测性AI趋于红海的市场有着很大的差异。一方面,国 内在算法和应用开发上存在差距,同时公有云SaaS发展不足带来的训练数据质量和应用通用性较差,限制了国内应用的大面积铺开; 另一方面,国内B端为应用付费的意愿,尤其是AIGC这类新应用付费的意愿并不够强,反而是国内一些To C的赛道发展的更好一点。
从趋势上看,AIGC最终的市场依然是B端,但是考虑到中美市场的差异,国内企业依靠单一通用应用去打所有市场的可能性比较小, 需要通过垂直化、行业定制化的开发AIGC方案,早期可能只面向1个或者几个行业赛道,有积累之后持续拓展其他行业。