AI服务器:ChatGPT训练热潮有望带动AI服务器需求
ChatGPT:大模型+Transformer架构,带动并行计算需求
大厂布局 ChatGPT 类似产品,或将带来底层算力需求。ChatGPT 发布之后,引发了全球 范围的关注和讨论,国内各大厂商相继宣布 GPT 模型开发计划。据各公司官网,2023 年 2 月 7 日,百度宣布将推出 ChatGPT 类似产品“文心一言”,预计今年 3 月展开内测;2 月 8 日阿里宣布阿里版 ChatGPT 正在研发中,目前处于内测阶段;2 月 9 日,字节跳动旗下 AI Lab 宣布正在开展 ChatGPT 和 AIGC 相关研发,未来将为 PICO 提供技术支持;2 月 10 日,京东旗下言犀人工智能平台推出产业版 ChatGPT—“ ChatJD”。我们认为,随着国内 互联网厂商陆续开展 ChatGPT 类似产品研发,GPT 大模型训练热潮或将带来底层算力需 求快速释放。
AI 模型对算力的需求主要体现在训练和推理两个层面。当前主流的人工智能算法通常可分 为“训练”和“推理”两个阶段。据 IDC 数据,2021 年中国人工智能服务器工作负载中, 57.6%的负载用于推理,42.4%用于模型训练。据 IDC 预计,到 2026 年 AI 推理的负载比 例将进一步提升至 62.2%。
具体来看: 1)训练阶段:基于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预 期。对于图像识别、语音识别与自然语言处理等领域的复杂问题,为了获得更准确的人工 智能模型,训练阶段常常需要处理大量数据集、做反复的迭代计算,耗费巨大的运算量。 2)推理阶段:训练阶段结束以后,人工智能模型已经建立完毕,已可用于推理或预测待处 理输入数据对应的输出(例如给定一张图片,识别该图片中的物体),此过程被称为推理阶 段。推理阶段对单个任务的计算能力要求不如训练那么大,但是由于训练出来的模型会多 次用于推理,因此推理运算的总计算量也相当可观。
ChatGPT 算力需求场景包括预训练、Finetune 及日常运营。从 ChatGPT 实际应用情况来 看,从训练+推理的框架出发,我们可以将 ChatGPT 的算力需求按场景进一步拆分为预训 练、Finetune 及日常运营三个部分:1)预训练:主要通过大量无标注的纯文本数据,训练 模型基础语言能力,得到类似 GPT-1/2/3 这样的基础大模型;2)Finetune:在完成预训练 的大模型基础上,进行监督学习、强化学习、迁移学习等二次或多次训练,实现对模型参 数量的优化调整;3)日常运营:基于用户输入信息,加载模型参数进行推理计算,并实现 最终结果的反馈输出。
预训练阶段:单次算力需求取决于模型参数量,最高可达3640 PFlop/s-day
ChatGPT 基于 Transformer 架构,进行语言模型预训练。GPT 模型之所以能够高效地完 成大规模参数计算,我们认为离不开Transformer架构的加持。拆解Transformer架构来看, 核心是由编码模块和解码模块构成,而 GPT 模型只用到了解码模块。拆解模块来看,大致 分为三层:前馈神经网络层、编码/解码自注意力机制层(Self-Attention)、自注意力机制掩 码层,其中:1)注意力机制层主要作用在于计算某个单词对于全部单词的权重(即 Attention), 从而能够更好地去学习所有输入之间的关系,实现对文本内在关系的理解和更大规模的并 行计算;2)前馈神经网络提供了对数据信息的高效存储及检索;3)掩码层在这一过程中 帮助模型屏蔽位于计算位置右侧尚未出现的单词。因此,相较于前代深度学习架构 RNN, Transformer 架构可以实现更大规模的并行计算,大大提升了计算效率。
单一大模型路线下,需要完成大规模参数计算。以 GPT-3 模型为例,随着模型朝更大体量 的方向演进,参数量从 GPT-3 Small 的 1.25 亿个增长到 GPT-3 175B 的 1746 亿个,一次 训练所需的计算量从 2.6PFlop/s-day 增至 3640PFlop/s-day。与此同时,在不同学习样本 (包括小样本、单一样本、零样本)条件下的模型,随着参数量的提升均实现不同幅度的 上下文学习能力改善,外在表现为语言准确率的提升。我们认为,随着大模型训练表现出 越来越强大的实战能力,未来或将成为 NLP 训练的主流选择。
推理阶段:预计单月运营算力需求约7034.7 PFlop/s-day
ChatGPT 近一月访问量为 8.89 亿次。据 SimilarWeb 数据,2023 年 1 月以来 ChatGPT 官 网日访问量持续攀升,从 1 月初的日均千万次级别,到 1 月底日均两千万次,再到 2 月中 旬的三千万次级别,随着软件效果的广泛传播,用户访问次数愈发频繁。加总近一月 (2023/1/17-2023/2/17)ChatGPT 官网访问量数据来看,可得 ChatGPT 月访问量为 8.89 亿次。
预计日常运营单月所需算力约 7034.7 PFlop/s-day。日常运营过程中,用户交互带来的数 据处理需求同样也是一笔不小的算力开支。据前文,近一个月(2023/1/17-2023/2/17) ChatGPT 官网总访问量为 8.89 亿次。据 Fortune 杂志,每次用户与 ChatGPT 互动,产生 的算力云服务成本约 0.01 美元。基于此,我们测算得 2023 年 1 月 OpenAI 为 ChatGPT 支 付的运营算力成本约 889 万美元。此外,据 Lambda,使用训练一次 1746 亿参数的 GPT-3 模型所需花费的算力成本超过 460 万美元;据 OpenAI,训练一次 1746 亿参数的 GPT-3 模型需要的算力约为 3640 PFlop/s-day。我们假设单位算力成本固定,测算得 ChatGPT 单 月运营所需算力约 7034.7PFlop/s-day。
Finetune阶段:预计ChatGPT单月Finetune的算力需求至少为1350.4PFlop/s-day
模型迭代带来 Finetune 算力需求。从模型迭代的角度来看,ChatGPT 模型并不是静态的, 而是需要不断进行 Finetune 模型调优,以确保模型处于最佳应用状态。这一过程中,一方 面是需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要 基于用户反馈和 PPO 策略,对模型进行大规模或小规模的迭代训练。因此,模型调优同样 会为 OpenAI 带来算力成本,具体算力需求和成本金额取决于模型的迭代速度。
预计 ChatGPT 单月 Finetune 算力需求至少为 1350.4PFlop/s-day。据 IDC 预计,2022 年中国人工智能服务器负载中,推理和训练的比例分别为 58.5%、41.5%。我们假设, ChatGPT 对推理和训练的算力需求分布与之保持一致,且已知单月运营需要算力 7034.7 PFlop/s-day、一次预训练需要算力 3640 PFlop/s-day。基于此,我们进一步假设:1)考 虑到 AI 大模型预训练主要通过巨量数据喂养完成,模型底层架构变化频率不高,故我们假 设每月最多进行一次预训练;2)人类反馈机制下,模型需要不断获得人类指导以实现参数 调优,以月为单位可能多次进行。由此我们计算得 ChatGPT 单月 Finetune 算力成本至少 为 1350.4PFlop/s-day。
ChatGPT需要的服务器:AI训练型服务器+AI推理型服务器
随着计算场景扩展,算力硬件也在发生变化。在传统软件架构下,主要的模式都是 CS 模 式,服务端大多是单机处理几千个轻量请求。而在边缘计算场景下,需要数万台服务器处 理上亿个重负载请求。边缘计算机本质上是用 CES 模式取代 CS 模式,当前的互联网 IT 架 构已经从 CS 模式,逐步向 CDN 服务为核心的 CES 模式转变。但当前的 CDN 模式比较大 的局限性在于缺乏灵活性,不能解决边缘上非结构化数据存储和处理的需求,引入 Edge 端(边缘端)就是为了解决 CS 模式下无法处理的业务。而在 AI 训练场景下,计算量及数 据类型的变化导致 C-E-S 又无法满足集中大算力需求,计算架构回归 C-S,并向高效率并 行计算演变。
服务器作为算力硬件核心,面向不同计算场景分化演进。我们认为,计算架构的变化是推 动服务器技术演进的关键变量。从计算场景来看,随着计算架构从 PC 到云计算,到边缘计 算,再到 AI 训练,服务器需求也在发生相应变化。从单一服务器更加强调服务个体性能, 如稳定性、吞吐量、响应时间等。云数据中心服务器对单个服务器性能要求下降,但更强 调数据中心整体性能,如成本、快速部署和交付。边缘计算场景下,开始出现异构计算等 复杂环境计算,对数据交互实时性要求有所提升,需要在边缘端设立单独的服务器设施。 而 AI 服务器主要专为人工智能训练设计,数据类型以向量/张量为主,多采用大规模并行计 算以提升运算效率。
同一技术路线下,服务器面向数据处理需求持续迭代。复盘主流服务器发展历程来看,随 着数据量激增、数据场景复杂化,不同类型服务器发展驱动力也有所差异。具体来看: 1)通用服务器:传统通用服务器的发展与计算机架构发展同步,通过处理器的时钟频率、 指令集并行度、核数等硬件指标的提升优化自身性能,发展较为缓慢。
2)云计算服务器:云计算的概念于 20 世纪 80 年代提出,仅 20 年后就有较为成熟的产品 推出,如 VMware 的 VMware Workstation 和亚马逊 AWS 等。2010 年随着 OpenStack 开 源,阿里云、华为云等项目相继布局,云计算行业快速走向成熟。 3)边缘计算服务器:边缘计算概念孵化于 2015 年,仅 2 年后就有诸如亚马逊 AWS Greengrass、谷歌 GMEC 等边缘计算平台产生,并在微软的带领下提前进入技术并购期。 4)AI 服务器:AI 服务器最早由思科在 2018 推出,专为人工智能、机器学习的工作服务而 设计,硬件架构更加适合 AI 训练场景下的算力需求。
云计算服务器:大规模数据处理需求下的商业模式变革
数据量激增带来大算力需求,云计算服务器应运而生。通用服务器通过提高硬件指标提升 性能,而随着 CPU 的工艺和单个 CPU 的核心数量接近极限,通用服务器性能难以支持数 据量激增带来的性能需求。云计算服务器则通过虚拟化技术,将计算和存储资源进行池化, 把原来物理隔离的单台计算资源进行虚拟化和集中化。最终以集群化处理来达到单台服务 器所难以实现的高性能计算。同时,云计算服务器集群的计算能力可以通过不断增加虚拟 化服务器的数量来进行扩展,突破单个服务器硬件限制,应对数据量激增带来的性能需求。
云计算服务器节约部分硬件成本,降低算力采购门槛。早期大规模数据处理成本极高,原 因在于通用服务器的购置和运维成本居高不下。传统服务器中均包含处理器摸块、存储模 块、网络模块、电源、风扇等全套设备,而云计算服务器体系架构精简,省去重复的模块, 提高了利用率。同时云计算服务器针对节能需求,将存储模块进行虚拟化,并去除了主板 上的非必要硬件,降低了整体计算成本,并通过流量计费模式,使得更多厂商可以负担算 力开支,降低了算力采购门槛。
边缘服务器:高数据密度和带宽限制下保证低时延
边缘计算在云计算的基础上引入边缘层。边缘计算是在靠近物或数据源头的网络边缘侧, 为应用提供融合计算、存储和网络等资源。在体系架构上,边缘计算在终端层和云层之间 引入边缘层,从而将云服务扩展到网络边缘。其中终端层由物联网设备构成,最靠近用户, 负责收集原始数据并上传至上层进行计算;边缘层由路由器、网关、边缘服务器等组成, 由于距离用户较近,可以运行延迟敏感应用,满足用户对低时延的要求;云层由高性能服 务器等组成,可以执行复杂计算任务。
边缘计算较云计算在实时性、低成本和安全性等方面有优势: 1)实时性:边缘计算将原有云计算中心的计算任务部分或全部迁移到与用户距离更近的网 络边缘进行处理,而不是在外部数据中心或云端进行,因此提高了数据传输性能,保证了 处理的实时性。 2)低带宽成本:终端产生的数据无需远距离传输至云端,避免带宽成本。同时,边缘计算 机制中,边缘层可对终端产生数据进行预处理,从而降低云计算中心的计算负载。 3)安全性:边缘计算在本地设备和边缘层设备中处理大部分数据而不是将其上传至云端, 减少实际存在风险的数据量,避免数据泄露危险。
AI服务器:更适合深度学习等AI训练场景
AI 服务器采取 GPU 架构,相较 CPU 更适合进行大规模并行计算。通用服务器采用 CPU 作为计算能力来源,而 AI 服务器为异构服务器,可以根据应用范围采用不同的组合方式, 如 CPUGPU、CPUTPU、CPU 其他加速卡等,主要以 GPU 提供计算能力。从 ChatGPT 模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型 RNN 来看, Transformer 架构下,AI 模型可以为输入序列中的任何字符提供上下文,因此可以一次处理 所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从 GPU 的计算方式来看,由于 GPU 采用了数量众多的计算单元和超长的流水线,因此其架构设计 较 CPU 而言,更适合进行大吞吐量的 AI 并行计算。
深度学习主要进行矩阵向量计算,AI 服务器处理效率更高。从 ChatGPT 模型结构来看, 基于 Transformer 架构,ChatGPT 模型采用注意力机制进行文本单词权重赋值,并向前馈 神经网络输出数值结果,这一过程需要进行大量向量及张量运算。而 AI 服务器中往往集成 多个 AI GPU,AI GPU 通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度 学习算法的运算。因此在人工智能场景下,AI 服务器往往较 GPU 服务器计算效率更高,具 备一定应用优势。
AI 服务器分类方式有两种: 1)按应用场景:AI 服务器按照应用场景可以分为深度学习训练型和智能应用推理型。训练 任务对服务器算力要求较高,需要训练型服务器提供高密度算力支持,典型产品有中科曙 光 X785-G30 和华为昇腾 Atlas 800(型号 9000、型号 9010)。推理任务则是利用训练后 的模型提供服务,对算力无较高要求,典型产品有中科曙光 X785-G40 和华为昇腾 Atlas 800 (型号 3000、型号 3010)。 2)按芯片类型:AI 服务器为异构服务器,可以根据应用范围调整计算模块结构,可采用 CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC 或 CPU+多种加速卡等组合形式。目 前,产品中最常见的是 CPU+多块 GPU 的方式。
常见的 AI 服务器分为四路、八路、十六路。一般来说,通用服务器主要采用以 CPU 为主 导的串行架构,更擅长逻辑运算;而 AI 服务器主要采用加速卡为主导的异构形式,更擅长 做大吞吐量的并行计算。按 CPU 数量,通用服务器可分为双路、四路和八路等。虽然 AI 服务器一般仅搭载 1-2 块 CPU,但 GPU 数量显著占优。按 GPU 数量,AI 服务器可以分为 四路、八路和十六路服务器,其中搭载 8 块 GPU 的八路 AI 服务器最常见。
AI 服务器采用多芯片组合,算力硬件成本更高。我们以典型服务器产品为例拆解硬件构成, 可以更清晰地理解两类服务器硬件架构区别:以浪潮通用服务器 NF5280M6 为例,该服务 器采用 1~2 颗第三代 Intel Xeon 可扩展处理器,据英特尔官网,每颗 CPU 售价约 64000 万元,故该服务器芯片成本约 64000~128000;以浪潮 AI 服务器 NF5688M6 为例,该服务 器采用2颗第三代Intel Xeon可扩展处理器+8颗英伟达A800 GPU的组合,据英伟达官网, 每颗 A800 售价 104000 元,故该服务器芯片成本约 96 万元。
ChatGPT需要的芯片:CPU+GPU、FPGA、ASIC
ChatGPT带动大模型训练热潮,AI服务器需求有望放量
GPT 模型训练需要大算力支持,或将带来 AI 服务器建设需求。我们认为,随着国内厂商陆 续布局 ChatGPT 类似产品,GPT 大模型预训练、调优及日常运营或将带来大量算力需求, 进而带动国内 AI 服务器市场放量。以 GPT-3 175B 模型预训练过程为例,据 OpenAI,进 行一次 GPT-3 175B 模型的预训练需要的算力约 3640 PFlop/s-day。我们假设以浪潮信息 目前算力最强的 AI 服务器 NF5688M6(PFlop/s)进行计算,在预训练期限分别为 3、5、 10 天的假设下,单一厂商需采购的 AI 服务器数量分别为 243、146、73 台。
AI 大模型训练需求火热,智能算力规模增长有望带动 AI 服务器放量。据 IDC 数据,以半 精度(FP16)运算能力换算,2021 年中国智能算力规模约 155.2EFLOPS。随着 AI 模型 日益复杂、计算数据量快速增长、人工智能应用场景不断深化,未来国内智能算力规模有 望实现快速增长。IDC 预计 2022 年国内智能算力规模将同比增长 72.7%至 268.0 EFLOPS, 预计2026年智能算力规模将达1271.4 EFLOPS,2022-2026年算力规模CAGR将达69.2%。 我们认为,AI 服务器作为承载智能算力运算的主要基础设施,有望受益于下游需求放量。
国产厂商布局丰富产品矩阵,占据全球AI服务器市场领先地位
浪潮信息、联想、华为等国产厂商在全球 AI 服务器市场占据领先地位。全球市场来看,AI 服务器市场份额 TOP10 厂商中,国产厂商占据 4 席,累计市场份额超 35%,其中浪潮信 息以 20.2%的份额排名第一。国内市场来看,AI 服务器市场集中度较高,排名前三的供应 商为浪潮信息、宁畅和华为,CR3 达 70.40%。我们认为,国产厂商凭借强大产品竞争力, 已经在国际市场占据一定领先地位,未来随着 AI 算力需求释放,有望充分受益于产业成长 机遇。
浪潮信息:AI 服务器产品矩阵丰富,产品力获国际认可。目前公司 AI 服务器主要产品型号 包括 NF5688M6、NF5488A5 等,据公司官网,2021 年上述两款 AI 服务器在国际权威 AI 基准测试 MLPerf 榜单中,获得医学影像分割、目标物体检测、自然语言理解、智能推荐等 7 项训练冠军,可满足包括自然语言理解等在内的多项 AI 训练需求。此外,公司在 AI 领域 的积累还包括 AI 资源平台、AI 算法平台等,具备大量算力解决方案实施经验。
华为:AI 服务器融合自研加速卡与英特尔 CPU。公司 AI 服务器为 Atlas 800 推理服务器系 列,旗下有型号 3000、型号 3010、型号 9000 和型号 9010。其中,型号 3000 基于昇腾 310 芯片,型号 3010 基于 Intel 处理器,型号 9000 基于华为鲲鹏 920+昇腾 910 处理器, 型号 9010 基于 Intel 处理器+华为昇腾 910 芯片。旗舰级芯片加持下,产品最高拥有 2.24 PFLOPS FP16 的高密度算力,并在设计结构优化下,芯片间跨服务器互联时延可缩短 10~70%。
新华三 AI 服务器覆盖各训练负载要求,结合软件平台构建 AI 完整生态。公司主要产品型 号包括 R4900 G5、R5300 G5、R5500 G5 等,可分别针对不同训练负载要求,满足大小 规模的推理/训练任务。软件层面,公司通过新华三傲飞 AI/HPC 融合管理平台,全面提升 AI 作业效率约 32%。2022 年,新华三被国际权威分析机构 Forrester 认定为大型人工智能 系统成熟厂商,可以提供可靠的服务器解决方案。同时,新华三 AI 服务器在 MLPerf 测评 中共斩获 86 项世界第一。
龙头厂商有望充分受益于算力需求释放。我们认为,随着 ChatGPT 待动大模型训练热潮, 以人工智能训练为代表的智能算力需求逐步释放,有望带动 AI 服务器放量。拆解 AI 服务器 成本来看,GPU 等算力芯片为核心组件,先进算力产品受美国出口管制影响,但可通过采 购 A800 实现基本替代。我们认为,浪潮信息等国产头部厂商凭借丰富产品矩阵和强大产品 竞争力,占据全球 AI 服务器市场主要份额,未来有望充分受益于服务器需求释放。
GPU算力芯片为核心组件,国产替代未来可期
拆解来看,AI 服务器主要成本包括算力芯片、内存、存储等。据 IDC 的 2018 年服务器成 本结构拆分数据,芯片成本在基础型服务器中约占总成本的 32%,在高性能或具有更强运 算能力的服务器中,芯片相关成本占比可以高达 50%-83%。以机器学习型 AI 服务器为例, 其主要成本由 GPU、CPU、内存及其他部件组成,其中 GPU 成本占比最高,达到 72.8%。
AI 服务器算力芯片以 GPU 为主。据 IDC,2022 年国内人工智能芯片市场中,GPU 芯片占 据主要市场份额,达 89.0%,主因 GPU 芯片并行计算架构更加适合于复杂数学计算场景, 可以较好支持高度并行的工作负载,因此常用于数据中心的模型训练,以及边缘侧及端侧 的推理工作负载。此外,其他主要的人工智能芯片还包括 NPU、ASIC、FPGA 等。一般而 言,AI 服务器中算力芯片需求数量取决于服务器设计性能要求,需求种类取决于成本、功 耗、算法等指标。常见的算力芯片组合,如 8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU 等。
GPU 结构:计算单元+显存。计算单元(Streaming Multiprocessor):计算单元的功能是执 行计算。其中每一个 SM 都有独立的控制单元、寄存器、缓存、指令流水线。显存(Global Memory):显存是在 GPU 板卡上的 DRAM,容量大但速度慢。 1.计算单元底层架构: 显卡核心构成多样,不同核心专注不同任务。以英伟达为例,GPU 显卡构成包括 TENSOR CORE、CUDA 和 RT 等部分。TENSOR CORE,即张量核心,是英伟达 GPU 上一块特殊 区域,针对 AI 矩阵计算设计,可显著提高 AI 训练吞吐量和推理性能。CUDA 则是英伟达 生态中的通用结构,一般包括多个数据类型,适用于视频制作,图像处理,三维渲染等常 见图像处理和计算工作。
2、TOPS 和 TFLOPS 是常见算力衡量单位: 1)OPS:OPS(Operations Per Second)指每秒执行的操作次数,是整数运算的单位, 常在 INT8、INT4 等计算精度下度量算力性能。其中 TOPS(Tera Operations Per Second) 代表处理器每秒钟可进行一万亿次(10^12)操作,类似的单位还有诸如 GOPS、MOPS, 均代表每秒的操作次数。 2)FLOPS:FLOPS(Floating-point Operations Per Second)指每秒所执行的浮点运算次 数,常在单精度(FP32)、半精度(FP16)等计算精度下度量算力性能。TFLOPS(Tera Floating-point Operations Per Second)代表处理器每秒钟可进行一万亿次(10^12)浮点 运算。虽然 TOPS 和 TFLOPS 数量级一样,但前者是衡量操作次数,后者是衡量浮点运算, TOPS 要结合数据类型精度(如 INT8,FP16 等)才能与 FLOPS 转换。
3.显存位宽、带宽与容量: 显存的主要指标包括位宽、带宽和容量。显存本身与 CPU 的内存类似,将数据在 GPU 核 心与磁盘间传输。显存位宽是显存在一个时钟周期内所能传送数据的位数,决定了显存瞬 时传输的数据量。显存带宽是指显示芯片与显存之间的数据传输速率,由显存频率和显存 位宽共同决定,体现了显卡的速度和性能。显存容量决定了显存临时存储数据的多少。 目前主流 AI GPU 芯片包括英伟达 H100、A100 以及 V100 等。全球来看,目前用于人工 智能训练的 AI GPU 市场以英伟达为主导,公司旗下先进算力产品主要包括 H100、A100 以及 V100。对比双精度浮点计算性能(FP64 Tensor Core)来看,H100、A100、V100 计算速度分别为 67 TFLOPS、19.5 TFLOPS、8.2 TFLOPS。从显存带宽来看,H100、A100、 V100 传输速度分别为 3TB/s、2TB/s、900GB/s。
先进算力芯片进口受限或为国产 AI 服务器的瓶颈之一。2022 年 10 月 7 日,美国商务部工 业与安全局(BIS)宣布了针对中国出口先进芯片的管制新规声明。声明规定,满足输入输 出(I/O)双向传输速度高于 600GB/s,同时每次操作的比特长度乘以 TOPS 计算出的处 理性能合计为 4800 或更多算力的产品,将无法出口至中国。以英伟达 A100 为例,以 TF32 性能测算,即 156*32=4992>4800,且传输速度为 600GB/s。基于此,我们可以推断,性 能大于等于 A100 GPU 的先进算力芯片属于美国出口限制范围。
采用英伟达 A800 服务器或为当前可行替代方案。以浪潮 NF5688M6 为例,NF5688M6 是 为超大规模数据中心研发的 NVLink AI 服务器,支持 2 颗 Intel 最新的 Ice Lake CPU 和 8 颗 NVIDIA 最新的 NVSwitch 全互联 A800GPU,单机可提供 5PFlops 的 AI 计算性能。对 比核心硬件来看,NF5688M6 采用英伟达中国特供版芯片—A800,在浮点计算能力、显存 带宽、显存容量等性能指标上,与先进算力芯片—A100 基本一致,主要差异在于芯片的数 据传输速度,约为 A100 的三分之二。
英伟达其他 AI GPU 芯片均不受出口限制影响。考虑到目前美国 GPU 芯片限制主要集中在 先进算力领域,倘若未来进一步加大限制力度,A800 等大算力芯片可能出现进一步被限制 的风险。而从英伟达产品线布局来看,除了前面讨论的 A100、A800、V100、H100 等先进 算力芯片外,还有 A2、A10、A30、A40、T4 等。这些芯片中,浮点计算能力最强的型号 为 A30,输出性能为 82*32=2624<4800,因此不受出口限制影响。
国产 AI GPU 性能持续升级,国产替代未来可期。目前国产 AI GPU 厂商主要包括阿里、华 为、寒武纪、天数智芯等。随着国内厂商持续加强 GPU 研发,产品力不断升级。以华为昇 腾 910 为例,该款芯片采用 7nm 制程,集成了超 496 亿个晶体管,可以提供 320TFLOPS 的 FP16 计算速度或 640TOPS 的 INT8 算力,略高于英伟达 A100 的 FP16 计算速度 (312TFLOPS,不采用英伟达稀疏技术)。我们认为,单纯从芯片算力性能来看,部分国 产芯片已经能够追赶海外主流芯片。随着国产生态逐步打磨,GPU 性能提升有望推动国产 化替代。
总结:从ChatGPT到AI服务器
1、GPT 模型需要什么样的算力? ChatGPT 采用单一大模型路线,对底层算力的需求主要体现在训练和推理两个层面,训练 即使用大量数据集,对模型做反复迭代计算,推理即利用模型对输入信息进行处理并给出 结果。据 IDC 数据,2021 年中国人工智能服务器工作负载中,57.6%的负载用于推理,42.4% 用于模型训练。具体来看,算力需求场景包括预训练、Finetune 以及日常运营。根据我们 的测算,GPT-3 175B 模型需要的预训练算力约 3640 PFlop/s-day、ChatGPT 单月运营需 要的算力约 7034.7 PFlop/s-day、单月 Finetune 需要的算力至少为 1350.4 PFlop/s-day。
2、GPT 模型需要什么样的服务器? 我们认为,服务器类型不断演化的动力来自:计算架构的变化。从服务器产业发展历程来 看,随着计算架构从单机到 C-S、C-E-S,陆续演化出 PC、云计算、边缘计算等服务器类 型。而在 AI 训练时代,C-S 架构的回归以及大规模并行计算需求,又带来 AI 服务器的扩张。 对比传统服务器来看,AI 服务器由于采用 GPU 等加速卡,更加擅长向量、张量计算,对于 AI 训练及推理场景的处理能力更强,且采用多芯片组合架构,单台服务器芯片成本也较高。
3、GPT 模型需要什么样的算力芯片? GPT 模型的训练和推理计算主要由 AI 服务器完成,底层算力芯片主要包括 CPU、GPU、 FPGA、ASIC 等。常见的算力芯片组合,如 8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU 等。据 IDC,2022 年国内人工智能芯片市场中,GPU 芯片占据主要市场份额,达 89.0%。目前海外主流 AI GPU 芯片包括英伟达 H100、A100 以及 V100 等。 4、美国先进算力芯片出口限制对 GPT 产业的影响? 受美国先进算力芯片出口限制政策影响,目前国内只能采购性能低于 A100 的 AI GPU,如 英伟达 A800 系列等。此外,英伟达 A 系列、T 系列性能更低的前代版本尚且不受影响。考 虑到部分国产 AI GPU 如华为昇腾在 FP16 浮点计算性能上已经实现对英伟达 A100 的加速 追赶,未来随着国产生态打磨,AI GPU 国产替代有望加速。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)