前言:
如今同学们对“c语言人工智能框架”大致比较关怀,姐妹们都需要了解一些“c语言人工智能框架”的相关知识。那么小编在网上网罗了一些关于“c语言人工智能框架””的相关知识,希望大家能喜欢,我们快快来了解一下吧!(报告出品方:中信建投证券)
一、AI 有望明显拉动算力基础设施投资
1.1ChatGPT 爆红引发了人们对于人工智能发展的高度关注
人工智能(AI)是指由机器展示的智能,即计算机基于大数据模拟人脑的各项功能,例如推理、视觉识别、 语义理解、学习能力及规划与决策能力等。人工智能生成内容(AIGC)是指利用人工智能技术来生成内容,包 括绘画、作曲、剪辑、写作等。AIGC 的萌芽可追溯到上世纪 50 年代,90 年代从实验性向实用性逐渐转变, 但受限于算法瓶颈,无法直接生成内容,从 21 世纪 10 年代开始,随着以生成对抗网络(GAN)为代表的深度 学习算法的提出和迭代,AIGC 迎来了快速发展阶段。
市场需求推动 AIGC 技术加速落地。1)降低人力和时间成本:AIGC 可以帮助人们完成许多繁琐工作,从而 节省人力资本和工作时间,并可以在相同的时间内产出更多内容。2)改善内容质量。AIGC 被认为是继专业生 产内容(PGC)、用户生产内容(UGC)之后的新型内容生产方式。尽管 PGC 和 UGC 的内容更具多元化、个性化, 但受限于激励措施和创作者自身因素影响,市场存在供给不足的现象。3)促进产业数字化,助力数字经济发展。 产业数字化是数字经济的融合部分,是传统产业应用数字技术所带来的生产数量和效率提升,其新增产出构成 数字经济的重要组成部分,AIGC 为数字经济提供了重要的数据要素。
ChatGPT 的爆红引发了人们对于人工智能发展的高度关注。2022 年 11 月 30 日,OpenAI 发布语言模型 ChatGPT。该模型采用对话的形式与人进行交互,可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适 当的请求。ChatGPT 不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现 出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。
1.2 人工智能需要强大算力支撑
以 ChatGPT 为代表的人工智能应用在运行背后需要强大的算力支撑。OpenAI 在 2018 年推出的 GPT 参数量 为 1.17 亿,预训练数据量约 5GB,而 GPT-3 参数量达 1750 亿,预训练数据量达 45TB。在模型训练阶段,ChatGPT 的总算力消耗约为 3640PF-days,总训练成本为 1200 万美元,在服务访问阶段则会有更大消耗。
IDC 数据显示:2021 年全球人工智能 IT 投资额为 929.5 亿美元,预计 2026 年将增至 3014.3 亿美元,复合 年增长率约 26.5%。2026 年中国市场 AI 投资预计将达 266.9 亿美元,约占全球投资 8.9%,居世界第二位,复合 年增长率约 21.7%。未来五年,硬件将成为中国人工智能最大的细分市场,占人工智能总投资的 50%以上。IDC 预测,2026 年,中国在人工智能硬件市场的 IT 投资将超过 150 亿美元,接近美国人工智能硬件的市场规模,五年复合年增长率 16.5%。服务器作为硬件市场的主要组成部分,预计将占总投入的 80%以上。 人工智能的发展将对算力提出更高要求,算力网络基础设施需求有望持续提升。根据中国信通院数据,2021 年全球计算设备算力总规模达到 615EFlops(每秒浮点运算次数),同比增长 44%,其中基础算力规模为 369EFlops, 智能算力规模为 232EFlops,超算算力规模为 14EFlops,预计 2030 年全球算力规模将达到 56ZFlps,平均年均增 长 65%。 我国智能算力规模持续高速增长,2021 年智能算力规模已经超过通用算力。根据中国信通院数据,我国计 算设备算力总规模达到 202EFlops,全球占比约为 33%,保持 50%以上的高速增长态势,增速高于全球,其中智 能算力增长迅速,增速为 85%,在我国算力中的占比超过 50%。
1.3AI 算力产业链涉及环节较多,行业需求有望全面提升
AI 算力产业链涉及环节较多,按照算力基础设施构成来看,包括 AI 芯片及服务器、交换机及光模块、IDC 机房及上游产业链等。其中,随着训练和推理需求提升,AI 芯片及服务器需求将率先放量;AI 算力对数据中心 内部数据流量较大,光模块速率及数量均有显著提升,交换机的端口数及端口速率也有相应的增长;IDC 也有 望进入需求释放阶段,预计液冷温控渗透率将快速提升,海底数据中心也可能将迎来产业化的关键节点。
1、AI 芯片和服务器需求将率先放量
根据测算,2023 年-2027 年全球大模型训练端峰值算力需求量的年复合增长率为 78.0%。2023 年全球大模 型训练端所需全部算力换算成的 A100 总量超过 200 万张。从云端推理所需算力角度测算,2023 年-2027 年,全 球大模型云端推理的峰值算力需求量的年复合增长率为 113%,如果考虑边缘端 AI 推理的应用,推理端算力规 模将进一步扩大。
2、AI 算力改变数据中心内部网络架构,光模块和交换机速率及需求提升
AI 数据中心中,由于内部数据流量较大,因此无阻塞的胖树网络架构成了重要需求之一,光模块速率及数 量均有显著提升,交换机的端口数及端口速率也有相应的增长。 800G 光模块 2022 年底开始小批量出货,2023 年需求主要来自于英伟达和谷歌,2024 年有望大规模出货, 并存在时间前移的可能。从交换机的电口来看,SerDes 通道的速率每四年翻倍,数量每两年翻倍,交换机的带 宽每两年翻倍;从光口来看,光模块每 4 年升级一次,实际出货时间是晚于电口 SerDes 及交换机芯片新版发布 的时间。2019 年作为 100G 光模块升级的时间点,市场分成了 200G 和 400G 两条升级路径。但是在 2023 年这 个时间点,市场下一代高速率光模块均指向 800G 光模块,叠加 AIGC 带来的算力和模型竞赛,我们预计北美各 大云厂商和相关科技巨头均有望在 2024 年大量采购 800G 光模块,同时 2023 年也可能提前采购。
3、IDC 需求有望释放,AI 服务器高功率密度或将推升液冷渗透率
IDC 作为算力基础设施产业链的关键环节,也有望进入需求释放阶段。在过去两年半,受多重因素影响下, 云计算需求景气度下行,但 IDC 建设与供给未出现明显放缓,2021 年和 2022 年分别新增机柜数量 120 万架和 150 万架,因此短期内出现供需失衡情况(核心区域供需状况相对良好),部分地区上电率情况一般。所以 IDC 公司 2022 年业绩普遍承压。随着平台经济发展恢复以及 AI 等拉动,IDC 需求有望逐步释放,叠加 2023 新增供 给量有望较 2022 年减少(例如三大运营商 2022 年新增 IDC 机柜 15.6 万架,2023 年计划新增 11.4 万架)。 人工智能大模型训练和推理运算所用的 GPU 服务器的功率密度将大幅提升,以英伟达 DGX A100 服务器为 例,其单机最大功率约可以达到 6.5kW,大幅超过单台普通 CPU 服务器 500w 左右的功率水平。在此情况下, 一方面需要新建超大功率的机柜,另一方面为降低 PUE,预计液冷温控渗透率将快速提升,海底数据中心也可 能将迎来产业化的关键节点。
二、AI 芯片需求爆发式增长
2.1 AI 大规模落地应用对 AI 芯片性能、数量提出全方位要求
从广义上讲,能运行 AI 算法的芯片都叫 AI 芯片。CPU、GPU、FPGA、NPU、ASIC 都能执行 AI 算法, 但在执行效率层面上有巨大的差异。CPU 可以快速执行复杂的数学计算,但同时执行多项任务时,CPU 性能开 始下降,目前行业内基本确认 CPU 不适用于 AI 计算。 CPU+xPU 的异构方案成为大算力场景标配,GPU 为应用最广泛的 AI 芯片。目前业内广泛认同的 AI 芯片 类型包括 GPU、FPGA、NPU 等。由于 CPU 负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计算系统中仍是不可或缺的。GPU、FPGA 等芯片都是作为 CPU 的加速器而存在,因此目前主流的 AI 计算系统均为 CPU+xPU 的异构并行。CPU+GPU 是目前最流行的异构计算系统,在 HPC、图形图像处理以及 AI 训练/推理等场景为主流选择。IDC 数据显示,2021 年中国 AI 芯片市场中,GPU 市占率为 89%。
2.1.1 GPU 性能、功能经历长期迭代升级,成为 AI 芯片中应用最广泛的选择
GPU 能够进行并行计算,设计初衷是加速图形渲染。NVIDIA 在 1999 年发布 GeForce 256 图形处理芯片时 首先提出 GPU(Graphic Processing Unit)的概念,并将其定义为“具有集成转换、照明、三角形设置/裁剪和渲 染引擎的单芯片处理器,能够每秒处理至少 1000 万个多边形”。从计算资源占比角度看,CPU 包含大量的控制 单元和缓存单元,实际运算单元占比较小。GPU 则使用大量的运算单元,少量的控制单元和缓存单元。GPU 的 架构使其能够进行规模化并行计算,尤其适合逻辑简单,运算量大的任务。GPU 通过从 CPU 承担一些计算密 集型功能(例如渲染)来提高计算机性能,加快应用程序的处理速度,这也是 GPU 早期的功能定位。
GPU 性能提升与功能丰富逐步满足 AI 运算需要。2010 年 NVIDIA 提出的 Fermi 架构是首个完整的 GPU 计算架构,其中提出的许多新概念沿用至今。Kepler 架构在硬件上拥有了双精度计算单元(FP64),并提出 GPU Direct 技术,绕过 CPU/System Memory,与其他 GPU 直接进行数据交互。Pascal 架构应用了第一代 NVLink。 Volta 架构开始应用 Tensor Core,对 AI 计算加速具有重要意义。简要回顾 NVIDIA GPU 硬件变革历程,工艺、 计算核心数增加等基础特性的升级持续推动性能提升,同时每一代架构所包含的功能特性也在不断丰富,逐渐 更好地适配 AI 运算的需要。
均衡分配资源的前提下,处理低精度的硬件单元数量更多,表现更高的算力性能。GPU 作为加速器得到广 泛应用一定程度上得益于它的通用性,为了在不同精度的数据类型上具有良好的性能,以兼顾 AI、科学计算等 不同场景的需要,英伟达在分配处理不同数据类型的硬件单元时大体上保持均衡。因为低精度数据类型的计算 占用更少的硬件资源,同一款 GPU 中的处理低精度数据类型的硬件单元的数量较多,对应计算能力也较强。以 V100 为例,每个 SM 中 FP32 单元的数量都为 FP64 单元的两倍,最终 V100 的 FP32 算力(15.7 TFLOPS)也近 似为 FP64(7.8 TFLOPS)的两倍,类似的规律也可以在各代架构旗舰 P100、A100 和 H100 中看到。
Tensor Core 持续迭代提升其加速能力。Volta 架构引入 Tensor Core 的改动使 GPU 的 AI 算力有了明显提升, 后续在每一代的架构升级中,Tensor Core 都有比较大的改进,支持的数据类型也逐渐增多。以 A100 到 H100 为例,Tensor Core 由 3.0 迭代至 4.0,H100 在 FP16 Tensor Core 的峰值吞吐量提升至 A100 的 3 倍。同时,H100 Tensor Core 支持新的数据类型 FP8,H100 FP8 Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 6 倍。
数据访问支配着计算能力利用率。AI 运算涉及到大量数据的存储与处理,根据 Cadence 数据,与一般工作 负载相比,每台 AI 训练服务器需要 6 倍的内存容量。而在过去几十年中,处理器的运行速度随着摩尔定律高速 提升,而 DRAM 的性能提升速度远远慢于处理器速度。目前 DRAM 的性能已经成为了整体计算机性能的一个 重要瓶颈,即所谓阻碍性能提升的“内存墙”。除了性能之外,内存对于能效比的限制也成为一个瓶颈,Cadence 数据显示,在自然语言类 AI 负载中,存储消耗的能量占比达到 82%。
硬件单元的改进与显存升级增强了单张 GPU 算力的释放,然而,随着 Transformer 模型的大规模发展和应 用,模型参数量呈爆炸式增长,GPT-3 参数量达到了 1750 亿,相比 GPT 增长了近 1500 倍,预训练数据量更是 从 5GB 提升到了 45TB。大模型参数量的指数级增长带来的诸多问题使 GPU 集群化运算成为必须: (1)即使最先进的 GPU,也不再可能将模型参数拟合到主内存中。 (2)即使模型可以安装在单个 GPU 中(例如,通过在主机和设备内存之间交换参数),所需的大量计算操 作也可能导致在没有并行化的情况下不切实际地延长训练时间。根据 NVIDIA 数据,在 8 个 V100 GPU 上训练 一个具有 1750 亿个参数的 GPT-3 模型需要 36 年,而在 512 个 V100 GPU 上训练需要 7 个月。
NVIDIA 开发 NVLink 技术解决 GPU 集群通信。在硬件端,GPU 之间稳定、高速的通信是实现集群运算 所必须的条件。传统 x86 服务器的互连通道 PCIe 的互连带宽由其代际与结构决定,例如 x16 PCIe 4.0 双向带宽 仅为 64GB/s。除此之外,GPU 之间通过 PCIe 交互还会与总线上的 CPU 操作竞争,甚至进一步占用可用带宽。 NVIDIA 为突破 PCIe 互连的带宽限制,在 P100 上搭载了首项高速 GPU 互连技术 NVLink(一种总线及通讯协 议),GPU 之间无需再通过 PCIe 进行交互。
NVDIA 开发基于 NVLink 的芯片 NVSwitch,作为 GPU 集群数据通信的“枢纽”。NVLink 1.0 技术使用时, 一台服务器中的 8 个 GPU 无法全部实现直接互连。同时,当 GPU 数量增加时,仅依靠 NVLink 技术,需要众 多数量的总线。为解决上述问题,NVIDIA 在 NVLink 2.0 时期发布了 NVSwitch,实现了 NVLink 的全连接。 NVSwitch 是一款 GPU 桥接芯片,可提供所需的 NVLink 交叉网络,在 GPU 之间的通信中发挥“枢纽”作用。 借助于 NVswitch,每颗 GPU 都能以相同的延迟和速度访问其它的 GPU。就程序来看,16 个 GPU 都被视为一 个 GPU,系统效率得到了最大化,大大降低了多 GPU 系统的优化难度。
通过添加更多 NVSwitch 来支持更多 GPU,集群分布式运算得以实现。当训练大型语言模型时,NVLink 网络也可以提供显著的提升。NVSwitch 已成为高性能计算(HPC)和 AI 训练应用中不可或缺的一部分。
2.1.2 NPU 通过特殊架构设计对 AI 运算起到加速作用
NPU 在人工智能算法上具有较高的运行效率。为了适应某个特定领域中的常见的应用和算法而设计,通常 称之为“特定域架构(Domain Specific Architecture,DSA)”芯片,NPU(神经网络处理器)属于其中一种,常 被设计用于神经网络运算的加速。以华为手机 SoC 麒麟 970 为例,NPU 对图像识别神经网络的运算起到了显著加速效果,使其图像识别速度明显优于同代竞品的表现。
目前已量产的 NPU 或搭载 NPU 模块的芯片众多,其他知名的芯片包括谷歌 TPU、华为昇腾、特斯拉 FSD、 特斯拉 Dojo 等。各家厂商在计算核心的设计上有其差异,例如谷歌 TPU 的脉动阵列,华为昇腾的达芬奇架构。 以谷歌 TPU 及计算核心结构脉动阵列为例,对比其相较于 CPU、GPU 的区别: CPU 和 GPU 均具有通用性,但以频繁的内存访问导致资源消耗为代价。CPU 和 GPU 都是通用处理器, 可以支持数百万种不同的应用程序和软件。对于 ALU 中的每一次计算,CPU、GPU 都需要访问寄存器或缓存 来读取和存储中间计算结果。由于数据存取的速度往往大大低于数据处理的速度,频繁的内存访问,限制了总 吞吐量并消耗大量能源。 谷歌 TPU 并非通用处理器,而是将其设计为专门用于神经网络工作负载的矩阵处理器。TPU 不能运行文 字处理器、控制火箭引擎或执行银行交易,但它们可以处理神经网络的大量乘法和加法,速度极快,同时消耗 更少的能量,占用更小的物理空间。TPU 内部设计了由乘法器和加法器构成的脉动阵列。在计算时,TPU 将内 存中的参数加载到乘法器和加法器矩阵中,每次乘法执行时,结果将传递给下一个乘法器,同时进行求和。所 以输出将是数据和参数之间所有乘法结果的总和。在整个海量计算和数据传递过程中,完全不需要访问内存。 这就是为什么 TPU 可以在神经网络计算上以低得多的功耗和更小的占用空间实现高计算吞吐量。
NPU 已经在 AI 运算加速领域获得了广泛应用。在数据中心获得大规模应用的 NPU 案例即 TPU,已被谷歌 用于构建数据中心的超级计算机,执行特定神经网络的训练任务。在用户端,手机、汽车、智能安防摄像头等 设备开始搭载 AI 计算功能,通常是利用训练好的神经网络模型执行图像处理等工作,此时 NPU 通用性差的劣 势被缩小,高算力、高能耗比的优势被放大,因而得到了广泛的应用。在终端设备中,NPU 常以模块的形式包 含在 SoC 内部,对 AI 运算进行加速,例如特斯拉自动驾驶芯片 FSD 均包含 NPU。
2.1.3 训练/推理、云/边分别对 AI 芯片提出不同要求,未来推理端的算力需求将远超训练端
AI 技术在实际应用中包括两个环节:训练(Training)和推理(Inference)。训练是指通过大数据训练出一个复 杂的神经网络模型,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量数据、具有一定的通 用性。推理是指利用训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。
根据所承担任务的不同,AI 芯片可以分为训练 AI 芯片和推理 AI 芯片: (1)训练芯片:用于构建神经网络模型,需要高算力和一定的通用性。 (2)推理芯片:利用神经网络模型进行推理预测,注重综合指标,单位能耗算力、时延、成本等都要考虑。 根据 AI 芯片部署的位置,可以分为云端 AI 芯片和边缘端 AI 芯片: (1)云端:即数据中心,关注算力、扩展能力、兼容性。云端部署的 AI 芯片包括训练芯片和推理芯片。 (2)边缘端:即手机、安防摄像头等领域,关注综合性能,要求低功耗、低延时、低成本。边缘端部署的 AI 芯片以实现推理功能为主。 云端推理占比逐步提升,AI 落地应用数量增加。根据 IDC 数据,随着人工智能进入大规模落地应用的关键 时期,2022 年在云端部署的算力里,推理占算力已经达到了 58.5%,训练占算力只有 41.5%,预计到 2026 年, 推理占到 62.2%,训练占 37.8%。云端推理占比逐步提升说明,AI 落地应用数量正在不断增加,人工智能模型 将逐步进入广泛投产模式。
带宽、互连速率的限制,使云端超大规模的模型推理选择 A100、H100 更优,而非 T4、A10 等推理卡。以 GPT-3 为例,OpenAI 数据显示 GPT-3 模型 1750 亿参数对应超过 350GB 的 GPU 显存需求。假设参数规模与所 需显存呈线性关系,且推理的中间参数量按 1 倍估算,则 1 万亿参数规模的大模型推理需要约 4000GB 显存, 则需要 50 张 A100(80GB)或者 167 张 A10(24GB)。集群中的 GPU 数量越多意味着更复杂的互连要求,而 且 A10 无法应用 NVLink 和 NVSwitch 技术,大量 A10 组成的集群仅依靠 PCIe 通信,互连带宽相比 A100 等显 卡的劣势明显,进而可能导致模型推理的时效性不佳。
经测算,AI 大模型在训练端和推理端都将产生巨量的算力/AI 芯片需求。如果未来大模型广泛商用落地, 推理端的算力/AI 芯片的需求量将明显高于训练端。 大模型云端训练对算力的需求测算: 测算原理:从模型的(1)参数规模入手,根据(2)训练大模型所需的 Token 数量和(3)每 Token 训练成 本与模型参数量的关系估算总算力需求,再考虑(4)单张 GPU 算力和(5)GPU 集群的算力利用率推导得出 GPU 总需求。 (1)参数规模:过去几年,大模型的参数量呈指数上升,GPT-3 模型参数量已达到 1750 亿。GPT-4 具有 多模态能力,其参数量相比 GPT-3 会更大。我们在测算中假设 2023 年多模态大模型的平均参数量达到 10000 亿个,之后每年保持 20%的增速;普通大模型的平均参数量达到 2000 亿个,之后每年保持 20%的增速。 (2)训练大模型所需的 Token 数量:参数规模在千亿量级的自然语言大模型 GPT-3、Jurassic-1、Gopher、 MT-NLG,训练所需的 Token 数量在千亿量级,而一些多模态大模型在训练过程中所需 Token 数据量也跟随参 数量增长而增长,我们在测算中假设多模态大模型训练所需 Token 数量达到万亿级别,并且 Token 数量与模型 参数规模保持线性增长关系。
(3)每 Token 训练成本与模型参数量的关系:参考 OpenAI 发布的论文《Scaling Laws for Neural Language Models》中的分析,每个 token 的训练成本通常约为 6N,其中 N 是 LLM 的参数数量,我们在测算中遵循这一 关系。具体原理如下,神经网络的训练过程包括前向传播和反向传播两个过程,其中大致包括四个步骤: 1. 做一个单次的推理操作,得到输出 y,例如输入猫的图片得到输出 0.986。 2. 求到输出 y 与真实的目标输出 Y(假定设置的目标输出 Y=1)之间的差值,例如得到输出与目标真实 值的差值为 0.014。 3. 将输出差值回溯,计算差值关于每个参数的梯度关系。 4. 根据输出差值和梯度修正每个神经元的参数,实现神经网络的参数更新,促使输出逼近目标真实值。 因而在一个参数量为 N 的神经网络中,一次输入带来训练过程的整体运算量大致为 6N,其中 2N 为前向传播过程,4N 为反向传播过程。
(4)单张 GPU 算力:因为在训练大模型时,主要依赖可实现的混合精度 FP16/FP32 FLOPS,即 FP16 Tensor Core 的算力,我们在测算中选取 A100 SXM 和 H100 SXM 对应的算力 312 TFLOPS 和 990 TFLOPS 作为参数。 (5)GPU 集群的算力利用率:参考 Google Research 发布的论文《PaLM: Scaling Language Modeling with Pathways》中的分析,我们在测算中假设算力利用率约为 30%。
大模型云端推理对算力的需求测算:在云端推理场景下,我们分别从云端推理所需算力和云端模型部署所 需显存两个维度分别进行测算。 算力角度的测算原理:基于前文对参数规模、模型数量等数据的假设,根据(1)大模型日活用户人数、(2) 每人平均查询 Token 数量、(3)每 Token 推理成本与模型参数量的关系估算推理端总算力需求,再考虑(4)单 张 GPU 算力和 GPU 集群的算力利用率推导得出 GPU 总需求。 (1)大模型日活用户人数:根据 Similarweb 统计数据,2023 年 1 月 ChatGPT 的日活用户数达到 1300 万。 我们在测算中假设 2023 年多模态大模型的平均日活量达到 2000 万,普通大模型的平均日活量达到 1000 万,之 后每年保持快速增长。 (2)每人平均查询 Token 数量:根据 OpenAI 数据,平均每 1000 个 Token 对应 750 个单词,我们在测算 中假设每位用户平均查询的 Token 数量维持在 1000 个。 (3)每 Token 推理成本与模型参数量的关系:参考 OpenAI 发布的论文《Scaling Laws for Neural LanguageModels》中的分析,每个 token 的推理成本通常约为 2N,其中 N 是 LLM 的参数数量,我们在测算中遵循这一 关系。 (4)单张 GPU 算力:由于测算中的大模型参数量级分别在千亿量级和万亿量级,考虑带宽容量和集群计 算中的带宽限制,我们在测算中假设采用 H100 或 A100 作为云端推理卡。
根据所有假设及可以得到,从云端推理所需算力角度测算,2023 年-2027 年,全球大模型云端推理的峰值 算力需求量的年复合增长率为 113%。 显存角度测算原理:首先,目前 SK Hynix 已开发出业界首款 12 层 24GB HBM3,考虑到一张 GPU 板卡面 积有限,限制了计算核心周围可布置的 HBM 数量,因此未来一段时间内,GPU 显存容量的提升空间较小。其 次,推理最主要的需求是时效性,为了满足时效性,模型所需要的存储空间需要放到显存内。综合 GPU 板卡 HBM 容量有限和推理端模型需放置在 GPU 显存中这两个条件,我们从模型推理端运行所需显存入手,先预估 推理端运行一个大模型所需显存容量(1),再假设业务场景中大模型的峰值访问量,并以此得到总体的显存需 求(2),最终得到算力/AI 芯片的需求。 (1)运行一个模型所需显存:以 1750 亿参数的 GPT-3 模型为例,OpenAI 数据显示参数存储需要 350GB 空间。假设推理计算中间产生的参数按照一倍计算,因此推理至少需要 700GB 显存空间,即部署一个模型需要 9 张 80GB 显存版本的 A100。 (2)业务场景部署模型量及所需显存:假设该模型能够同时处理的并发任务数量为 100,即 9 张 A100 80GB 处理 100 用户同时并发访问。业务场景部署以搜索引擎为例,假设最高并发访问人数为 2000 万,则需要 2000 万/100*9=180 万张 A100 80GB。
2.2 英伟达龙头地位稳固,国内厂商正逐步追赶
海外龙头厂商占据垄断地位,AI 加速芯片市场呈现“一超多强”态势。数据中心 CPU 市场上,英特尔份 额有所下降但仍保持较大领先优势,AMD 持续抢占份额势头正盛。AI 加速芯片市场上,英伟达凭借硬件优势 和软件生态一家独大,在训练、推理端均占据领先地位。根据 Liftr Insights 数据,2022 年数据中心 AI 加速市场 中,英伟达份额达 82%,其余海外厂商如 AWS 和 Xilinx 分别占比 8%、4%,AMD、Intel、Google 均占比 2%。 国内厂商起步较晚正逐步发力,部分加速芯片领域已经涌现出一批破局企业,但目前多为初创企业规模较小, 技术能力和生态建设仍不完备,在高端 AI 芯片领域与海外厂商仍存在较大差距。未来,随着美国持续加大对中 国高端芯片的出口限制,AI 芯片国产化进程有望加快。
GPU 市场方面,海外龙头占据垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨头霸占全 球 GPU 芯片市场的主导地位。集成 GPU 芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商 包括英特尔和 AMD;独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和 AMD。分应用 场景来看,应用在人工智能、科学计算、视频编解码等场景的服务器 GPU 市场中,英伟达和 AMD 占据主要份 额。根据 JPR,2023 年 Q1 英伟达的独立显卡(包括 AIB 合作伙伴显卡)的市场份额达 84%, AMD 和 Intel 则分别占比 12%、4%。
图形渲染 GPU:英伟达引领行业数十年,持续技术迭代和生态构建实现长期领先。2006 年起,英伟达 GPU 架构保持约每两年更新一次的节奏,各代际产品性能提升显著,生态构建完整,Geforce 系列产品市占率长期保 持市场首位,最新代际 GeForce RTX 40 系列代表了目前显卡的性能巅峰,采用全新的 Ada Lovelace 架构,台积 电 5nm 级别工艺,拥有 760 亿晶体管和 18000 个 CUDA 核心,与 Ampere 相比架构核心数量增加约 70%,能耗 比提升近两倍,可驱动 DLSS 3.0 技术。性能远超上代产品。AMD 独立 GPU 在 RDNA 架构迭代路径清晰,RDNA 3 架构采用 5nm 工艺和 chiplet 设计,比 RDNA 2 架构有 54%每瓦性能提升,预计 2024 年前 RDNA 4 架构可正 式发布,将采用更为先进的工艺制造。目前国内厂商在图形渲染 GPU 方面与国外龙头厂商差距不断缩小。芯动 科技的“风华 2 号”GPU 像素填充率 48GPixel/s,FP32 单精度浮点性能 1.5TFLOPS,AI 运算(INT8)性能 12.5TOPS, 实测功耗 4~15W,支持 OpenGL4.3、DX11、Vulkan 等 API,实现国产图形渲染 GPU 突破。景嘉微在工艺制程、 核心频率、浮点性能等方面虽落后于英伟达同代产品,但差距正逐渐缩小。2023 年顺利发布 JM9 系列图形处理 芯片,支持 OpenGL 4.0、HDMI 2.0 等接口,以及 H.265/4K 60-fps 视频解码,核心频率至少为 1.5GHz,配备 8GB 显存,浮点性能约 1.5TFlops,与英伟达 GeForce GTX1050 性能相近,有望对标 GeForce GTX1080。
GPGPU:英伟达和 AMD 是目前全球 GPGPU 的领军企业。英伟达的通用计算芯片具备优秀的硬件设计, 通过 CUDA 架构等全栈式软件布局,实现了 GPU 并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类 下游应用领域中,均推出了高性能的软硬件组合,逐步成为全球 AI 芯片领域的主导者。根据 stateof.AI 2022 报 告,英伟达芯片在 AI 学术论文中的出现频次远超其他类型的 AI 芯片,是学术界最常用的人工智能加速芯片。 在 Oracle 以及腾讯云中,也几乎全部采用英伟达的 GPU 作为计算加速芯片。AMD 2018 年发布用于数据中心的 Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架构,如 MI250X 采用 CDNA2 架构,在通用计算领域 实现计算能力和互联能力的显著提升,此外还推出了对标英伟达 CUDA 生态的 AMD ROCm 开源软件开发平台。 英伟达的 H100 及 A100、AMD 的 MI100、MI200 系列等是当前最为主流的 GPGPU 产品型号。
ASIC 市场方面,由于其一定的定制化属性,市场格局较为分散。在人工智能领域,ASIC 也占据一席之地。 其中谷歌处于相对前沿的技术地位,自 2016 年以来,就推出了专为机器学习定制的 ASIC,即张量处理器(Tensor Processing Unit,TPU),近期,谷歌首次公布了其用于训练人工智能模型的 AI 芯片 TPU v4 的详细信息,其采 用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,同时使用了脉动阵 列等设计来优化矩阵乘法与卷积运算,对大规模矩阵的乘法可以最大化数据复用,减少访存次数,大幅提升 Transformer 模型的训练速度,同时节约训练成本。谷歌称在同等规模系统下基于 TPU 的谷歌超级计算机比基于 英伟达 A100 芯片的系统最高快 1.7 倍,节能效率提高 1.9 倍。谷歌 TPU 属于定制化 ASIC 芯片,是专门为神经 网络和 TensorFlow 学习框架等量身打造的集成芯片,需要在这类特定框架下才能发挥出最高运行效率。
生态体系决定用户体验,是算力芯片厂商最深的护城河。虽然英伟达 GPU 本身硬件平台的算力卓越,但其 强大的 CUDA 软件生态才是推升其 GPU 计算生态普及的关键力量。从技术角度来讲,GPU 硬件的性能门槛并 不高,通过产品迭代可以接龙头领先水平,但下游客户更在意能不能用、好不好用的生态问题。CUDA 推出之 前 GPU 编程需要机器码深入到显卡内核才能完成任务,而推出之后相当于把复杂的显卡编程包装成为一个简单 的接口,造福开发人员,迄今为止已成为最发达、最广泛的生态系统,是目前最适合深度学习、AI 训练的 GPU 架构。英伟达在 2007 年推出后不断改善更新,衍生出各种工具包、软件环境,构筑了完整的生态,并与众多客 户合作构建细分领域加速库与 AI 训练模型,已经积累 300 个加速库和 400 个 AI 模型。尤其在深度学习成为 主流之后,英伟达通过有针对性地优化来以最佳的效率提升性能,例如支持混合精度训练和推理,在 GPU 中加 入 Tensor Core 来提升卷积计算能力,以及最新的在 H100 GPU 中加入 Transformer Engine 来提升相关模型的性 能。这些投入包括了软件和芯片架构上的协同设计,使得英伟达能使用最小的代价来保持性能的领先。而即便 是英伟达最大的竞争对手 AMD 的 ROCm 平台在用户生态和性能优化上还存在差距。CUDA 作为完整的 GPU 解决方案,提供了硬件的直接访问接口,开发门槛大幅降低,而这套易用且能充分调动芯片架构潜力的软件生生态让英伟达在大模型社区拥有巨大的影响力。正因 CUDA 拥有成熟且性能良好的底层软件架构,故几乎所有 的深度学习训练和推理框架都把对于英伟达 GPU 的支持和优化作为必备的目标,帮助英伟达处于持续处于领先 地位。
英伟达领先地位稳固。英伟达凭借良好的硬件性能和完善的 CUDA 生态将持续处于领先地位,但起步较晚 的挑战者也在奋起直追,未来有望出现一超多强的多元化竞争格局。训练市场方面,英伟达高算力 GPU 是当前 AI 训练主流选择,谷歌 TPU 面临着通用性的局限,AMD 存在生态构建差距,但在二者的冲击及云厂商自研芯 片的竞争下,AI 训练市场也或将出现格局的变动。推理市场方面,GPU 具有较好的生态延续性仍占主流,如英 伟达针对推理市场的产品 Tesla T4 上的芯片包含了 2560 个 CUDA 内核,性能达到了 FP64 0.25 TFLOPS、 FP32 8.1TFLOPS、INT8 达 130 TOPS,可提供多精度推理性能,以及优于 CPU 40 倍的低延时高吞吐量,可以 实时满足更多的请求。但其他解决方案在成本、功耗具有优势,特定市场竞争格局相对激烈,工作负载不同对 应的芯片性能需求不同,T4 PCIe,有望出现各类芯片共存的局面。
国内算力芯片厂商具备较好的入局机会。国产算力芯片市场需求巨大,国内人工智能生态环境较好,在 AI 应用领域的步伐处于全球前列,国产 GPU 厂商具孵化和发展的沃土,国内厂商供应链多元化的需求带来了国内 AI 芯片厂商适配窗口期,尤其是当前大模型发展早期是适配的黄金窗口期。其中,寒武纪、华为等兼容 CUDA 和自建生态是国产厂商发展的两大趋势,具备很大的竞争力潜力。短期来看,国内厂商兼容英伟达 CUDA,可 以减轻开发和迁移难度,进而快速实现客户端导入。同时需要避开英伟达绝对优势领域,在芯片设计结构上形 成差异化竞争;长期来看,国产 GPU 如果完全依赖 CUDA 生态,硬件更新将不得不绑定英伟达的开发进程, 应借鉴 AMD、Google 构建自身生态体系,开展软硬件结合的平台化布局,并打造不同领域快速落地垂直解决 方案的能力,铸造自己的生态圈核心壁垒。预计硬件性能高效以及能够构建符合下游需求的生态体系的国产厂 商有望脱颖而出。
2.3 先进封装成为高性价比替代方案,存算一体应用潜力巨大
2.3.1 先进封装:后摩尔定律时代的创新方向,先进制程的高性价比替代方案
大算力芯片要求性能持续提升,后摩尔时代急需高性价比解决方案。随着大模型参数增加,AI 大模型对于 算力需求大幅提升,GPU 等大算力芯片的性能提升遭遇两大瓶颈:一方面,进入 28nm 以后摩尔定律逐渐失效, 先进制程的成本快速提升。根据 IBS 统计在达到 28nm 制程节点以后,如果继续缩小制程节点数,每百万门晶 体管的制造成本不降反升,摩尔定律开始失效。而且应用先进制程的芯片研发费用大幅增长,5nm 制程的芯片 研发费用增至 5.42 亿美元,几乎是 28nm 芯片研发费用的 10.6 倍,高额的研发门槛进一步减少了先进制程的应 用范围。另一方面,内存带宽增长缓慢,限制处理器性能。在传统 PCB 封装中,走线密度和信号传输速率难以 提升,因而内存带宽缓慢增长,导致来自存储带宽的开发速度远远低于处理器逻辑电路的速度,带来“内存墙” 的问题。
为了使异构集成的 Chiplet 封装实现,需要借助到 2D/2.1D/2.3D/2.5D/3D 等一系列先进封装工艺。先进封装 的不同层次主要依据多颗芯片堆叠的物理结构和电气连接方式划分,例如 2D 封装中的芯片直接连接到基板, 其他封装则以不同形式的中介层完成互联。其中,2.5D 封装常用于计算核心与 HBM 的封装互连,3D 封装常用 于 HBM 显存的多层堆叠,并有望用于不同 IC 的异构集成。
1)CoWoS:2.5D 封装重要解决方案,实现计算核心与 HBM 封装互连
计算核心与 HBM 通过 2.5D 封装互连,台积电开发的 CoWoS 封装技术为广泛使用的解决方案。台积电早 在 2011 年推出 CoWoS 技术,并在 2012 年首先应用于 Xilinx 的 FPGA 上。此后,华为海思、英伟达、谷歌等厂 商的芯片均采用了 CoWoS,例如 GP100(P100 显卡核心),TPU 2.0。如今 CoWoS 已成为 HPC 和 AI 计算领域 广泛应用的 2.5D 封装技术,绝大多数使用 HBM 的高性能芯片,包括大部分创企的 AI 训练芯片都应用了 CoWoS 技术。
CoWoS-S 基于硅中介层(Si-interposer)为先进 SoC 和 HBM 提供系统集成,在 GPU 等算力芯片的封装 中应用广泛。CoWoS-S 的特点是混合了宽带内存模块 HBM(High Bandwidth Memory)和大规模 SoC 的高性能 子系统,通过 Si 中介层连接 HBM 和 SoC,实现了宽带内存访问。CoWoS-S 最早于 2011 年开发,经历 5 代发 展。最初,安装在中介层上的硅芯片是多个逻辑芯片,采用该技术的赛灵思高端 FPGA“7V2000T”在 CoWoS-S 中配备了四个 FPGA 逻辑芯片。第 3 代开始支持逻辑和内存的混合加载。第 5 代 CoWoS-S 技术使用了全新的 TSV 解决方案,更厚的铜连接线,晶体管数量是第 3 代的 20 倍,硅中介层扩大到 2500mm2,相当于 3 倍 光罩面积,拥有 8 个 HBM2E 堆栈的空间,容量高达 128 GB。第 6 代技术有望于 2023 年推出,将会在基板 上封装 2 颗运算核心,同时可以板载多达 12 颗 HBM 缓存芯片。
CoWoS 帮助台积电取得英伟达、AMD 等高性能计算芯片订单。根据 DIGITIMES 报道,微软已与台积电 及其生态系统合作伙伴接洽,商讨将 CoWoS 封装用于其自己的 AI 芯片。英伟达高端 GPU 都采用 CoWoS 封 装技术将 GPU 芯片和 HBM 集合在一起。Tesla P100 通过加入采用 HBM2 的 CoWoS 第三代技术,将计算性 能和数据紧密集成在同一个程序包内,提供的内存性能是 NVIDIA Maxwell 架构的三倍以上。V100、A100、 等高端 GPU,均采用台积电 CoWoS 封装,分别配备 32 GB HBM2、40GB HBM2E 内存,全新 Hopper 架构的 H100 GPU 也采用 CoWoS 封装,具有 80GB 的 HBM3 内存和超高的 3.2TB/s 内存带宽。AMD 也将重新采用 CoWoS 封装。根据 DIGITIMES 报道,AMD MI 200 原本由日月光集团与旗下矽品提供,应用 FO-EB 先进封 装(扇出嵌入式桥接),而新 MI 系列数据中心加速器芯片将重新采用台积电先进封装 CoWoS。基于 Aldebaran GPU 的 MI250 或采用第五代 CoWoS 封装技术,可实现 128GB HBM2E 内存等超高性能配置。
2)HBM:3D 封装打造多层堆叠内存,突破容量与带宽瓶颈
HBM 采用 3D 封装,通过 TSV 将多个 DRAM die 垂直堆叠。在后摩尔时代,存储带宽制约了计算系统的 有效带宽,导致芯片算力性能提升受到限制,HBM 应运而生,与传统 DRAM 不同,HBM 是 3D 结构,它使用 TSV 技术将数个 DRAM 裸片堆叠起来,形成立方体结构,即 DRAM 芯片上搭上数千个细微孔并通过垂直贯通 的电极连接上下芯片;DRAM 下面是 DRAM 逻辑控制单元,对 DRAM 进行控制。从技术角度看,HBM 促使 DRAM 从传统 2D 加速走向立体 3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的发展趋势。 HBM 和硅互联技术突破了内存容量与带宽瓶颈,被视为新一代 DRAM 解决方案。而相较传统封装方式,TSV 技术能够缩减 30%体积,并降低 50%能耗。
HBM 相对传统内存数据传输线路的数量大幅提升。存储器带宽指单位时间内可以传输的数据量,要想增 加带宽,最简单的方法是增加数据传输线路的数量。在典型的 DRAM 中,每个芯片有八个 DQ 引脚 2,也就是 数据输入/输出引脚。在组成 DIMM3 模块单元之后,共有 64 个 DQ 引脚。然而,随着系统对 DRAM 和处理速 度等方面的要求有所提高,数据传输量也在增加。因此,DQ 引脚的数量(D 站的出入口数量)已无法保证数据 能够顺利通过。HBM 由于采用了系统级封装(SIP)4 和硅通孔(TSV)技术,拥有高达 1024 个 DQ 引脚,但 其外形尺寸(指物理面积)却比标准 DRAM 小 10 倍以上。由于传统 DRAM 需要大量空间与 CPU 和 GPU 等处 理器通信,而且它们需要通过引线键合 5 或 PCB 迹线 6 进行连接,因此 DRAM 不可能对海量数据进行并行处 理。相比之下,HBM 产品可以在极短距离内进行通信,增加了 DQ 路径,显著加快了信号在堆叠 DRAM 之间 的传输速度,实现了低功耗、高速的数据传输。
HBM 正在成为 AI 服务器 GPU 的标配。AI 服务器需要在短时间内处理大量数据,对带宽提出了更高的要 求,HBM 成为了重要的解决方案。AI 服务器 GPU 市场以 NVIDIA H100、A100、A800 以及 AMD MI250、MI250X 系列为主,基本都配备了 HBM。HBM 方案目前已演进为较为主流的高性能计算领域扩展高带宽的方案。SK 海 力士 HBM3 显存的样品已通过 NVIDIA 的性能评估工作,在 2022 年 6 月向 NVIDIA 正式供货,2023 GTC 大会发布的 ChatGPT 专用最新 H100 NVL GPU,也配置了 188GB HBM3e 内存;Rambus HBM3 或将在 2023 年流片,实际应用于数据中心、AI、HPC 等领域。IDC 数据显示,2019 年中国 AI 加速服务器单机 GPGPU 搭 载量最多达到 20 颗,加权平均数约为 8 颗/台。单颗 GPU 配套的 HBM 显存存储容量达到 80GB,对应价值量 约为 800 美元。
SK 海力士是 HBM 开发的先行者,并在技术开发和市场份额上占据领先地位。2014 年,SK 海力士与 AMD 联合开发了全球首款 HBM 产品。SK 海力士的 HBM3 发布 7 个月后实现了量产,将搭载于 NVIDIA H100 之上。 根据 BussinessKorea 的报道,SK 海力士在 HBM 市场已获得 60%-70%的市场份额。SK 海力士之后,三星、美 光推出了各自的 HBM 产品,分别迭代至 HBM3 和 HBM2E。晶圆代工厂商包括如台积电、格芯等也在发力 HBM 相关的封装技术。 随着 HBM3 的性能提升,未来市场空间广阔。以位元计算,目前 HBM 占整个 DRAM 市场比重仅约 1.5%, 渗透率提升空间较大。在将 GPU 等 AI 芯片推向高峰的同时,也极大带动了市场对新一代内存芯片 HBM(高带 宽内存)的需求,据悉,2023 年开年以来,三星、SK 海力士的 HBM 订单就快速增加,价格也水涨船高。根据 TrendForce 咨询,2023-2025 年 HBM 市场 CAGR 有望成长至 40-45%以上,至 2025 年市场规模有望快速增至 25 亿美元。
3)3D IC:多芯片垂直堆叠增强互联带宽,未来发展潜力巨大
3D IC 是指使用 FAB 工艺在单个芯片上堆叠多个器件层,包括多 Logic 芯片间的堆叠。与 2.5D 封装相比,3D IC 封装在互连方式有所不同。2.5D 封装是通过 TSV 转换板连接芯片,而 3D IC 封装是将多个芯片垂直堆叠 在一起,并通过直接键合技术实现芯片间的互连。在 2.5D 结构中,两个或多个有源半导体芯片并排放置在硅 中介层上,以实现极高的芯片到芯片互连密度。在 3D 结构中,有源芯片通过芯片堆叠集成,以实现最短的互 连和最小的封装尺寸。另一方面,2.5D 封装和 3D IC 封装的制造工艺也有所不同,2.5D 封装需要制造硅基中介 层,并且需要进行微影技术等复杂的工艺步骤;而 3D IC 封装需要进行直接键合技术等高难度的制造工艺步骤。 当前 3D IC 封装主流产品包括台积电 SoIC 技术、英特尔 Foveros 技术和三星 X-Cube 技术。
2.3.2 存算一体:解决传统冯诺依曼架构“存储墙”,能效比提升潜力巨大
存算一体有望解决传统冯诺依曼架构下的“存储墙”。由于处理器的设计以提升计算速度为主,存储则更注 重容量提升和成本优化,“存”“算〞之间性能失配,从而导致了访存带宽低、时延长、功耗高等问题,即通常 所说的“〝存储墙〞和“功耗墙”。访存愈密集,“墙”的问题愈严重,算力提升愈困难。随着以人工智能计算 单元为代表的访存密集型应用快速崛起,访存时延和功耗开销无法忽视,计算架构的变革显得尤为迫切。存算一体作为一种新型算力,指计算单元与存储单元融合,在完成数据存储功能的同时可以直接进行计算,有望解 决传统冯诺依曼架构下的“存储墙〞、“功耗墙〞 问题,以其巨大的能效比提升潜力,有望成为人工智能时代 的先进应用技术。 存储墙:数据搬运慢、搬运能耗大等问题是高速计算的关键瓶颈。从处理单元外的存储器提取数据,搬运 时间往往是运算时间的成百上千倍,整个过程的无用能耗大概在 60%-90%之间,能效非常低。
PIM:用硅通孔(Through Silicon Via,TSV,2010 年实现)技术将计算单元塞进内存上下 bank 之间。 CIM:计算操作由位于存储芯片/区域内部的独立计算单元完成,存储和计算可以是模拟的也可以是数字的。 这种路线一般用于算法固定的场景算法计算。目前主要路线是基于 NOR flash,多数情况下存储容量较小,这使 得 NOR flash 单片算力达到 1TOPS 以上器件代价较大,通常业内大算力一般是 20-100TOPS 以上。而其他存储 器,包括 SRAM、RRAM 等,可以用来做到大算力的存算一体。
科研院所与龙头厂商积极布局,未来市场潜力较大。2011 年,存算一体芯片开始受到学界关注,2016-2017 年成为学界热议话题,随之而来学术大佬与业界领军厂商纷纷开启其商业化探索。科研院所方面,加州大学圣 芭芭拉分校谢源教授团队致力于在新型存储器件 ReRAM(阻变存储)里面实现计算的功能研究,即 PRIME 架 构。清华大学刘勇攀教授团队和汪玉教授团队均参与了 PRIME 架构的研发,目前已实现在 150nm 工艺下流片, 在阻变存储阵列里实现了计算存储一体化的神经网络,功耗降低 20 倍,速度提高 50 倍。此外,清华大学与 SK 海力士联合成立智能存储计算芯片联合研究中心,未来五年,中心将致力于研发存算一体与近存储处理技术。 在产业应用方面,英特尔、博世、美光、Lam Research、应用材料、微软、亚马逊、软银都投资了 NOR 闪存存 算一体芯片。其中,英特尔发布的傲腾固态盘采用片外存储技术,实现 CPU 与硬盘之间数据高速搬运,从而 平衡高级分析和人工智能等大规模内存工作负载的性价比。SK 海力士在今年的 ISSCC 发表存内计算的开发成 果-基于 GDDR 接口的 DRAM 存内计算,并展示了其首款基于存内计算技术产品-GDDR6-AiM 的样本。根据 量子位智库预计,2030 年基于存算一体的大算力芯片将实现规模量产,应用场景覆盖大数据检索、蛋白质/基因 分析、数据加密、图像处理等。2030 年,基于存算一体技术的中小算力芯片市场规模约为 1069 亿人民币,基 于存算一体技术的大算力芯片市场规模约为 67 亿人民币,总市场规模约为 1136 亿人民币。
三、AI 服务器渗透率快速提升
3.1 AI 服务器是算力基础设施最主要的硬件,训练型主要成本来自于 GPU 芯片
3.1.1 AI 服务器采用异构架构,主流结构为 CPU+多颗 GPU
与普通服务器的绝大多数空间分配给 CPU 相比,AI 服务器是采用异构形式的服务器,在异构方式上可以 根据应用的范围采用不同的组合方式,一般采取 CPU+多颗 GPU 的架构,也有 CPU+TPU、CPU+其他的加速卡 等组合。相较普通服务器,AI 服务器更擅长并行运算,具有高带宽、性能优越、能耗低等优点。 在大模型的预训练中,一方面侧重对文本上下文的理解,另一方面算法上存在大量的向量、矩阵计算,这 让并行计算的 AI 服务器更擅长处理大模型的预训练任务。人工智能与通用大模型作为数字经济中的新兴行业, 带动了大量的算力需求,也成为国内算力基础设施建设中最主要的硬件之一。
以 GPU 为核心的异构服务器未来将成为主流。对比 CPU 和 GPU 的内部架构,CPU 采用整块的 ALU(运算单 元),且大量空间用于控制单元和缓存,串行计算能力强;而 GPU 采用分立的大量 ALU,很少空间分配给控制单 元和缓存,并行计算能力强。而由于图像识别、视觉效果处理、虚拟现实、大模型训练等任务都包含大量的简 单重复计算、矩阵计算等,更适合用搭载 GPU 更多的异构型 AI 服务器进行处理,而随着企业的智能化变革和通 用大模型的兴起,以 GPU 为核心的异构型 AI 服务器将在算力基础设施建设中占据愈发重要的地位。
3.1.2 AI 服务器产业链上下游&成本结构拆解
AI 服务器产业链上游主要由服务器元器件生产商组成,其中 CPU、GPU 作为核心组件,主要由 Intel、 AMD、Nvidia 供应,国产供应商占比较少,其他部件包括内存、SSD、PCB、光模块、电源等存在更多的国 产供应商;产业链中游包括主板集成商和服务器厂商,先由主板集成商将众多芯片集成,再交由服务器厂 商装配成整机销售。目前国内企业在服务器厂商中占据重要地位;产业链下游主要包括以 BAT 为首的互联 网厂商,移动、电信、联通三大运营商和众多政企客户(主要集中在政府、金融、医疗三大行业,因其最 需要 AI 客服等相关产品)。
通用服务器成本主要由 CPU、存储、内存及其他部分构成,而 AI 服务器由于采用了多颗 GPU 芯片组成异 构架构,其成本构成也会发生变化。具体来看,训练型 AI 服务器由于需要处理大量数据,具备更强的计算能力, 训练芯片价格显著高于推理芯片。训练型 AI 服务器成本中,约 7 成以上由 GPU 构成,其余 CPU、存储、内存 等占比相对较小。对于推理型服务器,其 GPU 成本约为 2-3 成,整体成本构成与高性能型相近。
3.2 AI 服务器市场规模有望保持高速增长,当前订单饱满
3.2.1 全球 AI 服务器近三年将保持高速增长
根据 IDC 数据,2022 年全球 AI 服务器市场规模 202 亿美元,同比增长 29.8%,占服务器市场规模的比例 为 16.4%,同比提升 1.2pct。我们认为随着数据量的持续提升,大模型参与玩家和单个模型参数量提升,以及 数字化转型推进等多因素影响,AI 服务器市场规模将继续保持较快增长。 结合 2.1.3 节图表 45 我们对于大语言模型带来 AI 芯片的增量需求测算,我们认为 2023-2025 年全球 AI 服务器有望实现高速增长。以目前企业对于 AI 服务器的实际需求来看,虽然推理端需求更为旺盛,但从采购角度 更倾向于搭载 A100/A800GPU 的训练/推理一体服务器。因此我们结合 3.1.2 节对于训练型、推理型 AI 服务器的 成本拆解测算,预估 2023-2025 年增量的 GPU 需求约占 AI 服务器成本比重为 70%。此外,随着包括 H100/H800 等新一代芯片的推出、算法迭代升级均有望带来整体效率提升,AI 服务器增量市场空间可能略低于大模型需求 预期。结合上述假设,我们认为全球 AI 服务器市场规模未来 3 年内将保持高速增长,市场规模分别为 395/890/1601 亿美元,对应增速 96%/125%/80%。由于互联网厂商等主要下游客户倾向于为未来潜在需求提前 备货,因此 2023 年市场增速可能高于预测值,同时 2024、2025 年市场增速可能略低于预测值。
3.2.2 中国 AI 服务器近三年将保持高速增长
根据 IDC 数据,2022 年中国 AI 服务器市场规模 67 亿美元,同比增长 24%。其中 GPU 服务器占据主导地 位,市场份额为 89%至 60 亿美元。同时,NPU、ASIC 和 FPGA 等非 GPU 加速服务器以同比 12%的增速占有 了 11%的市场份额,达到 7 亿美元。在大模型浪潮到来前,由数字经济和“东数西算”等政策影响下,中国 AI 算力在2021年实现了68.2%的同比高速增长。据浪潮信息、国际数据公司(IDC)和清华大学联合推出的《2021-2022 全球计算力指数评估报告》显示,中国 AI 算力发展领跑全球,AI 服务器支出规模位列全球第一。我们认为, 在大模型浪潮下,叠加数字经济、东数西算带动的数据中心、智算中心建设,AI 服务器市场中我国的份额在当 前约全球 1/3 比例上有望进一步提升。我们预计,2023-2025 年,结合对于全球 AI 服务器市场规模的预判,以 及对于我国份额占比持续提升的假设,我国 AI 服务器市场规模有望达到 134/307/561 亿美元,同比增长 101%/128%/83%。由于互联网厂商等主要下游客户倾向于为未来潜在需求提前备货,因此 2023 年市场增速可 能高于预测值,同时 2024、2025 年市场增速可能略低于预测值。
3.2.3 当前 AI 服务器厂商在手订单充分,AI 服务器市场高增长确定性较强
自去年 ChatGPT 带动的大模型浪潮以来,国内外头部互联网厂商纷纷加入 AI 算力的军备竞赛,加大对于 AI 算力侧的资源投入。AI 算力的高景气带动 AI 服务器需求端爆发式增长,并体现在 AI 服务器厂商订单端。全球 AI 服务器出货金额排名第一位的龙头厂商浪潮信息,提到一季度以来 AI 服务器市场迎来明显增长,客户 关注点由价格转向能否及时满足自身需求。此外,据紫光股份于投资者互动平台的回复,其 AI 服务器订单今年 一季度有很大提升,产能满足市场需求不存在问题,针对 GPT 场景优化的 GPU 服务器已经完成开发,预计今 年二季度全面上市。作为全球 ICT 设备龙头企业的联想集团,根据其最新公布的财报数据,ISG(基础设施解 决方案业务集团)在 2023 年 1-3 月实现营收同比增长 56.2%,全财年营收同比增长 36.6%,主要受益于海外 AI 服务器需求爆发以及存储业务的高速增长,公司预期新财年 AI 服务器收入增速将显著快于通用服务器,带动 ISG 部门营收增长超市场平均水平 20%以上。中科曙光深度布局算力领域,包括上游芯片、中游服务器解决方案、 液冷技术、以及下游算力调度等业务,公司于投资者互动平台多次回复,会根据用户需求提供通用算力和智能 算力产品及服务,随着我国算力需求的增长,各类产品销售均呈现增长态势,伴随我国人工智能技术和产业的 发展,预计智能计算产品需求将逐步提升。
3.3 AI 服务器市场集中度有望提升,国内厂商呈现一超多强格局
3.3.1 全球 AI 服务器竞争格局
据 IDC 数据,2022 年上半年全球 AI 服务器市场中,浪潮信息、戴尔、惠普、联想、新华三分别以 15.1%、 14.1%、7.7%、5.6%、4.7%的市场份额位居前五位。市场格局相对分散,龙头厂商份额较为接近。此外,由于以 北美云厂商为主的需求方偏向于采用 ODM 模式,因此非品牌商份额占比较高,接近 50%。
3.3.2 中国 AI 服务器竞争格局
据 IDC 数据,2022 年我国 AI 服务器市场按销售额统计市场份额中,浪潮信息、新华三、宁畅位居前三位, 市场份额分别为 47%、11%、9%。市场格局呈现一超多强局面,除浪潮外其与厂商份额相对接近。由于国内头 部厂商采用类 ODM 模式服务互联网客户,因此 ODM 厂商份额占比偏低。
3.3.3 AI 服务器竞争格局未来演进趋势
从 AI 服务器的研发与交付考虑,品牌商和代工厂的模式及时间线略有不同,品牌商研发周期更长但交付 更快,代工厂研发周期略短但交付产品时间略长。5 月 29 日,英伟达 CEO 在台北国际电脑展 COMPUTEX 2023 大会带来主题演讲,演讲中发布了目前台系 ODM 厂商针对客户需求做出的 AI 服务器雏形,并将进一步根据客 户需求做定制化开发,由定制化开发到产品交付客户预计需要数月时间。对于 OEM 厂商来说,包括浪潮、联 想、新华三等厂商的研发周期相对较长,需要接近一年的时间进行验证,并根据不同客户做不同配置规格进行 进一步验证。OEM 厂商验证完成后的成熟产品在交付中相比 ODM 厂商可以实现更快交付。
3.4 全球服务器市场规模预计保持平稳
3.4.1 通用服务器仍处库存去化阶段,全球市场规模预计将出现下滑
根据研究机构 TrendForce5 月 17 日发布的报告,2023 年服务器市场需求展望不佳,再次下调今年全球服务 器整机出货量预测至 1383.5 万台,同比减少 2.85%。TrendForce 称,美国谷歌、微软、Meta、亚马逊四大互联 网公司陆续下调服务器采购量;同时戴尔、HPE 等 OEM 厂商也在 2~4 月间下调全年出货量预估,同比分别减少 15%、12%;此外,受国际形势以及经济因素等多种因素导致全年服务器需求展望不佳。2023 年 Q1 受淡季效应 以及终端库存修正的影响,全球服务器出货量环比减少了 15.9%。TrendForce 对于二季度产业回暖信心偏低,产 业旺季并未如期发生,环比增长预估仅为 9.23%。此外,ESG 方面的讨论使得美国四大互联网公司延长服务器的 使用年限,进而降低采购量,控制资本支出,这也是影响服务器市场的因素之一。预计库存去化完成将在今年 下半年或明年上半年到来,若库存去化进度不及预期,全年服务器市场规模预测可能会进一步下调。
3.4.2 AI 服务器出货量占比进一步提升,对全球服务器市场整体出货量贡献有限
去年底以来,ChatGPT 等人工智能应用的火热带动了 AI 服务器需求暴增,英伟达芯片出现供不应求情况。 包括微软、谷歌、Meta、腾讯、百度等国内外云服务提供商纷纷积极加大 AI 算力投入。根据 TrendForce 预估, 2023 年 AI 服务器出货量将同比实现 10%增长,但由于从台数来看 AI 服务器占比不足 10%,对于整个市场影响 相对有限,预计全球全年服务器出货量整体呈现持平或小幅下滑趋势。 从国内市场来看,互联网厂商及智算中心建设推动 AI 服务器需求暴涨,一季度相关厂商新增订单同比超 4 成,全年预计出货金额将保持高速增长。考虑到通用服务器市场下半年需求有望回暖,全年市场规模有望持平 或小幅增长,叠加 AI 服务器的快速增长,根据 IDC 预测,预计全年服务器市场规模有望实现超 10%的增长。
四、AI 正在推动高速率光模块需求放量
在传统的数据中心中,网络侧主要包括传统树形三层架构和叶脊架构。早期的数据中心一般采用传统的三 层结构,包括接入层、汇聚层和核心层,其中接入层用于连接计算节点与机柜交换机,汇聚层用于接入层的互 联,核心层用于汇聚层的互联且实现与外部网络连接。随着数据中心内部东西向流量的快速提升,三层网络架 构的核心层和汇聚层任务加重,性能提升需求高,设备成本将大幅提升。因此,适用于东西向流量的扁平化的 叶脊网络架构应运而生,叶交换机直接与计算节点相连,脊交换机相当于核心交换机,通过 ECMP 动态选择多 条路径。叶脊网络架构具备带宽利用率高、扩展性好、网络延迟可预测和安全性高等优势,在数据中心中实现广泛的应用。
AI 数据中心中,由于内部数据流量较大,因此无阻塞的胖树网络架构成了重要需求之一。英伟达的 AI 数据 中心中,采用了胖树(fat-tree)的网络架构来实现无阻塞的功能。胖树的网络架构基本理念为:使用大量低性 能的交换机,构建出大规模的无阻塞网络,对于任意的通信模式,总有路径让他们的通信带宽达到网卡带宽, 架构中用到的所有交换机都是相同的。胖树网络架构一般用于网络要求较高的数据中心中,如超算中心和 AI 数 据中心等。
英伟达的 A100 GPU 主要对应 200G 光模块,H100 GPU 可以对应 400G 或 800G 光模块。每个 A100 GPU 配 一张 Mellanox HDR 200Gb/s Infiniband 网卡,每个 H100 GPU 配一张 Mellanox NDR 400Gb/s Infiniband 网卡。英伟 达在 H100 SuperPOD 的设计中,采用了 800G 的光模块,在光口采用 1 个 800G 光模块可以替代 2 个 400G 光模 块,在电口也可以将 8 个 SerDes 通道进行整合,与光口的 8 个 100G 通道一一对应。因此这种设计下,交换机 的通道密度提高,物理尺寸显著降低。
NVLink 带宽远大于网卡侧的 PCIe 带宽,因此若将 NVLink 从服务器内部 GPU 互连拓宽至不同服务器之间的 GPU 的互连,将显著提升系统的带宽。若要实现不同服务器之间按照 NVLink 协议的 GPU 互连,除了需要采用 NVSwitch 芯片的物理交换机,还需要物理器件来实现交换机和服务器之间的连接,那么光模块也成为了重要的 组成部分,从而也会大幅增长 800G 光模块的需求。近日,英伟达创始人兼 CEO 黄仁勋在 NVIDIA Computex 2023 演讲中宣布,生成式 AI 引擎 NVIDIA DGX GH200 现已投入量产。GH200 通过 NV Link4 的 900GB/s 超大网络带宽 能力来提升算力,服务器内部可能采用铜线方案,但服务器之间我们认为可能会用光纤连接。对于单个256 GH200 芯片的集群,计算侧 1 个 GH200 对应 9 个 800G 光模块;对于多个 256 的 GH200 集群,计算侧 1 个 GH200 对 应 12 个 800G 光模块。
训练侧光模块需求与 GPU 出货量强相关,推理侧光模块需求与数据流量强相关。AI 对光模块需求的拉升主 要分为两个阶段,训练和推理。其中,训练侧的网络架构以胖树架构为主,因为在大模型训练过程中,对于网 络性能的要求很高,网络无阻塞是重要的需求之一,比如腾讯用于大模型训练的星脉网络采用了胖树架构。同 时,我们认为大部分厂商会采用 Infiniband 协议的网络,时延远低于以太网,可以提升计算效率,缩短模型训练 时间。训练侧光模块的需求与所用 GPU 显卡的数量强相关,根据胖树架构中 GPU 和光模块的比例关系可以得到 所需光模块的数量,A100 对应 200G 光模块,H100 对应 400G 或者 800G 光模块。推理侧面向用户侧,网络架 构更接近于传统云计算数据中心的叶脊架构,主要用于承载 AI 应用带来的数据流量增量。传统云计算主要是 ToB 市场,用户数量不多,若未来出现图片或视频相关的爆款 AI 应用,一方面用户数量有望大幅提升,另一方面单 个用户产生的数据流量可能会显著增长,因此数据总流量将暴增,所以推理所需的算力和流量实际上可能远大 于训练,因此对于包括光模块在内的网络设备需求将起到有力的支撑和提振。
硅光子技术是以硅或硅基材料(Si, SiO2,SiGe)作为衬底材料,利用与集成电路兼容的 CMOS 工艺制造 对应的光子器件和光电器件,以实现对光的激发,调制,响应等,广泛应用于光通信,光传感,高性能计算等。 数通领域的硅光模块同样实现了大规模商用,未来份额有望不断提升。随着数据中心的快速发展,对于光模块 的需求爆发式增长,多家厂商开始大力研发用于数据中心的硅光模块。初期是 40G 硅光数通光模块小规模应用, Intel 和 Luxtera 的 100G 硅光模块大规模应用,目前 400G 的硅光模块已经实现量产,800G 亦在验证中。目前国 内的硅光模块厂商具备较强的竞争力,包括中际旭创、新易盛、华工科技等公司有自研的硅光芯片,博创科技 等公司与海外硅光芯片巨头厂商深度合作,有望在 800G 光模块市场取得突破。
Co-packaged Optics,即共封装光学,光学引擎 PIC 与电学引擎 EIC 合封在一起的封装技术。CPO 交换机主 要分为交换机芯片、SerDes 和光学部分,过去 10 年交换机带宽增长了 80 倍。交换机芯片的带宽每两年提升一 倍;电接口的 SerDes 数量和速率也在提升,速率从 10G/s 提升到 112G/s,数量从 64 个通道提升到 51.2T 时代 的 512 个通道。交换机带宽从 640G 提升到 51.2T,交换机芯片功耗提升 7.4 倍,每个 Serdes 通道的功耗提升 2.84 倍,结合 Serdes 通道数的增加,总功耗增加 22.7 倍。而 CPO 可以降低功耗(核心优势)、降低成本和减小尺寸。 CPO 参与公司主要包括云服务厂商、设备商和芯片厂商等。目前,CPO 仍有很多技术难题,例如光源的功耗问 题,光源作为核心的部件之一,虽然外部光源在配置上更加灵活,但是激光器在高温下效率较低,因此给多个通道同时提供光源时,高功率带来低效率,其功耗反而会更高。而且,光引擎紧密排布在交换机芯片的周围, 巨大的发热量如何进行有效地散热,光引擎失效后如何进行灵活地更换,新的光学连接器如何定义等这些技术 难题都需要更加有效的解决方案。此外,CPO 产品是将光模块和交换机集成在一起,因此将对光模块和交换机 行业产生较大的影响,在制定好相关产品标准之后如何使得两个产业链更好的协同,也将是一个重要的挑战。
我们认为,本轮光模块板块行情可以参考 2016-2018H1 与 2019H2-2020H1。 数通光模块行业在 2016-2018H1 处于景气周期,中际旭创期间股价表现较好,2018H2-2019H1 全球云计算 及互联网巨头资本开支迎来调整,期间股价也下行。北美 FAAM(Facebook、Amazon、Alphabet、Microsoft) 2016-2018 Capex 增速为 29.65%、27.94%、62.74%,虽然 2018 年全年增速强劲,但 2018Q3 起增速显著放缓。 经过近 3 年(2016-2018H1)的景气周期,云厂商基础设施如服务器、光网络等利用率不够饱满,相当于计算、 存储、网络能力有一定的“库存”,叠加宏观经济及中美摩擦导致的不确定性,企业信息化投入收缩,企业上云 放缓,互联网巨头面临增长压力,因此资本开支增速明显放缓,直至 2019Q1 资本开支负增长。
五、AI 将会拉动交换机市场需求
AI 带来数据中心的网络架构变化,光模块速率及数量均有显著提升,因此交换机的端口数及端口速率也有 相应的增长。以 ChatGPT 为代表的 AIGC 技术,依靠强大的 AI 模型和海量数据,能够在多个应用场景下产生优 质的内容,有望推动人工智能更广泛的应用。算力作为 AIGC 技术的重要支撑之一,是影响 AI 发展与应用的核 心因素。算力基础设施成了目前行业亟需布局的资源,除了 CPU/GPU 等算力硬件需求强劲,网络端也催生了更 大带宽需求,以匹配日益增长的流量。与传统数据中心的网络架构相比,AI 数据网络架构会带来更多的交换机 端口的需求。
训练侧大概率会采用 Infiniband 或者类 IB 的低时延网络协议,推理侧预计会采用以太网协议的交换机。 InfiniBand 是一种开放标准的高带宽,低时延,高可靠的网络互联技术,随着人工智能的兴起,也是 GPU 服务 器首选的网络互联技术。相比较以太网协议的网络,Infiniband 网络在带宽、时延、网络可靠性、和组网方式上 都有一定的优势。当然,以太网的兼容性更好,成本更低,可以应用在各种应用场景中,适配各种不同的设备 终端。AI 训练端对时延要求较高,因此训练侧大概率会采用 Infiniband 网络,也可以采用 ROCE 网络,即基于 以太网的 RDMA 技术,也能够达到较低的时延。而英伟达 NVLink 技术,其带宽大幅提升,NVLink4 的双向带 宽可以达到 900GB/s,在训练侧也将具备较强的优势。在推理侧,我们认为网络协议可以沿用云计算数据中心 的以太网。
交换机中 SerDes 的功耗大幅提升。随着单个 SerDes 带宽提升带来功耗的提升,同时结合 SerDes 数量的提 升,未来 SerDes 的总功耗在交换机中的功耗占比将大幅提升。网络部分的功耗在数据中心中的功耗大幅提升: 根据 Facebook 的测算,随着数据中心内部流量的大幅提升,网络部分的功耗占比增加明显,到下一代网络部分 的功耗占比将从现在的 2%左右提升到 20%左右。传输距离越近,SerDes 功耗越低。缩短交换机和光模块之间 电信号需要传输的距离,可以简化 Serdes 芯片的功能,同时降低电信号的发射功率,从而降低 SerDes 的功耗。
六、AI 提升大功率 IDC 机柜需求,液冷渗透率随之提升
6.1“东数西算”统筹全国算力网络建设,云计算需求可能将回暖
2021 年 5 月,发改委、网信办、工信部、能源局联合印发《全国一体化大数据中心协同创新体系算力枢纽 实施方案》,明确提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。 《全国一体化大数据中心协同创新体系算力枢纽实施方案》围绕国家重大区域发展战略,根据能源结构、 产业布局、市场发展、气候环境等,在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏 等地布局建设全国一体化算力网络国家枢纽节点,引导数据中心集约化、规模化、绿色化发展,构建数据中心 集群。国家枢纽节点间将进一步打通网络传输通道,加快实施“东数西算”工程,提升跨区域算力调度水平。
根据《全国一体化大数据中心协同创新体系算力枢纽实施方案》要求,京津冀、长三角、粤港澳大湾区、 成渝等节点,用户规模较大、应用需求强烈,要重点统筹好城市内部和周边区域的数据中心布局,优化数据中 心供给结构,扩展算力增长空间,满足重大区域发展战略实施需要,城市内部加快对现有数据中心的改造升级, 优先满足对实时性要求高的业务需求。贵州、内蒙古、甘肃、宁夏等节点,可再生能源丰富、气候适宜、数据 中心绿色发展潜力较大,要重点提升算力服务品质和利用效率,充分发挥资源优势,夯实网络基础保障,积极 承接全国范围需后台加工、离线分析、存储备份等非实时算力需求,打造面向全国的非实时性算力保障基地。
根据发改委表态,“东数西算”工程总体思路有三方面:一是推动全国数据中心适度集聚、集约发展;二是 促进数据中心由东向西梯次布局、统筹发展;三是实现“东数西算”循序渐进、快速迭代。在当前起步阶段,8 个算力枢纽内规划设立 10 个数据中心集群,划定了物理边界,并明确了绿色节能、上架率等发展目标,如集群 内数据中心的平均上架率至少要达到 65%以上,要求张家口、韶关、长三角、芜湖、天府、重庆集群的 PUE 在 1.25 以下,和林格尔、贵安、中卫、庆阳集群的 PUE 在 1.2 以下。我们认为,10 个国家数据中心集群更多属于 新建项目,各地方此前已发放的能耗指标及相关 IDC 公司在其它地区的投资规划可能多数会继续实施(现有 IDC 供应商本来在上述 10 个区域的投放安排就少),因此对于 IDC 建设产业链带来利好。
6.2 AI 大算力服务器需要高功率机柜,液冷或成必选项
人工智能大模型训练和推理运算所用的 GPU 服务器的功率密度将大幅提升,以英伟达 DGX A100 服务器为 例,其单机最大功率约可以达到 6.5kW,大幅超过单台普通 CPU 服务器 500w 左右的功率水平。在此情况下, 一方面需要新建超大功率的机柜,另一方面为降低 PUE,预计液冷温控渗透率将快速提升。 PUE 值是衡量 IDC 能效的重要指标。PUE 的计算方法为数据中心的总耗电量比上 IT 设备的耗电量,数值越 接近 1,表明 IDC 的能效越高。根据赛迪顾问的统计数据,2019 年中国数据中心的能耗中约有 43%是用于 IT 设 备的散热,基本与 45%的 IT 设备自身的能耗持平。因此,设备散热能耗成为降低 PUE 的关键影响因素。
液冷数据中心适合提供高密算力,提升单柜部署密度,提高数据中心单位面积利用率。根据《冷板式液冷 服务器可靠性白皮书》数据显示,液体相对空气能够传热更快(相差 20-25 倍),能够带走更多热量(相差 2000-3000 倍),给高密部署提供了较好方案。通常液冷数据中心单机柜可以支持 30kW 以上的散热能力,并能较好演进到 100kW 以上。自然风冷的数据中心单柜密度一般只支持 8kW-10kW,冷热风道隔离的微模块加水冷空调水平制 冷在 15kW 以上性价比将大幅降低,相比较而言液冷的散热能力和经济性均有明显优势。 由于 AIGC 的发展,大功率 AI 服务器出货量有望快速增长,进而要求单机柜功率要明显提升,业界已经开 始规模建设 20kW、30kW 功率的机柜。同时,数据中心降 PUE 也是刚需。在此背景下,由于风冷技术在高功率 机柜制冷方面的短板比较明显,因此液冷有望成为 AI 大算力数据中心的主要制冷方案。
无论是冷板式液冷还是浸没式液冷,都需要数据中心温控和 ICT 设备厂商彼此配合,此前市场对于产业链 的协作问题存在疑虑。目前在 AI 算力需求的推动下,服务器厂商已经开始大力布局液冷服务器产品,液冷的产 业化进度有望加速。2022 年,浪潮信息将“All in 液冷”纳入公司发展战略,全栈布局液冷,实现通用服务器、 高密度服务器、整机柜服务器、AI 服务器四大系列全线产品均支持冷板式液冷,建成年产能 10 万台的亚洲最大 液冷数据中心研发生产基地,实现了业界首次冷板式液冷整机柜的大批量交付。2022 年,中兴通讯发布了《中 兴通讯液冷技术白皮书》,公司建设的全液冷数据中心项目获得了 2022 年 CDCC 数据中心科技成果奖,近期公 司 G5 系列服务器在泰国进行海外市场首发,支持液冷散热技术,采用冷板式液冷散热。
6.3 人工智能算力需求有望推动海底数据中心规模化发展
我们认为,海底数据中心可能将迎来产业化的关键节点。一是中国通信工业协会已于 2022 年 12 月 14 日批 准发布标准 T/CA 303—2022《水下数据中心设计规范》。二是中国及全球近两年海上风力发电取得大发展,海 底数据中心可就近消纳海上风电。三是东部沿海城市算力及 IDC 需求旺盛,海底数据中心可就近满足需求。四 是 AIGC 需要单机柜功耗可能达几十 kW,海底数据中心单机柜功率可达 35kW 左右,利用海水冷却,无压缩机 运行,单舱 PUE 可以低于 1.10,且无需冷却塔,可节约大量的水资源。五是全球在海底数据中心布局领先的是 微软,2015 年开始启动测试,两次测试都成功,2022 年美国 subsea cloud us 计划推出商用海底数据中心。
6.3.1 国内海底数据中心相关设计规范已经发布
国内第一个水下数据中心标准已发布并已开始实施。中国通信工业协会已于 2022 年 12 月 14 日批准发布标 准 T/CA 303—2022《水下数据中心设计规范》,该标准于 2023 年 1 月 1 日起开始实施。该标准遵循开放、公平、 透明、协商一致和促进贸易和交流的原则,按照全国团体标准信息平台公布的标准制定程序文件制定,由深圳海兰云数据中心科技有限公司、中国通信工业协会数据中心委员会、中国长江三峡集团有限公司、海洋石油工 程股份有限公司、维谛技术有限公司、清华大学等单位共同起草。 该标准适用于指导和规范新建、改建和扩建部署于海洋的水下数据中心设计工作。《水下数据中心设计规范》 基于海底数据中心水下密封、无氧无尘、空间受限、无人值守等特点,规定了水下数据中心的分级与性能要求、 选址与系统组成、水下舱体系统设计要求、电气系统设计要求、空调系统设计要求、监控系统设计要求、网络 与布线系统设计要求、动力与通讯缆线系统设计要求、消防与安全系统设计要求。部署于湖泊、江水等水下数 据中心亦可参照执行。
6.3.2 海上风电已经实现规模化发展,有望与海底数据中心结合产生新商业模式
经历了 2020-2021 年海风抢装潮,国内海上风电产业链加速成熟。我国海上风电探索起源于 2007 年。是年 11 月 8 日,首座安装有 1 台金风科技 1.5 MW 风电机组的海上风电项目在渤海绥中油田建成发电,经历了十余 年的发展,2020 年末,我国海上风电装机量达到了 9.89GW。2019 年 5 月 24 日,国家发改委发布《关于完善风 电上网电价政策的通知》,提出将海上风电标杆上网电价改为指导价,新核准海上风电项目全部通过竞争方式确 定上网电价;对 2018 年底前已核准的海上风电项目,如在 2021 年底前全部机组完成并网的,执行核准时的上网电价(约 0.85 元/千瓦时,补贴力度超 0.4 元/千瓦时),极具诱惑力的补贴价格,带来了海上风电的抢装潮, 仅 2021 年中国海上风电新增装机量超过 16.9GW,抢装也加速了我国海风产业链的成熟,2010 年我国海上风电 的单 GW 造价水平大约在 240 亿左右,目前已经降至 120-130 亿元。截至 2022 年末,中国海上风电装机量达 30.51GW。
6.3.3 海底数据中心节能优势突出,可较好满足沿海地区的旺盛算力需求
海底数据中心 UDC 是水下数据中心的一种。海底数据中心是将服务器等信息基础设施安装在海底密封的压 力容器中,利用流动海水进行散热,并利用海底复合缆供电且将数据回传至互联网的新型数据中心。海底数据 中心具有节能、节地、低时延、安全可靠等显著的绿色低碳特征和多方面的优点,符合绿色低碳发展趋势。 海底数据中心一般建设在海岸线 10-20 公里之处,可满足沿海地区较高的算力、数据存储及低延迟的要求。 水下数据中心为低延迟连接提供了一种解决方案,即减少数据在源和目的地之间传输所需的时间。西部内陆地 区的数据中心可以进行一些冷数据的存储和延迟要求较低的计算,但对于延迟要求较高的还是需要在东部沿海 地区寻找数据中心资源。东部沿海城市算力需求旺盛,海底数据中心可以利用较近的距离为基数巨大的沿海人 口提供低延迟连接,因为世界上超过 50%的人口居住在距离海岸 120 英里(200 公里)的范围内。
6.3.4 全球海底数据中心建设案例——微软 Natick 项目
全球首个海底数据中心于 2015 年由美国微软公司研制,微软在海洋中建立水下数据中心和放置服务器的 研究实验——Natick 项目目前已完成了为期 4 个月的水下概念验证测试与为期两年的水下数据中心测试。该项 目第一阶段的目的是有效地测试水下数据中心的冷却系统。第二阶段的目的则在于确定全尺寸水下数据中心模 块的制造可行性以及在 90 天内部署它们的经济可行性。此外,在两年的时间里,微软还能够测试和监控水下数 据中心服务器的性能和可靠性。
微软 Natick 项目未来的第三阶段被描述为“试点”。具体来说,微软将为 Natick 项目的第 3 阶段建立一个 “更大规模”的水下数据中心,该数据中心“可能是多艘船”,并且“可能是与第二阶段不同的部署技术”。微 软 Natick 项目的第 3 阶段将被放置在大于 117 英尺(36 米)的深度。 微软通过 Natick 项目探索了海底数据中心发展的潜力。Natick 项目第二阶段测试结果显示,海底数据中心 的 PUE 为 1.07,故障率是地面数据中心故障率的八分之一。同时,微软通过 Natick 项目发现,水下数据中心可 实现快速部署,并可密封在类似潜艇的管道内,在海床上运行多年,而无需人工进行任何现场维护。初步分析 表明,服务器在水下具有卓越性能的主要原因是避免了湿气和氧气的腐蚀。 但需要注意的是,目前海底数据中心也存在发展瓶颈。一是海底数据中心需要高额的建设成本,包括购买 数据舱、服务器、布线、配电系统、通信系统等。二是海底数据中心的技术难度大,需要具备海洋环境下的建 设、抗潮汛、抗海浪、抗噪声等技术。三是海底数据中心的运维工作复杂,由于海底环境条件复杂多变,需要 特殊的技术和设备才能完成运维工作。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。「链接」
标签: #c语言人工智能框架 #人工智能计算系统包括什么