随着大语言模型训练和生成式AI应用的快速发展,AI算力中心已成为数字时代的关键基础设施。构建一个高性能、高可靠、易扩展的AI算力网络,需要在网络架构设计、设备选型、成本控制等多个维度进行深入的技术规划。
本文基于行业实践经验,系统介绍AI算力中心网络组网的核心技术方案,涵盖三层网络架构设计、8-rail优化拓扑实践、光网络与电网络的技术选择、以及InfiniBand与RoCEv2的技术路线对比,为算力中心建设提供可参考的技术指导。
AI算力中心的网络设计与传统数据中心存在本质区别。传统数据中心主要处理随机分布的互联网流量,而AI训练场景需要处理大规模、突发性的集合通信(Collective Communications),如All Reduce、All Gather、Reduce Scatter等操作。这种流量特征对网络带宽、延迟和拥塞控制提出了更高的要求。
在架构设计层面,需要综合考虑以下因素:
• 带宽需求:单个AI训练任务可能需要数千GPU协同工作,要求网络具备无阻塞的端到端通信能力
• 延迟敏感:集合通信的集合操作对网络延迟极为敏感,微秒级的差异可能影响整体训练效率
• 多租户场景:算力中心通常服务于多个客户,需要有效隔离不同租户的流量
• 可扩展性:支持从单集群百卡规模平滑扩展到千卡、万卡级别
当前AI算力中心的典型部署规模集中在256至2048 GPU区间。以1024 GPU集群为例,这已成为新兴AI算力服务商的主流选择。该规模既能保证足够的算力输出,又不会造成过度的资本压力和管理复杂度。
AI算力中心的网络系统由三个相互独立又协同工作的子网络组成,分别是前端网络、后端计算网络和带外管理网络。这种分层设计确保了不同类型的流量能够高效传输,同时保证了管理平面的可靠性。
前端网络采用标准以太网架构,主要承载以下业务流量:
• 互联网接入:为租户提供外部访问通道
• 集群调度:承载SLURM、Kubernetes等调度系统的控制面流量
• 数据加载:从对象存储或分布式文件系统加载训练数据和模型checkpoint
• 镜像分发:容器镜像的下载和更新
前端网络的带宽配置通常为每GPU 25-50Gbps。以NVIDIA HGX H100服务器为例,典型配置为每服务器200-400Gbps前端带宽。然而在实际运营中发现,多数AI训练任务对前端网络的使用相对有限——训练过程中GPU主要进行计算密集型操作,数据加载完成后前端网络的利用率显著下降。
优化建议:对于追求成本效益的算力中心,可考虑将前端网络带宽降至每服务器2×100Gbps,同时使用通用以太网交换机替代专业厂商设备,可实现显著的成本节约。
后端网络是AI算力中心的核心,负责GPU之间的集合通信传输。这个网络承载着AI训练中最关键的流量——梯度同步、参数更新等集合操作对网络性能极为敏感。
后端网络可以采用两种技术路线:
1. InfiniBand网络:NVIDIA主导的高性能网络技术,提供极低的延迟和更高的带宽效率
2. RoCEv2以太网:基于RDMA over Converged Ethernet技术,在标准以太网上实现远程直接内存访问
两种方案各有优势,将在后续章节详细对比分析。
带外管理网络是一个独立于数据平面的管理网络,用于:
• 设备初始化:操作系统重装、固件更新
• 硬件监控:服务器温度、风扇转速、功率消耗等健康指标
• 远程控制:KVM over IP、远程电源管理
• 告警通知:硬件故障即时告警
带外管理网络通常采用1Gbps以太网即可满足需求。值得注意的是,许多OEM厂商会推荐专用的管理交换机,但使用通用交换机能够实现可观的成本节省——二者在功能上基本等价。

8-Rail优化是NVIDIA推荐的AI集群网络拓扑设计,其核心思想是将一台HGX服务器上的8个GPU各自映射到独立的网络交换平面。在传统设计中,同一服务器的8个GPU通常连接至同一机架顶部交换机(ToR Switch),而8-Rail优化则将每个GPU索引(共8个)分别连接到不同的叶交换机。
这种设计的关键在于物理层面的流量隔离。假设有32台HGX服务器(256个GPU)组成一个Pod,在8-Rail优化拓扑中:
• 所有GPU #0 连接到 Leaf Switch #0
• 所有GPU #1 连接到 Leaf Switch #1
• 依此类推...
┌─────────────────────────────────────────────────────────────────┐
│ 8-Rail优化网络拓扑示意 │
│ │
│ Rail 0 (青色) ──► Leaf 0 │
│ Rail 1 (品红) ──► Leaf 1 │
│ Rail 2 (黄色) ──► Leaf 2 │
│ Rail 3 (绿色) ──► Leaf 3 │
│ Rail 4 (橙色) ──► Leaf 4 │
│ Rail 5 (紫色) ──► Leaf 5 │
│ Rail 6 (蓝色) ──► Leaf 6 │
│ Rail 7 (红色) ──► Leaf 7 │
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │Server 0 │ │Server 1 │ │Server 31│ ... ×32 │
│ │GPU0-7 │ │GPU0-7 │ │GPU0-7 │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │
└────────┼────────────┼────────────┼────────────────────────────┘
│ │ │
各Rail独立连接到对应Leaf Switch
8-Rail优化的核心价值在于有效缓解网络拥塞问题。
在传统ToR(Top of Rack)设计中,同一服务器的8个GPU同时发起集合通信时,8个数据流都会经过同一叶交换机,进而竞争相同的上行链路。这种流量冲突在多租户环境下尤为严重——当多个租户的作业同时运行时,叶交换机的上行带宽很容易成为瓶颈。
8-Rail优化通过物理隔离从根本上解决了这一问题。每个GPU的数据流被引导至不同的叶交换机,即使所有GPU同时发起通信,也不会在同一交换节点产生竞争。这种设计使得自适应路由算法能够更高效地工作,因为大部分流量仅需经过单跳即可到达目的节点。
对于提供算力租赁服务的AI Neocloud而言,8-Rail优化不仅是性能优化手段,更是运营稳定性的保障。
在多租户环境中,拥塞的影响更加复杂且难以预测。与传统云计算场景不同,AI训练任务的流量模式具有高度同步性——同一个训练作业中的所有GPU会在几乎相同的时间点发起集合通信。如果两个租户的作业恰好同时运行,缺乏物理隔离的网络设计将导致可观的性能损失。
需要指出的是,拥塞问题难以通过传统的网络测试工具(如nccl-tests)发现。这是因为测试工具通常运行单作业场景,无法模拟真实的多租户并发情况。实际运营中观察到,即使理论带宽足够,拥塞仍会导致训练吞吐量显著波动。
在AI算力中心的叶脊交换架构中,交换机之间的连接可以采用光纤或铜缆( DAC,Direct Attach Copper)两种介质。选择合适的连接介质需要综合考虑传输距离、电缆成本、功耗和可靠性等因素。
特性 | 光纤网络 | 铜缆网络(DAC/AOC) |
传输距离 | 可达数百米 | 通常3米以内 |
带宽密度 | 高 | 中等 |
电缆成本 | 高(光模块占比大) | 低 |
功耗 | 较高 | 极低 |
可靠性 | 光模块故障率较高 | 可靠性高 |
弯曲半径 | 要求严格 | 较灵活 |
采用机架顶部(ToR)交换架构时,交换机与服务器之间的距离通常在3米以内。这一距离完全在被动式铜缆(DAC)的覆盖范围内,因此可以避免使用价格较高的光模块。
在标准NVIDIA参考设计中,叶交换机被部署在独立的网络机架中,这意味着所有连接都需要使用光纤。而ToR设计将交换机部署于服务器机架内部或相邻位置,从而大幅降低网络部署成本。
然而,传统ToR设计面临一个关键挑战:由于所有GPU的流量都汇聚到单一叶交换机,8-Rail优化难以实现,导致前文所述的拥塞问题。
为兼顾成本效益与网络性能,业界发展出"虚拟模块化交换机"(Virtual Modular Switch)架构。这种方案在逻辑上保持8-Rail优化的拓扑结构,同时在物理上利用铜缆连接来降低成本。
其核心设计思路是:
1. 将脊交换机(Spine Switch)集中部署于中央机架
2. 将叶交换机分别部署于中央机架两侧的服务器机架中
3. 叶交换机与脊交换机之间的连接使用铜缆(距离通常在3-5米)
4. 服务器与叶交换机之间使用光纤(距离较短,但需要光纤连接)
┌─────────────────────────────────────────────────────────────┐
│ 虚拟模块化交换机架构 │
│ │
│ 服务器机架A 中央网络机架 服务器机架B │
│ ┌─────────┐ ┌─────────────┐ ┌─────────┐ │
│ │ Leaf 1 │══╡ Spine 1-16 ╞══│ Leaf 9 │ │
│ │ Leaf 2 │══╡ ╞══│ Leaf 10 │ │
│ │ ... │ │ (脊交换机) │ │ ... │ │
│ │ Leaf 8 │══╡ ╞══│ Leaf 16 │ │
│ └─────────┘ └─────────────┘ └─────────┘ │
│ │ │ │ │
│ 铜缆连接 ←3-5米→ │ ←3-5米→ 铜缆连接 │
│ │
└─────────────────────────────────────────────────────────────┘
这种方案相比纯光纤架构可节省约25%的后端网络成本,同时保持了8-Rail优化的性能优势。唯一需要注意的是,长距离铜缆的弯曲半径较大,可能影响机柜内的气流组织,需要精心规划线缆管理。
在8-Rail优化的架构中,由于大部分流量在叶交换机层级即可完成转发,脊层级的带宽利用率相对较低。这为脊层级的订阅(Oversubscription)设计提供了空间。
典型设计包括:
• 无订阅架构:脊层级1:1配置,保证任意节点对之间可同时以全线速通信
• 2:1订阅架构:脊层级端口数减半,成本显著降低,同时通过智能路由分配流量
• 7:1订阅架构:Meta在其24K H100集群中采用的激进方案
对于1024 GPU规模的集群,建议采用2:1订阅设计。这一方案在成本和性能之间取得了良好平衡,同时预留了未来扩展空间——当需要更高带宽时,可便捷地增加脊交换机数量。
综合虚拟模块化交换机与2:1订阅设计,相比标准参考架构可实现超过30%的网络成本节约。
InfiniBand 是一种专为高性能计算设计的网络技术,采用基于信用值的流量控制机制,提供确定性的低延迟通信。NVIDIA通过Quantum系列交换机和ConnectX系列网卡提供端到端的InfiniBand解决方案。
RoCEv2(RDMA over Converged Ethernet v2)是RDMA技术在标准以太网上的实现。它保留了RDMA的高性能特性,同时兼容现有以太网基础设施。主流芯片厂商如Broadcom、Mellanox(现属NVIDIA)均提供支持RoCEv2的交换机和网卡。
从纯技术性能角度分析,两种方案各有特点:
指标 | InfiniBand | RoCEv2 |
延迟 | 亚微秒级,极低 | 微秒级,低 |
带宽效率 | 接近线速 | 略低于InfiniBand |
拥塞控制 | 内置流控,效果好 | DCQCN等算法,需调优 |
NCCL兼容性 | 原生支持 | 需优化配置 |
生态成熟度 | 高(AI领域事实标准) | 中(持续发展中) |
InfiniBand在AI训练场景经过长期验证,NCCL通信库对其有原生优化,能够更轻松地达到预期性能。而RoCEv2在某些场景下经过充分调优后也能接近InfiniBand的性能水平,但需要投入更多的工程资源。
InfiniBand方案通常价格更高,主要原因包括:
• NVIDIA对InfiniBand设备实行较高的定价策略
• InfiniBand光模块(LinkX)价格不菲
• UFM(Unified Fabric Manager)管理授权按网卡端口数收费
相比之下,采用Broadcom等芯片的以太网交换机构成的RoCEv2方案在设备采购上具有明显成本优势。对于资源有限的新兴算力服务商,这一成本差异可能相当可观。
尽管RoCEv2在成本上有优势,但仍建议多数AI算力中心优先考虑InfiniBand方案,原因如下:
1. 性能保障:经过验证的端到端解决方案,减少调优工作量
2. 客户认知:许多AI客户将InfiniBand视为高性能网络的代名词,选用InfiniBand更容易获得客户信任
3. 工程资源:RoCEv2的NCCL优化需要专业的网络工程团队投入
4. 供应关系:NVIDIA对采用其网络解决方案的客户可能给予GPU分配上的倾斜
当然,如果团队具备足够的网络工程能力,且希望最大化成本效益,RoCEv2同样是可行的技术路线。关键在于明确性能预期并投入足够的优化资源。
AI算力中心的成本构成中,计算节点(GPU服务器)占据最大比例。以NVIDIA H100为例,单台8-GPU服务器的定价可达数十万美元。因此,计算节点的配置优化对整体成本控制至关重要。
CPU选型:标准配置往往推荐高端至强处理器,但AI训练作业对CPU的资源消耗相对有限——CPU主要负责PyTorch进程的调度、网络和存储调用的初始化、以及可能的虚拟化支持。建议选用中等规格的Intel处理器,既能满足需求又避免资源浪费。
需要注意的是,在AMD处理器上配置NCCL需要额外的调优工作,如设置NCCL_IB_PCI_RELAXED_ORDERING环境和NUMA NPS参数。因此,从运维便利性角度,Intel处理器是更稳妥的选择。
内存配置:标准配置通常包含2TB DDR5内存,但多数AI训练作业对主机内存的需求并不高。适当减少内存容量至1TB左右,可在不影响性能的前提下节约可观成本。
DPU选型:NVIDIA BlueField-3 DPU是许多标准配置中的推荐选项,主要用于传统CPU云场景下的网络虚拟化卸载。然而在GPU算力租赁场景中,客户通常获得裸金属访问权限,对DPU的需求并不强烈。更重要的是,BlueField-3的价格相当于数颗高端CPU,省略此组件可实现显著的成本节省。
前端网卡:许多标准配置使用BlueField-3 DPU作为前端网卡。简化为标准的ConnectX系列网卡不仅成本更低,运维复杂度也更低。
前端网络交换机:不必局限于NVIDIA Spectrum系列。Arista、Cisco或通用OEM厂商的以太网交换机同样能够满足需求,且价格更具竞争力。关键是确保端口密度和带宽满足规格要求。
带外管理交换机:完全可以使用通用1GbE交换机替代专用设备。管理网络对交换机品牌并无特殊要求,普通设备完全能够胜任。
后端网络光模块:NVIDIA LinkX光模块价格较高。在保证质量的前提下,可考虑第三方兼容光模块,前提是确认与交换机的兼容性。
NVIDIA Base Command Manager(BCM)是随集群销售的软件包,官方定价约为每GPU每年数千美元。然而,许多AI算力中心实际上并不依赖这套软件进行工作流管理——他们通常有自研或定制的集群管理方案。
对于这类运营商,BCM授权是纯粹的成本负担。在采购谈判中,可以尝试与厂商协商排除或降低这部分成本。
网络NVMe存储是AI集群的重要组成部分,也是成本优化的关键领域。
存储网络选择:虽然可以通过InfiniBand后端网络承载存储流量,但实践中发现这可能引发GPU性能问题——存储重建时的网络流量可能与计算流量产生竞争。建议将存储服务部署于前端网络,前端网络通常有充足的带宽余量。
存储容量规划:对于1024 GPU规模的集群,建议初始部署2PB存储容量,后续根据客户实际使用情况再行扩容。由于存储软件的授权费用通常按容量计费,初期合理规划可以避免不必要的支出。
构建高效能、高性价比的AI算力中心网络需要在多个层面进行精细化的技术规划:
1. 三层网络架构提供了清晰的流量分离方案,前端网络、后端计算网络和带外管理网络各司其职
2. 8-Rail优化拓扑是保障多租户环境下网络性能的关键设计,值得优先采用
3. 光网络与铜缆的混合部署能够在保持性能的同时实现可观的成本优化
4. InfiniBand仍是当前AI训练场景的主流选择,但RoCEv2在成本敏感场景中同样可行
5. 系统化的成本优化应贯穿从硬件选型到软件授权的各个环节
展望未来,AI算力中心网络技术将继续演进:
• 更大规模的集群:随着模型规模的持续增长,万卡以上规模的集群需求将逐渐增多
• 液冷技术的普及:高密度算力部署对散热提出更高要求,液冷方案将日益普遍
• 新型网络技术:CXL(Compute Express Link)等新技术的成熟可能改变GPU互连的格局
• 成本持续优化:随着硬件规模化和技术成熟,AI算力的单位成本有望继续下降
对于AI算力中心的建设者和运营者而言,紧跟技术发展趋势、持续优化架构设计、合理控制成本,将是在激烈竞争中保持优势的关键。
本文基于行业技术实践撰写,旨在为AI算力中心网络建设提供参考。具体项目实施需结合实际需求和资源条件进行综合评估。
注:与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。