北京迪天嘉业信息科技有限责任公司

算力中心结构的思考

2024-09-24

在大算力结合大数据生成大模型的发展路径下，超万卡集群的搭建不是简简单单的算力堆叠，要让数万张 GPU 卡像一台“超级计算机”一样高效运转，超万卡集群的总体设计应遵循以下五大原则：

● 坚持打造极致集群算力：基于 Scale-up 互联打造单节点算力峰值，基于

Scale-out 互联将单集群规模推高至万卡以上，两者叠加构建超万卡集群的大算力基座；

● 坚持构建协同调优系统：依托超大规模的算力集群，通过 DP/PP/TP/EP 等各种分布式并行训练策略，持续提升有效算力，实现极致的计算通信比，提高大模型开发效率

● 坚持实现长稳可靠训练：具备自动检测和修复软硬件故障的能力，面向千万器件满负荷运行系统，持续提升 MTBF 和降低 MTTR 并实现自动断点续训能力，支持千亿稠密、万亿稀疏大模型百天长稳训练，保证系统稳定性和鲁棒性；

● 坚持提供灵活算力供给：支持集群算力调度，提供灵活弹性的算力供给和隔离手段，实现训练和推理资源的按需调配，保持单集群大作业和多租户多任务并行训练性能持平；

● 坚持推进绿色低碳发展：持续推进全套液冷解决方案在超万卡集群的应用，追求极致绿色算力能效比 (FLOPs/W) 和极低液冷 PUE 至1.10以下。

● 机房配套层：匹配超万卡集群高密集约的建设模式，机房配套设施需重点考虑高效供电、制冷设计、楼板承重和走线架设计等。

● 基础设施层：算、网、存三大硬件资源有机配合，达成集群算力优化。面向算力，CPU、GPU、DPU三大芯片协同，集中发挥集群计算能力；面向网络，参数面、数据面、业务面、管理面独立组网，参数面/数据面采用大带宽 RoCE 交换和二层无阻塞 CLOS 组网满足大象流，支持参数面负载均衡和多租安全隔离；面向存储，引入融合存储和分级存储支持无阻塞数据并发访问。

● 智算平台层：采用 K8s,对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳管的基础上，进一步实现大规模集群的自动化精准故障管理，以达成高效训练、长稳运行的目标。面向未来，考虑集群中引入异厂家GPU芯片，为避免智算碎片化问题，引入算力原生，实现应用跨架构迁移和异构混训等平台能力。

● 应用使能层：包括模型训练框架和开发工具集两个模块，一方面基于现有开源框架能力，进行分布式训练调优，面向未来开展自动分布式训练框架设计，积累经验，实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优；另一方面，研发沉淀数据服务、模型部署开发等工具集，逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。

● 智算运营和运维域：支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度，支持多任务并行训练。

阅读180