在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单 的算力堆叠,要让数万张 GPU 卡像一台“超级计算机”一样高效运转,超万卡集群 的总体设计应遵循以下五大原则:
● 坚持打造极致集群算力:基于 Scale-up 互联打造单节点算力峰值,基于
Scale-out 互联将单集群规模推高至万卡以上,两者叠加构建超万卡集群的大算力基 座;
● 坚持构建协同调优系统:依托超大规模的算力集群,通过 DP/PP/TP/EP 等各 种分布式并行训练策略,持续提升有效算力,实现极致的计算通信比,提高大模型开发效率
● 坚持实现长稳可靠训练:具备自动检测和修复软硬件故障的能力,面向千万器 件满负荷运行系统,持续提升 MTBF 和降低 MTTR 并实现自动断点续训能力,支持 千亿稠密、万亿稀疏大模型百天长稳训练,保证系统稳定性和鲁棒性;
● 坚持提供灵活算力供给:支持集群算力调度,提供灵活弹性的算力供给和隔离 手段,实现训练和推理资源的按需调配,保持单集群大作业和多租户多任务并行训练 性能持平;
● 坚持推进绿色低碳发展:持续推进全套液冷解决方案在超万卡集群的应用,追 求极致绿色算力能效比 (FLOPs/W) 和极低液冷 PUE 至1.10以下。
● 机房配套层:匹配超万卡集群高密集约的建设模式,机房配套设施需重点考虑 高效供电、制冷设计、楼板承重和走线架设计等。
● 基础设施层:算、网、存三大硬件资源有机配合,达成集群算力优化。面向算 力 ,CPU、GPU、DPU三大芯片协同,集中发挥集群计算能力;面向网络,参数面、 数据面、业务面、管理面独立组网,参数面/数据面采用大带宽 RoCE 交换和二层无 阻塞 CLOS 组网满足大象流,支持参数面负载均衡和多租安全隔离;面向存储,引入融合存储和分级存储支持无阻塞数据并发访问。
● 智算平台层:采用 K8s,对上提供以裸金属和容器为主的集群资源。在对集群 资源进行纳管的基础上,进一步实现大规模集群的自动化精准故障管理,以达成高效 训练、长稳运行的目标。面向未来,考虑集群中引入异厂家GPU芯片,为避免智算 碎片化问题,引入算力原生,实现应用跨架构迁移和异构混训等平台能力。
● 应用使能层:包括模型训练框架和开发工具集两个模块,一方面基于现有开源 框架能力,进行分布式训练调优,面向未来开展自动分布式训练框架设计,积累经验, 实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优;另一方面,研发 沉淀数据服务、模型部署开发等工具集,逐步实现由人工处理到基于工具对外提供自 动化模型研发能力的转变。
● 智算运营和运维域:支持超万卡集群高效集合通信和调度。支持按租户灵活资 源发放和任务调度,支持多任务并行训练。