算力中心结构的思考

2024-09-24


在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单 的算力堆叠,要让数万张 GPU 卡像一台“超级计算机”一样高效运转,超万卡集群 的总体设计应遵循以下五大原则:

坚持打造极致集群算力:基于 Scale-up 互联打造单节点算力峰值,基于

Scale-out   互联将单集群规模推高至万卡以上,两者叠加构建超万卡集群的大算力基 座;

坚持构建协同调优系统:依托超大规模的算力集群,通过 DP/PP/TP/EP 等各 种分布式并行训练策略,持续提升有效算力,实现极致的计算通信比,提高大模型开发效率

坚持实现长稳可靠训练:具备自动检测和修复软硬件故障的能力,面向千万器 件满负荷运行系统,持续提升 MTBF 和降低 MTTR 并实现自动断点续训能力,支持   千亿稠密、万亿稀疏大模型百天长稳训练,保证系统稳定性和鲁棒性;

坚持提供灵活算力供给:支持集群算力调度,提供灵活弹性的算力供给和隔离 手段,实现训练和推理资源的按需调配,保持单集群大作业和多租户多任务并行训练   性能持平;

坚持推进绿色低碳发展:持续推进全套液冷解决方案在超万卡集群的应用,追 求极致绿色算力能效比 (FLOPs/W) 和极低液冷 PUE 至1.10以下。



机房配套层:匹配超万卡集群高密集约的建设模式,机房配套设施需重点考虑 高效供电、制冷设计、楼板承重和走线架设计等。

基础设施层:算、网、存三大硬件资源有机配合,达成集群算力优化。面向算   力 ,CPU、GPU、DPU三大芯片协同,集中发挥集群计算能力;面向网络,参数面、 数据面、业务面、管理面独立组网,参数面/数据面采用大带宽 RoCE 交换和二层无   阻塞 CLOS 组网满足大象流,支持参数面负载均衡和多租安全隔离;面向存储,引入融合存储和分级存储支持无阻塞数据并发访问。

智算平台层:采用 K8s,对上提供以裸金属和容器为主的集群资源。在对集群 资源进行纳管的基础上,进一步实现大规模集群的自动化精准故障管理,以达成高效 训练、长稳运行的目标。面向未来,考虑集群中引入异厂家GPU片,为避免智算 碎片化问题,引入算力原生,实现应用跨架构迁移和异构混训等平台能力。

应用使能层:包括模型训练框架和开发工具集两个模块,一方面基于现有开源 框架能力,进行分布式训练调优,面向未来开展自动分布式训练框架设计,积累经验, 实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优;另一方面,研发 沉淀数据服务、模型部署开发等工具集,逐步实现由人工处理到基于工具对外提供自 动化模型研发能力的转变。

智算运营和运维域:支持超万卡集群高效集合通信和调度。支持按租户灵活资 源发放和任务调度,支持多任务并行训练。




阅读116
分享