扎克伯格全力拼AGI:宣布开发两个拥有 2.4万 GPU 的超级计算集群



本文为1250字,建议阅读3分钟
Meta宣布了一项重大投资:构建由两套各包含24,576块GPU的数据中心规模集群,以此支撑当前及下一代的人工智能模型训练。这些集群的设计细节涵盖了硬件、网络、存储、性能和软件等方面,专为诸如Llama 3这样的大型语言模型以及其他AI研发工作提供高效且可靠的运行环境

Meta规划到2024年底大幅扩展其AI基础设施建设,目标是部署约35万个NVIDIA H100 GPU,整体计算能力相当于近60万个H100 GPU。面对快速发展的AI需求,Meta认识到过去或现在的解决方案可能无法满足未来挑战,因此致力于从物理层、虚拟层至软件层全方位评估与改进基础设施,旨在打造灵活可靠的新一代系统,以支持快速演进的AI模型和研究‍
在网络方面,Meta通过定制化的软硬件和网络架构,成功处理每天数百万亿次的AI模型执行任务。其中一套集群采用基于Arista 7800系列交换机搭配Wedge400和Minipack2 OCP机架交换机构建的远程直接内存访问(RDMA)融合以太网(RoCE)网络架构;另一套则配备NVIDIA Quantum2 InfiniBand网络结构,两者均能实现400 Gbps端点互联。通过对这两种不同类型的互连进行大规模训练适用性和可扩展性评估,Meta能够为未来更大规模集群设计积累宝贵经验‍
在计算资源上,这两套集群均采用了内部设计并已向OCP社区贡献的开源GPU硬件平台——Grand Teton。该平台集成了多代AI系统的电力、控制、计算和结构接口于一体,提升了整体性能、信号完整性和热效率,并简化了设计,使其能够迅速部署到数据中心中,方便维护和扩展。结合Open Rack电源和机架架构等内部创新,Grand Teton使得Meta能够针对当前及未来的应用场景定制化地构建新的集群‍
在存储方面,随着生成式AI训练任务日趋多元化,图像、视频和文本数据的大量消耗导致对数据存储的需求急剧增加。Meta自主研发的Linux用户空间文件系统(FUSE)API与优化适用于闪存介质的分布式存储解决方案"Tectonic"相结合,有效解决了集群的大规模数据存储和检查点同步问题。此外,Meta还与Hammerspace合作开发并部署了一套并行网络文件系统(NFS),以满足AI集群的开发者体验需求。Hammerspace技术确保数千块GPU能够在代码变更时即时同步加载,从而支持快速迭代和高吞吐量的EB级存储容量,且不牺牲集群扩展性‍
存储设施在GenAI集群中采用的是基于YV3 Sierra Point服务器平台升级后的最新高容量E1.S SSD,不仅提高了SSD容量,而且通过定制每机架服务器的数量,实现了吞吐量、服务器数量减少以及相关能耗效率之间的最佳平衡。这种模块化设计使存储层能够如同乐高积木般灵活扩展,适应未来集群对存储需求的增长。通过整合Tectonic与Hammerspace技术,Meta在GenAI集群的存储部署上展现出了卓越的灵活性、高性能与可扩展性,为人工智能的未来发展奠定了坚实基础
结语
Meta坚持开源理念,在硬件和软件层面推动开放创新,并将这一承诺付诸实践。作为开放计算项目(OCP)的创始成员,Meta将其内部设计如Grand Teton和Open Rack等贡献给社区,并不断加大对PyTorch这一行业主流AI软件框架的支持力度,继续成为其主要贡献者。同时,Meta还在AI研究领域积极推动开放创新,发起了“开放创新AI研究社区”计划,与学术界携手深入探索负责任地开发和共享AI技术,特别是聚焦于大型语言模型(LLMs)的研究
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

小扎all in AGI👇👇
到顶部