数据中心--Meta两个豪华AI集群曝光：每个配备2.4万块英伟达H100，价值几十亿--其乐融融的IT技术小站

3月13日消息，美国时间周二，Facebook母公司Meta公布了两个数据中心规模新集群的技术细节，它们各自拥有超过2.4万个GPU，并在硬件、网络、存储、设计、性能和软件等方面上，专为支持大型语言模型如Llama 3进行训练而深度优化。

这两个新集群基于Meta先前研究超级集群（RSC）的成功。RSC自2022年启用以来，已展现出强大的计算力。

在硬件配置方面，每个集群都配备了24576个英伟达Tensor Core H100 GPU（每个数万美元），与之前使用的16000个英伟达A100 GPU相比有了明显提升，这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。

Meta表示，这种升级不仅在数量上有所增加，其性能上的跃进也将支持更大、更复杂的模型，为生成式人工智能产品的开发铺平道路。

Meta计划在2024年底之前，将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。

图片来源：Meta官方博客

虽然两个新集群的GPU数量相同，但它们在网络基础设施方面各有差异，均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问（RDMA）和融合以太网（RoCE）网络解决方案，而另一个则应用了英伟达Quantum2 InfiniBand网络架构。

值得一提的是，两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建，这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品，Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。

此外，这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构，提高了数据中心的灵活性。

Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比，它允许在机架中的任意位置安装电源架，从而使机架配置更加灵活。

在建设这些新集群时，Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计，Meta确保了这些集群在提供高性能的同时，也达到了能源的高效利用。

在存储技术上，这些集群运用了Linux Filesystem中的Userspace API，并得到了Meta自家Tectonic分布式存储方案的加持。与此同时，Meta还与Hammerspace合作，一道开发了并行网络文件系统（NFS）。

两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率，Meta进行了网络拓扑和路由的调整，并部署了英伟达的集体通信库（NCCL）。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。

Meta还在积极推进其PyTorch基础AI框架的发展，以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李（Kevin Lee）、生产网络工程师阿迪·甘吉迪（Adi Gangidi）以及生产工程总监马修·奥尔德姆（Mathew Oldham）在最新博客中共同表达了公司的技术愿景和战略。他们强调，Meta将致力于人工智能软件和硬件的开放式创新，启动人工智能联盟，建立一个开放的生态系统，“为人工智能开发带来透明度、审查和信任，并带来每个人都能从中受益的创新，这些创新以安全和责任为首要考虑因素”。

这篇博文继续强调：“面对未来，我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此，Meta将不断评估和改进其基础设施的各个方面，从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统，以支撑快速发展中的新模型和研究工作。”

相关推荐