数据中心--人工智能的发展如何引发数据中心的重新设计--其乐融融的IT技术小站

正在进行的数据中心重新设计的一个主要方面是，由于人工智能的庞大、复杂的工作负载以及需要添加更多图形处理单元(GPU)、张量处理单元(TPU)或加速器。

这些单元所需的功率和产生的热量，迫使设计人员重新思考什么是可行的和最佳的布局设计。而且，重新设计的成本正在不断增加。

因此，根据Tirias Research的数据，到2028年，业主每年可能会在新的人工智能数据中心基础设施上花费760亿美元。

数据中心当前面临的挑战：当今基于GPU的密集集群

Tom's Hardware的Anton Shilov最近评估了人工智能工作负载对GPU的巨大需求：

Omdia表示，Nvidia在2023年第二季度实际上售出了900吨H100处理器。
Omdia估计，Nvidia在第二季度为人工智能(AI)和高性能计算(HPC)应用销售了超过900吨(180万磅)H100计算GPU。Omdia认为，带有散热器的Nvidia H100计算GPU的平均重量超过3公斤(6.6磅)，因此Nvidia在第二季度出货了超过30万台H100。

因此，单个Nvidia H100图形处理单元(GPU)的重量约为一个轻型保龄球的重量。Omdia上面计算的重量不包括相关的布线或液体冷却。

Schneider Electric数据中心创新副总裁Steven Carlini表示，用于人工智能的机架必须重新设计，以适应额外的重量和热量。其将当今密集的人工智能服务器集群与“整齐分布”的成排普通服务器机架进行了对比，这些服务器机架在当代人工智能开始认真发展之前很常见，将整齐的行变成了密集的热运行集群。

Carlini表示，这些人工智能集群每个机架的功耗高达100千瓦，而传统的非人工智能数据中心机架的每个机架功耗高达20千瓦。Carlini的同事、Schneider Electric能源管理研究中心的高级研究分析师Victor Avelar指出，每台Nvidia H100的功耗为700瓦，而旧款A100的功耗为400瓦，后者的需求量仍然很高。两种GPU类型都需要液体冷却。

每个GPU中密集的800亿个晶体管硅区域产生大部分热量。Amazon和Google等企业正在安装的一台人工智能服务器包含8个这样的GPU。如果设计得当，人工智能服务器集群可以持续100%运行，相比之下，非人工智能AI应用的服务器利用率要低得多。

数据中心能源管理的长远视角

承载当今人工智能工作负载的主要数据中心的所有者，长期以来一直致力于减轻对环境的影响，并且在能源管理方面，他们往往着眼于长远。的确，能源消耗比以往任何时候都高，但现在大部分顶级数据中心容量都是由可再生能源供电，业主正在寻找其他零排放替代方案。例如，Microsoft在5月份签署了一份合同，从2028年开始从聚变能源初创企业Helion购买至少50兆瓦的电力。

Victor Avelar致力于量化当今数据中心在其生命周期内的碳足迹，并帮助优化未来数据中心的布局和设计。Avelar在其免费的数据中心生命周期二氧化碳当量计算器上进行了演示，该计算器既关注了隐含碳，如数据中心建设中使用的混凝土的资源、制造和浇筑过程中排放的碳，也关注了数据中心运营过程中产生的碳。

成本计算器帮助规划者考虑替代方案并选择最佳设计标准。例如，Schneider Electric对电源进行了研究。Avelar对比了西弗吉尼亚州的一个燃煤电厂和法国的一个核电厂。

通过按范围查看年度总二氧化碳当量，发现西弗吉尼亚选项的范围2(从当地公用事业购买的电力)排放量在混合排放中所占的比例要大得多。相比之下，法国的选项在范围3(间接能源，例如新数据中心混凝土中的隐含碳)中所占的比例更大。范围1和范围2的排放更多地在规划者的控制范围内。

数据中心所有权的转变

Carlini指出，从历史上看，数据中心往往遵循一种类似购物中心的模式，即主要租户和精品店，所有者只专注于满足当地需求的建筑业务，并管理空间租赁。

但最近，大型云计算、媒体和SaaS提供商在新建数据中心的比例方面更加占据主导地位。对于那些所有者/运营商而言，没有标准的数据中心设计。每个数据中心都是不同的，当前环境下的主要挑战就是跟上所有正在发生的变化。

数据中心当前面临的挑战：当今基于GPU的密集集群

数据中心能源管理的长远视角

数据中心所有权的转变

相关推荐