其乐融融的IT技术小站

热浪和AI给数据中心高效运营带来重重压力

最佳温度范围是数据中心高效运行的关键因素。然而,随着全球进入极端高温时期,停电风险越来越严重,而且这种风险还在不断增加。

热浪可能导致数据中心组件过热和故障,导致运营商关闭服务器以防止损坏,从而导致停机和潜在的停电。

例如在2022年7月,伦敦气温达到创纪录的104华氏度(40摄氏度),导致冷却系统出现故障,导致Google和Oracle数据中心下线。两个月后,酷热摧毁了Twitter位于萨克拉门托地区的数据中心。

Cockroach Labs首席技术官、联合创始人Peter Mattis指出,敏感电子设备和硬件(如服务器、存储设备和网络设备)中的各个组件在既定的工作温度下才能以最佳状态运行。

数据中心的推荐温度范围可能低至65华氏度或高至95华氏度,在防止过热和潜在设备损坏方面发挥着关键作用。

这个范围是由特定硬件目标的工作温度范围和该硬件可以运行的条件决定的。

“随着热浪越来越多,这将是一个反复出现的问题,而且问题会越来越严重——热浪加上停电,数据中心就离线了,”他说。

Akamai企业可持续发展总监Mike Mattera解释说,温度波动始终是数据中心运营的一个考虑因素,而天气的预期范围并不是主要问题。

“我们已经解决了这个问题。相反,极端温度,尤其是高温,会给电网带来巨大压力,并可能增加当地生活用水系统的使用量,具体要取决于冷却系统。”

当热浪来袭时,电力和水的使用量会因为系统和冷却技术类型的不同而增加,给当地市场带来额外的压力。

Mattera指出,在电力和水资源较为有限的地区,例如美国德克萨斯州和亚利桑那州,这成了一个特别突出的问题。

确保热浪期间的连续性

Mattera解释说,由于当今全球都出现了极端高温,很多人都参与到确保数据中心能够继续运行的行动中。

确保热浪期间连续性的关键利益相关者是现场设施管理人员,更广泛地说,是设施团队,包括电工、机械工程师以及供暖、通风和空调(HVAC)专业人员。

“这个团队需要确保关键系统正常运行,并且在出现问题时现场有不间断电源可用,”他说。

他警告说,轻微的功率下降可能会破坏泵、风扇和压缩机等组件,从而影响系统冷却和调节空气。

此外,数据中心冷却具有庞大的控制系统网络,需要稳定的电流来操作系统的各个组件,以确保调节后的空气以最佳方式流入数据中心空间。

Sustainable and Scalable Infrastructure Alliance (SSIA)社区董事会成员Zachary Smith表示,数据中心运营商和支持这些设施的机械团队会针对一系列自然灾害和资源限制制定计划。

他补充说,数据中心运营商随后会与客户密切合作,以遵循已经发布或经过商定的服务水平协议(SLA)。

“如果资源或自然灾害需要关闭或限制某些服务,他们可能还会与客户制定应急计划,”他说。

从他的角度来看,过去几年最大的重点是效率——尽可能有效地利用电力、冷却和水资源,减少整个设施的浪费。

这一点已经实现了——通过提高数据中心温度、改进监控解决方案和智能楼宇管理系统、以及电力分配和调节方面。

越来越多的数据中心运营商正在实施液体冷却技术,以进一步提高设施的效率,同时在很多情况下,会在设施或IT设备层面转向闭环“无水”冷却设计。

“所有这些都有助于数据中心提高效率,能够在日益严峻的条件下运行,”Smith说。

Komprise总裁兼首席运营官Krishna Subramanian表示,节能基础设施和更有效的冷却设计(如液体冷却)是目前正在考虑的两种技术。

“另一种有效但较少探索的高效数据中心电源管理策略是减少主动管理的数据量,”她说。

由于数据消耗了数据中心30%甚至更多的资源,并且80%的数据都是冷数据,因此高效的数据管理可以减少数据中心三分之一的负担,甚至不需要对基础设施进行任何大改。

“随着热浪频率的上升,再加上高密度AI处理器的热量输出越来越大,问题在两个方面越来越加剧,”Subramanian说。

AI让挑战变得越来越复杂 但同时也提供了解决方案

AI 的持续崛起将加剧挑战,但许多挑战也有助于解决保持数据中心在可接受的工作温度下运行的问题。

AI耗电量大,更多的AI处理会增加数据中心的热量输出和功耗,从而加剧问题。

Smith表示:“一方面,具有更密集硬件配置的模型训练和推理的AI工作负载需要大量计算能力和能源,为AI模型和应用供电的服务器会产生大量必须消散和冷却的热量。”

在这方面有很多机架级创新成果已经显现,用于提高冷却和电源效率,其中包括从风冷数据中心转向机架级液体和浸入式冷却,以及从12V转向48V以实现更高效的散热。

Mattera表示,训练这些模型时发生的复杂计算需要更多资源密集型硬件,从而导致模型整体功率增加以保证最佳运行。

“资源利用率和发电量的增加意味着数据中心内会产生更多热量,这会给冷却系统带来压力,”他解释说。

此外,AI算法和模型的动态特性可能导致电力需求和热量产生激增,而传统的冷却系统可能难以跟上。

“考虑到过去一年对集中式数据中心建设的巨额投资,以满足对大型语言模型的旺盛需求,我预计电网的压力将会进一步增加,”他说。

Smith指出,虽然AI工作负载的增加给保持数据中心处于最佳工作温度带来更多挑战,但它也可以成为解决问题的一个良方,其中包括用AI来优化热性能管理,例如对液体冷却或气流的需求,以及对冷却系统的预测性维护。

“随着热浪的增加,AI还可以用于为实时天气和长期环境模式系统提供动力,从而可以根据外部因素自动调整能源消耗和冷却系统,”他说。

赞 ()
分享到:更多 ()

相关推荐

内容页底部广告位3
留言与评论(共有 0 条评论)
   
验证码: