其乐融融的IT技术小站

AI和HPC推动对更高密度的数据中心、新的即服务产品的需求

AI和HPC的电力和冷却需求需要专业知识和能力,运营和工程也需要具备专业知识。

正如数据中心发现自己需要处理电力、空间和可持续发展等新问题一样,最新的尖端技术、AI和机器学习给所有这些问题带来了挑战。

这并不是说必须面对的这些问题是新的,而是AI的采用正在以前所未有的速度发生。在一年左右的时间内,托管提供商将需要进行调整,以应对企业对高密度数据中心的新的、更大的需求。

那么,这实际上意味着什么呢?似乎不太可能有一大批客户投资数百万美元购买AI专用硬件,敲响托管提供商的大门,那么数据中心需要提供什么呢?

电力和冷却优先

在基础设施方面,电力和冷却的可用性将是客户首先寻求的。但是,提供商是否需要能够支持整个数据大厅的NVIDIA H100规模的GPU,或者更有可能的是,具有4或8个GPU服务器和适当存储的单个机架就是所需的全部?

当然,对于相对简单的单一AI服务器部署,单机架解决方案可能需要支持50kW或更多。正如我们最近指出的,处理这种工作负载的技术已经在许多设施中到位,但它只是将AI部署到主机托管中的一个起点。

对于提供商和客户来说,现在和未来的中期解决方案是AI即服务解决方案。

换句话说,托管客户大规模AI部署的市场正开始推动需求,因为似乎每个人都有兴趣涉足其中。这意味着,拥有各自云的微软、谷歌、亚马逊甚至甲骨文都将看到客户希望使用其按需配置来测试、评估并潜在地部署云AI服务。

谁将推动这一需求?

但进入提供AI云服务的不仅仅是顶级参与者。在最近的Computex 2023大会上,英伟达特别强调了他们的云合作伙伴,除了四大之外。

Cirrascale就是一个这样的例子,他们最初是作为HPC按需计算的提供商而成名的。他们现在提供他们的AI创新云,该云利用支持基础设施为客户提供评估AI/ML系统的机会。他们对AI托管的承诺反映在客户可供选择的方面。

客户不仅可以选择使用前几代和当前几代NVIDIA AI硬件,该公司还可以托管他们的GraphCloud,利用Graphcore的BOW IPU;Cerebras的AI Model Studio在他们托管的Cerabras云上运行;以及SambaNova的数据流即服务和基础模型。

这是四种领先的加速AI/ML技术,它们不是Google或AWS,这两家公司除了自己的内部设计外,还提供Nvida GPU。Cirrascale也可能是这些相互竞争的技术的唯一来源,在某些情况下,还提供互补技术,甚至在他们的云中提供不同技术的公开定价模型。

Lambda Labs采取了一种略有不同的方法,他们提供五种不同级别的基于Nvidia的托管服务,以及为你的ML硬件和软件堆栈设计的全面托管服务。它们提供专为GPU计算工作负载设计的高密度电源和冷却。此外,他们还可以在你的数据中心或其数据中心内部提供其设计的GPU群集。

NVIDIA强调的其他供应商包括Coreweave、Paperspace和Vultr。所有这些提供商的共同点是,它们都是专门的云服务提供商,拥有多个数据中心,并专注于支持AI/ML工作负载。有些公司的目光超越了他们的AI重点,提供了更标准化的云数据中心选项,例如全方位的存储、托管数据库、Kubernetes和裸机部署。

这让我们对主机代管的未来有了一些了解。随着新设施的建设和现有空间的翻新,为高密度计算开发必要的支持基础设施,无论是提供带有被动后门冷却的机架,还是配备用于部署液体冷却IT工作负载设备的完整数据大厅,或者介于两者之间的任何东西,都需要引起人们的注意。

它将成为行业的驱动力

虽然并不是每个数据中心都需要配备设备来运行最密集的AI工作负载,但当前的趋势是,仅宝贵的数据中心位置的空间就非常宝贵,这意味着构建更高密度的机架解决方案是通向未来的唯一途径。

这并不意味着每个数据中心都需要按照Colovore设施的方式来建设,Colovore设施提供每个机架35千瓦的标准密度,并谈到了构建超过200 kW机架的能力(这个数字似乎过高,除非你看看AI/ML工作负载专用硬件的电力需求)。但这确实意味着,尤其是在空间有限的地方,数据中心将需要标准化,以支持显著更高的电力和冷却需求。

对现有设施来说,幸运的是,冷却技术的进步并不需要对现有的冷却基础设施进行大规模的拆卸和更换。有足够广泛的冷却技术可以实现经济高效的按需升级,新的机架设计、被动和液体冷却技术以及从机架扩展到整个数据中心的解决方案近在咫尺。

作为这些技术的一个极好的例子,在2023年8月的第一周,Digital Realty宣布其在28个市场的代管设施将开始支持高达70kW的机架密度。该公司正在使用所谓的空气辅助液体冷却技术来实现这一点,该技术通过在现有的代管设施中引入液体冷却后门热交换器来实现。

对高密度托管的支持不是在未来,而是现在。找到可伸缩性良好的解决方案将是许多提供商的目标。随着客户开始了解高性能计算和AI解决方案将为他们的业务带来的价值,推动这些变化的业务正在迅速增长。

赞 ()
分享到:更多 ()

相关推荐

内容页底部广告位3
留言与评论(共有 0 条评论)
   
验证码: