托管数据中心的标准结构是拥有数十个甚至数百个客户同时运行不同的应用。但英伟达提供了对一种新型数据中心的洞察,该数据中心运行的应用,而且只有一个客户在使用它。
“人工智能工厂”的出现
这是一种新型的数据中心,这种新型的数据中心与过去的数据中心不同,过去的数据中心有很多应用运行,由很多不同的租户使用相同的基础设施”。
这些新的数据中心托管很少的应用,基本上由一个租户使用,它处理数据,训练模型,然后生成令牌并生成人工智能。我们将这些新数据中心称为“人工智能工厂”。
我们看到人工智能工厂随处可见。我的猜测是,几乎每个主要地区都会有,每个主要国家肯定都会有自己的人工智能云。因此,我们正处于这种拐点、这种计算转型的开始。
这种趋势目前正在印度、瑞典、日本和法国发生。人工智能要想真正有效,就必须符合语言和文化标准。日本的人工智能需求与瑞典的需求不同。这就是为什么人工智能数据中心和单租户人工智能工厂仅限于个别国家。
评估部署人工智能的规模
Amazon和Google等大型云服务提供商以及Equinix等主要主机托管提供商的数据中心往往非常庞大,有一个足球场那么大。考虑到NvidiaHopper处理器的巨大功耗,这些人工智能工厂的规模将与麦当劳相当。
典型的数据中心机架功率预算在6kW至8kW范围内,但如果希望部署针对运行LLM而优化的服务器,则单个服务器消耗约11KW的功率,这相当于大约14台通用服务器的平均功耗。
在这种情况下,在典型的数据中心中只能运行有限数量的GPU服务器,例如DGXH100,如果你有一个1MW的数据中心,可以在里面部署大约50台DGXH100服务器。要将人工智能大规模部署到大量并发用户,将需要大型此类服务器集群。这意味着典型的数据中心只能满足有限数量的客户的需求,而且很可能只能满足单个客户的需求。
人工智能工厂的未来
对于人工智能工厂等单一用途GPU环境来说,最具成本效益的设计将是专门为更高密度和液体冷却而设计的专用数据中心,并且位置最适合人工智能企业。
人工智能集群的功耗将成为数据中心拥有大量服务器的限制因素,而且其中一些数据中心很可能专门用于人工智能。围绕人工智能的安全和监管框架也可能推动这一趋势。生成式人工智能和通用人工智能的发展引发了一些安全和合规性问题,因此企业可能会决定从高度安全的专用设施运行此类工作负载。
人工智能工厂与数据中心
由于人工智能功率密度是传统数据中心的五到十倍,人工智能工厂的规模不会达到传统数据中心的大小,传统数据中心的面积已超过一百万平方英尺。
传统数据中心和人工智能工厂之间的另一个区别是它们的位置。巨型数据中心往往建在可再生能源旁边的偏远地区,而人工智能工厂则可以建在市中心或大城市地区以及拥有大量可用电力的现有设施中。
目前,有大量办公和零售空间未得到充分利用,变得非常非常有吸引力的是一座废弃的建筑或未充分利用的城市空间,或者是一个偏僻的旧仓库的一部分,它们已经拥有电力,可以在其中放下一些人工智能设备,一些液体冷却并插入电源去。
尽管无法预测数据中心行业的未来,但人工智能的快速增长暗示,随着数字基础设施运营商争先恐后地满足不断增长的需求,人工智能工厂可能很快就会成为必需品。