数据中心--生成式人工智能如何改变数据中心的要求--其乐融融的IT技术小站

什么是数据中心，我们如何使用它?更具体地说，数据中心有哪些不同类型，它们为使用它们的企业提供哪些不同的用途?

这些问题看似简单，但要得出令人满意的答案却出人意料地困难。就在过去一年左右的时间里，我们看到越来越强大的大型语言模型(LLM)正在支持新的生成式人工智能用例，这些用例在不久前看起来还像是科幻小说。从那时起，许多企业纷纷制定人工智能战略，以确保他们充分利用这项强大的新技术的潜力。然而，由于过于关注他们可以利用人工智能做什么，许多企业却迟迟没有思考如何利用人工智能他们应该这样做，具体来说，这将如何改变数据中心的需求。

借助人工智能，传统的数据中心分割不再适用

多年来，我们一直在区分数据中心行业的两大细分市场。一方面，通用托管数据中心承载着企业不再希望在其本地位置保留的工作负载。另一方面，高价值、高度互联的站点通常位于人口稠密的地区。这些网络密集的互连站点构成了生态系统的核心，例如金融交易、游戏或高度依赖低延迟连接的任何其他生态系统。当我们尝试决定将人工智能工作负载放在哪里时，这种细分仍然对我们有用吗?

当企业考虑托管数据中心时，因为他们正在从本地数据中心“提升和转移”现有的应用工作负载，决策通常以成本和效率为中心。由于他们的主要关注点是实现每个计算周期的最低成本，因此他们可能准备在网络密度与提供最低房地产和电力成本的位置之间进行权衡。

我们一直认为，这种一心一意地关注成本对于数字业务来说会适得其反。能够在某些地点执行某些工作负载是有价值的;在许多情况下，这意味着在主要人口中心的网络密集地点附近部署基础设施。为合作伙伴和终端用户提供密集互连的数据中心可能会花费更多的前期成本，但它们可以提供的商业价值足以弥补这一点。

如今，将数据中心视为一种简单的商品可能特别有害，这在很大程度上是由于人工智能的重要性日益增加。一个不争的事实是，如果想做好人工智能，基础设施的定位很重要。人工智能模型生命周期依赖于具有不同基础设施要求的不同工作负载。这意味着人工智能基础设施应该是分布式的，这一事实可能迫使我们重新评估我们看待数据中心市场不同领域的方式。

了解人工智能时代的数据中心细分

让我们考虑如何应用人工智能要求来实现更复杂的分割策略，而不是仅基于网络密度的传统两段方法。人工智能对于数据中心的不同之处在于新一代GPU芯片组带来的令人难以置信的功率密度要求。人工智能与数据中心的不同之处在于，新一代GPU芯片组对功率密度的要求令人难以置信。如果我们将功率密度作为第二个分割维度，我们最终得到一个简单的2×2矩阵，垂直轴从低密度到高密度，而水平轴从高延迟到低延迟。

无差异化的数据中心

世界上很大一部分数据中心可以最好地归类为无差异化的。这些数据中心往往是过去基础设施投资策略的产物。与在网络密集的位置构建数据中心不同，企业通常选择在其大部分员工居住的位置(例如校园)构建数据中心。同样，服务提供商将办公楼或仓库转换为数据中心，将从未用于此目的的房地产转换为IT房地产。

虽然这些数据中心可以为一组给定的工作负载提供适合用途的功能，但如果新工作负载的功率密度要求急剧增加，会发生什么情况?升级站点以获得更多冷却和电力或采用液体冷却等新冷却技术有多容易?在人工智能战略中依赖这些无差异化数据中心的企业可能会难以有效执行这些战略。

超大规模数据中心

当需要非常高的密度，但不太关心低延迟互连时，那么超大规模数据中心是您的正确选择。这些传统上是主要云和即服务提供商的领域。企业无需自行构建或部署新的高密度设备来支持其人工智能战略，而是可以按即用即付的方式获取这些超大规模数据中心之一的容量。

从人工智能的角度来看，超大规模数据中心传统上与LLM培训工作负载相关，这些工作负载通常非常密集和计算密集型，但对延迟不太敏感。然而，如果说所有模型训练工作负载都应该专门进入超大规模数据中心，那就是错误的。正如我们稍后将看到的，在为人工智能工作负载选择正确的位置时，始终应该考虑到细微差别。

边缘数据中心

顾名思义，边缘数据中心部署在数字边缘：靠近终端用户高度集中的位置、应用和设备。这种接近性很重要，因为有许多应用和工作负载需要始终保持低延迟。

实际上，边缘数据中心的功率密度需求并没有像其他领域那样快速增长。部署在边缘数据中心的工作负载通常是网络繁重的工作负载，其密度密集程度低于计算工作负载。

在人工智能方面，边缘数据中心可以发挥作用。某些人工智能推理工作负载也可能具有非常低的延迟要求。考虑某些游戏用例或部署数字孪生来支持虚拟维护助手。在这些情况下，企业可能会选择将人工智能推理部署到其边缘数据中心。在其他情况下，如果延迟容忍度足够，企业可能会选择将其人工智能推理需求聚合到其核心互连中心，这使他们能够大规模管理这些模型。

随着企业开始推出人工智能战略，他们意识到保持数据源和处理位置之间距离较短的重要性。如果这两个位置之间不接近，延迟将不可避免地导致延迟。这意味着隐藏在数据集中的洞察力将变得过时，这反过来又意味着人工智能模型的准确性将受到影响。

核心数据中心

核心数据中心代表了现代数字基础设施的基础。它们通常位于网络密度和距离为技术消费者和技术提供商提供互连和最大化双方业务价值的最佳机会的位置。从互连的核心数据中心开始，企业可以构建其全球分布式数字基础设施，以实现完整的边缘到云方法。因此，他们可以简化连接，最大限度地提高灵活性，并为利用人工智能等新兴技术做好准备。

就人工智能而言，核心数据中心可能不是最有可能放置大规模语言模型进行训练的位置。这种情况更有可能发生在超大规模站点中，其中每个计算周期以一定的成本提供高功率密度。在人工智能推理方面，核心数据中心因其靠近其他数据源以及为用户、设备和应用提供的低延迟访问而成为关键位置。

并非所有训练工作负载都大到足以最终进入超大规模设施。许多推理工作负载可能对延迟不够敏感，无法最终出现在边缘位置。我们预计成熟的买家会在超大规模和核心地点之间根据他们的培训要求进行权衡。同样，他们将根据推理工作负载在边缘和核心位置之间进行权衡。

除了简单的训练/推理二进制之外，核心数据中心应该成为任何人工智能基础设施战略的重要组成部分还有多种原因。随着许多企业希望在分布式位置之间快速移动人工智能数据集，拥有正确的网络基础设施变得前所未有的重要。核心数据中心可以轻松访问网络服务提供商的密集生态系统，这意味着它们可以为追求网络现代化计划的企业提供理想的基础。

核心数据中心还可以帮助企业建立云邻近数据架构以支持其人工智能工作负载。其中许多企业都希望使用公共云服务来帮助其人工智能工作负载提供可扩展性、灵活性和可靠性。然而，如果他们不小心，使用公共云进行人工智能可能会导致成本高昂、安全漏洞和数据失控等问题。

与云相邻的数据架构允许在低延迟的云上移动数据，从而能够按需利用公共云服务，而不会承担全部使用公共云的风险和缺点。