人工智能首页 > AI资讯 > 正文

人工智能基础设施已经有太多的选择,因此很难直接为企业找到最佳的解决方案

2019-08-19 阅读888次

  比以往任何时候都更重要的是,对于每个新的 数据中心 工作负载,IT组织必须回答的问题是在哪里运行。如今,最新的企业计算工作负载是机器学习(或 人工智能 )的变体,无论是深度学习模型培训还是推理(使用经过培训的模型),人工智能 基础设施 已经有太多的选择,因此很难直接为企业找到最佳的解决方案。

  市场上有各种各样的人工智能硬件选项,广泛且快速增长的人工智能云服务范围,以及用于托管人工智能硬件的各种数据中心选项。Nvidia公司是机器学习基础设施生态系统中最重要的一家公司,它不仅为全球的人工智能工作负载(Nvidia GPU)销售和生产大多数处理器,它还构建了大量运行在这些芯片上的软件,并销售自己的人工智能超级计算机。

人工智能基础设施已经有太多的选择,因此很难直接为企业找到最佳的解决方案

  行业媒体Datacenter Knowledge(DCK)与Nvidia公司的DGX人工智能超级计算机高级营销总监Charlie Boyle一起探讨了人工智能硬件发展和人工智能基础设施的发展趋势。以下是采访内容:

  DCK:企业如何决定是将云计算服务用于其机器学习还是购买自己的人工智能硬件采用机器学习?

  Charlie Boyle:我们的大多数客户都使用内部部署和云计算的组合。我们看到的最大动态是数据所在位置决定处理它的位置。在人工智能环境中,需要处理大量数据才能得到结果。如果所有这些数据都已经存在于企业数据中心中(企业可能收集了10~30年的历史数据),那么希望将处理过程尽可能接近企业所在的位置。因此,它有利于内部部署系统。如果是一家业务从云端起步的公司,并且其所有客户数据都在云端,那么最好在云平台中处理这些数据。

  DCK:是因为很难将大量数据移入和移出云端吗?

  Charlie Boyle:这还取决于企业如何生成数据。大多数企业的数据都是动态的,因此总是会添加数据,因此,如果他们在系统中收集所有数据,那么他们就更容易继续在内部处理它们。如果他们将大量数据聚合到云服务中,那么他们就会在云平台上处理它。

  这适用于生产用例。许多实验性用例可以从云端开始,企业只需启动浏览器即可访问人工智能基础设施,但随着他们转向生产,企业就可以做出本地决策、财务决策、安全决策,以及是否更好地在内部部署或在云平台上处理它。

  Nvidia公司的客户通常在内部进行一些人工智能模型培训,因为这是他们的历史数据所在。他们构建了一个很好的模型,但是该模型随后由他们的在线服务提供服务——他们在云中基于他们在内部部署构建的模型进行的推理。

  DCK:对于那些在自己的内部部署或托管数据中心运行人工智能工作负载的企业,考虑到机架的功率密度越来越高,您认为他们将采用哪种冷却方法?

  Charlie Boyle:数据中心采用液体冷却还是空气冷却始终是一个热门的争论话题,我们一直在研究这个问题。一般来说,数据中心运行大量服务器机架,有的多达50个,采用传统的空气冷却设施效果良好。当运行更高功率密度的机架时,例如机架的功率为30千瓦~50千瓦,通常采用水冷式热交换器进行冷却,这就是在数据中心实施的最新冷却措施,因为这样数据中心就不会改造冷却系统本身的管道。

  现在,我们的一些OEM合作伙伴也基于我们的GPU构建可以直接冷却芯片的水冷系统,一些企业希望构建一个超级密集的计算基础设施,他们将会提前部署冷却基础设施。但是,通过我们与大多数托管服务提供商的合作,发现只有水冷系统才能更好地支持高功率密度的机架运行。

  直接冷却芯片更像是一个运营问题。我们的技术现在可以做到,但如何为它提供服务呢?对于正常运营的企业来说,这将是一个学习曲线。

  DCK:NVIDIA DGX系统和其他GPU驱动的人工智能硬件如此密集,以至于无法采用空气冷却进行冷却吗?

  Charlie Boyle:我们所有系统都可以采用空气冷却和液体冷却技术。主要是因为我看到大多数客户都在采用这些方法。在我们对于功率密度的处理并不是固有的方法,因为在可预见的将来,我们不能实施空气冷却或混合冷却技术,这主要是因为大多数客户会受到机架功率的限制。

  现在,我们正在运行30~40kW的机架。当然也可以运行100kW和200kW的机架,但现在没有人愿意部署这样功率密度的机架。那么可以采用液体冷却吗?也许,但它确实是每个客户最有效的选择。我们看到客户采用混合体冷却方式,他们正在回收废热。我们将继续关注这一点,继续与在这些公司合作,看看他们的方法是否具有意义。

  我们的工作站产品DGX station采用的是一种内部闭环水冷技术。但是在数据中心基础设施的服务器端,大多数客户还没有采用。

  DCK:大多数企业数据中心甚至不能冷却30kW和40kW机架。这是DGX产品销售的障碍吗?

  Charlie Boyle:这并没有障碍,而是一个对话点,这也是我们宣布DGX就绪计划第二阶段的原因。如果只是谈论安装这样的机架,任何数据中心都可以支持,但是当数据中心安装了50~100个这样的机架时,那么企业需要重新建设数据中心或者寻求托管数据中心服务商的帮助。

  这就是为什么我们试图消除DGX产品销售阻碍的原因,通过与这些托管数据中心服务商合作,让我们的数据中心团队对他们进行尽职调查,以便他们拥有更高的功率密度,并且需要实施液体冷却,所以客户可能需要部署50个DGX-2超级计算机的空间,数据中心提供商已经有了这些数据,然后向我们订购。

  当我们三年前推出这些产品时,有些客户购买几套产品时,他们会提出如何大规模购买和安装的问题,我们的一些客户选择建造新的数据中心基础设施,而另一些客户则向我们寻求有关托管数据中心服务商的建议。我们为此构建了DGX就绪数据中心计划,以便客户不必为此等待。

  即使对于拥有强大数据中心设施的客户,他们也多次向我们公司购买一些30kW的机架。或者客户可以与我们的托管数据中心合作伙伴进行合作,可以更快地获得服务和产品。

  DCK:您是否看到客户选择托管数据中心服务商,即使他们拥有自己的数据中心空间?

  Charlie Boyle:由于人工智能设备对大多数客户来说通常是一种新的工作负载,因此他们不会试图采用现有的基础设施,可以为此建设或购买新的基础设施,所以对于他们来说,部署在他们的数据中心或者托管数据中心,这并不重要——只要经济有效,并且可以很快完成工作。这是大多数人工智能项目中的一个重要组成部分:他们想快速展示成功。

  即使是Nvidia公司,我们在总部(位于加利福尼亚州圣克拉拉)附近采用多个数据中心供应商提供的服务,因为我们有办公空间,但没有数据中心。幸运的是,在硅谷,我们周围有很多优秀的供应商。

  DCK:Nvidia公司正在推广DGX作为人工智能的超级计算机。其架构与传统高性能计算(HPC)工作负载的超级计算机有什么不同吗?

  Charlie Boyle:大约五年前,人们看到高性能计算(HPC)和人工智能系统之间存在非常明显的差异,但是现在,这二者很多功能已经合并。以前,每个人都认为超级计算机是64位、双精度。而人工智能工作负载主要是32位或16位混合。而这两种技术应用在两个不同的场合。

  人们现在看到的是一个典型的超级计算机会在很多节点上运行一个问题,而在人工智能工作负载中正在做同样的事情。MLPerf(人工智能硬件性能基准测试版)刚刚发布,大量节点只完成一项工作。人工智能和高性能计算之间的工作量实际上非常相似。使用我们最新的GPU,可以提供传统的高性能计算双精度,人工智能为32位精度,并加速人工智能混合精度。

  传统的超级计算中心现在都在采用人工智能技,可能已经建立了超级计算机,但他们都在同一个系统上运行超级计算机任务和人工智能工作负载。


随意打赏