中科云达-GPU服务器-深度学习集群-HPC高性能计算-超微服务器

企业如何正确选择GPU服务器！

发表时间：2020年01月17日作者：浏览次数：1720

说到显卡，估计90%以上的人都认为这就是一个游戏工具。现在高性能的显卡难道只是为游戏而生吗？目前不少公司已经认识到GPU大规模并行计算带来的优势，开始用强大的多GPU服务器进行各种方向的研究，而这些研究除了能给公司带来巨大收益外，其研究成果也开始应用在我们的日常生活中。

什么是GPU服务器？

GPU服务器是基于GPU的应用于视频编解码、深度学习、科学计算等多种场景的快速、稳定、弹性的计算服务。

GPU服务器有什么作用？

GPU 加速计算可以提供非凡的应用程序性能，能将应用程序计算密集部分的工作负载转移到 GPU，同时仍由 CPU 运行其余程序代码。从用户的角度来看，应用程序的运行速度明显加快。

如何正确选择GPU服务器?

选择GPU服务器时首先要考虑业务需求来选择适合的GPU型号。在HPC高性能计算中还需要根据精度来选择，比如有的高性能计算需要双精度，这时如果使用P40或者P4就不合适，只能使用V100或者P100；同时也会对显存容量有要求，比如石油或石化勘探类的计算应用对显存要求比较高；还有些对总线标准有要求，因此选择GPU型号要先看业务需求。

当GPU型号选定后，再考虑用什么样GPU的服务器。这时我们需要考虑以下几种情况：

第一、在边缘服务器租用上需要根据量来选择T4或者P4等相应的服务器，同时也要考虑服务器的使用场景，比如火车站卡口、机场卡口或者公安卡口等；在中心端做Inference时可能需要V100的服务器，需要考虑吞吐量以及使用场景、数量等。

第二、需要考虑客户本身使用人群和IT运维能力，对于BAT这类大公司来说，他们自己的运营能力比较强，这时会选择通用的PCI-e服务器；而对于一些IT运维能力不那么强的客户，他们更关注数字以及数据标注等，我们称这类人为数据科学家，选择GPU服务器的标准也会有所不同。

第三、需要考虑配套软件和服务的价值。

第四、要考虑整体GPU集群系统的成熟程度以及工程效率，比如像DGX这种GPU一体化的超级计算机，它有非常成熟的从底端的操作系统驱动Docker到其他部分都是固定且优化过的，这时效率就比较高。

中科云达DGX-2

解决现代 AI 和深度学习需求的扩展难题

为了应对商业应用和科学研究中最紧迫的挑战，深度神经网络在规模和复杂性上发展迅速。传统的数据中心架构已无法满足支持现代 AI 工作负载所需的计算能力。新技术如增加模型并行使用率与 GPU 之间的带宽限制相冲突，因为开发人员构建了越来越大的加速计算集群，从而限制了数据中心的规模扩展。人们需要一种新方法来提供几近无限的 AI 计算规模，以便突破障碍，加速获取可以改变世界的见解。

变不可能为可能的训练性能

日益复杂的 AI 渴求前所未有的计算水平。NVIDIA® DGX-2 ™ 是世界上第一个 2 petaFLOPS系统，配备16块极为先进的GPU，得以为先前无法训练的最新深度学习模型类型提供加速。凭借开创性的GPU 规模，您可以在单个节点训练4倍规模的模型。与传统的x86架构相比，DGX-2训练ResNet-50的性能相当于 300台配备双路英特尔至强Gold CPU服务器的性能，而后者成本超过270万美元。

NVIDIA NVSwitch - 革命性的 AI 网络结构

前沿研究要求自由地利用模型并行性，并且需要前所未有的 GPU 间带宽。NVIDIA 开发了 NVSwitch 以解决这一需求。正如从拨号上网到超高速宽带的革新，NVSwitch 把属于未来的网络结构带到了今天。有了 NVIDIA DGX-2，模型的复杂性和规模不再受传统架构限制的约束。在 DGX-2 中采用网络结构进行模型并行训练，可提供 2.4TB/ 秒的对分带宽，比前几代增加 24 倍。这种新的互连“超高速公路”为模型类型赋予了无限可能，现在用户可同时在 16 块 GPU 间进行分布式训练，强大的计算能力得以最大程度地释放出来。

更大规模的 AI

AI 现代企业需要根据业务需求迅速部署 AI ，同时还需要在不增加成本或复杂性的前提下扩展 AI 规模。我们构建了 DGX-2，并为其配备了 DGX 软件，从而实现大规模的加速部署和操作简化。DGX-2 提供的解决方案是实现扩展 AI 最快的路径，加上虚拟化支持，使您可以建立自己的企业级 AI 云。现在，企业可以在一个解决方案中充分利用不受限制的 AI 算力，这种解决方案轻松地扩展了将加速计算资源结合在一起所需的网络基础设施部分。利用加速部署模型和专门为易扩展性构建的架构，您的团队可以将更多的时间用于获取见解，而节省花费在构建基础设施的时间。

企业级 AI 基础设施

如果 AI 平台对您的业务至关重要，那么您需要考虑使用专为可靠性、可用性和可服务性 (RAS) 设计的平台。企业级的 DGX-2 专为严苛的全天候 AI 业务和RAS 而构建，可减少非计划停机时间、简化维护，及保持运行的持续性。节省调试和优化时间，增加专注于探索的时间。NVIDIA 企业级支持让您无需耗费时间对硬件和开源软件进行问题排查。借助每一个 DGX 系统，用户可利用包括软件、工具和 NVIDIA 专业知识的集成解决方案，更快地入门、训练和运行。

中科云达（北京）科技有限公司成立于2016年，公司位于北京市国际信息产业基地。公司一直致力于为广大用户提供GPU高性能计算、深度学习、虚拟化仿真、定制化服务器、工作站、存储等软硬件整体解决方案，并与多家知名技术型领先厂商如超微（Supermicro）、英特尔（Intel）、华硕（ASUS）、英伟达（NVIDIA）等建立了长期的合作关系。