中科云达-GPU服务器-深度学习集群-HPC高性能计算-超微服务器

AI认知思维三级跳：GPU只在初级！

发表时间：2020年02月12日作者：浏览次数：1644

Gartner观点是“企业有巨大的机会利用人工智能（AI）来重塑业务”。不过，AI的复兴给企业带来的是一个硬币的两面。

机遇是，有了AI和深度学习就意味着企业能够利用数据揭示更深层次的洞见，衍生出可执行的智能，从而获得竞争优势，经济效益和社会效益日益凸显。

挑战是，强大的计算能力、高效的算法和丰富的数据，要求的是真正能够发挥AI潜力的计算平台。比如，AI训练模型的质量取决于训练数据的规模和精度，也就是说，处理的数据越多，模型才越精确。

显然，AI不仅需要大热的GPU、FPGA等专业处理器，已经到了该考虑AI计算平台整体效能的时候了。不仅如此，AI还能给数据中心带来巨大好处，看来，AI认知思维需要三级跳。

AI与数据中心

是的，AI时代连最基本的IT基础设施也必须重新设计——AI工作负载是数据驱动的工作负载，要求新的硬件、软件范式和基础设施。

这对于服务器企业来说，其实蕴藏着巨大商机。在CPU同质化、服务器同质化了相当长一段时间后，因AI而大火的GPU重燃了服务器企业的新赛道希望。

IDC公布中国AI基础设施架构市场调查报告，报告显示，中国AI服务器整体销售额5.68亿美元，出货量27863台。

在近日举行的NVIDIA人工智能平台研讨会上，将AI看作未来服务器的新增长方向，对于它来说，既有HPE的技术，也有自身研发的产品，既有全球和英伟达GPU的合作，也有从整体AI计算平台甚至数据中心角度来整体认识AI的方法论。

在最早应用AI的互联网行业中，图像识别和语音识别已是主流，用户行为分析、精准营销和消息推送逐渐兴起，业务建模、智能分析和安全评估正在试水。在传统行业中，AI应用刚刚起步，空间巨大。

首先，一个多数人没有考虑到的AI好处就是——除了充分利用数据这一新的生产力之外，用好AI还能为数据中心带来多种附加好处。

一是节约能源。根据Queensway Par Data Centres的数据，在美国，数据中心的能源消耗预计将达到2000亿千瓦时，花费达200亿美元。要遏制进一步增长，使设施更有效率，AI可以派上用场，神经网络可以管理传感器数据，优化冷却方法。

二是减少宕机时间。Ponemon Institute估算，每次宕机，数据中心的损失是75万美元，而且停机的不良影响远不止这些。HPE的预测性分析平台InfoSight能够利用机器学习预测和防止基础架构问题的发生。

三是更加安全。物理上，AI传感器也可以用于监控阀门和入侵。网络中，AI软件将能够更快地发现威胁并采取预防行动的潜在漏洞。

2.AI与GPU集群优化

在AI为导向的基础设施中，最基础的是GPU集群，它由GPU服务器、存储+网络、系统软件三个部分组成。谁在这三个部分占据综合优势，谁才能说自己有能力提供足够优化的AI基础设施。

为此，推出了衡量GPU集群系统优化的标准——GPU集群系统的效率，即在系统满负载地运行数据时，GPU的利用率有多高。AI计算平台涵盖了GPU服务器、存储和网络以及系统软件三个部分。这种整体考虑计算平台的方法论正在得到认同，毕竟如果集群优化没有做好，再高端的服务器也无法提升应用性能。

比如，中科云达针对训练学习的核心GPU服务器有两类，中科云达5200GPU服务器和HPE Appllo 6500。

5200GPU服务器针对CPU和GPU之间的通信，基于PCIe3.0进行了优化设计，兼顾了GPU通信的高带宽和低延迟要求；4U机箱可以扩展10个双宽GPU、20个单宽GPU，扩展性突出。

HPE Applo 6500同样是面向AI的平台，它最突出的优势是CPU和GPU之间的链路设计堪称业界最领先：支持Nvlink2.0高速互联；在PCIe3.0架构下，配备了4个PCIe链路，让高带宽应用如鱼得水。

在网络的配备上，随着模型和框架的发展，规模会越来越大，复杂度会越来越高，多机并行会日益普遍，网络压力越早考虑越好，中科云达选择了100GB计算网络和互为冗余的万兆管理网络。

尽管分布式存储在互联网行业应用较多，但考虑到其在写方面的不足，中科云达采用了读/写性能均衡和实时性强的并行存储——在学习和训练这些读/写场景都比较多的用例中，并行存储优势明显。

而系统软件主要包括两个方面：一是开发工具和编译环境。中科云达的产品可以在系统安装的时候按照用户的要求进行编译环境的支持服务；二是硬件维持和管理软件，CMU集群管理平台可以监控整个集群的GPU利用率。

3.互联网依旧是AI前沿阵地

不可否认，互联网依然是最先大规模应用AI的领域。

IDC报告显示，中国AI服务器市场中，互联网运营商是AI发展的力量主体，采购额达到4.07亿美元，占整体市场的71.7%。

比如在语音识别和图像识别领域的150层神经网络复杂模型，计算量庞大，很多客户都选用了Applo 6500和100G网络做主要支撑平台，目前节点规模已经超过100个，如在京东、腾讯、搜狗等企业中也在大规模应用GPU服务器。

不过，如何从互联网拓展到传统行业才有更大空间。关键是由此总结出的AI模型生产线，自动化地完成数据采集和格式化，通过算法库建模、优化、搜索，发布模型评估等整个过程。

在实现全过程的自动化上，封装常用的计算环境和开发环境，几分钟就可启动；为开发者提供大量的语音环境和并行计算库，以服务目录的形式让开发者可以直接操作；在深度学习、AI领域提供很多辅助功能，包括模型优化、减少训练次数和资源占用、自动网络设计、在线蒸馏和模型剪裁；自动缩减，在推理和服务器端实现不同的处理；为多机多卡和单机提供不同的网络环境，精度查看GPU利用率。

有了AI认知思维的三级跳，还需要总结一套应用方法论，恐怕任何企业在创新领域前行都得做到思维领先，方法落地。

中科云达（北京）科技有限公司成立于2016年，公司位于北京市国际信息产业基地。公司一直致力于为广大用户提供GPU高性能计算、深度学习、虚拟化仿真、定制化服务器、工作站、存储等软硬件整体解决方案，并与多家知名技术型领先厂商如超微（Supermicro）、英特尔（Intel）、华硕（ASUS）、英伟达（NVIDIA）等建立了长期的合作关系。