中科云达-GPU服务器-深度学习集群-HPC高性能计算-超微服务器

HPC高性能计算知多少？

发表时间：2022年11月10日作者：浏览次数：498

HPC是高性能计算(High Performance Computing)机群的简称。构建高性能计算系统的主要目的就是提高运算速度，要达到每秒万亿次级的计算速度，对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求都十分高，这其中的每一个环节都将直接影响到系统的运算速度。这类机群主要解决大规模科学问题的计算和海量数据的处理，如科学研究、气象预报、计算模拟、军事研究、能源开采、CFD/CAE、生物制药、基因测序、图像处理、智能制造、自动驾驶、元宇宙等等。

HPC的工作原理

在高性能计算中，处理信息的两种主要方式为：

串行处理，由中央处理器 (CPU) 完成。每个 CPU 核心通常每次只能处理一个任务。CPU 对于运行各种功能而言至关重要，如操作系统和基本应用程序（如文字处理、办公生产力工具等，也就是一般家用及办公电脑PC笔记本）。

并行处理，可利用多个 CPU 或图形处理器 (GPU) 完成。GPU 最初是专为图形处理而设计的。它可在数据矩阵（如屏幕像素）中同时执行多种算术运算。同时在多个数据平面上工作的能力使 GPU 非常适合在机器学习 (ML) 应用任务中进行并行处理，如识别视频中的物体。（也就是多台服务器一起并行处理）

突破超级计算的极限需要不同的系统架构。大多数高性能计算系统通过超高带宽将多个处理器和内存模块互连并聚合，从而实现并行处理。一些高性能计算系统将 CPU 和 GPU 结合在一起，被称为异构计算。

为什么要做高性能计算？

从系统的角度：集成系统资源，以满足不断增长的对性能和功能的要求

从应用的角度：适当分解应用，以实现更大规模或更细致的计算

解决问题：科学和工程问题的数值模拟与仿真（计算密集、数据密集、网络密集、三种混合）。

HPC关键技术

1、系统架构（System Architecture）

可以看到在系统架构层面，88.40%是Cluster这种集群的形式，另外的11.60%是MMP的形式。

MPP—是比较紧耦合的，比如说它一台服务器，它可以通过借助其他的CPU来做并行处理。节点数一般大于100以上

Cluster—比较松耦合，比如说这种架构的每个节点都有自己独立的CPU、内存、硬盘等等。节点数一般100以下

2、处理器CPU（Processor）

在HPC场景下，主流的还是x86架构，intel占很大市场份额，KunPeng也支持HPC，份额较少，AMD在近几年发展很快，单CPU的核心数多，处理能力较强，逐渐被市场认可。

3、操作系统（OS）

可以看到Linux占了全部，而没有Windows。因为我们说Linux的稳定性更强，而服务器的稳定性至关重要。

4、计算加速（Computing acceleration)

传统情况下，CPU算力不足以应对复杂场景，所以我们可以通过CPU+GPU或者FPGA的一些方式来增强算力。图中72.4%是CPU，27.6%则是CPU+GPU，借助图形处理器来提升算力。

5、网络部分（interconnect network）

由于每个节点之间需要相互通信，任务的协同处理，所以离不开网络设备，并且对网络的时延、带宽提出了很高的要求。目前50.4%是以太网，27%是IB网络，剩下还有一些其他的网络技术。