HPC是高性能计算(High Performance Computing)机群的简称。构建高性能计算系统的主要目的就是提高运算速度,要达到每秒万亿次级的计算速度,对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求都十分高,这其中的每一个环节都将直接影响到系统的运算速度。这类机群主要解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、能源开采、CFD/CAE、生物制药、基因测序、图像处理、智能制造、自动驾驶、元宇宙等等。
HPC的工作原理
并行处理,可利用多个 CPU 或图形处理器 (GPU) 完成。GPU 最初是专为图形处理而设计的。它可在数据矩阵(如屏幕像素)中同时执行多种算术运算。同时在多个数据平面上工作的能力使 GPU 非常适合在机器学习 (ML) 应用任务中进行并行处理,如识别视频中的物体。(也就是多台服务器一起并行处理)
突破超级计算的极限需要不同的系统架构。大多数高性能计算系统通过超高带宽将多个处理器和内存模块互连并聚合,从而实现并行处理。一些高性能计算系统将 CPU 和 GPU 结合在一起,被称为异构计算。
为什么要做高性能计算?
HPC关键技术
1、系统架构(System Architecture)
可以看到在系统架构层面,88.40%是Cluster这种集群的形式,另外的11.60%是MMP的形式。
MPP—是比较紧耦合的,比如说它一台服务器,它可以通过借助其他的CPU来做并行处理。节点数一般大于100以上
Cluster—比较松耦合,比如说这种架构的每个节点都有自己独立的CPU、内存、硬盘等等。节点数一般100以下
2、处理器CPU(Processor)
在HPC场景下,主流的还是x86架构,intel占很大市场份额 ,KunPeng也支持HPC,份额较少,AMD在近几年发展很快,单CPU的核心数多,处理能力较强,逐渐被市场认可。
3、操作系统(OS)
可以看到Linux占了全部,而没有Windows。因为我们说Linux的稳定性更强,而服务器的稳定性至关重要。
4、计算加速(Computing acceleration)
传统情况下,CPU算力不足以应对复杂场景,所以我们可以通过CPU+GPU或者FPGA的一些方式来增强算力。图中72.4%是CPU,27.6%则是CPU+GPU,借助图形处理器来提升算力。
5、网络部分(interconnect network)