高性能计算(HPC)/AI涵盖并行处理的高级计算,范围涵盖了广泛的科学领域,例如在气象学、天文学和地震学等领域,需要模拟大气层和海洋的运动,进行动力学的研究在人工智能领域需要进行深度学习、大规模数据分析和机器学习等等,高性能模拟需要高效的计算平台,给定模拟的执行时间取决于许多因素,例如CPU/GPU内核的数量机及其利用率以及互联性能、效率和可扩展性。高效的HPC系统通常有数千个、数万个甚至数十万个计算节点组成,每个计算节点都配备有高速处理器、大容量内存和高速网络连接等硬件设备。
网络拓扑
Fat-tree拓扑是一种多根树形网络,是HPC/AI中使用广泛的网络拓扑。HPC /AI集群中使用广泛的拓扑是使用fat-tree的拓扑。当配置为无阻塞网络时,此拓扑通常可以大规模实现性能。在可以容忍网络收敛比的情况下,也可以将集群配置为阻塞配置。
Fat-tree实现无阻塞网络的技术,它可以使用大量低性能的交换机,构建出大规模的无阻塞网络,fat-tree集群通常对所有链路使用相同的带宽,并且在大多数情况下,它在所有交换机中使用相同数量的端口。
设计Fat-tree集群时必须遵守以下规则:
无阻塞集群必须是均衡的。相同数量的链路必须将 Level-2 (L2) 交换机连接到每个 Level-1 (L1) 交换机。是否可以采用收敛比取决于 HPC 应用程序和网络要求。
如果 L2 交换机是导向交换机(即带有Leaf板和spine板的交换机),则所有 L1 交换机到 L2 交换机的链路必须均匀分布在Leaf-spine之间。例如,如果在 L1 和 L2 交换机之间运行 6 条链路,它可以以 1:1:1:1:1:1、2:2:2、3:3 或 6 的形式分配给Leaf板卡。它不可以混合,例如 4:2、5:1。
不要创建必须向上、向后、然后再次向上遍历树的路线。这会产生一种称为Credit Loops的情况,并且可以表现为集群中的流量死锁。一般来说,没有办法避免Credit Loops。任何具有多个导向器和边缘交换机的胖树都有物理循环,可以通过使用路由算法(如 up-down)来避免这些循环。
尝试始终使用 32(NDR)/40(HDR) 端口交换机作为 L1 和导向交换机作为 L2。如果这个原则无法实现,请咨询旺德睿(电话:025-86595105 15895983233 网址:http://www.njwdr.com/)以确保正在设计的集群不包含Credit Loops。
CLOS-3 拓扑(非阻塞)
使用 1U QM8700 交换机

使用 1U QM8700 交换机或 CS8500 模块化交换机。


计算每秒浮点运算(FLOPS)中节点性能的公式如下:
以 FLOPS 为单位的节点性能 =(以 Hz 为单位的 CPU 速度)x(CPU 内核数量)x(每个周期的 CPU 指令)x(每个节点的 CPU 数量)
例如,对于基于 Intel E5-2690(2.9GHz 8 核)CPU 的 Intel 双 CPU 服务器:
2.9 x 8 x 8 x 2 = 371.2 GFLOPS(每台服务器)。
注:E5-2600 系列 CPU 的每周期指令数等于 8。
要计算集群性能,请将结果数乘以 HPC 系统中的节点数以获得理论峰值。一个 72 节点的胖树(使用 6 个交换机)集群具有:
371.2GFLOPS x 72(节点)= 26,726GFLOPS = ~27TFLOPS
一个 648 节点的胖树(使用 54 个交换机)集群具有:
371.2GFLOPS x 648(节点)= 240,537GFLOPS = ~241TFLOPS
对于大于 648 个节点的胖树,HPC 集群必须至少具有 3 级层次结构。有关包括 GPU
集群的实际性能取决于集群互连。平均而言,使用 1 Gb 以太网 (GbE) 连接会使集群性能降低 50%。使用 10GbE 可以预期性能降低 30%。然而, InfiniBand互连产生90% 的系统效率;只有 10% 的性能损失。有关更多信息,请参阅www.top500.org。

注意:InfiniBand 是 HPC 市场中的主要互连技术。InfiniBand 有许多特性使其成为 HPC 的理想选择,包括:
低延迟和高吞吐量
远程直接内存访问 (RDMA)
可扩展到数千个端点的平面第 2 层
集中管理
多路径
支持多种拓扑