DGXSuperPOD 架构是 DGX 系统、InfiniBand 和以太网、管理节点和存储的组合。下图显示了单个 SU 的机架布局。在此示例中,每个机架的功耗超过40kW。可以调整机架布局以满足本地数据中心的要求,例如每个机架的功率以及DGX系统之间的机架布局以及配套设备,以满足当地的电力和冷却分配需求。

完整的单SU机架布局
下图显示了包含网络交换机、管理服务器、存储阵列和UFM设备的管理机架配置示例。尺寸和数量将根据所使用的型号而有所不同。

管理机架配置
该参考架构专注于具有128个DGX节点的4个 SU单元。 DGX SuperPOD可以扩展到更大的配置,可达 64个SU,具有2000多个 DGX H100节点。有关详细信息,请参阅下表。

更大的SuperPOD 组件数量
SU 构建系统提供高效的设计。但是,如果由于预算限制、数据中心限制或其他需求而需要不同的节点数,则结构应设计为支持完整的 SU,包括leaf交换机和leaf-spine电缆,并保留未使用的结构部分 这些节点所在的位置。这将确保流量路由并确保结构所有部分的性能保持一致。
DGX SuperPOD 配置利用四种网络结构:
>compute fabric
> storage fabric
> 带内管理网络
> 带外管理网络
下图显示了DGXH100 CPU托盘背面的端口以及提供的连接。中间的compute fabric端口使用两端口收发器来访问所有八个 GPU。每对带内管理和存储端口都提供进入DGX H100系统的并行路径,以提高性能。OOB 端口用于BMC访问。(DGX SuperPOD 配置中不使用 BMC 端口旁边的 LAN 端口。)

DGXH100 网络端口
下图显示了完整 127 节点 DGX SuperPOD 的compute fabric布局。每组 32 个节点均按轨道对齐。 DGX H100 系统每轨的流量始终与 SU 中的其他 31 个节点相距一跳。节点之间或轨道之间的流量穿过spine层。

完整127 节点 DGX SuperPOD 的compute fabric
下表显示了不同SU大小的compute fabric所需的电缆和交换机数量。

storage fabric采用 InfiniBand 网络结构,这对于带宽至关重要。这是因为 DGX SuperPOD 每个节点的 I/O 必须超过 40 GBps。高带宽要求以及先进的结构管理功能,例如拥塞控制和 AR 为storage fabric提供了显着的优势。

storage fabric逻辑设计
storage fabric使用 MQM9700-NS2F 交换机。存储设备以 1:1 的端口与上行链路比率连接。DGX H100 系统连接略有超额认购,比率接近 4:3,并根据需要进行调整,以在成本和性能方面实现更大的存储灵活性。

MQM9700-NS2F 交换机
带内管理网络提供几个关键功能:
> 连接管理集群的所有服务。
> 允许访问主文件系统和存储池。
> 为集群内服务提供连接,例如 Base Command Manager、Slurm 和
集群外部的其他服务,例如 NGC 注册表、代码存储库和数据源。
下图显示了带内以太网的逻辑布局。带内网络连接计算节点和管理节点。此外,OOB网络连接到带内网络提供来自管理节点的高速接口以支持并行操作连接到 OOB storage fabric的设备,例如存储的并行操作。
带内以太网
带内管理网络采用SN4600C交换机

SN4600C 交换机
图10 显 示了 OOB 以太网结构。它连接所有设备的管理端口,包括 DGX 和 管理服务器、存储、网络设备、机架 PDU 和所有其他设备。这些端口独立于自己的结构,因为没有用户需要访问这些端口的用例,并且使用逻辑网络分离来确保安全。

逻辑OOB管理网络布局

SN2201 交换机