SuperNIC是一种用于AI云数据中心的网络加速器,可在GPU服务器之间提供强大而无缝的连接。
生成式人工智能是快速变化的数字领域中的最新转折点。其中一个使其成为可能的突破性创新是一个相对较新的术语:SuperNIC。

SuperNIC是一种新型的网络加速器,旨在为以太网为基础的云中超大规模AI工作负载提供超高速的网络连接。它通过远程直接内存访问(RDMA)技术在GPU之间实现了速度高达400Gb/s的GPU对GPU通信。
SuperNIC结合了以下独特的特性:
高速数据包重排序,确保数据包按原始传输顺序接收和处理,保持数据流的顺序完整性。
使用实时遥测数据和网络感知算法进行先进的拥塞控制,管理和预防AI网络中的拥塞。
在输入/输出(I/O)路径上具有可编程计算功能,可定制和扩展AI云数据中心的网络基础设施。
功耗高效、低外形设计,能够在受限的功率预算内有效地容纳AI工作负载。
完整的AI优化,包括计算、网络、存储、系统软件、通信库和应用框架。
NVIDIA最近发布了全球首款专为AI计算量身定制的SuperNIC,基于BlueField-3网络平台。它是NVIDIA Spectrum-X平台的一部分,可以与Spectrum-4以太网交换系统无缝集成。
NVIDIA BlueField-3 SuperNIC和Spectrum-4交换系统共同构成了专门设计用于优化AI工作负载的加速计算布局的基础。Spectrum-X始终提供高效的网络效率水平,优于传统以太网环境。
“在AI推动下一波技术创新的世界中,BlueField-3 SuperNIC是机械中的重要齿轮,” NVIDIA DPU和NIC产品副总裁Yael Shenhav表示。“SuperNIC确保您的AI工作负载高效而快速地执行,这使它们成为启用未来AI计算的基础组件。”
由于生成式人工智能和大型语言模型的出现,AI领域正在经历巨大变革。这些强大的技术开启了新的可能性,使计算机能够处理新的任务。
AI的成功在很大程度上依赖于GPU加速计算,以处理大量数据、训练大型AI模型,并实现实时推理。这种新的计算能力开启了新的可能性,但也给以太网云网络带来了挑战。
传统的以太网技术作为互联网基础设施的基础,旨在提供广泛的兼容性并连接松散耦合的应用程序。它并不是为了满足现代AI工作负载的高要求计算需求而设计,这些工作负载涉及紧密耦合的并行处理、快速数据传输和独特的通信模式,所有这些都要求优化的网络连接。
传统的网络接口卡(NICs)是为通用计算、通用数据传输和互操作性而设计的,从来没有为了应对AI工作负载的高计算强度所带来的独特挑战而设计过。
标准NIC缺乏对于高效数据传输、低延迟和对AI任务至关重要的确定性性能的必要特性和能力。另一方面,SuperNIC是专门为现代AI工作负载而设计的。
与此相比,数据处理单元(DPUs)提供了丰富的先进功能,包括高吞吐量、低延迟网络连接等。自2020年推出以来,DPUs在云计算领域备受青睐,主要是因为它们具备卸载、加速和隔离数据中心基础设施处理的能力。
尽管DPU和SuperNIC共享一系列特性和功能,但SuperNIC是专为加速AI网络而进行了独特优化。下面的图表显示它们的比较:

分布式AI训练和推断通信流程在成功中极大地依赖于网络带宽的可用性。SuperNIC以其精巧设计而著称,比DPUs更有效地扩展,每个GPU提供了惊人的400Gb/s网络带宽。
在系统内GPU和SuperNICs之间的1:1比例可以显著提高AI工作负载的效率,为企业带来更高的生产力和卓越的成果。
SuperNIC的唯一目的是加速AI云计算的网络,因此它使用的计算能力比需要大量计算资源从主机CPU卸载应用程序的DPU要少。
降低的计算需求也意味着更低的功耗,在含有多达八个SuperNICs的系统中尤其关键。
SuperNIC的其他独特特点包括其专用的AI网络能力。当与经过AI优化的NVIDIA Spectrum-4交换机紧密集成时,它提供自适应路由、乱序数据包处理和优化的拥塞控制。这些先进功能对加速以太网AI云环境至关重要。
NVIDIA BlueField-3 SuperNIC提供了一些使其成为AI就绪基础设施关键的好处:
最大的AI工作负载效率:BlueField-3 SuperNIC是专门为网络密集型、大规模并行计算而设计的,非常适合AI工作负载。它确保AI任务高效运行,没有瓶颈。
一致和可预测的性能:在多租户数据中心中,多个任务同时处理,BlueField-3 SuperNIC确保每个任务和租户的性能被隔离、可预测,并且不受其他网络活动的影响。
安全的多租户云基础设施:安全性是头等大事,特别是在处理敏感信息的数据中心。BlueField-3 SuperNIC保持高安全级别,使多个租户可以共存,同时保持数据和处理的隔离。
可扩展的网络基础设施:BlueField-3 SuperNIC的应用范围不受限制,它非常灵活,可适应各种其他网络基础设施的需求。
广泛的服务器制造商支持:BlueField-3 SuperNIC可以无缝地适配大多数企业级服务器,而且在数据中心中功耗不过高。
了解更多关于NVIDIA BlueField-3 SuperNIC的信息,包括它如何在NVIDIA的数据中心平台上实现集成,可以查看白皮书:Next-Generation Networking for the Next Wave of AI。