当今的数据中心托管着众多用户和各种各样的应用程序。它们已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算的复杂性增加,数据中心运营成本也不断上升。除了安全威胁的运营中断,保持数据中心完整运行顺畅至关重要。
此外,恶意用户可能会利用数据中心访问,滥用计算资源运行禁止的应用程序,导致意外停机和更高的运营成本。如今,对于IT管理人员和支持他们的开发人员来说,快速识别问题并提高效率的数据中心管理工具比以往任何时候都是当务之急。
NVIDIA可能以其惊人的图形性能和几乎在各个研究领域中使用的无与伦比的GPU计算性能而闻名。然而,多年来,它还一直是安全可扩展的数据中心技术领域的领导者,包括灵活的库和工具,以充分发挥世界一流的基础设施。
NVIDIA认识到,为今天的研究和业务可能是最关键组成部分提供全栈解决方案,不仅包括世界一流的服务器平台、GPU和分布在整个数据中心的最广泛的软件组合。NVIDIA还知道,安全性和可管理性是构建数据中心基础设施的关键支柱。
NVIDIA Unified Fabric Manager (UFM) Cyber-AI平台提供了增强的实时网络遥测功能,结合了AI驱动的智能和高级分析。它使IT管理人员能够发现运营异常甚至预测网络故障。这不仅提高了安全性和数据中心的正常运行时间,还降低了总体运营成本。
UFM Cyber-AI的独特优势在于其能够捕获丰富的遥测信息,并利用AI技术来识别事件之间的隐藏关联。这使其能够检测异常的系统和应用程序行为,甚至在它们导致组件或系统故障之前识别性能下降。UFM Cyber-AI甚至可以实时采取纠正措施。该平台根据网络遥测数据,包括流量模式、温度等,学习数据中心的典型运行模式,并检测异常用途。
UFM Cyber-AI包含三个不同的层次,如图1所示。

图1. UFM Cyber-AI 层级
输入遥测数据:以各种方式收集网络信息并学习:
网络中所有元素的遥测数据
网络拓扑结构(租户或应用程序的连接性和资源分配)
网络设备的特性和能力
处理模型:包含多个模型,如数据准备的提取、转换和加载(ETL)处理引擎。还包括用于比较的汇总、数据存储和分析模型。UFM Cyber-AI使用机器学习(ML)技术和AI模型进行异常检测和预测,以学习数据中心网络组件(电缆、交换机、端口、InfiniBand适配器)的生命周期模式。
输出仪表板:是一个可视化层,提供了一个中央仪表板,供网络管理员和云编排者查看警报和改善网络利用率和效率的建议,以及解决网络健康问题。
仪表板主要包括两个类别:可疑行为和链路分析,每个类别都包括警报和预测的部分(图2)。

图2. UFM Cyber-AI 预测仪表板
UFM Cyber-AI还支持自定义网络警报,可以查看随时间和不同时间维度触发的异常。通过使用基于小时或每周某一天的参数的聚合网络统计数据,您可以设置阈值并根据可能偏离典型运营使用的测量值配置通知。例如,您可以使用预定义的阈值来识别有问题的电缆。
内置分析会将当前的遥测信息与基于时间的聚合信息进行比较,以便检测使用或流量模式中的任何可疑增加或减少,并立即通知系统管理员。UFM Cyber-AI还通过链路或端口遥测信息提供数据中心租户或应用程序的警报,以识别与其关联的低级分区键(PKEY)的统计信息及其关联节点。
只有UFM Cyber-AI提供链路故障预测等功能,支持预测性维护。通过在早期检测到性能降级情况,UFM Cyber-AI可以预测潜在的链路或端口故障。这使管理员能够进行维护,消除数据中心停机时间。
为了提供最强大的InfiniBand fabric管理解决方案,需要不断创新以跟上管理当今复杂数据中心的复杂性。我们计划将NVIDIA Morpheus与UFM Cyber-AI集成(图3),从其他数据中心元素(例如基于服务器或机架的组件遥测、DPU、GPU和应用程序计数器)带来更多的遥测信息。
我们甚至可以提供一个额外的层,可以直接与其他API接口交互,比如Kafka,这是一个用于高性能数据管道、流分析和数据集成的开源分布式事件流平台。您可以利用这种集成来特定检测开发者定义的操作系统异常,比如在专门用于生命科学研究的系统上检测加密挖矿。

图3. UFM Cyber-AI与Morpheus框架的集成示例
Morpheus是一个开放的AI应用框架,为网络安全开发人员提供了高度优化的AI流水线和预训练的AI能力。这些能力使您能够瞬间检查数据中心fabric中的所有网络流量。Morpheus通过提供以下功能,为数据中心带来了新的安全级别:
动态保护
实时遥测
自适应策略
用于检测和纠正网络安全威胁的网络防御能力。

图4. UFM Cyber-AI作为灵活可扩展平台的示例
当Morpheus集成到UFM Cyber-AI设备中时,我们可以提供最佳和最完整的解决方案,同时也适用于关键任务数据中心并支持开发人员。通过可定制的异常检测和与其他标准化API的接口,UFM Cyber-AI是支持多租户的任何数据中心或云原生基础设施的灵活资产。