解决方案

使用NVIDIA NIMs API创建基于翻译大模型的Demo

2024-10-21
NVIDIA NIMs有很多的模型托管,本文创建一个基于NVIDIA NIMs云托管模型的API来创建一个基于翻译大模型的Demo.本次使用的模型NVIDIA托管的megatron-1b-nmt,由英伟达训练的翻译模型,下面我们就来演示一下Demo。(a)中文翻译为英语示例(b)中文翻译为俄语示例(c)英语翻译为中文示例(d)英语翻译为法语示例首先安装Install Riva Python ...

什么是SuperNIC?

2024-09-12
SuperNIC是一种用于AI云数据中心的网络加速器,可在GPU服务器之间提供强大而无缝的连接。生成式人工智能是快速变化的数字领域中的最新转折点。其中一个使其成为可能的突破性创新是一个相对较新的术语:SuperNIC。什么是SuperNICSuperNIC是一种新型的网络加速器,旨在为以太网为基础的云中超大规模AI工作负载提供超高速的网络连接。它通过远程直接内存访问(RDMA)技术在GPU之...

使用 NVIDIA BlueField-3 DPU 驱动下一波应用程序

2024-09-12
ChatGPT、Stable Diffusion、DALL-E 以及类似的应用程序让生成式 AI 震惊了世界。ChatGPT 是有史以来发展最快的应用程序。其易用性和令人印象深刻的功能在短短几个月内吸引了超过一亿用户。生成式 AI 为企业重塑其产品和商业模式带来了紧迫感。正如 NVIDIA 创始人兼首席执行官黄仁勋在 GTC 2023 主题演讲中所说:“AI 的 iPhone 时刻已经到来。...

Spectrum-X方案到底强在哪?

2024-09-12
2023年5月29日,老黄在台北的Computex 2023大会上发布了很多硬件产品的更新,印象最深刻的是面向AI以太网的Spectrum-X方案和支持大语言训练的超级AI集群GH200。今天我们来聊聊其中的Spectrum-X方案。简单来说我理解Spectrum-X是全球第一款专为生成式AI提供的完整端到端以太网络方案,这里包括Spectrum-4系列交换机,Bluefield-3 DPU...

AI时代的网络:网络定义了数据中心

2024-09-12
几十年来,传统的云数据中心专注于为广泛的用户群提供各种资源,基础设施组件虚拟化方面的进步使系统和应用程序能够根据需要快速启动以满足需求。这些数据中心非常适合支持一组不同的用户和业务应用程序,并且足以支持通过商品级以太网连接的较小规模的工作负载。虽然以太网包含了一个广泛而全面的功能集,但它不适合扩展到几个节点之外。它也不适合高性能计算。今天,我们面临着新的数据中心类别:人工智能云和人工智能工厂...

RDMA 加速Redis数据库

2024-09-12
1、Redis RDMA简介Remote Dictionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库,并提供多种语言的 API。Red...

使用NVIDIA UFM Cyber-AI安全智能地管理数据中心

2024-09-12
当今的数据中心托管着众多用户和各种各样的应用程序。它们已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算的复杂性增加,数据中心运营成本也不断上升。除了安全威胁的运营中断,保持数据中心完整运行顺畅至关重要。此外,恶意用户可能会利用数据中心访问,滥用计算资源运行禁止的应用程序,导致意外停机和更高的运营成本。如今,对于IT管理人员和支持他们的开发人员来说,快速识别问题并提高效率的数据中心...

如何防止 INFINIBAND CREDIT LOOPS

2024-09-12
InfiniBand 网络被设计为无损网络。当出现拥塞时,InfiniBand 的标准做法是不发送数据,除非接收方有足够的空间,而不是丢弃数据包来处理拥塞。本文讨论了InfiniBand (IB) credit loops以及拓扑和路由算法选择在防止credit loops中的作用。1、了解credit loops1.1 链路级credit每个 HCA 端口和 Switch 端口都在链路上的...

IB/ROCE在AI/HPC中的组网选型比较

2024-09-12
1、 InfiniBand技术InfiniBand(直译为“无限带宽”技术,缩写为IB)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。InfiniBand的四大利器: 1.1 Sharp技术NVIDIA Mellanox Infini...

什么是 Pod?集群又是什么?

2024-09-12
我们在互联网上的所作所为(也就是我们如今的一切活动)都离不开 Pod(也就是集群)。当我们在线观看热门电视节目、订购牛仔裤或者通过 Zoom 与祖母聊天时,我们成为这个集群的一部分。此刻,您可以阅读这篇文章也要归功于 Pod。 那么,何为 Pod?集群又是什么?Pod 或集群,其实就是一组通过高速网络链接,而成为一个整体的计算机。计算机架构师必定借用了(至少是无意识地)这个自然界的术...

HPC/AI中的InfiniBand网络和Fat-tree拓扑:加速高性能计算与人工智能

2024-09-12
高性能计算(HPC)/AI涵盖并行处理的高级计算,范围涵盖了广泛的科学领域,例如在气象学、天文学和地震学等领域,需要模拟大气层和海洋的运动,进行动力学的研究在人工智能领域需要进行深度学习、大规模数据分析和机器学习等等,高性能模拟需要高效的计算平台,给定模拟的执行时间取决于许多因素,例如CPU/GPU内核的数量机及其利用率以及互联性能、效率和可扩展性。高效的HPC系统通常有数千个、数万个甚至数...

使用NCCL实现快速的Multi-GPU集合

2024-09-12
许多服务器配备了8个或更多的GPU。从原则上讲,将应用程序从一个GPU扩展到多个GPU应该能够提供巨大的性能提升。但在实际操作中,获得这种好处可能会很困难。导致多GPU性能提升不佳的两个常见原因是:一是没有足够的并行性以有效饱和处理器;二是处理器之间交换的数据量过大,花费的时间用于通信而非计算。为了避免这种通信瓶颈,充分利用现有的GPU间带宽非常重要,而这正是NCCL的所擅长的。NCCL(发...