文章筛选结果

AI大模型服务

2025-08-14

使用NVIDIA NIMs API创建基于翻译大模型的Demo

2024-10-21
NVIDIA NIMs有很多的模型托管,本文创建一个基于NVIDIA NIMs云托管模型的API来创建一个基于翻译大模型的Demo.本次使用的模型NVIDIA托管的megatron-1b-nmt,由英伟达训练的翻译模型,下面我们就来演示一下Demo。(a)中文翻译为英语示例(b)中文翻译为俄语示例(c)英语翻译为中文示例(d)英语翻译为法语示例首先安装Install Riva Python ...

IT运维外包

2024-09-12
旺德睿技根据客户的不同需求,为客户提供以下四种IT外包服务:1.是IT资源整体外包:为客户提供全套的IT系统规划、采购、实施、运维、咨询、培训的整体服务,适用于不想成立IT部门或雇用IT工程师,并迫切希望降低运营成本的公司。2.是单项IT技术外包服务:也许您的公司有少量的计算机人员,难以应付日常的各种繁杂事务,可以把您觉得棘手的事情交给我们,如网络建设,硬件设备维护,单项软件开发,我们可以按...

驻场服务

2024-09-12
现场技术支持驻场工程师在正常工作日内为客户提供现场驻守服务,实时响应客户服务请求,配合客户IT人员,及时为故障诊断、排除提供支持。配合客户进行IT网络产品相关调试、配置、升级等日常维护操作。网络运行监控按照客户要求,对网络设备运行状况进行监控,及时发现隐患,防患于未然。网络设备健康检查基于客户运维要求,按照约定频次、范围,为客户提供网络设备健康检查,帮助客户了解设备运行状况,对发现的隐患及时...

IT顾问咨询

2024-09-12
旺德睿的IT顾问咨询具体包括:  业务流程诊断和优化  基于信息系统的流程再造  IT战略与企业信息化规划  系统平台整体设计及实施规划  信息系统可行性分析及方案选择  信息系统投资预算及投入规划  信息系统规划的经济分析、优化  IT组织结构规划IT技术故障远程处理解决方案及系统架构设计  我们在深入调研客户需求的基础上,运用先进的咨询方法、管理理念、和丰富的国内企业咨询经验,为企业提供...

维保服务

2024-09-12
交换机维保服务旺德睿硬件保修服务是面向网络设备,存储等硬件设备的响应式支持服务,通过远程,现场等方式对服务器等硬件问题进行诊断,处理及修复,最大限度地保障设备的可用性,降低硬件问题对业务运作的影响。客户可通过拨打指定的王的旺德睿7*24小时支持服务热线,提出服务请求,旺德睿将在合同约定的服务时间内与客户密切合作,按照SLA规定的时间内上门服务。经过多年的经验积累并结合公司自行开发的一套完善...

硬件维修&系统优化

2024-09-12
硬件维修在硬件维修领域,旺德睿有深耕多年的行业经验,硬件维修也是我公司的四大主营业务之一,目前公司的硬件维修包括:存储维修、Mellanox交换机维修,我公司2014年成为mellanox代理商,公司有齐全的备件库,江浙沪地区可以做到30分钟响应,4小时之内到达现场。南京地区上门服务:2000/次江浙沪地区上门服务:2500/次其他外省地区(含港澳台):2500-5000/次修维配件按照成本...

什么是SuperNIC?

2024-09-12
SuperNIC是一种用于AI云数据中心的网络加速器,可在GPU服务器之间提供强大而无缝的连接。生成式人工智能是快速变化的数字领域中的最新转折点。其中一个使其成为可能的突破性创新是一个相对较新的术语:SuperNIC。什么是SuperNICSuperNIC是一种新型的网络加速器,旨在为以太网为基础的云中超大规模AI工作负载提供超高速的网络连接。它通过远程直接内存访问(RDMA)技术在GPU之...

使用 NVIDIA BlueField-3 DPU 驱动下一波应用程序

2024-09-12
ChatGPT、Stable Diffusion、DALL-E 以及类似的应用程序让生成式 AI 震惊了世界。ChatGPT 是有史以来发展最快的应用程序。其易用性和令人印象深刻的功能在短短几个月内吸引了超过一亿用户。生成式 AI 为企业重塑其产品和商业模式带来了紧迫感。正如 NVIDIA 创始人兼首席执行官黄仁勋在 GTC 2023 主题演讲中所说:“AI 的 iPhone 时刻已经到来。...

Spectrum-X方案到底强在哪?

2024-09-12
2023年5月29日,老黄在台北的Computex 2023大会上发布了很多硬件产品的更新,印象最深刻的是面向AI以太网的Spectrum-X方案和支持大语言训练的超级AI集群GH200。今天我们来聊聊其中的Spectrum-X方案。简单来说我理解Spectrum-X是全球第一款专为生成式AI提供的完整端到端以太网络方案,这里包括Spectrum-4系列交换机,Bluefield-3 DPU...

AI时代的网络:网络定义了数据中心

2024-09-12
几十年来,传统的云数据中心专注于为广泛的用户群提供各种资源,基础设施组件虚拟化方面的进步使系统和应用程序能够根据需要快速启动以满足需求。这些数据中心非常适合支持一组不同的用户和业务应用程序,并且足以支持通过商品级以太网连接的较小规模的工作负载。虽然以太网包含了一个广泛而全面的功能集,但它不适合扩展到几个节点之外。它也不适合高性能计算。今天,我们面临着新的数据中心类别:人工智能云和人工智能工厂...

理解InfiniBand路由算法中的up/down

2024-09-12
这篇文章讨论了up/down InfiniBand路由算法。这个帖子还是比较基础的。但是,读者应该对网络有很好的理解,并且熟悉InfiniBand的概念。多个InfiniBand路由引擎可以在网络上进行配置,例如Min Hop、Up Down、Down Up、Fat Tree等(请参阅opensm)。在Clos/fat tree网络中,最常用的InfiniBand路由算法是Up/Down(U...

用于ETL的GPU? 优化Apache Spark SQL操作的ETL架构

2024-09-12
使用NVIDIA RAPIDS加速器进行大规模数据上运行的Apache Spark的ETL(抽取-转换-加载)操作可以实现成本节省和性能提升。我们在以前的文章中进行了演示,"ETL用于GPU?使用NVIDIA RAPIDS加速器为Apache Spark和Databricks运行更快、成本更低的工作负载"。在本文中,我们深入探讨了为给定的处理架构加速哪些Apache Spark SQL操作。...

RDMA 加速Redis数据库

2024-09-12
1、Redis RDMA简介Remote Dictionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库,并提供多种语言的 API。Red...

使用NVIDIA UFM Cyber-AI安全智能地管理数据中心

2024-09-12
当今的数据中心托管着众多用户和各种各样的应用程序。它们已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算的复杂性增加,数据中心运营成本也不断上升。除了安全威胁的运营中断,保持数据中心完整运行顺畅至关重要。此外,恶意用户可能会利用数据中心访问,滥用计算资源运行禁止的应用程序,导致意外停机和更高的运营成本。如今,对于IT管理人员和支持他们的开发人员来说,快速识别问题并提高效率的数据中心...

如何防止 INFINIBAND CREDIT LOOPS

2024-09-12
InfiniBand 网络被设计为无损网络。当出现拥塞时,InfiniBand 的标准做法是不发送数据,除非接收方有足够的空间,而不是丢弃数据包来处理拥塞。本文讨论了InfiniBand (IB) credit loops以及拓扑和路由算法选择在防止credit loops中的作用。1、了解credit loops1.1 链路级credit每个 HCA 端口和 Switch 端口都在链路上的...

IB/ROCE在AI/HPC中的组网选型比较

2024-09-12
1、 InfiniBand技术InfiniBand(直译为“无限带宽”技术,缩写为IB)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。InfiniBand的四大利器: 1.1 Sharp技术NVIDIA Mellanox Infini...

什么是 Pod?集群又是什么?

2024-09-12
我们在互联网上的所作所为(也就是我们如今的一切活动)都离不开 Pod(也就是集群)。当我们在线观看热门电视节目、订购牛仔裤或者通过 Zoom 与祖母聊天时,我们成为这个集群的一部分。此刻,您可以阅读这篇文章也要归功于 Pod。 那么,何为 Pod?集群又是什么?Pod 或集群,其实就是一组通过高速网络链接,而成为一个整体的计算机。计算机架构师必定借用了(至少是无意识地)这个自然界的术...

软件定义、硬件加速的可编程InfiniBand NDR网络赋能E级AI和HPC平台

2024-09-12
在2020年全球数字超算大会(SC20大会)上,NVIDIA宣布推出NVIDIA® Mellanox® 400G InfiniBand产品,这是全球第一代400Gb/s网速的端到端网络解决方案,可为全球的AI和HPC用户提供最快的网络互连性能,同时将计算、可编程性和软件定义三种技术成功地融于一体,成为业界领先的软件定义、硬件加速的可编程网络,为全球的科研人员和工程人员设计新一代计算系统和提升...

HPC/AI中的InfiniBand网络和Fat-tree拓扑:加速高性能计算与人工智能

2024-09-12
高性能计算(HPC)/AI涵盖并行处理的高级计算,范围涵盖了广泛的科学领域,例如在气象学、天文学和地震学等领域,需要模拟大气层和海洋的运动,进行动力学的研究在人工智能领域需要进行深度学习、大规模数据分析和机器学习等等,高性能模拟需要高效的计算平台,给定模拟的执行时间取决于许多因素,例如CPU/GPU内核的数量机及其利用率以及互联性能、效率和可扩展性。高效的HPC系统通常有数千个、数万个甚至数...

NVIDIA Magnum IO GPUDirect 存储概览指南

2024-09-12
GDS(GPUDirect Storage)使GPU内存和存储之间的直接内存访问(DMA)传输具备直接数据路径,避免通过CPU进行反弹缓冲。这个直接路径增加了系统带宽,减少了CPU的延迟和负载利用率。本指南提供了关于GPUDirect Storage(GDS)的高级概述,以帮助您为GDS启用文件系统,并提供有关文件系统功能及其与GDS的关系的一些见解。1、介绍1.1 开发者的收益GDS 为应...

【A100】NVIDIA DGX SuperPOD:用于人工智能领导的可扩展基础设施

2024-09-12
NVIDIA DGX SuperPOD™超级计算机平台具有NVIDIA DGX™ A100系统,它是下一代人工智能(AI)超扩展到数百个节点。3. 快速部署和更新系统的能力。利用RA,数据中心员工可以开发出具有较少设计迭代的完整解决方案。4. 快速部署和更新系统的能力。利用RA,数据中心员工可以开发出具有较少设计迭代的完整解决方案。4.1 compute fabriccompute fabr...

【H100】NVIDIA DGX SuperPOD:引领人工智能发展的下一代可扩展基础设施

2024-09-12
1、DGX SuperPOD 架构DGXSuperPOD 架构是 DGX 系统、InfiniBand 和以太网、管理节点和存储的组合。下图显示了单个 SU 的机架布局。在此示例中,每个机架的功耗超过40kW。可以调整机架布局以满足本地数据中心的要求,例如每个机架的功率以及DGX系统之间的机架布局以及配套设备,以满足当地的电力和冷却分配需求。完整的单SU机架布局...

使用NCCL实现快速的Multi-GPU集合

2024-09-12
许多服务器配备了8个或更多的GPU。从原则上讲,将应用程序从一个GPU扩展到多个GPU应该能够提供巨大的性能提升。但在实际操作中,获得这种好处可能会很困难。导致多GPU性能提升不佳的两个常见原因是:一是没有足够的并行性以有效饱和处理器;二是处理器之间交换的数据量过大,花费的时间用于通信而非计算。为了避免这种通信瓶颈,充分利用现有的GPU间带宽非常重要,而这正是NCCL的所擅长的。NCCL(发...

《南京旺德睿信息技术有限公司隐私政策》

2024-09-12
一、适用范围本政策适用于您通过问卷、表单、活动报名或线下访谈等方式向【南京旺德睿信息技术有限公司】(下称“我们”或“旺德睿”)提供个人信息的全过程。二、个人信息收集我们仅会出于下列合法、正当、必要目的收集您的信息:① 问卷调研与需求分析;② 活动/会议组织与通知;③ 营销资料推送与后续销售跟进;④ 数据统计与产品改进。具体字段包括:姓名、性别、职位、公司名称、部门、城市、电话、邮箱、采购计划...