智东西(公众号:zhidxcom)编| 林卓玮
智东西11月16日消息,在今天的 SC20(Supercomputing Conference)超级计算大会上,NVIDIA在加速计算领域、HPC、网络三大领域分别发布了新一代A100 80GB GPU处理器、新一代DGX StationA100和DGX A100 640GB移动数据中心、Mellanox 400G InfiniBand系统多款重磅新品,以应对全球爆发式增长的数据处理需求和日益凸显的机器学习需要。
其中,NVIDIA A100 80GB GPU搭配 TC32核心,AI吞吐量提高达20倍,HPC性能提升达2.5倍,高带宽内存翻倍至80GB,内存带宽每秒超过2TB。NVIDIA DGX Station A100则有着强劲性能和高度集成性,尺寸虽小,AI性能却达到了2.5 petaflops。Mellanox 400G InfiniBand产品提供超低延迟,并在上一代产品的基础上实现了数据吞吐量翻倍。
NVIDIA加速计算产品管理总监Paresh Kharya、DGX系统副总裁兼总经理Charlie Boyle、网络事业部高级副总裁Gilad Shainer对这三大发布进行了详细介绍。
▲NVIDIA加速计算产品管理总监Paresh Kharya在会上发言
一、NVIDIA A100 80GB GPU:高带宽内存翻倍,内存带宽每秒超2TB
1、第三代Tensor Core核心:AI吞吐量提高达20倍,HPC性能提升达2.5倍;
2、 更大、更快的HBM2e GPU内存:高带宽内存翻倍至80GB,内存带宽每秒超过2TB;
3、第三代NVLink和NVSwitch:GPU之间带宽增加,GPU数据传输速度提高。
▲官方发布NVIDIA A100 80GB GPU的主要优点
NVIDIA透露,源讯、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想、云达科技、超微等全球领先系统供应商将于2021年上半年发行基于HGX A100集成底板的系统,每个集成底板将搭载4-8个A100 80GB GPU。
官方消息称,这款产品预计将于本季度发货。
今年5月,英伟达在线上召开了GTC大会,并推出基于安培架构的7nm A100显卡,AI训练速度提升20倍。
今天, NVIDIA在前代的基础上推出了A100 80GB GPU,实现性能的大幅提升。
全新A100采用HBM2e技术,将GPU内存在上一代A100 40GB GPU的基础上提升了一倍,达到80GB,每秒能提供超过2TB 的内存带宽。
在HPC高性能计算方面,如果以2016年推出的P100处理器为基准,A100 处理器在主流HPC应用上的性能已提升了10倍。
A100 处理器搭载全新TF32核心,将上一代Volta架构的AI吞吐量提高多达20倍。通过FP64(双精度运算),将HPC性能提高多达2.5倍,达到19.5 TFlops。
通过INT8(一种低精度的定点计算),A100 处理器将AI推理性能提高多达20倍,达到1248 TOPS,并且支持BF16数据格式,能满足医疗、AI推理、云存储、计算机视觉、模拟技术等多个研究领域日益增长的计算需求。
此外,A100 处理器在保障更大计算能力的前提下,还做到了节能。其能源效率达到26.2 GF/W,在短短六个月内成功在上一代的基础上将能效提升了25%。
据了解,这款GPU 处理器还会搭载在同时发布的另一款新品DGX Station A100移动数据中心上,能在移动场景下提供超强算力。
NVIDIA加速计算产品管理总监Paresh Kharya在会上讲到:“我们想把HPC、数据分析和深度学习计算技术结合起来,共同推动科学进步。”
二、NVIDIA DGX Station A100:一台能推着走的千万亿级集成型AI工作组服务器
1、千兆级工作组服务器:AI性能可达2.5 petaflops;
2、第三代NVLink:四个A100 GPU通过NVLink实现完全互连,内存最高可达320GB或640GB;
3、两种规格:分为普通版和SuperPOD版本,满足不同需求;
4、MIG技术:最多分割为28个GPU实例,每个实例的内存达到10GB;
5、随时随地:高度集成、体积小、冷却散热,同时支持远程互联和遥控。
▲第二代NVIDIA DGX Station A100
第二代NVIDIA DGX Station A100也在此次线上大会上登场。
这次英伟达共发布两个版本,DGX Station A100和DGX A100 640GB,并表示可以为320GB版本用户提供付费服务,升级到最新的DGX Station A100 640GB版本。
DGX系统副总裁兼总经理Charlie Boyle在会上提到,配有A100 80GB GPU 的 NVIDIA DGX SuperPOD系统将首先运用在英国的Cambridge-1超级计算机上,以加速推进医疗保健领域研究,同时还将运用于佛罗里达大学的全新HiPerGator AI超级计算机上,从而助力这一“阳光之州”开展AI赋能的科学发现。
DGX Station尽管身形娇小,但运算性能强劲。DGX Station A100的AI性能可达2.5 petaflops,即每秒能实现两千五百万亿(=10^15)次的浮点运算。
截至目前,DGX Station A100是唯一能支持NVIDIA多实例GPU(MIG)技术的工作组服务器。
为支持更大规模的数据中心工作负载,DGX Station A100将配备四个NVIDIA A100 80GB GPU处理器,每个处理器最多分割为7个MIG。
因此,单一DGX Station A100最多能分割为28个独立GPU实例来执行并行任务,从而在处理负载较小的工作时,实现GPU的最佳利用率,同时确保AI团队能够使用更大规模的数据集和模型来提高准确性。
据称,这一代产品GPU之间的双向带宽达到200 GB/s,近乎是PCIe Gen4的三倍。
在实现性能大幅提升的同时,DGX Station通过使用冷却剂,免去了配备散热系统的烦恼。
此外,DGX Station A100还具有远程管理功能,可供分布全球各地的科研团队远程协作使用。
▲NVIDIA DGX SuperPOD系统将首先运用在英国的Cambridge-1超级计算机上。
三、Mellanox 400G InfiniBand:高效节能
第七代Mellanox 400G InfiniBand是英伟达应对计算需求猛增推出的网络解决方案,其产品架构包括适配器、DPU、交换机和网线。运用InfiniBand技术,Mellanox 400G InfiniBand 400Gb/s产品提供了超低延迟,并在上一代的基础上实现了数据吞吐量翻倍,同时增加了新的NVIDIA网络计算引擎,实现了额外的加速。
Mellanox NDR 400G InfiniBand交换机的端口密度和AI加速能力分别是上一代的3倍和32倍。此外,它还将框式交换机系统的聚合双向吞吐量提高了5倍,达到1.64 petabits/s,使得用户能够以更少的交换机,运行更大的工作负载。
Mellanox InfiniBand NDR在节省成本的同时,还提高了能源效率。
其中,运用Mellanox InfiniBand NDR,1500 GPUs以内的数据中心在成本控制方面较上一代提升20% ,节能方面较上一代提高20%,4000 GPUs 以内的数据中心在成本控制方面较上一代提升40% ,节能方面较上一代提高60%。
微软Azure、美国Los Alamos国家实验室等全球大型科研机构均表现出对下一代Mellanox InfiniBand技术的关注。
微软公司Azure HPC和AI产品负责人Nidhi Chappell谈及InfiniBand技术时说道:“在HPC领域,Azure HBv2 VM率先将HDR InfiniBand引入云端,并为MPI客户应用在云上实现了超算级规模和性能,展示出可扩展MPI HPC应用到超过80,000核的能力。”
▲Mellanox 400G InfiniBand产品架构
总结:NVIDIA数据中心业务势头强劲,Mellanox或将成为新增长点
2019年,NVIDIA宣布以69亿美元现金收购Mellanox,在经历了漫长的全球反垄断审批流程之后,这笔交易终于在今年四月尘埃落定。当初,NVIDIA收购Mellanox的原因不仅仅是技术层面的,更是因为它和自己数据中心业务的用户群体高度重合,二者的结合也因而产生了强大的协同效应。
此次发布会推出的Mellanox 400G InfiniBand便是二者协作的产物。它的出色表现,加上英伟达2019年财报展现出的数据中心业务的强劲增长趋势,恰好指明了英伟达未来几年的业务重心或许就在数据中心领域,而Mellanox或将成为新增长点。
原文链接:https://baijiahao.baidu.com/s?id=1683538891764293822&wfr=spider&for=pc