当前位置：首页 » AI资讯

中国超级计算机为什么不能为AI提供算力？

2024-05-25

244

蓝海大脑大模型训练平台提供强大的算力支持，包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑，满足大模型训练中张量并行的通信需求。支持高性能I/O扩展，同时可以扩展至万卡AI集群，满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术，当BMC收到PSU故障或错误警告（如断电、电涌，过热），自动强制系统的CPU进入ULFM（超低频模式，以实现最低功耗）。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。

一、为什么需要大模型？

1、模型效果更优

大模型在各场景上的效果均优于普通模型

2、创造能力更强

大模型能够进行内容生成（AIGC），助力内容规模化生产

3、灵活定制场景

通过举例子的方式，定制大模型海量的应用场景

4、标注数据更少

通过学习少量行业数据，大模型就能够应对特定业务场景的需求

二、平台特点

1、异构计算资源调度

一种基于通用服务器和专用硬件的综合解决方案，用于调度和管理多种异构计算资源，包括CPU、GPU等。通过强大的虚拟化管理功能，能够轻松部署底层计算资源，并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力，以加快模型的运行速度和生成速度。

2、稳定可靠的数据存储

支持多存储类型协议，包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通，提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制，确保模型和数据的安全稳定运行。

3、高性能分布式网络

提供算力资源的网络和存储，并通过分布式网络机制进行转发，透传物理网络性能，显著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面，采用严格的权限管理机制，确保模型仓库的安全性。在数据存储方面，提供私有化部署和数据磁盘加密等措施，保证数据的安全可控性。同时，在模型分发和运行过程中，提供全面的账号认证和日志审计功能，全方位保障模型和数据的安全性。

三、常用配置

目前大模型训练多常用H100、H800、A800、A100等GPU显卡，以下是一些常用的配置。

1、H100服务器常用配置

英伟达H100 配备第四代 Tensor Core 和 Transformer 引擎（FP8 精度），与上一代产品相比，可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件，为小型企业到大规模统一 GPU 集群提供高效的可扩展性。

搭载 H100 的加速服务器可以提供相应的计算能力，并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的显存带宽和可扩展性，凭借高性能应对数据分析以及通过扩展支持庞大的数据集。通过结合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™，NVIDIA 数据中心平台能够以出色的性能和效率加速这些大型工作负载。

CPU：英特尔至强Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

内存：动态随机存取存储器64GB DDR5 4800兆赫 *24

存储：固态硬盘3.2TB U.2 PCIe第4代 *4

GPU ：Nvidia Vulcan PCIe H100 80GB *8

平台：HD210 *1

散热：CPU+GPU液冷一体散热系统 *1

网络：英伟达IB 400Gb/s单端口适配器 *8

电源：2000W(2+2)冗余高效电源 *1

2、A800服务器常用配置

NVIDIA A800 的深度学习运算能力可达 312 teraFLOPS（TFLOPS）。其深度学习训练的Tensor 每秒浮点运算次数（FLOPS）和推理的 Tensor 每秒万亿次运算次数（TOPS）皆为NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供两倍于上一代的吞吐量。与 NVIDIA NVSwitch 结合使用时，此技术可将多达 16 个 A800 GPU 互联，并将速度提升至 600GB/s，从而在单个服务器上实现出色的应用性能。NVLink 技术可应用在 A800 中：SXM GPU 通过 HGX A100 服务器主板连接，PCIe GPU 通过 NVLink 桥接器可桥接多达 2 个 GPU。

CPU：Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

内存：DDR4 3200 64G *32

数据盘：960G 2.5 SATA 6Gb R SSD *2

硬盘：3.84T 2.5-E4x4R SSD *2

网络：双口10G光纤网卡（含模块）*1

双口25G SFP28无模块光纤网卡（MCX512A-ADAT ）*1

GPU：HV HGX A800 8-GPU 8OGB *1

电源：3500W电源模块*4

其他：25G SFP28多模光模块 *2

单端口200G HDR HCA卡(型号:MCX653105A-HDAT) *4

2GB SAS 12Gb 8口 RAID卡 *1

16A电源线缆国标1.8m *4

托轨 *1

主板预留PCIE4.0x16接口 *4

支持2个M.2 *1

原厂质保3年 *1

3、A100服务器常用配置

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景，在不同规模下实现出色的加速，有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构，是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍，并可划分为七个 GPU 实例，以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本，A100 80GB 将 GPU 显存增加了一倍，并提供超快速的显存带宽（每秒超过 2 万亿字节 [TB/s]），可处理超大型模型和数据集。

CPU：Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM：64GB DDR4 RDIMM服务器内存 *16

SSD1：480GB 2.5英寸SATA固态硬盘 *1

SSD2：3.84TB 2.5英寸NVMe固态硬盘 *2

GPU：NVIDIA TESLA A100 80G SXM *8

网卡1：100G 双口网卡IB 迈络思 *2

网卡2：25G CX5双口网卡 *1

4、H800服务器常用配置

H800是英伟达新代次处理器，基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比，H800的性能提升了3倍，在显存带宽上也有明显的提高，达到3 TB/s。

虽然论性能，H800并不是最强的，但由于美国的限制，性能更强的H100无法供应给中国市场。有业内人士表示，H800相较H100，主要是在传输速率上有所差异，与上一代的A100相比，H800在传输速率上仍略低一些，但是在算力方面，H800是A100的三倍。

CPU：Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

内存：64GB 3200MHz RECC DDR4 DIMM *32

系统硬盘： intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU： NVIDIA Tesla H800 -80GB HBM2 *8

GPU网络： NVIDIA 900-9×766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存储网络：双端口 200GbE IB *1

网卡：25G网络接口卡双端口 *1

原文链接：https://www.zhihu.com/question/609008408/answer/3155422862

gpu服务器英伟达

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » 中国超级计算机为什么不能为AI提供算力？

中国超级计算机为什么不能为AI提供算力？

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

中国超级计算机为什么不能为AI提供算力？

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航