人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

基于NVIDIAA100GPU的AI及HPC集群系统构建

2024-05-21 69

随着深度学习技术逐渐成熟,及其对更多数据、更大模型和更强算力的需求,传统计算机已无法满足其需求,越来越多的深度学习应用开始在HPC上运行,比如药物研发、电影特效渲染、金融防欺诈等。

HPC集群系统的构建是一个极其复杂的过程,对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求也非常高,还需要综合考虑系统的安全性、能源利用率、散热等诸多方面的因素,技术门槛极高。如何构建一个高性能、灵活可扩展的HPC集群系统为科学计算和深度学习提供高效的算力支持,是科研人员面临的重要挑战之一。

在GTC 2020发布会上,NVIDIA 展示了新一代NVIDIA DGX SuperPOD™。该集群利用 Mellanox HDR 200Gbps InfiniBand 互连技术,将140台NVIDIA DGX™ A100 系统结合在一起,构建了NVIDIA DGX SuperPOD™ AI超级计算机,AI计算能力高达700 Petaflops,已应用于公司内部对话式AI、基因组学和自动驾驶等领域的研究。

为帮助客户利用NVIDIA DGX™ A100快速构建自己的HPC集群系统,NVIDIA 还发布了全新的NVIDIA DGX SuperPOD™ 参考架构,其中NVIDIA Mellanox技术架构能以最快的速度并行处理解决那些最复杂的问题,同时该网络架构极具灵活性与可扩展性。通过全新NVIDIA DGX SuperPOD™ 参考架构,企业可以借鉴NVIDIA所采取的设计原则和最佳实践经验,提升HPC集群系统的构建效率,缩短交付时间。

思腾合力专注于人工智能领域,提供深度学习、GPU高性能计算、虚拟化、分布式存储、集群管理等产品和整体解决方案,也是NVIDIA的的重要合作伙伴之一。目前,从事 AI 领域研究、高性能计算的重点高校80%都采用了思腾合力的产品及解决方案,为各专业老师和同学们的科学实验研究提供了优秀的GPU加速解决方案。

3月31日,智东西公开课与思腾合力联合推出「AI & HPC集群系统公开课」,由NVIDIA解决方案架构师马四腾、思腾合力资深解决方案架构师王波共同主讲,主题为《基于NVIDIA A100 GPU的AI及HPC集群系统构建》。

马四腾老师将从NVIDIA Ampere架构、NVIDIA A100 GPU、NVIDIA DGX™ A100到NVIDIA DGX SuperPOD™ 参考架构等方面,系统讲解NVIDIA算力扩展方案及GPU资源的管理和使用;

王波老师将从HPC集群系统的构建难点出发,结合思腾合力集群系统架构和实际案例,为我们系统讲解如何快速构建HPC集群系统。

本次公开课讲解包含主讲和问答两个环节。主讲环节60分钟,两位老师将会通过视频直播的形式进行实时讲解;问答环节30分钟,讲师将会通过语音形式在直播间回答大家提问的问题。

原文链接:https://course.zhidx.com/c/MmE1MDYxNWEwMDYzZWI0NTE2MDM=

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部