原标题:幻方AI Lab超级计算机「萤火一号」,探索AI前沿研究!
幻方AI Lab启用超级计算机
“萤火一号”
探索AI前沿研究
今天,航空航天、生物制药、气象预报、金融工程等领域的研究,都需要数量庞大的计算,传统电脑远无法胜任这个数量级的计算任务,于是人类建造了算力越来越强大的超级计算机集群。家喻户晓的AlphaGo在与人类顶尖棋手的对弈中展现出了惊人的实力,而他的背后便是Google前沿的TPU算力集群。
从2008年开始,幻方量化AI Lab招募全球顶尖人工智能专家,在经济金融领域开展研究。随着人类掌握数据量的爆发式增长,模型越来越庞大,传统的计算集群已经很难适应大型神经网络模型训练的需求。为此,幻方AI Lab累计投资超亿元,投入近20位顶尖工程师历时2年自建了新一代AI超级计算机“萤火一号”,并于2020年3月正式投入运行。
1
超级计算机是什么?
超级计算机是一种特殊的高性能计算机,它集成了大量高端的运算、控制、存储、传输元件,具有极大的数据存储容量和极快速的数据处理速度,广泛应用于医学制药、基因工程、气象预测、先进制造、人工智能等新兴领域。
中国超级计算机-神威·太湖之光
图片来源于网络
超级计算机是“国之重器”,大部分由政府出资建造。美国能源部旗下的橡树岭国家实验室和利弗莫尔实验室的两台超级计算机“顶点”和“山脊”目前占据全球超算排行榜前两位,它们采用了IBM CPU处理器和英伟达GPU。中国国家超算中心的“神威·太湖之光”位列第三。
2
“萤火一号”有多强?
——匹敌4万台个人电脑的超级算力
幻方“萤火一号”
幻方“萤火一号”超算占地面积相当于一个篮球场,功耗400KW,由一个存储集群和一个计算集群组成。存储集群提供每秒1.3亿次IO响应、4.1Tbps读写带宽以及1.2PB容量。
计算集群搭载1100张高端显卡,每秒可以进行1.84亿亿次浮点运算(18.4PFLOPS, 32位精度),相当于4万台个人电脑算力。所有节点通过200Gbps Infiniband交换机进行互联。
3
“萤火一号”和传统AI集群有什么不同?
——支持超大型神经网络训练
上一代高性能集群
“萤火一号”超算在一个紧凑的网络结构内,提供高带宽、低延迟的数据互联。
传统AI集群的设计目标往往是支持多个小型模型同时进行训练,而“萤火一号”专门设计为训练一个超大规模的模型。一个4亿参数的大型经济分析模型,在幻方上一代高性能集群(4台DGX-2, 100G-IB互联)上训练需要2个月时间,而“萤火一号”仅需84小时。
“萤火一号”在满足幻方内部需求的同时,已陆续向部分科研院校的研究团队开放。上线以来,“萤火一号”的平均使用率超过90%。
4
超大型神经网络用来做什么?
——探索更强大的人工智能技术
虽然AI已经开始进入大众的视野,但目前这一代AI还存在很多技术上的局限。长期来看,人工智能还处于初级阶段,大量基础问题仍然有待我们去深入研究。人类对未知世界的探索是永无止境的。
幻方AI Lab使用创新的人工智能技术,处理海量数据、分析经济金融行为、建立自然语言理解;探索更强大的人工智能科学,寻找通往强人工智能未来的钥匙。
责任编辑:
原文链接:https://www.sohu.com/a/393648521_505915