加入收藏 | 设为首页 | 会员中心 | 我要投稿 555手机网 (https://www.555shouji.com/)- 热门手机、手机评测、云手机、手游、5G!
当前位置: 首页 > 智能家居 > 正文

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

发布时间:2020-04-22 14:18:15 所属栏目:智能家居 来源:网络整理
导读:从上海交大AI计算平台,看高校如何跨越超高算力难关,助力科研成果转化?
副标题[/!--empirenews.page--] 上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

智东西(公众号:zhidxcom)
文 | 心缘

随着AI发展如火如荼,高校作为基础研究的主阵地,正扛起推进AI研发和应用的大旗,如何构建AI所需的超高算力并加速科研成果转化早已提上日程。

就在去年11月,国内高校最强AI计算平台正式开放,峰值算力达16PFLOPS,面向上海交通大学各院系和科研机构提供高效的算力支撑。

这一AI计算平台由上海交通大学网络信息中心计算部(以下简称“计算部”)打造,目前已支持20多位研究团队开展AI和典型HPC等科研创新应用工作。

近日,智东西与上海交通大学网络信息中心工程师程盛淦进行深入交流,试图了解国内高校最强AI计算平台背后的故事。

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研▲上海交通大学网络信息中心机房

一、国内高校最早AI计算平台,全队列使用率接近100%

上海交大网络信息中心的前身是上海交通大学计算中心,始建于1973年,是我国高校建立最早、规模最大的计算中心之一。

早在2013年,该中心就搭建了超级计算机π1.0,这是一台异构HPC系统,峰值性能达262TFLOPS,在2013年6月全球TOP500超算排行榜中位列第158名,是当时的国内高校第一、上海市地区第一。

当AI研发风潮席卷学术圈,更多院系希望借助AI加速推进自己的研发成果,有限的算力资源和繁复的硬件部署流程成为挡在他们面前的主要阻碍。

此时,一个稳定成熟且拥有强大算力基础的资源调度平台成为刚需,它可以按需进行AI算力供给和分配,同时有专门的技术和运维团队予以支持。

这将使更多研究团队在满足AI计算需求的同时,无需自行购买硬件设备,也不必在环境配置和应用部署耗费时间,而是更加专注于自己的科研项目本身。

作为是国内早涉足AI领域的高校之一,上海交通大学有着丰富的AI计算需求。

恰逢超级计算机迭代之际,上海交通大学AI计算平台即依托从2018年开始立项的π2.0来建设,它也是国内最早搭建的高校统一AI计算平台之一。

上海交大AI计算平台面向全校提供稳定强大的GPU资源调度,同时也支持校外用户来申请计算资源,峰值算力达16PFLOPS

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研▲上海交通大学网络信息中心服务器

π2.0集群从2019年4年正式启动设备的安装部署,程盛淦也是在此期间开始参与这一新项目的推进。经过机房改造、扩容制冷设备、安装调试等一系列流程,π2.0自2019年11月起正式向校内开放。

程盛淦透露说,2019年12月上海交大AI计算平台整个队列的使用率接近100%GPU利用率达到70%AI相关负载达到75%,其余25%是一些高性能计算负载。

二、搭建AI计算平台,上海交大的三个优势

在高校科研环境中,搭建AI计算平台并非易事,至少面临三方面的挑战。

其一,海量数据和巨大计算需求。AI和HPC都需要海量数据,要求AI计算平台具备较高数据处理能力、存储能力和网络能力。

其二,环境配置。AI和HPC应用的框架、库、驱动程序等复杂组件更新迭代速度很快,需消耗大量人力来维护和编写整个平台的软件栈。

其三,资源调度。AI计算平台需具备完善的资源调度系统和强健的集群管理工具,能够灵活调度集群算力资源,避免不同负载间相互干扰,提升应用运行效率。

不过,这对于拥有多年集群部署经验的交大计算部来说并非难事。程盛淦表示,在打造AI计算平台方面,其团队有三个核心优势

首先,在搭建第一代超级计算机π 1.0时,网络信息中心已经积累了丰厚的用户基础、强大的运维团队和成熟的集群管理经验,能够确保集群系统的稳定运行。

其次,上海交大是最早开始提供GPU计算服务的高校之一。

GPU擅长处理大规模深度学习训练以及部分典型HPC任务,而上海交大在采用GPU做基础科学研究方面有多年的积累,对先进GPU设备和校内计算需求都有较好的理解。

此外,计算部还提出一个创新的交大型服务模式。

计算部借助超级计算机π向高水平科研用户提供丰富的技术支持,和多学科研究进行紧密融合,支撑和催化学校的科研发展。

三、高算力集群背后:DGX-2带来性能爆发

聚焦到AI计算平台本身,这么高的算力如何实现呢?在部署底层基础设施的过程中,上海交大计算部又曾站在哪些选择的交叉口上?

从和程盛淦的交流中,我们提炼了其中较为重要的三点。

1、硬件选型:8DGX-2,打造超强AI算力集群

由于GPU在深度学习训练性能和完整的生态上,相比其他计算设备优势更明显,交大计算部选择使用8台NVIDIA DGX-2服务器来提供底层算力支撑。

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研▲NVIDIA DGX-2机柜

这一选择主要有两方面考量。一是GPU在深度学习训练性能和完整的生态上本身具备优势,二是上海交大在使用GPU计算设备和搭建计算机集群上有长期经验。

而DGX-2又是NVIDIA GPU超高计算和存储能力的集大成者,NVIDIA通过采用多种互联技术,有效提升GPU间以及集群间的互联带宽。

每台DGX-2内置16张NVIDIA Tesla V100 GPU,程盛淦特别提到,DGX-2搭载了NVIDIA NVSwitch创新互联技术,最多可支持16块GPU互联,并将GPU间的总双路带宽提升到2.4TB/s。

(编辑:555手机网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读