加入收藏 | 设为首页 | 会员中心 | 我要投稿 555手机网 (https://www.555shouji.com/)- 热门手机、手机评测、云手机、手游、5G!
当前位置: 首页 > 智能家居 > 正文

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

发布时间:2020-04-22 14:18:15 所属栏目:智能家居 来源:网络整理
导读:从上海交大AI计算平台,看高校如何跨越超高算力难关,助力科研成果转化?

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

DGX-2的硬件性能优势,使其可以支持此前GPU服务器难以支持的大规模AI和HPC应用。

比如,上海交大生命科学学院的一个团队在做针对单颗粒冷冻电镜图片处理的软件框架Relion,用到的数据集量级高达1TB。这对普通GPU服务器来说过于庞大,但在上海交大AI计算平台的帮助下,该团队通过使用DGX-2全机6节点8卡的配置,顺利完成了计算任务。

2、软件优化:协同硬件,提升GPU有效利用率

有了高性能的硬件基础设施,还要思考如何能更好保障GPU有效利用率。对此,程盛淦所在的团队重点做了三方面的工作。

(1)搭建了DGX-2和π 2.0集群共享的并行文件系统,这个文件系统加上DGX-2本地NVMe存储,保证数据传输速率能承担大规模数据量处理任务。

(2)根据AI计算平台的实际情况,采用SLURM作业调度系统和Singularity容器技术相结合的方式, 保证用户作业相对独立,有效实现资源隔离,以最高的效率为用户提供最佳性能的应用支持。

(3)通过NGC为用户提供经过特别优化处理的容器镜像,进一步优化软件部署流程。

在DGX-2上直接运行应用可能面临编译流程复杂、应用优化需与最新硬件适配、AI领域实验复现和环境管理难等问题,因此用户需要一个性能优异、开箱即用的应用部署方案,而NGC是一个很好的选择。

NGC 是NVIDIA针对GPU优化的AI和HPC软件堆栈的容器平台,提供超过50种相关应用和框架的镜像,简化了软件部署流程和软硬件协同调优流程。

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

例如,使用PyTorch在ImageNet数据集上训练ResNet50,NGC的容器镜像上速度上明显优于开源版本。

3、体验升级:与超算平台统一入口

由于AI计算平台是依托π2.0集群搭建的,是为AI计算平台打造一个独立入口,还是让它和超算系统使用统一的入口,计算部特意做了测试。

经测试用户反馈,统一入口在管理效率和用户体验感方面都更胜一筹。

对于超算老用户来说,超级计算机π 1.0的用户无需学习新知识,即可快速掌握AI计算平台的使用方法。

对于校内新用户来说,统一入口也能降低他们在使用超算平台和AI计算平台上的学习成本。

四、最高提升1.8万倍!超强AI平台助推多项科学研究效率大幅提升

AI计算平台的开放,将做AI处理任务的门槛进一步降低,有助于帮助更多科学研究人员借助AI计算实现更高效地进行科研工作。

此前,π1.0作为校级高性能计算公共服务平台,曾支持理、工、生、医的多篇研究发表于《Science》、《Nature》等高水平期刊上。如今AI计算平台支持的多项科研项目,论文也已经投往各大学术会议和期刊。

截至本月,上海交大AI计算平台已经帮助上海交大人工智能研究院、Bio-X研究院、密西根联合学院等多院系的研究团队去优化计算AI及HPC应用,最高将科研效率提升1.8万倍。

程盛淦向我们介绍了其中的四个典型应用。

1AI应用:二值化神经网络

该研究电子信息和电气工程学院的一个团队所做。他们利用Tensor Core混合精度进行加速并优化了数据读取,使用1台DGX-2达到每秒6826张图的训练速度,比早先在有4张NVIDIA 1080Ti的服务器上跑,速度(103张/秒)提升66.3倍。

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

2AI应用:用强化学习加速类AlphaGo训练

做这一研究的团队同样来自电子信息和电气工程学院,通过采用8台DGX-2、使用NVIDIA MPS技术并调整了负载均衡。

原来用2张NVIDIA Tesla v100卡训练50万局自我对弈需要35天,现在仅用34.8小时就能完成训练。

3AI应用:基于深度学习的空气污染预报

该研究团队来自环境科学与工程学院。他们使用Conv-LSTM模型结合编解码结构,学习全国范围内排放、气象分布到污染物分布情况的映射关系。

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

使用DGX-2单机后,系统训练迭代速度比之前使用1张NVIDIA P100快31.6倍。

4HPC应用:求解声子玻尔兹曼方程

除了为AI训练提供算力,AI计算平台还能支持HPC应用。比如密西根联合学院就利用该平台来求解声子玻尔兹曼方程。

原先用CPU做这一计算需要2周,使用8台DGX-2后,计算时间压缩到2分钟,比此前速度足足提升1.8万倍。

结语:AI计算平台将催化更多科研创新

上海交通大学网络信息中心计算部主任林新华表示:“AI for Science作为科研第四手段已经成为一种国际趋势,而世界著名高校、科研单位在新建计算平台时对数值计算和AI计算都予以了充分考虑。像NVIDIA DGX-2和NGC容器平台这样的先进的硬件配置和软件堆栈方案,解决了在高校科研环境下搭建AI计算平台面临的诸多挑战,加速了学科进步,推动了学科融合。”

林新华认为,AI计算平台不仅是一个面向全校的计算服务平台,更是一个学科交叉以及科研创新平台,可以在此基础上深入开展典型高性能计算应用、AI、大数据等应用科研创新工作。

接下来,上海交通大学网络信息中心计算部希望借助AI计算平台与更多用户深度合作,展开更多研究领域的深层次合作,解决更多科学计算难题,进一步助力提高交大科研水平。

(编辑:555手机网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读