GPU助力,高性能计算机“异构化”

特别策划

CUDA(Compute Unified Device Architecture,统一计算设备架构)是由NVIDIA(英伟达)推出的通用并行计算架构,该架构将GPU强大的并行计算能力充分调动起来,使GPU在解决复杂计算问题时能够发挥其先天的优势。开发人员现在仅使用C语言,就能在基于CUDA架构的GPU上编写程序,所编写出的程序可以在支持CUDA的处理器上以超高性能运行。

中国科学院过程工程研究所(以下简称过程所)研究员、超级计算系统项目负责人葛蔚介绍了研究所使用GPU高性能平台的应用实例,希望能为其他高性能计算机用户提供借鉴。

案例一:异构型HPC在过程工业的应用

过程工业是以物质和能量的转化为核心的基础产业门类,包括了化工、冶金、钢铁、能源和环保等影响国计民生的重要行业,其年产值目前占中国GDP的近1/6。但这些产业也面临着能耗和资源消耗量大、污染严重等严峻的挑战,探索优化工艺流程的新技术,提高生产效率和产品附加值,正日益成为这些行业竞争的焦点之一。

1.异构型HPC提高性能、降低成本

葛蔚研究员说,计算机模拟技术在这方面大有用武之地,而模拟对象的复杂性决定了它对超级计算机的迫切需求。而基于CPU的传统超级计算购置成本高,实验周期长,使企业既有成本压力带来的顾虑,又难以适应快速变化的市场节奏,极大地限制了模拟技术在过程工程中的应用。

宝钢、中石化、中石油等中国过程工业的龙头企业,一直致力于探索与应用既能实现工艺流程优化,又能节约成本、提高效率的最新技术,过程所在为这些企业进行项目研究时找到了新的解决方案。

中科院过程所经过长期探索,逐步认识到多尺度结构和离散化是许多工程问题的共同特征,因此建立了相应的通用算法框架和专门的硬件体系结构,通过模拟对象、软件和硬件的结构一致性实现高效能、低成本的超级计算。

过程所于2009年成功搭建了主要基于NVIDIA Tesla GPU的多尺度离散模拟并行计算系统,单精度运算峰值超过每秒1000万亿次浮点运算,为过程模拟提供了强大而实用的工具,从而服务于节能降耗和工艺流程优化。“如果采用通用系统搭建这套系统,费用大约在2亿元,而现在采用GPU平台搭建只用了2000万元,不到200平方米的空间就能装下。”葛蔚介绍道。

葛蔚说:“使用GPU搭建超级计算平台,不但能提高相关软件和硬件的能力,而且还能大幅降低能耗,使某种化工反应器模拟时间从一天缩短到2分钟,这是一个革命性的进步。”与以前单纯使用CPU搭建平台相比,使用GPU+CPU搭建平台不仅成本大幅度降低,还能极大地提高计算机的效率,如某大企业冶金过程的离散粒子模拟的速度提升了50倍。

2.异构型HPC的行业应用

利用GPU超级计算系统,过程所已成功开展了多相流动直接数值模拟、材料和纳微系统微观模拟和生物大分子动态行为模拟等应用,证明了多尺度离散化并行计算模式的优势和前景。例如,对过程工业中常用的流态化反应器,通过模拟方法上的改进,该系统已能按接近实时的速度,从毫米级的颗粒尺度模拟米级的宏观行为,这种能力在中石化清洁汽油生产工艺的开发和优化中已经发挥了重要作用。

此外,过程所的这套系统也正应用于中石化的缝洞型油藏的驱采过程模拟。采用该系统的96个GPU,对含有100微米左右缝隙的0.16平方米的岩石样本,直接数值模拟的速度达到了4秒钟计算物理上的1小时,从而能有效替代费时费力的物理实验。

而对于冶金过程,该系统甚至能对数千立方米的高炉中厘米级的矿石物料进行全系统的三维动态模拟。如采用120个GPU,5个小时就能复现一个完整的布料过程。目前该系统已在宝钢新型钢渣处理工艺的开发中得到实际应用。葛蔚用实践数据显示,在上述过程中,NVIDIA GT200 GPU的实际单精度速度普遍达到了CPU的30倍以上,应用效果非常不错。

目前过程所正与联想和曙光合作,将为国内近10家企业用户分别建立百万亿次运算级GPU+CPU异构并行系统,实现在过程工程、信息技术和基础科学研究等多个领域的应用。

44-行业2-1-1.jpg
正在部署中的HPC机房

案例二:异构型HPC助力甲型H1N1流感疫苗研制

葛蔚研究员介绍的另一个应用是其同事研究的基因分析与比对,这项研究也需要进行大量的数据收集与分析。“目前,甲型H1N1流感给民众带来很大的危害,相关研究人员很想知道该病毒的基因是怎样的。”葛蔚介绍说,在甲型H1N1流感疫苗的研制过程中,HPC也帮了很大的忙。

随着基于基因、蛋白质和DNA的微观生命科学研究的日益深入,生命科学领域的数据量平均每12个月就增加一倍,研究者对超级计算机和集群系统的要求越来越高,需要不断探索新技术。

为解决技术难题,浪潮“倚天”桌面超级计算机采用NVIDIA Tesla技术,建立了一个全新的运算平台,为中国科学院北京基因组研究所的大规模研究服务,包括基因组序列分析和多态性研究、基因及蛋白质表达研究、生物信息学系统研究及生命科学系统研究等。

传统CPU计算平台已无法承担数据高速增长带来的挑战:任何一个小的修改,就要重新做一遍基因组比对,而每个人大约有30亿个基因对,数据量动辄以TB来计量,做一对染色体的基因测序就需要半个月时间。

NVIDIA Tesla实现了单纯的CPU平台难以企及的密集并行计算,使异构型超级计算机的体积缩小了很多,能耗降低80%,噪音降低为原来的33%~50%,价格下降90%,最重要的是,运算速度大幅提高。“不要小看噪音降低为原来的33%~50%这个性能指标,我们的研究人员就在机房里工作,整天与机器相伴,噪音降低实在是一个很盼望的目标。”葛蔚介绍道。

目前,为促进中国生命科学研究,浪潮和北京基因组研究所将基于GPU的BLAST软件转为开源软件,让中国乃至世界的科学家都能使用中国人在GPU上的研究成果。