医治HPC“软硬失衡”之痛——浪潮联手中科院超算中心进行创新探索
行业观察
一个是高性能计算机(HPC)的生产厂商,另一个是中国高性能计算软件开发与运维领域的专家,两者的合作能够带来什么?6月12日,浪潮与中科院超算中心达成战略合作,双方将为用户提供软硬件一体的高性能计算机解决方案。根据协议,整合了中科院超算中心应用开发技术、浪潮天梭高性能系统技术的一体化方案以及相应的运维服务,将直接提供给广大科研机构、政府、学校、石油、气象等领域的高性能计算机用户。“以前与联想、曙光合作,主要解决怎么建立超算中心的问题,没有到达最终用户层面。我们现在要做的是从最终用户的需求出发设计系统,解决他们在应用中的问题。”谈起双方合作的初衷,中科院超算中心主任迟学斌表达了这样的想法。
目前高性能计算机行业面临哪些问题?双方的合作能够解决高性能计算产业“软硬失衡”导致的应用瓶颈吗?这样的模式是否值得复制?
HPC“好马还需配好鞍”
尽管大家的目光都盯在高性能计算机的运算峰值上,但软件方面的配套缺陷却成为进一步提高高性能计算机应用效率的瓶颈。
近年来,我国高性能计算机的硬件水平不断发展。在去年的全球高性能计算机TOP100排行榜中,进入TOP100的高性能计算系统的总Linpack测试性能已经突破千万亿次,是2007年的3.29倍,单位计算能力的价格也进一步下降。但与峰值速度的上升形成对比的是,高性能计算机的客户实际应用性能堪忧,“很多系统的实际运行效能往往不超过20%。”浪潮集团高级副总裁王恩东在发言中表示,“很长时间以来,一提到高性能计算机,我们就极力渲染它的运算速度、计算峰值,其实真正的高性能计算中心,绝对不应该是花费几百万元甚至上千万元购置的一堆高性能设备,更重要的是如何让高性能计算设备高效运行起来。”
王恩东还打了一个通俗的比方,“就好像一辆豪华跑车,光安上法拉利的发动引擎是不能成为一辆好车的,必须要匹配能够发挥法拉利发动引擎性能的变速箱、轮胎等系统设计。而现在HPC行业软硬件失衡的问题,就好像是在跑车上安装了法拉利的发动引擎却没有其他系统相配合,因此只能跑出普通夏利的速度来。”
究竟是什么原因造成高性能计算机软硬件失衡的问题呢?迟学斌在接受本报记者采访时一语道出根源,“现在所有的高性能计算项目里都是以硬件设备的建设为主,大家认为软件方面应该由应用企业的开发人员来做;另外,大家觉得软件是看不见的,而硬件可以参观、拍照,加上我们在这块的引导做得也不够,因此造成大家只重视硬件而不重视软件。”
“院企合作”的探索
实际上,浪潮和中科院超算中心的“院企合作”也算是国内高性能计算机产业的一种新的合作模式的探索。
“术业有专攻”,迟学斌认为,利用中科院超算中心多年来承担国家重大科学计算项目的应用经验,再加上浪潮的高性能计算机产品天梭系列,中科院超算中心可以将积淀多年的经验转化为有形资产,通过与浪潮的合作向更多的企业用户和机构输出,达到更大的经济价值。
“无论前期建设、应用开发,还是后期的系统运维与应用优化支持,所有技术问题都由我们来担当,让科研机构的专家们能够专心投入于科研项目本身。”王恩东谈到了双方合作的分工问题,“浪潮与中科院的合作,通过优化技术和应用软件开发技术的输出,帮助用户数十倍甚至上百倍地提升系统运算速度。”
据悉,目前在浪潮首家推出的桌面超算倚天系统上,浪潮与中科院超算中心已经组建了一支专门的应用开发队伍,专门从事最前沿的GPU+CPU协同加速技术的应用软件开发、移植和优化工作,企业用户将从中直接受益,并且目前已经有一些行业客户开始享受到双方联合团队的技术支持。
比如华中科技大学的模具技术国家重点实验室,该实验室主要从事塑性成形模拟(CAE)、模具CAD/CAM、新型模具材料等方面的研究。但模具模拟需要海量的计算,而且多次改进模具会使模拟计算多次滚动进行,计算耗时成为影响科研进度的一个重要因素,而科研进度直接关系着客户的创新周期和竞争力。因此华中科大又购置了一套多核CPU的高性能系统,原本以为设备更新和扩容之后,计算时间也会随之缩短,然而在实际应用中却发现并非如此。在邀请了浪潮的专家进行诊断之后,发现是因为原有的应用仅支持单线程,多核CPU的计算能力无法发挥,经过优化后,多核处理器的优势得以发挥,实验室的平均科研周期缩减了2/3。
对话:

如果我们自身的能力够强,有自己的“高斯软件“等,从一开始在高性能计算软件的研发和推广阶段中,就与浪潮、曙光、联想等国内厂商的HPC结合在一起,这就会形成我们国家自己的高性能计算优势。

电脑报:我们知道,在全球金融危机的影响下,不管是国内企业还是国外企业,采购IT产品的支出正在减少,这对服务器的销售也有冲击,你如何看待现在国内的高性能服务器市场?
刘军:实际上经济危机对我们的影响是正面的,去年我们的高性能计算机业务增长200%左右。国外大部分HPC市场都处于衰减中,在国内却高速增长,这里面很重要的原因是我们国家现在对创新的重视,对以高性能计算、软件、硬件创新的重视,所以在HPC方面的投入比以往的力度大很多。不过受经济危机的影响,与能源、石油行业相关的HPC市场从去年到现在下滑得比较厉害,但在科研机构、高校等市场HPC处于高速增长中。
从行业应用来看,HPC不仅仅局限应用于气象、石油、军工等传统行业,许多新兴行业对HPC的应用需求正越来越强,比如图形渲染、图像处理、生命科学等行业,这些新兴HPC应用领域的快速增长带动了中国HPC市场快速发展。
不仅如此,现在许多地方政府也在倡导建立地方超算中心,为区域内或行业内企业用户提供超算服务。同时,国内的HPC也有向桌面化和个人化发展的趋势。
电脑报:国内的高性能计算在应用方面是比较滞后的,在应用上与国外先进水平相比有多大的差距?
刘军:这方面可以举个例子,比如高斯软件,许多做化学、物理研究的都要买这款软件,但该软件的授权从几万元到几十万元不等。中国在化学方面的研究也有许多自己的知识产权代码,如何把这些组合起来,提供给中国乃至全球相关的客户使用?我们在大型软件产业化运作方面,如何把研究者的成果转化成产品推到市场上,这方面与国外的差距是比较大的。
电脑报:现在许多高性能计算机用户只重视硬件,不重视软件,这次合作将软硬件结合在一起,将如何说服行业用户接受这个观念呢?
刘军:此前,行业用户在进行HPC招标时,往往是谁的HPC峰值速率高就买谁的产品。而我们希望通过一些宣传,让行业用户改变观念——谁性能高就买谁的。通过与行业客户合作,为客户分析从规划到运营等不同阶段出现的问题,以及该用怎样的方案解决,在使用过程中会出现什么问题等都分析清楚,让行业用户意识到我们的解决方案的价值。当然,这也需要一个时间过程。
电脑报:在去年全球HPC TOP100榜单里,这些HPC大都采用的是国外的系统,尽管从性价比来说国内企业的HPC系统有一定优势,但很多行业用户就是喜欢采用国外系统的HPC,你觉得我们该怎么缩小和他们的差距?
刘军:这里面有两个原因,第一个大家比较容易理解是品牌上的依赖感,或者说是对品牌的迷失。还有一个深层次的问题大家看不到,就是HPC硬件与软件的“结合”。我们为什么做一些产品化、产业化的运作,因为许多行业软件是国外公司生产的,在国外就与IBM、惠普达成了深层次排他的合作。
如果我们自身的能力够强,有自己的“高斯软件“等,从一开始在高性能计算软件的研发和推广阶段中,就与浪潮、曙光、联想等国内厂商的HPC结合在一起,这就会形成我们国家自己的高性能计算优势。
电脑报:能否举例介绍一下中科院超算中心这几年在大型软件开发方面的优势?
迟学斌:我们在基因测序等方面进行了软件的研发,比如我们研制了并行的P_Inspect 软件,从而实现1024 核规模并行运算,使得原来一个月才能完成的计算任务,一下缩短到10分钟。
在计算化学方面,我们希望集成国内著名科学家的资料,做一个计算化学的软件,平台就搭建在我们这里,我们把前期处理、后期处理结合起来,再加上中间件软件,打造一个中国品牌的“高斯软件”。高斯软件是计算化学方面非常常用的软件,我们国家每年在这上面花的钱不计其数。
另外也包括像网格技术等等,我们做网格中间件,整个中科院院里的三层网格结构就是用我们自主研发的网格中间件来建设的。
电脑报:双方合作下一步的计划是什么?未来希望达到怎样的预期目标?
迟学斌:我们需要在研发软件的过程中不断发展,比如现在有30个人,做应用有四五个人,未来会根据市场的情况再加大投入。我们与浪潮的合作就是希望能够降低人力成本,利用现有的条件,我们可以先给用户开展工作,后面可能会再成立专门的团队。
我们预期的目标是浪潮出去与行业用户接洽,将用户要买什么机器、需要什么应用等信息提供给我们,我们来帮助行业用户开发这些应用,这样行业用户也可以知道你有能力帮他们做好售后,而不只是卖机器给他们就完了。
电脑报:你如何看待国内企业与IBM、HP等国际企业在HPC应用方面的差距呢?
迟学斌:举个例子吧,目前气象局用的是IBM的HPC,当时在招标采购HPC时,国内许多HPC厂商都参与了,但最后IBM胜出。
其实IBM的HPC一点都不便宜,而且每年的服务费一般的行业单位是承受不了的。为什么还要选择IBM的HPC呢?从气象局的角度来讲,IBM的HPC是一个综合业务预报系统,在上面运行的软件必须达到某些标准。但国内HPC厂商的技术力量就显得比较薄弱了,竞争不赢IBM和HP这样的国际企业。因此我们只有将HPC硬件和软件结合起来,开发出强大的HPC软件系统,才有实力和国际HPC企业一较高下。