金榜题名时——由HPC TOP500想到的
案例分析
高性能计算历来被视为国家实力的象征,代表着一个国家计算机的发展水平,与趋于白热化的“登月热潮”相比,全球高性能计算机TOP500排名的竞争丝毫不逊色,且有愈演愈烈的趋势。前不久,半年一度的全球最快计算机性能排行榜——高性能计算机TOP500出炉,这份榜单新排定了全世界高性能计算机(HPC)的座次。人们从该榜单中不但可以了解高性能计算领域的最新技术和发展趋势,更可以据此预测未来高性能计算产业的走向。
强者仍强,新秀不断涌现
在这届高性能计算机TOP500排行榜中(附表1),上一届的冠军——Roadrunner(走鹃)卫冕成功。Roadrunner是IBM研制的高性能计算机,也是全球首台采用混合架构的高性能计算机。这台高性能计算机基于IBM QS22刀片服务器系统,搭载了双核1.8GHz皓龙处理器和3.2GHz的PowerXCell 8i协处理器,一共有129600个处理器核心,数字计算能力达到1.105 Petaflop/s(千万亿次/秒),它还是TOP500榜中能源效率最高的系统。
第2名是美国橡树岭国家实验室的Cray XT5 Jaguar,其计算能力达到了1.059 Petaflop/s,与Roadrunner相差不多。而第3名则被一个新面孔所占据——它就是安装在德国尤里希研究中心的一个名为JUGENE的IBM HPC系统。JUGENE的Linpack基准测试性能达到825.5 Teraflop/s(万亿次/秒),理论性能峰值可以超过1 Petaflop/s。而上一届的第3名,其计算能力仅为487 Teraflop/s,与前两位的差距明显。在今年的前10位排名中,所有高性能计算机的计算能力全部超过了200 Teraflop/s,这也说明了10强之间的差距在缩小。除此之外,这一届的前10名榜单中还有另外两个新面孔:一个是排名第6位名为Kraken XT5系统,Linpack性能为463.3 Teraflop/s,另一个则是排名第9位名为Dawn的IBM HPC系统,Linpack性能达到415.7 Teraflop/s。而上届排名在第10位的我国研发的曙光5000A超级计算机系统则下滑到第15位。从中也可看出在高性能计算机领域不进则退的法则,但曙光5000A仍是目前世界上最大的运行Windows HPC 2008操作系统的高性能计算机。
在高性能计算机系统供应商的表现方面,IBM的HPC系统在这届高性能计算机榜单中占188款,少于惠普公司的212款,但IBM的这些高性能计算机合计的计算能力达到8.9千万亿次/秒,在计算能力总和中占39.4%的份额,而惠普HPC系统的计算能力总和仅为5.68千万亿次/秒(占据计算能力总和的25.1%)。可以说,IBM在计算能力的排名上成为赢家,惠普在系统排名上是获胜者。
在处理器方面,本届高性能计算机世界500强排行榜榜单中,所有的高性能计算机共使用了410多万个处理器核心。有340款系统搭载的是英特尔的四核至强处理器,如果把配置六核安腾处理器和其他至强处理器的HPC也计算在内的话,那么总计有399款HPC系统配置了英特尔的处理器。有13款HPC系统采用的是AMD的双核皓龙处理器,28款系统配置的是四核皓龙处理器,还有两款系统搭载的是六核皓龙处理器,采用AMD处理器的HPC系统数量为43款。除此之外,Power、Sparc芯片也占有一定的份额(附表2)。
可以说,在高性能计算领域,英特尔已经确立了自己的领导地位,并会继续扩大自己的优势。IBM虽然在排名和HPC数目上仍然拥有优势,但也正遭遇着惠普的强劲挑战。

我国HPC行业应奋起直追
通过高性能计算机TOP500排行榜可以看到一个国家在一定时期内,在高性能计算领域的研制水平,当然也可看出科学技术水平和经济实力。从最新的高性能计算机TOP500排行榜中,可以看到美国仍然是高性能计算系统最大的消费国,在500强中占据了291席,欧洲从151个席位下降到145个,但仍然超过亚洲——亚洲从47个上升到49个。另外,在高性能计算机TOP500排行榜的系统中,部署在中国的HPC屈指可数。
在高性能计算机所采用的体系结构上,目前国内的HPC绝大多数为清一色的集群架构,在体系结构的创新上,没有较好的表现。这种集群架构的HPC由于具有局限性,加上缺乏研究对象等实际应用为牵引,使它用于大规模科学计算的效率较低。进行同样的复杂科学研究,国外科研人员是在每秒几百万亿次以上的HPC系统上进行计算,而我们的科研人员有时甚至停留在PC机的“手工作坊”水平……而在世界上以峰值速度排名的500强HPC中,每秒百万亿次以上都是高效的科学计算机,有282款高性能计算机采用了以太网连接,另外的151款HPC系统采用了各种速度的InfiniBand互联架构,有3款系统使用的是SGI的NUMAlink互联架构,有10款系统使用的是IBM的SP交换机。
采用互联架构的最大优点是可以快速扩展计算机的运算能力,比如位居第一的走鹃HPC,如果使用速度更快的40 Gbps InfiniBand交换机,可以在不增加核心数量的情况下提高计算机的性能。此外,我国目前单纯地以浮点计算能力作为衡量高性能计算机水平的高低,也不太科学。更令人忧虑的是,在并行软件的编程水平上,我国还很落后。目前我国高性能计算机的应用软件主要依赖从国外进口,软实力方面的差距相当大,应用软件的开发已经成为制约我国高性能计算技术和高性能计算产品应用的另一个主要障碍。
TOP500榜凸显HPC三大趋势
从此次高性能计算机TOP500排行榜中,能看到未来高性能计算技术有怎样的发展趋势呢?
1.多核系统、刀片系统将得到快速发展
高性能计算系统的重要发展趋势就是未来性能的增长将通过增加系统规模来实现,例如使用多核系统,采用大量组件,而不是提高单颗处理器的性能。从TOP500榜单中的HPC系统来看,采用四核处理器已呈发展趋势,但多核系统面对的真正难题是内存访问的带宽限制,因为一个多核芯片上的所有内核都在争夺内存访问路径。目前HPC厂商们正在尝试采用每个Flop和每个内核一个字节的方法,如果这种解决方案可以实现的话,一颗处理器芯片有上百个内核都不成问题,而英特尔正在朝这个方向前进。
另外,刀片服务器由于高密度和易于构筑机群的特点,正成为高性能计算的发展方向,受到了业界的极大关注。从这届全球高性能计算机TOP500榜中的系统来看,由刀片服务器构成的集群取得了很大的发展,有66%的HPC系统即329套是由刀片服务器进行集群配置的。可以说,高性能计算已经成为刀片服务器的一个主要应用领域,刀片服务器已经成为高性能计算机发展的重要动力。
2.性能重要,能效更重要
长期以来,在人们的意识中一直有这么一个观点,那就是“高性能势必高功耗”。随着最近几年来IT行业发展的变化,单一性能的提升已不是值得炫耀的事情,而如何在提高性能的情况下保持功耗不变甚至让功耗降低,这才是一款优秀产品最值得炫耀的。在这一届高性能计算机TOP500榜单中,对能效的追求理念得到体现——排名前10位的高性能计算系统总能耗虽然很高,但能效很突出。在这里英特尔采用45nm的Harpertown处理器的系统取得了相当大的进步,功耗效率在221Mflops/W到240Mflops/W之间(Mflops即每秒百万个浮点操作),这也让采用此方案的系统取得了不错的排名。不过,与IBM强调从硬件层面提高能效相比,英特尔则更强调通过软件调优的方式来提高能效,这也指出了处理器能效控制技术的两个发展方向。
3.HPC走向商用是大势所趋
提到高性能计算,相信许多人会认为它高高在上,只是在科学研究等狭小领域应用,就好比是金字塔的塔尖。不过由于计算能力的不断提升以及系统价格的下降,使得高性能计算正在从科研走向商用,例如最新的全球高性能计算机TOP500榜中,有288套HPC系统服务于商业应用,其中有的应用于石油行业,有的应用于金融行业,有的应用于生物制药行业,甚至一些信息服务方面的应用也在使用高性能计算系统。在这288套HPC系统中,有275套采用了IA架构,这说明了商业客户选择高性能计算系统的时候把IA架构作为首选平台。

值得一提的是,现在中国的高性能计算机发展之所以滞后,其中一个原因就是缺少让自己的核心技术在应用中成长的机会。有几个企业敢于并愿意使用国货呢?中国的高性能计算机市场大部分被国外跨国企业主导,在很多领域甚至是被垄断,如金融、电信等领域。从国际通用的数据来看,高性能计算市场主要分为科学计算、高端商用计算和高可用集群三类,但科学计算仅占高性能计算机市场份额的5%。从IBM、惠普等公司的高性能计算业务在商业市场占的比例为90%的事实看,高性能计算走向商用已是大势所趋。
编后:从此次高性能计算机TOP500排行榜中,我们看到了目前高性能计算机发展的现状及未来的发展趋势,更重要的是看到了我国在这方面与发达国家的差距。令人欣慰的是,近年来我国也大大提高了对高性能计算机研发的投入,银河、神威、曙光等高性能机的研发都是国家大力支持的结果,而运算能力达到每秒千万亿次的曙光6000A也将在明年现身。这也让我们看到了希望,作为一个发展中国家,信息化建设领域或多或少会落后于发达国家,但是我们正在加快高性能计算机研制的步伐,缩短与其他强国之间的距离。
附表1:2009年上半年全球高性能计算机TOP500榜前10名榜单

附表2:2009年上半年全球高性能计算机TOP500榜中各种处理器的应用情况
