通用标准化的胜利——国产“星云”HPC面世
行业观察
近日,我国首台实测运算性能(Linpack运算)超过千万亿次的高性能计算机“星云”在曙光公司天津产业基地研制成功。在2010年5月31日发布的第35届超算排行榜(TOP500)中,“星云”以1.27Petaflop/s的运算速度,成为全球排名第二的HPC。“星云”是我国首台实测运算性能超过千万亿次的HPC,也是有史以来中国的超级计算机在世界HPC TOP500排行榜上获得的最高名次。
遥望“星云”
根据维基百科的解释,星云就是散布在银河系内、太阳系外的一堆堆非恒星形状的尘埃和气体(星际物质),它们的主要成分是氢,其次是氮,还含有一定比例的金属元素、非金属元素及有机分子。星云是恒星的出生地,星云的尘埃在引力下可逐渐收缩成为新的星球,如猎户座的M42星云。“星云”和曙光6000有什么关系呢?据悉,“星云”只是曙光6000的“服务分区”系统,曙光6000有“服务分区”和“计算分区”两大系统,可见其性能的强大。
并且,按照曙光公司总裁历军的解释,“星云”还有更深层次的含义,它是“星群+云计算”的混合体。
“星群”这个概念是怎么回事呢?众所周知,高性能计算机(HPC)和超级计算机都具备鲜明的集群特性,集群是一种计算机系统组成形式, 它可将一组松散的计算机通过软件和硬件连接起来实现高度紧密的协作计算。一个集群系统便是一台高性能计算机,集群内的单个计算机则被称为节点。而历军先生提出的“星群”,从天文学概念来看,是出现在宇宙中的一种非正式星座形态的恒星集团,像星座一样,它们基本上是由一些在相同方向(以地球视角)上的恒星组成,但没有物理上的实质关联性,一个星群可以由同一个星座的恒星组成,也可以是来自多个不同星座的恒星。而超级计算机中的“星群”概念也具备类似特性,与普通的集群不同,它由很多个高性能节点组成,每一个节点的性能都很强,并且在组成上可以是同构的(可以由同一个星座的恒星组成),也可以是异构的(也可以是来自多个不同星座的恒星),并且可没有物理上的实质关联性,如曙光6000有“服务分区”和“计算分区”两大系统,如果它们在一起并行工作,那就可迅速汇聚成为一个“灿烂无比的星球”,为高性能计算提供强大的性能。
从实质上来看,超级计算机“星群”和流行的网格计算(网格集群)、云计算集群异曲同工,它们作为一种与集群计算相关的技术,与传统集群技术的主要差别是:网格计算机系统或云计算机系统可以连接一组相关并不“信任”的计算机,它的运作更像一个计算公共设施而不是一个独立的计算机,并支持更多不同类型的计算机集合。此外,超级计算机是构建云计算系统的重要硬件设施,曙光6000在投入运营后,云计算中心是它要实现的主要用途之一,“这就是曙光千万亿次超级计算机命名为‘星云’的原因。”而曙光公司将曙光6000分为“服务分区(网格集群,云计算中心)”和“计算分区(高性能计算集群)”两大分区,则是应对这种未来发展趋势的最好诠释。


诠释曙光6000
纵观目前的高性能计算机研发企业,IBM、Cray、HP、Sun等国外企业和联想、曙光等国内企业都具备较强的实力。2009年底全球排名前5位的超级计算机,Cray公司研制的“美洲豹”暂列第一,它隶属于美国能源部,Linpack运算速度可达1.75 Petaflop/s(千万亿次/秒);IBM公司研制的“走鹃”排名第二,Linpack运算速度可达1.04 Petaflop/s,主要用于美国核武器研究;位于美国的排名第三的“海妖”Linpack运算速度为831 Teraflop/s(万亿次/秒);欧洲运算速度最快的超级计算机“尤金”排名第四,Linpack运算速度高达825 Teraflop/s;排名第五的为我国的“天河一号”,Linpack运算速度为563 Teraflop/s。随着新一代超级计算机的不断面世,以及厂商对老一代机型的不断改进,这个排行榜已发生剧变。
“星云”的理论峰值运算能力为2.98Petaflop/s,而Linpack运算性能则为1.27 Petaflop/s,位于第35届HPC排行榜第二位。作为曙光6000千万亿次高性能计算机系统的两大分区之一的“服务分区”,“星云”采用了最新32nm制程工艺的英特尔六核至强X5650,并使用了NVIDIA Tesla C2050 GPU进行协处理,由近9280颗通用CPU和4640颗专用GPGPU组成,峰值运算性能为每秒近3000万亿次,实测Linpack性能为1.27 Petaflop/s,力压知名的IBM“Roadrunner(走鹃)”超级计算机。即使按目前各主要国家的超级计算机研发状况来看,在未来一两年内,“星云”也可稳居全球HPC TOP500榜前10名,这对国内研究机构紧密跟踪世界超级计算机的前沿水平大有裨益。
而曙光6000的“计算分区”一旦研制成功,曙光6000全套系统冲击全球HPC TOP500榜第一名也大有希望。曙光6000及“星云”如何能达成这样强的运算性能呢?新一代X86通用处理器和NVIDIA“费米”GPGPU组成的异构模式是重要因素。在节点方面,曙光6000采用了最新推出的SSI模块化刀片服务器TC3600,而在网络连接方面则使用了单向40Gbps QDR Infiniband模块,这也是重要因素。
作为集群节点的重要组成部分,曙光TC3600刀片服务器由TC3600刀片机箱(具有强大灵活的网络和I/O扩展能力,可按需配置、可“伸缩”、绿色节能)、刀片服务器(如CB60-G2、CB60-T等)、各种机箱模块(如Infiniband交换模块、网络交换模块、管理模块、电源模块等)组成。它采用10U的标准机架,可提供10个刀片托架;计算刀片有多种处理器架构供选择(支持Intel及AMD、龙芯等处理器),可以针对特定应用进行优化选择,将适合各种应用需求的多种计算刀片平台并存于统一的刀片机箱之内,从而获得最佳的整体解决方案。
并且,值得关注的是曙光6000采用了标准化、模块化的设计,是全球首款符合HPCSC(中国高性能计算机标准委员会标准,由曙光主导)/SSI(模块式服务器系统架构,由英特尔主导)双重标准的刀片和超级计算机(关于刀片服务器的标准化请见2010年第8期《高标委联姻SSI,刀片服务器走向通用化》),可使用多个厂商的网络模块、管理模块、计算刀片;也可使用不同时期的符合标准的模块,延长刀片系统的使用周期,保护用户的投资。作为横跨HPCSC和SSI两大阵营的核心厂商,曙光公司此次顺利推出可进入全球HPC TOP500榜前10强的通用标准化高性能计算机,必将引发HPC行业的震动,这不仅可以降低本土产品的开发时间和成本,提高市场竞争力,还可进一步影响HPC国际通用标准规范的走向。

HPC通用标准化的最强音
《电脑报》在年初的HPC展望文章中就已指出,在整个高性能计算机市场,“强者恒强、大者更大”的趋势仍未改变,虽然在2009年度的全球HPC TOP500榜中,中国拥有21套系统,占的份额为4.2%,位于天津国家超级计算中心的“天河一号(Tianhe-1)”排在第五位,创造了我国超级计算机的最好成绩(此前曙光4000A和曙光5000A曾两次排到第10位),但仍无法改变国内服务器品牌在刀片服务器、高性能计算机领域的弱势地位。而国内服务器企业要想在刀片服务器、高性能计算机市场获得更大的实际突破,抱团作战、产品标准化是重点也是难点。
曙光6000及“星云”的出世,为刀片服务器、高性能计算机、超级计算机标准化奏响了最强音,它对整个服务器行业的启迪作用不亚于HPC运算能力首次跨入每秒一千万亿次。曙光公司作为目前国内唯一一家具备自行研发刀片服务器能力的公司,从兼容性和成本角度考虑,曙光TC3600全面采用了模块化设计,符合英特尔SSI规范,不但兼容自己的CB60系列刀片服务器,还兼容所有符合英特尔SSI标准的计算刀片,并且支持符合SSI规范的所有管理模块,所有千兆交换机模块几乎都适用,包括散热等部件都有两家以上可供选择的供货商。标准化让曙光在“星云”的基础上快速打造更多的“星云”有了保障,未来更多的“大星云”、“中星云”、“小星云”将可按照客户的需求快速定制推出,就如同搭积木一样简单。
此外,据龙芯总设计师胡伟武表示,千万亿次超级计算机曙光6000在其“计算分区”中将首次采用8000至10000颗八核的龙芯3B处理器,这也是曙光6000值得关注的看点之一。虽然单颗龙芯的计算能力与英特尔及AMD同核心的主流产品相比仍有差距,但通过采用众多的龙芯处理器进行并行计算,整个曙光6000系统的计算性能不会减弱。届时,完全拥有自主知识产权的实测运算性能达每秒数千万亿次甚至亿亿次的超级计算机,将使中国在高性能计算领域与国外的差距进一步缩小。
编后:温家宝总理提到,“星云”再次证明了中国人拥有高超的智慧和创造力,以及勇于突破难关的坚韧精神。高性能、高效能、高可靠、高密度、低功耗、低成本的“星云”将于今年年底正式交付国家超级计算深圳中心,用于科学计算、互联网智能搜索(含云计算)、基因测序等领域。与“天河一号”相比,曙光6000不仅具备倍增的性能,而且具备标准化的优势及更好的异构计算、网格计算特性,能更好地满足未来高性能计算、云计算领域的需求,值得关注。从一定意义上来说,国际上技术标准的竞争是对未来产品、未来市场和国家经济利益的竞争。正因为如此,技术标准之争正日益成为产业竞争的制高点,而曙光6000则是HPC通用标准化的代表产品,在其推动下,在未来的超算领域来自中国的HPC会越来越多。