探秘全球最快的HPC“天河一号A”
案例
2010年11月17日,国际超级计算机组织发布了第36届世界超级计算机500强排行榜,位于天津超算中心的“天河一号A”以Linpack实测值2.566PetaFlops(每秒千万亿次浮点运算)、峰值运算性能4.701PetaFlops、系统效率54.6%拔得头筹,成为全球最快的超级计算机。
前不久,记者同来华参加2010 GPU高性能计算论坛的NVIDIA创始人黄仁勋一起,来到位于天津滨海新区的超算中心,近距离接触了全球最快的超级计算机——“天河一号A”。


“天河一号A”配备了14336颗Intel Xeon X5670 2.93GHz六核处理器(32nm Westmere-EP)、2048颗我国自主研发的飞腾FT-1000八核处理器,以及7168块NVIDIA Tesla M2050高性能计算卡,通过采用异构架构——通用处理器和专用加速处理器结合的架构,使用自主研发的高速网络系统、软件优化后的Linux操作系统,登上了高性能计算的世界之巅。
在总面积1000多平方米的机房内,我们见到了“天河一号A”的真面目——13排140多个两米多高的灰色机柜。据天津超算中心主任刘光明介绍,每一个机柜都是“天河一号A”超级计算机的一个计算单元,用户可通过网络终端登录来使用超级计算机,不管这些终端是PC机、工作站还是笔记本。
“天河一号A“采用了双面对插式的高密度组装方案,每一组“刀片”都可以支持热插拔,即插即用,这样使得维护非常方便,机柜内通信连线的路径也最短,确保了信号传送的高速率和低延时。
据介绍,“天河一号A”的最大用电量约为每小时4000度,每月电费近100万元人民币,这么大的能耗必将带来巨大的发热量,天津超算中心是如何解决它的散热问题的呢?刘光明主任介绍说:“主机房的地板下面布满了一排排冷水管。冷水从地板下送入计算机柜侧面的空调单元,产生用于散热的冷风。机柜内每个‘刀片’上都布满了散热器,冷风经过刀片后带走微处理器等产生的热量,然后空调单元将热量通过回水管中的水带到机房外,进行循环制冷。如此一来,‘天河一号A’的能效值提升了近50%。”
我国的超级计算机用户主要集中在石油勘探、天气预报、生物医药、基因研究、流体力学、空气动力学、基础研究等领域,而“天河一号A”目前在天气预报、仿真运算、动画渲染、新药研发等领域发挥着重要的作用。
参观结束后,NVIDIA创始人黄仁勋、天津超算中心主任刘光明和“天河一号A”主任设计师——国防科大计算机学院系统软件研究室主任杨灿群一同接受了媒体的采访,就高性能计算和“天河一号A”的设计等回答了记者的问题。
对话:异构架构催生了“天河一号A”
电脑报:“天河一号A”使用了14336颗Intel Xeon和7168块NVIDIA Tesla。在高性能计算机中,CPU和GPU搭配的数量比例由什么因素决定?
刘光明:基本上,我们在“天河一号A”中主要使用通用CPU做一些整数运算,一些大规模的并行计算则用GPU来做。我们在2009年9月份做了一次试验,根据现在的研究情况发现,整数运算和并行计算的比例为2:1,采用GPU模块计算效率比较高。现在这台机器在硬件设计的时候就已经设定了这种比例,不会再做改变。不过现在是每秒运算千万亿次,未来每秒运算万万亿次的时候,根据应用状况可能这个比例会有所变化,这个还需要继续研究。
电脑报:“天河一号A”在性能、效率、能耗控制方面相比上代产品都有了大幅提升,这背后主要是在哪些方面进行了改进?
杨灿群:“天河一号A”这一代系统的实际性能、计算效率大幅度提高,主要有几个方面的原因:应用了自主研发的高速网络系统,软件优化后提升了应用效率,以及NVIDIA Tesla并行计算GPU的加入。
电脑报:“天河一号A”如今已经是全球最快的超级计算机,为了保持这种优势,我们未来需要进行怎样的努力和创新?NVIDIA未来将对中国的超级计算机发展提供怎样的支持?
刘光明:在突破每秒千万亿次计算大关的过程中,我们遇到了世界性的速度难题。从2005年到2007年,我们一直在进行研究,最终决定采用异构架构,即通用处理器和专用加速处理器结合的方式突破速度难题。这过程中我们试验过自己的军用流处理器FT100,2009年也尝试过AMD的GPU,最后发现NVIDIA的芯片性能更好。高性能计算机能够做出来,其Linpack实测值虽然世界排名第一,但不等于在实际应用中就很好用,这是两个问题,如何在异构架构下有效地编程是下一个大的挑战。我们有一个专门的团队,几年前就在开展这项工作,现在已经取得了不错的成绩,但未来还有很多的任务要完成。
黄仁勋:并行计算面临的困难非常多,但正确解决这些问题带来的效益也非常可观。整个高性能计算行业在过去30年都在努力,想要解决并行计算的难题,直到CUDA的出现,大家终于找到了CPU+GPU的异构计算模式。因为CUDA,并行计算现在有一个非常光明的前景,不过在这一领域我们仍然面临着非常多的挑战。未来,我们将更加紧密地同刘博士的团队合作,创造下一台更强的超级计算机。
