超级计算机与云计算“联姻”
i企业

如今云计算成为热点,众多企业都在打着云计算的旗号推广自己的产品,云计算似乎成了IT行业发展的趋势。近年来有关HPC(高性能计算机,也称超级计算机)的报道也很多,不过自云计算的概念推出后,以低成本高性能为特点的云计算似乎扮演了“革”HPC命的角色。不过现在HPC和云计算这两个冤家却“联姻”了,前不久,北信酷卡传播科技有限公司和国家超级计算中心共同搭建的“天河-酷卡”动漫与影视超级渲染云计算平台正式发布了。
云计算与HPC,冤家难聚头?
超级计算机和云计算都是时下比较火的话题,它们各自在不同领域发挥着重要作用。超级计算机主要面向科学计算、工程模拟、动漫渲染等领域,大多属于计算密集型的应用,比如军事气象、石油开采、科学计算、生物研究,甚至波音飞机、福特汽车、好莱坞动漫电影等这些产品的背后都有超级计算机的功劳。
云计算则主要应用在Web2.0、社交网络、企业IT建设和信息化等领域,以数据密集型、I/O密集型应用为主。云计算的实例有Amazon、Facebook、Youtube、Myspace以及其他社交网站。你也可以将大型多人在线游戏囊括在云计算的应用范畴,比如《无尽的任务》(EverQuest)、《魔兽世界》、《网络创世纪》(Ultima Online)和Second City等。
从技术发展来说,云计算源于“机群并行机、工作站机群(COW,也就是Cluster of Workstations)”以及后来在此基础上出现的集群计算、网格计算等。正是COW计算系统的出现,改变了以前超级计算的格局,它使超级计算的核心技术由原来的以硬件和体系架构为主演变成了以软件为主。在这样的系统中,计算能力不再是最关键的因素,高效的海量存储和处理能力成为核心。
虽然云计算和HPC都是以提供高性能运算为目的,但长期以来,业界将两者看成是矛盾的对立面。在很多人的眼中,虚拟化和云计算是密不可分的,以为任何一朵私有云或公有云都必须在硬件资源层实施虚拟化技术。而业界还存在一种看法:虚拟化是HPC的致命弱点。HPC主要集中执行并行高密度、高负荷的任务,对CPU的利用率几乎能达到100%,很难“分心”来支持虚拟化技术,否则对性能影响很大。的确,云计算的应用和HPC的应用范畴似乎有很大的不同,但仔细分析后不难发现,两者之间仍然存在着一些共同点,比如都使用了分布式计算、集群、网格、高密度计算等技术。

事实上,已有近30年发展历史的超级计算中心就是一种早期的云计算模式。云计算对HPC影响的程度主要视HPC应用类型而定。如果是计算密集型的HPC应用,云计算对HPC性能的影响不是很大,如果是I/O密集型应用,这种影响就可能比较大。比如某些HPC应用并不依赖于节点间的通信,也不需要太多的I/O,这些特定的应用能够很好地与云计算的能力相契合。只要数据能在无需交换的情况下置入节点,应用就可以在云计算环境中运行。而且云计算中的虚拟化使得在某一个计算节点上执行用户自行选定的分配任务变得灵活可行,尤其是像异构环境下的计算任务等,这是传统模式下HPC所不具备的。
现在业界让超级计算机与云计算“联姻”,也是看中了云计算允许用户对各自的虚拟计算资源进行个性化配置,支持用户对CPU、内存、存储等虚拟计算资源的扩展,以及集群中节点的增加这个优点。这无疑能提高超算资源利用率,服务的客户数量和种类更多,例如,可以用于一些商业计算,而不仅局限于传统的科学计算。
另外,目前最新的HPC正在从原来专业的运算平台向开放的公共服务平台发展,面向社会服务,这就需要找到一种更便捷、合理与高效的HPC计算资源的服务方式,云的理念就成为了重要的突破点。实际上,HPC提供的是一种应用环境,而云计算则是一种资源管理与服务交付的新模式,两者是不同层面的话题。但是云计算的加入是目前解决HPC中心应用领域较窄、计算资源闲置的有效方式,“云”可以实现动态伸缩、拓展和迁移,这为用户提供了一个非常良好的计算环境。此次“天河-酷卡”便是HPC与云计算“联姻”成功的案例。
HPC与云计算“联姻”的背后
目前影视动漫行业越来越追求特效所占的比重,更多、更炫目的特效带来的是更多的数据处理。融合着想象力和艺术创作的特效画面,都是经过计算机制作合成的,而创造这类虚拟现实镜头的过程就是“渲染”。每一帧画面的“渲染”,都离不开CPU的“辛勤”工作。国家超级计算天津中心为了有效利用“天河一号”超级计算机的计算资源和技术服务大众,以云计算服务的方式向北信酷卡公司提供计算服务,成功搭建起了全球第二例基于Linux平台下的“天河-酷卡”渲染管理软件及云计算提交平台。
在传统方式下,渲染一部影片一般需要数周乃至数月。3D动画巨作《驯龙高手》在基于由1万个处理核心,以每周7天,每天24小时的工作量计算,渲染过程持续28周,“天河一号”按20多万个处理核心计算,渲染《驯龙高手》这样一部动画电影,大约在10天内就可以完成。而影片《阿凡达》创造的诸多纪录中,除了票房收入,还包括它为制作特效而占用的CPU内核数量——大约4万多个处理核心,需要10Gbps网络连接的数据中心渲染一年多时间,如果采用“天河一号”进行渲染,仅需要两三个月甚至更短的时间。


基于云计算理念构建的HPC服务和传统的HPC服务有着显著的区别:前者面向的是更广阔的用户群体而不是少量的高端用户,用HPC构建的“云”使得用户不需要任何HPC技术背景,可以在感知不到HPC的情况下使用HPC云服务。比如“天河-酷卡”平台采用云计算模式,就可以让用户足不出户,在互联网上提交任务,随时观测渲染效果,最终下载得到加工后的影片,大大提高了效率和影片质量。除动漫影视外,“天河-酷卡” 动漫与影视超级渲染云计算平台还适用于古建筑文化遗产的修缮和保护、立体建筑可视化的大场景渲染和智能数字化环境中虚拟环境效果的实现等。
当然,“天河-酷卡”平台的推出,并不意味着HPC的“云中漫步”是轻而易举的事情。目前高性能计算和云计算当中,哪些应用适合在“云”上进行,哪些应用适合在原来的机群上做,还是一个需要积极探索的问题。HPC应用比较特别,HPC应用与底层平台之间其实是非常紧密的“耦合”关系,不同的HPC应用对底层的要求有较大的差别。在建超算平台的时候,无论是沿用传统方式,还是采用云计算方式,都不要指望建一个HPC平台就能“通吃”各种应用。另外,HPC在“云”中可以降低成本,HPC应该更多地被应用到“云”中以提高效率。但是这需要“云”本身有非常强大的自动分区能力,需要很快的网络连接,快速向用户提供所需的计算环境。问题是现有的网络带宽环境还不行,那种理想的情况,即HPC用户通过网络上传HPC应用实现起来恐怕还够呛。
云应用,未来HPC的用武之地
不知不觉中,HPC云这种新计算方式已经来到了我们身边。未来HPC将是云计算的重要组成部分,而云计算将扩大HPC服务的范围。如同几年前用大众化的PC服务器搭建集群,以及最近用GPU加速科学计算一样,云计算对于HPC也是一次应用模式转变。云计算与HPC的双剑合璧,扩大了HPC的服务范围,而随着虚拟化程度的提高、通信延迟度的降低,HPC云这种计算模式将在更大范围内吸引行业用户。
基于云计算理念来构建超级计算中心,除了满足传统的或现有的HPC用户的需求外,更重要的是能吸引众多新领域的用户。特别是在高端计算和桌面计算之间,存在众多对高性能计算有潜在需求的用户。调研表明,这些潜在用户使用高性能计算的主要障碍包括:缺乏HPC人才,缺乏建设和运维HPC的成本,以及HPC应用太复杂。而HPC云正是应对这些挑战的最佳途径。过去我们谈及HPC的价值,往往总是说基于HPC的科学计算可以在很大程度上代替实验科学,因此它对一个国家的科技发展、科技创新至关重要。而现在从信息化发展趋势来看,HPC的价值远不止于此,发展HPC对未来任何面向公众的、基于信息系统的服务都是至关重要的,它们都可能需要HPC作为背后的支撑平台。
可以说,与云计算“联姻”后,HPC正在走下神坛,开始进入高速发展及应用普及期,HPC离普通百姓越来越近了。事实上,当你被那些视觉特效越来越多、越来越逼真的电影深深吸引和震撼的时候,你就已经分享到了HPC云渲染出的快乐光影。