“酷大”看得见!——5款NVIDIA移动显卡CUDA加速体验
IN用派
NVIDIA从桌面电脑的G80时代就开始着手宣传其“通用计算能力”,硬件方面自然是NVIDIA显卡阵容,而开发接口方面,CUDA架构就成为了其最重要的棋子。CUDA架构采用了最普及的C语言作为编程语言,众多软件厂商均利用了这一可谓没有技术难度的特点,对支持CUDA架构的显卡进行了软件优化,对于普通的笔记本用户而言,就意味着在视频转码、视频处理和常见的图形处理中获得意想不到的性能提升。

CUDA 值得笔记本用户关注
不得不说NVIDIA是一家很聪明的厂商,因为它开辟了一条不再单独走“显卡”路线的蹊径,现在说到NVIDIA,已经不仅仅是一家GPU厂商了,因为它在通用计算方面走在了全世界的最前面,而支撑起通用计算的骨架便是我们今天的主题——CUDA架构。
NVIDIA CUDA架构最大的意义是在专业领域,通用计算非常明显地提升了专业领域(如地质勘探、科学项目演算等)的运算效率,其实这才是NVIDIA真正靠CUDA赢得利益的“大头”。而对于消费级笔记本用户而言,CUDA应用带来的最大意义是在一些需要较强并行处理运算的程序上“为CPU减负”,让GPU部分甚至全部承担这些运算量巨大的任务。这本来是重点运用在桌面平台的技术,或者说是会明显在桌面平台上体现出性能优势的技术,但随着移动GPU规格性能的不断攀升、搭载中高端NVIDIA显卡的笔记本价格的不断走低,这种应用对于有功耗限制的笔记本而言,反而更具意义了,因为它能够在有限的功耗内,充分调动所有硬件的性能,将硬件性能发挥到最大。从这一点来说,CUDA架构下的新应用是值得各位笔记本玩家关注的。
值得一提的是,尽管CUDA的向下兼容性很好,高到GeForce GTX 280M,低至GeForce 8400M GS,都能支持CUDA加速,但根据我们的读者调查显示,许多笔记本玩家对CUDA在应用中的优势却很不了解,大多都不知道在什么情况下可以利用到手里的显卡的CUDA加速功能,对它的关注度也不高,而实际上,如果使用正确的软件,在很多情况下CUDA加速都能为我们提供不少的便利,接下来的测试就会告诉大家答案。
五款显卡竞风采
参与本次测试的显卡均为NVIDIA的中端主力显卡,规格从高到低分别是GeForce GT 335M、GeForce GT 325M、GeForce GT 240M、GeForce GT 130M。另外,我们还引入了一款名号响,但实则定位低端的GeForce 310M,来仔细观察它们的CUDA加速性能和“效果”。
测试环境:
处理器:Core i5 430M/520M(处理器型号因笔记本不同而无法完全统一)
操作系统:Windows 7 Ultimate中文版32位
显卡驱动:197.16 WHQL版
为了尽量展现出各款显卡的CUDA加速性能差别,我们还在测试时关闭CUDA进行对比测试(即采用CPU运算),更直观地体现CUDA加速的优势到底有多大。
8个流处理器组成一个CUDA单元
首先我们用CUDA-Z检测工具对各款显卡的CUDA支持度进行查看。CUDA-Z是专用于检测显卡对CUDA支持力度强弱的软件,从名字上就不难看出它和其他两个经典的CPU-Z、GPU-Z有着类似的功能。
在这款软件中最值得我们注意的是两个项目:
一个是Compute Capability,需要注意的是它很容易被误会为“CUDA性能指数”,其实,它代表的是当前显卡支持的CUDA运算的版本。例如GT 130M支持的是1.1版本;GT 200M系列支持1.2版;高端的GTX 260M/280M甚至支持到了1.3版本。
另一个值得关注的项目是Multiprocessors。通常大家都会误会它是“执行CUDA加速的流处理器数量”,其实它指的是“CUDA单元”的数量,在NVIDIA的定义里,8个流处理器为一个CUDA单元,即一个Multiprocessors,例如GT 240M有48个流处理器,除以8,即有6个Multiprocessors。还需要提示的是,Clock Rate指的是流处理器频率。

TMPGEnc 4.7.4.299视频综合处理测试(转码+引入特效)
第一个测试软件我们采用了日本Pegasys公司与NVIDIA合作出品的TMPGEnc转码软件,这也是大家用得比较多的一款视频处理软件。这款软件很特别,它的视频转码本身并不依靠GPU,但在特效处理(比如视频滤噪、锐化等)上采用了CUDA加速。也就是说,它是部分利用CUDA加速的软件。
我们的测试是将一段720P分辨率视频转换为MPEG-4 AVC格式,在特效上我们选择了强调轮廓和色调校正滤镜。需要注意的是,初次使用这款软件需要手动打开特效对CUDA加速的支持,否则滤镜渲染均为CPU加速完成。
通过表格我们可以看到,开启CUDA加速功能选项后,视频处理(转码+引入特效)的效率明显高于纯使用CPU,而且,性能最强、流处理器最多的GT 335M效率提升的幅度也是最大的。不过,这也不是绝对的,采用GeForce 310M时,CUDA加速时的速度甚至落后于纯CPU运算,可见虽然CUDA支持入门级显卡,但入门级显卡在处理器够强时(Core i5处理器的性能的确惊人),有可能无法凸显CUDA的魅力。]

Badaboom 1.2.1.7视频转码测试
在NVIDIA的官方CUDA网站,处于最显眼位置的就是Badaboom软件,跟其他的视频处理软件不同,Badaboom可谓NVIDIA“亲生的”软件,转码全程均为NVIDIA CUDA加速完成(不依赖CPU)。Badaboom支持的视频类型很广,且能够为多种手持设备和视频网站转换出所需格式,它的界面也颇为简单,一看便知该如何操作,适合那些只管转码,对视频编辑没兴趣的本本玩家。
我们使用了一段720P的视频片段作为测试片源。由于Badaboom无法关闭对CUDA的支持,所以我们引入了不支持CUDA加速的iPodifie 1.5软件,以Core i5 430M处理器作为平台进行对比测试。为了方便大家比较,两个转码方案的画质均设置为最佳。
测试的结果让人惊叹,CUDA加速带来了极高的执行效率。同样的片源,转换出的视频质量也基本相当,但中端移动显卡用Badaboom依靠CUDA加速,速度都超越了Core i5 430M。在这个环节,只有低端卡GeForce 310M的表现不尽如人意。在此,我们建议有NVIDIA中高端显卡笔记本的iPod和iPhone玩家,选择Badaboom作为视频转码软件。




观点>>不要浪费手里的CUDA
如文章开篇所说,CUDA加速目前很多人还不了解,或未曾认真关注。但从我们的测试中不难看出,中高端独立显卡的CUDA加速,在图形图像运算和视频处理中均能体现出明显的效率提升。事实上,CUDA加速还支持Flash播放,Flash Player 10.1以后的版本均能够很好地支持CUDA加速。不过,它的主要意义在于在线高清视频播放(例如Youtube等),通过CUDA加速,能为CPU大量减负。只是由于国内目前还没有真正意义上的在线高清视频,所以我们的体会不明显。但总体来说,CUDA加速意味着更高的执行效率,等同于给整机提升性能,是非常有价值的技术。
而随着主流本中NVIDIA移动显卡性能的日益提升,CUDA加速也将变得更具实际价值。在此我们强烈建议购买了NVIDIA显卡游戏型笔记本的用户,在日常应用中充分调动显卡的性能,不要浪费你手里的CUDA。
延伸阅读>>
Photoshop CS4图像处理也可使用N卡硬件加速
Photoshop的应用范围之广不用多说,而CS4版为NVIDIA显卡玩家提供了OpenGL加速功能(注意,不同于CUDA加速哟),对于需要用本本进行图形图像处理的玩家而言也有较明显的速度提升。使用中端显卡进行图片的线性缩放时,画面的缩放非常流畅,而在进行图片旋转时响应也非常迅速。不过,低端移动显卡在这个环节明显不足,给人的感觉是“基本无用”。
需要注意的是,较小尺寸的图片都无法体验出这种加速感,而超大尺寸,如2000万像素以上的TIF文件则可以感觉到OpenGL加速在应用中带来的提升。
根据我们以前进行的测试,Core 2 Duo T6600搭配GT 130M,在Photoshop CS4里使用龟裂缝滤镜时,不开启OpenGL加速处理一幅1200万像素照片需要44秒,而开启后提速到了35秒,所以建议大家开启该选项取得最佳性能。
