用事实说话,挑战权威!——实际应用测试 VS Future Mark
特别策划
自从MadOnion(疯洋葱)推出3DMark系列软件以来,3DMark就成为了D3D游戏性能测试的标准,同时也见证了微软D3D API的发展。3DMark让MadOnion在业内名声大噪,吸引了众多3D显卡芯片设计厂商与之合作,更加巩固了它在业内的权威地位;另一方面,由于3DMark的易用性与代表性,DIY玩家也可以非常方便地使用它来考查自己显卡的性能,所以在众多的DIY玩家中,3DMark系列同样是公认的测试标准。
在MadOnion更名为Future Mark之后,它的3DMark系列D3D游戏测试软件和PCMark系列整机测试软件配合硬件产品的进步继续发展,目前主流的版本是3DMark06和PCMark05(最新的PCMark Vantage已经有版本放出,3DMark Vantage也开始内部测试)。3DMark06针对的是支持DirectX9.0c API的显卡与游戏,通过一些模拟实际游戏的场景,来考查主流DX9显卡的性能;PCMark05已经提供了对多任务处理的测试,通过脚本控制同时模拟运行多个应用软件来考查多核心处理器平台的整体性能,可以说针对性也很强。
不过,不管是怎么模拟,始终是模拟,那么3DMark06和PCMark05的测试结果到底与实际应用情况有没有差异呢?或者说,我们应该怎样客观地看待这一类标准测试软件的测试结果才能真正了解硬件产品的性能?让我们通过实际应用与Future Mark测试结果的“PK”来进行验证吧!
挑战赛第一轮
擂主:3DMark06
挑战者:《荣誉勋章:空降兵》、《使命的召唤4:现代战争》、《失落的星球:极限状态》、《孤岛危机》、《生化奇兵》
擂台:
处理器:Intel Core2 Quad Q6600
主板:华硕P5E3 Deluxe
显卡:GeForce 8800GS
Radeon HD3850
内存:金士顿 DDR3 1066 1GB×2
硬盘:希捷 7200.10 250GB
显示器:华硕MW201U
电源:长城BTX-500SD
比赛规则说明
3DMark06的测试项目中,主要分为SM2.0、HDR/SM3.0、CPU三部分,其中SM2.0主要考查显卡在Shader Mode2.0模式下的运行速度;HDR/SM3.0则是考查支持DX9.0c的显卡在对应环境下的性能;CPU部分主要考查的是CPU在AI与物理运算方面的多任务处理能力。因此,针对这几项测试的特点,我们挑选了目前具有代表性的几款大型3D游戏与之对比,看看理论测试与实际测试的差异,从客观上分析3DMark06的测试结果。当然,由于目前主流的3D游戏已经全面支持DX9.0c,也就是SM3.0,所以我们对3DMark06的SM2.0测试项目依然采用了更先进的DX9.0c游戏进行对比。
●第一回合:
挑战者:《荣誉勋章:空降兵》、《使命的召唤4:现代战争》
《荣誉勋章:空降兵》是二战经典FPS游戏《荣誉勋章》系列的最新作,该游戏在材质、光源、人物建模方面做得十分出色,是战争游戏中的代表作;《使命的召唤4:现代战争》同样也是二战FPS游戏《使命的召唤》系列的续作,只不过游戏场景转移到了现代,该游戏无论从物理引擎、材质、光源等方面来讲,都表现优秀,而且最关键的是对硬件要求并不算非常高。


应战者:3DMark06 GAME TEST1(SM2.0:Return To Proxycon)
3DMark06 GAME TEST1部分主要渲染的是军队进攻空间战的场景,和许多战争FPS游戏比较类似,整个场景中会出现比较多的人物,对人物衣服表面以及场景中金属道具的材质渲染是该场景的重点。因此,我们选择了两款最新的D3D战争类FPS游戏与之进行对比测试,看该场景是否能反映不同显卡在此类游戏中的性能差距。

数据分析
在3DMark06的第一个游戏测试场景中,GeForce 8800GS以13%的优势领先,而且随着测试分辨率的提高,这个差距变大,在1600×1200分辨率下,GeForce 8800GS的成绩领先了Radeon HD3850大约17%。在这里,我们可以理解为,3DMark06的GAME TEST1主要考查的是GPU/VPU的核心运算能力,对显存位宽要求相对不敏感。
实际游戏测试的结果就和GAME TEST1差别比较大了。在1280×1024分辨率下,两块显卡的实际运行速度差别不大,Radeon HD3850有微小的优势。不过,在1600×1200分辨率下时,Radeon HD3850的游戏速度明显要高不少,在《荣誉勋章:空降兵》、《使命的召唤4:现代战争》中,分别领先了GeForce 8800GS 15%和14%,可以认为,在更为苛刻的主流D3D游戏中,对显卡的显存位宽要求更高了,GeForce 8800GS的192bit显存位宽在这里明显比较吃亏。
第一回合PK结论
3DMark06的GAME TEST1是一个比较理想化的测试环境,场景相对简单,主要集中在对GPU/VPU的处理能力方面,因此更适用于单纯考查GPU/VPU的性能,而不是显卡的性能。因此用来比较相同显存规格、不同显示核心的显卡之间的性能是合适的,如果要考虑到显存位宽对显卡的影响,最好使用实际的、场景比较复杂的主流FPS 3D游戏,3DMark06的这一子项测试结果建议只作为参考数据。
●第二回合:
挑战者:《孤岛危机》、《生化奇兵》
从硬件要求来看,《孤岛危机》绝对是目前FPS游戏中的佼佼者,现在还没有一套单显卡平台能在最高画质下将它运行流畅,它几乎代表了目前D3D游戏的最高画面水平,将所有的D3D特效发挥到了极致,换句话说,它甚至可以被称为是“游戏版”的3DMark。《生化奇兵》的硬件要求虽然没有前者“变态”,但强大的Unreal引擎仍然给了它出色的画面表现,全局光照、粒子系统等等特效将火焰、水流等表现得栩栩如生。如果是考查显卡的SM3.0/HDR性能,那它们可以说是最严格的测试工具。


应战者:3DMark06 HDR1(HDR/SM3.0:Canyon Flight)
3DMark06的HDR1测试场景主要模仿的是电影《木乃伊归来》的飞艇追逐战,场景中大量采用了HDR特效,特别是峡谷中的岩石以及飞艇表面、水面的反光,整体画面十分亮丽。这些特效对显卡的Shader单元处理能力提出了很高的要求,对于采用统一架构的显卡来说,流处理器在顶点、像素单元之间的调度也是相当重要的,也会直接影响到在这一测试项目中的成绩。

数据分析
很明显,在HDR1项目测试中,GeForce 8800GS与Radeon HD3850基本上是战成平手,2%的差距几乎可以忽略,显存位宽并没有影响到它们之间的性能差距,可以说这项测试依然侧重对GPU/VPU本身运算能力的测试。另外,和GAME TEST1测试项目相对比,可以看到Radeon HD3850在SM2.0性能部分虽然稍微落后于GeForce 8800GS,但在SM3.0测试中表现则与GeForce 8800GS相当。
实际游戏测试方面,由于对SM计算性能的要求提高,《孤岛危机》的测试结果与3DMark06非常接近(的确不愧为标准的D3D特效展示游戏),两块显卡的实际测试成绩非常接近。当然我们也看到作为硬件杀手的《孤岛危机》果然是名不虚传,即便是高画质设置下,开到1600×1200分辨率时,GeForce 8800GS也只有14fps的运行速度。《生化奇兵》的测试结果与HDR1项有些许不同,在标准分辨率下,GeForce 8800GS稍强,而在高分辨率下,受到显存位宽的影响,两块显卡的性能持平。
第二回合PK结论
3DMark06的HDR1测试项目对显卡的SM3.0性能作了一个标准化、理想化的测试环境,测试环境比较单纯,所以成绩十分稳定。用它来针对采用统一渲染架构的显卡进行测试,可以得出一个比较稳定的结果,同时也能考查显卡的流处理器调度能力。
《孤岛危机》的测试结果与HDR1出奇的相似,虽然《孤岛危机》采用的是DX10引擎,但采用的特效类型与DX9.0c基本相同,只是精度更高了而已,同样可以反映GPU/VPU在流处理器调度方面的能力。另外,《孤岛危机》对于新一代的统一架构的显卡支持得更好,这也让它与3DMark06的测试结果非常接近。《生化奇兵》的测试结果也与《孤岛危机》比较接近,只是在低分辨率下,GeForce 8800GS有更大的优势,这一点与3DMark06有些差异,所以也不能一概而论。
总的来说,3DMark06的HDR1测试项对于新一代的显卡来说,是一个相对准确的测试项目,并不像在SM2.0的GAME TEST1测试中那样测试结果与实际游戏有相反的情况出现。这也说明现在的显卡对于SM3.0的游戏优化得更多,设计也更有针对性,用SM2.0的测试已经不能反映主流显卡在最新的D3D游戏中的实际性能。(下转D6版)
●第三回合:
挑战者:《失落的星球:极限状态》
《失落的星球:极限状态》是一款移植于Xbox360的游戏,包括了DX9和DX10的版本。游戏环境中经常有大量的敌人出现,对处理器的多任务处理能力是一个很大的挑战。对于新一代的3D游戏来讲,处理器的多任务处理能力也是一个考核的重点,否则即便是显卡能力很强,如果处理器能力不足,一样会造成瓶颈。

应战者:3DMark06 CPU1(CPU:Red Valley)
3DMark06中针对CPU的几何、物理、多任务处理能力也有相应的测试项目,我们选择的这一项Red Vally测试环境中,模拟了多个战斗单位在同一场景中战斗,对处理器的多任务处理能力是一个很大的考验,基本上目前的处理器还没有能将它完全运行流畅的。

数据分析
这里需要说明的是,两块显卡平台所用的处理器都是Core2 Quad Q6600,而测试中的性能差异主要来自显卡的影响。
首先来看3DMark06 CPU1的测试,可以看到即便是Core2 Quad Q6600,仍然只能达到1fps多一点的速度。受到显卡的微小影响,在使用GeForce 8800GS的平台上得分要比使用Radeon HD3850的平台高出4%左右。从这里可以看到,显卡对于3DMark06的处理器测试成绩也是有影响的,所以不能用该项来直接考查不同显卡平台的不同处理器的性能差距,它只是反映在搭配某款显卡的时候,处理器在游戏中的性能表现。
《失落的星球:极限状态》是一款游戏,它不会只考查CPU的性能,因此显卡的性能对于整个测试结果的影响要大于3DMark06的理想状态,由于Radeon HD3850在《失落的星球:极限状态》中的性能表现稍好,所以我们可以看到,它的成绩会比GeForce 8800GS更好一点。不过,由于两个平台的处理器相同,所以两者的差距并不明显,从这一点来讲,《失落的星球:极限状态》的测试结果与3DMark06的CPU测试结果是比较符合的。
第三回合PK结论
3DMark06的处理器测试采用了一个十分理想的场景:材质不是很大、图像特效并不高(尽量减少显卡带来的影响),但同屏出现的单位非常多,对CPU的多任务处理能力提出了很高的要求。虽然尽量降低了图像要求,但显卡依然会对测试结果造成一定的影响——这的确是无法避免的,所以我们可以看到同处理器不同显卡平台的3DMark06 CPU测试得分并不绝对相同。
《失落的星球:极限状态》这款游戏对处理器的要求比较高,因此可以尽量将瓶颈从显卡转移到处理器上面,突出对处理器性能的考查。从我们的测试结果来看,它的确可以比较好的体现处理器的多任务处理能力,测试结果也与3DMark06比较相似——换句话说,3DMark06的处理器测试比较符合这一类游戏的具体情况,测试数据具有代表意义。
●赛后总结:
客观看待3DMark06测试结果
从我们前面的测试和分析都可以看出,3DMark06作为一款标准的3D游戏性能测试软件,注重的是在理想环境下的标准性能测试,所以测试结果与主流的3D游戏在某些方面有些出入。但我们并不因此就会完全抛弃3DMark06,因为它所模拟的环境是标准的,对于显卡的架构与技术规格是一个完整的检验过程,对于研究显卡的架构、图像特效支持方面有一个很好的、量化的评估能力。当然,我们不能完全迷信3DMark06,毕竟买显卡是为了玩游戏,只有在游戏中实际体验(各款游戏针对显卡的优化程度并不相同),才能了解显卡的真正性能,这两者之间可以说是一个相辅相成的关系。
游戏测试软件需要换血
当然,作为一款推出较久的3D游戏性能测试软件,3DMark06在一些方面已经显得有些过时。例如对于SM2.0的测试,现在的显卡大都针对DX10设计,反而在DX9.0b的测试中表现不佳,这一点从我们前面的GAME TEST1项测试就可以看出,Radeon HD3850的SM2.0性能比GeForce 8800GS要弱,但在后面的SM3.0测试中又反超之。考虑到GAME TEST1的测试结果也会计算到总分中去,所以在这一点上,对现在主流的DX10显卡来说,并不公平。另外,3DMark06也没提供专门的DX10测试项目,而市场中DX10显卡已经到处都是,明显在这一点上,3DMark06已经显得比较落后了。我们期待内测中的3DMark Vantage能早日发布,以满足DX10显卡性能标准测试的需要。
挑战赛第二轮
擂主:PCMark05
挑战者:LAME MP3压缩、MPEG2 720×480P压缩、WinRAR文件压缩、Science Mark2.0、《失落的星球:极限状态》、PowerDVD(H.264/1080P高清解码)、硬盘实际拷贝
擂台:
平台一 平台二
处理器:Pentium E2160 Athlon64 X2 4000+
主板:华硕P5E3 Deluxe 昂达A780G
显卡:GeForce 8800GS Radeon HD3850
内存:DDR3 1066 1GB×2 DDR2 800 1GB×2
硬盘:希捷 7200.10 250GB 西部数据 WD3200
显示器:华硕MW201U 华硕MW201U
电源:长城BTX-500SD 长城BTX-500SD
比赛规则说明
PCMark05是FutureMark推出的整机性能测试软件,以其详细的测试子项目、简易的测试界面与设置成为很多DIY玩家的常用测试工具。PCMark05其实也是模拟了很多实际的应用软件,通过这些软件的运行效率来对系统进行评分。它包括了CPU、MEMORY、GRAPHICS、HDD四个子项,分别针对处理器、内存、显示系统及磁盘系统的性能进行测试。本次我们就选择了针对这四个项目的实际应用软件,CPU方面有LAME MP3压缩、MPEG2 720×480P压缩、WinRAR文件压缩;内存方面有Science Mark2.0;显卡方面有《失落的星球:极限状态》、PowerDVD(H.264/1080P高清解码);磁盘系统方面有实际文件拷贝测试。
我们将两套测试平台的成绩进行对比并不是为了证明它们之间的性能差距如何,而是比较它们在PCMark05中的测试成绩差异与实际应用中的差异是否相符,这也是为了证明PCMark05的测试结果是否能代表实际应用的情况。
●第一回合:
挑战者:LAME MP3压缩、MPEG2 720×480P压缩、WinRAR文件压缩
由于PCMark05的CPU测试中,包括了音频压缩、文件压缩等项目,所以我们选择了LAME来进行WAV To MP3的压缩应用、MPEG2视频压缩应用以及实际文件的WinRAR压缩来与之对应。
应战者:PCMark05 CPU测试
PCMark05 CPU的测试模拟了很多日常和工作的软件应用,可以说是比较贴近实际应用的环境,不过它的测试环境依然比较理想化,所以我们要用真正的应用来与之对比,看看是否有差异。

数据分析
从PCMark05的CPU测试分数来看,无论是音频压缩还是文件压缩方面,Pentium E2160的平台都有微小的优势,而从我们使用的音频压缩软件的使用情况来看,也是Pentium E2160领先,不过幅度相对PCMark05的得分来说还要大一些。视频压缩部分,两个平台出人意料地得到了完全相同的成绩,连续测试三次结果都如此,的确比较有趣。文件压缩部分,Pentium E2160还是领先,测试情况与PCMark05的CPU测试项基本相符。
可以这么说,PCMark05的CPU子项测试基本能够反映实际应用的情况,其模拟的应用测试与实际应用测试结果也十分吻合。
第一回合PK结论
看来PCMark05的CPU测试项目部分模拟的应用测试与实际应用测试是十分接近的,用PCMark05的CPU得分情况基本上可以准确地判断一款处理器在这些应用方面的性能表现。不过我们需要注意的是,PCMark05的CPU性能测试并没有代表所有的应用情况,只是选择了一些日常用到的软件进行的测试,所以我们仍然需要客观地看待PCMark05的测试分数,要了解它所代表的是CPU哪些方面的性能。
注:性能差异通过运行速度表现,因此完成时间就不再比较,表中用N/A表示,下同。
●第二回合:挑战者:Science Mark2.0
Science Mark2.0是一款模拟科学运算的软件,它的测试结果可以比较真实地反映系统在密集型科学计算方面的性能。而内存性能也是它的测试内容之一。

应战者:PCMark05 MEMORY测试
PCMark05的内存测试非常标准化,完全就是不同大小数据的读写测试,并没有采用实际的应用程序。标准化的测试也能得出最为理想化状态下的性能成绩。
数据分析
这里的测试结果就非常有趣了,我们可以看到,PCMark05得出的两个平台的内存分数是非常接近的,差距仅有1%而已,但在Science Mark2.0中,我们明显地看到Athlon64 X2 4000+的内存带宽非常之高,超过Pentium E2160平台31%。从理论上来讲,虽然Pentium E2160搭配了DDR3内存,但由于它的前端总线只有800MHz,所以DDR3 1066并不能给它带来更多的内存性能提升,而Athlon64 X2 4000+内置了内存控制器,从CPU到内存的带宽并没有所谓的前端总线来限制,因此内存单项成绩非常之高也是正常情况。
第二回合PK结论
PCMark05的内存测试子项更多的表现是处理器、内存的整体性能,换句话说应该是在平台整体运行程序时的综合性能,而诸如Science Mark2.0这样的应用程序更多的考虑了内存单项的性能。所以我们知道了这一点之后,在选择测试软件的时候就要注意针对性,如果要考查平台内存性能在整体应用中的综合性能,就使用PCMark05的内存测试子项,如果只想研究内存单项性能(例如内置内存控制器与北桥内存控制器之间的性能差异),则可以采用专门的内存带宽测试软件。
●第三回合:
挑战者:《失落的星球:极限状态》、PowerDVD(H.264/1080P高清解码)
《失落的星球:极限状态》是对系统的3D显示性能的一个实际游戏测试,而PowerDVD(H.264/1080P高清解码)则是对显卡部分的视频加速能力作出的考查。
应战者:PCMark05 Graphics测试
PCMark05的显示测试部分包括了2D处理和3D处理,其中比较重要的就是视频加速和3D渲染能力了,因此我们也选择了对应的实际应用程序来对它的测试结果进行检验。

数据分析
从PCMark05的显示系统评分来看,GeForce 8800GS的平台表现稍好一些,Radeon HD3850平台落后4%,其中WMV视频解码部分,也是GeForce 8800GS更有优势一点,不过差距并不是很大。从我们的实际应用测试情况来看,GeForce 8800GS配合Pentium E2160平台的3D游戏性能要稍好于Athlon64 X2 4000+与Radeon HD3850的组合,而在高清视频解码部分,两者基本上表现相同,由于两块显卡都支持完整的H.264硬件解码,所以CPU占用率都非常之低。
第三回合PK结论
PCMark05的显示性能测试部分基本上能准确地表现系统中显示子系统的实际性能水平,而且与我们实际应用测试的结果大致相符,用它来考查系统中显卡的综合水平能够得到一个非常接近实际应用情况的结果,因此用它衡量显卡的性能水平是比较准确的。
●第四回合:
挑战者:691MB文件实际拷贝(同盘读写)
最简单,最直接的实际应用测试。相信在硬盘上复制数据是每个用户都会用到的。
应战者:PCMark05 HDD测试
PCMark05的磁盘测试部分模拟了系统启动、病毒扫描、程序启动等等情况,虽然它的测试项目很多,但我们这里就用最简单的硬盘应用来验证,看看PCMark05的磁盘测试成绩是否符合最常见应用的实际情况。
数据分析
PCMark05的磁盘测试成绩与硬盘实际性能可以说是相符的,在PCMark05中获得高分的磁盘系统,在实际拷贝数据的时候也会表现出更好的性能,而且它们的性能差距与PCMark05的得分差距也非常接近。

第四回合PK结论
在磁盘测试方面,PCMark05的测试结果是十分符合实际应用情况的,可以用它来反映磁盘系统在实际数据传输中的性能。当然,单从分数我们仍然不能看出磁盘的传输速率,如果要了解磁盘实际的传输速率的话,还需要配合其它的测试软件来进一步细化地研究。
●赛后总结
PCMark05通过模拟实际的应用软件来对系统各方面的性能进行测试,能够反映系统在一些常见的应用软件中的性能。不过我们需要注意的是,它并不能代表所有应用软件的执行情况,毕竟不同软件对于处理器的优化并不相同,例如对SSE3、3D Now!等技术的支持程度等等。另外,PCMark05的内存部分也表现的是内存子系统综合性能而不是内存单项性能,这与测试脚本、测试数据样本与方式也很有关系,所以如果你要考查平台内存的综合性能,那PCMark05可以满足你,但如果要研究单纯的内存性能,那么请使用测试内存带宽的软件来进行。
总的来说,使用PCMark05进行测试,能够相对准确地反映系统的综合性能水平,但在一些细节项目上,我们还需要使用另外的实际应用测试软件来进行辅助,这样才能准确地反映出系统整体的性能。
工程师点评
标准测试软件是一个相对的评测工具,而不是绝对的,我们要客观地看待它们的测试结果。无论是3DMark还是PCMark,它们虽然都是靠模拟实际应用来对硬件产品进行性能的检测,但真正的应用环境是非常复杂的,它们模拟的环境都非常纯净、理想化,所以测试结果也许会和实际的使用情况有一定的出入,所以我们并不能将它们的测试结果就认为是绝对的准确。
虽然它们不能100%地代表实际应用的情况,但它们应用环境的理想化也是一个优点,那就是我们可以在排除干扰因素的情况下对硬件产品的性能进行分析与研究。当然,既然它不能代表绝对的实际应用,那么我们就可以使用真正的应用性测试进行辅助,理论化的测试与实际测试相结合,更有利于我们全面地了解硬件产品的真实性能,同时,实际应用性测试的加入,也是DIY2.0发展的一个必然趋势,以用为本才能真正体现产品的使用价值,否则空有标准测试的理论数据,很难让普通用户对自己平台的性能水平形成具体的概念,对于实际应用也是没有任何意义的。因此,我们电脑报产品评测中心已经率先在评测文章中采用了以实际应用测试为主的指导思想,力求让读者通过最直接、最结合实际的测试方法来了解各种硬件产品的性能、功能与特色设计。枯燥的数据罗列已经过时,以用为本、以人为本的测试思想才更加符合消费者与市场的需求,而这也是我们在DIY2.0时代必须贯彻和坚持的。