帝国的反击——NVIDIA GeForce GTX480/470全国首测

评测专区

毫无疑问,2010年显卡市场第一季度是属于AMD的,凭借着高中低端DX11显卡的全面铺开,AMD不但逐渐提升着自己的市场份额,同时也将“唯一拥有DX11图形核心的公司”这一光环牢牢地套在自己头上。虽然因为供货量的不足导致AMD未能全面打击竞争对手,但是相对NVIDIA的沉默,AMD在显卡市场以及玩家心目中的风头一时无二。不过一句老话说得好——“不在沉默中灭亡,就在沉默中爆发”,NVIDIA显然不会选择前者,DX10显卡的市场优势以及AMD DX11显卡出货量的不足为NVIDIA的爆发赢得了充分的时间,北京时间2010年3月27日,“传闻”中的GeForce GTX480/470终于揭开了它们神秘的面纱。

为DX11优化的全新架构

新一代的NVIDIA显卡早在2009年就传言不断,从NVIDIA内部泄露的消息来看,有人将之称为Fermi,有人将之称为GF100。实际上,和GeForce GTX200系列采用GT200核心类似,GF100是NVIDIA新一代显卡核心名称,而Fermi则是其核心架构的名字。现在NVIDIA终于推出两款高端旗舰产品——GeForce GTX480和GeForce GTX470。

NVIDIA将GeForce GTX480/470延期的原因归咎于核心架构的重新设计,事实上相比上一代GT200的核心架构,GF100显卡在核心架构上的确有着完全不同的设计。纵观这几年来AMD和NVIDIA两家厂商的发展历程,NVIDIA总是会在一代显卡后重新设计核心架构,从G92到GT200,再到GF100,莫不如此。那么NVIDIA这一代的GF100核心架构和过去相比有什么不同?这种架构在DX11中又有什么优势呢?

光栅引擎和多线体引擎

GF100核心采用台积电40nm工艺制造,集成大约30亿个晶体管,包含512个流处理器(SP,按照NVIDIA官方的说法叫CUDA物理核心)。32个流处理器组成一组流处理器阵列(SM),然后再由四个流处理器阵列组成一个图形处理集群(GPC)。这也意味着完整的GF100核心一共有16个流处理器阵列及4个图形处理集群,但实际上GeForce GTX480只有480个流处理器,而GeForce GTX470只有448个流处理器,所以它们的流处理器阵列分别是15组和14组。

在这个核心架构中,相比过去最重大的改变就是增加了光栅引擎和多线体引擎。光栅引擎(Raster Engine)并非全新硬件,实际上就是此前所有光栅化处理单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。在GF100核心中有四个光栅引擎,整个核心每周期可处理32个像素。而多形体引擎(PolyMurph Engine)则要负责顶点拾取(Vertex Fetch)、镶嵌细分曲面(Tessellation)、视口转换(ViewportTransform)、属性设定(Attribute Setup)、流输出(StreamOutput)等五个方面的处理工作,DX11中最明显的特征细分曲面单元(Tessellator)就在这里。

GF100原始设计核心中有16个多形体引擎,每组流处理器阵列一个,GeForce GTX480由于只有15组流处理器阵列,所以它的多形体引擎也只有15个。事实上,NVIDIA一直宣称DX11的细分曲面技术的性能表现主要依靠多形体引擎,Radeon HD5870虽然有1600个流处理器,但是共用一个多形体引擎,而GeForce GTX480由于拥有15个多形体引擎,所以在游戏大量采用细分曲面技术时,不会造成性能瓶颈。当然事实是否如此,在后面的具体显卡性能测试中我们可以看到。

灵活的缓存策略

GF100核心架构中,另外一个亮点则是缓存的灵活配置。在GT200核心中是没有一级缓存的,而这次在每组流处理器阵列中都设计了64KB缓存,当然这个缓存的使用方式并非固定,而是以16KB+48KB,或者48KB+16KB的方式在流处理器共享内存以及一级缓存中进行分配,当一个流处理器阵列需要更多的共享内存时,此时64KB缓存中将有48KB作为共享内存;而当流处理器阵列需要更多一级缓存的时候,此时64KB中将有48KB作为一级缓存。

在完整的GF100核心中,一共有64个纹理单元,也是按照每个流处理器阵列4个纹理单元的方式来设计,所以GeForce GTX480一共有60个纹理单元,而GeForce GTX470则有56个纹理单元。每组流处理器阵列的4个纹理单元,将共同使用12KB纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。

12-d04-01.jpg
曾经曝光的GF100核心
12-d04-03.jpg
单个流处理器阵列的架构图

强悍的功能以及更好的画质

在了解了GeForce GTX480的核心架构后,我们不妨将目光投向产品本身。对于更多的用户来说,他们最想了解的是:新一代的NVIDIA显卡能给他们的电脑应用带来哪些好处。NVIDIA表示,对于GeForce GTX480而言,提升最大的并不是游戏性能,相对过去旗舰级单核产品GeForce GTX285,GeForce GTX480游戏性能提升了1.5~3.5倍,但是在几何性能上则提升了8倍,这种几何性能的提升不仅仅反映在我们常见的游戏中,同时也反映在各种GPU应用的领域中,那么在这里我们就简单介绍一下GeForce GTX480在应用以及游戏方面所带来的新意。

GPU应用全面进化

之前我们介绍过Fermi架构在应用上带来的改变。特别是CUDA的强化使得GPU通用计算在更广泛的领域中得到使用,这里面包括了支持C++以及OptiX光线追踪引擎。我们所要提醒的是,实现CUDA架构的途径有很多种,其中既有OptiX、PhysX这种NVIDIA自己拥有专利的开发方式,同时也可以采用OpenCL、Direct Compute这种业界的标准规范,所以开发商在设计的时候是非常自由的。CUDA不仅仅在GPU应用中得到提升,在游戏中,NVIDIA CUDA计算架构可以执行画质处理、模拟、混合渲染等等,实现景深、模糊、物理、动画、人工智能、顺序无关透明(OIT)、柔和阴影贴图、光线追踪、立体像素渲染等大量画面效果,这使得电影级别的特效在游戏中得以实现。此外,钟爱3D视觉效果的用户还可以通过NVIDIA的3D Vision技术,在一屏或者多屏(最多3屏)上实现全高清的游戏以及视频3D享受。

加强游戏画质

在GeForce GTX400系列中,NVIDIA除了在架构上对DX11进行优化,同时在3D游戏画质的改善上,也充分利用了DX9/DX10上的经验,进行了一系列计算方式的改进。特别是在阴影贴图和后期渲染上采用了“抖动采样”技术,这一技术可以用于创造更好的阴影边缘,缺点是非常消耗资源。在过去DX9/DX10游戏中,抖动采样是分别拾取每一个纹素,DX10.1开始改用Gather4指令,而NVIDIA这次则在硬件上使用单独一条矢量指令来实现抖动采样。NVIDIA自己宣称使用这种方法,性能将提升两倍,这也意味着在达到同样性能的前提下,这种方式将让游戏厂商在开发游戏时消耗更少的硬件资源。

NVIDIA还在GeForce GTX400系列中改进了CSAA(覆盖采样)抗锯齿技术。CSAA是在GeForce 8800 GTX上引入的,最高支持16×,如今不但提高到了32×,而且将色彩取样和覆盖取样分离开来,无论性能还是画质都有明显提升。NVIDIA宣称,GF100核心的CSAA从8×到32×的平均性能损失只有7%。此外,由于采用了更多的ROP单元,包括TMAA(透明多重采样抗锯齿)和MSAA(多重采样抗锯齿)的性能也有大幅提升,和过去GeForce GTX285的抗锯齿功能相比,GeForce GTX480在8×MSAA以及4×MSAA的性能上提高了大约2倍。也就是说在普通游戏中,GeForce GTX480即使打开了4×或者8×的抗锯齿效果,游戏性能也不会有明显的下降。

12-d04-04.jpg
NVIDIA的3D Vision是目前实现3D高清视频的成熟方案
12-d04-05.jpg
12-d04-06.jpg
上图为GeForce GTX480的32×CSAA,下图为GeForce GTX285的16×CSAA

GeForce GTX480/470规格全曝光

在早前透露的GF100核心中,NVIDIA是将GF100设计为拥有512个流处理器、64个纹理单元、48个光栅处理单元以及16个多形体引擎的核心,但是由于种种原因,GeForce GTX480删除了一组流处理器阵列,而GeForce GTX470则删除了两组流处理器阵列。所以最终GeForce GTX480拥有480个流处理器、15组流处理器阵列、15个多形体引擎、60个纹理单元以及48个光栅处理单元;而GeForce GTX470则拥有448个流处理器、14组流处理器阵列、14个多形体引擎以及56个纹理单元。

在频率方面,GeForce GTX480的核心频率为700MHz,这已经比过去人们猜测的600MHz~625MHz要高出不少,显存使用GDDR5,显存容量为1536MB,显存位宽达到了384bit,显存频率为1848MHz(等效过去的3696MHz),而流处理器频率(即我们过去所说的Shader频率)则为1401MHz;GeForce GTX470的核心频率为607MHz,显存也使用了GDDR5,显存位宽为320bit,显存容量为1280MB,显存频率为1674MHz(等效过去的3348MHz),而流处理器频率则为1215MHz。

在接口方面,GeForce GTX480/470都采用了双DVI+Mini HDMI接口的搭配,双DVI接口属于不成文的标配,但是为什么搭配Mini HDMI接口则不得而知,事实上显卡都达到了双插槽的宽度,多设计一些接口不是问题,而Mini HDMI接口除了苹果和一些笔记本外,其他厂商都很少使用,同时NVIDIA也没有设计Displayport接口,如果要连接标准HDMI接口设备,那用户还需要自己付钱购买转接线材,这种设计的确让人费解。而在外置电源接口上,GeForce GTX480为6Pin+8Pin设计,热功耗设计为250W,GeForce GTX470则为双6Pin设计,热功耗设计为215W,两者都支持3路SLI。最后要说的是用户最关心的问题——价格,GeForce GTX480北美定价为499美元,国内定价为3888元,而GeForce GTX470北美定价为349美元,国内定价为2888元。

12-d5-b1.jpg
12-d04-07.jpg
GeForce GTX480/470的接口设计

GeForce GTX480/470实物赏析

12-d04-08.jpg
GeForce GTX480正面
12-d04-09.jpg
GeForce GTX480背面
12-d04-10.jpg
GeForce GTX470正面
12-d04-11.jpg
GeForce GTX470背面
12-d04-14.jpg
左上为Radeon HD5870,右上为Radeon HD5850,左下为GeForce GTX480,右下为GeForce GTX470

从实物来看,GeForce GTX480长度达到了26.67cm,和竞争对手Radeon HD5870相同。而GeForce GTX470长度则为24.13cm,略长于Radeon HD5850,可以说这几款显卡的长度相对于体积较小的机箱来说都有一些吃力,所以用户在购买的时候也要注意自己的机箱能否安装得下才行。

在散热方面,这次NVIDIA在自家公版GeForce GTX480产品上使用了4根热管,这也说明了GeForce GTX480在功耗和发热上应该较高,而且显卡的PCB板上为了应对散热还做出了一些改变,在涡轮散热器位置的PCB板采用镂空设计以更好散热。而GeForce GTX470虽然在散热方面和过去相比差别不大,但是PCB板同样根据涡轮散热器的位置进行了镂空处理,在之后的测试中,我们可以看到在GPU满载环境下,两款显卡的核心温度以及功耗表现。

实战GeForce GTX480/470性能

测试平台

处理器:Intel Core i7 870

主板:华硕P7P55D Deluxe

内存:海盗船DDR3 1600 2GB×2

显卡:GeForce GTX480(显存1536MB)

GeForce GTX470(显存1280MB)

GeForce GTX285(显存1024MB)

Radeon HD5870(显存1024MB)

Radeon HD5850(显存1024MB)

硬盘:Intel X25-M 160GB

(SSD 作为系统盘)

希捷7200.12 1TB

显示器:AOC 619Fh

电源:航嘉X7-900W

系统:Windows7 32bit中文版

驱动:NVIDIA ForceWare 197.17

(NVIDIA GeForce GTX400专用驱动)

AMD催化剂10.3

在GeForce GTX480/470的测试中,我们主要测试两款高端显卡的3D性能,为了让读者对两款显卡的性能有直观的了解,在测试中,我们还加入了其他三款产品,分别是上一代NVIDIA的旗舰级单核显卡GeForce GTX285,以及AMD的DX11旗舰级产品Radeon HD5870和Radeon HD5850,相信通过这五款显卡的性能对比,读者对参测的显卡性能优劣就能一目了然了。

在测试项目上,我们将主要以3DMark Vantage以及目前主流的游戏来对显卡性能进行考评,这次除了采用DX10引擎的3DMark Vantage外,我们一共采用了13款游戏来进行测试,包括6款DX11游戏、4款DX10游戏以及3款DX9游戏,这样我们不但能看到GeForce GTX480/470在DX11游戏上的性能表现,也能看到它们在DX10/DX9游戏上相比上一代高端显卡以及竞争对手的区别。由于参测的显卡都属于高端显卡,同时测试平台整体也趋于顶级,所以我们在测试环境上的要求也比较苛刻,所有参测的项目都将运行在1920×1200的分辨率下,同时画质开至最高。此外还将打开4×或者8×MSAA(依循游戏3D设置的选项),相信这也是购买这类顶级显卡的玩家所能接受的游戏环境。在游戏性能之外,我们还会测试每款显卡GPU满载、待机下的整机功耗以及满载下的GPU核心温度,相信这对用户以及读者来说也是非常有意义的。

测试结果及分析

3DMark测试平分秋色

先来看看3DMark Vantage这一基于DX10的测试软件,事实上,GeForce GTX480和Radeon HD5870基本处于同一档次,成绩上GeForce GTX480略强,即使抛开PhysX不谈,光看两者的GPU得分也是非常接近;这一现象同时也出现在GeForce GTX470和Radeon HD5850的对比上。

GeForce GTX480独占DX11鳌头

在DX11游戏中,GeForce GTX285并没有参与测试,虽然用DX9或者DX10模式去测试,也能有成绩,但是没有任何对比意义。从测试结果来看,NVIDIA的GeForce GTX480无疑是DX11游戏最好的选择,在每一项DX11游戏中,它的表现都排在第一位,全面压倒了Radeon HD5870,特别是在《地铁2033》这款要求十分变态的游戏中,GeForce GTX480领先Radeon HD5870接近50%(虽然参测显卡都谈不上流畅),在《尘埃2》中也领先了接近30%,而在其他游戏中也基本有10%的领先。此外,值得注意的是,虽然Radeon HD5870在大多数DX11游戏中的表现都好于GeForce GTX470,但是差距很小,而《地铁2033》以及《尘埃2》这两款游戏还稍有落后,同时Radeon HD5850除了《天堂演示》以外,在其他项目上也落后于GeForce GTX470。

新旗舰DX10/DX9性能提升大

而在DX10游戏中,所有的DX11显卡都强于GeForce GTX285,其中很重要的一个原因是在抗锯齿技术上,AMD和NVIDIA都在DX11产品中进行了改进,所以当打开抗锯齿后,GeForce GTX285的性能下滑很严重。整体来看,GeForce GTX480的表现依然是最出色的,所有参测的DX10游戏性能,它都排在第一位,而且领先幅度较大,特别是在为AMD优化的DX10.1游戏《鹰击长空》中,它甚至能领先Radeon HD5870达到40%。而Radeon HD5870除了专为NVIDIA显卡优化的《孤岛惊魂2》以外,其他DX10游戏表现又好于GeForce GTX470。当然,Radeon HD5850则处于参测DX11显卡中的末端。从GeForce GTX480/470的DX10表现来看,他们并没有因为自己是DX11产品就忽视了DX10游戏的性能表现,相对于上代旗舰产品GeForce GTX285,GeForce GTX480/470都有很大幅度的超越,同时面对Radeon HD5870/5850,它们的表现也很出色。而DX9游戏的情况和DX10游戏比较类似,由于《最后的神迹》没有抗锯齿选项,所以GeForce GTX285的表现还算不错。从DX10和DX9游戏的表现来看,四款DX11高端显卡的性能表现为GeForce GTX480>Radeon HD5870>GeForce GTX470>Radeon HD5850,只不过四款显卡对付主流的DX10/DX9游戏都是绰绰有余,即使在如此苛刻的环境下,也没有任何一款游戏运行不流畅的。

功耗发热不尽如人意

尽管NVIDIA宣称GeForce GTX480的热功耗设计为250W,但是实际功耗显然比这个要大得多,在GPU待机状态下,测试平台整机的功耗为117W,在GPU满载的状态下,整机功耗达到了439W,这中间的差距达到了322W,排除一些其他配件的功耗,我们确信,在满载状态下,GeForce GTX480至少达到300W以上的功耗,相比Radeon HD5870的GPU满载状态,GeForce GTX480整整高出了185W。GeForce GTX470在功耗方面有一定下降,GPU满载状态下整机功耗为314W,比GeForce GTX低了125W,但仍然高于Radeon HD5870。此外,在核心温度上GeForce GTX480/470也让人略有担忧,GPU满载状态下,GeForce GTX480核心温度高达91℃,而GeForce GTX470也达到了86℃,相比同为40nm制程的Radeon HD5870/5850,NVIDIA在功耗和发热上的表现要逊色一筹。

10054870.jpg
画面最好的DX11游戏《地铁2033》
20090422010553ibat.jpg
GeForce GTX480在《鹰击长空》中的表现很好
12-d6-b1.jpg

工程师观点>>

出货量决定胜负

陈扬轶:GeForce GTX480/470在性能上的强势应该在所有人意料之中,毕竟晚了一个季度,如果性能上没有优势,那NVIDIA就不是NVIDIA了!值得一提的是,GeForce GTX480/470在DX11游戏中的性能虽然有明显的优势,但是AMD的Radeon HD5870/5850在游戏中的表现也还能让人满意,特别在使用了最新的催化剂10.3驱动后,DX11产品的性能比使用老驱动时强劲了很多,这说明尽管架构上变化不大,但是在DX11的优化上,AMD依然下足了工夫。此外,多形体引擎对于曲面细分的影响,相信是肯定有的,但从四款显卡的DX11游戏表现来看,至少说“越多的多形体引擎就能在DX11游戏中性能表现越好”是过于绝对的,这恐怕还要联系到每款产品具体的架构和参数来考虑才行。对于GeForce GTX480/470的性能,我们不必担心,GeForce GTX480现在是最强的DX11显卡,而且我们还要考虑到目前的驱动并不成熟。至少相比起AMD已经推出大幅提升DX11性能的催化剂10.3而言,目前NVIDIA的驱动还仅仅是第一版能让GeForce GTX480/470正常工作的驱动,NVIDIA将在4月发布版本号为256的驱动,相信那个时候,GeForce GTX480/470还会有进一步的性能提升。

值得担心的是GeForce GTX480/470的出货能力。从GeForce GTX480/470的架构来看,相比完整的GF100核心,它们已经有一定缩水,但是在测试中,GeForce GTX480/470的功耗以及发热依然很高,特别是GeForce GTX480,300W以上的功耗以及91℃的核心温度都让我们对NVIDIA的良品率产生一些疑虑。至少从我们的角度来看,GeForce GTX480/470的性能并没有超出Radeon HD5870/5850几个档次,同时在价格上基本上也高出对手不少(GeForce GTX480/470的售价高出Radeon HD5870/5850接近900元),这样NVIDIA要在市场上领先AMD,最好的办法就是保证出货量,不仅仅是高端显卡的出货量,同时还要保证未来中低端显卡的出货量,这样才能在AMD供货不足的情况下有效打击对手。如果NVIDIA能保证良品率和出货量,那么在短时间内成为DX11显卡市场的领头羊并非难事,如果NVIDIA也和AMD一样无法保证市场的供货,那么鹿死谁手,还尚未可知!