一石激起千层浪——nForce4 SLI Intel Edition技术分析
技术大讲堂
在过去的很多年里,Intel处理器最佳的芯片组搭档就是它自家的产品。这就正如微软出品Internet Explorer,和它自家的Windows能够亲密无间地合作一样。对这种最佳搭档的通常理解是,自家产品的技术细节只有自家最清楚,也就能做到最完美的相互沟通和支持。但是在NVIDIA公司的nForce4 SLI Intel Edition(以下简称nForce4 SLI IE)出现以后,情况开始发生了变化。
定位高端
分析一款产品的优劣长短,不能离开它的市场定位,所以我们这里结合图1中nForce4 SLI IE的架构,先从市场定位来看看它的设计思路。

因为Intel的Pentium4并没有像K8核心那样集成内存控制器,所以nForce4 SLI IE依然采用了传统的南北桥架构。但在代号为C19的SPP(System Platform Processor,即北桥芯片)内,我们看到的内存控制器部分居然只支持双通道DDR2内存。支持DDR2内存并不稀奇,Intel从i915系列芯片组就可以做到了,但“只支持”DDR2内存的芯片组却并不多。
C19在内存控制器部分,已经明确支持到了DDR2-667,而测试表明对于DDR2-800这样规格的产品,C19支持程度也相当不错。在对前端总线的支持上,800MHz和1066MHz的频率也可以被完美地支持;而更高频率的前端总线,诸如1200MHz这样的规范,NVIDIA明确表示有能力支持,超频试验也证明了它不仅能支持,而且可以稳定地支持。
C19只支持DDR2内存,标配支持PCI-E显卡×8 + ×8规格的SLI,其实这已经表明nForce4 SLI IE的定位——高端市场,这个市场定位在MCP部分(南桥芯片)的规格上一样可以得到印证:10个USB 2.0的接口,4个SATA2的硬盘接口,具备RAID功能,带硬件防火墙的千兆网卡,都是最高档的配置。
挑战北桥性能王座
一款芯片组或者一套系统,内存部分效能是整体效能的重要决定因素。Intel自家芯片组一直占据着北桥性能王座,这得益于Intel强大的研发实力和对技术细节上的深入挖掘。要挑战北桥性能王座,NVIDIA有什么特殊的手段呢?答案就是1T+BL4。1T+BL4,这是一个有点让局外人费解的写法。我们这里来依次详细解释一下。
① 1T技术
1T,也就是一个时钟周期,我们这里说的1T是指:北桥中的内存控制器将寻址所需的指令和数据通过内存总线发送到内存模组,并且在内存模组中保存下来,这个过程如果只消耗了1个时钟周期,那么我们就称为1T 地址定时。如果这个过程1个时钟周期无法完成,需要拖到下一个时钟周期,那么我们就称为2T 地址定时。
图2是nForce4 SLI IE芯片组官方白皮书中的内存控制示意图,从图中看出,过去大多数芯片组,从北桥内存控制器到内存模组采用的是共享总线。共享就意味着寻址时可能会产生冲突,这就是2T 地址定时出现的根源。而nForce4 SLI IE芯片组,采用了独立的命令、寻址总线,不存在共享总线,那么彻底实现1T地址定时自然就顺理成章了。地址定时这个步骤是难以绕过的,那么这个步骤消耗的时间是1T还是2T,将会大大影响内存部分的效能。能彻底实现1T地址定时,性能自然也就提高了。

而且从前面的介绍来看,实现1T地址定时的好处很明显,解决办法也很容易想到,那为什么轮到nForce4 SLI IE芯片组来第一个实现它呢?要解释这个问题不是一篇短文可以说清楚的,所以我们这里只简单地分析易懂的要点。
对双通道内存而言,前端总线和每个内存通道都是64位的位宽,前面介绍的1T,目的是让内存寻址速度加快,寻址以后就要将数据从内存模组传输到北桥内而不是直接送达CPU。最理想的情况是,在同一个时钟周期的上下沿,两个内存通道各自将2倍64Bit的数据送到北桥,且正好是CPU当前需要的数据,北桥将它们合并为4倍的64Bit数据,在下一个时钟周期经前端总线送走。不过我们并不能期待这种理想的方式次次出现。
采用1T地址定时,数据传送到内存控制器的速度加快了,这对北桥的要求也就提高了。在北桥内存控制器部分,显然需要更高级的调度管理方案和更大的缓存。如果北桥调度管理方案跟不上,1T带来的性能优势将因北桥部分的延迟丧失殆尽,甚至可能更糟。
NVIDIA公司官方对nForce4 SLI IE芯片组北桥控制部分的管理策略,在白皮书中没有任何细节性的介绍。但是,我们可以看到,整个北桥有超过6000万个晶体管,这个数量已经超过了上一代CPU。由此,我们至少可以猜测,为了保证1T的优势得到体现,NVIDIA公司是花了大本钱的。
②BL4技术
BL4,它的含义是Burst Length(突发传输长度)等于4。图3也是节选自官方白皮书的图片。大家知道,突发传输的概念和内存寻址是无法分开的。如果每传输一次数据都需要寻址的话,内存实际带宽将远远低于内存的理论带宽,所以通常内存在一次寻址后会连续传输接下来的N个数据而不用再寻址,这个连续传输的数目就是突发传输长度。

主流芯片组的默认突发传输长度一般有4和8两种,通常的结论是BL8对于连续数据多的传输有好处,而BL4对于零散数据多的传输有优势。采用BL8的缺点是数据过于零散的话效率不高(当然,突发传输可以被强制中断,但限于篇幅不在这里讨论),采用BL4的缺点是内存地址定时和内存寻址过程消耗的时间过多,也等价于降低效率。
nForce4 SLI IE芯片组采用BL4,其实从1T就可以猜到,如果内存地址定时能保证1T的话,BL4的缺点就不那么明显了,而且采用BL4对于北桥芯片也是一种减负,是配合1T的必然之选。
新与旧之间
除了1T+BL4以外,C19北桥在技术上还有不少值得一提的地方。这其中DASP3.0和QuickSync这两项技术尤其值得重视。
DASP是Dynamic Adaptive Speculative Preprocessor的缩写,该技术在前代nForce产品中也有采用,目前发展到3.0版。从命名就可以看出,DASP采用的是预取技术,其实这也并不是什么独门武功。在大多数北桥中,都存在着缓存,这部分缓存会用来保存那些从内存模组送过来却还没有通过前端总线送走的数据。但这部分缓存还有一个作用,就是用来预取数据。预取技术的关键就是在于,如果算法优秀,预取的命中率高,那么就省去了很多内存寻址消耗的时间,这对系统整体性能提升有正面的帮助。DASP2.0在数据预取上,已经表现出了较好的实力,在K7平台上nForce2芯片组性能称王,很大程度上要归功于DASP2.0。在nForce4 SLI IE上,DASP3.0表现也相当不错,因文章篇幅所限,具体技术细节无法深入分析。需要指出的是,DASP 3.0的良好表现仍离不开1T的帮助。
至于QuickSync技术,简单说,是避免将内存向上异步以后即使性能不能得到提升,但也不至于下降。因为在nForce2平台,就曾经有一个让所有用户非常恼火的问题,那就是内存异步是性能下降的同义词。而在nForce4 SLI IE上,有了QuickSync的支持,内存向上异步将不再出现性能下降的结果了。DDR2-667以及更高的规范才能顺利进驻nForce4 SLI IE,为前端总线提供更多的“弹药”,也可以进一步发挥1T+BL4的优势。不过需要指出的是,QuickSync和Intel芯片组的内存异步技术相比还存在差距,或许也要像DASP技术一样,要到2.0或者3.0版本才能彻底赶上来。
在性能方面总的来看,有了重点宣传的1T+BL4,还有一旧一新的DASP3.0和QuickSync,nForce4 SLI IE在北桥性能上,面对Intel下一代芯片组的领头羊i955X几乎可以同它分庭抗礼。新北桥时代,从一家独大变为了双雄争霸。
最后一个瓶颈
NVIDIA在北桥上挑战Intel的王座地位,在南桥上也同样开始和Intel叫板。南桥部分的竞争一直分性能与功能两个方面,从功能上来说,代号MCP-04的nForce4 SLI IE的南桥,在这个部分我们可以看到与nForce4 SLI IE高端身份相匹配的多种功能:带有防火墙功能的千兆网卡、支持SATA2和RAID5技术的硬盘控制器、8声道的音效和高达10个的USB2.0接口。与Intel的i955X芯片组相比,这一切规格只强不弱。
除了功能,性能更是重中之重。同北桥一样,磁盘性能最强者,一直是Intel自家芯片组保持着的。在对比评测中, MCP-04在常规应用中和Intel ICH7-R南桥打成平手已经让人意外,而在对于带有NCQ技术的SATA2硬盘的评测中,在任务深度较大时MCP-04居然能占上风,这就很让人吃惊了。
如图4和图5测试结果显示,在负载和较深的任务深度时,不管是磁盘性能表现还是I/O能力,MCP-04都明显超越ICH7-R,而且幅度不小。不过,该对比测试时i955X芯片组驱动还不完善,近期一些专业网站放出的测试结果仍旧是MCP-04领先,但领先幅度缩水了不少。


在桌面领域能和ICH7-R打成平手已经是非常难能可贵了,在服务器/工作站级别这个Intel的传统强项区域能够取得短暂的领先更是不容易。不过据笔者估计,待到两个芯片组的驱动完善以后,在这个领域的性能应该会和桌面应用的结果类似,再次打平。从技术分析的角度来看,这里两者性能取得如此近似的结果和北桥上的情况还是类似——在缓存上投入的成本足以弥补在设计经验上的欠缺。
为何不叫nForce5
nForce4 SLI IE最初的传闻是它将被命名为nForce5,但最终选择的是我们现在看到的名字,比较正式的解释是,官方觉得这款芯片组和nForce4 SLI区别不大。这或许的确是一个理由,但笔者相信,命名变化问题和nForce4 SLI IE比Intel下一代旗舰产品i955X初期出厂定价还要高出50%,这两者之间有着某种必然的联系。
这个联系就是,NVIDIA是Intel处理器平台芯片组的“新人”,这部分市场能不能做下去还要看Intel公司的授权。VIA在Pentuim4平台的授权问题上已经是前车之鉴,放低调一些或许是个好主意。从另一个侧面来说,nForce4 SLI IE定价这么高和成本的关系相当大,不管是在南桥和北桥,取得和Intel顶级产品战成平手的性能,成本投入起了相当大的作用。
谁是王者?这个问题很难回答,因为这要看评定王者的标准。只从功能、性能比拼的结果来看,应该是不相上下。但从另一个角度来看,能用较低的成本换得更高的性能这才是真正的王者。以此而论,还是Intel这块老姜辣一些。
NVIDIA进入新领域手段相当高明,nForce4 SLI IE这块投入水中的石头,在Intel平台上已经开始掀起了浪花。未来,在芯片组市场NVIDIA大有可为。