显存、内存4级跳——DDR4技术前瞻
技术空间
前言
长期以来,内存、显存规格都随着个人电脑两大核心部件CPU和GPU的发展而发展,也正是内存和显存规格的进步才让我们体验到了高速发展的半导体工业所赋予CPU和GPU的出色性能。
5年前Intel 845D/VIA KT266两款芯片组的问世拉开了DDR时代的序幕,DDR的出现基本上结束了SDRAM和RDRAM的生命,DDR以平易近人的价格让消费者感受到Pentium4和AthlonXP的出色表现;2006年在业界众多厂商的推波助澜下内存标准全面过渡到DDR2标准。纵观如今桌面平台无论是Intel还是AMD都已经完成了对DDR2的全面支持。除了系统内存模组,显存芯片也是各个存储标准大显身手的舞台。NVIDIA第一个将DDR使用在GeForce 256显卡上,此外,还第一个将DDR3使用在GeForce FX 5700 Ultra显卡上。而AMD则第一个将GDDR4使用在Radeon X1950XTX之上。
即便当前我们仍未看到DDR3的到来,但是这一切并不影响诸如Hynix、奇梦达、Micron和Samsung等厂商对于DDR4的追求。本文就将向你介绍未出现的DDR4和已出现的GDDR4的技术特性。
王者的标志——GDDR4
GDDR4是最新一代的显存技术,现已被用于AMD顶级显卡Radeon X1950XTX之上,它与以前的GDDR3规范相比又有一定进步,主要优势仍然体现在把频率进一步提升从而使带宽增加,另外,GDDR4的功耗与GDDR3的功耗相比还会有所下降。
对于我们来说GDDR4可算是个新概念,但是GDDR4规范早在2003年便被提出,而且在2004年便完成了规范的初步制定,2005年完成了最终规范。
在前文我们已经提及,GDDR4较GDDR3来说最大的优势便是提升了带宽、增加了预取位数。在这里我们有必要回顾一下关于DDR技术的特征。普通的SDRAM内存在一个时钟周期内只能进行一次操作,这个操作可以是读取也可以是写入;而在DDR时代,最大的成功之处就是引入了数据预取概念,在DRAM的内部,假如是读的操作过程,那么从指定储存单元取得的数据必须经过两个不同的操作:一个是通过DRAM内部的数据总线往外输出数据到芯片,另一个是通过读出放大器将数据写回到DRAM,达到恢复数据的目的。DRAM在内部时钟信号的触发下,一次传送8bit的数据,再分成两路4bit数据传给放大器,由后者将它们合并为一路数据流,然后由发送器按照在外部时钟上升沿与下降沿分两次传输4bit的数据原则,把数据传输给北桥。这样,如果时钟频率为100MHz,那么在I/O端口处,由于是上下沿触发,那么传输频率就是200MHz。就是这个原理,使得工作频率为133MHz的内存数据传输带宽到达266MB/s,也就是相当于工作在266MHz下的SDRAM内存。

GDDR3可以说是专为显存进行优化设计的颗粒,其实从严格意义上来讲,GDDR3是由DDR2发展而来的,因为它依旧采用4bit的数据预取设计,但是并不是按部就班地沿袭而是进行了诸多改进。首先,GDDR3使用单终结(Single-Ended)、单向选通(Unidirectional Strobe)来分离读取和写入两个操作,而DDR2则采用差速双向选通(Differential Bi-Directional Strobe)的方式来进行读写,这样的好处是,在读取之后如果马上进行写入,不用再等DQS的方向转变,通过独立的写入DQS信号可以实现快速读写切换,比GDDR2要节省一个时钟周期。其次,GDDR3采用基于电压而不是电流的伪漏极开路(Pseudo-Open Drain)接口技术,这样一来在保证信号质量的前提下可更大程度地降低能耗,也使得显示芯片能够兼容DDR、DDR2和GDDR3。与DDR2一样,GDDR3的工作电压仍然使用1.8V。

GDDR4在GDDR3的基础上修改了部分规范内容,由于采用8bit的预取位数设计,所以GDDR4已经不能算作是DDR2的衍生产物,因为从物理架构上来看,GDDR4与即将在今年大展拳脚的DDR3相似。从下面的三星GDDR4架构图中我们可以看到,GDDR4其实与同规格的GDDR3相比并没有太大的变化,依旧采用了8bank的存储单元设计,每个单元拥有32bit位宽,容量为2MB,8个bank共享一条256bit内部总线。这样的设计可以实现8bit 预取位数,正好可以提供2的8次方(256bit总线)最佳搭配带宽,与之相反的是, GDDR3由于采用4bit预取架构设计,最终可以提供的总线宽度仅为128bit,无法满足8bank的数据交换物理需求。换句话说, GDDR4构架中预取位数单元不会成为内部计算单元数据交换的瓶颈。

我们可以这样来简单描述GDDR4与GDDR3的差异——GDDR4可以提供比GDDR3高出一倍的数据传输效率;在相同的传输效率下,GDDR4的内部计算单元工作频率可以比GDDR3低一半,可以达到降低能耗的目的。

对手
GDDR4显存的内部架构
英雄并不寂寞——GDDR4的对手
众所周知,“GDDR4并不是寂寞的英雄”。Rambus公司也对显存市场虎视眈眈并于去年推出了先进的XDR2架构,矛头直接指向了GDDR3和GDDR4。XDR2架构可被称作是XDR架构的升级版本,通过两者架构图的对比可以发现,XDR2除了MT以外还在在XDR基础之上进行了一些改进与优化——XDR2将系统时钟的频率从XDR原有的400MHz提高到500MHz;在用于传输寻址与控制命令的RQ总线(RQ Bus)上,工作频率从800MHz提升至2GHz,是XDR2系统时钟的4倍,最后的效果便是数据传输频率由XDR的3.2GHz提高到8GHz。Rambus表示,XDR2内存芯片的标准设计位宽为16Bit(它可以像XDR那样动态调整位宽),如果按每个数据引脚的传输频率为8GHz来计算,一颗XDR2芯片的数据带宽就将达到16GB/s!就GDDR4而言,三星公司透露,以32bit来计算,目前提供的GDDR4显存单芯片带宽最高为10GB/s。GDDR4所能提供的带宽与XDR2相比仍有差距,所幸GDDR4凭借开放式架构在成本方面拥有相当大的优势,暂时还不会因为带宽不足而严重制约GPU的发挥。我们认为厂商不会考虑去使用XDR2,毕竟GPU的成本已经难以让人接受,如果再采用高成本的XDR2显存的话,一张显卡生产出来后可能就无人问津了。
系统助推剂——DDR4内存
看到此处你或许会纳闷,如今我们才刚刚用上DDR2内存,难道业界就那么快转向DDR4内存了?其实在2007年下半年,DDR3内存就将伴随Intel 3系列主板芯片组产品出现在新的平台上。作为DDR3内存的“法定接班人”,DDR4内存也整装待发。
桌面上运用的DDR4内存和显卡上的GDDR4显存并没有太大差异,两者同样采用了8bit预取结构,在内部体系方面如出一辙。两者不同之处在于届时上市的DDR4内存模组将会在能耗控制方面显著低于GDDR4内存。与此同时,DDR4内存模组还可能采用全新的引脚定义。
尽管我们现在无法进一步了解用于电脑系统中的DDR4内存模组的细节,但是毫无疑问,业界向DDR4的过渡绝对不会像DDR到DDR2过渡那样平稳。除了Rambus会成为有力的狙击者之外,在CPU内部或者芯片组上集成DDR4内存控制器也是一个相当复杂的任务。更为关键的是,在2008年Intel的CPU将会全面转向CSI(通用系统)接口并且内置内存控制器,这样不仅能够极大消除前端总线对CPU性能的影响,还将会让DDR3内存的寿命进一步延长。对比图形卡市场的无限风光,在桌面市场上DDR4内存难免显得有些寂寞。
结语
未来的市场中,内存规格/显存规格将会继续伴随着CPU/GPU的进步而升级,带宽未来将会达到多大,可能谁也说不清楚,但有一点非常重要——内存/显存带宽不能远远落后于CPU/GPU所需的数据传输率,也许DDR4的出现将会扭转当今内存苦苦追赶的窘况。