K8L的助推器——解读HyperTransport 3.0总线

技术空间

K8架构最大的优势之一是引入了HyperTransport总线。随着K8L架构的问世, HyperTransport技术联盟也相应发布了最新的HyperTransport 3.0(以下简称HT 3.0)标准。面对即将到来的多核心处理器、并行显卡时代,新一代HT 3.0会扮演一个什么样的角色?

从1.0到3.0,HT总线进化论

在整个系统总线中,HT总线的地位比较特殊,它是AMD独家设计开发的一种总线标准,其主要目的是连接高速芯片进行数据交换。HT总线最初研发于1999年,当时名为LDT(Lightning Data Transport,闪电数据传输);2001年发布LDT 1.0版本,随即改名为HT 1.0;2004年推出HT 2.0。随着Broadcom、Cisco、Sun、NVIDIA、ALi、ATI、Apple、Transmeta等许多企业均决定采用这项新型总线技术,AMD借此组建HT技术开放联盟,到今年推出的HT 3.0,从而加快HT产业化的步伐。

43-d8-01.jpg
HT发展路线图

HT的基本原理和PCI Express很类似——通过串行方式进行传输,采用高工作频率来获得出色的性能。HT总线为两条点对点的全双工数据线路,其中一条负责数据输入而另外一条负责数据输出,可采用双向触发技术使得传输频率加倍以实现提高带宽目的。另外,HT还有一个独特的数据发送方式,那便是在串行传输的模式下实现并行传输。

小知识:

半双工(Half Duplex)与全双工(Full Duplex)

在半双工方式下,数据传输只允许有一个通信回路,因此,数据只能从一个设备发向另一个设备。在两个设备之间只需要一条信号线和一条接地线。而在双工方式下,任意时刻信息都可进行双向的信息传输,全双工传输是两个单工传输的结合,要求收发设备都具有独立的收发能力。因此,要求两两设备之间至少有三条传输线(一条用于传输、一条用于发送、另外一条用于信号线)。

HT 3.0的技术优势

在我们大致了解了HT发展历程和基本原理以后,接下来我们看看HT 3.0到底带来了哪些方面的变化?

1.工作频率从HT 2.0最高的1.4GHz提升到了2.6GHz。

如果按照HT 2.0标准的1.0GHz来计算带宽,那么在16bit位宽下,HT 2.0可以提供8.0GB/s数据带宽(1000MHz×16bit×4/8)。退一步来讲,HT 2.0最高规格的1.4GHz状态下也能提供11.2GB/s带宽(1400MHz×16bit×4/8)。随着系统数据交换量的不断增大,提高系统总线带宽成为必要前提。HT 3.0在提高运行频率的同时还可以增加位宽,这就使得带宽获得进一步提高。正是在高频率(2.6GHz)、高位宽(32bit)的方式下,HT 3.0为我们提供了41.6GB/s总线带宽(2600MHz×32bit×4/8),而就算是在16bit位宽下也可以为我们提供20.8GB/s带宽(2600MHz×16bit×4/8)。

43-d8-02.jpg
HT2.0到HT3.0的工作频率和传输率变化情况

2.在DC模式的基础上引入了AC模式。

AC(交流)模式可以使得总线在最高工作频率下的最大信号传输距离延伸到1米。由于AC模式的引入使得HT总线最大信号传输具有稍微偏短的现状有所改善。当然AC模式在带宽和延迟方面的表现略差于DC(直流)模式,厂商可以根据实际情况来选择采用DC模式还是AC模式。两种模式的灵活性也相当强,在一个系统中既采用单一模式也可以采用混合模式,使系统的设计最优化。

3.全新的Un-Ganging模式。

由于该模式的引入,使得HT总线能够允许操作过程中进行带宽资源动态分配。举一个简单例子来说明,当系统总线上存在一个1×16bit模式下的连接,而此连接可以被重新配置为虚拟2×8bit连接模式。转化以后的CPU架构形成一种多线程处理器(SMT处理器),但是每一个核心将会独立拥有一条位宽为8bit的HT总线连接;而当在SMT处理机制完成后,CPU可以被重新配置为单核心处理器,此时,HT总线还原成为一条位宽为16bit的总线,供单核心处理器使用。由此可见,Un-Ganging模式使得HT总线更加有利于未来处理器的发展。

43-d8-04.jpg
HT总线提供的8bit与16bit模式

4.加入对热插拔(Hot Plugging)的支持。

加入对热插拔的支持后,HT的应用范围从原有的系统总线扩展到外部总线。我们可以方便地插拔符合HT规范的周边设备,就像使用USB或IEEE1394接口的产品一样。就目前情况而言,采用HT规范的产品不论在种类和数量上肯定不能和USB、IEEE 1394等设备相提并论,但随着HT联盟以及HT技术的不断努力与普及,相信会有越来越多的HT设备出现在市场上。

43-d8-05.jpg
支持热插拔是HT 3.0的一大创新

5.改进了电源动态管理,使之更加合理化。

在电源动态管理的支持下,允许进程根据自身需求动态对HT总线的工作频率和位宽进行调整,以达到功耗最小的情况下仍然能满足数据传输周期的要求。由于该动态调整执行过程完全依赖于总线硬件设备,所以系统开销方面很少,调整可以做到相当即时。

6. 制定了HT总线的扩展接口——HTX接口。

我们知道,新的HTX接口标准是为加速HT 3.0技术在高性能系统市场的应用而推出的扩展规范。具有HTX接口的主板或扩展卡规范定义了8位和16位接口标准,带宽最高达1.6GB/s(工作频率为800MHz),包括所有控制信号在内(也包括同步参考信号)。连接器信号工作电压包括12V和3.3V两种。HTX规范不仅兼容各种ATX主板,而且兼容采用标准PCI接口的板卡。

高速总线大幅提升系统性能

在K8时代后,AMD把旧有北桥一分为二——因为传统北桥的内存控制器和北桥总线接口被内置到CPU核心中,所以传统北桥中的AGP控制器以及同南桥进行数据交换的接口界面则仍然外置。新的北桥架构通过HT总线将北桥的内置部分同外置部分的AGP控制器等连接在一起。这样,HT总线所承担的数据量为“图形总线+南北桥总线”。就算如此,随着NVIDIA和ATI并行图形处理方案的日渐流行,与处理器之间的数据交换也将会越来越大。此外,加上多个IDE设备与处理器之间数据交流。另外一方面,随着双核甚至多核处理器的发展,如果总线带宽相对落后,就会使处理器在很多时间得不到请求而处于空闲状态,整体性能遭到损失。

43-d8-07.jpg
AMD 64位架构图,AMD-8151为南桥,AMD-8111为北桥

而对于Intel来说,总线的重要性显得更为突出。事实上,Intel目前已饱受总线带宽不足的困扰:945/955X芯片组所支持的双通道DDR2 667内存可提供10.7GB/s带宽,而无论是Pentium 4 600还是双核的Pentium D处理器,都只采用800MHz的64位前端总线,带宽也仅有6.4GB/s,产生明显的性能瓶颈。而且还应该考虑到AMD64之中所包含的并行显卡处理和IDE等挂接在南桥上设备与处理器之间的数据交换。

总而言之,无论是Intel平台还是AMD平台,在未来的发展中如果没有一条强劲的总线与之搭配的话,在诸如处理器、显卡等设备方面提升的性能都将会被低下的总线所抵消一部分。

遍地开花,HT开始成长

对于普通消费者来说,最熟悉的HT应用恐怕就是AMD K8系列CPU了。由于整合了内存控制器,新的CPU一举消灭了困扰众多处理器的前端总线。但这样一来,CPU也需要一条高速低延迟的总线与主板芯片组连接。作为HT标准的倡导者,AMD很自然地将HT总线加入到自己的处理器中。在实际性能表现上,K8系列处理器也不负众望,HT带来的低延迟高速度使得K8的内存效率大幅领先Intel同档次产品。

美中不足的是,由于K8设计时间较早,所以当时只集成了HT 1.0版本总线。这使得AMD CPU在1GHz的频率下HT总线只能获得2000MT/s的传输率(注:MT/s的意思是Mega-Transfers/s,百万次每秒。由于HT总线是双向通讯的,所以2000MT/s代表1GHz)。为了适应多核发展的潮流,AMD将会在原生4内核的K8L处理器中加入对HT 3.0标准的支持,从而使处理器和主板芯片组之间数据交换的速度得到进一步提升。除此以外,在许多主板南北桥芯片组之间的连接HT也起到了巨大的作用。NVIDIA自nForce4 Intel Edition芯片组开始就采用了HT来连接主板的南北桥芯片,从而获得极高的传输率。

另一方面,随着HTX这一HT物理插口标准的确立,HT开始逐步渗透被PCI Express牢牢把握的扩展卡市场。在未来,我们不难预见众多的协处理器以及相关硬件都以HTX等扩展卡的形式出现在各种平台上,从而实现与CPU更为快速的数据交换。PCI Express与HT正在逐步出现相互竞争的趋势。

写在最后

面对AMD的步步紧逼,Intel当然不会坐视不理。为了抗衡如日中天的HT,Intel计划会在2008年全面导入被称作CSI(Common System Interface,通用系统总线)的技术。在CSI推出之后,Intel也将会步AMD后尘将内存控制器整合入处理器内部,这样处理器与主板之间就需要CSI来进行连接。值得一提的是,CSI的引入将会使得Intel旗下所有CPU与主板的连接统一起来,这其中包括了Core、Pentium、Xeon、Itanium都将会采用该接口。如果说最初的HT只是个不起眼的总线标准,在经过了AMD等众多厂商几年耕耘之后,HT已经具备了一个优秀总线标准的一切特性。相信随着HTX、HT 3.0等标准的相继确立,未来我们将会看到HT出现在越来越多的硬件上,并且为我们带来更为出色的计算体验。