一个好汉三个帮——协处理器技术剖析

技术空间

毫无疑问,多核是今后CPU发展的主旋律。不过,随着技术的成熟,多核处理器的架构也将发生一个显著的变化,那就是从通用的对等设计转移到“主核心+协处理器”的新型架构,即处理器中只有一个或数个通用核心承担任务指派功能,而浮点运算、HDTV视频解码、Java语言执行等功能都由专门的DSP硬件核心来完成,以实现处理器执行效率和性能的最大化。

继往开来——协处理器的发展历程

所谓协处理器,就是一颗能与CPU协同工作,帮助CPU完成特定任务的专用处理芯片。由于协处理器往往是针对某些特定应用(如浮点运算)而设计,所以设计时不必考虑太多的通用性,协处理器往往拥有很高的性能,完成特定任务时可以把现有CPU远远抛在后面。举个例子,ClearSpeed公司就发布了一款基于协处理器的PCI Express板卡,该卡的浮点性能高达50Gflops(Giga FLoating point Operations per Second,每秒十亿次浮点运算),比当前桌面PC强10倍。要知道,就算Intel面向高端服务器的4路Montecito(双内核)系统也仅获得45GFlops的浮点性能!协处理器的威力可见一斑!

36-d8-01.jpg
ClearSpeed的协处理器板卡外观

事实上,协处理器很早就在PC市场大展身手了。8087就是Intel设计的第一个数学辅助处理器,它与Intel的8088和8086微处理器成对工作,可以加速应用程序的浮点运算速度,针对不同的特定应用,速度提升从20%到500%不等。真正让电脑用户对协处理器印象深刻的当数80387芯片了,当时它被很多386主机搭载,主频与CPU速度匹配。当CPU发展到486时代,协处理器就从人们的视线中消失了。事实上,这种情况的出现主要得益于半导体制造工艺的进步。以往由于技术的限制,一个芯片内不能同时封装ALU(Arithmetic Logic Unit,算术逻辑单元)和FPU(Float Point Unit,浮点运算单元)两个单元,而80486使用了1微米制造工艺,首次实破了芯片内100万个晶体管的限制,FPU从此就在CPU内部“安家”了。

36-d8-02.jpg
80387协处理器芯片

尽管协处理器在80486之后不再成为主流,但这并不意味着它已经消亡,在高端服务器、专业设计等领域还能看见它的“身影”,甚至我们今天熟悉的多媒体手机,也是协处理器活跃的舞台。Intel、NVIDIA、ATI针对手持设备推出的图形芯片,就是不折不扣的协处理器,它们可以大幅提升手机的图形处理能力。时隔多年,协处理器再次引起Intel、AMD两大厂商的注意,并把它们作为未来产品的标准功能,其中的功臣当数Cell处理器。

四两拨千斤——Cell带来的启示

Cell是IBM、SONY、TOSHIBA联合推出的处理核心,它将率先使用在SONY的新一代游戏机PS3上。Cell可以提供高达256Gflops的单精度浮点性能,而它只使用了2.34亿个晶体管,能源利用效率比现在设计最佳的RISC和x86处理器高出数十倍!Cell的“魔力”究竟来自哪里?答案就是它集成了多个协处理器。

Cell总共集成了9颗处理核心,但其中只有1颗名为PPE(Power Processor Element,主处理单元)的核心具备现代CPU的通用处理功能,而其它8颗名为SPE(Synergistic Processor Element,协处理单元)的核心则专门针对浮点运算进行优化。PPE负责任务的分配,SPE则在PPE的指挥下完成复杂的计算工作。SPE的作用就如同80387协处理器,而PPE就像80386处理器一样,两个体系的差别很明显,80386同80387协处理器是分开的,而Cell则把它们集成在一起。由于SPE只完成特定的任务,因此每个SPE占用的晶体管并不会多。在晶体管数目相差不多的情况下,“主处理器+协处理器”的架构能获得更强的性能!

36-d8-03.jpg
多颗协处理器让Cell表现出惊人的性能

我们知道,当前x86处理器使用了通用的处理核心,为了同时提高整数和浮点性能,晶体管消耗越来越多,但性能的增长并没有同晶体管的增长成正比。尽管业界使用优化处理架构、增加通用处理核心等手段,但它们还不是根本的解决方法。未来CPU如何再次突破发展的瓶颈?Cell的设计思想非常值得借鉴。我们知道,当前高清视频处理是非常占用CPU资源的,如果在CPU内专门设置一个针对视频处理的协处理器,效率肯定要高上好多倍,而且这种实现并不需要很多晶体管。事实上,不只视频处理, 3D渲染、物理处理这些任务也可以转移至协处理器上来完成。“x86+协处理器”的架构将成为未来桌面CPU的标准设计模式!

海纳百川——剖析AMD的协处理器架构

1.Torrenza平台欲引领协处理器潮流

从K8L架构开始,AMD将推广一种名为Torrenza的协处理器平台。从Torrenza架构图我们可以发现这种平台的强大之处,协处理器(架构图中标注为“Accelerator”的组件)存在的方式多种多样,包括集成在CPU内部的协处理器、内置于芯片组的协处理器、基于HTX接口的协处理器、基于PCI Express接口的协处理器、使用CPU插槽的协处理器。不难看出,Torrenza正尝试走一条内外兼顾的发展之路。“海纳百川,有容乃大”,相信这种无私的做法会得到更多厂商的支持。

36-d8-04.jpg
Torrenza平台架构图

这里要提一下HTX接口。多路Opteron平台在服务器市场上备受追捧,HyperTransport总线可谓立下汗马功劳。目前HyperTransport总线已经实现了芯片与芯片之间的低延迟高带宽通讯,而HTX接口则扩大了HyperTransport总线的应用范围,你可以把HTX接口看成是HyperTransport总线外部物理化的版本。HTX接口定义了一个专用的主板插槽,用户只要在这个插槽上插入相应的HTX设备,CPU就可以直接同该设备进行通讯,而不必像PCI Express设备那样,还要芯片组从中搭起桥梁。

为了配合Torrenza协处理器平台,K8L将集成多个HyperTransport 3.0接口,一个Opteron系统最多允许3个协处理器同时运行。AMD近期收购了ATI,如果两者的长处得到很好结合的话,相信在不久的将来,我们就可以看到集成图形协处理器的CPU,图形核心浮点运算能力强的优点也可以更好地发挥!

2.模块化设计如虎添翼

AMD在K8L上引入的模块化设计,也将让协处理器的添加变得异常容易。尽管现有CPU都使用了相对独立的单元结构设计,但各个单元之间的通路和接口没有明确的定义。一种架构被定下来之后,单元的添加及取舍并没有想像中的那般容易。K8L将CPU分成C(Compute Core,计算核心)、MC(Memory Controller,内存控制器)、HT(HyperTransport总线接口)、CB(Crossbar Switch,交换控制台)、IO(Input/Output,输入/输出接口)、CL(Clocks,时钟频率)、CO(Controls,控制器)、L1(L1 Cache,一级缓存)、L2(L2 Cache,二级缓存)、L3(L3 Cache,三级缓存)十大模块,模块之间的通路及接口获得了明确的定义。今后AMD可以非常容易地把协处理器添加于K8L内部之中,同时内部的各个模块也可以根据需要取舍!

独大还是开放?——剖析Intel的协处理器架构

1.Many-Cores计划

在协处理器的设计上,Intel将使用类似Cell的集成化思想,它把自己的协处理器计划命名为“Many-Cores”。第一代Many-Cores的原型就是通用四核心处理器,但把其中一颗通用型核心更换成一组DSP(Digital Signal Processor,数字信号处理器,也就是我们所说的协处理器)阵列,该DSP阵列由16颗DSP组成。换句话说,第一代Many-Cores将使用“3颗x86+16颗DSP”的架构,据说一颗DSP的功耗仅为2W,这些DSP类型可以是视频编解码引擎、物理处理引擎、JAVA解析器、内存控制器等,由于设计时有了明确的针对性,引擎、架构都可以针对特定任务进行优化,因此这些DSP在处理特定任务时要比几十瓦的全通用型核心还要出色。更加重要的是,这些DSP晶体管数量并不多,加上逻辑电路简单,它们在频率上的提升也相对比较容易。

Intel甚至规划了第二代Many-Cores产品,它将使用“8颗x86+64颗DSP”的架构,缓存容量高达1GB,晶体管规模达到200亿,由于制程技术的限制,该计划可能要到2015年才能实现。通过与Cell对比,我们发现Many-Cores仍然让通用型核心占据着重要地位,而Cell更多地是让通用型核心满足基本运行需要。事实上,这跟两者的应用领域有关,Many-Cores必须满足多样化的应用程序需求,而Cell主要面向PS3游戏应用。

2.CSI总线带来的契机

目前,Intel在加紧研制一种名为CSI的总线,其矛头直指HyperTransport,速度、带宽、功耗等一切规格都要赶超,据传单条点对点模式下CSI总线的数据吞吐量就达到惊人的32GB/s。CSI的英文全称是“Common System Interconnect”,意即“公共系统互联”,它可以实现处理器内核与内核、内核与芯片组之间的串行高速互联。一旦CSI总线付诸实施后,Intel会不会也搞出一个类似Torrenza的平台?“众人拾柴火焰高”,Intel自然明白其中的商业道理,其协处理器架构走向开放应该更为有利。

结语

不管以何种形式存在,协处理器都将在未来的PC舞台上扮演重要角色。单核到双核的变化已经令我们欣喜,而协处理器带来的更是脱胎换骨的转变!“山雨欲来风满楼”,就让我们期待这一时刻早日到来吧!