拉开迅驰5的幕布
专题
Penryn处理器全解析
2008年1月7日,在Santa Rosa平台发布8个月后,Intel终于按捺不住,正式发布Santa Rosa Refresh,也就是我们通常说的迅驰4.5,继续领跑移动处理器市场。从2003年3月发布第一代迅驰平台Carmel以来,迅驰平台已经陪我们走过了近5年的时光,处理器核心也从Banias、Dothan、Yonah、Merom一路发展到了Penryn。
关于Penryn,外界其实已经有了许许多多的传言,甚至有人认为Penryn就是改进了制程的Merom。Intel会不会仅仅将Merom的制程改进到45nm就匆忙推向市场呢?Penryn究竟有了哪些变化?是不是真的如传言所说,不过是新制程装旧CPU。本文就从技术解析和性能测试这两方面,告诉各位读者一个真实的Penryn。
45nm的进化
从Merom到Penryn,最显著的变化就是制程,Penryn已经全面转换到了45nm制程。这也就意味着Penryn可以在同样的芯片面积上集成更多的晶体管(晶体管密度提升近两倍),而且其单位功耗和发热量会变得更低,主频也更容易提升,而且CPU空闲时的耗电量将大幅降低。这也就是为什么Penryn能够生产出2.8GHz的产品,甚至可能拥有更高的频率,功耗反而会有所降低的原因。
45nm制程并不是简单的工艺升级,而是相当复杂的技术改进。由于制程提高,电介质厚度必须变薄,而当前普遍采用的二氧化硅及多晶硅等材料的厚度越薄就会导致漏电控制越困难。为了大幅降低漏电并提高性能,Intel采用被称为High-k的新材料(以铪元素为基础)制作晶体管栅极电介质,同时栅极也将搭配全新的金属材料使用,内部连接线也改用铜线搭配Low-k电介质,进一步解决耗电量等问题。据称这几项技术的改进能够将漏电降低为原来的1/5甚至更低,晶体管开关速度能够提高20%。这样一来,在同一功耗下,采用了45nm制程的处理器频率可提升约20%,而在同一频率下功耗更低,电池续航力也明显大幅提升。此外,Intel还使用了创新设计法则和先进光罩技术,进一步降低了成本并提高了良品率。

Penryn的家族成员
Penryn的家族成员组成相当复杂,既有3MB二级缓存的低端版本Core 2 Duo T8100/T8300,也有中端的6MB二级缓存的Core 2 Duo T9300/T9500,还有最高端的Core 2 Extreme X9000,它们共同的特点都是采用45nm制程,但各自之间仍然有一些差别。例如3MB的Core 2 Duo T8100/T8300就只有12路组联,并不是早期流传的24路组联,而二级缓存为6MB的Core 2 Duo T9300/T9500才拥有24路组联。它们的详细规格见下表。

增强Intel酷睿微架构
从Merom到Penryn,也并非只有制程进步,在Intel酷睿微架构的基础上,Intel给Penryn加入了多项全新的设计,Intel把它们统称为增强Intel酷睿微架构。因此,尽管Penryn仍然采用了酷睿架构,但是和Merom及前一代处理器相比,Penryn处理器的变化是相当大的。

1.快速Radix-16除法器
Penryn处理器除沿袭Core微架构的优点外,并进一步改良除法器的设计,在科学计算、三维坐标转换和其它数学运算密集型功能中,改良的除法器将除法器速度提升了约两倍。Penryn所采用的新一代的快速除法技术称为Radix-16,Radix-16除法器可大幅改善宽位动态执行的效率,加速浮点和整数的除法运算速度。
以往处理器内建的Radix-4、Radix-2除法器,每一工作周期只能传递2bit数据,而新的快速Radix-16除法器则可以传递4bit数据。也就意味着Intel在增强Core微架构中支持每个周期处理4个指令(旧有处理器最多只能同时处理3个指令),且重新采用较高效率的14层流水线设计,为提升分支预测的能力及准确性,更将分支预测的带宽提升至20byte (K8、Banias 为16byte,Netburst为4byte),令指令执行效率大大提高。
2.快速OS原语支持及增强的Intel虚拟化技术
Penryn加入的快速OS原语支持的作用是当操作系统临时阻挡,或是遮蔽中断指令,进而阻碍一些关键代码区段,或是需要独占存取(如I/O设备)等状况时,能够快速中断遮蔽控制机能,可快速清除中断、重置中断,并快速进、出此状态模式,大幅改善这一类阶段性操作的性能。
基于此,Penryn可以快速执行XCHG、ADD/XADD/NEG/BTS/AND、CMPXCHG等锁定指令,以及快速存取RDTSC(读取时间印记计数器)。Intel声称这些技术可提高两倍的执行效率,对数据库服务器、交易处理服务器等应用有特别明显的性能提升。Intel经由强化微架构设计,缩短VT-x指令转换虚拟主机进入、离开时间,无须修改现有虚拟主机软件,就能增加25%~75%的执行效率。
3.24路组联
Penryn在高速缓存上加入了可看作是小群组概念的组联(Associativity),将高速缓存分割成多个区块。这样一来,当处理器运算单元需要数据时,有了组联可以加速数据读出、写入,而不用大海捞针似的在整个高速缓存内寻找,延迟时间也会明显降低。
由于组联的个数与快取失误率及额外的延迟时间相关,组联的个数更多可以降低数据被覆盖的机会,减少快取失误率从而提高命中率。Intel从以往采用的16 Way 16路设计,在Penryn上增加到24 Way 24路,以Penryn的L2 Cache数量来看,理论上应该是能够将失误率大幅降低。不过一旦组联配置得太多,处理器就会逐一去寻找数据,由此带来的后果就是延迟时间有可能并不会缩短,甚至还会延长。
4.增强Store Forwarding
为进一步改善内存性能,在Merom原有的智能内存访问的基础上,Penryn加入增强 Store Forwarding功能。这一功能能够加速读取管线中超过8byte地址范围的储存结果。让Penryn不必等待结果写入内存中,就能提前加载储存结果,能够有效地降低延迟。
5.Intel SSE4指令集
Intel在Penryn上,加入了最新的SSE4(Streaming SIMD Extension 4)指令集,不过,尽管是叫SSE4,但Intel自己制定的SSE4指令集规格的指令总数是54条,而Penryn只内建了47条指令,因此现在人们一般把Penryn加入的SSE4指令集称之为SSE 4.1,而把完整的54条SSE4指令集称为SSE4.2。SSE4.1能针对3D游戏加速、向量绘图运算、视频编码处理等多媒体应用,提供更强的加速效果。
SSE4.1指令集能够进一步加强编码效果,可以同时处理8个4byte宽的SAD(Sums of Absolute Differences)运算,在新一代高清视频编码如VC.1及H.264等规格中,可以让视频编码速度进一步提升。同时,Penryn加入的SSE4.1能够支持两个不同的32bit整数乘法运算,引入了8bit无符号最小值及最大值运算,再加上16bit、32bit无符号与有符号运算能力,有效地提高了编译器效率和向量整数及单精度代码的运算能力,同时,SSE4 改良了插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化,为编码器增加了新功能。
SSE4.1还加入了6条浮点型运算指令,支持单精度、双精度浮点运算及浮点产生操作,且IEEE 754指令 (Nearest、-Inf、+Inf、and Truncate) 可立即转换路径模式,大大减少延误,这些新指令对游戏及 3D制作应用加速有非常重要的意义。
此外,SSE4.1还强化了视频编码加速功能,并加入了串流式负载指令。串流负载指令可提高图形帧缓冲区的读取数据带宽,理论上可获取完整的缓存行,并能以64byte的数据线宽度读取显卡帧缓冲区,并可保持在临时缓冲区内,带来比8byte架构快上8倍的速度。对于视频处理、成像以及图形处理器与中央处理器之间的共享数据应用性能,有着明显的提升。
自从Pentium Ⅲ首次集成SSE指令集以来,此次改进可以说是SSE历史上最大的扩充,进一步增强了英特尔平台的多媒体性能和游戏性能;而同时改进的超级随机引擎可以协助优化SSE单元调用数据的效率,保持SSE单元的高效率运作,从而提升处理器的执行效率;相比此前的随机引擎,此次Penryn加载的超级随机引擎将在一个周期内可以执行128位操作,提高了整整一倍,更可以针对SSE2/SSE3等指令集一并进行优化,提升效率。
6.超级Shuffle引擎
Super Shuffle引擎和SSE指令集是相互关联的,它能够使SSE 指令运算更具效率,以往处理Unpacking、Packing、Align Concatenated Sources、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128bit宽度的字节、字及Dword SSE数据时,均无法在单一周期内完成,而必须先将它们拆解为两个64bit指令再运作,这样需要耗用两个工作周期才能完成。但超级Shuffle引擎设计除可让这些不同性质的128bit SSE指令在1个周期内完成、降低延迟及吞吐量外,甚至不用在软件端中作出改良即可实现。现在SSE指令集已普遍使用于主流软件中,包括绘图、影像、音效、加密、数学运算等用途。
7.深度电源关闭技术及增强的动态加速技术
除了为提升性能而进行的改进之外,Penryn还加入了两项新的省电技术——深度电源关闭技术和增强的动态加速技术。深度电源关闭技术是一个全新的处理器空闲电源管理技术,可让笔记本处理器的功耗在空闲状态下降到非常低的水平,核心电压也会根据情况大大降低,同时缓存彻底转移其中的数据并完全关闭,全新的休眠方式可以关闭所有的缓存,具有超低的电压和功耗,能够进一步降低处理器在空闲时的功耗,带来更长的电池续航时间。不过CPU从这种状态中恢复需要一点时间,而且会对性能产生一定的影响,但对笔记本用户来说,电池续航时间的重要性显然更大。毕竟,对于移动处理器而言,功耗的表现才是更重要的,相比性能的改进,续航时间的提升更能让人激动。

增强的动态加速技术能够在多核处理器中单独提高某个处理核心的频率,并将其他暂时不使用的核心关闭,利用处于空闲状态的内核节省的电源来提升处于工作状态的内核的性能,以适应单线程任务或者只能利用一个核心的多线程任务。Penryn支持滞后机制,在第二个内核被唤醒的很短的时间能够保持动态加速,在中断频率低的情况下不会降低性能,而在定时器启动频率高的时候,滞后机制能带来比较显著的性能提升。

8.更大的二级缓存
由于Penryn的高级缓存管理从16路组联提升至24路组联,因而可以有效管理的缓存也增加了50%。得益于这一改进,Penryn处理器最大可以具有6MB的二级缓存,而且组织管理方面也更加灵活智能。因此Penryn处理器的高端产品具有6MB的二级缓存,而中端产品则减半,具有3MB的二级缓存。
改变,不只是处理器
在Penryn发布的同时,英特尔也对配合的965系列芯片组做了一些小小的改变,965系列芯片组开始支持最新的AMT 2.6技术,支持远程配置,这可以给企业用户带来不小的帮助。而对于GM965系列芯片组自带的GMA X3100集成显卡,英特尔也会对驱动程序进行升级,不仅将全面支持SM 3.0,更会支持部分SM 4.0的功能;对于T&L,VS等,也将提供硬件的支持;在第三方解码器的支持下,GMA X3100也将对HD-DVD、蓝光等提供全面支持,更提供对于VC-1编码的硬件支持。
可以说Penryn是Intel 45nm High-k半导体技术和工艺与增强Intel 酷睿微架构的融合,正因为如此,Penryn才有更高的频率和更好的性能。从技术和制程上来看Penryn处理器面对着AMD全新的K10架构毫不逊色,而且核心频率及成本等可能还具有相当的优势。
接下来,我们将用事实说话,配合评测结果来告诉你一个完整的Penryn!
Penryn处理器评测
通过前面的介绍,对新一代迅驰处理器Penryn的技术改良,相信各位读者已经有所了解。不过这些分析大多还停留在理论上,Penryn能否在性能和功耗上取得新的平衡,达到一个新的高度,这些问题都只有实际测试后才能回答。
针对不同的用户需求,Intel逐渐将移动处理器细分为至尊版Core 2 Extreme、Core 2 Duo、Pentium Dual Core、Celeron M等不同的系列,通过前端总线、二级缓存或者VT、NX等附加功能的取舍,拉开产品间的性能差距和档次,从而让消费者各取所需。Penryn处理器仍将维持现有的定位格局,首批发布的5款移动Penryn处理器,频率从2.1GHz起跳,包括两款Core 2 Duo T8×××处理器、两款Core 2 Duo T9×××和一款至尊版Core 2 Extreme X9000移动处理器,其中的2.4GHz Core 2 Duo T8300是我们拿到的第一款Penryn移动处理器。
Penryn实物的第一印象
Core 2 Duo T8300正面仍然是我们熟悉的绿色基板,黑色标签上的“ES”表明这还是一款工程样品。让人惊讶的是Core 2 Duo T8300的核心面积,由于采用的是45nm制程,Core 2 Duo T8300的核心面积比采用65nm制程的Core 2 Duo T7500小得多。虽然Core 2 Duo T8300的二级缓存为3MB,比Core 2 Duo T7500还小1MB,但45nm制程让它的核心面积减小量远远超过1/4。
因为这次升级并不包括芯片组,所以Core 2 Duo T8300顺理成章地沿用了Merom的Socket P接口,针脚的定义也没有变化。但是这并不等于说原来的SantaRosa平台就可以顺利地升级到Penryn处理器,主要的要求是笔记本主板要满足新的VRM(Voltage Regulator Module,电压调整模块)供电设计要求。比如这颗Core 2 Duo T8300移动处理器,就不是安装到所有的SantaRosa平台上都能工作。不过用户不用担心,厂商只需要对原有设计稍加修改,新的主板很快就能量产, SantaRosa Refresh平台的笔记本上市的速度会很快。截止发稿时,我们已经了解到有5家厂商推出了10多款产品了。
通过CPU-Z显示的处理器信息,我们可以更直观地看到Core 2 Duo T8300所代表的Penryn发生的一些变化,比如45nm制造工艺、新增加的SSE4.1指令集以及3MB的二级缓存。Core 2 Duo T8300的核心电压有所降低,只有1.15V,这有助于进一步降低功耗(但是Core 2 Duo T9300仍为1.25V),而前端总线仍然是800MHz。

●不是所有的SantaRosa平台都支持Penryn。
●Core 2 Duo T8300二级缓存可能比Merom还要少。




测试方案
Penryn处理器的变化较多,不过就用户的角度来说,最关心的无非是性能和电池续航时间(即功耗大小),另外SSE4.1指令虽然也属于性能的一部分,因为它是随着Penryn第一次露面的东西,也就将它单独列了出来。
测试平台为明基Joybook S41笔记本,它的详细配置如下表。

对比处理器为Core 2 Duo T8300和Core 2 Duo T7500处理器,具体参数如下表。

测试平台采用的操作系统为英文Windows XP专业版,安装SP2补丁和最新驱动,如无特别说明,均默认采用AlwaysOn(一直开着)电源方案,以保证CPU始终以最高频率运行,不至于影响到性能。
性能测试

1.MobileMark2007:性能

MobileMark2007是业内公认的最为权威的一个笔记本测试软件。它模仿的应用环境偏向于商业办公用户。为了更准确地获得测试数据,我们分别在Portable/Laptop(便携/袖珍式)和AlwaysOn(一直开着)两种电源方案下进行了测试。
MobileMark2007的结果有些让人意外,在两个测试中,频率占优的Core 2 Duo T8300都没有胜出,反而均以1.8%的微弱劣势落后于Core 2 Duo T7500。由于MobileMark2007的测试脚本偏重于考查笔记本的整体性能,因此规格相当接近,而二级缓存少1MB的Core 2 Duo T8300,在整体性能表现上低于Core 2 Duo T7500也是可以理解的。
2. PCMark05:CPU

PCMark05中的CPU测试项目包括了文件压缩、解压缩等CPU关系密集的应用,从各个分项的具体数据来看,只有多线程测试的处理数据有较大的差距,其他的分项处理速度的差异都在小数点之后。整体而言Core 2 Duo T8300相比Core 2 Duo T7500有5%的性能优势,不过考虑到接近10%的频率差距,这点性能优势几乎可以忽略不计。
3. wPRIME:32M

wPRIME根据牛顿的递归函数来计算平方根。同是科学计算,相比SuperPI的单线程,wPRIME以支持多线程为自己赢得了越来越多的人气值。wPRIME 32M的测试数据显示,Core 2 Duo T8300领先了Core 2 Duo T7500 8.72%。
4.Cinebench R10

Cinebench同样也支持多线程。它模拟3D处理软件最常见的渲染工作。不是9.5版中简陋的城墙,Cinebench R10要渲染的是一款非常拉风的摩托车,让模拟对象更加贴近现实。
在Cinebench R10中,以完成渲染所用的时间来算。单线程时,Core 2 Duo T8300可比Core 2 Duo T7500节省7.4%的时间,而在多线程时,Core 2 Duo T8300节省时间的幅度提高到13.7%。
5. 3DMark06:CPU

同样是实时地显示一个游戏场景,不同的是工作全部由CPU完成。数据显示Core 2 Duo T8300领先Core 2 Duo T7500 14%,这也是Core 2 Duo T8300领先幅度最大的项目。
6.HDTV播放
采用终极解码来播放VC-1编码的《300勇士》,同时没有启用GeForce 8600M GS所具有的硬件视频加速功能。两款CPU都能流畅地播放,Core 2 Duo T8300的CPU占用率略低,平均只有30%,Core 2 Duo T7500稍高,平均为32%。
●整体性能,Core 2 Duo T8×××并不一定强于Core 2 Duo T7×××。
●在CPU密集型应用中,如果没有频率上的优势,只能说Core 2 Duo T8×××的性能略有进步,没有像Yonah跨越到Merom那样明显。
●当遇到多线程程序时,Penryn性能比Merom明显增强。即Penryn更适于多线程程序。
●功耗降低,电池续航能力提升明显。
验证SSE4.1指令集
从Pentium MMX开始的多媒体指令集,已经发展到SSE4指令集。虽然据 Intel 官方资料显示,近期Intel与多家软件公司合作,在2008 年第一季度将有 21 款软件支持SSE4 指令集,但是目前可以用到的支持SSE4.1指令的软件并不多,我们熟悉的仅有DivX Converter 6.5和TMPGEnc 4.0 Xpress这两款视频转换软件。
测试采用这两款软件,将一个1080p WMV文件转换为DIVX格式。因为TMPGEnc 4.0 Xpress可以启用和关闭SSE4指令集,因此我们还分别测试了这两种情况下的编码效果。从测试结果来看,TMPGEnc 4.0 Xpress中开启和关闭SSE4指令集,对结果完全没有影响。看来TMPGEnc 4.0 Xpress对SSE4的支持还有待改进。
总体而言,Penryn的视频处理能力有明显的增强,DivX Converter 6.5和TMPGEnc 4.0 Xpress的视频编码时间分别减少了8.6%和11.1%。毕竟除了SSE4,Penryn还有超级Shuffle引擎用来增强多媒体处理能力 。
●Penryn视频编码速度大幅提高11.1%。
●软件对SSE4.1指令集支持度尚待深化。


功耗分析
Penryn增强的电源管理技术,让功耗大幅降低。先来看电池时间,无论是Portable/Laptop还是AlwaysOn电源方案(两种电源方案最大的区别是前者CPU会自动升降频,而后者始终保持最高频率),Core 2 Duo T8300的电池时间都有很大的优势,比Core 2 Duo T7500分别延长了21.8%和13.9%。
功耗的大幅降低,让Penryn平台的每瓦性能也得到了大幅的提高。以用户最常用的Portable/Laptop电源方案为例,每瓦性能的增幅达到19.5%。
●Penryn的平均功耗大幅降低17.9%,延长电池时间21.8%。
●Penryn平台每瓦性能增幅超过19.5%。
工程师总结:不仅是改良的Penryn
虽然我们测试的这颗Core 2 Duo T8300处理器只是Penryn系列中的中低端产品。不过已经可以让我们一窥Penryn的特点。通过一系列的测试,我们可以看到Penryn与频率近似的Merom相比,处理器性能有一定的提升,只不过没有当年Yonah升级到Merom(也是Core 2 Duo架构首次登场)那么明显。但是在多线程、视频处理等应用上还是有非常明显的进步。
功耗上的降低,成为Penryn移动处理器最大的亮点。如果说Merom最大的改进在性能,那么Penryn则在功耗上进一步完善了Merom未尽的工作。相比Merom,Penryn延长电池时间21.8%,这是非常大的一个进步,也让人非常期待早日用上Penryn平台的笔记本。
Penryn的诞生,虽然不如当年迅驰平台或者Core Duo架构问世那样具有惊天动地的意义,但是也算是Intel重要的技术拐点。在Penryn上采用High-k技术,Intel一举突破制造工艺的难题,为今后32nm甚至更低的制造工艺打下了基础。