一、FSB正离我们远去
众所周之,前端总线(Front Side Bus,简称FSB)是将CPU中央处理器连接到北桥芯片的系统总线,它是CPU和外界交换数据的主要通道。前端总线的数据传输能力对计算机整体性能影响很大,如果没有足够带宽的前端总线,即使配备再强劲的CPU,用户也不会感觉到计算机整体速度的明显提升。
目前intel处理器主流的前端总线频率有800MHz、1066MHz、1333MHz几种,而就在2007年11月,intel再度将处理器的前端总线频率提升至1600MHz(默认外频400MHz),这比2003年最高的800MHzFSB总线频率整整提升了一倍。这样高的前端总线频率,其带宽多大呢?前端总线为1333MHz时,处理器与北桥之间的带宽为10.67GB/s,而提升到1600MHz能达到12.8GB/s,增加了20%。
虽然intel处理器的前端总线频率看起来已经很高,但与同时不断提升的内存频率、高性能显卡(特别是双或多显卡系统)相比,CPU与芯片组存在的前端总线瓶颈仍未根本改变。例如1333MHz的FSB所提供的内存带宽是1333MHz×64bit/8=10667MB/s=10.67GB/s,与双通道的DDR2-667内存刚好匹配,但如果使用双通道的DDR2-800、DDR2-1066的内存,这时FSB的带宽就小于内存的带宽。更不用说和未来的三通道和更高频率的DDR3内存搭配了(Nehalem平台三通道DDR3-1333内存的带宽可达32GB/s)。
与AMD的HyperTransport(HT)总线技术相比,FSB的带宽瓶颈也很明显。HT作为AMD CPU上广为应用的一种端到端的总线技术,它可在内存控制器、磁盘控制器以及PCI-E总线控制器之间提供更高的数据传输带宽。HT1.0在双向32bit模式的总线带宽为12.8GB/s,其带宽便可匹敌目前最新的FSB带宽。2004年AMD推出的HT2.0规格,最大带宽又由1.0的12.8GB/s提升到了22.4GB/s。而最新的HT3.0又将工作频率从HT2.0最高的1.4GHz提高到了2.6GHz,提升幅度几乎又达到了一倍。这样,HT3.0在2.6GHz高频率32bit高位宽运行模式下,即可提供高达41.6GB/s的总线带宽(即使在16bit的位宽下也能提供20.8GB/s 带宽),相比FSB优势明显,应付未来两年内内存、显卡和处理器的升级需要也没有问题。
面对这种带宽上的劣势,虽然intel通过对市场的准确把握,以及其他优势技术上的弥补(如指令集优势、如CPU效率上intel的酷睿2双核共享二级缓存互联架构要明显优于AMD HT互联下的的双核架构等等),让AMD的带宽优势并没有因此转化为胜势,但intel要想改变这种处理器和北桥设备之间带宽捉襟见肘的情况,纵使在现可在技术上将FSB频率进一步提高到2133MHz,也难以应付未来DDR3内存及多显卡系统所带来的带宽需求。Intel推出新的总线技术势在必行。 二、当世界失去FSB我们还有QPI
Intel自身也清醒的认识到,要想在通过单纯提高处理器的外频和FSB,也难以像以前那样带来更好的性能提升。采用全新的Nehalem架构的intel下一代CPU让我们看到了英特尔变革的决心。目前已经正式发布,基于该架构的代号为Boomfield第一款处理器,我们可以看见很多很多技术的细节——该处理器拥有全新的规格和性能,采用全新的LGA 1366接口,45nm制程,集成三通道DDR3内存控制器(支持DDR3 800/1066/1333/1600内存规格),使用新总线QPI与处理器进行连接,支持SMT(Simultaneous Muti-hreading,单颗处理器就可以支持8线程并行技术)多线程技术,支持SSE4.2指令集(增加了7条新的SSE4指令),是intel第一款原生四核处理器……
当然,在其拥有的众多技术中,最引人注目的应该还是QPI(原先宣传的CSI总线)总线技术,他是全新的Nahalem架构之所以能在架构、功能和性能上取得大突破的关键性技术。
三、QPI能给我们带来什么
QPI(Quick Path Interconnect)——"快速通道互联",取代前端总线(FSB)的一种点到点连接技术,20位宽的QPI连接其带宽可达惊人的每秒25.6GB,远非FSB可比。QPI最初能够发放异彩的是支持多个处理器的服务器平台,QPI可以用于多处理器之间的互联。
1. QPI是通信更加方便
QPI是在处理器中集成内存控制器的体系架构,主要用于处理器之间和系统组件之间的互联通信(诸如I/O)。他抛弃了沿用多年的的FSB,CPU可直接通过内存控制器访问内存资源,而不是以前繁杂的“前端总线——北桥——内存控制器”模式。并且,与AMD在主流的多核处理器上采用的4HT3(4根传输线路,两根用于数据发送,两个用于数据接收)连接方式不同,英特尔采用了4+1 QPI互联方式(4针对处理器,1针对I/O设计),这样多处理器的每个处理器都能直接与物理内存相连,每个处理器之间也能彼此互联来充分利用不同的内存,可以让多处理器的等待时间变短(访问延迟可以下降50%以上),只用一个内存插槽就能实现与四路AMD皓龙处理器(AMD在服务器领域的处理器,与intel至强同等产品定位)同等带宽。
2. QPI、处理器间峰值带宽可达96GB/s
在intel高端的安腾处理器系统中,QPI高速互联方式使得CPU与CPU之间的峰值带宽可达96GB/s,峰值内存带宽可达34GB/s。这主要在于QPI采用了与PCI-E类似的点对点设计,包括一对线路,分别负责数据发送和接收,每一条通路可传送20bit数据。这就意味着即便是最早的QPI标准,其传输速度也能达到6.4GB/s——总计带宽可达到25.6GB/s(为FSB 1600MHz的12.8GB/S的两倍)。这样的带宽已可媲美AMD目前的总线解决方案,能满足未来CPU与CPU、CPU与芯片的数据传输要求。
3. 多核间互传资料不用经过芯片组
QPI总线可实现多核处理器内部的直接互联,而无须像以前那样还要再经过FSB进行连接。例如,针对服务器的Nehalem架构的处理器拥有至少4组QPI传输,可至少组成包括4颗处理器的4路高端服务器系统(也就是16颗运算内核至少32线程并行运作)。而且在多处理器作业下,每颗处理器可以互相传送资料,并不需要经过芯片组,从而大幅提升整体系统性能。随着未来Nehalem架构的处理器集成内存控制器、PCI-E 2.0图形接口乃至图形核心的出现,QPI架构的优势见进一步发挥出来。
4. QPI互联架构本身具有升级性
QPI采用串联方式作为讯号的传送,采用了LVDS(低电压差分信号技术,主要用于高速数字信号互联,使信号能以几百Mbps以上的速率传输)信号技术,可保证在高频率下仍能保持稳定性。QPI拥有更低的延迟及更好的架构,将包括集成的存储器控制器以及系统组件间的通信链路。
5. QPI总线架构具备可靠性和性能
可靠性、实用性和适用性特点为QPI的高可用性提供了保证。比如链接级循环冗余码验证(CRC)。出现时钟密码故障时,时钟能自动改路发送到数据信道。QPI还具备热插拔。深度改良的微架构、集成内存控制器设计以及QPI直接技术,令Nehalem拥有更出色的执行效率,在单线程同频率下,Nehalem拥有更为出色的执行效率,在单线程同频率条件下,Nehalem的运算能力在相同功耗下比现行的Penryn架构的效能可能提高30%。