Nehalem-EX:极致的性能表现
为了测试Nehalem-EX的性能,我们采用了一些实际的并发应用,测试平台采用了配置两颗至强X7560的戴尔R810,以及运行四颗至强X7350的惠普DL580 G3。在察看测试结果之前我们先来看看这两个系统的差异:惠普DL580 G3配置了4颗四核X7350,主频2.93GHz,具有4MB三级缓存;戴尔R810只配置了两颗8核心X7560,主频2.26GHz,具有12MB三级缓存;X7560支持超线程技术,而X7350不支持。虽然两个测试平台并不对等,但如果你采用的还是几年前的至强7300平台,可以从下面的数据中看到升级到至强7500平台的性能提升。
我们测试的是很多常见的应用:LAME测试,将一个152MB的WAV文件转换为256Kbps比特率的MP3文件;压缩测试,采用gzip和bzip2来压缩和解压一个55MB的MP3文件;MD5测试,计算MD5总和到152MB的文件;MP4-to-FLV测试,将一个24MB的MP4文件转化为FLV。这些测试都是单线程的,通过不断增加的并发线程可以测试物理和逻辑核心、内存带宽、内存互联以及磁盘I/O。
在测试Nehalem-EX的时候,我们分别在超线程开启/关闭的情况分别进行这些测试,操作系统是CentOS 5.4,为了消除磁盘I/O瓶颈,我们采用Ramdisk来虚拟硬盘。
在测试中,两个平台在一开始的时候差异并不明显,在8个并发线程的时候,LAME和gzip测试中四颗X7350可以和两颗Nehalem-EX相匹敌,并没有明显差异,但在其他测试中落后比较明显。在16个并发线程的时候,在所有的测试中两个平台拉开了差距,在LAME和gzip测试中四颗X7350稍微的领先了Nehalem-EX,但是在其他测试中差距明显。当并发线程的数量超过了两个平台逻辑CPU的数量,Nehalem-EX在所有测试中一路领先。
事实上,由于差距巨大,我们在48、64和96个并发线程的时候进行了很多次测试来验证结果。例如,在64个并发线程的时候,Nehalem-EX平台花费了2分钟12秒完成MP4-to-FLV的测试,而X7350平台要多花费30分钟,这是一个巨大的性能差异,随着线程数量的增加两个平台之间的性能差异更加明显。
这种令人咋舌的性能提升有着多方面的原因,老的X7350平台多出了两颗CPU,并且具有670MHz的主频优势,但是L3缓存只有4MB,而Nehalem-EX具有24MB。另外,X7350平台缺乏QuickPath架构的优势,内存总线成为瓶颈。因而,在较重的负载测试中,Nehalem-EX“秒杀”掉了X7360,尽管物理核心数量相同并且频率较低。在比较轻的负载测试中,差距并没有这么明显。
LAME MP3音频转换测试,8到96并发线程(单位秒,时间越短越好)
注意这个图表,LAME测试是将一个152MB的WAV文件转化为256Kbps的MP3文件,MP4-to-FLV测试是将24MB的MP4文件转化为FLV,硬盘采用ramdisk虚拟。X7350平台配置了4颗CPU,主频2.93GHz,4MB L3缓存。X7560平台配置了两颗8核CPU,主频2.26GHz,12MB L3缓存,6.4GT/s的QPI总线,1066MHz DDR3内存。AMD 8435 “Istanbul”平台配置了4颗6核心CPU,主频2.6GHz,9MB L3缓存,4.8GT/s HyperTransport总线,800MHz DDR2内存。另外一个AMD平台配置了4颗四核心CPU。
MP4到FLV转换测试,8到96并发线程(单位秒,时间越短越好)
更多并发线程下,Nehalem-EX优势更加明显
我们在四CPU的AMD皓龙8435服务器上运行了同样的测试,6核心、2.6GHz的“Istanbul”处理器已经发布了一年多的时间,和Nehalem-EX已经不太匹配,但是也可以做个参考。
从结果来看,24核心的AMD伊斯坦布尔系统在一些测试中可以接近开启超线程的X7560平台,尽管如此,16核心的AMD平台和没有开启超线程的X7560平台相比要差距明显,大概要落后10%。两个AMD平台都要落后于X7560平台,特别是在高并发线程的时候。毕竟AMD伊斯坦布尔不是最新的平台,AMD最近发布了12核心皓龙6100处理器,我们希望它可以和Nehalem-EX一争高下。
LAME MP3音频转换测试,64到192并发线程(单位为秒,时间越少越好)
注意这个图表,LAME测试是将一个152MB的WAV文件转化为256Kbps的MP3文件,MP4-to-FLV测试是将24MB的MP4文件转化为FLV文件。测试采用ramdisk虚拟硬盘。X7560平台配置了2颗2.26GHz的8核CPU,12MB L3缓存、6.4GT/s QPI总线、1066MHz DDR3内存。AMD 8435伊斯坦布尔平台配置了4颗主频2.6GHz的6核CPU,9MB L3缓存,4.8GT/s HT总线。另外一个AMD平台配置了4颗3核伊斯坦布尔CPU。
MP4转化为FLV测试,64到192并发线程(单位为秒,时间越少越好)