热点科技

标题: 好像Cell没有IBM叫嚣的那么夸张 [打印本页]

作者: pjwxw    时间: 2006-5-6 14:38
标题: 好像Cell没有IBM叫嚣的那么夸张
好像Cell没有IBM叫嚣的那么夸张
Linpack 1kx1k (DP)
Peak GFLOPS
Actual GFLOPS
Efficiency

SPU, 3.2GHz
1.83
1.45
79.23%

8 SPUs, 3.2GHz
14.63
9.46
64.66%

Pentium4, 3.2GHz
6.4
3.1
48.44%

Pentium4 + SSE3, 3.6GHz
14.4
7.2
50.00%

Itanium, 1.6GHz
6.4
5.95
92.97%


表9 Cell BE和其它处理器关于Linpack性能的比较
好像Cell没有IBM叫嚣的那么夸张吧,而且还是内部测试,水份很多!!
作者: txl883    时间: 2006-5-6 15:43
你在这里给出的linkpack测试是双精度的,CELL的SPU能支持FP32(单精度)、FP64(双精度)、FX32(32位定点)。

在执行FP64的时候,SPU是SI2D,而且是非流水线的,性能会下降到FP32(SI4D、流水线设计)的1/10~1/14。

(FP32的throughput是1cycle,由于SI2D,FLOP是8个;相比之下FP64的throughput是7个cycle,FLOP是4个,合计下来就是FP32性能的1/14)

双精度测试是针对HPC应用,而CELL本来是设计作为PS3游戏机的,单精度和FX32就足够了,FP64只是IBM预留着自己跑科学计算用的。

网络上,Linkpack有fp32/fp64的版本供下载测试,如果想测试CELL的游戏浮点性能,应该使用单精度的版本来测试,IBM也有提供相应的fp32测试结果:

http://www-128.ibm.com/developerworks/power/library/pa-cellperf/

1 SPU
1024x1024        16.5GFLOPS        64.5%
4096x4096        22.0GFLOPS        85.9%

8 SPUs
1024x1024        73.04GFLOPS        35.7%
4096x4096        155.5GFLOPS        75.9%


另外,Pentium 4 3.6GHz即使配合上SSE3,linpack 1000*1000的双精度测试也不可能达到7.2GFLOPS,实际上它本身的双精度峰值性能也只是7.2GFLOPS而已,而不是IBM表中的14.4GFLOPS,NetBurst架构在单精度时候的性能是双精度的两倍,因此也不会是IBM文中所说的25.6GFLOPS,而应该是14.4GFLOPS。

根据Intel自己提供的最佳化双精度linpack测试结果,3.4GHz Xeon在64bit OS下跑出来的效率是84%(这是在27000*27000下录得的,而在5000*5000下只有71%,即5.1GFLOPS),换算到Pentium 4 3.6GHz上,应该是6.1GFLOPS的水平,如果是单精度就是12.xGFLOPS左右。
作者: tarick    时间: 2006-5-13 18:05
那么在现在哪种精度用的多??? 是32bit还是64bit??
谢谢大虾了!!
作者: tbcxu    时间: 2006-5-15 10:32
高人!!!!!!!!!
作者: ld1981    时间: 2006-5-21 22:45
原帖由 Edison 于 2006-5-6 15:43 发表
你在这里给出的linkpack测试是双精度的,CELL的SPU能支持FP32(单精度)、FP64(双精度)、FX32(32位定点)。

在执行FP64的时候,SPU是SI2D,而且是非流水线的,性能会下降到FP32(SI4D、流水线设计)的1/10~1/14。 ...
第一:Linpack没人关心什么单精度的成绩。linpack既然用于衡量科学计算中的浮点处理能力,从来默认就是指双精度。
第二:Cell上市起码要到明年了,和那时的处理器比,Cell在它的强项上也没什么优势可言。Conroe 3G,单精度浮点理论能力48G,双精度24G,功耗65W。。4核心的kentfield明年Q1上市,80G以上的单精度,40G以上的双精度,功耗80W。
第三:PS3的游戏性能,发布时最多和同期的中高档PC打平。CPU + GPU的综合处理能力大大超越PS3,就凭Cell那差得一塌糊涂的整数性能,根本没办法处理得过来程序逻辑。处理8个SPE的DMA中断就够PPE忙了。其实,SPE功能和GPU重叠,大多数游戏中,CPU处理的浮点真是很少。

PS3的设计思想,和十几年前的P3没有任何不同。Cell本质上是一块图像处理器,而不是一块通用处理器。Sony死抱蓝光不放,是因为他知道如果没有蓝光,晚出来一年多的PS3相对于Xbox一点卖点都没有。

如果说Cell是一块适合游戏的处理器,那Netburst架构相对于P6/K8也是,因为他们都是超长流水线,适合处理流媒体,碰到不太规则的指令流效率下降很厉害(其实在这点上Netburst已经比Cell好了不止好几个时代,PPE连OOO都没有,完全就是一个超高频率486)。Netburst的单精度浮点能力超过P6/K8一大截。后果如何,大家都看见了。
作者: zwy2008    时间: 2006-5-22 08:36
好贴!!
顶!!!!
作者: shark4587    时间: 2006-5-22 10:29
原帖由 Prescott 于 2006-5-21 10:45 PM 发表


第一:Linpack没人关心什么单精度的成绩。linpack既然用于衡量科学计算中的浮点处理能力,从来默认就是指双精度。
第二:Cell上市起码要到明年了,和那时的处理器比,Cell在它的强项上也没什么优势可言。Con ...
楼上Proscott大虾:
你知道PS2的EE实际效能到底在多少水平上下浮动么,小弟先谢了!!!
作者: k666123    时间: 2006-5-22 11:15
ps3就是用的cell
作者: listenz    时间: 2006-5-22 11:19
牛人呀。
说一堆,俺没看懂几句。

呵呵!
顶,让大伙都看看。
作者: yangwancheng    时间: 2006-5-22 15:06
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full precision,因此你说的Linpack一开始就是把双精度作为默认的精度是不准确的,在现实中只选择双精度性能只是TOP500的要求,而对于针对游戏机平台的Cell来说,只考虑双精度的性能是违背设计初衷的。

Linpack的FAQ:
“What numerical precision is required to run and benchmark and gain an entry in the Linpack Benchmark report?
In order to have an entry included in the Linpack Benchmark report the results must be computed using full precision. By full precision we generally mean 64 bit floating point arithmetic or higher. Note that this is not an issue of single or double precision as some systems have 64-bit floating point arithmetic as single precision. It is a function of the arithmetic used.”

2、MC的CELL Blade已经推出,而IBM自己的Cell Blad根据之前的新闻稿是打算在9月份左右推出,PS3的全球上市时间是今年11月。

CELL第一版采用的是90nm工艺,3.2GHz 1PPE+8PPE全动作的时候耗电是50瓦。如果采用65nm的话,估计会降低到30瓦以内,这个工艺切换动作应该在07年就会进行。

Conroe 3GHz(E6800 2.93GHz?)耗电我目前没有什么资料,不过从Conreo 3.3GHz TDP是95瓦以及Woodcrest 3GHz TDP是80瓦来看,Conroe 3GHz的TDP是80瓦恐怕是跑不了了,你的65瓦资料是从何获得的呢?

Kentsfield 3GHz?你是如何确定出80watt的?Kentsfield就是Woodcrest MCM,依然是65nm,还能比Woodcrest低?

3、关于PC和游戏机同期的性能比较,在过去一直都是PC强于同期的游戏机,例如XBOX1是Pentium III 128KB+NV25 UMA 64MB,但是这并不能反映什么,买游戏机的依然大有人在。

SPE的DMA在初始化后是不需要PPE干预的,由MFC自主式进行的。

SPE支持整数操作,7个SPE@3.2GHz的整数性能是22.4BIPS,Conroe@3GHz是18BIPS,CELL有分支HINT指令以及256KB L1 cache来降低分支消耗的性能。

未来的处理器和GPGPU在很多方面都会有重合之处,Intel的发展路线就是如此,你在指责CELL是GPU导向设计的时候,其实也是在责备英特尔的Beyond 2008构想。

CELL和Netburst相比当然有它自己的考量,因为对于游戏开发人员来说,OOO的设计比较难以衡量指令的走向,而in-order+FGMA可以在一定程度上降低这方面的性能损失,以增加运算单元和ISSUE port的设计来增加IPC成本比多线程方式高得多,在做出这些权衡取舍后CELL可以拥有高得多的整数/浮点峰值性能,也是同期内索尼为PS3所能找到的最佳选择。
作者: pao98pao    时间: 2006-5-22 15:21
Conroe XE   3.33GHz dual 4MB FSB1333MHz TDP 95W '06 Q4  $1199 (Athlon64 X2 4.16GHz相当)
Conroe E6900 3.20GHz dual 4MB FSB1066MHz  TDP 65W '06 Q4  $969 (Athlon64 X2 4.00GHz相当)
Conroe E6800 2.93GHz dual 4MB FSB1066MHz  TDP 65W '06 Q4  $749 (Athlon64 X2 3.66GHz相当)
Conroe E6700 2.67GHz dual 4MB FSB1066MHz  TDP 65W '06 Q3  $529  (Athlon64 X2 3.34GHz相当)
Conroe E6600 2.40GHz dual 4MB FSB1066MHz  TDP 65W '06 Q3  $309  (Athlon64 X2 3.00GHz相当)
Conroe E6500 2.40GHz dual 2MB FSB1066MHz  TDP 65W '06 Q4  $269  (Athlon64 X2 2.88GHz相当)
Conroe E6400 2.13GHz dual 2MB FSB1066MHz  TDP 65W '06 Q3  $239  (Athlon64 X2 2.56GHz相当)
Conroe E6300 1.86GHz dual 2MB FSB1066MHz  TDP 65W '06 Q3  $210  (Athlon64 X2 2.23GHz相当)
Conroe E6200 1.60GHz dual 2MB FSB1066MHz  TDP 65W '06 Q4  $179  (Athlon64 X2 1.92GHz相当)
Conroe E6100 1.33GHz dual 2MB FSB1066MHz  TDP 35W '07 Q1  $149  (Athlon64 X2 1.60GHz相当)


转贴
作者: iiddiioott    时间: 2006-5-22 16:54
原帖由 Edison 于 2006-5-22 15:06 发表
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和 DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full precision,因此你说的Linpack一开始就是把双精度作为默认的精度是不准确的,在现实中只选择双精度性能只是TOP500的要求,而对于针对游戏机平台的Cell来说,只考虑双精度的性能是违背设计初衷的。

Linpack的FAQ:
“What numerical precision is required to run and benchmark and gain an entry in the Linpack Benchmark report?
In order to have an entry included in the Linpack Benchmark report the results must be computed using full precision. By full precision we generally mean 64 bit floating point arithmetic or higher. Note that this is not an issue of single or double precision as some systems have 64-bit floating point arithmetic as single precision. It is a function of the arithmetic used.”
FAQ说得很明显啊,想要提交Linpack,通常需要64bit或者是80bit的成绩啊。你非要提交一个32bit的成绩又有什么意义?DP本就不是Cell的设计目标,拿用于衡量HPC性能的Linpack来衡量Cell本来就不合适。
2、MC的CELL Blade已经推出,而IBM自己的Cell Blad根据之前的新闻稿是打算在9月份左右推出,PS3的全球上市时间是今年11月。

CELL第一版采用的是90nm工艺,3.2GHz 1PPE+8PPE全动作的时候耗电是50瓦。如果采用65nm的话,估计会降低到30瓦以内,这个工艺切换动作应该在07年就会进行。

Conroe 3GHz(E6800 2.93GHz?)耗电我目前没有什么资料,不过从Conreo 3.3GHz TDP是95瓦以及Woodcrest 3GHz TDP是80瓦来看,Conroe 3GHz的TDP是80瓦恐怕是跑不了了,你的65瓦资料是从何获得的呢?

Kentsfield 3GHz?你是如何确定出80watt的?Kentsfield就是Woodcrest MCM,依然是65nm,还能比Woodcrest低?
Cell的blade?这是一个非常非常小的市场,我能想到一个合适的用处就是用在CT/核磁共振之类的地方。
至于Conroe/Woodcrest的数据,我当然不能说哪来的。
3、关于PC和游戏机同期的性能比较,在过去一直都是PC强于同期的游戏机,例如XBOX1是Pentium III 128KB+NV25 UMA 64MB,但是这并不能反映什么,买游戏机的依然大有人在。

SPE的DMA在初始化后是不需要PPE干预的,由MFC自主式进行的。

SPE支持整数操作,7个SPE@3.2GHz的整数性能是22.4BIPS,Conroe@3GHz是18BIPS,CELL有分支HINT指令以及256KB L1 cache来降低分支消耗的性能。

未来的处理器和GPGPU在很多方面都会有重合之处,Intel的发展路线就是如此,你在指责CELL是GPU导向设计的时候,其实也是在责备英特尔的Beyond 2008构想。

CELL和Netburst相比当然有它自己的考量,因为对于游戏开发人员来说,OOO的设计比较难以衡量指令的走向,而in-order+FGMA可以在一定程度上降低这方面的性能损失,以增加运算单元和ISSUE port的设计来增加IPC成本比多线程方式高得多,在做出这些权衡取舍后CELL可以拥有高得多的整数/浮点峰值性能,也是同期内索尼为PS3所能找到的最佳选择。
DMA本身就只需要处理器初始化,问题是每次DMA结束的时候都需要一次中断处理。而SPE和PPE之间的所有数据交互都需要DMA,中断次数之多可想而知。一个千兆以太网络的小包传输产生的中断就可以拖垮一个3GHz的P4处理器,以至于Linux内核在处理大网络流量的时候甚至会从中断模式切换到轮询模式,以提高性能。Cell会怎么样,我只能说不乐观。另外,如果打算用SPE来跑整数,那是不现实的。

Intel的发展思路是什么样的,这个很难说,Intel技术流派很多的,据说当年围绕Netburst的争论,说得严重点,差点要动手打起来。公开说的只是少数。个人认为CPU取代GPU是必然趋势,但是,Intel内部无论是谁都不会设计一个很弱的主核心带动很多个浮点小核心的处理器,必然会在保证一定数量的高性能通用核心的前提下,加入大量简单的附加核心。

至于程序员衡量什么指令走向,只能说你对开发不熟悉。程序员根本没有工夫去管指令的事情。Intel内部专门写IPP的工程师面对着流媒体处理程序都没工夫去一条指令一条指令的微调,更不要说普通程序员面对着逻辑处理的C++程序了。除非编译器不成熟,否则再厉害的程序员都不是编译器的对手,In-order的Itanium优化的一条准则就是:不要手工写汇编。Cell那点hint指令和EPIC指令比起来根本就提鞋都不配。线程级并行提高吞吐性能看起来当然是简单,就如同拉高频率提高单线程性能一样,但现实并不一定如此,Niagara跑最适合大规模线程并行的Web服务器还能接受,但是游戏,嘿嘿,反正高频高理论值的Netburst是有了教训。
其实MS的选择更为实际,主处理器本就不需要那么高的单精度浮点性能的。
作者: zhangliyuan    时间: 2006-5-22 20:16
原帖由 Edison 于 2006-5-22 15:06 发表
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full prec ...
Woodcrest 在B0步进后,功耗是65W。
作者: xun2000    时间: 2006-5-22 20:33
Kentsfield是Woodcrest MCM,80W TDP确实有点悬。
作者: bullet    时间: 2006-5-22 21:20
神话早已破灭
作者: ttxiaomeng    时间: 2006-5-22 21:38
原帖由 Prescott 于 2006-5-22 16:54 发表

FAQ说得很明显啊,想要提交Linpack,通常需要64bit或者是80bit的成绩啊。你非要提交一个32bit的成绩又有什么意义?DP本就不是Cell的设计目标,拿用于衡量HPC性能的Linpack来衡量Cell本来就不合适。


Cell的 ...
你用软件处理那是当然,因为p4本身不是设计来处理大批量网络处理的

现在跑大流量网络应用有卸载卡,网卡中断的影响可以忽略不计算
作者: hank55    时间: 2006-5-22 21:41
cell spe之间通信用文件系统,可见数据量不是很大,而且用dma,我估计是一次中断批量处理的
作者: zhennite    时间: 2006-5-22 21:44
原帖由 GZboy 于 2006-5-22 20:33 发表
Kentsfield是Woodcrest MCM,80W TDP确实有点悬。
Theinq说低电压版Woodcrest 2.33G TDP是40W:
http://www.theinquirer.net/?article=31131
作者: huaboo    时间: 2006-5-22 21:46
原帖由 ximimi 于 2006-5-22 21:38 发表

你用软件处理那是当然,因为p4本身不是设计来处理大批量网络处理的

现在跑大流量网络应用有卸载卡,网卡中断的影响可以忽略不计算
我只是举例说明中断对性能的影响,Offload也不是万能。
作者: hpmterry    时间: 2006-5-22 22:02
原帖由 ximimi 于 2006-5-22 21:41 发表
cell spe之间通信用文件系统,可见数据量不是很大,而且用dma,我估计是一次中断批量处理的
除了文件系统,Linux下还有什么其他的好办法吗?
数据量不大怎么能喂饱8个SPE?那可是每个号称每秒钟24GFLOPS 单精度浮点的。
作者: yuegongbingshi    时间: 2006-5-22 22:08
如果不是游戏,而仅仅是为了能够发挥cell的性能而专门写的计算程序,cell会表现出比core强大的多的性能吗?

说的是同功率、同工艺、最高频率的情况下
作者: slxgz    时间: 2006-5-22 23:42
原帖由 pcblue 于 2006-5-22 23:39 发表
第一:Linpack没人关心什么单精度的成绩。linpack既然用于衡量科学计算中的浮点处理能力,从来默认就是指双精度。
第二:Cell上市起码要到明年了,和那时的处理器比,Cell在它的强项上也没什么优势可言。Conroe  ...
COPY别人的话,拖出去弊了
作者: mafachang88    时间: 2006-5-23 01:01
看得晕乎乎
作者: 542775011    时间: 2006-5-23 01:08
Prescott当年是如何捧Netburst的,现在这个死了,又开始踩了.  RP立现.
作者: jackda66    时间: 2006-5-23 01:15
原帖由 ainomushime 于 2006-5-23 01:08 发表
Prescott当年是如何捧Netburst的,现在这个死了,又开始踩了.  RP立现.
如果不是功耗问题,Netburst又有谁能敌?Netburst设计之前卫,又岂是AMD所能比?
作者: 13102087177    时间: 2006-5-23 01:23
原帖由 Prescott 于 2006-5-23 01:15 发表

如果不是功耗问题,Netburst又有谁能敌?Netburst设计之前卫,又岂是AMD所能比?
双重标准,自相矛盾.

如果不是XXXX问题,XXXX有谁能敌?  XXXX设计前卫,岂非XXXX能比.

哈哈~~~
作者: 123666555    时间: 2006-5-23 13:21
原帖由 Prescott 于 2006-5-22 22:02 发表

除了文件系统,Linux下还有什么其他的好办法吗?
数据量不大怎么能喂饱8个SPE?那可是每个号称每秒钟24GFLOPS 单精度浮点的。
spufs我估计是用来协同spe之间调度的

spe之间有调度器

而所谓的数据很大,和他的总线带宽比起来其实很小了
作者: jiju    时间: 2006-5-24 15:26

Netburst其实是很有创意的设计,只是现在的工艺跟不上而已,而且它的分支预测是很不错的,
Intel的资料上有。
关于处理器的比较,关注理论峰值性能是不科学的,计算单元加起来很简单,让他满运转就难了!!
至于PPE还没有乱序,就太说不过去了,PS3的游戏应该多是RSX的功劳啊!
作者: heming880    时间: 2006-5-24 19:40
netburst不算是很失败,他的内存接口和分支预测都让core继承了下来,如果没有netburst,core也不会如此成功。
作者: kingkangx    时间: 2006-5-24 20:08
Netburst是失败了, 其无法一直延续到45nm。 失败的原因主要是,Netburst和工艺实际发展状况不符,是一种理想主义的失败, 也是最大的失败。
作者: cj3345    时间: 2006-6-14 15:57
不敢苟同啊 #
如果英特尔掌握了碳纳米管技术,说不定还会回归Netburst呢。。
作者: dingshuo    时间: 2006-6-14 16:05
原帖由 complexmind 于 2006-6-14 15:57 发表
不敢苟同啊 #
如果英特尔掌握了碳纳米管技术,说不定还会回归Netburst呢 #
我还是说,netburst是失败了,最重要原因是:因为有更适合45nm、32nm、22nm工艺的新架构,科技和认识都在不断发展, 昔日认为的最优之外还有更优。
作者: 76540729    时间: 2006-7-8 16:39
原帖由 hopetoknow2 于 2006-6-14 04:05 PM 发表

我还是说,netburst是失败了,最重要原因是:因为有更适合45nm、32nm、22nm工艺的新架构,科技和认识都在不断发展, 昔日认为的最优之外还有更优。
总之,这种单一加强暴力计算的“较”简单设计思路是不通的,Cell会重蹈覆辙。。
作者: lxh1973    时间: 2006-7-9 12:48
原帖由 Prescott 于 2006-5-22 16:54 发表

FAQ说得很明显啊,想要提交Linpack,通常需要64bit或者是80bit的成绩啊。你非要提交一个32bit的成绩又有什么意义?DP本就不是Cell的设计目标,拿用于衡量HPC性能的Linpack来衡量Cell本来就不合适。


Cell的 ...
受益




欢迎光临 热点科技 (http://www.itheat.com/activity/) Powered by Discuz! X3.2