用户
 找回密码
 立即注册
搜索

好像Cell没有IBM叫嚣的那么夸张

[复制链接]

17

主题

164

帖子

114

积分

中级会员

Rank: 3Rank: 3

积分
114
发表于 2006-5-6 14:38:00
好像Cell没有IBM叫嚣的那么夸张
Linpack 1kx1k (DP)
Peak GFLOPS
Actual GFLOPS
Efficiency

SPU, 3.2GHz
1.83
1.45
79.23%

8 SPUs, 3.2GHz
14.63
9.46
64.66%

Pentium4, 3.2GHz
6.4
3.1
48.44%

Pentium4 + SSE3, 3.6GHz
14.4
7.2
50.00%

Itanium, 1.6GHz
6.4
5.95
92.97%


表9 Cell BE和其它处理器关于Linpack性能的比较
好像Cell没有IBM叫嚣的那么夸张吧,而且还是内部测试,水份很多!!
使用道具 举报 回复
发表于 2006-5-6 15:43:00
你在这里给出的linkpack测试是双精度的,CELL的SPU能支持FP32(单精度)、FP64(双精度)、FX32(32位定点)。

在执行FP64的时候,SPU是SI2D,而且是非流水线的,性能会下降到FP32(SI4D、流水线设计)的1/10~1/14。

(FP32的throughput是1cycle,由于SI2D,FLOP是8个;相比之下FP64的throughput是7个cycle,FLOP是4个,合计下来就是FP32性能的1/14)

双精度测试是针对HPC应用,而CELL本来是设计作为PS3游戏机的,单精度和FX32就足够了,FP64只是IBM预留着自己跑科学计算用的。

网络上,Linkpack有fp32/fp64的版本供下载测试,如果想测试CELL的游戏浮点性能,应该使用单精度的版本来测试,IBM也有提供相应的fp32测试结果:

http://www-128.ibm.com/developerworks/power/library/pa-cellperf/

1 SPU
1024x1024        16.5GFLOPS        64.5%
4096x4096        22.0GFLOPS        85.9%

8 SPUs
1024x1024        73.04GFLOPS        35.7%
4096x4096        155.5GFLOPS        75.9%


另外,Pentium 4 3.6GHz即使配合上SSE3,linpack 1000*1000的双精度测试也不可能达到7.2GFLOPS,实际上它本身的双精度峰值性能也只是7.2GFLOPS而已,而不是IBM表中的14.4GFLOPS,NetBurst架构在单精度时候的性能是双精度的两倍,因此也不会是IBM文中所说的25.6GFLOPS,而应该是14.4GFLOPS。

根据Intel自己提供的最佳化双精度linpack测试结果,3.4GHz Xeon在64bit OS下跑出来的效率是84%(这是在27000*27000下录得的,而在5000*5000下只有71%,即5.1GFLOPS),换算到Pentium 4 3.6GHz上,应该是6.1GFLOPS的水平,如果是单精度就是12.xGFLOPS左右。
使用道具 举报 回复 支持 反对
发表于 2006-5-13 18:05:00
那么在现在哪种精度用的多??? 是32bit还是64bit??
谢谢大虾了!!
使用道具 举报 回复 支持 反对
发表于 2006-5-15 10:32:00
高人!!!!!!!!!
使用道具 举报 回复 支持 反对
发表于 2006-5-21 22:45:00
原帖由 Edison 于 2006-5-6 15:43 发表
你在这里给出的linkpack测试是双精度的,CELL的SPU能支持FP32(单精度)、FP64(双精度)、FX32(32位定点)。

在执行FP64的时候,SPU是SI2D,而且是非流水线的,性能会下降到FP32(SI4D、流水线设计)的1/10~1/14。 ...
第一:Linpack没人关心什么单精度的成绩。linpack既然用于衡量科学计算中的浮点处理能力,从来默认就是指双精度。
第二:Cell上市起码要到明年了,和那时的处理器比,Cell在它的强项上也没什么优势可言。Conroe 3G,单精度浮点理论能力48G,双精度24G,功耗65W。。4核心的kentfield明年Q1上市,80G以上的单精度,40G以上的双精度,功耗80W。
第三:PS3的游戏性能,发布时最多和同期的中高档PC打平。CPU + GPU的综合处理能力大大超越PS3,就凭Cell那差得一塌糊涂的整数性能,根本没办法处理得过来程序逻辑。处理8个SPE的DMA中断就够PPE忙了。其实,SPE功能和GPU重叠,大多数游戏中,CPU处理的浮点真是很少。

PS3的设计思想,和十几年前的P3没有任何不同。Cell本质上是一块图像处理器,而不是一块通用处理器。Sony死抱蓝光不放,是因为他知道如果没有蓝光,晚出来一年多的PS3相对于Xbox一点卖点都没有。

如果说Cell是一块适合游戏的处理器,那Netburst架构相对于P6/K8也是,因为他们都是超长流水线,适合处理流媒体,碰到不太规则的指令流效率下降很厉害(其实在这点上Netburst已经比Cell好了不止好几个时代,PPE连OOO都没有,完全就是一个超高频率486)。Netburst的单精度浮点能力超过P6/K8一大截。后果如何,大家都看见了。
使用道具 举报 回复 支持 反对
发表于 2006-5-22 08:36:00
好贴!!
顶!!!!
使用道具 举报 回复 支持 反对
发表于 2006-5-22 10:29:00
原帖由 Prescott 于 2006-5-21 10:45 PM 发表


第一:Linpack没人关心什么单精度的成绩。linpack既然用于衡量科学计算中的浮点处理能力,从来默认就是指双精度。
第二:Cell上市起码要到明年了,和那时的处理器比,Cell在它的强项上也没什么优势可言。Con ...
楼上Proscott大虾:
你知道PS2的EE实际效能到底在多少水平上下浮动么,小弟先谢了!!!
使用道具 举报 回复 支持 反对
发表于 2006-5-22 11:15:00
ps3就是用的cell
使用道具 举报 回复 支持 反对
发表于 2006-5-22 11:19:00
牛人呀。
说一堆,俺没看懂几句。

呵呵!
顶,让大伙都看看。
使用道具 举报 回复 支持 反对
发表于 2006-5-22 15:06:00
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full precision,因此你说的Linpack一开始就是把双精度作为默认的精度是不准确的,在现实中只选择双精度性能只是TOP500的要求,而对于针对游戏机平台的Cell来说,只考虑双精度的性能是违背设计初衷的。

Linpack的FAQ:
“What numerical precision is required to run and benchmark and gain an entry in the Linpack Benchmark report?
In order to have an entry included in the Linpack Benchmark report the results must be computed using full precision. By full precision we generally mean 64 bit floating point arithmetic or higher. Note that this is not an issue of single or double precision as some systems have 64-bit floating point arithmetic as single precision. It is a function of the arithmetic used.”

2、MC的CELL Blade已经推出,而IBM自己的Cell Blad根据之前的新闻稿是打算在9月份左右推出,PS3的全球上市时间是今年11月。

CELL第一版采用的是90nm工艺,3.2GHz 1PPE+8PPE全动作的时候耗电是50瓦。如果采用65nm的话,估计会降低到30瓦以内,这个工艺切换动作应该在07年就会进行。

Conroe 3GHz(E6800 2.93GHz?)耗电我目前没有什么资料,不过从Conreo 3.3GHz TDP是95瓦以及Woodcrest 3GHz TDP是80瓦来看,Conroe 3GHz的TDP是80瓦恐怕是跑不了了,你的65瓦资料是从何获得的呢?

Kentsfield 3GHz?你是如何确定出80watt的?Kentsfield就是Woodcrest MCM,依然是65nm,还能比Woodcrest低?

3、关于PC和游戏机同期的性能比较,在过去一直都是PC强于同期的游戏机,例如XBOX1是Pentium III 128KB+NV25 UMA 64MB,但是这并不能反映什么,买游戏机的依然大有人在。

SPE的DMA在初始化后是不需要PPE干预的,由MFC自主式进行的。

SPE支持整数操作,7个SPE@3.2GHz的整数性能是22.4BIPS,Conroe@3GHz是18BIPS,CELL有分支HINT指令以及256KB L1 cache来降低分支消耗的性能。

未来的处理器和GPGPU在很多方面都会有重合之处,Intel的发展路线就是如此,你在指责CELL是GPU导向设计的时候,其实也是在责备英特尔的Beyond 2008构想。

CELL和Netburst相比当然有它自己的考量,因为对于游戏开发人员来说,OOO的设计比较难以衡量指令的走向,而in-order+FGMA可以在一定程度上降低这方面的性能损失,以增加运算单元和ISSUE port的设计来增加IPC成本比多线程方式高得多,在做出这些权衡取舍后CELL可以拥有高得多的整数/浮点峰值性能,也是同期内索尼为PS3所能找到的最佳选择。
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则